BR112016008870B1 - Método e sistema para avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste, e, método para criar um mascarador de sequência - Google Patents

Método e sistema para avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste, e, método para criar um mascarador de sequência Download PDF

Info

Publication number
BR112016008870B1
BR112016008870B1 BR112016008870-0A BR112016008870A BR112016008870B1 BR 112016008870 B1 BR112016008870 B1 BR 112016008870B1 BR 112016008870 A BR112016008870 A BR 112016008870A BR 112016008870 B1 BR112016008870 B1 BR 112016008870B1
Authority
BR
Brazil
Prior art keywords
sequence
coverage
sample
interest
chromosome
Prior art date
Application number
BR112016008870-0A
Other languages
English (en)
Other versions
BR112016008870A8 (pt
Inventor
Darya I. Chudova
Diana Abdueva
Richard P. Rava
Original Assignee
Verinata Health, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Verinata Health, Inc filed Critical Verinata Health, Inc
Priority claimed from PCT/US2014/061635 external-priority patent/WO2015061359A1/en
Publication of BR112016008870A8 publication Critical patent/BR112016008870A8/pt
Publication of BR112016008870B1 publication Critical patent/BR112016008870B1/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

MÉTODO E SISTEMA PARA AVALIAÇÃO DE NÚMERO DE CÓPIAS DE UMA SEQUÊNCIA DE ÁCIDOS NUCLEICOS DE INTERESSE EM UMA AMOSTRA DE TESTE, MÉTODO PARA CRIAR UM MASCARADOR DE SEQUÊNCIA, E, MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR. São descritos métodos para determinar a variação do número de cópias (CNV) conhecida ou suspeita de ser associada com uma variedade de condições médicas. Em algumas modalidades, são providos métodos para determinar a variação do número de cópias (CNV) de fetos usando amostras maternas compreendendo DNA livre de célula materna e fetal. Em algumas modalidades, são providos métodos para determinar CNVs conhecidas ou suspeitas de serem associadas com uma variedade de condições médicas. Algumas modalidades aqui descritas proveem métodos para melhorar a sensibilidade e/ou especificidade da análise dos dados de sequência removendo desvios do teor de GC na amostra. Em algumas modalidades, a remoção dos desvios do teor de GC na amostra é com base nos dados da sequência corrigidos para variação sistemática comum através das amostras de treinamento não afetadas. Também são descritos sistemas e produtos de programa de computador para a avaliação de CNV das sequências de interesse.

Description

REFERÊNCIA CRUZADA AOS PEDIDOS DE PATENTE RELACIONADOS
[001] Este pedido de patente reivindica benefícios mediante 35 U.S.C. § 119(e) para o pedido de patente provisório U.S. No. 61/893.830, intitulado: METHOD FOR IMPROVING THE SENSITIVITY OF DETECTION IN DETERMINING COPY NUMBER VARIATIONS, depositado em 21 de outubro de 2013, que está aqui incorporado pela referência na íntegra para todos os propósitos.
FUNDAMENTOS DA INVENÇÃO
[002] Um dos esforços críticos na pesquisa médica humana é a descoberta de anormalidades genéticas que produzem consequências adversas à saúde. Em muitos casos, genes específicos e/ou marcadores de diagnóstico críticos foram identificados em porções do genoma, que estão presentes no número de cópias anormal. Por exemplo, em diagnóstico pré-natal, cópias extra ou faltando dos cromossomos totais frequentemente ocorrem em lesões genéticas. Em câncer, deleção ou multiplicação das cópias dos cromossomos totais ou segmentos cromossômicos e maior nível de amplificações das regiões específicas do genoma, são ocorrências comuns.
[003] A maioria das informações sobre variação no número de cópias (CNV) foi provida por resolução citogenética, que permitiu o reconhecimento das anormalidades estruturais. Procedimentos convencionais para seleção genética e dosimetria biológica utilizaram procedimentos invasivos, por exemplo, amniocentese, cordocentese ou biópsia do vilo coriônico (CVS), para obter células para a análise de cariótipos. O reconhecimento da necessidade de métodos de teste mais rápidos, que não requerem cultura celular, hibridização in sito com fluorescência (FISH), PCR com fluorescência quantitativa (QF-PCR) e hibridização genômica comparativa por arranjo (arranjo-CGH) foram desenvolvidos como métodos citogenéticos moleculares para a análise de variações no número de cópia.
[004] Um dos esforços críticos na pesquisa médica humana é a descoberta de anormalidades genéticas que produzem consequências adversas à saúde. Em muitos casos, genes específicos e/ou marcadores de diagnóstico críticos foram identificados em porções do genoma, que estão presentes no número de cópias anormal. Por exemplo, em diagnóstico pré-natal, cópias extra ou faltando dos cromossomos totais frequentemente ocorrem em lesões genéticas. Em câncer, deleção ou multiplicação das cópias dos cromossomos totais ou segmentos cromossômicos e maior nível de amplificações das regiões específicas do genoma, são ocorrências comuns.
[005] A maioria das informações sobre variação no número de cópias (CNV) foi provida por resolução citogenética, que permitiu o reconhecimento das anormalidades estruturais. Procedimentos convencionais para seleção genética e dosimetria biológica utilizaram procedimentos invasivos, por exemplo, amniocentese, cordocentese ou biópsia do vilo coriônico (CVS), para obter células para a análise de cariótipos. O reconhecimento da necessidade de métodos de teste mais rápidos, que não requerem cultura celular, hibridização in sito com fluorescência (FISH), PCR com fluorescência quantitativa (QF-PCR) e hibridização genômica comparativa por arranjo (arranjo-CGH) foram desenvolvidos como métodos citogenéticos moleculares para a análise de variações no número de cópia.
[006] O advento das tecnologias que permitem sequenciamento de todo o genoma em tempo relativamente curto e a descoberta do DNA livre de célula circulante (cfDNA) proveram a oportunidade de comparar material genético que origina de um cromossomo com o de um outro sem o risco associado com métodos de amostragem invasivos, que provê uma ferramenta para diagnosticar vários tipos de variações no número de cópias das sequências genéticas de interesse.
[007] Diagnóstico da variação no número de cópias (CNV) em algumas aplicações envolveu desafios técnicos aumentados. Por exemplo, o diagnóstico pré-natal não invasivo (NIPD) de CNV para gravidez de múltiplos fraternos (ou polizigóticos) é mais difícil que o para gravidez única, em virtude de a fração total do cfDNA fetal não alterar proporcionalmente com o número de fetos, diminuindo a fração fetal de cfDNA por uma ordem do número de fetos que, por sua vez, reduz o sinal de ruído na análise. Adicionalmente, diagnóstico com base no cromossomo Y, tal como identificação de sexo, é afetado por limitações relacionadas ao cromossomo Y. Especificamente, a cobertura do cromossomo Y é menor que dos autossomos e sequências repetidas no cromossomo Y complicam o mapeamento das leituras para seu local correto. Além do mais, alguns protocolos de sequenciamento atuais utilizam leituras ultracurtas, tais como leituras 25mer e marcadores, apresentando ainda um outro desafio de alinhamento, uma vez que marcadores 25mer são menores que o tamanho típico dos elementos que podem ser repetidos mais onipresentes. Algumas modalidades aqui descritas proveem métodos para melhorar a sensibilidade e/ou especificidade na análise dos dados de sequência para a avaliação de CNV.
[008] Limitações dos métodos existentes em diagnósticos pré-natais não invasivos, que incluem sensibilidade insuficiente resultante dos níveis limitados de cfDNA e as inclinações de sequenciamento da tecnologia que resulta da natureza inerente da informação genômica, fundamentam a necessidade contínua de métodos não invasivos, que proveriam qualquer ou todos de especificidade, sensibilidade e aplicabilidade, para confiavelmente diagnosticar as mudanças no número de cópias em uma variedade de ajustes clínicos. Modalidades aqui descritas preenchem algumas das necessidades anteriores e, em particular, proveem um método confiável que é aplicável para a prática dos diagnósticos pré-natais não invasivos.
SUMÁRIO
[009] Em algumas modalidades, métodos são providos para determinar a variação no número de cópias (CNV) de qualquer aneuploidia fetal e CNVs conhecidas ou suspeitas de serem associadas com uma variedade de condições médicas. Os métodos incluem mecanismo para reduzir ruído e erro relacionado à flutuação do GC das sequências genômicas. CNV, que pode ser determinado de acordo com o presente método, inclui trissomias e monossomias de qualquer um ou mais dos cromossomos 1 a 22, X e Y, outras polissomias cromossômicas e deleções e/ou duplicações dos segmentos de qualquer um ou mais dos cromossomos.
[0010] Uma outra modalidade provê um método para identificar variação no número de cópias (CNV) de uma sequência de ácidos nucleicos de interesse, por exemplo, uma sequência clinicamente relevante, em uma amostra de teste. O método estima variação no número de cópias das sequências de interesse em vez de completar cromossomos ou segmentos de cromossomos.
[0011] Em algumas modalidades, o método é implementado em um sistema de computador que inclui um ou mais processadores e memória do sistema para avaliar o número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste compreendendo ácidos nucleicos de um ou mais genomas. O método inclui: (a) prover leituras de sequência obtidas por uma sequência de ácidos nucleicos da amostra de teste; (b) alinhar as leituras de sequência da amostra de teste a um genoma de referência compreendendo a sequência de ácidos nucleicos de interesse, provendo assim marcadores da sequência de teste; (c) determinar uma cobertura dos marcadores da sequência de teste localizada em cada intervalo, em que o genoma de referência é dividido em uma pluralidade de intervalos; (d) prover um perfil global para a sequência de ácidos nucleicos de interesse, em que o perfil global compreende uma cobertura esperada em cada intervalo e em que a cobertura esperada é obtida de um conjunto de treinamento de amostras de treinamento não afetadas (por exemplo, diploide) sequenciadas e alinhadas substancialmente da mesma maneira que a amostra de teste, a cobertura esperada apresentando variação de intervalo para intervalo; (e) ajustar a cobertura dos marcadores da sequência de teste usando a cobertura esperada em cada intervalo de pelo menos a sequência de ácidos nucleicos de interesse, obtendo assim coberturas corrigidas com o perfil global para a sequência de ácidos nucleicos de interesse; (f) ajustar as coberturas corrigidas com o perfil global com base na relação entre níveis de teor de GC e as coberturas corrigidas com o perfil global, obtendo assim coberturas corrigidas por GC da amostra para a sequência de ácidos nucleicos de interesse; e (g) avaliar um número de cópias da sequência de ácidos nucleicos de interesse na amostra de teste com base nas coberturas corrigidas por GC da amostra. Em algumas modalidades, a cobertura determinada na etapa (c) é obtida depois da normalização para diferenças de profundidade da biblioteca. A normalização da biblioteca pode envolver dividir a cobertura pelo número total de mapeamento de leituras pelos cromossomos robustos esperados por ser diploide, conforme aqui descrito. Alternativamente, a normalização da profundidade da biblioteca pode envolver dividir a cobertura pelo número de mapeamento de leituras pelo genoma total, produzindo assim sequenciamento de uma razão de densidade do marcador. Em algumas modalidades, os dados de sequenciamento para uma amostra em si podem ser usados para derivar regiões genômicas que se estima ter cobertura diploide e usam as regiões na normalização da biblioteca. Normalização da profundidade da biblioteca é realizada separadamente de outras formas de normalização tipicamente realizadas depois (c), tal como normalização da cobertura corrigida pelo perfil global obtida em (f). Uma outra forma de “normalização” produz uma “dosagem de sequência”, conforme aqui descrito a seguir.
[0012] Em algumas modalidades, o método adicionalmente envolve, antes da operação (c) determinar coberturas de intervalos, aplicar um marcador de sequência, que não leva em consideração, coberturas em intervalos marcados. Em algumas modalidades, o marcador de sequência é obtido de leituras de sequência de uma pluralidade de amostras de treinamento não afetadas. O marcador de sequência é obtido alinhando as leituras de sequência do conjunto de treinamento ao genoma de referência, provendo assim marcadores de sequência de treinamento para as amostras de treinamento. O método também envolve dividir o genoma de referência em uma pluralidade de intervalos e determinar uma cobertura dos marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento. O método adicionalmente envolve criar um marcador de sequência compreendendo intervalos não marcados e marcados. Cada intervalo marcado tem um índice de distribuição que excede um limiar de mascaramento, o índice de distribuição com relação à distribuição as coberturas das amostras de treinamento. Em algumas modalidades, o índice de distribuição usado para determinar intervalos marcados e não marcados é matematicamente relacionado à variância das coberturas das amostras de treinamento, por exemplo, um coeficiente de variação. O índice de distribuição é implementado como um critério para intervalos de mascaramento em virtude de um intervalo que apresenta uma grande variabilidade ou variância entre as amostras de treinamento ter um alto índice de distribuição e, desta forma, ser não confiável para uso na caracterização do número de cópia.
[0013] Em algumas modalidades, o método primeiro remove variação sistemática comum nas amostras de treinamento não afetadas (ou um perfil global) antes de criar ou aplicar um marcador de sequência. Isto pode ser feito ajustando a cobertura dos marcadores de sequência de treinamento de acordo com a cobertura esperada em cada intervalo, obtendo assim coberturas corrigidas com o perfil global dos marcadores de sequência de treinamento nos intervalos, que são então usados para criar um marcador de sequência. Em algumas modalidades, uma quantidade de cobertura normalizada é usada para calcular a marcador. A quantidade de cobertura normalizada é a razão de uma cobertura de uma sequência de ácidos nucleicos de interesse sobre uma cobertura de uma sequência de normalização. Em algumas modalidades, os intervalos marcados na sequência de ácidos nucleicos de interesse têm um primeiro limiar de mascaramento e os intervalos marcados em uma sequência de normalização têm um segundo limiar de mascaramento. Em algumas modalidades, a combinação do primeiro limiar de mascaramento e do segundo limiar de mascaramento provê um marcador de sequência que resulta em uma menor variação da cobertura sobre uma região, incluindo a sequência de interesse em amostras não afetadas que marcadores obtidos usando outros limiares. A variação da cobertura reflete a capacidade do marcador de sequência de controlar variância através das amostras e correr e, assim, uma menor variação aumenta a separação entre amostras afetadas e não afetadas. Em algumas modalidades, os limiares de mascaramento resultam em um pequeno coeficiente de variância da coberturas em amostras de validação e/ou um valor d grande em uma análise ROC.
[0014] Em algumas modalidades, o marcador de sequência inclui intervalos marcados e intervalos não marcados, definidos pela distribuição das pontuações da qualidade do mapeamento através das amostras de treinamento nos intervalos. As pontuações da qualidade do mapeamento são derivadas do alinhamento das leituras de sequência de uma pluralidade de amostras de treinamento não afetadas ao genoma de referência.
[0015] Em algumas modalidades, a avaliação do número de cópias da sequência de ácidos nucleicos de interesse na amostra de teste compreende calcular uma dosagem de sequência da sequência de ácidos nucleicos de interesse para a amostra de teste usando informação da cobertura de uma sequência de normalização. Em algumas modalidades, o cálculo da dosagem de sequência compreende dividir a cobertura (por exemplo, cobertura corrigida por GC da amostra) dos marcadores da sequência de teste na sequência de ácidos nucleicos de interesse pela cobertura dos marcadores da sequência de teste em uma sequência de normalização. Outros métodos podem ser usados para calcular dosagem de sequência, tal como usando uma regressão linear ou uma regressão linear robusta para modelar as coberturas normalizadas de uma sequência de interesse das coberturas normalizadas de outras regiões de normalização do genoma.
[0016] Em algumas modalidades, a sequência de normalização compreende uma ou mais sequências de autossomos robusta ou segmentos da mesma. Em algumas modalidades, os autossomos robustos incluem todos autossomos, exceto o cromossomo(s) de interesse. Em algumas modalidades, os autossomos robustos incluem todos os autossomos, exceto chr X, Y, 13, 18 e 21. Em algumas modalidades, os autossomos robustos incluem todos os autossomos, exceto os determinados de uma amostra para desviar de um estado diploide normal.
[0017] Em algumas modalidades, a avaliação do número de cópias adicionalmente inclui calcular um valor de cromossomo normalizado ou um valor de segmento normalizado da sequência de ácidos nucleicos de interesse para a amostra de teste usando informação da cobertura de uma sequência de normalização.
[0018] Em algumas modalidades, a amostra de teste inclui uma mistura de ácidos nucleicos de dois diferentes genomas. Em algumas modalidades, a amostra de teste inclui moléculas de cfDNA. Em algumas modalidades, a amostra de teste inclui ácidos nucleicos livres de célula fetais e maternos. Em algumas modalidades, a amostra de teste inclui ácidos nucleicos livres de célula fetais de dois ou mais fetos. Em algumas modalidades, a amostra de teste compreende ácidos nucleicos (DNA e/ou cfDNA genômico celular) de células cancerosas e não afetadas do mesmo indivíduo.
[0019] Em algumas modalidades, a avaliação do número de cópias da sequência de ácidos nucleicos de interesse na amostra de teste envolve determinar a presença ou ausência de uma aneuploidia fetal completa ou parcial.
[0020] Em algumas modalidades, depois da operação (f) de obter cobertura corrigida por GC da amostra, o método adicionalmente envolve remover intervalos fora da curva da cobertura corrigida por GC da amostra a partir da consideração na avaliação de CNV. Em algumas modalidades, os intervalos fora da curva são intervalos cuja cobertura corrigida por GC da amostra mediana são mais que cerca de 3 desvios absolutos medianos da mediana de todos os intervalos em cada cromossomo.
[0021] Em algumas modalidades, a cobertura esperada em cada intervalo é a mediana ou média através das amostras de treinamento. Em algumas modalidades, cobertura nas amostras de treinamento é corrigida para variação do teor de GC antes de computar o perfil global como a cobertura normalizada mediana ou média.
[0022] Em algumas implementações, coberturas dos marcadores da sequência de teste são ajustadas: (i) obtendo uma relação matemática entre a cobertura dos marcadores da sequência de teste em função da cobertura esperada em uma pluralidade de intervalos em um ou mais cromossomos ou regiões robustos e (ii) aplicando a relação matemática aos intervalos na sequência de interesse. Em algumas implementações, as coberturas em uma amostra de teste são corrigidas para a variação usando uma relação linear entre os valores de cobertura esperados das amostras de treinamento não afetadas e valores de cobertura para a amostra de teste em cromossomos robustos ou outras regiões robustas do genoma. Os resultados do ajuste nas coberturas corrigidas com o perfil global. Em alguns casos, o ajuste envolve obter coberturas para uma amostra de teste para um subconjunto de intervalos em cromossomos ou regiões robustos como se segue:onde ya é cobertura de intervalo a para a amostra de teste em um ou mais cromossomos ou regiões robustos e gwpa é o perfil global para intervalo a para amostras de treinamento não afetadas. O processo então computa uma cobertura corrigida pelo perfil global zb para uma sequência ou região de interesse como:
[0023] onde yb é a cobertura de intervalo b observada para a amostra de teste na sequência de interesse (que pode residir fora de um cromossomo ou região robusto) e gwpb é o perfil global para intervalo b para amostras de treinamento não afetadas. O dominador (intercepção + desvio * gwpb) é a cobertura para intervalo b que deveria ser observado nas amostras de teste não afetadas. No caso de uma sequência de interesse que abriga uma variação no número de cópias, a cobertura observada e, assim, a cobertura corrigida pelo valor de perfil global para intervalo b desviará significativamente da cobertura de uma amostra não afetada. Por exemplo, a cobertura corrigida zb seria proporcional à fração fetal no caso de amostra trissômica para intervalos no cromossomo afetado. Este processo normaliza na amostra computando a interseção e desvio nos cromossomos robustos e então avalia como um cromossomo alvo (ou outra sequência de interesse) desvia de uma relação (conforme descrito pelo desvio e interseção) que mantém os cromossomos robustos na mesma amostra.
[0024] Em algumas modalidades, a cobertura corrigida pelo perfil global dos marcadores da sequência de teste de (e) compreende cobertura corrigida pelo perfil global dos intervalos na sequência de ácidos nucleicos de interesse e cobertura corrigida pelo perfil global dos intervalos em uma sequência de normalização.
[0025] Em algumas modalidades, o ajuste da cobertura corrigida pelo perfil global em operação (f) inclui: agrupar os intervalos no genoma de referência em uma pluralidade de grupos GC, cada grupo GC compreendendo múltiplos intervalos, em que os múltiplos intervalos contêm marcadores da sequência de teste e têm teor de GC similar; determinar um valor esperado da cobertura corrigida pelo perfil global para cada grupo GC para uma pluralidade de autossomos robustos; e ajustar a cobertura corrigida pelo perfil global dos marcadores da sequência de teste para cada grupo GC com base no valor esperado determinado do mesmo grupo GC, obtendo assim a cobertura corrigida por GC da amostra dos marcadores da sequência de teste na sequência de ácidos nucleicos de interesse.
[0026] Em algumas modalidades, o valor esperado da cobertura corrigida pelo perfil global é a média ou a mediana da cobertura para o grupo GC de uma pluralidade de autossomos robustos. Em algumas modalidades, o ajuste da cobertura corrigida pelo perfil global dos marcadores da sequência de teste é alcançado subtraindo o valor esperado da cobertura corrigida pelo perfil global.
[0027] Em algumas modalidades, o ajuste da cobertura corrigida pelo perfil global em operação (f) envolve ajustar uma função matemática linear ou não linear aos pontos de dados de uma pluralidade de autossomos robustos, em que cada ponto de dados se refere a um valor de cobertura a um valor do teor de GC. O método, então, ajusta uma cobertura por um valor igual ao valor de cobertura da função matemática no valor do teor de GC do intervalo em consideração. Em algumas modalidades, o método subtrai o valor esperado da cobertura corrigida pelo perfil global. Em outras modalidades, o método divide a quantidade de cobertura pelo valor esperado.
[0028] Em algumas modalidades, métodos para avaliar CNV também envolvem extrair DNA livre de célula de uma pluralidade de indivíduos não afetados e/ou a amostra de teste. Em algumas modalidades, os métodos também envolvem sequenciar ácidos nucleicos da amostra de teste usando um sequenciador, gerando assim leituras de sequência da amostra de teste. Em algumas modalidades, as leituras de sequência compreendem sequências de cerca de 20 a 50-bp de qualquer lugar em todo genoma de um indivíduo. Em algumas modalidades, as leituras de sequência incluem 25-mers codificados com barra.
[0029] Em algumas modalidades, as coberturas dos marcadores da sequência de teste e os marcadores de sequência de treinamento são com base nas contagens de sítio não excluído (contagens de NES), em que contagens de NES são os números de marcadores de sequência não redundantes e/ou unicamente alinhadas mapeados para sítios não excluídos.
[0030] Em algumas modalidades, a sequência de ácidos nucleicos de interesse é dividida em intervalos entre cerca de 1.000 bp e 1.000.000 bp. Em algumas modalidades, o tamanho do intervalo é cerca de 100.000 bp. Em algumas modalidades, o tamanho do intervalo é calculado com referência aos números de leituras de sequência da amostra de teste. Em algumas modalidades, os marcadores dos números de sequência em cada intervalo são pelo menos cerca de 1.000 bp.
[0031] Algumas modalidades aqui descritas proveem um método para criar um marcador de sequência para a avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse. O método inclui: (a) prover, no sistema de computador, um conjunto de treinamento compreendendo leituras de sequência de uma pluralidade de amostras de treinamento não afetadas; (b) alinhar as leituras de sequência do conjunto de treinamento a um genoma de referência compreendendo a sequência de ácidos nucleicos de interesse, provendo assim marcadores de sequência de treinamento para as amostras de treinamento; (c) dividir o genoma de referência em uma pluralidade de intervalos; (d) determinar, para cada amostra não afetada de treinamento, uma cobertura de marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento; (e) determinar, para cada intervalo, uma cobertura esperada dos marcadores de sequência de treinamento através de todas as amostras de treinamento; (f) ajustar a cobertura dos marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento de acordo com a cobertura esperada em cada intervalo, obtendo assim coberturas corrigidas com o perfil global dos marcadores de sequência de treinamento nos intervalos para cada amostra de treinamento; e (g) criar um marcador de sequência compreendendo intervalos não marcados e marcados através do genoma de referência, em que cada intervalo marcado tem uma distribuição característica que excede um limiar de mascaramento e a distribuição característica é provida para as coberturas ajustadas dos marcadores de sequência de treinamento no intervalo através das amostras de treinamento.
[0032] Em algumas modalidades, a cobertura esperada determinada em (e) para cada intervalo incluem a mediana ou média das coberturas das amostras de treinamento. Em algumas modalidades, o ajuste da cobertura dos marcadores de sequência de treinamento em operação (f) incluem subtrair a mediana ou média de cada cobertura da amostra de treinamento dos marcadores de sequência de treinamento para cada intervalo. Em algumas modalidades, o ajuste é feito dividindo cada cobertura da amostra de treinamento dos marcadores de sequência de treinamento para cada intervalo pela mediana ou média.
[0033] Em algumas modalidades, os intervalos marcados na sequência de ácidos nucleicos de interesse têm um primeiro limiar de mascaramento e os intervalos marcados em uma sequência de normalização têm um segundo limiar de mascaramento. Em algumas modalidades, a combinação do primeiro limiar de mascaramento e o segundo limiar de mascaramento provê um marcador de sequência que resulta em uma menor variação da cobertura sobre uma região incluindo a sequência de interesse em amostras não afetadas que os marcadores obtidos usando outros limiares.
[0034] Em algumas modalidades, o método para criar um marcador de sequência adicionalmente envolve, depois (f) e antes (g), ajuste das coberturas corrigidas com o perfil global para os intervalos de cada amostra de treinamento com base na relação entre nível do teor de GC e a cobertura corrigida pelo perfil global existente em cada amostra de treinamento, obtendo assim coberturas corrigidas por GC da amostra dos marcadores de sequência de treinamento para cada amostra de treinamento.
[0035] Em algumas modalidades, o ajuste da coberturas corrigidas com o perfil global para cada amostra de treinamento envolve: agrupar todos os intervalos no genoma de referência em uma pluralidade de grupos GC, cada grupo GC compreendendo múltiplos intervalos tendo similar teor de GC; determinar um valor esperado da cobertura corrigida pelo perfil global para cada grupo GC para uma pluralidade de autossomos robustos; e ajustar a cobertura corrigida pelo perfil global dos marcadores de sequência de treinamento para cada grupo GC com base no valor esperado determinado do mesmo grupo GC, obtendo assim a cobertura corrigida por GC da amostra dos marcadores de sequência de treinamento na sequência de ácidos nucleicos de interesse.
[0036] Em algumas modalidades, o valor esperado da cobertura corrigida pelo perfil global é a média ou a mediana da cobertura para o grupo GC de uma pluralidade de autossomos robustos. Em algumas modalidades, o ajuste da cobertura corrigida pelo perfil global dos marcadores de sequência de treinamento envolve subtrair o valor esperado da cobertura corrigida pelo perfil global.
[0037] Em algumas modalidades, o ajuste das coberturas corrigidas com o perfil global para cada amostra de treinamento envolve: ajustar uma função matemática linear ou não linear aos pontos de dados de uma pluralidade de autossomos robustos, em que cada ponto de dados se refere a um valor de cobertura a um valor do teor de GC. O método então ajusta a cobertura corrigida pelo perfil global dos marcadores de sequência de treinamento em cada intervalo com base em um valor esperado da cobertura para cada intervalo, que se iguala ao valor de cobertura da função matemática no valor do teor de GC do intervalo.
[0038] Em algumas modalidades, o ajuste da cobertura corrigida pelo perfil global dos marcadores de sequência de treinamento compreende subtrair o valor esperado da cobertura corrigida pelo perfil global. Em outras modalidades, a cobertura é dividida pelo valor esperado.
[0039] Em algumas modalidades, a amostra de teste pode ser uma amostra materna selecionada de amostras de sangue, plasma, soro, urina e saliva. Em qualquer uma das modalidades, a amostra de teste pode ser amostra de plasma. As moléculas de ácido nucleico da amostra materna são uma mistura de moléculas de DNA livre de célula fetal e materna. Sequenciamento dos ácidos nucleicos pode ser realizado usando sequenciamento de última geração (NGS). Em algumas modalidades, sequenciamento é sequenciamento massivamente paralelo usando sequenciamento-por-síntese com terminadores de corante reversíveis. Em outras modalidades, sequenciamento é sequenciamento-por-ligação. Ainda em outras modalidades, sequenciamento é sequenciamento de molécula única. Opcionalmente, uma etapa de amplificação é realizada antes do sequenciamento.
[0040] Uma outra modalidade provê um método para identificar variação no número de cópias (CNV) de uma sequência de ácidos nucleicos de interesse, por exemplo, uma sequência clinicamente relevante, em uma amostra de teste. O método estima variação no número de cópias de sequências de interesse em vez de cromossomos completos ou segmentos de cromossomos.
[0041] Em certas modalidades enunciadas em um sistema de computador, os marcadores do número de sequência identificados para cada de um ou mais cromossomos de interesse ou cromossomo segmentos de interesse é pelo menos cerca de 10.000 ou pelo menos cerca de 100.000.
[0042] As modalidades descritas também fornecem um produto de programa de computador incluindo um meio que pode ser lido em computador não transitório no qual são providas instruções do programa para realizar as operações citadas e outras operações computacionais aqui descritas.
[0043] Algumas modalidades fornecem um sistema para a avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste. O sistema inclui um sequenciador para receber ácidos nucleicos da amostra de teste provendo informação da sequência de ácidos nucleicos da amostra, um processador; e um ou mais meios de armazenamento que podem ser lidos em computador tendo armazenados neles instruções para execução no dito processador para avaliar número de cópias na amostra de teste usando o método aqui citado.
[0044] Em algumas modalidades, um método adicionalmente inclui sequenciamento de pelo menos uma porção das ditas moléculas de ácido nucleico da dita amostra de teste para obter a dita informação da sequência para as ditas moléculas de ácido nucleico fetais e maternas da dita amostra de teste. O sequenciamento pode envolver sequenciamento massivamente paralelo em ácidos nucleicos maternos e fetais da amostra materna de teste para produzir as leituras de sequência.
[0045] Embora os exemplos aqui se refiram a humanos e a linguagem seja principalmente direcionada aos humanos, os conceitos aqui descritos são aplicáveis aos genomas de qualquer planta ou animal. Estes e outros objetivos e características da presente descrição ficarão mais completamente evidentes a partir da seguinte descrição e reivindicações em anexo ou podem ser aprendidas pela prática da descrição, conforma apresentado daqui em diante.
INCORPORAÇÃO PELA REFERÊNCIA
[0046] Todas as patentes, pedidos de patente e outras publicações, incluindo todas as sequências descritas nestas referências, referidas aqui são expressamente incorporadas pela referência, até o ponto como se cada publicação, patente ou pedido de patente individual fosse específica e individualmente indicado para ser incorporado pela referência. Todos os documentos citados estão, em parte relevante, aqui incorporados pela referência na íntegra para os propósitos indicados pelo contexto de sua citação aqui. Entretanto, a citação de qualquer documento não deve ser considerada como uma admissão que ela é técnica anterior com relação à presente descrição.
BREVE DESCRIÇÃO DOS DESENHOS
[0047] Figura 1 é um fluxograma de um método 100 para determinar a presença ou ausência de uma variação no número de cópias em uma amostra de teste compreendendo uma mistura de ácidos nucleicos.
[0048] Figura 2 apresenta um fluxograma de um processo para determinar cobertura de uma sequência de ácidos nucleicos de interesse usada para a avaliação de o número de cópia.
[0049] Figura 3A mostra um fluxograma de um exemplo de um processo para reduzir o ruído nos dados da sequência de uma amostra de teste.
[0050] Figuras 3B-3K apresenta análises dos dados obtidos em vários estágios do processo apresentado na figura 3A.
[0051] Figura 4A mostra um fluxograma de um processo para criar um marcador de sequência para reduzir ruído em dados de sequência.
[0052] Figura 4B mostra que a pontuação MapQ tem uma forte correlação monótona com CV das quantidades de cobertura normalizada.
[0053] Figura 5 é um diagrama em bloco de um sistema disperso para processar uma amostra de teste e, finalmente, fazer um diagnóstico.
[0054] Figura 6 esquematicamente ilustra como operações diferentes no processamento das amostras de testes podem ser agrupadas para ser manuseadas por diferentes elementos de um sistema.
[0055] Figuras 7A e 7B mostram eletrogramas de uma biblioteca de sequenciamento de cfDNA preparada de acordo com o protocolo abreviado descrito no exemplo 1a (Figura 7A) e o protocolo descrito no exemplo 1b (Figura 7B).
[0056] Figura 8 mostra distribuições do valor de cromossomo normalizado (NCV) para amostras de plasma materno de 118 gravidezes de gêmeos. (a) Distribuições de NCV para cromossomos 21 e 18; três amostras foram classificadas como afetadas por T21 (incluindo um feto que foi mosaico para T21) e uma amostra foi classificada como afetada por T18. (B) Distribuição de NCV para cromossomo Y. O coorte foi dividido em amostras que foram clinicamente classificadas como fêmea/fêmea ou amostras que continham pelo menos um feto macho (macho/fêmea e macho/macho) e a presença do cromossomo Y foi determinada usando o NCV para o cromossomo Y.
[0057] Figura 9 mostra amostras de gêmeos analisadas em estudos NIPT. Número das amostras de gêmeos usadas em vários estudos para estimar o desempenho dos testes NIPT comercialmente disponíveis.
DESCRIÇÃO DETALHADA
[0058] As modalidades descritas se referem aos métodos, aparelho e sistemas para a avaliação de número de cópias de o cromossomo Y em uma amostra de teste compreendendo ácidos nucleicos livres de célula fetais e maternos. Em algumas modalidades, sequências de interesse incluem sequências de segmento genômico que variam de, por exemplo, quilobases (kb) a megabases (Mb) a cromossomos totais que são conhecidos ou são suspeitos de estar associados com uma condição genética ou uma doença. Em algumas modalidades, número de cópias do cromossomo Y é usado para determinar o sexo fetal. Em algumas modalidades, CNV, que pode ser determinado de acordo com o presente método, inclui monossomias e trissomias do cromossomo Y sexual (por exemplo 47,XXY e 47,XYY), outras polissomias dos cromossomos do sexo, tais como tetrassomia do e pentassomias (por exemplo, XXXXY e XYYYY) e deleções e/ou duplicações de segmentos de qualquer um ou mais dos cromossomos sexuais. Outros exemplos das sequências de interesse incluem cromossomos associados com aneuploidias bem conhecidas, por exemplo, trissomia do XXX, trissomia do 21 e segmentos de cromossomos que são multiplicados em doenças, tal como câncer, por exemplo, trissomia do parcial do 8 em leucemia melodie aguda.
[0059] A menos que de outra forma indicado, a prática do método e sistema aqui descritos envolve técnicas convencionais e aparelho comumente usado em biologia molecular, microbiologia, purificação de proteína, modificação genética de proteína, sequenciamento de proteína e DNA e campos de DNA recombinada, que estão nas habilidades da técnica. Tis técnicas e aparelho são conhecidos por versados na técnica e são descritos em inúmeros textos e palavras de referência (Ver, por exemplo, Sambrook et al., “Molecular Cloning: A Laboratory Manual”, Terceira Edição (Cold Spring Harbor), [2001]); e Ausubel et al., “Current Protocols in Molecular Biology” [1987]).
[0060] Faixas numéricas são inclusivas dos números que definem a faixa. Pretende-se que cada limitação numérica máxima dada em todo este pedido de patente inclua cada limitação numérica inferior como se tais limitações numéricas inferiores fossem expressamente escritas aqui. Toda limitação numérica mínima dada em todo este pedido de patente incluirá toda limitação numérica superior, como se tais limitações numéricas superiores fossem expressamente aqui escritas. Toda faixa numérica dada em todo este pedido de patente incluirá toda faixa numérica mais estreita que cai em tal faixa numérica mais ampla, como se tais faixas numéricas mais estreitas fossem expressamente escritas aqui.
[0061] Os cabeçalhos aqui providos não devem limitar a descrição.
[0062] A menos que de outra forma aqui definido, todos os termos técnicos e científicos aqui usados têm o mesmo significado comumente entendido por um versado na técnica. Vários dicionários científicos que incluem os termos aqui incluídos são bem conhecidos e disponíveis para os versados na técnica. Embora quaisquer métodos e materiais similares ou equivalentes aos aqui descritos encontrem uso na prática ou teste das modalidades aqui descritas, alguns métodos e materiais são descritos.
[0063] Os termos definidos imediatamente a seguir são mais completamente descritos pela referência ao pedido de patente como um todo. Deve-se entender que esta descrição não é limitada à metodologia, protocolos e reagentes particulares descritos, uma vez que estes podem variar, dependendo do contexto que eles são usados por versados na técnica.
Definições
[0064] Da forma aqui usada, os termos singulares “um”, “uma”, “o” e “a” incluem a referência no plural, a menos que o contexto claramente indique o contrário.
[0065] A menos que de outra forma indicado, ácidos nucleicos são escritos da esquerda para a direita em orientação 5’ a 3’ e sequências de aminoácidos são escritas da esquerda para a direita em orientação amino a carbóxi, respectivamente.
[0066] O termo “estimativa” quando usado no contexto de analisar uma amostra de ácido nucleico para CNV se refere à caracterização do estado de uma aneuploidia cromossômica ou de segmento por um de três tipos de validades: “normal” ou “não afetada”, “afetada”, e “sem validade”. Limiares para validade normal e afetada são tipicamente definidos. Um parâmetro relacionado à aneuploidia ou outra variação no número de cópias é medido em uma amostra e o valor medido é comparado aos limiares. Para aneuploidias tipo duplicação, uma validade de afetado é feita se uma dose do cromossomo ou segmento (ou outro teor da sequência de valor medido) é acima de um limiar definido determinado para amostras afetadas. For tais aneuploidias, uma validade de normal é feita se a dose do cromossomo ou segmento for abaixo de um limiar estabelecido para amostras normais. Ao contrário, para aneuploidias tipo de deleção, uma validade de afetada é feita se uma dose do cromossomo ou segmento for abaixo de um limiar definido para amostras afetadas e uma validade de normal é feita se a dose do cromossomo ou segmento for acima de um limiar estabelecido para amostras normais. Por exemplo, na presença de trissomia, a validade “normal” é determinada pelo valor de um parâmetro, por exemplo, uma dose de cromossomo de teste que é abaixo de um limiar definido pelo usuário de confiabilidade e a validade “afetada” é determinada por um parâmetro, por exemplo, uma dose de cromossomo de teste, que é acima de um limiar definido pelo usuário de confiabilidade. Um resultado “sem validade” é determinado por um parâmetro, por exemplo, uma dose de cromossomo de teste que cai entre os limiares para fazer uma validade “normal” ou uma “afetada”. O termo “sem validade’’ é usado indiferentemente com “não classificada”.
[0067] O termo “variação no número de cópias” aqui se refere à variação no número das cópias de uma sequência de ácidos nucleicos presente em uma amostra de teste em comparação com o número de cópias da sequência de ácidos nucleicos presente em uma amostra de referência. Em certas modalidades, a sequência de ácidos nucleicos é 1 kb ou maior. Em alguns casos, a sequência de ácidos nucleicos é um cromossomo total ou porção significativa do mesmo. Uma “variante do número de cópia” se refere à sequência de ácido nucleico em que diferenças no número de cópias são encontradas em comparação de uma sequência de ácidos nucleicos de interesse em amostra de teste com um nível esperado da sequência de ácidos nucleicos de interesse. Por exemplo, o nível da sequência de ácidos nucleicos de interesse na amostra de teste é comparado ao presente em uma amostra qualificada. Variante/variações do número de cópias incluem deleções, incluindo microdeleções, inserções, incluindo microinserções, duplicações, multiplicações e translocações. As CNVs englobam aneuploidias cromossômicas e aneuploidias parciais.
[0068] O termo “aneuploidia” aqui se refere a um desequilíbrio de material genético causado por uma perda ou ganho de um cromossomo total ou parte de um cromossomo.
[0069] Os termos “aneuploidia cromossômica” e “aneuploidia cromossômica completa” aqui se referem a um desequilíbrio de material genético causado por uma perda ou ganho de um cromossomo total e inclui aneuploidia da linha germinal e aneuploidia da mosaico.
[0070] Os termos “aneuploidia parcial” e “aneuploidia parcial cromossômica” aqui se referem a um desequilíbrio de material genético causado por uma perda ou um ganho de parte de um cromossomo, por exemplo, monossomia parcial e trissomia parcial e engloba desequilíbrios que resultam de translocações, deleções e inserções.
[0071] O termo “pluralidade” se refere a mais que um elemento. Por exemplo, o termo é aqui usado em referência a um número de moléculas de ácido nucleico ou marcadores de sequência que é suficiente para identificar diferenças significativas nas variações no número de cópias em amostra de testes e amostras qualificadas usando os métodos aqui descritos. Em algumas modalidades, pelo menos cerca de 3 x 106 marcadores de sequência entre cerca de 20 e 40bp são obtidos para cada amostra de teste. Em algumas modalidades, cada amostra de teste provê dados para pelo menos cerca de 5 x 106 8 x 106 10 x 106 15 x 106 20 x 106 30 x 106 40 x 106 ou 50 x 106 , x , x , x , x , x , x ou x marcadores de sequência, cada marcador de sequência compreendendo entre cerca de 20 e 40bp.
[0072] Os termos “polinucleotídeo”, “ácido nucleico” e “moléculas de ácido nucleico” são usados indiferentemente e se referem a uma sequência covalentemente ligada de nucleotídeos (isto é, ribonucleotídeos para RNA e deoxiribonucleotídeos para DNA) em que a posição 3’ da pentose de um nucleotídeo é unida por um grupo fosfodiéster na posição 5’ da pentose do seguinte. Os nucleotídeos incluem sequências de qualquer forma de ácido nucleico incluindo, mas sem se limitar a, moléculas de RNA e DNA, tais como moléculas de cfDNA. O termo “polinucleotídeo” inclui, sem limitação, polinucleotídeo de fita simples e dupla.
[0073] O termo “porção” é aqui usado em referência à quantidade de informação da sequência das moléculas de ácido nucleico fetais e maternas em uma amostra biológica que, em soma, quantifica menos que a informação da sequência de 1 genoma humano.
[0074] O termo “amostra de teste” aqui se refere a uma amostra, tipicamente derivada de um fluido biológico, célula, tecido, órgão ou organismo, compreendendo um ácido nucleico ou uma mistura de ácidos nucleicos compreendendo pelo menos uma sequência de ácidos nucleicos, que deve ser selecionada para variação no número de cópias. Em certas modalidades, a amostra compreende pelo menos uma sequência de ácidos nucleicos cujo número de cópias é suspeito de ter se submetido à variação. Tais amostras incluem, mas sem se limitar a, amostras de catarro/fluido oral, fluido amniótico, sangue, uma fração do sangue ou biópsia de agulha fina (por exemplo, biópsia cirúrgica, biópsia de agulha fina, etc.), urina, fluido peritoneal, fluido pleural e similares. Embora a amostra seja frequentemente retirada de um indivíduo humano (por exemplo, paciente), os ensaios podem ser usados para variações no número de cópias (CNVs) em amostras de qualquer mamífero incluindo, mas sem se limitar a, cães, gatos, cavalos, cabras, ovelhas, gado, porcos, etc. A amostra pode ser usada diretamente conforme obtida da fonte biológica ou depois de um pré-tratamento para modificar o caráter da amostra. Por exemplo, tal pré-tratamento pode incluir preparar plasma a partir do sangue, diluir fluidos viscosos e assim por diante. Métodos de pré-tratamento também podem envolver, mas sem se limitar a, filtração, precipitação, diluição, destilação, mistura, centrifugação, congelamento, liofilização, concentração, amplificação, fragmentação de ácido nucleico, inativação de componentes de interferência, a adição de reagentes, lise, etc. Se tais métodos de pré-tratamento forem empregados com relação à amostra, tais métodos de pré-tratamento são tipicamente de maneira tal que o(s) ácido(s) nucleico(s) de interesse permaneça na amostra de teste, algumas vezes a uma concentração proporcional à em uma amostra de teste não tratada (por exemplo, a saber, uma amostra que não é submetida a nenhum método(s) de pré-tratamento como este). Tais amostras “tratadas” ou “processadas” ainda são consideradas como amostras de “teste” biológicas com relação aos métodos aqui descritos.
[0075] O termo “amostra qualificada” ou “amostra não afetada” aqui se refere a uma amostra compreendendo uma mistura de ácidos nucleicos que estão presentes em um número de cópias conhecido ao qual os ácidos nucleicos em uma amostra de teste devem ser comparados e ela é uma amostra que é normal, isto é, não aneuploide, para a sequência de ácidos nucleicos de interesse. Em algumas modalidades, amostra qualificadas são usadas como amostras de treinamento não afetadas de um conjunto de treinamento para derivar marcador de sequências ou perfis de sequência. Em certas modalidades, amostras qualificadas são usadas para identificar um ou mais cromossomos ou segmentos de normalização para um cromossomo em consideração. Por exemplo, amostras qualificadas podem ser usadas para identificar um cromossomo de normalização para o cromossomo 21. Em um caso como este, a amostra qualificada é uma amostra que não é uma amostra de trissomia do 21. Um outro exemplo envolve usar somente fêmeas como amostras de qualificação para o cromossomo X. Amostras qualificadas também podem ser empregadas para outros propósitos, tal como determinar limiares para ligar amostras afetadas, identificar limiares para definir regiões marcadoras em uma sequência de referência, determinar quantidades de cobertura esperada para diferentes regiões de um genoma e similares.
[0076] O termo “conjunto de treinamento” aqui se refere a um conjunto de amostras de treinamento que pode compreender amostras afetadas e/ou não afetadas e é usado para desenvolver um modelo para analisar amostras de teste. Em algumas modalidades, o conjunto de treinamento inclui amostras não afetadas. Nestas modalidades, limiares para determinar CNV são estabilizados usando conjuntos de treinamento das amostras que são não afetadas para a variação no número de cópias de interesse. As amostras não afetadas em um conjunto de treinamento podem ser usadas como as amostras qualificadas para identificar sequências de normalização, por exemplo, cromossomos de normalização e as doses do cromossomo das amostras não afetadas são usadas para ajustar os limiares para cada uma das sequências, por exemplo, cromossomos, de interesse. Em algumas modalidades, o conjunto de treinamento inclui amostras afetadas. As amostras afetadas em um conjunto de treinamento podem ser usadas para verificar que amostras de teste afetadas podem ser facilmente diferenciadas das amostras não afetadas.
[0077] “Conjunto de treinamento” também é usado aqui em referência a um conjunto de indivíduos de uma amostra estatística de uma população de interesse, cujos dados individuais são usados para determinar um ou mais valores quantitativos de interesse generalizáveis para a população. A amostra estatística é um subconjunto de indivíduos na população de interesse. Os indivíduos podem ser pessoas, animais, tecidos, células, outras amostras biológicas (isto é, uma amostra estatística pode incluir múltiplas amostras biológicas) e outras entidades de indivíduo provendo pontos de dados para análise estatística.
[0078] Normalmente, um conjunto de treinamento é usado em conjunto com um conjunto de validação. O termo “conjunto de validação” é usado aqui em referência a um conjunto de indivíduos em uma amostra estatística, cujos dados individuais são usados para validar ou avaliar os valores quantitativos de interesse determinados usando um conjunto de treinamento. Em algumas modalidades, por exemplo, um conjunto de treinamento provê dados para calcular um marcador para uma sequência de referência; um conjunto de validação provê dados para validar ou avaliar o marcador.
[0079] “Avaliação do número de cópia” é aqui usada em referência à avaliação estatística do estado de uma sequência genética relacionada ao número de cópias da sequência. Por exemplo, em algumas modalidades, a avaliação compreende a determinação da presença ou ausência de uma sequência genética. Em algumas modalidades, a avaliação compreende a determinação da aneuploidia parcial ou completa de uma sequência genética. Em outras modalidades, a avaliação compreende discriminação entre duas ou mais amostras, com base no número de cópias de uma sequência genética. Em algumas modalidades, a avaliação compreende análise estatística, por exemplo, normalização e comparação, com base no número de cópias da sequência genética.
[0080] O termo “ácido nucleico qualificado” é usado indiferentemente com “sequência qualificada”, que é uma sequência contra a qual a quantidade de uma sequência de teste ou ácido nucleico de teste é comparada. Uma sequência qualificada é uma presente em uma amostra biológica, preferivelmente a uma representação conhecida, isto é, a quantidade de uma sequência qualificada é conhecida. Geralmente, uma sequência qualificada é a sequência presente em uma “amostra qualificada”. Uma “sequência qualificada de interesse” é uma sequência qualificada para qual a quantidade é conhecida em uma amostra qualificada e é uma sequência que é associada com uma diferença na representação da sequência em um indivíduo com uma condição médica.
[0081] O termo “sequência de interesse” ou “sequência de ácidos nucleicos de interesse” aqui se refere a uma sequência de ácidos nucleicos que é associada com uma diferença na representação da sequência em indivíduos saudáveis em função dos doentes. Uma sequência de interesse pode ser uma sequência em um cromossomo que é desvirtuado, isto é, sobre- ou sob- representada, em uma condição de doença ou genética. Uma sequência de interesse pode ser uma porção de um cromossomo, isto é, segmento de cromossomo ou um cromossomo total. Por exemplo, uma sequência de interesse pode ser um cromossomo que é sobre-representada em uma condição de aneuploidia ou um gene que codifica um supressor de tumor que é sob-representada em um câncer. Sequências de interesse incluem sequências que são sobre- ou sob-representadas na população total ou uma subpopulação das células de um indivíduo. Uma “sequência qualificada de interesse” é uma sequência de interesse em uma amostra qualificada. Uma “sequência de teste de interesse” é uma sequência de interesse em uma amostra de teste.
[0082] O termo “sequência de normalização” aqui se refere a uma sequência que é usada para normalizar os marcadores do número de sequência mapeados para uma sequência de interesse, associada com a sequência de normalização. Em algumas modalidades, uma sequência de normalização compreende um cromossomo robusto. Um “cromossomo robusto” é um que é improvável de ser aneuploide. Em alguns casos que envolvem o cromossomo humano, um cromossomo robusto é qualquer cromossomo a não ser o cromossomo X, cromossomo Y, cromossomo 13, cromossomo 18 e cromossomo 21. Em algumas modalidades, a sequência de normalização apresenta uma variabilidade nos marcadores do número de sequência que são mapeados entre amostras e sequenciamento acontece, que aproxima a variabilidade da sequência de interesse para a qual ele é usado como um parâmetro de normalização. A sequência de normalização pode diferenciar uma amostra afetada de uma ou mais amostras não afetadas. Em algumas implementações, a sequência de normalização melhor ou efetivamente diferencia, quando comparada a outras sequências de normalização potenciais, tais como outros cromossomos, uma amostra afetada de uma ou mais amostras não afetadas. Em algumas modalidades, a variabilidade da sequência de normalização é calculada como a variabilidade na dose do cromossomo para a sequência de interesse através das amostras e sequenciamento acontece. Em algumas modalidades, sequências de normalização são identificadas em um conjunto de amostras não afetadas.
[0083] Um “cromossomo de normalização”, “cromossomo dominador de normalização”, ou “cromossomos de normalização sequência” é um exemplo de uma “sequência de normalização”. Um “cromossomo de normalização sequência” pode ser composto de um único cromossomo ou de um grupo de cromossomos. Em algumas modalidades, uma sequência de normalização compreende dois ou mais cromossomos robustos. Em certas modalidades, os cromossomos robustos são todos cromossomos autossômicos a não ser cromossomos, X, Y, 13, 18 e 21. Um “segmento de normalização” é um outro exemplo de uma “sequência de normalização”. Um “segmento de normalização sequência” pode ser composto de um único segmento de um cromossomo ou ele pode ser composto de dois ou mais segmentos do mesmo cromossomo ou de diferentes. Em certas modalidades, uma sequência de normalização é destinada para normalizar para variabilidade, tais como variabilidade relacionada ao processo, intercromossômica (intracorrida) e inter-sequenciamento (intercorrida).
[0084] O termo “capacidade de diferenciação” aqui se refere a uma característica de um cromossomo de normalização que possibilita distinguir uma ou mais amostras não afetadas, isto é, normal, de uma ou mais amostras afetadas, isto é, aneuploides. Um cromossomo de normalização que apresenta a maior “capacidade de diferenciação” é um cromossomo ou grupo de cromossomos que provê a maior diferença estatística entre a distribuição das doses do cromossomo para um cromossomo de interesse em um conjunto de amostras qualificadas e a dose do cromossomo para o mesmo cromossomo de interesse no cromossomo correspondente em uma ou mais amostras afetadas.
[0085] O termo “variabilidade” aqui se refere a uma outra característica de um cromossomo de normalização que possibilita distinguir uma ou mais amostras não afetadas, isto é, normais de uma ou mais amostras afetadas, isto é, aneuploides. A variabilidade de um cromossomo de normalização, que é medida em um conjunto de amostras qualificadas, se refere à variabilidade nos marcadores do número de sequência que são mapeados para ela, que aproxima a variabilidade nos marcadores do número de sequência, que são mapeados para um cromossomo de interesse para o qual ele serve como um parâmetro de normalização.
[0086] O termo “densidade do marcador de sequência” aqui se refere ao número de leituras de sequência que são mapeadas para um genoma de referência sequência, por exemplo, a densidade do marcador de sequência para cromossomo 21 é o número de leituras de sequência gerado pelo método de sequenciamento que são mapeadas para o cromossomo 21 do genoma de referência.
[0087] O termo “sequência razão de densidade do marcador” aqui se refere à razão dos marcadores do número de sequência que são mapeados para um cromossomo do genoma de referência, por exemplo, cromossomo 21, para o comprimento do cromossomo do genoma de referência.
[0088] O termo “dosagem de sequência” aqui se refere a um parâmetro que se refere aos marcadores do número de sequência identificados para uma sequência de interesse e os marcadores do número de sequência identificados para a sequência de normalização. Em alguns casos, a dosagem de sequência é a razão do marcador de sequência cobertura para uma sequência de interesse para o marcador de sequência cobertura para uma sequência de normalização. Em alguns casos, a dosagem de sequência se refere a um parâmetro que se refere à densidade do marcador de sequência de uma sequência de interesse para a densidade do marcador de sequência de uma sequência de normalização. Uma “dosagem de sequência de teste” é um parâmetro que se refere à densidade do marcador de sequência de uma sequência de interesse, por exemplo, cromossomo 21, à de uma sequência de normalização, por exemplo, cromossomo 9, determinada em uma amostra de teste. Similarmente, uma “dosagem de sequência qualificada” é um parâmetro que se refere à densidade do marcador de sequência de uma sequência de interesse à de uma sequência de normalização determinada em uma amostra qualificada.
[0089] O termo “cobertura” se refere à abundância dos marcadores de sequência mapeados para uma sequência definida. Cobertura pode ser quantitativamente indicada pela densidade do marcador de sequência (ou contagem dos marcadores de sequência), sequência razão de densidade do marcador, quantidade de cobertura normalizada, valores de cobertura ajustados, etc.
[0090] O termo “quantidade de cobertura” é uma modificação da cobertura bruta e frequentemente representa a quantidade relativa dos marcadores de sequência (algumas vezes validade contagens) em uma região de um genoma, tal como um intervalo. Uma quantidade de cobertura pode ser obtida normalizando, ajustando e/ou corrigindo a cobertura bruta ou contagem para uma região do genoma. Por exemplo, uma quantidade de cobertura normalizada para uma região pode ser obtida dividindo a contagem do marcador de sequência mapeada para a região pelos marcadores de sequência de número total mapeados para todo o genoma. Quantidade de cobertura normalizada permite a comparação da cobertura de um intervalo através de diferentes amostras, que podem ter diferentes profundidades de sequenciamento. Ela difere da dosagem de sequência em que a última é tipicamente obtida dividindo pela contagem do marcador mapeada para subconjunto de todo o genoma. O subconjunto é um segmento de normalização ou cromossomo. Quantidades da cobertura, sejam ou não normalizadas, podem ser corrigidas para variação do perfil global de região para região no genoma, variações da fração G-C, pontos fora da curva nos cromossomos robustos, etc.
[0091] O termo “sequenciamento de última geração (NGS)” aqui se refere a métodos de sequenciamento que permitem sequenciamento massivamente paralelo de moléculas amplificadas por clonagem e de moléculas de ácido nucleico únicas. Exemplos não limitantes de NGS incluem sequenciamento-por-síntese usando terminadores de corante reversíveis e sequenciamento-por-ligação.
[0092] O termo “parâmetro” aqui se refere a um valor numérico que caracteriza uma propriedade física. Frequentemente, um parâmetro numericamente caracteriza um conjunto de dados quantitativos e/ou uma relação numérica entre conjunto de dados quantitativos. Por exemplo, uma razão (ou função de uma razão) entre os marcadores do número de sequência mapeados para um cromossomo e o comprimento do cromossomo ao qual os marcadores são mapeados é um parâmetro.
[0093] Os termos “valor limiar” e “valor limiar qualificado” aqui se referem a quaisquer números que são usados como um corte para caracterizar uma amostra, tal como uma amostra de teste contendo um ácido nucleico de um organismo suspeito de ter uma condição médica. O limiar pode ser comparado a um valor do parâmetro para determinar se uma amostra dá origem a tal valor do parâmetro sugere que o organismo tenha a condição médica. Em certas modalidades, um valor limiar qualificado é calculado usando um conjunto de dados de qualificação e serve como um limite de diagnóstico de uma variação no número de cópias, por exemplo, uma aneuploidia, em um organismo. Se um limiar for excedido pelos resultados obtidos a partir dos métodos aqui descritos, um indivíduo pode ser diagnosticado com uma variação no número de cópias, por exemplo, trissomia do 21. Valores limiares apropriados para os métodos aqui descritos podem ser identificados analisando os valores normalizados (por exemplo, doses do cromossomo, NCVs ou NSVs) calculados para um conjunto de treinamento das amostras. Valores limiares podem ser identificados usando amostras qualificadas (isto é, não afetadas) em um conjunto de treinamento, que compreende tanto amostras qualificadas (isto é, não afetadas) quanto amostras afetadas. As amostras no conjunto de treinamento conhecidas por ter aneuploidias cromossômicas (isto é, as amostras afetadas) podem ser usadas para confirmar que os limiares escolhidos são usados na diferenciação das amostras afetadas das não afetadas em um conjunto de teste (ver os exemplos aqui). A escolha de um limiar depende do nível de confiança que o usuário deseja ter para fazer a classificação. Em algumas modalidades, o conjunto de treinamento usado para identificar valores limiares apropriados compreende pelo menos 10, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 200, pelo menos 300, pelo menos 400, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1.000, pelo menos 2.000, pelo menos 3.000, pelo menos 4.000 ou mais amostras qualificadas. Pode ser vantajoso usar maiores conjuntos das amostras qualificadas para melhorar a utilidade diagnóstica dos valores limiares.
[0094] O termo “intervalo” se refere a um segmento de uma sequência ou um segmento de um genoma. Em algumas modalidades, intervalos são contíguos um com o outro e separados pela posição no genoma ou cromossomo. Cada intervalo pode definir uma sequência de nucleotídeos em um genoma de referência. Tamanhos do intervalo podem ser 1 kb, 100 kb, 1Mb, etc., dependendo da análise requerida por aplicações particulares e densidade do marcador de sequência. Além de suas posições em uma sequência de referência, intervalos podem ter outras características, tais como características de cobertura da amostra e estrutura da sequência, tal como fração G-C.
[0095] O termo “limiar de mascaramento” é aqui usado para se referir a uma quantidade contra a qual um valor com base nos marcadores do número de sequência em uma sequência intervalo é comparado, em que um intervalo tendo um valor que excede o limiar de mascaramento é marcado. Em algumas modalidades, o limiar de mascaramento pode ser um ranque de porcentagem, uma contagem absoluta, uma pontuação da qualidade do mapeamento ou outros valores adequados. Em algumas modalidades, um limiar de mascaramento pode ser definido como o ranque de porcentagem de um coeficiente de variação através de múltiplas amostras não afetadas. Em outras modalidades, um limiar de mascaramento pode ser definido como uma pontuação da qualidade do mapeamento, por exemplo, uma pontuação MapQ, que se refere à confiabilidade do alinhamento das leituras de sequência a um genoma de referência. Observe que um valor do limiar de mascaramento é diferente de um valor limiar da variação no número de cópias (CNV), o último sendo um corte para caracterizar uma amostra contendo um ácido nucleico de um organismo suspeito de ter uma condição médica relacionada ao CNV. Em algumas modalidades, um valor limiar CNV é definido com relação a um valor de cromossomo normalizado (NCV) ou um valor de segmento normalizado (NSV) aqui descrito.
[0096] O termo “valor normalizado” aqui se refere a um valor numérico que se refere aos marcadores do número de sequência identificados para a sequência (por exemplo cromossomo ou segmento de cromossomo) de interesse para os marcadores do número de sequência identificados para uma sequência de normalização (por exemplo cromossomos de normalização ou cromossomos de normalização segmento). Por exemplo, um “valor normalizado” pode ser uma dose do cromossomo, descrita aqui, ou pode ser um NCV ou pode ser um NSV, conforme aqui descrito.
[0097] O termo “leitura” se refere a uma leitura da sequência de uma porção de uma amostra de ácido nucleico. Tipicamente, embora não necessariamente, uma leitura representa uma sequência curta de pares de base contíguas na amostra. A leitura pode ser representada simbolicamente pela sequência de pares de base (em ATCG) da porção da amostra. Ela pode ser armazenada em um dispositivo de memória e processada conforme apropriado para determinar se ela corresponde a uma sequência de referência ou atende outros critérios. Uma leitura pode ser obtida diretamente de um aparelho de sequenciamento ou indiretamente a partir da informação da sequência armazenada com relação à amostra. Em alguns casos, uma leitura é uma sequência de DNA de comprimento suficiente (por exemplo, pelo menos cerca de 25 bp) que pode ser usada para identificar uma maior sequência ou região, por exemplo, que pode ser alinhada e especificamente designada a um cromossomo ou região genômica ou gene.
[0098] O termo “leitura genômica” é usado em referência a uma leitura de quaisquer segmentos em todo o genoma de um indivíduo.
[0099] O termo “marcador de sequência” é aqui usado indiferentemente com o termo “marcador de sequência mapeado” para se referir a uma leitura da sequência que foi especificamente designada, isto é, mapeada, para uma sequência maior, por exemplo, um genoma de referência, por alinhamento. Marcadores de sequência mapeados são unicamente mapeados para um genoma de referência, isto é, eles são designados para um local único para o genoma de referência. A menos que de outra forma especificado, marcadores que mapeiam para a mesma sequência em uma sequência de referência são contados de uma vez. Marcadores podem ser providos como estruturas de dados ou outras montagens de dados. Em certas modalidades, um marcador contém uma sequência de leitura e informação associada para a leitura, tal como o local da sequência no genoma, por exemplo, a posição em um cromossomo. Em certas modalidades, o local é especificado para uma orientação de fita positiva. Um marcador pode ser definido para prover uma quantidade limite de desalinha no alinhamento para um genoma de referência. Em algumas modalidades, marcadores que podem ser mapeados para mais que um local em um genoma de referência, isto é, marcadores que não mapeiam unicamente, podem ser incluídos na análise.
[00100] O termo “marcador de sequência não redundante” se refere aos marcadores de sequência que não mapeiam para o mesmo sítio, que é contado para o propósito de determinar valores de cromossomo normalizados (NCVs) em algumas modalidades. Algumas vezes, múltiplas leituras de sequência são alinhadas para os mesmos locais em um genoma de referência, rendendo marcadores de sequência redundantes ou duplicados. Em algumas modalidades, marcadores de sequência duplicados que mapeiam para a mesma posição são omitidos ou contados como um “marcador de sequência não redundante” para o propósito de determinar NCVs. Em algumas modalidades, marcadores de sequência não redundantes alinhados para sítios não excluídos são contados para render “contagens de sítio não excluído” (contagens de NES) para determinar NCVs.
[00101] O termo “sítio” se refere a uma única posição (isto é ID do cromossomo, posição e orientação do cromossomo) em um genoma de referência. Em algumas modalidades, um sítio pode ser um resíduo, um marcador de sequência ou uma posição do segmento em uma sequência.
[00102] “Sítios excluídos” são sítios encontrados em regiões de um genoma de referência que foram excluídos para o propósito de contar marcadores de sequência. Em algumas modalidades, sítios excluídos são encontrados nas regiões dos cromossomos que contêm sequências repetitivas, por exemplo, centrômeros e telômeros e regiões de cromossomos que são comuns a mais que um cromossomo, por exemplo, regiões presentes no cromossomo Y, que também estão presentes no cromossomo X.
[00103] “Sítios não excluídos” (NESs) são sítios que não são excluídos em um genoma de referência para o propósito de contar marcadores de sequência.
[00104] “Contagens de sítio não excluído” (contagens de NES) são os marcadores dos números de sequência que são mapeados para NESs em um genoma de referência. Em algumas modalidades, contagens de NES são os números de marcadores de sequência não redundantes mapeados para NESs. Em algumas modalidades, cobertura e parâmetros relacionados, tais quantidades de cobertura normalizada, quantidades de cobertura removida do perfil global e dose do cromossomo são com base nas contagens de NES. Em um exemplo, uma dose do cromossomo é calculada como a razão do número de contagens de NES para um cromossomo de interesse para o número de contagens de NES para um cromossomo de normalização.
[00105] Valor de cromossomo normalizado (NCV) relaciona cobertura de uma amostra de teste a coberturas de um conjunto de amostras de treinamento/ qualificadas. Em algumas modalidades, NCV é com base na dose do cromossomo. Em algumas modalidades, NCV se refere à diferença entre a dose do cromossomo de um cromossomo de interesse em uma amostra de teste e a média da dose do cromossomo correspondente em um conjunto de amostras qualificadas e pode ser calculado como:onde são a média e desvio padrão estimados, respectivamente, para a dose do cromossomo j-th em um conjunto de amostras qualificadas e é a razão de cromossomo j-th observada (dose) para a amostra de teste i.
[00106] Em algumas modalidades, NCV pode ser calculado “na mosca” relacionando a dose do cromossomo de um cromossomo de interesse em uma amostra de teste à mediana da dose do cromossomo correspondente em amostras multiplexadas sequenciadas nas mesmas células de fluxo como: onde é a mediana estimada para a dose do cromossomo j-th em um conjunto de amostras multiplexadas sequenciadas na mesma célula de fluxo; é o desvio padrão para a dose j-th do cromossomo em um ou mais conjuntos de amostras multiplexadas sequenciadas em uma ou mais células de fluxo e é a dose j-th do cromossomo observada para amostra de teste i. Nesta modalidade, amostra de teste i é uma das amostras multiplexadas sequenciadas na mesma célula de fluxo da qual é determinado.
[00107] Por exemplo, para o cromossomo de interesse 21, na amostra de teste A, que é sequenciada como uma das 64 amostras multiplexadas em uma célula de fluxo, o NCV para o cromossomo 21 na amostra de teste A é calculado como a dose do cromossomo 21 na amostra A menos a mediana da dose para o cromossomo 21 determinada nas 64 amostras multiplexadas, dividido pelo desvio padrão da dose para o cromossomo 21 determinada para as 64 amostras multiplexadas na célula de fluxo 1 ou das células de fluxo adicionais para o exemplo 20.
[00108] Da forma aqui usada, os termos “alinhado”, “alinhamento”, ou “alinhar” se referem ao processo de comparar uma leitura ou marcador a uma sequência de referência e, desta forma, determinar ser a sequência de referência contém a sequência de leitura. Se a sequência de referência contiver a leitura, a leitura pode ser mapeada para a sequência de referência ou, em certas modalidades, a um local particular na sequência de referência. Em alguns casos, o alinhamento simplesmente diz se uma leitura é ou não um membro de uma sequência de referência particular (isto é, se a leitura está presente ou ausente na sequência de referência). Por exemplo, o alinhamento de uma leitura com a sequência de referência para o cromossomo humano 13 dirá se a leitura está presente na sequência de referência para o cromossomo 13. Uma ferramenta que provê esta informação pode ser validade um conjunto de testador de adesão. Em alguns casos, um alinhamento adicionalmente indica um local na sequência de referência onde a leitura ou marcador o mapeia. Por exemplo, se a sequência de referência for a sequência de genoma humano total, um alinhamento pode indicar que uma leitura está presente no cromossomo 13 e pode adicionalmente indicar que a leitura está em uma fita e/ou sítio particular do cromossomo 13.
[00109] Leituras ou marcadores alinhados são uma ou mais sequências que são identificadas como uma combinação em termos da ordem de suas moléculas de ácido nucleico para uma sequência conhecida de um genoma de referência. Alinhamento pode ser feito manualmente, embora ele seja tipicamente implementado por um algoritmo de computador, conforme seria impossível alinhar leituras em um período de tempo razoável para implementar os métodos aqui descritos. Um exemplo de um algoritmo das sequências de alinhamento é o programa de computador Efficient Local Alignment of Nucleotide Data (ELAND) distribuído como parte da tubulação da Illumina Genomics Analysis. Alternativamente, um filtro Bloom ou conjunto de testador de adesão similar pode ser empregado para alinhar as leituras para o genoma de referências. Ver pedido de patente U.S. No. 61/552.374 depositado em 27 de outubro de 2011, que está aqui incorporado pela referência na íntegra. A combinação de uma leitura da sequência no alinhamento pode ser um 100% de combinação da sequência ou menos que 100% (combinação não perfeita).
[00110] O termo “perfil de alinhamento” é usado em referência à distribuição dos marcadores de sequência alinhados aos locais que podem ser identificados como intervalos de par de bases em uma sequência de referência de interesse.
[00111] O termo “mapeamento” usado aqui se refere especificamente à designação de uma leitura da sequência a uma maior sequência, por exemplo, um genoma de referência, por alinhamento.
[00112] Da forma aqui usada, o termo “genoma de referência” ou “sequência de referência” se refere a qualquer sequência de genoma particular conhecida, seja parcial ou completa, de qualquer organismo ou vírus que pode ser usado para referenciar sequências identificadas de um indivíduo. Por exemplo, um genoma de referência usado para indivíduos humanos, bem como muitos outros organismos é encontrada no National Center for Biotechnology Informação at ncbi.nlm.nih.gov. Um “genoma” se refere à informação genética completa de um organismo ou vírus, expresso nas sequências de ácidos nucleicos.
[00113] Em várias modalidades, a sequência de referência é significativamente maior que as leituras que são alinhadas para ela. Por exemplo, ela pode ser pelo menos cerca de 100 vezes maior ou pelo menos cerca de 1.000 vezes maior ou pelo menos cerca de 10.000 vezes maior ou pelo menos cerca de 105 vezes maior ou pelo menos cerca de 106 vezes maior ou pelo menos cerca de 107 vezes maior.
[00114] Em um exemplo, a sequência de referência é a de um genoma humano de comprimento total. Tais sequências podem ser referidas como sequências de referência genômicas. Em um outro exemplo, a sequência de referência é limitada a um cromossomo humano específico, tal como cromossomo 13. Em algumas modalidades, um cromossomo de referência Y é a sequência de cromossomo Y do genoma humano versão hg19. Tais sequências podem ser referidas como sequência de cromossomos de referência. Outros exemplos da sequência de referências incluem genomas de outras espécies, bem como cromossomos, regiões subcromossômicas (tais como fitas), etc., de qualquer espécie.
[00115] Em várias modalidades, a sequência de referência é uma sequência consenso ou outra combinação derivada de múltiplos indivíduos. Entretanto, em certas aplicações, a sequência de referência pode ser retirada de um indivíduo particular.
[00116] O termo “sequência clinicamente relevante” aqui se refere a uma sequência de ácidos nucleicos que é conhecida ou suspeita de ser associada ou implicada com uma condição genética ou doença. A determinação da ausência ou presença de uma sequência clinicamente relevante pode ser usada na determinação de um diagnóstico ou confirmação de um diagnóstico de uma condição médica ou fornecimento de um prognóstico para o desenvolvimento de uma doença.
[00117] O termo “derivado” quando usado no contexto de um ácido nucleico ou uma mistura de ácidos nucleicos, aqui se refere ao meio em que o(s) ácido(s) nucleico(s) é obtido das fontes das quais ele origina. Por exemplo, em uma modalidade, uma mistura de ácidos nucleicos que é derivada de dois diferentes genomas significa que os ácidos nucleicos, por exemplo, cfDNA, foram naturalmente liberados pelas células através de processos que ocorrem naturalmente, tal como necrose ou apoptose. Em uma outra modalidade, uma mistura de ácidos nucleicos que é derivada de dois diferentes genomas significa que os ácidos nucleicos foram extraídos de dois diferentes tipos de células de um indivíduo.
[00118] O termo “com base em” quando usado no contexto de obter um valor quantitativo específico, aqui se refere ao uso de uma outra quantidade conforme inserido para calcular o valor quantitativo específico como um resultado.
[00119] O termo “amostra do paciente” aqui se refere a uma amostra biológica obtida de um paciente, isto é, um receptor de atenção médica, cuidado ou tratamento. A amostra do paciente pode ser qualquer das amostras descritas aqui. Em certas modalidades, a amostra do paciente é obtida por procedimentos não invasivos, por exemplo, amostra de sangue periférico ou uma amostra de fezes. Os métodos aqui descritos não precisam ser limitados aos humanos. Assim, várias aplicações veterinárias são contempladas em cujo caso a amostra do paciente pode ser uma amostra de um mamífero não humano (por exemplo, um felino, um porcino, um equino, um bovino e similares).
[00120] O termo “amostra mista” aqui se refere a uma amostra contendo uma mistura de ácidos nucleicos, que são derivados de diferentes genomas.
[00121] O termo “amostra materna” aqui se refere a uma amostra biológica obtida de um indivíduo grávido, por exemplo, uma mulher.
[00122] O termo “fluido biológico” aqui se refere a um líquido retirado de uma fonte biológica e inclui, por exemplo, sangue, soro, plasma, catarro, fluido de lavagem, fluido cerebroespinhal, urina, sêmen, suor, lágrimas, saliva e similares. Da forma aqui usada, os termos “sangue”, “plasma” e “soro” expressamente englobam frações ou porções processadas dos mesmos. Similarmente, onde uma amostra é retirada de uma biópsia, cotonete, esfregaço, etc., a “amostra” expressamente engloba uma fração processada ou porção derivada da biópsia, cotonete, esfregaço, etc.
[00123] Os termos “ácidos nucleicos maternos” e “ácidos nucleicos fetais” aqui se referem aos ácidos nucleicos de um indivíduo fêmea grávida e aos ácidos nucleicos do feto sendo carregado pela fêmea grávida, respectivamente.
[00124] Da forma aqui usada, o termo “que corresponde a” algumas vezes se refere a uma sequência de ácidos nucleicos, por exemplo, um gene ou um cromossomo, que está presente no genoma de diferentes indivíduos e que não necessariamente tem a mesma sequência em todos os genomas, mas serve para prover a identidade em vez da informação genética de uma sequência de interesse, por exemplo, um gene ou cromossomo.
[00125] Da forma aqui usada, o termo “substancialmente livre de célula” usado em conjunto com uma amostra desejada engloba preparações da amostra desejada da qual componentes celulares normalmente associados com a amostra são removidos. Por exemplo, uma amostra de plasma é fornecida substancialmente livre de célula removendo células do sangue, por exemplo, células vermelhas, que são normalmente associadas a ela. Em algumas modalidades, amostras substancialmente livres de célula são processadas para remover células que de alguma forma contribuiriam para o material genético desejado, que deve ser testado para um CNV.
[00126] Da forma aqui usada, o termo “fração fetal” se refere à fração de ácidos nucleicos fetais presentes em uma amostra compreendendo ácido nucleico fetal e materno. Fração fetal é frequentemente usada para caracterizar o cfDNA em um sangue da mãe.
[00127] Da forma aqui usada o termo “cromossomo” se refere ao carreador do gene que carrega a hereditariedade de uma célula viva, que é derivada de fitas de cromatina compreendendo DNA e componentes de proteína (especialmente histonas). O sistema de numeração do cromossomo do genoma humano individual internacionalmente reconhecido convencional é aqui empregado.
[00128] Da forma aqui usada, o termo “comprimento do polinucleotídeo” se refere ao número absoluto de moléculas de ácido nucleico (nucleotídeos) em uma sequência ou em uma região de um genoma de referência. O termo “comprimento do cromossomo” se refere ao comprimento conhecido do cromossomo dado em pares de base, por exemplo, provido na montagem NCBI36/hg18 do cromossomo humano encontrado em |genoma|.|ucsc|.|edu/cgi- intervalo/hgTracks?hgsid=167155613&chromInfoPage= no World Wide Web.
[00129] O termo “indivíduo” aqui se refere a um indivíduo humano, bem como um indivíduo não humano, tal como um mamífero, um invertebrado, um vertebrado, um fungo, uma levedura, uma bactéria e um vírus. Embora os exemplos aqui digam respeito a humanos e a linguagem seja principalmente direcionada às preocupações humanas, os conceitos aqui descritos são aplicáveis aos genomas de qualquer planta ou animal e são usados nos campos de medicina veterinária, ciências animal, laboratórios de pesquisa e tais.
[00130] O termo “condição” aqui se refere a “condição médica” como um termo amplo que inclui todas as doenças e distúrbios, mas pode incluir [lesões] e situações de saúde normais, tal como gravidez, que devem afetar a saúde de uma pessoa, benefício de assistência médica ou ter implicações para tratamentos médicos.
[00131] O termo “completo” quando usado em referência a uma aneuploidia cromossômica aqui se refere a um ganho ou perda de um cromossomo total.
[00132] O termo “parcial” quando usado em referência a uma aneuploidia cromossômica aqui se refere a um ganho ou perda de uma porção, isto é, segmento, de um cromossomo.
[00133] O termo “mosaico” aqui se refere à presença de duas populações de células com diferentes cariótipos em um indivíduo que desenvolveu de um ovo fertilizado simples. Mosaicismo pode resultar de uma mutação durante o desenvolvimento, que é propagada a somente um subconjunto das células adultas.
[00134] O termo “não mosaico” aqui se refere a um organismo, por exemplo, um feto humano, composto das células de um cariótipo.
[00135] O termo “usando um cromossomo” quando usado em referência à determinação de uma dose do cromossomo, aqui se refere ao uso da informação da sequência obtida para um cromossomo, isto é, os marcadores do número de sequência obtidos para um cromossomo.
[00136] O termo “sensibilidade” da forma aqui usada é igual ao número de positivos verdadeiros dividido pela soma de positivos verdadeiros e negativos falsos.
[00137] O termo “especificidade” da forma aqui usada é igual ao número de negativos verdadeiros dividido pela soma dos negativos verdadeiros e positivos falsos.
[00138] O termo “enriquecer” aqui se refere ao processo de amplificar ácidos nucleicos alvo polimórficos contidos em uma porção de uma amostra materna e combinar o produto amplificado com o restante da amostra materna da qual a porção foi removida. Por exemplo, o restante da amostra materna pode ser a amostra materna original.
[00139] O termo “amostra materna original” aqui se refere a uma amostra biológica não enriquecida obtida de um indivíduo grávido, por exemplo, uma mulher, que serve como a fonte da qual uma porção é removida para amplificar ácidos nucleicos alvo polimórficos. A “amostra original” pode ser qualquer amostra obtida de um indivíduo grávido e as frações processadas do mesmo, por exemplo, uma amostra cfDNA purificada extraída de uma amostra materna de plasma.
[00140] O termo “iniciador”, da forma aqui usada se refere a um oligonucleotídeo isolado que é capaz de agir como um ponto de iniciação da síntese quando colocado em condições indutivas de um produto de extensão (por exemplo, as condições incluem nucleotídeos, um agente de indução, tais como DNA polimerase e uma temperatura estável e pH). O iniciador é preferivelmente uma fita simples para máxima eficiência em amplificação, mas alternativamente pode ser de fita dupla. Se de fita dupla, o iniciador é primeiro tratado para separar suas fitas antes de ser usada para preparar produtos de extensão. Preferivelmente, o iniciador é um oligodeoxiribonucleotídeo. O iniciador deve ser suficientemente longo para iniciar a síntese dos produtos de extensão na presença do agente de indução.Os comprimentos exatos dos iniciadores dependerá de muitos fatores, incluindo temperatura, fonte do iniciador, uso do método e os parâmetros usados para o projeto do iniciador.
[00141] A frase “leva para ser administrado” se refere às ações tomadas por profissionais médicos (por exemplo, um médico) ou uma pessoa que controla ou direciona o cuidado médico de um indivíduo, que controla e/ou permite a administração do agente(s)/composto(s) na questão para o indivíduo. Levar para ser administrado pode envolver diagnóstico e/ou determinação de um regime terapêutico ou profilático apropriado e/ou prescrição de agente(s)/compostos particulares for a indivíduo. Tal prescrição pode incluir, por exemplo, elaboração de uma forma de prescrição, anotação de um registro médico e similares. Similarmente, “leva a ser realizado”, por exemplo, para um procedimento de diagnóstico se refere às ações tomadas por um profissional médico (por exemplo, um médico) ou uma pessoa que controla ou direciona cuidado médico de um indivíduo, que controla e/ou permite o desempenho de um ou mais protocolos de diagnóstico ao indivíduo ou nele.
Introdução
[00142] Métodos, aparelho e sistemas são aqui descritos para determinar número de cópias e variações no número de cópias (CNV) de diferentes sequências de interesse em uma amostra de teste que compreende uma mistura de ácidos nucleicos derivada de dois ou mais diferentes genomas e que são conhecidos ou suspeitos de diferir na quantidade de uma ou mais sequência de interesse. Variações no número de cópias determinadas pelos métodos e aparelho aqui descritos incluem ganhos ou perdas de cromossomos totais, alterações que envolvem segmentos cromossômicos muito grandes que são microscopicamente visíveis e uma abundância de variação submicroscópica no número de cópias dos segmentos de DNA variando de nucleotídeo únicos a quilobases (kb), a megabases (Mb) de tamanho.
[00143] Em algumas modalidades, são providos métodos para determinar a variação no número de cópias (CNV) de fetos usando amostra maternas contendo DNA livre de célula materna e fetal. Algumas modalidades aqui descritas proveem métodos para melhorar a sensibilidade e/ou especificidade da análise dos dados de sequência removendo desvios no teor de GC na amostra. Em algumas modalidades, a remoção dos desvios no teor de GC na amostra é baseada nos dados de sequência corrigidos para variação sistemática comum através das amostras de treinamento não afetadas.
[00144] Algumas modalidades descritas proveem métodos para determinar quantidades de cobertura da sequência com baixo ruído e alto sinal, provendo dados para determinar várias condições genéticas relacionadas ao número de cópias e CNV com melhor sensibilidade, seletividade e/ou eficiência com relação às quantidades de cobertura da sequência obtidas por métodos convencionais. Observou-se que o processo apresentado é particularmente efetivo na melhora do final nas amostras tendo frações relativamente baixas de DNA de um genoma em consideração (por exemplo, um genoma de um feto). Um exemplo de tal amostra é uma amostra de sangue materna de um indivíduo grávido com gêmeos, trigêmeos fraternos, etc., onde o processo estima variação no número de cópias no genoma de um dos fetos.
[00145] Os métodos são aplicáveis para determinar CNV de qualquer aneuploidia fetal e CNVs conhecidas ou suspeitas de serem associadas com uma variedade de condições médicas. Em algumas modalidades que envolvem indivíduos humanos, CNV que pode ser determinado de acordo com o presente método inclui trissomias e monossomias de qualquer um ou mais dos cromossomos 1-22, X e Y, outras polissomias cromossômicas e deleções e/ou duplicações de segmentos de qualquer um ou mais dos cromossomos, que pode ser detectado por sequenciamento somente uma vez dos ácidos nucleicos de uma amostra de teste. Qualquer aneuploidia pode ser determinada a partir da informação de sequenciamento que é obtida pelo sequenciamento somente uma vez dos ácidos nucleicos de uma amostra de teste.
[00146] CNV no genoma humano significativamente influencia a diversidade humana e predisposição à doença (Redon et al., Nature 23:444454 [2006], Shaikh et al. Genoma Res 19:1682-1690 [2009]). As CNVs são conhecidas por contribuírem com doenças genéticas por meio de diferentes mecanismos, resultando tanto em desequilíbrio de dosagem de gene quanto rompimento do gene na maioria dos casos. Além de sua correlação direta com distúrbios genéticos, as CNVs são conhecidas por mediarem mudanças fenotípicas que podem ser prejudiciais. Recentemente, vários estudos reportaram uma maior carga de CNVs raras ou novas em distúrbios complexos, tais como Autismo, ADHD e esquizofrenia comparado aos controles normais, salientando a patogenicidade potencial de CNVs raras ou únicas (Sebat et al., 316:445 - 449 [2007]; Walsh et al., Science 320:539 - 543 [2008]). CNV surge de rearranjos genômicos, principalmente devido aos eventos de deleção, duplicação, inserção e translocação desbalanceada.
[00147] Os métodos e aparelho aqui descritos podem empregar tecnologia de sequenciamento de última geração (NGS), que é sequenciamento massivamente paralelo. Em certas modalidades, moldes de DNA clonalmente amplificados ou moléculas de DNA simples são sequenciadas de uma maneira massivamente paralela em uma célula de fluxo (por exemplo, conforme descrito em Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]). Além da informação de alto rendimento da sequência, NGS provê informação quantitativa, em que cada leitura da sequência é um “marcador de sequência” contábil que representa um molde de DNA clonal individual ou uma molécula de DNA simples. As tecnologias de sequenciamento de NGS incluem pirosequenciamento, sequenciamento-por-síntese com terminadores de corante reversíveis, sequenciamento por ligação com sonda de oligonucleotídeo e sequenciamento semicondutor de íon. DNA de amostras individuais pode ser sequenciado individualmente (isto é, sequenciamento singleplex) ou DNA de múltiplas amostras pode ser agrupado e sequenciado como moléculas genômicas indexadas (isto é, sequenciamento multiplex) em uma corrida de sequenciamento simples para gerar até várias centenas de milhões de leituras de sequências de DNA. Exemplos de tecnologias de sequenciamento que podem ser usadas para obter a informação da sequência de acordo com o presente método são aqui descritos posteriormente.
[00148] Várias análises de CNV usando amostras de DNA envolvem o alinhamento ou mapeamento de leituras de sequência de um sequenciador para uma sequência de referência. Uma sequência de referência pode ser a sequência de genoma total, a sequência de um cromossomo, a sequência de uma região subcromossômica, etc. Devido às características da sequência de referência, diagnóstico de CNV do cromossomo Y envolve desafios técnicos aumentados comparado aos autossomos, em virtude da cobertura do cromossomo Y ser menor que a dos autossomos e sequências repetidas no cromossomo Y complicarem o mapeamento das leituras para seu local correto. Existem cerca de 10 Mb de sequência Y única acessível pelas tecnologias NGS atuais, mas detecção de sexo permanece ser uma tarefa desafiadora no mundo do diagnóstico fetal, onde a quantidade de cfDNA fetal em uma amostra materna é pelo menos uma ordem de magnitude menor que a de DNA materno, enfatizando o problema de mapeamento não específico.
[00149] Adicionalmente, alguns protocolos de sequenciamento atuais utilizam leituras ultracurtas, tais como leituras de 25mer e marcadores. Sequenciamento ultracurto utilizado nos processos dos protocolos de sequenciamento gera comprimentos de leitura curtos, que apresentaram os desafios técnicos para alinhamento de sequência, uma vez que quase metade do genoma humano é coberto por repetições, muitas das quais foram conhecidas durante décadas. A partir de uma perspectiva computacional, repetições criam ambiguidades no alinhamento que, por sua vez, podem produzir desvios e erros mesmo no nível de contagem do cromossomo total.
Avaliação de CNV Métodos para a determinação de CNV
[00150] Usando os valores de cobertura da sequência providos pelos métodos aqui descritos, se pode determinar várias condições genéticas relacionadas ao número de cópias e CNV das sequências, cromossomos ou segmentos de cromossomo com melhor sensibilidade, seletividade, e/ou eficiência com relação ao uso dos valores de cobertura da sequência obtidos pelos métodos convencionais. Por exemplo, em algumas modalidades, as sequências de referências marcadas são usadas para determinar a presença ou ausência de qualquer duas ou mais diferentes aneuploidias cromossômicas fetais completas em uma amostra materna de teste compreendendo moléculas de ácido nucleico fetais e maternas. Métodos exemplares providos a seguir alinham leituras para sequências de referência (incluindo genomas de referência). O alinhamento pode ser realizado em uma sequência de referência não marcada ou marcada, rendendo assim marcadores de sequência mapeados para a sequência de referência. Em algumas modalidades, somente marcadores de sequência que caem nos segmentos da sequência de referência não marcados são levados em consideração para determinar a variação no número de cópias.
[00151] Em algumas modalidades, o método para determinar a presença ou ausência de quaisquer aneuploidias cromossômicas fetais completas em uma amostra materna de teste compreende (a) obter informação da sequência para ácidos nucleicos fetais e maternos na amostra materna de teste; (b) usar a informação da sequência e o método descrito anteriormente para identificar marcadores do número de sequência ou quantidade de cobertura da sequência derivada deles para cada dos cromossomos de interesse selecionados de cromossomos 1-22, X e Y e para identificar marcadores do número de sequência para uma ou mais sequências de cromossomos de normalização; (c) usar os marcadores do número de sequência identificados para cada dos cromossomos de interesse e os marcadores do número de sequência identificados para cada dos cromossomos de normalização para calcular uma dose única do cromossomo para cada dos cromossomos de interesse; e (d) comparar cada dose do cromossomo a um valor limiar e determinando assim a presença ou ausência de quaisquer aneuploidias cromossômicas fetais completas na amostra materna de teste.
[00152] Em algumas modalidades, etapa (a) descrita anteriormente pode compreender sequenciamento de pelo menos uma porção das moléculas de ácido nucleico de uma amostra de teste para obter a dita informação da sequência para as moléculas de ácido nucleico fetais e maternas da amostra de teste. Em algumas modalidades, etapa (c) compreende calcular uma dose única do cromossomo para cada dos cromossomos de interesse como a razão dos marcadores do número de sequência identificados para cada dos cromossomos de interesse e os marcadores do número de sequência identificados para os cromossomos de normalização sequência(s). Em algumas outras modalidades, dose do cromossomo é baseada nas quantidades de cobertura da sequência processadas derivadas dos marcadores do número de sequência. Em algumas modalidades, somente marcadores de sequência não redundantes, únicos são usados para calcular as quantidades de cobertura da sequência processadas. Em algumas modalidades, a quantidade de cobertura da sequência processada é uma razão de densidade do marcador da sequência, que é o número de marcador de sequência padronizado pelo comprimento da sequência. Em algumas modalidades, a quantidade de cobertura da sequência processada é um marcador de sequência normalizado, que é o marcador do número de sequência de uma sequência de interesse dividido por toda ou uma porção substancial do genoma. Em algumas modalidades, a quantidade de cobertura da sequência processada é ajustada de acordo com um perfil global da sequência de interesse. Em algumas modalidades, a quantidade de cobertura da sequência processada é ajustada de acordo com a correlação na amostra entre o teor de GC e a cobertura da sequência para a amostra sendo testada. Em algumas modalidades, a quantidade de cobertura da sequência processada resulta das combinações destes processos, que são adicionalmente aqui descritos.
[00153] Em algumas modalidades, uma dose do cromossomo é calculada como a razão das quantidades de cobertura da sequência processadas para cada dos cromossomos de interesse e quantidades de cobertura da sequência processadas para os cromossomos de normalização sequência(s).
[00154] Em qualquer uma das modalidades anteriores, as aneuploidias cromossômicas completas são selecionadas de trissomias cromossômicas completas, monossomias cromossômicas completas e polissomias cromossômicas completas. As aneuploidias cromossômicas completas são selecionadas de aneuploidias completas de qualquer um de cromossomo 1-22, X e Y. Por exemplo, as ditas diferentes aneuploidias cromossômicas fetais completas são selecionadas de trissomia do 2, trissomia do 8, trissomia do 9, trissomia do 20, trissomia do 21, trissomia do 13, trissomia do 16, trissomia do 18, trissomia do 22, 47, XXX, 47, XYY e monossomia do X.
[00155] Em qualquer uma das modalidades anteriores, etapas (a) a (d) são repetidas para as amostras de teste de diferentes indivíduos maternos e o método compreende determinar a presença ou ausência de qualquer duas ou mais aneuploidias cromossômicas fetais completas diferentes em cada das amostras de teste.
[00156] Em qualquer uma das modalidades anteriores, o método pode adicionalmente compreender calcular um valor de cromossomo normalizado (NCV), em que o NCV relaciona a dose do cromossomo à média da dose correspondente do cromossomo em um conjunto de amostras qualificadas como:onde são a média e desvio padrão estimados, respectivamente, para a dose j-th do cromossomo em um conjunto de amostras qualificadas e é a dose j-th observada do cromossomo para a amostra de teste i.
[00157] Em algumas modalidades, NCV pode ser calculado “na mosca” relacionando a dose do cromossomo de um cromossomo de interesse em uma amostra de teste à mediana da dose do cromossomo correspondente nas amostras multiplexadas sequenciadas nas mesmas células de fluxo como:onde é a mediana estimada para a dose j-th do cromossomo em um conjunto de amostras multiplexadas sequenciadas na mesma célula de fluxo; é o desvio padrão para a dose j-th do cromossomo em um ou mais conjuntos de amostras multiplexadas sequenciadas em uma ou mais células de fluxo e é a dose j-th observada do cromossomo para a amostra de teste i. Nesta modalidade, amostra de teste i é uma das amostras multiplexadas sequenciadas na mesma célula de fluxo da qual é determinado.
[00158] Em algumas modalidades, um método é provido para determinar a presença ou ausência de diferentes aneuploidias cromossômicas fetais parciais em uma amostra materna de teste compreendendo ácidos nucleicos fetais e maternas. O método envolve procedimentos análogos ao método para detectar aneuploidia completa salientada anteriormente.Entretanto, em vez de analisar um cromossomo completo, um segmento de um cromossomo é analisado. Ver pedido de patente U.S. No. 2013/0029852, que está aqui incorporado pela referência.
[00159] Figura 1 mostra um método para determinar a presença de variação no número de cópias de acordo com algumas modalidades. Nas operações 130 e 135, marcadores de cobertura da sequência qualificados e marcadores de teste da cobertura da sequência são determinados. A presente descrição provê processos para determinar quantidades de cobertura que proveem melhor sensibilidade e seletividade com relação aos métodos convencionais. Operação 130 e 135 são marcadas com asteriscos e enfatizadas por caixas de linhas pesadas para indicar estas operações contribuem para a melhoria na técnica anterior. Em algumas modalidades, os marcadores de quantidade de cobertura da sequência são normalizados, ajustados, cortados e de outra forma processados para melhorar a sensibilidade e seletividade da análise. Estes processos são adicionalmente aqui descritos.
[00160] A partir de uma perspectiva geral, o método faz uso de sequências de normalização das amostras qualificadas de treinamento na determinação de CNV das amostras de testes. Em algumas modalidades, as amostras qualificadas de treinamento são não afetadas e têm número de cópias normal. Sequências de normalização proveem um mecanismo para normalizar medições para variabilidades intracorrida e intercorrida. Sequências de normalização são identificadas usando informação da sequência a partir de um conjunto de amostras qualificadas obtidas de indivíduos conhecidos por compreender células tendo um número de cópias normal para qualquer uma sequência de interesse, por exemplo, um cromossomo ou segmento do mesmo. Determinação das sequências de normalização é salientada nas etapas 110, 120, 130, 145 e 146 da modalidade do método apresentado na figura 1. Em algumas modalidades, as sequências de normalização são usadas para calcular dosagem de sequência para sequências de teste. Ver etapa 150. Em algumas modalidades, sequências de normalização também são usadas para calcular um limiar contra o qual a dosagem de sequência das sequências de teste é comparada. Ver etapa 150. A informação da sequência obtida a partir da sequência de normalização e a sequência de teste é usada para determinar identificação estatisticamente significativa das aneuploidias cromossômicas em amostra de testes (etapa 160).
[00161] Voltando aos detalhes do método para determinar a presença de variação no número de cópias de acordo com algumas modalidades, a figura 1 provê um diagrama de fluxo 100 de uma modalidade para determinar um CNV de uma sequência de interesse, por exemplo, um cromossomo ou segmento do mesmo, em uma amostra biológica. Em algumas modalidades, uma amostra biológica é obtida de um indivíduo e compreende uma mistura de ácidos nucleicos contribuída por diferentes genomas. Os diferentes genomas podem ser contribuídos para a amostra por dois indivíduos, por exemplo, os diferentes genomas são contribuídos pelo feto e a mãe que carrega o feto. Também, os diferentes genomas podem ser contribuídos para as amostras por três ou mais indivíduos, por exemplo, os diferentes genomas são contribuídos por dois ou mais fetos e a mãe que carrega os fetos. Alternativamente, os genomas são contribuídos para a amostra por células cancerosas aneuploides e células euploides normais do mesmo indivíduo, por exemplo, uma amostra de plasma de um paciente com câncer.
[00162] Além de analisar uma amostra do paciente de teste, um ou mais cromossomos de normalização ou um ou mais segmentos dos cromossomos de normalização são selecionados para cada possível cromossomo de interesse. Os cromossomos ou segmentos de normalização são identificados assincronomamente a partir do teste normal da amostra dos pacientes, que pode acontecer em um estabelecimento clínico. Em outras palavras, os cromossomos ou segmentos de normalização são identificados antes de testar a amostra dos pacientes. As associações entre cromossomos ou segmentos de normalização e cromossomos ou segmentos de interesse são armazenadas para uso durante o teste. Conforme explicado a seguir, tal associação é tipicamente mantida durante períodos de tempo que abrangem teste de muitas amostras. A seguinte discussão diz respeito às modalidades para selecionar cromossomos de normalização ou segmentos de cromossomo para cromossomos individuais ou segmentos de interesse.
[00163] Um conjunto de amostras qualificadas é obtido para identificar sequências qualificadas de normalização e prover valores de variância para uso na determinação de identificação estatisticamente significativa de CNV nas amostras de teste. Na etapa 110, uma pluralidade de amostras biológicas qualificadas é obtida a partir de uma pluralidade de indivíduos conhecidos por compreender células tendo um número de cópias normal para qualquer uma sequência de interesse. Em uma modalidade, as amostras qualificadas são obtidas de mães grávidas com um feto que foi confirmado usando meios citogenéticos para ter um número de cópias normal de cromossomos. As amostras biológicas qualificadas podem ser um fluido biológico, por exemplo, plasma ou qualquer amostra adequada descrita a seguir. Em algumas modalidades, uma amostra qualificada contém uma mistura de moléculas de ácido nucleico, por exemplo, moléculas de cfDNA. Em algumas modalidades, a amostra qualificada é uma amostra materna de plasma que contém uma mistura de moléculas de cfDNA fetais e maternas. Informação da sequência para cromossomos de normalização e/ou segmentos dos mesmos é obtida por sequenciamento pelo menos uma porção dos ácidos nucleicos, por exemplo, ácidos nucleicos fetais e maternos, usando qualquer método de sequenciamento conhecido. Preferivelmente, qualquer um dos métodos de sequenciamento de última geração (NGS) aqui descritos é usado para sequenciar os ácidos nucleicos fetais e maternos como moléculas únicas ou amplificadas para clonagem. Em várias modalidades, as amostras qualificadas são processadas conforme discutido a seguir, antes e durante do sequenciamento. Eles podem ser processados usando aparelho, sistemas e kits aqui descritos.
[00164] Na etapa 120, pelo menos uma porção de cada de todos os ácidos nucleicos qualificados contidos nas amostras qualificadas são sequenciados para gerar milhões de leituras de sequência, por exemplo, leituras de 36bp, que são alinhadas a um genoma de referência, por exemplo, hg18. Em algumas modalidades, as leituras de sequência compreendem cerca de 20bp, cerca de 25bp, cerca de 30bp, cerca de 35bp, cerca de 40bp, cerca de 45bp, cerca de 50bp, cerca de 55bp, cerca de 60bp, cerca de 65bp, cerca de 70bp, cerca de 75bp, cerca de 80bp, cerca de 85bp, cerca de90bp, cerca de 95bp, cerca de 100bp, cerca de 110bp, cerca de 120bp, cerca de 130, cerca de 140bp, cerca de 150bp, cerca de 200bp, cerca de 250bp, cerca de 300bp, cerca de 350bp, cerca de 400bp, cerca de 450bp ou cerca de 500bp. Espera-se que avanços tecnológicos possibilitem leituras de extremidade únicas maiores que 500bp que possibilitam leituras maiores que cerca de 1.000bp quando leituras finais pareadas são geradas. Em uma modalidade, as leituras de sequência mapeadas compreendem 36bp. Em uma outra modalidade, as leituras de sequência mapeadas compreendem 25bp.
[00165] Leituras de sequência são alinhadas a um genoma de referência e as leituras que são unicamente mapeadas ao genoma de referência são conhecidas como marcadores de sequência. Marcadores de sequência que caem nos segmentos marcados de uma sequência de referência marcada não são contados para análise de CNV.
[00166] Em uma modalidade, pelo menos cerca de 3 x 106 marcadores de sequência qualificados, pelo menos cerca de 5 x 106 marcadores de sequência qualificados, pelo menos cerca de 8 x 106 marcadores de sequência qualificados, pelo menos cerca de 10 x 106 marcadores de sequência qualificados, pelo menos cerca de 15 x 106 marcadores de sequência qualificados, pelo menos cerca de 20 x 106 marcadores de sequência qualificados, pelo menos cerca de 30 x 106 marcadores de sequência qualificados, pelo menos cerca de 40 x 106 marcadores de sequência qualificados ou pelo menos cerca de 50 x 106 marcadores de sequência qualificados compreendendo entre 20 e 40bp leituras são obtidos a partir das leituras que mapeiam unicamente para um genoma de referência.
[00167] Na etapa 130, todos os marcadores obtidos a partir do sequenciamento dos ácidos nucleicos nas amostras qualificadas são contados para obter um marcador de cobertura da sequência qualificado. Similarmente, na operação 135, todos os marcadores obtidos de uma amostra de teste são contados para obter um marcador de cobertura da sequência de teste. A presente descrição provê processos para determinar quantidades da cobertura que proveem melhor sensibilidade e seletividade com relação aos métodos convencionais. Operação 130 e 135 são marcados por asteriscos e enfatizados por caixas de linhas pesadas para indicar estas operações contribuem para a melhora da técnica anterior. Em algumas modalidades, os marcadores de quantidade de cobertura da sequência são normalizados, ajustados, cortados e de outra forma processados para melhorar a sensibilidade e seletividade da análise. Estes processos são adicionalmente aqui descritos.
[00168] Como todos os marcadores de sequência qualificados são mapeados e contados em cada das amostras qualificadas, o marcador de cobertura da sequência para uma sequência de interesse, por exemplo, uma sequência clinicamente relevante, nas amostras qualificadas é determinado, uma vez que são os marcadores de cobertura da sequência para sequências adicionais das quais sequências de normalização são identificadas subsequentemente.
[00169] Em algumas modalidades, a sequência de interesse é um cromossomo que é associado com uma aneuploidia cromossômica completa, por exemplo, cromossomo 21 e a sequência qualificada de normalização é um cromossomo completo que não é associado com uma aneuploidia cromossômica e cuja variação no marcador de cobertura da sequência aproxima ao da sequência (isto é, cromossomo) de interesse, por exemplo, cromossomo 21. Os cromossomos de normalização(ões) selecionados podem ser um ou grupo que mais se aproxima da variação em marcador de cobertura da sequência da sequência de interesse. Qualquer um ou mais dos cromossomos 1-22, X e Y pode ser uma sequência de interesse e um ou mais cromossomos podem ser identificados como a sequência de normalização para cada de qualquer um cromossomo 1-22, X e Y nas amostras qualificadas. Os cromossomos de normalização podem ser um cromossomo individuais ou podem ser um grupo de cromossomos aqui descritos.
[00170] Em uma outra modalidade, a sequência de interesse é um segmento de um cromossomo associado com uma aneuploidia parcial, por exemplo, uma deleção ou inserção cromossômica ou translocação cromossômica desbalanceada e a sequência de normalização é um segmento cromossômico (ou grupos de segmento) que não é associado com a aneuploidia parcial e cuja variação no marcador de cobertura da sequência se aproxima à do segmento de cromossomo associado com a aneuploidia parcial. Os segmentos dos cromossomos de normalização selecionados podem ser um ou mais dos que mais se aproximam da variação no marcador de cobertura da sequência da sequência de interesse. Qualquer um ou mais segmentos de qualquer um ou mais cromossomos 1-22, X e Y pode ser uma sequência de interesse.
[00171] Em outras modalidades, a sequência de interesse é um segmento de um cromossomo associado com uma aneuploidia parcial e a sequência de normalização é um cromossomo total ou cromossomos. Ainda em outras modalidades, a sequência de interesse é um cromossomo total associado com uma aneuploidia e a sequência de normalização é um segmento cromossômico ou segmentos que não são associados com a aneuploidia.
[00172] Seja uma sequência única ou um grupo de sequências identificadas nas amostras qualificadas como a sequência de normalização(ões) para qualquer uma ou mais sequências de interesse, a sequência qualificada de normalização pode ser escolhida por ter uma variação no marcador de cobertura da sequência que melhor ou efetivamente se aproxima ao da sequência de interesse, conforme determinado nas amostras qualificadas. Por exemplo, uma sequência qualificada de normalização é uma sequência que produz a menor variabilidade através das amostras qualificadas, quando usada para normalizar a sequência de interesse, isto é, a variabilidade da sequência de normalização é mais próxima da sequência de interesse determinada nas amostras qualificadas. Estabelecida uma outra maneira, a sequência qualificada de normalização é a sequência selecionada para produzir a menor variação na dosagem de sequência (para a sequência de interesse) através das amostras qualificadas. Assim, o processo seleciona uma sequência que, quando usado como um cromossomo de normalização, espera- se que produza a menor variabilidade na dose corrida-a-corrida do cromossomo para a sequência de interesse.
[00173] A sequência de normalização identificada nas amostras qualificadas para qualquer uma ou mais sequências de interesse permanece a sequência de normalização de escolha para determinar a presença ou ausência de aneuploidia nas amostras de teste durante dias, semanas, meses e, possivelmente, anos, desde que procedimentos que precisam gerar bibliotecas de sequenciamento e sequenciamento das amostras sejam essencialmente não alterados com o tempo. Conforme descrito anteriormente, sequências de normalização para determinar a presença de aneuploidias são escolhidas (possivelmente entre outras razões) para a variabilidade nos marcadores do número de sequência que são mapeados entre as amostras, por exemplo, diferentes amostras e corridas de sequenciamento, por exemplo, corridas de sequenciamento que ocorrem no mesmo dia e/ou diferentes dias, que melhor se aproximam à variabilidade da sequência de interesse para a qual é usada como um parâmetro de normalização. Alterações substanciais nestes procedimentos afetarão o número de marcadores que são mapeados para todas as sequências que, por sua vez, determinarão que uma ou grupo de sequências tenha uma variabilidade através das amostras na mesma e/ou em diferentes corridas de sequenciamento, no mesmo dia ou em dias diferentes que mais se aproximam da sequência(s) de interesse, que poderiam requerer que o conjunto de sequências de normalização fosse pré-determinado. Alterações substanciais nos procedimentos incluem mudanças no protocolo de laboratório usado para preparar a biblioteca de sequenciamento, que inclui mudanças relacionadas ao preparo das amostras para sequenciamento multiplex em vez de sequenciamento singleplex e mudanças nas plataformas de sequenciamento, que incluem mudanças na química usada para sequenciamento.
[00174] Em algumas modalidades, a sequência de normalização escolhida para normalizar uma sequência de interesse particular é uma sequência que melhor distingue uma ou mais amostras qualificadas de uma ou mais amostras afetadas, que implica que a sequência de normalização é uma sequência que tem a maior capacidade de diferenciação, isto é, a capacidade de diferenciação da sequência de normalização é, de maneira tal que provê diferenciação ideal para uma sequência de interesse em uma amostra afetada de teste para facilmente distinguir a amostra afetada de teste das outras amostras não afetadas. Em outras modalidades, a sequência de normalização é uma sequência que tem uma combinação da menor variabilidade e a maior capacidade de diferenciação.
[00175] O nível da capacidade de diferenciação pode ser determinado como uma diferença estatística entre a dosagem de sequência, por exemplo, doses da dose do cromossomo ou segmentos, em uma população das amostras qualificadas e a dose do cromossomo(s) em uma ou mais amostras de teste descritas a seguir e mostradas nos exemplos. Por exemplo, capacidade de diferenciação pode ser representada numericamente como um valor de teste-t, que representa a diferença estatística entre as doses do cromossomo em uma população das amostras qualificadas e a dose do cromossomo(s) em uma ou mais amostras de teste. Similarmente, capacidade de diferenciação pode ser baseada na dose dos segmentos em vez das doses do cromossomo. Alternativamente, capacidade de diferenciação pode ser representada numericamente como um valor de cromossomo normalizado (NCV), que é uma pontuação-z para doses do cromossomo, desde que a distribuição para o NCV seja normal. Similarmente, no caso onde segmentos de cromossomo são as sequências de interesse, capacidade de diferenciação da dose dos segmentos pode ser representada numericamente como um valor de segmento normalizado (NSV), que é uma pontuação-z para dose do cromossomo dos segmentos, desde que a distribuição para o NSV seja normal. Na determinação da pontuação-z, a média e desvio padrão da dose do cromossomo ou segmentos em um conjunto de amostras qualificadas podem ser usados. Alternativamente, a média e desvio padrão da dose do cromossomo ou segmentos em um conjunto de treinamento compreendendo amostras qualificadas e amostras afetadas podem ser usados. Em outras modalidades, a sequência de normalização é uma sequência que tem a menor variabilidade e a maior capacidade de diferenciação ou uma combinação ideal de pequena variabilidade e grande capacidade de diferenciação.
[00176] O método identifica sequências que inerentemente têm características similares e que são propensas a variações similares entre amostras e corridas de sequenciamento e que são usadas para determinar dosagens de sequência nas amostras de teste.
Determinação das dosagens de sequência
[00177] Em algumas modalidades, dose do cromossomo ou segmentos para um ou mais cromossomos ou segmentos de interesse são determinados em todas as amostras qualificadas descritas na etapa 146 mostradas na figura 1 e uma sequência do cromossomo ou segmento de normalização é identificado na etapa 145. Algumas sequências de normalização são providas antes das dosagens de sequência serem calculadas. Então, uma ou mais sequências de normalização são identificadas de acordo com vários critérios, conforme descrito adicionalmente a seguir, ver etapa 145. Em algumas modalidades, por exemplo, a sequência de normalização identificada resulta na menor variabilidade em dosagem de sequência para a sequência de interesse através de todas as amostras qualificadas.
[00178] Na etapa 146, com base nas densidades do marcador qualificado calculado, uma dosagem de sequência qualificada, isto é, uma dose do cromossomo ou uma dose do segmento, para uma sequência de interesse é determinada como a razão do marcador de cobertura da sequência para a sequência de interesse e o marcador de cobertura da sequência qualificado para sequências adicionais das quais as sequências de normalização são identificadas subsequentemente na etapa 145. As sequências de normalização identificadas são usadas subsequentemente para determinar dosagens de sequência nas amostras de teste.
[00179] Em uma modalidade, a dosagem de sequência nas amostras qualificadas é uma dose do cromossomo que é calculada como a razão dos marcadores do número de sequência para um cromossomo de interesse e os marcadores do número de sequência para uma sequência do cromossomo de normalização em uma amostra qualificada. A sequência dos cromossomos de normalização pode ser um cromossomo único, um grupo de cromossomos, um segmento de um cromossomo ou um grupo de segmentos de diferentes cromossomos. Desta maneira, uma dose do cromossomo para um cromossomo de interesse é determinada em uma amostra qualificada como a razão do número de marcadores para um cromossomo de interesse e o número de marcadores para (i) um composto da sequência do cromossomo de normalização de um único cromossomo, (ii) uma sequência do cromossomo de normalização composto de dois ou mais cromossomos, (iii) um composto da sequência do segmento de normalização de um único segmento de um cromossomo, (iv) um composto da sequência do segmento de normalização de dois ou mais segmentos de um cromossomo ou (v) um composto da sequência do segmento de normalização de dois ou mais segmentos de dois ou mais cromossomos. Exemplos para determinar uma dose do cromossomo para cromossomo de interesse 21 de acordo com (i)-(v) são como se segue: doses do cromossomo para cromossomo de interesse, por exemplo, cromossomo 21, são determinados como uma razão da marcador de cobertura da sequência de cromossomo 21 e um dos seguintes marcadores de cobertura da sequência: (i) cada de todos os cromossomos restantes, isto é, cromossomos 1-20, cromossomo 22, cromossomo X e cromossomo Y; (ii) todas as possíveis combinações de dois ou mais cromossomos restantes; (iii) um segmento de um outro cromossomo, por exemplo, cromossomo 9; (iv) dois segmentos de um outro cromossomo, por exemplo, dois segmentos de cromossomo 9; (v) dois segmentos de dois diferentes cromossomos, por exemplo, um segmento de cromossomo 9 e um segmento de cromossomo 14.
[00180] Em uma outra modalidade, a dosagem de sequência nas amostras qualificadas é uma dose do segmento oposta a uma dose do cromossomo, cuja dose do segmento é calculada como a razão dos marcadores do número de sequência para um segmento de interesse, que não é um cromossomo total e os marcadores do número de sequência para uma sequência do segmento de normalização em uma amostra qualificada. A sequência do segmento de normalização pode ser qualquer das sequências dos cromossomos ou segmentos de normalização discutidas anteriormente.
Identificação das sequências de normalização
[00181] Na etapa 145, uma sequência de normalização é identificada para uma sequência de interesse. Em algumas modalidades, por exemplo, a sequência de normalização é a sequência baseada nas dosagens de sequência calculadas, por exemplo, que resultam na menor variabilidade na dosagem de sequência para a sequência de interesse através de todas as amostras qualificadas de treinamento. O método identifica sequências que inerentemente têm características similares e são propensos às variações similares entre amostras e corridas de sequenciamento e que são usados para determinar dosagens de sequência nas amostras de teste.
[00182] Sequências de normalização para uma ou mais sequências de interesse podem ser identificadas em um conjunto de amostras qualificadas e as sequências que são identificadas nas amostras qualificadas são usadas subsequentemente para calcular dosagens de sequência para uma ou mais sequências de interesse em cada uma das amostras de teste (etapa 150) para determinar a presença ou ausência de aneuploidia em cada das amostras de teste. A sequência de normalização identificada para cromossomos ou segmentos de interesse pode diferir quando diferentes plataformas de sequenciamento são usadas e/ou quando existem diferenças na purificação do ácido nucleico que é para ser sequenciado e/ou preparação da biblioteca de sequenciamento. O uso das sequências de normalização de acordo com os métodos aqui descritos provê medições específicas e sensíveis de uma variação no número de cópias de um cromossomo ou segmento do mesmo, independente da plataforma de preparação e/ou sequenciamento da amostra que é usada.
[00183] Em algumas modalidades, mais que uma sequência de normalização é identificada, isto é, diferentes sequências de normalização podem ser determinadas para uma sequência de interesse e múltiplas dosagens de sequência podem ser determinadas para uma sequência de interesse. Por exemplo, a variação, por exemplo, coeficiente de variação (CV= desvio padrão/média), na dose do cromossomo para cromossomo de interesse 21 é mínima quando o marcador de cobertura da sequência de cromossomo 14 é usado. Entretanto, duas, três, quatro, cinco, seis, sete, oito ou mais sequências de normalização podem ser identificadas para uso na determinação de uma dosagem de sequência para uma sequência de interesse em uma amostra de teste. Como um exemplo, uma segunda dose para cromossomo 21 em qualquer uma amostra de teste pode ser determinada usando cromossomo 7, cromossomo 9, cromossomo 11 ou cromossomo 12 como a sequência dos cromossomos de normalização, uma vez que estes cromossomos todos têm CV próximo ao do cromossomo 14.
[00184] Em algumas modalidades, quando um único cromossomo é escolhido como a sequência dos cromossomos de normalização para um cromossomo de interesse, a sequência dos cromossomos de normalização será um cromossomo que resulta em doses do cromossomo para o cromossomo de interesse que tem a menor variabilidade através de todas as amostras testadas, por exemplo, amostras qualificadas. Em alguns casos, os melhores cromossomos de normalização podem não ter a variação mínima, mas podem ter uma distribuição das doses qualificadas que mais bem distinguem uma amostra ou amostras de teste das amostras qualificadas, isto é, os melhores cromossomos de normalização podem não ter a menor variação, mas podem ter a maior capacidade de diferenciação.
[00185] Em algumas modalidades, sequências de normalização incluem uma ou mais sequências de autossomos robustas ou segmentos dos mesmos. Em algumas modalidades, os autossomos robustos incluem todos autossomos, exceto o cromossomo(s) de interesse. Em algumas modalidades, os autossomos robustos incluem todos os autossomos, exceto chr X, Y, 13, 18 e 21. Em algumas modalidades, os autossomos robustos incluem todos os autossomos, exceto os determinados a partir de uma amostra a ser desviada de um estado diploide normal, que pode ser usado na determinação de genomas de câncer que têm número de cópias anormal com relação a um genoma diploide normal.
Determinação das aneuploidias nas amostras de teste
[00186] Com base na identificação da sequência de normalização(ões) nas amostras qualificadas, uma dosagem de sequência é determinada para uma sequência de interesse em uma amostra de teste compreendendo uma mistura de ácidos nucleicos derivada de genomas que diferem em um ou mais sequências de interesse.
[00187] Na etapa 115, uma amostra de teste é obtida de um indivíduo suspeito ou conhecido por carregar um CNV clinicamente relevante de uma sequência de interesse. A amostra de teste pode ser um fluido biológico, por exemplo, plasma ou qualquer amostra adequada descrita a seguir. Conforme explicado, a amostra pode ser obtida usando um procedimento não invasivo, tal como uma retirada de sangue simples. Em algumas modalidades, uma amostra de teste contém uma mistura de moléculas de ácido nucleico, por exemplo, moléculas de cfDNA. Em algumas modalidades, a amostra de teste é uma amostra materna de plasma que contém uma mistura de moléculas de cfDNA fetais e maternas.
[00188] Na etapa 125, pelo menos uma porção dos ácidos nucleicos de teste na amostra de teste é sequenciada, conforme descrito para as amostras qualificadas, para gerar milhões de leituras de sequência, por exemplo, 36bp leituras. As na etapa 120, as leituras geradas a partir do sequenciamento dos ácidos nucleicos na amostra de teste são unicamente mapeadas ou alinhadas a um genoma de referência para produzir marcadores. Conforme descrito na etapa 120, pelo menos cerca de 3 x 106 marcadores de sequência qualificados, pelo menos cerca de 5 x 106 marcadores de sequência qualificados, pelo menos cerca de 8 x 106 marcadores de sequência qualificados, pelo menos cerca de 10 x 106 marcadores de sequência qualificados, pelo menos cerca de 15 x 106 marcadores de sequência qualificados, pelo menos cerca de 20 x 106 marcadores de sequência qualificados, pelo menos cerca de 30 x 106 marcadores de sequência qualificados, pelo menos cerca de 40 x 106 marcadores de sequência qualificados ou pelo menos cerca de 50 x 106 marcadores de sequência qualificados compreendendo entre 20 e 40bp leituras são obtidos a partir das leituras que mapeiam unicamente para um genoma de referência. Em certas modalidades, as leituras produzidas pelo aparelho de sequenciamento são providas em um formato eletrônico. Alinhamento é realizado usando aparelho computacional discutido anteriormente. Leituras individuais são comparadas contra o genoma de referência, que é frequentemente vasto (milhões de pares de base) para identificar sítios onde as leituras unicamente correspondem com o genoma de referência. Em algumas modalidades, o procedimento de alinhamento permite desencontros limitados entre as leituras e o genoma de referência. Em alguns casos, 1, 2 ou 3 pares de base em uma leitura são permitidos desencontrar pares de base correspondentes em um genoma de referência e ainda um mapeamento ainda é feito.
[00189] Na etapa 135, todos ou a maioria dos marcadores obtidos do sequenciamento dos ácidos nucleicos nas amostras de teste são contados para determinar um marcador de cobertura da sequência de teste usando um aparelho computacional descrito a seguir. Em algumas modalidades, cada leitura é alinhada a uma região particular do genoma de referência (um cromossomo ou segmento na maioria dos casos) e a leitura é convertida a um marcador anexando informação de sítio na leitura. Neste processo de desdobramento, o aparelho computacional pode manter uma contagem de corrida do número de marcadores/mapeamento de leituras para cada região do genoma de referência (cromossomo ou segmento na maioria dos casos). As contagens são armazenadas para cada cromossomo ou segmento de interesse e cada cromossomo ou segmento de normalização correspondente.
[00190] Em certas modalidades, o genoma de referência tem uma ou mais regiões excluídas que são parte de um genoma biológico verdadeiro, mas não são incluídos no genoma de referência. Leituras que potencialmente se alinham a estas regiões excluídas não são contadas. Exemplos das regiões excluídas incluem regiões de longas sequências repetidas, regiões de similaridade entre cromossomos X e Y, etc. Usando uma sequência de referência marcada obtida por técnicas de mascaramento descritas anteriormente, somente marcadores nos segmentos da sequência de referência não marcados são levados em consideração para análise de CNV.
[00191] Em algumas modalidades, o método determina se contar um marcador mais que uma vez quando múltiplas leituras se alinham ao mesmo sítio em um genoma de referência ou sequência. Pode haver ocasiões quando dois marcadores têm a mesma sequência e, desta forma, se alinham a um sítio idêntico em uma sequência de referência. O método empregado para contar marcadores pode, em certas circunstâncias, excluir da contagem marcadores idênticos que derivam da mesma amostra sequenciada. Se um número desproporcional de marcadores for idêntico em uma dada amostra, sugere-se que há um forte desvio ou outro defeito no procedimento. Desta forma, de acordo com certas modalidades, o método de contagem não conta marcadores de uma dada amostra que são idênticos aos marcadores da amostra que foram previamente contados.
[00192] Vários critérios podem ser ajustados para escolher quando desconsiderar um marcador idêntico de uma única amostra. Em certas modalidades, uma porcentagem definida dos marcadores que são contados deve ser única. Se mais marcadores que este limiar não forem únicos, eles serão descartados. Por exemplo, se a porcentagem definida requerer que pelo menos 50% sejam únicos, marcadores idênticos não serão contados até que a porcentagem de marcadores únicos exceda 50% para a amostra. Em outras modalidades, o número limiar de marcadores únicos é pelo menos cerca de 60%. Em outras modalidades, a porcentagem limiar dos marcadores únicos é pelo menos cerca de 75% ou pelo menos cerca de 90% ou pelo menos cerca de 95% ou pelo menos cerca de 98% ou pelo menos cerca de 99%. Um limiar pode ser ajustado a 90% para o cromossomo 21. Se marcadores 30M forem alinhadas ao cromossomo 21, então pelo menos 27M destes deve ser único. Se marcadores contados 3M não forem únicos e os 30 milhões e primeiro marcador não for único, ele não será contado. A escolha do limiar particular ou outro critério usado para determinar quando não contar marcadores idênticos adicionais pode ser selecionada usando análise estatística apropriada. Um fator que influencia este limiar ou outros critérios é a quantidade relativa de amostra sequenciada para o tamanho do genoma ao qual marcadores podem ser alinhados. Outros fatores incluem o tamanho das leituras e considerações similares.
[00193] Em uma modalidade, o número de marcadores da sequência de teste mapeados para uma sequência de interesse é normalizado para o comprimento conhecido de uma sequência de interesse para a qual eles são mapeados para prover uma razão de densidade do marcador da sequência de teste. Conforme descrito para as amostras qualificadas, normalização para o comprimento conhecido de uma sequência de interesse não é requerida e pode ser incluída como uma etapa para reduzir o número de dígitos em um número para simplificar para interpretação humana. Uma vez que todos os marcadores da sequência de teste mapeados são contados na amostra de teste, o marcador de cobertura da sequência para uma sequência de interesse, por exemplo, uma sequência clinicamente relevante nas amostras de teste é determinada, uma vez que são os marcadores de cobertura da sequência para sequências adicionais que correspondem a pelo menos uma sequência de normalização identificada nas amostras qualificadas.
[00194] Na etapa 150, com base na identidade de pelo menos uma sequência de normalização nas amostras qualificadas, uma dosagem de sequência de teste é determinada para uma sequência de interesse na amostra de teste. Em várias modalidades, a dosagem de sequência de teste é computacionalmente determinada usando o marcador de cobertura das sequências da sequência de interesse e a sequência de normalização correspondente, conforme aqui descrito. O aparelho computacional responsável por este empreendimento acessará eletronicamente associação entre a sequência de interesse e sua sequência de normalização associada, que pode ser armazenada em uma base de dados, tabela, gráfico ou ser incluída como código nas instruções do programa.
[00195] Conforme aqui descrito, pelo menos uma sequência de normalização pode ser uma sequência única ou um grupo de sequências. A dosagem de sequência para uma sequência de interesse em uma amostra de teste é uma razão do marcador de cobertura da sequência determinada para a sequência de interesse na amostra de teste e o marcador de cobertura da sequência de pelo menos uma sequência de normalização determinado na amostra de teste, em que a sequência de normalização na amostra de teste corresponde à sequência de normalização identificada nas amostras qualificadas para a sequência de interesse particular. Por exemplo, se a sequência de normalização identificada para o cromossomo 21 nas amostras qualificadas for determinada para ser um cromossomo, por exemplo, cromossomo 14, então a dosagem de sequência de teste para o cromossomo 21 (sequência de interesse) é determinada como a razão do marcador de cobertura da sequência para o cromossomo 21 e o marcador de cobertura da sequência para o cromossomo 14, cada determinado na amostra de teste. Similarmente, doses do cromossomo para os cromossomos 13, 18, X, Y e outros cromossomos associados com aneuploidias cromossômicas são determinadas. Uma sequência de normalização para um cromossomo de interesse pode ser um ou um grupo de cromossomos ou um ou um grupo de segmentos de cromossomo. Conforme previamente descrito, uma sequência de interesse pode ser parte de um cromossomo, por exemplo, um segmento de cromossomo. Desta maneira, a dose para um segmento de cromossomo pode ser determinada como a razão do marcador de cobertura da sequência determinada para o segmento na amostra de teste e o marcador de cobertura da sequência para os cromossomos de normalização segmento na amostra de teste, em que o segmento de normalização na amostra de teste corresponde ao segmento de normalização (único ou um grupo de segmentos) identificado nas amostras qualificadas para o segmento de interesse particular. Segmentos de cromossomo podem variar de quilobases (kb) a megabases (Mb) de tamanho (por exemplo, cerca de 1kb a 10 kb ou cerca de 10 kb a 100 kb ou cerca de 100kb a 1 Mb).
[00196] Na etapa 155, valores limiares são derivados de valores de desvio padrão estabelecidos para dosagem de sequências qualificadas determinada em uma pluralidade de amostras qualificadas e dosagens de sequência determinadas para amostras conhecidas por ser aneuploides para uma sequência de interesse. Observe que esta operação é tipicamente realizada assincronomamente com análise da amostra dos pacientes de teste. Ela pode ser realizada, por exemplo, simultaneamente com a seleção das sequências de normalização das amostras qualificadas. Classificação exata depende das diferenças entre distribuições da probabilidade para as diferentes classes, isto é, tipo de aneuploidia. Em alguns exemplos, limiares são escolhidos de distribuição empírica para cada tipo de aneuploidia, por exemplo, trissomia do 21. Possíveis valores limiares que foram estabelecidos para classificar trissomia do 13, trissomia do 18, trissomia do 21 e monossomia do de aneuploidias X, conforme descrito nos exemplos, que descrevem o uso do método para determinar aneuploidias cromossômicas por sequenciamento de cfDNA extraído de uma amostra materna compreendendo uma mistura de ácidos nucleicos fetais e maternos. O valor limiar que é determinado para distinguir amostras afetadas para uma aneuploidia de um cromossomo pode ser o mesmo ou pode ser diferente do limiar para uma diferente aneuploidia. Conforme mostrado nos exemplos, o valor limiar para cada cromossomo de interesse é determinado a partir da variabilidade na dose do cromossomo de interesse através das amostras e corridas de sequenciamento. Quanto menos variável a dose do cromossomo para qualquer cromossomo de interesse, mais estreita a dispersão na dose para o cromossomo de interesse através de todas as amostras não afetadas, que são usadas para ajustar o limiar para determinar diferentes aneuploidias.
[00197] Retornando ao fluxo do processo associado com a classificação de uma amostra do paciente de teste, na etapa 160, a variação no número de cópias da sequência de interesse é determinada na amostra de teste comparando a dosagem de sequência de teste para a sequência de interesse a pelo menos um valor limiar estabelecido da dosagem das sequências qualificadas. Esta operação pode ser realizada pelo mesmo aparelho computacional empregado para medir marcadores de cobertura da sequência e/ou calcular a dose dos segmentos.
[00198] Na etapa 160, a dose calculada para uma sequência de teste de interesse é comparada à estabelecida como os valores limiares, que são escolhidos de acordo com um “limiar de confiabilidade” definido pelo usuário, para classificar a amostra como uma “normal”, uma “não afetada” ou uma “não validade”. As amostras “não validades” são amostras para as quais um diagnóstico definitivo não pode ser feito com confiabilidade. Cada tipo de amostra afetada (por exemplo, trissomia do 21, trissomia do parcial 21, monossomia do X) tem seus próprios limiares, um para amostras válidas normais (não afetadas) e um outro para amostras válidas afetadas (embora em alguns casos os dois limiares coincidam). Da forma aqui descrita, em algumas circunstâncias uma não validade pode ser convertida a uma validade (afetada ou normal) se a fração fetal de ácido nucleico na amostra de teste for suficientemente alta. A classificação da sequência de teste pode ser reportada pelo aparelho computacional empregado em outras operações deste fluxo do processo. Em alguns casos, a classificação é reportada em um formato eletrônico e pode ser apresentada, enviada por correio eletrônico, enviada por texto, etc. para pessoas de interesse.
[00199] Em algumas modalidades, a determinação de CNV compreende calcular um NCV ou NSV que se refere à dose do cromossomo ou segmento para a média da dose do cromossomo ou segmento correspondente em um conjunto de amostras qualificadas, conforme descrito anteriormente. Então, CNV pode ser determinado comparando o NCV/NSV a um valor limiar da avaliação do número de cópias predeterminado.
[00200] O limiar da avaliação do número de cópias pode ser escolhido para otimizar a taxa de falsos positivos e falsos negativos. Quanto maior o limiar da avaliação do número de cópias, menor a probabilidade de ocorrência de um falso positivo. Similarmente, quanto menor o limiar, menor a probabilidade de ocorrência de um falso negativo. Assim, um existe um compromisso entre um primeiro limiar ideal, acima do qual somente positivos verdadeiros são classificados e um segundo limiar ideal, abaixo do qual somente negativos verdadeiros são classificados.
[00201] Limiares são estabelecidos amplamente dependendo da variabilidade nas doses do cromossomo para um cromossomo de interesse particular, determinado em um conjunto de amostras não afetadas. A variabilidade depende de inúmeros fatores, incluindo a fração de cDNA fetal presente em uma amostra. A variabilidade (CV) é determinada pela média ou mediana e desvio padrão para doses do cromossomo através de uma população das amostras não afetadas. Assim, o limiar (s) para classificar aneuploidia usa NCVs, de acordo com : (onde são a média e desvio padrão estimados, respectivamente, para a dose j-th do cromossomo em um conjunto de amostras qualificadas e é a dose j-th observada do cromossomo para a amostra de teste i.)
[00202] Com uma fração fetal associada como:
[00203] Assim, para cada NCV de um cromossomo de interesse, uma fração fetal esperada associada com o dado valor NCV pode ser calculada a partir do CV, com base na média e desvio padrão da razão do cromossomo para o cromossomo de interesse através de uma população das amostras não afetadas.
[00204] Subsequentemente, com base na relação entre fração fetal e valores NC, um limiar de decisão pode ser escolhido, acima do qual amostras são determinadas como positivas (afetadas), com base nos quartis de distribuição normal. Conforme descrito anteriormente, um limiar que é determinado para compromisso ideal entre a detecção de positivos verdadeiros e taxa de falso negativo resulta. Desta maneira, o limiar que é determinado é escolhido para otimizar falsos positivos e falsos negativos.
[00205] Certas modalidades proveem um método para prover diagnóstico pré-natal de uma aneuploidia cromossômica fetal em uma amostra biológica compreendendo moléculas de ácido nucleico fetais e maternas. O diagnóstico é feito com base na obtenção da informação da sequência de pelo menos uma porção da mistura das moléculas de ácido nucleico fetais e maternas derivadas de uma amostra biológica de teste, por exemplo, uma amostra materna de plasma, computando a partir dos dados de sequenciamento de uma dose de cromossomo de normalização para um ou mais cromossomos de interesse, e/ou uma dose de normalização do segmento para um ou mais segmentos de interesse e determinação de uma diferença estatisticamente significativa entre a dose do cromossomo para o cromossomo de interesse e/ou a dose do segmento para o segmento de interesse, respectivamente, na amostra de teste e um valor limiar estabelecido em uma pluralidade de amostras qualificadas (normal) e provendo o diagnóstico pré- natal com base nas diferenças estatística. Conforme descrito na etapa 160 do método, um diagnóstico de normal ou afetado é feito. Uma “não qualificada” é provida no evento que o diagnóstico para normal ou afetada não pode ser feito com confiança.
[00206] Em algumas modalidades, dois limiares podem ser escolhidos. Um primeiro limiar é escolhido para minimizar a taxa de falso positivo, acima da qual amostras serão classificadas como “Afetadas” e um segundo limiar é escolhido para minimizar a taxa de falso negativo, abaixo da qual amostras serão classificadas como “não afetadas”. Amostras tendo NCVs acima do segundo limiar, mas abaixo do primeiro limiar podem ser classificadas como amostras “suspeitas de aneuploidia” ou “Não qualificadas”, para as quais a presença ou ausência de aneuploidia pode ser confirmada por meios independentes. A região entre o primeiro e segundo limiares pode ser referida como uma região “não qualificada”.
[00207] Em algumas modalidades, os limiares suspeitos e não qualificados são mostrados na tabela 2. Conforme pode ser visto, os limiares de NCV variam através de diferentes cromossomos. Em algumas modalidades, os limiares variam de acordo com o FF para a amostra, conforme explicado a seguir. Técnicas de limiar aplicadas aqui contribuem para melhor sensibilidade e seletividade em algumas modalidades.Tabela 2: Limiares de NCV Suspeitos e Afetados que Agrupam Faixas Não Qualificadas
Determinação da Cobertura da Sequência Processo Geral para Determinar Cobertura da Sequência
[00208] Algumas modalidades descritas proveem métodos para determinar quantidades de cobertura da sequência com baixo ruído e alto sinal, provendo dados para determinar várias condições genéticas relacionadas ao número de cópias e CNV com melhor sensibilidade, seletividade e/ou eficiência com relação às quantidades de cobertura da sequência obtidas pelos métodos convencionais. Em certas modalidades, sequências de uma amostra de teste são processadas para obter quantidades de cobertura da sequência.
[00209] O processo faz uso de certa informação disponível de outras fontes. Em algumas implementações, toda esta informação é obtida de um conjunto de treinamento das amostras conhecidas como não afetadas (por exemplo, não aneuploide). Em outras modalidades, alguma ou toda informação é obtida de outras amostras de teste, que podem ser providas “na mosca”, uma vez que múltiplas amostras são analisadas no mesmo processo.
[00210] Em certas modalidades, marcadores de sequência são empregados para reduzir dados de ruído. Em algumas modalidades, tanto a sequência de interesse quanto suas sequências de normalização são marcadas. Em algumas modalidades, diferentes marcadores podem ser empregados quando diferentes cromossomos ou segmentos de interesse são considerados. Por exemplo, um marcador (ou grupo de marcadores) pode ser empregado quando cromossomo 13 é o cromossomo de interesse e um diferente marcador (ou grupo de marcadores) pode ser empregado quanto cromossomo 21 é o cromossomo de interesse. Em certas modalidades, os marcadores são definidos na resolução dos intervalos. Desta forma, em um exemplo, a resolução do marcador é 100 kb. Em algumas modalidades, um diferente marcador pode ser aplicado ao cromossomo Y. As regiões de exclusão marcada para o cromossomo Y podem ser providas em uma resolução mais fina (1kb) que para outros cromossomos de interesse, conforme descrito no pedido de patente provisório U.S. No. 61/836.057, depositado em 17 de junho de 2013 [registro do processo no. ARTEP008P]. Os marcadores são providos na forma de fichários que identificam regiões genômicas excluídas.
[00211] Em certas modalidades, o processo utiliza um valor de expectativa da cobertura normalizada para remover variação intervalo-a- intervalo no perfil de uma sequência de interesse, cuja variação é não informativa para a determinação de CNV para a amostra de teste. O processo ajusta quantidades de cobertura normalizada de acordo com o valor de expectativa da cobertura normalizada para cada intervalo através de todo genoma ou pelo menos os intervalos dos cromossomos robustos no genoma de referência (para uso na operação 317 a seguir). O valor de expectativa pode ser determinado de um conjunto de treinamento das amostras não afetadas. Como um exemplo, o valor de expectativa pode ser um valor mediano através das amostras do conjunto de treinamento. Os valores de cobertura esperados das amostras podem ser determinados como o número de marcadores não redundantes únicos alinhados a um intervalo dividido pelo número total de marcadores não redundantes únicos alinhados a todos os intervalos nos cromossomos robustos do genoma de referência.
[00212] Figura 2 apresenta um fluxograma de um processo 200 para determinar cobertura de uma sequência de interesse, que é usado para avaliar o número de cópias da sequência de interesse em uma amostra de teste no bloco 214. Este processo remove a variação sistemática comum através das amostras de treinamento não afetadas, cuja variação aumenta o ruído na análise para a avaliação de CNV. Ele também remove o desvio de GC específico para uma amostra de teste, aumentando assim a razão sinal-para- ruído na análise dos dados.
[00213] O processo começa provendo leituras de sequência da amostra de teste indicadas no bloco 202. Em algumas modalidades, as leituras de sequência são obtidas por sequenciamento dos segmentos de DNA obtidos do sangue de uma mulher grávida, incluindo cfDNA da mãe e do feto. O processo continua para alinhar as leituras de sequência a um genoma de referência incluindo a sequência de interesse, provendo marcadores da sequência de teste. Bloco 204. O teste das contagens do marcador de sequência em cada intervalo na sequência de referência define a cobertura do intervalo. Bloco 206. Em algumas modalidades, leituras que são alinhadas a mais que um sítio são excluídas. Em algumas modalidades, múltiplas leituras que se alinham ao mesmo sítio são excluídas ou reduzidas a uma contagem de leitura única. Em algumas modalidades, leituras alinhadas aos sítios excluídos também são excluídas. Desta forma, em algumas modalidades, somente os marcadores não redundantes, unicamente alinhados aos sítios não excluídos são contados para prover uma contagem de sítio não excluído (contagem NES) para determinar a cobertura de cada intervalo. Em algumas modalidades, a cobertura de cada intervalo é dividida pela cobertura da sequência de normalização na mesma amostra, provendo uma quantidade de cobertura normalizada.
[00214] Processo 200 então provê um perfil global da sequência de interesse. O perfil global compreende uma cobertura esperada em cada intervalo obtida de um conjunto de treinamento das amostras de treinamento não afetadas. Bloco 208. Processo 200 remove a variação comum na amostra de treinamento ajustando a quantidade de cobertura normalizada dos marcadores da sequência de teste de acordo com a cobertura esperada para obter uma cobertura corrigida pelo perfil global. Bloco 210. Em algumas modalidades, a cobertura esperada obtida do conjunto de treinamento provido no bloco 208 é uma mediana das amostras de treinamento. Em algumas modalidades, operação 2010 ajusta a quantidade de cobertura normalizada subtraindo a cobertura esperada da cobertura normalizada. Em outras modalidades, operação 2010 divide a quantidade de cobertura normalizada pela cobertura esperada de cada intervalo para produzir cobertura corrigida de perfil global.
[00215] Além do mais, processo 200 remove o desvio de GC específico para a amostra de teste ajustando adicionalmente a quantidade de cobertura que foi ajustada para remover o perfil global. Conforme mostrado no bloco 212, o processo ajusta a cobertura corrigida pelo perfil global com base na relação entre nível do teor de GC e a cobertura corrigida pelo perfil global existente na amostra de teste, obtendo assim uma cobertura corrigida para GC da amostra. Depois do ajuste para variação sistemática comum nas amostras de treinamento não afetadas e desvio de GC no indivíduo, o processo provê quantidades da cobertura para avaliar CNV da amostra com melhor sensibilidade e especificidade.
Detalhes de um Processo Exemplar para Determinar Cobertura da Sequência
[00216] Figura 3A apresenta um exemplo de um processo 301 para reduzir o ruído em dados de sequência de uma amostra de teste. Figuras 3B-3J apresentam análise de dados em vários estágios do processo. Conforme mostrado na figura 3A, o processo apresentado começa com extração de cfDNA de uma ou mais amostras. Ver bloco 303. Processos de extração e aparelho adequados são descritos aqui. Em algumas modalidades, um processo descrito no pedido de patente U.S. No. 61/801.126, depositado em 15 de março de 2013 (incorporado aqui pela referência na íntegra) extrai cfDNA. Em algumas implementações, o aparelho processa cfDNA de múltiplas amostras juntas para prover bibliotecas multiplexadas e dados de sequência. Ver blocos 305 e 307 na figura 3A. Em algumas modalidades, o aparelho processa cfDNA de oito ou mais amostras de teste em paralelo. Da forma aqui descrita, um sistema de sequenciamento pode processar cfDNA extraído para produzir uma biblioteca de fragmentos de cfDNA codificados (por exemplo, código de barras). Um sequenciador sequencia biblioteca de cfDNA para produzir um número muito grande de leituras de sequência. Por amostra, a codificação permite desmultiplexação das leituras nas amostras multiplexadas. Cada das oito ou mais amostras pode ter centenas de milhares ou milhões de leituras. O processo pode filtrar as leituras antes das operações adicionais na figura 3A. Em algumas modalidades, filtração da leitura é um processo de filtração da qualidade possibilitado por programas de software implementados no sequenciador para filtrar leituras errôneas e de baixa qualidade. Por exemplo, programas de software Illumina’ s Sequencing Control Software (SCS) e Consensus Assessment of Sequence and Variation filtram leituras errôneas e de baixa qualidade convertendo dados de imagem bruta gerados pelas reações de sequenciamento em pontuações de intensidade, chamadas de base, alinhamentos de pontuação de qualidade e formatos adicionais para prover informação biologicamente relevante para análise à jusante.
[00217] Depois que o sequenciador ou outro aparelho gera as leituras para uma amostra, um elemento do sistema computacionalmente alinha as leituras a um genoma de referência. Ver bloco 309. Alinhamento é descrito aqui. O alinhamento produz marcadores, que contêm sequência de leituras com informação de local anotada que especifica posições únicas no genoma de referência. Em certas implementações, o sistema conduz um alinhamento de primeira passagem independente das leituras duplicadas - duas ou mais leituras tendo sequências idênticas - e subsequentemente remove as leituras duplicadas ou conta as leituras duplicadas como uma única leitura para produzir marcadores de sequência não duplicados. Em outras implementações, o sistema não remove leituras duplicadas. Em algumas modalidades, o processo remove das leituras de consideração que são alinhadas a múltiplos locais no genoma para produzir marcadores unicamente alinhados. Em algumas modalidades, marcadores de sequência não redundantes unicamente alinhados mapeados para sítios não excluídos (NESs) são levados em consideração para produzir contagens de sítio não excluído (contagens de NES), que proveem dados para estimar cobertura.
[00218] Conforme explicado, sítios excluídos são sítios encontrados em regiões de um genoma de referência que foram excluídas com o propósito de contar marcadores de sequência. Em algumas modalidades, sítios excluídos são encontrados nas regiões dos cromossomos que contêm sequências repetitivas, por exemplo, centrômeros e telômeros e regiões dos cromossomos que são comuns a mais que um cromossomo, por exemplo, regiões presentes no cromossomo Y, que também estão presentes no cromossomo X. Sítios não excluídos (NESs) são sítios que não são excluídos em um genoma de referência com o propósito de contar marcadores de sequência.
[00219] Em seguida, o sistema divide os marcadores alinhados em intervalos no genoma de referência. Ver bloco 311. Os intervalos são espaçados ao longo do comprimento do genoma de referência. Em algumas modalidades, todo o genoma de referência é dividido em intervalos contíguos, que podem ter tamanho igual definido (por exemplo, 100 kb). Alternativamente, os intervalos podem ter um comprimento determinado dinamicamente, possivelmente em uma base por-amostra. Profundidade do sequenciamento impacta na seleção do tamanho do intervalo ideal. Intervalos dinamicamente classificados podem ter seu tamanho determinado pelo tamanho da biblioteca. Por exemplo, o tamanho do intervalo pode ser determinado para ser o comprimento da sequência requerido para acomodar 1.000 marcadores, em média.
[00220] Cada intervalo tem um número de marcadores de uma amostra em consideração. Este número de marcadores, que reflete a “cobertura” da sequência alinhada serve como um ponto de partida para filtrar e, de outra forma, limpar os dados da amostra para confiavelmente determinar a variação no número de cópias na amostra. Figura 3A mostra as operações de limpeza nos blocos 313 a 321.
[00221] Na modalidade apresentada na figura 3A, o processo aplica um marcador aos intervalos do genoma de referência. Ver bloco 313. O sistema pode levar em consideração cobertura em intervalos marcados em algumas ou todas as seguintes operações do processo. Em muitos casos, valores de cobertura dos intervalos marcados não são considerados quaisquer das operações restantes na figura 3A.
[00222] Em várias implementações, uma ou mais marcadores são aplicadas para remover intervalos para regiões do genoma que apresentam alta variabilidade de amostra para amostra. Tais marcadores são providos tanto para cromossomos de interesse (por exemplo, chr13, 18 e 21) quanto para outros cromossomos. Conforme explicado, um cromossomo de interesse é o cromossomo em consideração que potencialmente abriga uma variação no número de cópias ou outra aberração.
[00223] Em algumas implementações, marcadores são identificadas de um conjunto de treinamento das amostras qualificadas usando a seguintes abordagem. Inicialmente, cada conjunto de treinamento amostra é processado e filtrado de acordo com as operações 315 a 319 na figura 3A. As quantidades de cobertura normalizada e corrigida são então anotadas para cada intervalo e estatísticas, tais como desvio padrão, desvio absoluto mediano e/ou coeficiente de variação, são calculadas para cada intervalo. Várias combinações de filtro podem ser avaliadas para cada cromossomo de interesse. As combinações do filtro proveem os intervalos do cromossomo de interesse e um diferente filtro para os intervalos de todos os outros cromossomos.
[00224] Em algumas implementações, a escolha de um cromossomo de normalização (ou grupo de cromossomos) é reconsiderada depois de obter os marcadores (por exemplo, escolhendo cortes para um cromossomo de interesse, conforme descrito anteriormente). Depois de aplicar o marcador de sequência, o processo de escolha de um cromossomo de normalização ou cromossomos pode ser conduzido da forma aqui descrita. Por exemplo, todas as possíveis combinações de cromossomos são avaliadas como cromossomos de normalização e classificadas de acordo com sua capacidade de discriminar amostras afetadas e não afetadas. Este processo pode (ou não) encontrar um diferente cromossomo ou grupos de cromossomo de normalização ideal. Em outras modalidades, cromossomos de normalização são os que resultam na menor variabilidade na dosagem de sequência para a sequência de interesse através de todas as amostras qualificadas. Se um diferente cromossomo ou grupos de cromossomo de normalização for identificado, o processo opcionalmente executa a identificação descrita anteriormente dos intervalos para filtrar. Possivelmente, os novos cromossomos de normalização resultam em diferentes cortes.
[00225] Em certas modalidades, um diferente marcador é aplicado para o cromossomo Y. Um exemplo de um marcador do cromossomo Y adequado é descrito no pedido de patente provisório U.S. No. 61/836.057, depositado em 17 de junho de 2013 [pasta do arquivo no. ARTEP008P], que está aqui incorporado pela referência para todos os propósitos.
[00226] Depois que o sistema computacionalmente mascara os intervalos, ele computacionalmente normaliza o valor das coberturas nos intervalos que não são excluídos pelos marcadores. Ver bloco 315. Em certas modalidades, o sistema normaliza o valor das coberturas da amostra de teste em cada intervalo (por exemplo, contagens de NES por intervalo) contra a maioria ou toda a cobertura no genoma de referência ou uma porção do mesmo (por exemplo, a cobertura nos cromossomos robustos do genoma de referência). Em alguns casos, o sistema normaliza o valor das coberturas da amostra de teste (por intervalo) dividindo a contagem pelo intervalo em consideração ao número total de todos os sítios não excluídos alinhando para todos os cromossomos robustos no genoma de referência. Em algumas modalidades, o sistema normaliza o valor das coberturas da amostra de teste (por intervalo) realizando uma regressão linear. Por exemplo, o sistema primeiro calcula as coberturas para um subconjunto de intervalos nos cromossomos robustos como ya = interseção + inclinação * gwpa, onde ya é cobertura para o intervalo um e gwpa é o perfil global para o mesmo intervalo. O sistema então calcula as coberturas normalizadas zb as: zb = yb / (interseção + inclinação * gwpb) - 1.
[00227] Conforme explicado anteriormente, um cromossomo robusto é um que improvável de ser aneuploide. Em certas modalidades, os cromossomos robustos são todos os cromossomos autossômicos a não ser cromossomos 13, 18 e 21. Em algumas modalidades, os cromossomos robustos são todos os cromossomos autossômicos a não ser cromossomos determinados para desviar de um genoma diploide normal.
[00228] Um valor de contagem transformado do intervalo ou cobertura é referido como uma “quantidade de cobertura normalizada” para processamento adicional. A normalização é realizada usando informação única para cada amostra. Tipicamente, nenhuma informação de um conjunto de treinamento é usada. Normalização permite que quantidades da cobertura das amostras tenham diferentes tamanhos de biblioteca (e consequentemente diferentes números de leituras e marcadores) para ser tratados em posição igual. Algumas das operações do processo subsequentes usam quantidades da cobertura derivada das amostras de treinamento, que podem ser sequenciadas das bibliotecas que são maiores ou menores que as bibliotecas usadas para uma amostra de teste em consideração. Sem normalização com base no número de leituras alinhadas para todo o genoma de referência (ou pelo menos os cromossomos robustos), tratamento usando parâmetros derivados de um conjunto de treinamento não deve ser confiável ou generalizável em algumas implementações.
[00229] Figura 3B ilustra a cobertura através dos cromossomos 21, 13 e 18 para muitas amostras. Algumas das amostras foram processadas diferentemente uma da outra. Como uma consequência, pode-se ver uma alimpa variação de amostra-para-amostra em qualquer dada posição genômica. Normalização remove alguma da variação amostra-para-amostra. O painel esquerdo da Figura 3C apresenta quantidades de cobertura normalizada através de todo um genoma.
[00230] Na modalidade da Figura 3A, o sistema remove ou reduz um “perfil global” das quantidades de cobertura normalizada produzidas na operação 315. Ver bloco 317. Esta operação remove desvios sistêmicos nas quantidades de cobertura normalizada que surgem da estrutura do genoma, do processo de geração da biblioteca e do processo de sequenciamento. Além do mais, esta operação é designada para corrigir qualquer desvio linear sistemático do perfil esperado em qualquer dada amostra.
[00231] Em algumas implementações, a remoção do perfil global envolve dividir a quantidade de cobertura normalizada de cada intervalo por um valor esperado correspondente de cada intervalo. Em outras modalidades, a remoção do perfil global envolve subtrair um valor esperado de cada intervalo da quantidade de cobertura normalizada de cada intervalo. O valor esperado pode ser obtido de um conjunto de treinamento das amostras não afetadas (ou amostras de fêmea não afetada para o X cromossomo). Amostras não afetadas são amostras de indivíduos que se sabe que têm uma aneuploidia para o cromossomo de interesse. Em algumas implementações, a remoção do perfil global envolve subtrair o valor esperado de cada intervalo (obtido de um conjunto de treinamento) da quantidade de cobertura normalizada de cada intervalo. Em algumas modalidades, o processo usa valores medianos das quantidades de cobertura normalizada para cada intervalo, conforme determinado usando o conjunto de treinamento. Em outras palavras, os valores medianos são os valores esperados.
[00232] Em algumas modalidades, a remoção do perfil global é implementada usando uma correção linear para a dependência da cobertura da amostra no perfil global. Conforme indicado, o perfil global é um valor esperado para cada intervalo determinado do conjunto de treinamento (por exemplo, o valor mediano para cada intervalo). Estas modalidades podem empregar um modelo linear robusto obtido ajustando aa quantidades de cobertura normalizada da amostra de teste contra o perfil mediano global obtido para cada intervalo. Em algumas modalidades, o modelo linear é obtido regredindo as quantidades de cobertura normalizada observadas da amostra contra o perfil de mediana global (ou outro valor de expectativa).
[00233] O modelo linear é com base em uma hipótese que as quantidades da cobertura da amostra têm uma relação linear com os valores de perfil global, cuja relação linear deveria suportar tanto cromossomos robustos/regiões quanto uma sequência de interesse. Ver figura 3D. Em tal caso, uma regressão das quantidades de cobertura normalizada da amostra nas quantidades da cobertura esperada do perfil global produzirá uma linha tendo uma inclinação e interseção. Em certas modalidades, a inclinação e interseção de tal linha são usadas para calcular uma quantidade de cobertura “prevista” do valor de perfil global para um intervalo. Em algumas implementações, uma correção do perfil global envolve modelar cada quantidade de cobertura normalizada do intervalo pelas quantidades da cobertura previstas para o intervalo. Em algumas implementações, coberturas dos marcadores da sequência de teste são ajustadas: (i) obtendo uma relação matemática entre a cobertura dos marcadores da sequência de teste em função da cobertura esperada em uma pluralidade de intervalos em um ou mais cromossomos ou regiões robustos e (ii) aplicando a relação matemática aos intervalos na sequência de interesse. Em algumas implementações, as coberturas em uma amostra de teste são corrigidas para variação usando uma relação linear entre os valores de cobertura esperados das amostras de treinamento não afetadas e valor de coberturas para a amostra de teste em cromossomos robustos ou outras regiões robustas do genoma. O ajuste resulta em coberturas corrigidas com o perfil global. Em alguns casos, o ajuste envolve obter coberturas para uma amostra de teste para um subconjunto de intervalos em cromossomos ou regiões robustos como se segue:onde ya é cobertura de intervalo a para a amostra de teste em um ou mais cromossomos ou regiões robustos e gwpa é o perfil global para o intervalo a para amostras de treinamento não afetadas. O processo então computa uma cobertura corrigida pelo perfil global zb para uma sequência ou região de interesse como:onde yb é a cobertura observada do intervalo b para a amostra de teste na sequência de interesse (que pode residir fora de um cromossomo ou região robusta) e gwpb é o perfil global para o intervalo b para as amostras de treinamento não afetadas. O dominador (interseção + inclinação * gwpb) é a cobertura para o intervalo b que é prevista para ser observada nas amostras não afetadas de teste com base na relação estimada das regiões robustas do genoma. No caso de uma sequência de interesse que abriga uma variação no número de cópias, a cobertura observada e, assim a cobertura corrigida pelo valor de perfil global para o intervalo b desviará significativamente da cobertura de uma amostra não afetada. Por exemplo, a cobertura corrigida zb deveria ser proporcional à fração fetal no caso de amostra trissômica para intervalos no cromossomo afetado. Este processo normaliza na amostra computando a interseção e inclinação nos cromossomos robustos e então avalia como a região genômica de interesse desvia de uma relação (conforme descrito pela inclinação e pela interseção) que suporta cromossomos robustos na mesma amostra.
[00234] A inclinação e interseção são obtidas de uma linha mostrada na figura 3D. Um exemplo de remoção do perfil global é apresentado na figura 3C. O painel esquerdo mostra uma alta variação intervalo-para- intervalo em quantidades de cobertura normalizada através de muitas amostras. O painel direito mostra as mesmas quantidades de cobertura normalizada depois da remoção do perfil global, conforme descrito anteriormente.
[00235] Depois que o sistema remove ou reduz as variações do perfil global no bloco 317, ele corrige as variações do teor de GC na amostra (guanina-citosina). Ver bloco 319. Todo intervalo tem sua própria contribuição funcional de GC. A fração é determinada dividindo o número de nucleotídeos G e C em um intervalo pelo número total de nucleotídeos em um intervalo (por exemplo, 100.000). Alguns intervalos terão maiores frações GC que outros. Conforme mostrado nas figuras 3E e 3F, diferentes amostras apresentam diferentes desvios GC. Estas diferenças e suas correções serão explicadas adicionalmente a seguir. Figuras 3E-G mostra o perfil global corrigido, quantidade de cobertura normalizada (por intervalo) como uma função da fração GC (por intervalo). Surpreendentemente, diferentes amostras apresentam diferentes dependências de GC. Algumas amostras apresentam dependência monotonicamente decrescente (como na figura 3E), enquanto que outras apresentam uma dependência de forma comum (como na figura 3F e 3G). Em virtude de estes perfis poderem ser únicos para cada amostra, a correção descrita nesta etapa é realizada separada e unicamente para cada amostra.
[00236] Em algumas modalidades, o sistema computacionalmente arranja intervalos na base da fração GC, conforme ilustrado nas figuras 3E-G. Ele então corrige o perfil global corrigido, quantidade de cobertura normalizada de um intervalo usando informação da outros intervalos com teores de GC similares. Esta correção é aplicada a cada intervalo não marcado.
[00237] Em alguns processos, cada intervalo é corrigido com relação ao teor de GC da seguinte maneira. O sistema computacionalmente seleciona intervalos tendo frações GC similares às de um intervalo em consideração e então determina um parâmetro de correção da informação nos intervalos selecionados. Em algumas modalidades, os intervalos tendo frações GC similares são selecionados usando um valor de corte arbitrariamente definido de similaridade. Em um exemplo, 2% de todos os intervalos são selecionados. Estes intervalos são os 2% que têm intervalos de teor de GC mais similares ao intervalo em consideração. Por exemplo, o 1% dos intervalos tendo ligeiramente mais teor de GC e 1% tendo ligeiramente menos teor de GC são selecionados.
[00238] Usando os intervalos selecionados, o sistema computacionalmente determina um parâmetro de correção. Em um exemplo, o parâmetro de correção é um calor representativo das quantidades de cobertura normalizada (depois da remoção do perfil global) nos intervalos selecionados. Exemplos de tais valores representativos incluem a mediana ou média das quantidades de cobertura normalizadas nos intervalos selecionados. O sistema aplica um parâmetro de correção calculado para um intervalo em consideração à quantidade de cobertura normalizada (depois da remoção do perfil global) para o intervalo em consideração. Em algumas implementações, um valor representativo (por exemplo, valor da mediana) é subtraído da quantidade de cobertura normalizada do intervalo em consideração. Em algumas modalidades, o valor da mediana (ou outro valor representativo) das quantidades de cobertura normalizada é selecionado usando somente as quantidades da cobertura para cromossomos autossômicos robustos (todos os autossomos a não ser cromossomos 13, 18 e 21).
[00239] Em um exemplo usando, por exemplo, intervalos 100kb, cada intervalo terá um valor único de fração GC e os intervalos são divididos em grupos com base no seu teor de fração GC. Por exemplo, os intervalos são divididos em 50 grupos, onde quartis de limite do grupo correspondem a (0, 2, 4, 6, ... e 100) da % de distribuição de GC. Uma quantidade de cobertura normalizada mediana é calculada para cada grupo de intervalos dos autossomos robustos que mapeiam para o mesmo grupo GC (na amostra) e então o valor de mediana é subtraído das quantidades de cobertura normalizada (para todos os intervalos através de todo o genoma no mesmo grupo GC). Isto aplica uma correção de GC estimada dos cromossomos robustos em qualquer dada amostra para os cromossomos potencialmente afetados na mesma amostra. Por exemplo, todos os intervalos nos cromossomos robustos tendo um teor de GC entre 0,338660 e 0,344720 são agrupados juntos, a mediana é calculada para este grupo e é subtraído da cobertura normalizada dos intervalos nesta faixa de GC, cujos intervalos podem ser encontrados no genoma (excluindo os cromossomos 13, 18, 21 e X). Em certas modalidades, cromossomo Y é excluído deste processo de correção de GC.
[00240] Figura 3G mostra aplicação de uma correção de GC usando quantidades de cobertura normalizada mediana como um parâmetro de correção já descrito. O painel esquerdo mostra as quantidades da cobertura não corrigida em função do perfil da fração GC. Conforme mostrado, o perfil tem uma forma não linear. O painel direito mostra as quantidades da cobertura corrigida. Figura 3H mostra as coberturas normalizadas para muitas amostras antes da correção da fração GC (painel esquerdo) e depois da correção da fração GC (painel direito). Figura 3I mostra o coeficiente de variação (CV) das coberturas normalizadas para muitas amostras de teste antes da correção da fração GC (vermelho) e depois da correção da fração GC (verde), onde correção de GC leva à variação substancialmente menor nas coberturas normalizadas.
[00241] O processo anterior é uma implementação relativamente simples da correção de GC. Abordagens alternativas para corrigir o desvio de GC empregam uma técnica de spline ou outro ajuste não linear, que pode ser aplicada no espaço de GC contínuo e não envolve compartimentar quantidades da cobertura pelo teor de GC. Exemplos de técnicas adequadas incluem correção de loess contínua e correção de spline suave. Uma função de ajuste pode ser derivada da quantidade de cobertura normalizada de intervalo-por-intervalo em função do teor de GC para a amostra em consideração. A correção para cada intervalo é calculada aplicando o teor de GC para o intervalo em consideração para a função de ajuste. Por exemplo, a quantidade de cobertura normalizada pode ser ajustada subtraindo o valor da cobertura esperada de um spline no teor de GC do intervalo em consideração. Alternativamente, o ajuste pode ser alcançado pela divisão do valor da cobertura esperada de acordo com o ajuste spline.
[00242] Depois da correção da dependência de GC na operação 319, o sistema computacionalmente remove intervalos fora da curva na amostra em consideração -Ver bloco 321. Esta operação pode ser referida como filtração ou corte da amostra único. Figura 3J mostra que mesmo depois da correção de GC, a cobertura ainda tem variação específica da amostra em pequenas regiões. Ver, por exemplo, a cobertura na posição 1.1 e8 no cromossomo 12 onde resulta em um desvio altamente inesperado do valor esperado. É possível que este desvio resulte de uma pequena variação no número de cópias no genoma do material. Alternativamente, isto pode ser devido a razões técnicas no sequenciamento não relacionadas à variação no número de cópias. Tipicamente, esta operação é somente aplicada aos cromossomos robustos.
[00243] Como um exemplo, os sistemas computacionalmente filtram quaisquer intervalos tendo uma quantidade de cobertura normalizada corrigida de GC de mais que 3 desvios absolutos medianos da mediana da quantidade de cobertura normalizada corrigida de GC através de todos os intervalos no cromossomo que abrigam o intervalo em consideração para filtração. Em um exemplo, o valor de corte é definido como 3 desvios absolutos medianos ajustados para ser consistentes com o desvio padrão, então realmente o corte é 1,4826*desvios absolutos medianos da mediana. Em certas modalidades, esta operação é aplicada a todos os cromossomos na amostra, incluindo tanto os cromossomos robustos quanto os cromossomos suspeitos de aneuploidia.
[00244] Em certas implementações, uma operação adicional que pode ser caracterizada como controle de qualidade é realizada. Ver bloco 323. Em algumas modalidades, uma métrica de controle de qualidade envolve detecção de se algum cromossomo dominador potencial, isto é, “cromossomos de normalização” ou “cromossomos robustos” é aneuploide ou de outra maneira inapropriado para determinar se a amostra de teste tem uma variação no número de cópias em uma sequência de interesse. Quando o processo determina que um cromossomo robusto é inapropriado, o processo pode desconsiderar a amostra de teste e tornar não qualificada. Alternativamente, uma falha desta métrica de QC pode acionar o uso de um conjunto alternado de cromossomos de normalização para viabilização. Em um exemplo, um método de controle de qualidade compara valores de cobertura normalizados reais para cromossomos robustos contra valores de expectativa para cromossomos autossômicos robustos. Os valores de expectativa podem ser obtidos ajustando um modelo normal multivariado aos perfis normalizados das amostras de treinamento não afetadas, selecionando a melhor estrutura modelo de acordo com a probabilidade dos dados ou critérios de Bayesian (por exemplo, o modelo é selecionado usando critérios de informação Akaike ou possivelmente critérios de informação Bayesian) e fixando o melhor modelo para uso em QC. Os modelos normais dos cromossomos robustos podem ser obtidos, por exemplo, usando uma técnica de agrupamento que identifica uma função de probabilidade tendo uma média e desvio padrão para as coberturas do cromossomo nas amostras normais. Certamente, outras formas de modelo podem ser usadas. O processo avalia a probabilidade da cobertura normalizada observada em qualquer amostra de teste recebida dados os parâmetros de modelo fixos. Ele pode fazer isto classificando cada amostra de teste recebida com o modelo para obter probabilidade e, desta forma, identificar pontos fora da curva com relação ao conjunto da amostra normal. Desvio na probabilidade da amostra de teste das amostras de treinamento pode sugerir tanto uma anormalidade nos cromossomos de normalização quanto um artefato de manuseio / processamento da amostra do ensaio que pode resultar na classificação incorreta da amostra. Esta métrica de QC pode ser usada para reduzir erros na classificação associada com qualquer destes artefatos da amostra. Figura 3K, painel direito, mostra o número do cromossomo no eixo-x e o eixo-y mostra cobertura do cromossomo normalizada com base em uma comparação com um modelo de QC obtido conforme descrito anteriormente. Os gráficos mostram uma amostra com uma cobertura excessiva para o cromossomo 2 e outra amostra com uma cobertura excessiva para cromossomo 20. Estas amostras seriam eliminadas usando a métrica de QC aqui descrita ou desviada para usar um conjunto de cromossomos de normalização alternado. O painel esquerdo da Figura 3K mostra NCV em função da probabilidade para um cromossomo.
[00245] A sequência apresentada na figura 3A pode ser usada para todos os intervalos de todos os cromossomos no genoma. Em certas modalidades, um processo diferente é aplicado ao cromossomo Y. Para calcular a dose do cromossomo ou segmento, NCV, e/ou NSV, as quantidades de cobertura normalizada corrigidas (conforme determinado na figura 3A) dos intervalos nos cromossomos ou segmentos usados na expressão para a dose, NCV, e/ou NSV são usados. Ver bloco 325. Em certas modalidades, uma quantidade de cobertura normalizada média é calculada a partir de todos os intervalos em um cromossomo de interesse, cromossomos de normalização, segmento de interesse e/ou segmento de normalização é usado para calcular dosagem de sequência, NCV e/ou NSV da forma aqui descrita.
[00246] Em certas modalidades, cromossomo Y é tratado diferentemente. Ele pode ser filtrado mascarando um conjunto de intervalos únicos para o cromossomo Y. Em algumas modalidades, o filtro do cromossomo Y é determinado de acordo com o processo no pedido de patente provisório No. 61/836.057, previamente incorporado pela referência. Em algumas modalidades, o filtro mascara intervalos que são menores que os no filtro dos outros cromossomos. Por exemplo, o marcador do cromossomo Y pode filtrar no nível 1 kb, enquanto que o marcador do outro cromossomo pode filtrar no nível 100 kb. Não obstante, o cromossomo Y pode ser normalizado no mesmo tamanho do intervalo que os outros cromossomos (por exemplo, 100 kb).
[00247] Em certas modalidades, o cromossomo Y filtrado é normalizado conforme descrito anteriormente na operação 315 da Figura 3A. Entretanto, de outra forma, o cromossomo Y não é adicionalmente corrigido. Assim, os intervalos do cromossomo Y não são individualizados para remoção do perfil global. Similarmente, os intervalos do cromossomo Y não são individualizados para correção de GC ou outras etapas de filtração realizadas daí em diante. Isto é em virtude de que quando a amostra é processada, o processo não sabe se a amostra é macho ou fêmea. Uma amostra fêmea não deveria ter alinhamento de leituras para o cromossomo Y de referência.
Criação de um Marcador de Sequência
[00248] Algumas modalidades aqui descritas empregam uma estratégia de filtrar (ou mascarar) leituras de sequência não discrimina em uma sequência de interesse usando marcadores de sequência, que leva a maior sinal e menor ruído, relativamente a valores calculados por métodos convencionais, no valor de coberturas usado para avaliação de CNV. Tais marcadores podem ser identificados por várias tecnologias. Em uma modalidade, um marcador é identificado usando uma técnica ilustrada nas figuras 4A-4B, conforme explicado a seguir em mais detalhes.
[00249] Em algumas implementações, o marcador é identificado usando um conjunto de treinamento de amostras representativas conhecidas por ter número normal de cópias da sequência de interesse. Marcadores podem ser identificados usando uma técnica que, primeiro normaliza o conjunto de treinamento amostras, então corrige a variação sistemática através de uma faixa de sequência (por exemplo, um perfil) e então os corrige para variabilidade de GC, conforme descrito a seguir. A normalização e correção são realizadas nas amostras de um conjunto de treinamento, não amostras de teste. O marcador é identificado uma vez e então aplicado a muitas amostras de teste.
[00250] Figura 4A mostra um fluxograma de um processo 400 para criar um marcador de sequência como este, que pode ser aplicado a uma ou mais amostras de teste para remover intervalos em uma sequência de interesse tida em consideração na avaliação do número de cópia. O processo começa provendo um conjunto de treinamento incluindo leituras de sequência de uma pluralidade de amostras de treinamento não afetadas. Bloco 402. O processo então alinha as leituras de sequência do conjunto de treinamento a um genoma de referência compreendendo a sequência de interesse, provendo assim marcadores de sequência de treinamento para as amostras de treinamento. Bloco 404. Em algumas modalidades, marcadores não redundantes somente unicamente alinhados mapeados para sítios não excluídos são usados para análise adicional. O processo envolve dividir o genoma de referência em uma pluralidade de intervalos e determinar, para cada amostra não afetada de treinamento, uma cobertura de marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento. Bloco 406. O processo também determina, para cada intervalo, uma cobertura esperada dos marcadores de sequência de treinamento através de todas as amostras de treinamento. Bloco 408. Em algumas modalidades, a cobertura esperada de cada intervalo é a mediana ou médias através das amostras de treinamento. A cobertura esperada constitui um perfil global. O processo então ajusta a cobertura dos marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento removendo a variação no perfil global, obtendo assim coberturas corrigidas com o perfil global dos marcadores de sequência de treinamento nos intervalos para cada amostra de treinamento. O processo então cria um marcador de sequência compreendendo intervalos não marcados e marcados através do genoma de referência. Cada intervalo marcado tem uma característica de distribuição que excede um limiar de mascaramento. A característica de distribuição é provida para as coberturas ajustadas dos marcadores de sequência de treinamento no intervalo através das amostras de treinamento. Em algumas implementações, o limiar de mascaramento pode se referir à variação observada na cobertura normalizada em um intervalo através das amostras de treinamento. Intervalos com altos coeficientes de variação ou desvio absoluto mediano da cobertura normalizada através das amostras podem ser identificados com base em uma distribuição empírica das respectivas métricas. Em algumas implementações alternativas, o limiar de mascaramento pode se referir à variação na cobertura normalizada em um intervalo através das amostras de treinamento. Intervalos com altos coeficientes da variação ou desvio absoluto mediano da cobertura normalizada através das amostras podem ser marcados com base em uma distribuição empírica das respectivas métricas.
[00251] Em algumas implementações, cortes separados para identificar intervalos marcados, isto é, limiares de mascaramento, são definidos para o cromossomo de interesse e para todos os outros cromossomos. Adicionalmente, limiares de mascaramento separados podem ser definidos para cada cromossomo de interesse separadamente e um limiar de mascaramento único para o conjunto de todos os cromossomos não afetados. Como um exemplo, um marcador com base em um certo limiar de mascaramento é definido para o cromossomo 13 e um outro limiar de mascaramento é usado para definir um marcador para os outros cromossomos.Cromossomos não afetados também podem ter seus limiares de mascaramento definidos por cromossomo.
[00252] Várias combinações do limiar de mascaramento podem ser avaliadas para cada cromossomo de interesse. As combinações do limiar de mascaramento proveem um marcador para os intervalos do cromossomo de interesse e um diferente marcador para os intervalos de todos os outros cromossomos.
[00253] Em uma abordagem, uma faixa de valores para o coeficiente de variação (CV) ou medição dos cortes de distribuição da amostra é definido como percentis (por exemplo, 95, 96, 97, 98, 99) da distribuição empírica de valores de CV do intervalo e estes valores de corte são aplicados a todos os autossomos excluindo cromossomos de interesse. Adicionalmente, uma faixa de percentis dos valores de corte para CV é definida para a distribuição de CV empírica e estes valores de corte são aplicados a um cromossomo de interesse (por exemplo, chr 21). Em algumas modalidades, os cromossomos de interesse são o cromossomo X e cromossomos 13, 18 e 21. Certamente, outras abordagens podem ser consideradas; por exemplo, uma otimização separada pode ser realizada para cada cromossomo. Juntas, as faixas a ser otimizada em paralelo (por exemplo, uma faixa para um cromossomo de interesse em consideração e uma outra faixa para todos os outros cromossomos) definem uma rede de combinações de corte de CV. Ver Figura 4B. O desempenho do sistema no conjunto de treinamento é avaliado através de dois cortes (um para os cromossomos de normalização (ou autossomos a não ser o cromossomo de interesse) e um para o cromossomo de interesse) e a combinação mais bem realizada é escolhida para configuração final. Esta combinação pode ser diferente para cada um dos cromossomos de interesse. Em certas modalidades, o desempenho é avaliado em um conjunto de validação em vez do conjunto de treinamento, a saber, validação cruzada é usada para avaliar o desempenho.
[00254] Em algumas modalidades, o desempenho otimizado para determinar faixas de corte é o coeficiente de variação das doses do cromossomo (com base em uma tentativa de seleção dos cromossomos de normalização). O processo seleciona a combinação dos cortes que minimizam o CV da dose do cromossomo (por exemplo, razão) do cromossomo de interesse usando cromossomos de normalização atualmente selecionados (ou cromossomos). Em uma abordagem, o processo testa o desempenho de cada combinação dos cortes na grade como se segue: (1) aplicar a combinação dos cortes para definir marcadores para todos os cromossomos e aplicar os marcadores para filtrar os marcadores de um conjunto de treinamento; (2) calcular as coberturas normalizadas através do conjunto de treinamento das amostras não afetadas aplicando o processo da Figura 3A aos marcadores filtrados; (3) determinar uma cobertura normalizada representativa por cromossomo, por exemplo, somando as coberturas normalizadas do intervalo para um cromossomo em consideração; (4) calcula doses do cromossomo usando os cromossomos de normalização atuais e (5) determinar os CVs das doses do cromossomo. O processo pode estimar o desempenho dos filtros selecionados aplicando-os a um conjunto de amostras de teste separado de uma porção original do conjunto de treinamento. Isto é, o processo separa o conjunto de treinamento original nos subconjuntos de treinamento e de teste. O subconjunto de treinamento é usado para definir os cortes do marcador, conforme descrito anteriormente.
[00255] Em modalidades alternativas, em vez de definir marcadores com base em CV das coberturas, os marcadores podem ser definidos por uma distribuição das pontuações da qualidade do mapeamento dos resultados do alinhamento através das amostras de treinamento nos intervalos. Uma pontuação da qualidade do mapeamento reflete a singularidade com a qual uma leitura é mapeada para o genoma de referência. Em outras palavras, pontuações da qualidade do mapeamento quantificam a probabilidade de uma leitura ser desalinhada. Uma baixa pontuação da qualidade do mapeamento é associada à baixa singularidade (alta probabilidade do desalinhamento). A singularidade leva em consideração um ou mais erros na sequência de leitura (conforme gerado pelo sequenciador). Uma descrição detalhada das pontuações da qualidade do mapeamento é apresentada em Li H, Ruan J, Durbin R. (2008) Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genoma Research 18:1851-8, que está aqui incorporado pela referência na íntegra. Em alguma implementação, a pontuação da qualidade do mapeamento aqui é referida como uma pontuação MapQ. Figura 4B mostra que pontuação MapQ tem uma forte correlação monótona com CV das coberturas processadas. Por exemplo, intervalos com CV maior que 0,4 quase completamente agrupam na esquerda do gráfico na figura 4B, tendo pontuações MapQ menores que cerca de 4. Desta forma, intervalos de mascaramento com pequeno MapQ podem produzir um marcador muito similar a um definido pelos intervalos de mascaramento com alto CV.
Amostras e Processamento da Amostra Amostras
[00256] Amostras que são usadas para determinar um CNV, por exemplo, aneuploidias cromossômicas, aneuploidias parciais e similares, podem incluir amostras retiradas de qualquer célula, tecido ou órgão em que variações no número de cópias para uma ou mais sequências de interesse são para ser determinadas. Desejavelmente, as amostras contêm ácidos nucleicos que são os que estão presentes nas células e/ou ácidos nucleicos que são “livres de célula” (por exemplo, cfDNA).
[00257] Em algumas modalidades, é vantajoso obter ácidos nucleicos livres de célula, por exemplo, DNA livre de célula (cfDNA). Ácidos nucleicos livres de célula, incluindo DNA livre de célula, podem ser obtidos por vários métodos conhecidos na técnica das amostras biológicas incluindo, mas sem se limitar a, plasma, soro e urina (ver, por exemplo, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; e Su et al., J Mol. Diagn. 6: 101-107 [2004]). Para separar DNA livre de célula das células em uma amostra, vários métodos incluindo, mas sem se limitar a, fracionamento, centrifugação (por exemplo, centrifugação de gradiente de densidade), precipitação específica de DNA ou triagem de célula de alto rendimento e/ou outros métodos de separação podem ser usados. Kits comercialmente disponíveis e separação automatizada de cfDNA são disponíveis (Roche Diagnostics, Indianapolis, EM, Qiagen, Valencia, CA, Macherey-Nagel, Duren, DE). Amostras biológicas compreendendo cfDNA foram usadas em ensaios para determinar a presença ou ausência de anormalidades cromossômicas, por exemplo, trissomia do 21, por ensaios de sequenciamento que podem detectar aneuploidias cromossômicas e/ou vários polimorfismos.
[00258] Em várias modalidades, o cfDNA presente na amostra pode ser enriquecido específica ou não especificamente antes do uso (por exemplo, antes de preparar uma biblioteca de sequenciamento). Enriquecimento não específico do DNA da amostra se refere à amplificação do genoma total dos fragmentos de DNA genômico da amostra que podem ser usados para aumentar o nível da amostra DNA antes de preparar uma biblioteca de sequenciamento de cfDNA. Enriquecimento não específico pode ser o enriquecimento seletivo de um ou dois genomas presentes em uma amostra que compreende mais que um genoma. Por exemplo, enriquecimento não específico pode ser seletivo do genoma fetal em uma amostra materna, que pode ser obtida por métodos conhecidos por aumentar a proporção relativa do DNA fetal a materno em uma amostra. Alternativamente, enriquecimento não específico pode ser a amplificação não seletiva de ambos os genomas presentes na amostra. Por exemplo, amplificação não específica pode ser de DNA fetal e materno em uma amostra compreendendo uma mistura de DNA dos genomas fetal e materno. Métodos para amplificação de genoma total são conhecidos na técnica. Degeneração do PCR iniciado por oligonucleotídeo PCR (DOP), técnica de PCR de extensão do iniciador (PEP) e amplificação de múltiplos deslocamentos (MDA) são exemplos de métodos de amplificação do genoma total. Em algumas modalidades, a amostra compreendendo a mistura de cfDNA de diferentes genomas é não enriquecida para cfDNA dos genomas presentes na mistura. Em outras modalidades, a amostra compreendendo a mistura de cfDNA de diferentes genomas é não especificamente enriquecida para qualquer um dos genomas presentes na amostra.
[00259] A amostra compreendendo o(s) ácido(s) nucleico(s) ao qual os métodos aqui descritos são aplicados tipicamente compreende uma amostra biológica (“amostra de teste”), por exemplo, conforme descrito anteriormente. Em algumas modalidades, o(s) ácido(s) nucleico(s) a ser selecionado para uma ou mais CNVs é purificado ou isolado por qualquer de inúmeros métodos bem conhecidos.
[00260] Desta maneira, em certas modalidades, a amostra compreende ou consiste em um polinucleotídeo purificado ou isolado ou pode compreender amostras, tais como uma amostra de tecido, uma amostra de fluido biológico, uma amostra de célula e similares. Amostras de fluido biológico adequadas incluem, mas sem se limitar a, sangue, plasma, soro, suor, lágrimas, catarro, urina, catarro, fluxo do ouvido, linfa, saliva, fluido cerebroespinhal, devastação, suspensão da medula óssea, fluxo vaginal, lavagem transcervical, fluido cerebral, ascite, leite, secreções dos tratos respiratório, intestinal e genitourinário, fluido amniótico, leite e amostras de leucoforese. Em algumas modalidades, a amostra é uma amostra que é facilmente obtida por procedimentos não invasivos, por exemplo, sangue, plasma, soro, suor, lágrimas, catarro, urina, catarro, fluxo do ouvido, saliva ou fezes. Em certas modalidades, a amostra é uma amostra de sangue periférico ou as frações do plasma e/ou soro de uma amostra de sangue periférico. Em outras modalidades, a amostra biológica é um cotonete ou esfregaço, um corpo de prova de biópsia ou uma cultura celular. Em uma outra modalidade, a amostra é uma mistura de duas ou mais amostras biológicas, por exemplo, uma amostra biológica pode compreender duas ou mais de uma amostra de fluido biológico, uma amostra de tecido e uma amostra de cultura celular. Da forma aqui usada, os termos “sangue”, “plasma” e “soro” expressamente englobam frações ou porções processadas dos mesmos. Similarmente, onde uma amostra é retirada de uma biópsia, cotonete, esfregaço, etc., a “amostra” expressamente engloba uma fração processada ou porção derivada da biópsia, cotonete, esfregaço, etc.
[00261] Em certas modalidades, amostras podem ser obtidas de fontes incluindo, mas sem se limitar a, amostras de diferentes indivíduos, amostras de diferentes estágios de desenvolvimento do mesmo ou diferentes indivíduos, amostras de diferentes indivíduos doentes (por exemplo, indivíduos com câncer ou suspeitos de ter um distúrbio genético), indivíduos normais, amostras obtidas em diferentes estágios de uma doença em um indivíduo, amostras obtidas de um indivíduo para diferentes tratamentos para uma doença, amostras dos indivíduos para diferentes fatores ambientais, amostras de indivíduos com predisposição a uma patologia, amostras indivíduos com exposição a um agente de doença infecciosa (por exemplo, HIV) e similares.
[00262] Em uma modalidade ilustrativa, mas não limitante, a amostra é uma amostra materna que é obtida de uma fêmea grávida, por exemplo, uma mulher grávida. Neste caso, a amostra pode ser analisada usando os métodos aqui descritos para prover um diagnóstico pré-natal de anormalidades cromossômicas potenciais no feto. A amostra materna pode ser uma amostra de tecido, uma amostra de fluido biológico ou uma amostra de célula. Um fluido biológico inclui, como exemplos não limitantes, sangue, plasma, soro, suor, lágrimas, catarro, urina, catarro, fluxo do ouvido, linfa, saliva, fluido cerebroespinhal, devastação, suspensão da medula óssea, fluxo vaginal, lavagem transcervical, fluido cerebral, ascite, leite, secreções dos tratos respiratório, intestinal e genitourinário e amostras de leucoforese.
[00263] Em uma outra modalidade ilustrativa, mas não limitante, a amostra materna é uma mistura de duas ou mais amostras biológicas, por exemplo, a amostra biológica pode compreender duas ou mais de uma amostra de fluido biológico, uma amostra de tecido e uma amostra de cultura celular. Em algumas modalidades, a amostra é uma amostra que é facilmente obtida por procedimentos não invasivos, por exemplo, sangue, plasma, soro, suor, lágrimas, catarro, urina, leite, catarro, fluxo do ouvido, saliva e fezes. Em algumas modalidades, a amostra biológica é uma amostra de sangue periférico, e/ou as frações do plasma e soro do mesmo. Em outras modalidades, a amostra biológica é um cotonete ou esfregaço, um corpo de prova de biópsia ou uma amostra de uma cultura celular. Conforme descrito anteriormente, os termos “sangue”, “plasma” e “soro” expressamente englobam frações ou porções processadas das mesmas. Similarmente, onde uma amostra é retirada de uma biópsia, cotonete, esfregaço, etc., a “amostra” expressamente engloba uma fração processada ou porção derivada da biópsia, cotonete, esfregaço, etc.
[00264] Em certas modalidades, amostras também podem ser obtidas de tecidos cultivados in vitro, células ou outras fontes contendo polinucleotídeo. As amostras cultivadas podem ser retiradas de fontes incluindo, mas sem se limitar a, culturas (por exemplo, tecido ou células) mantidas em diferentes meios e condições (por exemplo, pH, pressão ou temperatura), culturas (por exemplo, tecido ou células) mantidas por diferentes períodos de comprimento, culturas (por exemplo, tecido ou células) tratadas com diferentes fatores ou reagentes (por exemplo, um candidato a medicamento ou um modulador) ou culturas de diferentes tipos de tecido e/ou células.
[00265] Métodos de isolar ácidos nucleicos de fontes biológicas são bem conhecidos e diferirão dependendo da natureza da fonte. Um versado na técnica pode prontamente isolar ácido(s) nucleico(s) de uma fonte, conforme necessário para o método aqui descrito. Em alguns casos, pode ser vantajoso fragmentar as moléculas de ácido nucleico na amostra de ácido nucleico. Fragmentação pode ser aleatória ou pode ser específica, conforme alcançado, por exemplo, usando digestão de endonuclease de restrição. Métodos para fragmentação aleatória são bem conhecidos na técnica e incluem, por exemplo, digestão de DNAse limitada, tratamento alcalino e compartilhamento físico. Em uma modalidade, amostra de ácidos nucleicos são obtidas de cfDNA, que não é submetido a fragmentação.
[00266] Em outras modalidades ilustrativas, a(s) amostra(s) de ácido(s) nucleico(s) é obtida como DNA genômico, que é submetido a fragmentação em fragmentos de aproximadamente 300 ou mais, aproximadamente 400 ou mais ou aproximadamente 500 ou mais pares de base e aos quais métodos NGS podem ser prontamente aplicados.
Preparação da Biblioteca de Sequenciamento
[00267] Em uma modalidade, os métodos aqui descritos podem utilizar tecnologias de sequenciamento de última geração (NGS) que permitem que múltiplas amostras sejam sequenciadas individualmente como moléculas genômicas (isto é, sequenciamento singleplex) ou como amostras agrupadas compreendendo moléculas genômicas indexadas (por exemplo, sequenciamento multiplex) em uma corrida de sequenciamento única. Estes métodos podem gerar até várias centenas de milhares de leituras das sequências de DNA. Em várias modalidades, as sequências dos ácidos nucleicos genômicos e/ou de ácidos nucleicos genômicos indexados podem ser determinadas usando, por exemplo, as tecnologias de sequenciamento de última geração (NGS) aqui descritas. Em várias modalidades, análise da quantidade massiva de dados de sequência obtida usando NGS pode ser realizada usando um ou mais processadores, conforme aqui descrito.
[00268] Em várias modalidades, o uso de tais tecnologias de sequenciamento não envolve a preparação de bibliotecas de sequenciamento.
[00269] Entretanto, em certas modalidades, os métodos de sequenciamento contemplados aqui envolvem a preparação de bibliotecas de sequenciamento. Em uma abordagem ilustrativa, preparação da biblioteca de sequenciamento envolve a produção de uma coleção aleatória de fragmentos de DNA modificados por adaptador (por exemplo, polinucleotídeos) que estão prontos para ser sequenciados. Bibliotecas de sequenciamento de polinucleotídeos podem ser preparadas de DNA ou RNA, incluindo equivalentes, análogos tanto de DNA quanto de cDNA, por exemplo, DNA ou cDNA que é complementar ou cópia do DNA produzido de um molde de RNA, pela ação da transcriptase reversa. Os polinucleotídeos podem originar na forma de fita dupla (por exemplo, dsDNA, tais como fragmentos de DNA genômico, cDNA, produtos de amplificação de PCR e similares) ou, em certas modalidades, os polinucleotídeos podem ser originados na forma de fita simples (por exemplo, ssDNA, RNA, etc.) e foram convertidos à forma de dsDNA. A título de ilustração, em certas modalidades, moléculas de mRNA de fita simples podem ser copiadas em cDNAs de fita dupla adequados para uso no preparo de uma biblioteca de sequenciamento. A sequência precisa das moléculas de polinucleotídeo primárias geralmente não é material para o método da preparação da biblioteca e pode ser conhecida ou desconhecida. Em uma modalidade, as moléculas de polinucleotídeo são moléculas de DNA. Mais particularmente, em certas modalidades, as moléculas de polinucleotídeo representam todo o complemento genético de um organismo ou substancialmente todo o complemento genético de um organismo e são moléculas de DNA genômico (por exemplo, DNA celular, DNA livre de célula (cfDNA), etc.), que tipicamente incluem tanto sequência de íntron quanto sequência de éxon (sequência de codificação), bem como sequências regulatórias de não codificação, tais como sequências promotoras e melhoradoras. Em certas modalidades, as moléculas de polinucleotídeo primárias compreendem moléculas de DNA genômico humano, por exemplo, moléculas de cfDNA presentes no sangue periférico de um indivíduo grávido.
[00270] Preparação de bibliotecas de sequenciamento para algumas plataformas de sequenciamento NGS é facilitada pelo uso de polinucleotídeos compreendendo uma faixa específica de tamanhos de fragmento. Preparação de tais bibliotecas tipicamente envolve a fragmentação de grandes polinucleotídeos (por exemplo, DNA genômico celular) para obter polinucleotídeos na faixa de tamanho desejada.
[00271] Fragmentação pode ser alcançada por qualquer de inúmeros métodos conhecidos por versados na técnica. Por exemplo, fragmentação pode ser alcançada por meios mecânicos incluindo, mas sem se limitar a, nebulização, sonicação e hidrocisalhamento. Entretanto, fragmentação mecânica tipicamente cliva a cadeia principal do DNA nas ligações C-O, P-O e C-C resultando em uma mistura heterogênea de extremidades cegas e 3’- e 5’-suspensas com quebra da ligações C-O, P-O e/ C-C (ver, por exemplo, Alnemri e Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards e Boyer, J Mol Biol 11:327-240 [1965]) que pode precisar ser reparado, uma vez que eles podem não ter o 5’-fosfato requisito para as subsequentes reações enzimáticas, por exemplo, ligação dos adaptadores de sequenciamento, que são requeridos para preparar DNA para sequenciamento.
[00272] Ao contrário, cfDNA, tipicamente existe como fragmentos de menos que cerca de 300 pares de base e, consequentemente, fragmentação não é tipicamente necessária para gerar uma biblioteca de sequenciamento usando amostras de cfDNA.
[00273] Tipicamente, se polinucleotídeos forem forçadamente fragmentados (por exemplo, fragmentados in vitro) ou naturalmente existirem como fragmentos, eles serão convertidos ao DNA de extremidade cega tendo 5’-fosfatos e 3’-hidroxila. Protocolos padrão, por exemplo, protocolos para sequenciamento usando, por exemplo, a plataforma Illumina da forma aqui descrita, instruem os usuários a reparar a extremidade do DNA da amostra, purificar os produtos reparados na extremidade antes da dA-cauda e purificar os produtos da dA-cauda antes das etapas de ligação do adaptador da preparação da biblioteca.
[00274] Várias modalidades dos métodos da preparação da biblioteca da sequência aqui descritas evita a necessidade de realizar uma ou mais das etapas tipicamente mandatórias por protocolos padrão para obter um produto de DNA modificado que pode ser sequenciado por NGS. Um método abreviado (método ABB), um 1 método de 1 etapa e um método de 2 etapas são exemplos de métodos para preparação de uma biblioteca de sequenciamento, que podem ser encontrados no pedido de patente 13/555.037 depositado em 20 de julho de 2012, que está aqui incorporado pela referência na íntegra.
Ácidos Nucleicos Marcadores para Rastrear e Verificar a Integridade da Amostra
[00275] Em várias modalidades, a verificação da integridade das amostras e rastreamento da amostra podem ser realizados por misturas de sequenciamento da amostra de ácidos nucleicos genômicos, por exemplo, cfDNA e anexação de ácidos nucleicos marcadores que foram introduzidos nas amostras, por exemplo, antes do processamento.
[00276] Ácidos nucleicos marcadores podem ser combinados com a amostra de teste (por exemplo, amostra da fonte biológica) e submetidos aos processos que incluem, por exemplo, uma ou mais das etapas de fracionamento da amostra da fonte biológica, por exemplo, obtenção de uma fração de plasma essencialmente livre de célula de uma amostra de sangue total, purificação de ácidos nucleicos de uma amostra da fonte biológica fracionada, por exemplo, plasma ou não fracionada, por exemplo, uma amostra de tecido e sequenciamento. Em algumas modalidades, sequenciamento compreende preparar uma biblioteca de sequenciamento. A sequência ou combinação das sequências das moléculas marcadoras que são combinadas com uma amostra da fonte é escolhida para ser única para a amostra da fonte. Em algumas modalidades, as moléculas marcadoras únicas em uma amostra todas têm a mesma sequência. Em outras modalidades, as moléculas marcadoras únicas em uma amostra são uma pluralidade de sequências, por exemplo, uma combinação de duas, três, quatro, cinco, seis, sete, oito, nove, dez, quinze, vinte ou mais diferentes sequências.
[00277] Em uma modalidade, a integridade de uma amostra pode ser verificada usando uma pluralidade de moléculas de ácido nucleico marcadoras tendo sequências idênticas. Alternativamente, a identidade de uma amostra pode ser verificada usando uma pluralidade de moléculas de ácido nucleico marcadoras que têm pelo menos duas, pelo menos três, pelo menos quatro, pelo menos cinco, pelo menos seis, pelo menos sete, pelo menos oito, pelo menos nove, pelo menos dez, pelo menos 11, pelo menos 12, pelo menos 13, pelo menos 14, pelo menos 15, pelo menos 16, pelo menos 17m, pelo menos 18, pelo menos 19, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 50 ou mais diferentes sequências. Verificação da integridade da pluralidade das amostras biológicas, isto é, duas ou mais amostras biológicas, requer que cada das duas ou mais amostras seja marcada com ácidos nucleicos marcadores que têm sequências que são únicas para cada da pluralidade da amostra de teste que é marcada. Por exemplo, uma primeira amostra pode ser marcada com um ácido nucleico marcador tendo sequência A e uma segunda amostra pode ser marcada com um ácido nucleico marcador tendo sequência B. Alternativamente, uma primeira amostra pode ser marcada com moléculas de ácido nucleico marcadoras todas tendo sequência A e uma segunda amostra pode ser marcada com uma mistura de sequências B e C, em que sequências A, B e C são moléculas marcadoras tendo diferentes sequências.
[00278] O(s) ácido(s) nucleico(s) marcador(es) pode ser adicionado à amostra em qualquer estágio da preparação da amostra que ocorre antes da preparação da biblioteca (se as bibliotecas forem para ser preparadas) e sequenciamento. Em uma modalidade, moléculas marcadoras podem ser combinadas com uma amostra de fonte não processada. Por exemplo, o ácido nucleico marcador pode ser provido em um tubo de coleta que é usado para coletar uma amostra de sangue. Alternativamente, os ácidos nucleicos marcadores podem ser adicionados à amostra de sangue seguindo a retirada de sangue. Em uma modalidade, o ácido nucleico marcador é adicionado ao vaso que é usado para coletar uma amostra de fluido biológico, por exemplo, o(s) ácido(s) nucleico(s) marcador(es) é adicionado a um tubo de coleta de sangue que é usado para coletar uma amostra de sangue. Em uma outra modalidade, o(s) ácido(s) nucleico(s) marcador(es) é adicionado a uma fração da amostra de fluido biológico. Por exemplo, o ácido nucleico marcador é adicionado à fração do plasma e/ou soro de uma amostra de sangue, por exemplo, uma amostra materna de plasma. Ainda em uma outra modalidade, as moléculas marcadoras são adicionadas a uma amostra purificada, por exemplo, uma amostra de ácidos nucleicos que foi purificada de uma amostra biológica. Por exemplo, o ácido nucleico marcador é adicionado a uma amostra de cfDNA materno e fetal purificado. Similarmente, os ácidos nucleicos marcadores podem ser adicionados a um corpo de prova de biópsia antes do processamento do corpo de prova. Em algumas modalidades, os ácidos nucleicos marcadores podem ser combinados com um carreador que dispensa as moléculas marcadoras nas células da amostra biológica. Carreadores de dispensação celular incluem lipossomas sensíveis ao pH e catiônicos.
[00279] Em várias modalidades, as moléculas marcadoras têm sequências antigenômicas, que são sequências que são ausentes do genoma da amostra da fonte biológica. Em uma modalidade exemplar, as moléculas marcadoras que são usadas para verificar a integridade de uma amostra da fonte biológica humana têm sequências que são ausentes do genoma humano. Em uma modalidade alternativa, as moléculas marcadoras têm sequências que são ausentes da amostra da fonte e de qualquer um ou mais outros genomas conhecidos. Por exemplo, as moléculas marcadoras que são usadas para verificar a integridade de uma amostra da fonte biológica humana têm sequências que são ausentes do genoma humano e do genoma de camundongo. A alternativa permite verificar a integridade de uma amostra de teste que compreende dois ou mais genomas. Por exemplo, a integridade de uma amostra de DNA livre de célula humana obtida de um indivíduo afetado por um patógeno, por exemplo, uma bactéria, pode ser verificada usando moléculas marcadoras tendo sequências que são ausentes tanto do genoma humano quanto do genoma da bactéria subjacente. Sequências de genomas de inúmeros patógenos, por exemplo, bactérias, vírus, leveduras, fungos, protozoários etc., são publicamente disponíveis no World Wide Web at ncbi.nlm.nih.gov/genomes. Em uma outra modalidade, moléculas marcadoras são ácidos nucleicos que têm sequências que estão ausentes de qualquer genoma conhecido. As sequências das moléculas marcadoras podem ser aleatoriamente geradas algoritmicamente.
[00280] Em várias modalidades, as moléculas marcadoras podem ser ácidos desoxirribonucleicos que ocorrem naturalmente (DNA), ácidos ribonucleicos ou análogos de ácido nucleico artificial (iniciadores de ácido nucleico) incluindo ácidos nucleicos de peptídeo (PNA), ácido nucleico de morfolino, ácidos nucleicos bloqueados, ácidos nucleicos de glicol e ácidos nucleicos de treose, que são distinguidos de DNA ou RNA que ocorrem naturalmente por mudanças à cadeia principal da molécula ou imitador de DNA que não têm uma cadeia principal de fosfodiéster. Os ácidos desoxirribonucleicos podem ser de genomas que ocorrem naturalmente ou podem ser gerados em um laboratório por meio do uso de enzimas ou por síntese química de fase sólida. Métodos químicos também podem ser usados para gerar os imitadores de DNA que não são encontrados na natureza. Derivados de DNA são os que são disponíveis em que a ligação de fosfodiéster foi substituída, mas em que o desoxieribose é retida incluem, mas sem se limitar a, imitadores de DNA tendo cadeias principais formadas por tioformacetal ou uma ligação de carboxamida, que mostraram ser bons imitadores de DNA estrutural. Outros imitadores de DNA incluem derivados de ácidos nucleicos de morfolino e de peptídeo (PNA), que contêm uma cadeia principal de pseudopeptídeo a base de N-(2-aminoetil)glicina (Ann Rev Biophys Biomol Struct 24:167-183 [1995]). PNA é um imitador estrutural extremamente bom de DNA (ou de ácido ribonucleico [RNA]) e oligômeros de PNA são capazes de formar estruturas duplas estáveis com oligômeros de DNA e RNA complementares de Watson-Crick (ou PNA) e eles também podem ser ligar aos alvos em DNA duplo por invasão de hélice (Mol Biotechnol 26:233-248 [2004]. Um outro imitador/análogo estrutural com de análogo de DNA que pode ser usado como uma molécula marcadora é DNA fosforotioato em que um dos oxigênios de não ligação é substituído por um enxofre. Esta modificação reduz a ação de endo-e exonucleases2 incluindo 5’ a 3’ e 3’ a 5’ DNA POL 1 exonuclease, nucleases S1 e P1, RNases, nucleases do soro e fosfodiesterase de veneno de cobra.
[00281] O comprimento das moléculas marcadoras pode ser distinto ou não distinto dos ácidos nucleicos da amostra, isto é, o comprimento das moléculas marcadoras pode ser similar ao das moléculas genômicas da amostra ou pode ser maior ou menor que o das moléculas genômicas da amostra. O comprimento das moléculas marcadoras é medido pelo número de nucleotídeo ou bases análogas do nucleotídeo que constituem a molécula marcadora. Moléculas marcadoras tendo comprimentos que diferem dos das moléculas genômicas da amostra podem ser distinguidas dos ácidos nucleicos da fonte usando métodos de separação conhecidos na técnica. Por exemplo, diferenças no comprimento das moléculas de ácido nucleico marcadoras e da amostra podem ser determinadas por separação eletroforética, por exemplo, eletroforese capilar. Diferenciação do tamanho pode ser vantajosa para quantificar e estimar a qualidade dos ácidos nucleicos marcadores e da amostra. Preferivelmente, os ácidos nucleicos marcadores são menores que os ácidos nucleicos genômicos e de comprimento suficiente para excluí-los de ser mapeados para o genoma da amostra. Por exemplo, como um humano de 30 bases, sequência é necessária para unicamente mapeá-la para um genoma humano. Desta maneira, em certas modalidades, moléculas marcadoras usadas nos bioensaios de sequenciamento das amostras humanas deveriam ter pelo menos 30 bp de comprimento.
[00282] A escolha do comprimento da molécula marcadora é determinada principalmente pela tecnologia de sequenciamento que é usada para verificar a integridade de uma amostra da fonte. O comprimento dos ácidos nucleicos genômicos da amostra sendo sequenciados também pode ser considerado. Por exemplo, algumas tecnologias de sequenciamento empregam amplificação clonal de polinucleotídeos, que podem requerer que os polinucleotídeos genômicos que sejam para ser clonalmente amplificados tenham um comprimento mínimo. Por exemplo, sequenciamento usando o analisador de sequência Illumina GAII inclui uma amplificação clonal in vitro por PCR de ponte (também conhecido como amplificação de grupo) de polinucleotídeos que têm um comprimento mínimo de 110bp, aos quais adaptadores são ligados para prover um ácido nucleico de pelo menos 200 bp e menos que 600 bp que pode ser clonalmente amplificado e sequenciado. Em algumas modalidades, o comprimento da molécula marcadora ligada ao adaptador é entre cerca de 200bp e cerca de 600bp, entre cerca de 250bp e 550bp, entre cerca de 300bp e 500bp ou entre cerca de 350 e 450. Em outras modalidades, o comprimento da molécula marcadora ligada ao adaptador é cerca de 200bp. Por exemplo, quando sequenciamento de cfDNA fetal que está presente em uma amostra materna, o comprimento da molécula marcadora pode ser escolhido para ser similar ao das moléculas de cfDNA fetais. Assim, em uma modalidade, o comprimento da molécula marcadora usada em um ensaio que compreende sequenciamento massivamente paralelo de cfDNA em uma amostra materna para determinar a presença ou ausência de uma aneuploidia cromossômica fetal pode ser cerca de 150 bp, cerca de 160bp, 170 bp, cerca de 180bp, cerca de 190bp ou cerca de 200bp; preferivelmente, a molécula marcadora é cerca de 170 pp. Outras abordagens de sequenciamento, por exemplo, sequenciamento de SOLiD, Sequenciamento de Polony e sequenciamento de 454 usam PCR em emulsão para clonalmente amplificar moléculas de DNA para sequenciamento e cada tecnologia impõe o comprimento mínimo e máximo da moléculas que devem ser amplificadas. O comprimento das moléculas marcadoras a ser sequenciadas como ácidos nucleicos clonalmente amplificados pode ser até cerca de 600bp. Em algumas modalidades, o comprimento das moléculas marcadoras a ser sequenciadas pode ser maior que 600bp.
[00283] Tecnologias de sequenciamento de molécula única, que não empregam amplificação clonal das moléculas e são capazes de sequenciar ácidos nucleicos durante uma faixa muito ampla de comprimentos do molde, na maioria das situações, não requer que as moléculas a ser sequenciadas sejam de qualquer comprimento específico. Entretanto, a produção das sequências por unidade de massa depende do número de grupos hidroxila de extremidade 3’ e, assim, tendo moldes relativamente curtos para sequenciamento é mais eficiente que moldes longos. Se começar com ácidos nucleicos maiores que 1.000 nt, geralmente é aconselhável desgastar os ácidos nucleicos a um comprimento médio de 100 a 200 nt, de maneira tal que mais informação da sequência possa ser gerada a partir da mesma massa de ácidos nucleicos. Assim, o comprimento da molécula marcadora pode variar de dezenas de bases a milhares de bases. O comprimento das moléculas marcadoras usadas para o sequenciamento de molécula única pode ter até cerca de 25bp, até cerca de 50bp, até cerca de 75bp, até cerca de 100bp, até cerca de 200bp, até cerca de 300bp, até cerca de 400bp, até cerca de 500bp, até cerca de 600bp, até cerca de 700bp, até cerca de 800 bp, até cerca de 900bp, até cerca de 1.000bp ou mais de comprimento.
[00284] O comprimento escolhido para uma molécula marcadora também é determinado pelo comprimento do ácido nucleico genômico que é sequenciado. Por exemplo, cfDNA circula na corrente sanguínea humana como fragmentos genômicos de DNA genômico celular. Moléculas de cfDNA fetais encontradas no plasma de mulheres grávidas são geralmente menores que moléculas de cfDNA maternas (Chan et al., Clin Chem 50:8892 [2004]). Fracionamento do tamanho do DNA fetal circulante confirmou que o comprimento médio dos fragmentos de DNA fetal circulante é <300 bp, enquanto que DNA materno foi estimado ser entre cerca de 0,5 e 1 Kb (Li et al., Clin Chem, 50: 1002-1011 [2004]). Estas descobertas são consistentes com as de Fan et al., que determinou o uso de NGS de cfDNA fetal é raramente >340bp (Fan et al., Clin Chem 56:1279-1286 [2010]). DNA isolado de urina com um método a base de sílica padrão consiste em suas frações, DNA de alto peso molecular, que origina de células vertidas e fração de baixo peso molecular (150-250 pares de base) de DNA trans-renal (Tr-DNA) (Botezatu et al., Clin Chem. 46: 1078-1084, 2000; e Su et al., J Mol. Diagn. 6: 101-107, 2004). A aplicação de técnica recém desenvolvida para isolamento de ácidos nucleicos livres de célula de fluidos corporais para o isolamento de ácidos nucleicos trans-renais revelou a presença, na urina, de fragmentos de DNA e RNA muito menores que 150 pares de base (pedido de patente U.S. No. 20080139801). Em modalidades em que cfDNA é o ácido nucleico genômico que é sequenciado, moléculas marcadoras que são escolhidas podem ser até cerca do comprimento do cfDNA. Por exemplo, o comprimento das moléculas marcadoras usadas nas amostras de cfDNA materno a ser sequenciadas como moléculas de ácido nucleico únicas ou como ácidos nucleicos clonalmente amplificados pode ser entre cerca de 100 bp e 600. Em outras modalidades, os ácidos nucleicos genômicos da amostra são fragmentos de moléculas maiores. Por exemplo, uma amostra ácido nucleico genômico que é sequenciada é DNA celular fragmentado. Em modalidades quando DNA celular fragmentado é sequenciado, o comprimento das moléculas marcadoras pode ser até o comprimento dos fragmentos de DNA. Em algumas modalidades, o comprimento das moléculas marcadoras é pelo menos o comprimento mínimo requerido para mapear a leitura da sequência unicamente para o genoma de referência apropriado. Em outras modalidades, o comprimento da molécula marcadora é o comprimento mínimo que é requerido para excluir a molécula marcadora de ser mapeada para a amostra genoma de referência.
[00285] Além do mais, moléculas marcadoras podem ser usadas para verificar amostras que não são ensaiadas pelo sequenciamento de ácido nucleico e que podem ser verificadas por biotécnicas comuns a não ser sequenciamento, por exemplo, PCR em tempo real.
Controles da Amostra (por exemplo, controles positivos em processo para sequenciamento e/ou análise).
[00286] Em várias modalidades, sequências marcadoras introduzidas nas amostras, por exemplo, conforme descrito anteriormente, podem funcionar como controles positivos para verificar a exatidão e eficácia do sequenciamento e subsequente análise do processamento.
[00287] Desta maneira, composições e método para prover um controle positivo em processo (IPC) para sequenciamento de DNA em uma amostra são providos. Em certas modalidades, controles positivos são providos parar sequenciamento de cfDNA em uma amostra compreendendo uma mistura de genomas são providos. Um IPC pode ser usado para se referir aos deslocamentos da linha de base na informação da sequência obtida de diferentes conjuntos de amostras, por exemplo, amostras que são sequenciadas em diferentes tempos em diferentes corridas de sequenciamento. Assim, por exemplo, um IPC pode se referir à informação da sequência obtida para uma amostra materna de teste para a informação da sequência obtida de um conjunto de amostras qualificadas que foram sequenciadas em diferentes tempos.
[00288] Similarmente, no caso de análise do segmento, um IPC pode se referir à informação da sequência obtida de um indivíduo para segmento(s) particular para a sequência obtida de um conjunto de amostras qualificadas (de sequências similares) que foram sequenciadas em diferentes tempos. Em certas modalidades, um IPC pode se referir à informação da sequência obtida de um indivíduo para locais relacionados ao câncer particulares para a informação da sequência obtida de um conjunto de amostras qualificadas (por exemplo, de uma amplificação/deleção conhecidas e similares).
[00289] Além do mais, IPCs podem ser usados como marcadores para rastrear amostra(s) por meio do processo de sequenciamento. IPCs também podem prover um valor de dosagem de sequência positivo qualitativo, por exemplo, NCV, para uma ou mais aneuploidias dos cromossomos de interesse, por exemplo, trissomia do 21, trissomia do 13, trissomia do 18 para prover interpretação apropriada e garantir a confiança e exatidão dos dados. Em certas modalidades IPCs podem ser criados para compreender ácidos nucleicos de genomas macho e fêmea para prover doses para cromossomos X e Y em uma amostra materna para determinar se o feto é macho.
[00290] O tipo e o número de controles em processo dependem do tipo ou natureza do teste necessário. Por exemplo, para um teste que requer o sequenciamento de DNA de uma amostra compreendendo uma mistura de genomas para determinar se uma aneuploidia cromossômica existe, o controle em processo pode compreender DNA obtido de uma amostra conhecida compreendendo a mesma aneuploidia cromossômica que está sendo testada. Em algumas modalidades, o IPC inclui DNA de uma amostra conhecida por compreender uma aneuploidia de um cromossomo de interesse. Por exemplo, o IPC para um teste para determinar a presença ou ausência de uma trissomia do fetal, por exemplo, trissomia do 21, em uma amostra materna, compreende DNA obtido de um indivíduo com trissomia do 21. Em algumas modalidades, o IPC compreende uma mistura de DNA obtida de dois ou mais indivíduos com diferentes aneuploidias. Por exemplo, para um teste para determinar a presença ou ausência de trissomia do 13, trissomia do 18, trissomia do 21 e monossomia do X, o IPC compreende uma combinação de amostras de DNA obtidas de mulheres grávidas, cada uma carregando um feto com uma das trissomias sendo testada. Além das aneuploidias cromossômicas completas, IPCs podem ser criados para prover controles positivos para testes para determinar a presença ou ausência de aneuploidias parciais.
[00291] Um IPC que serve como o controle para detectar uma única aneuploidia pode ser criado usando uma mistura de DNA genômico celular obtido de dois indivíduos, um sendo o contribuinte do genoma aneuploide. Por exemplo, um IPC que é criado como um controle para um teste para determinar uma trissomia fetal, por exemplo, trissomia do 21, pode ser criado combinando DNA genômico de um indivíduo macho ou fêmea que carrega o cromossomo trissômico com DNA genômico com um indivíduo fêmea conhecido por não carregar o cromossomo trissômico. DNA genômico pode ser extraído das células de ambos os indivíduos e compartilhado para prover fragmentos entre cerca de 100 a 400 bp, entre cerca de 150 a 350 bp ou entre cerca de 200 a 300 bp para simular os fragmentos de cfDNA circulantes nas amostras maternas. A proporção de DNA fragmentado do indivíduo que carrega a aneuploidia, por exemplo, trissomia do 21, é escolhido para simular a proporção de cfDNA fetal circulante encontrado nas amostras maternas para prover um IPC compreendendo uma mistura de DNA fragmentado compreendendo cerca de 5%, cerca de 10%, cerca de 15%, cerca de 20%, cerca de 25%, cerca de 30% do DNA do indivíduo que carrega a aneuploidia. O IPC pode compreender DNA de diferentes indivíduos, cada um carregando uma aneuploidia diferente. Por exemplo, o IPC pode compreender cerca de 80% do DNA da fêmea não afetado e os 20% restantes podem ser DNA de três diferentes indivíduos, cada um carregando um cromossomo trissômico do 21, um cromossomo trissômico do 13 e um cromossomo trissômico do 18. A mistura de DNA fragmentado é preparada para sequenciamento. O processamento da mistura de DNA fragmentado pode compreender preparar uma biblioteca de sequenciamento, que pode ser sequenciada usando quaisquer métodos massivamente paralelos da maneira singleplex ou multiplex. Soluções de estoque do IPC genômico podem ser armazenadas e usadas em testes de múltiplos diagnósticos.
[00292] Alternativamente, o IPC pode ser criado usando cfDNA obtido de uma mãe conhecida por carregar um feto com uma aneuploidia cromossômica conhecida. Por exemplo, cfDNA pode ser obtido de uma mulher grávida que carrega um feto com trissomia do 21. O cfDNA é extraído da amostra materna e clonado em um vetor bacteriano e crescido na bactéria para prover uma fonte contínua do IPC. O DNA pode ser extraído do vetor bacteriano usando enzimas de restrição. Alternativamente, o cfDNA clonado pode ser amplificado, por exemplo, por PCR. O DNA do IPC pode ser processado para sequenciamento nas mesmas corridas que o cfDNA das amostras de teste, que são para ser analisados com relação à presença ou ausência de aneuploidias cromossômicas.
[00293] Embora a criação de IPCs seja descrita anteriormente com relação às trissomias, ficará evidente que IPCs podem ser criados para refletir outras aneuploidias parciais incluindo, por exemplo, várias amplificações e/ou deleções do segmento. Assim, por exemplo, onde vários cânceres são conhecidos por ser associados com amplificações particulares (por exemplo, câncer de mama associado com 20Q13), podem ser criados IPCs que incorporam amplificações conhecidas.
Métodos de Sequenciamento
[00294] Como indicado anteriormente, as amostras preparadas (por exemplo, Bibliotecas de Sequenciamento) são sequenciadas como parte do procedimento para identificar variação no número de cópia(s). Qualquer de inúmeras tecnologias de sequenciamento pode ser utilizada.
[00295] Algumas tecnologias de sequenciamento são comercialmente disponíveis, tais como a plataforma de sequenciamento por hibridização da Affymetrix Inc. (Sunnyvale, CA) e as plataformas de sequenciamento por síntese da 454 Life Sciences (Bradford, CT), Illumina/Solexa (Hayward, CA) e Helicos Biosciences (Cambridge, MA) e a plataforma de sequenciamento por ligação da Applied Biosystems (Foster City, CA), como descrito a seguir. Além do sequenciamento de molécula única realizado usando sequenciamento por síntese da Helicos Biosciences, outras tecnologias de sequenciamento de molécula única incluem, mas sem se limitar à tecnologia SMRT™ da Pacific Biosciences, a tecnologia ION TORRENTTM e sequenciamento de nanoporo desenvolvido, por exemplo, pela Oxford Nanopore Technologies.
[00296] Embora o método de Sanger automatizado seja considerado uma tecnologia de ‘primeira geração’, sequenciamento de Sanger incluindo o sequenciamento de Sanger automatizado pode também ser empregado nos métodos aqui descritos. Métodos de sequenciamento adequados adicionais incluem, mas sem se limitar a tecnologias de formação de imagem de ácido nucleico, por exemplo, microscopia de força atômica (AFM) ou microscopia eletrônica de transmissão (TEM). Tecnologias de sequenciamento ilustrativas são descritas com mais detalhes a seguir.
[00297] Em uma modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência para os ácidos nucleicos em uma amostra de teste, por exemplo, cfDNA em uma amostra materna, cfDNA ou DNA celular em um sujeito que está sendo triado para um câncer e similares, usando tecnologia de sequenciamento de molécula única da Helicos True Single Sequencing Molecule (tSMS) (por exemplo, como descrito em Harris T.D. et al., Science 320:106-109 [2008]). Na técnica tSMS, uma amostra de DNA é clivada em fitas de aproximadamente 100 a 200 nucleotídeos e uma sequência poliA é adicionada na extremidade 3’ de cada fita de DNA. Cada fita é marcada pela adição de um nucleotídeo de adenosina fluorescentemente marcado. As fitas de DNA são então hibridizadas em uma célula de fluxo, que contém milhões de sítios de captura de oligo-T que são imobilizados na superfície da célula de fluxo. Em certas modalidades, os moldes podem ser a uma densidade de cerca de 100 milhões moldes/cm2. A célula de fluxo é então carregada em um instrumento, por exemplo, sequenciador HeliScope™ e um laser ilumina a superfície da célula de fluxo, revelando a posição de cada molde. Uma câmera CCD pode mapear a posição dos moldes na superfície da célula de fluxo. O marcador fluorescente do molde é então clivada e lavada. A reação de sequenciamento começa introduzindo uma DNA polimerase e um nucleotídeo fluorescentemente marcado. O ácido nucleico de oligo-T serve como um oligonucleotídeo iniciador. A polimerase incorpora os nucleotídeos marcados no oligonucleotídeo iniciador de uma maneira direcionada para o molde. A polimerase e nucleotídeos não incorporados são removidos. Os moldes que têm incorporação direcionada do nucleotídeo fluorescentemente marcado são discernidos por formação de imagem da superfície da célula de fluxo. Depois da formação de imagem, uma etapa de clivagem remove o marcador fluorescente e o processo é repetido com outros nucleotídeos fluorescentemente marcados até que o comprimento de leitura desejado seja alcançado. Informação de sequência é coletada com cada etapa de adição de nucleotídeo. Sequenciamento de genoma total por tecnologias de sequenciamento de molécula única exclui ou tipicamente elimina amplificação a base de PCR na preparação das bibliotecas de sequenciamento e os métodos permitem medição direta da amostra, em vez de medição das cópias dessa amostra.
[00298] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, cfDNA ou DNA celular em um sujeito que está sendo triado para um câncer e similares, usando o sequenciamento 454 (Roche) (por exemplo, como descrito em Margulies, M. et al. Nature 437:376-380 [2005]). Sequenciamento 454 tipicamente envolve duas etapas. Na primeira etapa, DNA é cisalhado em fragmentos de aproximadamente 300 a 800 pares de base e os fragmentos são feitos em extremidades abruptas. Adaptadores de oligonucleotídeo são então ligados nas extremidades dos fragmentos. Os adaptadores servem como oligonucleotídeos iniciadores para amplificação e sequenciamento dos fragmentos. Os fragmentos podem ser anexados nos glóbulos de captura de DNA, por exemplo, glóbulos revestidos com estreptavidina, usando, por exemplo, Adaptador B, que contém marcador 5’- biotina. Os fragmentos anexados nos glóbulos são amplificados por PCR em gotículas de uma emulsão óleo e água. O resultado são múltiplas cópias de fragmentos de DNA clonalmente amplificados em cada glóbulo. Na segunda etapa, os glóbulos são capturados em poços (por exemplo, poços de dimensões da ordem de picolitro). Pirosequenciamento é realizado em cada fragmento de DNA em paralelo. A adição de um ou mais nucleotídeos gera um sinal luminoso que é registrado por uma câmera CCD em um instrumento de sequenciamento. A intensidade do sinal é proporcional ao número de nucleotídeos incorporados. Pirosequenciamento faz uso de pirofosfato (PPi) que é liberado mediante adição de nucleotídeo. PPi é convertido em ATP por ATP sulfurilase na presença de 5’ fosfossulfato de adenosina. Luciferase usa ATP para converter luciferina em oxiluciferina e esta reação gera luz que é medida e analisada.
[00299] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA em uma amostra de teste maternal, cfDNA ou DNA celular em um sujeito que está sendo triado para um câncer e similares, usando a tecnologia SOLiD™ (Applied Biosystms). Em sequenciamento por ligação SOLiD™, DNA genômico é cisalhado em fragmentos e adaptadores são anexados nas extremidades 5’ e 3’ dos fragmentos para gerar uma biblioteca de fragmentos. Alternativamente, adaptadores internos podem ser introduzidos ligando adaptadores nas extremidades 5’ e 3’ dos fragmentos, circularizando os fragmentos, digerindo o fragmento circularizado para gerar um adaptador interno e anexando adaptadores nas extremidades 5’ e 3’ dos fragmentos resultantes para gerar uma biblioteca de pares casados. Em seguida, populações de glóbulos clonais são preparadas em micro-reatores contendo glóbulos, oligonucleotídeos iniciadores, molde e componentes de PCR. Após PCR, os moldes são desnaturados e glóbulos são enriquecidos para separar os glóbulos com moldes estendidos. Moldes nos glóbulos selecionados são submetidos a uma modificação em 3’ que permite união a uma lâmina de microscópio. A sequência pode ser determinada por hibridização sequencial e ligação de oligonucleotídeos parcialmente aleatórios com uma base determinada central (ou pares de bases) que é identificada por um fluoróforo específico. Depois que uma cor é registrada, o oligonucleotídeo ligado é clivado e removido e o processo é então repetido.
[00300] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, cfDNA ou DNA celular em um sujeito que está sendo triado para um câncer e similares, usando a tecnologia de sequenciamento em tempo real de única molécula (SMRT™) da Pacific Biosciences. Em sequenciamento SMRT, a incorporação contínua de nucleotídeos marcados com corante é formada por imagem durante síntese de DNA. Moléculas de DNA polimerase simples são anexadas na superfície inferior de detectores de comprimento de onda de modo zero individuais (detectores ZMW) que obtêm informação de sequência enquanto nucleotídeos fosfoligados estão sendo incorporados na fita de oligonucleotídeo iniciador em crescimento. Um detector ZMW compreende uma estrutura de confinamento que permite observação da incorporação de um único nucleotídeo por DNA polimerase contra um fundo de nucleotídeos fluorescentes que difundem rapidamente a favor e contra o ZMW (por exemplo, em microssegundos). Tipicamente leva diversos milissegundos para incorporar um nucleotídeo em uma fita em crescimento. Neste tempo, o marcador fluorescente é excitada e produz um sinal fluorescente e o marcador fluorescente é clivada. Medição da fluorescência correspondente do corante indica qual base foi incorporada. O processo é repetido para fornecer uma sequência.
[00301] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, cfDNA ou DNA celular em um sujeito que está sendo triado para um câncer e similares, usando sequenciamento de nanoporo (por exemplo, como descrito em Soni GV e Meller A. Clin Chem 53: 1996-2001 [2007]). Técnicas de análise de DNA por sequenciamento de nanoporo são desenvolvidas por inúmeras empresas, incluindo, por exemplo, Oxford Nanopore Technologies (Oxford, Reno Unido), Sequenom, NABsys e similares. Sequenciamento de nanoporo é uma tecnologia de sequenciamento de única molécula por meio da qual uma única molécula de DNA é sequenciada diretamente à medida que ela passa através de um nanoporo. Um nanoporo é um pequeno furo, tipicamente da ordem de 1 nanometro de diâmetro. Imersão de um nanoporo em um fluido condutor e aplicação de um potencial (Tensão) através dele resulta em uma leve corrente elétrica por causa da condução de íons através do nanoporo. A quantidade de corrente que passa é sensível ao tamanho e forma do nanoporo. À medida que uma molécula de DNA passa através de um nanoporo, cada nucleotídeo na molécula de DNA obstrui o nanoporo em um grau diferente, mudando a magnitude da corrente através do nanoporo em diferentes graus. Assim, esta mudança na corrente à medida que a molécula de DNA passa através do nanoporo fornece uma leitura da sequência de DNA.
[00302] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, cfDNA ou DNA celular em um sujeito que está sendo triado para um câncer e similares, usando o arranjo de transistor de efeito de campo (chemFET) quimiossensível (por exemplo, como descrito no Relatório Descritivo do Pedido de Patente U.S. No. 2009/0026082). Em um exemplo desta técnica, moléculas de DNA podem ser colocadas em câmaras de reação e as moléculas de molde podem ser hibridizadas em um oligonucleotídeo iniciador de sequenciamento ligado em uma polimerase. Incorporação de um ou mais tiofosfatos em uma nova fita de ácido nucleico na extremidade 3’ do oligonucleotídeo iniciador de sequenciamento pode ser discernida como uma mudança na corrente por um chemFET. Um arranjo pode ter múltiplos sensores chemFET. Em um outro exemplo, ácidos nucleicos simples podem ser anexados nos glóbulos e os ácidos nucleicos podem ser amplificados no glóbulo e os glóbulos individuais podem ser transferidos para câmaras de reação individuais em um arranjo chemFET, com cada câmara tendo um sensor chemFET e os ácidos nucleicos podem ser sequenciados.
[00303] Em uma outra modalidade, o presente método compreende obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, usando a Tecnologia de Halcyon Molecular, que usa microscopia eletrônica de transmissão (TEM). O método, denominado NanoTransferência Rápida de Colocação de Molécula Individual (IMPRNT), compreende utilizar formação de imagem por microscópio eletrônico de transmissão de resolução atômica simples de alto peso molecular (150kb ou mais) de DNA seletivamente marcado com marcadores atômicos pesados e arranjar essas moléculas em películas ultrafinas em arranjos paralelos ultradensos (3nm fita a fita) com espaçamento base a base consistente. O microscópio eletrônico é usado para formar por imagem as moléculas nas películas para determinar a posição dos marcadores de átomo pesado e extrair informação de sequência de base do DNA. O método é adicionalmente descrito no relatório descritivo de patente PCT WO 2009/046445. O método permite sequenciamento de genomas humanos completos em menos de dez minutos.
[00304] Em uma outra modalidade, a tecnologia de sequenciamento DNA é o sequenciamento de molécula única de Ion Torrent, que emparelha tecnologia de semicondutor com uma química de sequenciamento simples para traduzir diretamente informação quimicamente codificada (A, C, G, T) em informação digital (0, 1) em um chip semicondutor. Na natureza, quando um nucleotídeo é incorporado em uma fita de DNA por uma polimerase, um íon de hidrogênio é liberado como um subproduto. Ion Torrent usa um arranjo de alta densidade de poços microusinados para realizar este processo bioquímico de uma maneira massivamente paralela. Cada poço contém uma diferente molécula de DNA. Por baixo dos poços fica uma camada sensível a íons e por baixo dessa um sensor iônico. Quando um nucleotídeo, por exemplo, um C, é adicionado a um molde de DNA e é então incorporado em uma fita de DNA, um íon de hidrogênio será liberado. A carga desse íon mudará o pH da solução, que pode ser detectado por sensor iônico de Ion Torrent. O sequenciador - essencialmente o menor medidor de pH de estado sólido do mundo - chama a base, indo diretamente da informação química para informação digital. O sequenciador da Ion Personal Genoma Machine (PGM™) então sequencialmente inunda o chip com um nucleotídeo depois de um outra. Se o nucleotídeo seguinte que inunda o chip não for uma correspondência, nenhuma mudança de tensão será registrada e nenhuma base será chamada. Se houver duas bases idênticas na fita de DNA, a tensão será o dobro e o chip registrará duas bases idênticas chamadas. Detecção direta permite registro de incorporação de nucleotídeo em segundos.
[00305] Em uma outra modalidade, o presente método compreende obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, usando sequenciamento por hibridização. Sequenciamento por hibridização compreende contactar a pluralidade de sequências de polinucleotídeos com uma pluralidade de sondas de polinucleotídeo, em que cada da pluralidade de sondas de polinucleotídeo pode ser opcionalmente amarrada em um substrato. O substrato pode ser superfície plana compreendendo um arranjo de sequências de nucleotídeos conhecidas. O padrão de hibridização no arranjo pode ser usado para determinar as sequências de polinucleotídeos presentes na amostra. Em outras modalidades, cada sonda é amarrada em um glóbulo, por exemplo, um glóbulo magnético ou similares. Hibridização nos glóbulos pode ser determinada e usada para identificar a pluralidade de sequências de polinucleotídeos na amostra.
[00306] Em uma outra modalidade, o presente método compreende obter informação de sequência para os ácidos nucleicos na amostra de teste, por exemplo, cfDNA, em uma amostra de teste maternal, pelo sequenciamento massivamente paralelo de milhões de fragmentos de DNA usando sequenciamento por síntese de Illumina e química de sequenciamento a base de terminador reversível (por exemplo, como descrito em Bentley et al., Nature 6:53-59 [2009]). DNA de molde pode ser DNA genômico, por exemplo, cfDNA. Em algumas modalidades, DNA genômico de células isoladas é usado como o molde e ele é fragmentado em comprimentos de diversas centenas de pares de base. Em outras modalidades, cfDNA é usado como o molde e fragmentação não é exigida, já que cfDNA existe como curtos fragmentos. Por exemplo, cfDNA fetal circula na corrente sanguínea como fragmentos de aproximadamente 170 pares de base (bp) de comprimento (Fan et al., Clin Chem 56:1279-1286 [2010]) e não é necessária fragmentação do DNA antes do sequenciamento. Tecnologia de sequenciamento de Illumina se baseia na anexação de DNA genômico fragmentado em uma superfície planar opticamente transparente na qual âncoras de oligonucleotídeo são ligadas. DNA de molde é reparado na extremidade para gerar extremidades abruptas 5’-fosforilada e a atividade de polimerase do fragmento Klenow é usado para adicionar uma única base na extremidade 3’ dos fragmentos de DNA fosforilados abruptos. Esta adição prepara os fragmentos de DNA para ligação nos adaptadores de oligonucleotídeo, que têm uma saliência de uma única base T em sua extremidade 3’ para aumentar a eficiência de ligação. Os oligonucleotídeos adaptadores são complementares às âncoras de célula de fluxo. Em tais condições de diluição limitante, DNA de molde de fita simples modificado por adaptador é adicionado na célula de fluxo e imobilizado por hibridização nas âncoras. Fragmentos de DNA anexados são estendidos e se ligam amplificados para criar uma célula de fluxo de sequenciamento de ultra-alta densidade com centenas de milhões de agrupamentos, cada qual contendo ~1.000 cópias do mesmo molde. Em uma modalidade, o DNA genômico aleatoriamente fragmentado, por exemplo, cfDNA, é amplificado usando PCR ante de seu submetido a amplificação por agrupamento. Alternativamente, uma preparação biblioteca genômica sem amplificação é usada e o DNA genômico aleatoriamente fragmentado, por exemplo, cfDNA, é enriquecido usando a amplificação por agrupamento sozinha (Kozarewa et al., Nature Methods 6:291-295 [2009]). Os moldes são sequenciados usando uma tecnologia de sequenciamento por síntese de DNA de quatro cores robusta que emprega terminadores reversíveis com corantes fluorescentes removíveis. Detecção de fluorescência de alta sensibilidade é conseguida usando excitação laser e óptica de reflexão interna total. Leituras de sequência curta de cerca de 20 a 40 bp, por exemplo, 36 bp, são alinhadas contra um genoma de referência com repetição mascarada e mapeamentos exclusivos das leituras de sequência curta no genoma de referência são identificados usando software de condução de análise de dados especialmente desenvolvido. Genomas de referência com repetição não mascarada podem também ser usados. Se genomas de referências mascarados com repetição ou não repetição são usados, somente leituras que mapeiam exclusivamente para o genoma de referência são contadas. Após o término da primeira leitura, os moldes podem ser regenerados in situ para permitir uma segunda leitura da extremidade opostas dos fragmentos. Assim, tanto sequenciamento de extremidade simples quanto extremidade pareada dos fragmentos de DNA pode ser usado. Sequenciamento parcial de fragmentos de DNA presentes na amostra é realizado e marcadores de sequência compreendendo leituras de comprimento predeterminado, por exemplo, 36 bp, são mapeadas e contadas para um genoma de referência conhecido. Em uma modalidade, a sequência do genoma de referência é a sequência NCBI36/hg18, que é disponível na world wide web genome.ucsc.edu/cgi-interval/hgGateway?org=Human&db=hg18&hgsid=166260105).Alternativamente, a sequência do genoma de referência é a GRCh37/hg19, que é disponível na world wide web genome.ucsc.edu/cgi- interval/hgGateway. Outras fontes de informação pública da sequência incluem GenBank, dbEST, dbSTS, EMBL (o European Molecular Biology Laboratory) e o DDBJ (o DNA Databank of Japan). Inúmeros algoritmos de computador são disponíveis para alinhar sequências, incluindo, sem limitação, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]) ou ELAND (Illumina, Inc., San Diego, CA, USA). Em uma modalidade, uma extremidade das cópias clonalmente expandidas das moléculas de plasma de cfDNA é sequenciada e processada por análise de alinhamento por bioinformática para o Illumina Genoma Analyzer, que usa o software Efficient Large-Scale Alignment of Nucleotide Databases (ELAND).
[00307] Em algumas modalidades dos métodos descritos aqui, os marcadores de sequência mapeado compreendem leituras de sequência de cerca de 20bp, cerca de 25bp, cerca de 30bp, cerca de 35bp, cerca de 40bp,cerca de 45bp, cerca de 50bp, cerca de 55bp, cerca de 60bp, cerca de 65bp,cerca de 70bp, cerca de 75bp, cerca de 80bp, cerca de 85bp, cerca de 90bp,cerca de 95bp, cerca de 100bp, cerca de 110bp, cerca de 120bp, cerca de 130,cerca de 140bp, cerca de 150bp, cerca de 200bp, cerca de 250bp, cerca de 300bp, cerca de 350bp, cerca de 400bp, cerca de 450bp ou cerca de 500bp. Espera-se que avanços tecnológicos permitam leituras de extremidade simples maiores que 500bp permitindo leituras maiores que cerca de 1.000bp quando leituras de extremidades pareadas são geradas. Em uma modalidade, os marcadores de sequência mapeadas compreendem leituras de sequência que têm 36bp. Mapeamento de marcadores de sequência é conseguido comparando a sequência do marcador com a sequência da referência para determinar a origem cromossômica da molécula de ácido nucleico sequenciado (por exemplo, cfDNA) e informação de sequência genética específica não é necessária. Um pequeno grau de mau empareamento (0 a 2 maus empareamentos por marcador de sequência) pode ser permitido para levar em conta polimorfismos secundários que podem existir entre o genoma de referência e os genomas na amostra mista.
[00308] Uma pluralidade de marcadores de sequência é tipicamente obtida por amostra. Em algumas modalidades, pelo menos cerca de 3 x 106 marcadores de sequência, pelo menos cerca de 5 x 106 marcadores de sequência, pelo menos cerca de 8 x 106 marcadores de sequência, pelo menos cerca de 10 x 106 marcadores de sequência, pelo menos cerca de 15 x 106 marcadores de sequência, pelo menos cerca de 20 x 106 marcadores de sequência, pelo menos cerca de 30 x 106 marcadores de sequência, pelo menos cerca de 40 x 106 marcadores de sequência ou pelo menos cerca de 50 x 106 marcadores de sequência compreendendo entre 20 e 40bp leituras, por exemplo, 36bp, são obtidas pelo mapeamento das leituras no genoma de referência por amostra. Em uma modalidade, todas as leituras de sequência são mapeadas para todas as regiões do genoma de referência. Em uma modalidade, os marcadores foram mapeadas para todas as regiões, por exemplo, todos os cromossomos, do genoma de referência são contados e o CNV, isto é, a sobre ou sub-representação de uma sequência de interesse, por exemplo, um cromossomo ou porção do mesmo, na amostra de DNA mista é determinada. O método não exige diferenciação entre os dois genomas.
[00309] A precisão exigida para determinar corretamente se um CNV, por exemplo, aneuploidia, está presente ou ausente em uma amostra, é prevista na variação dos marcadores do número de sequência que mapeiam para o genoma de referência entre amostras em uma corrida de sequenciamento (variabilidade intercromossoma) e a variação do número de marcadores de sequência que mapeiam para o genoma de referência em diferentes corridas de sequenciamento (variabilidade intersequenciamento). Por exemplo, as variações podem ser particularmente pronunciadas para marcadores que mapeiam para as sequências de referência ricas em GC ou pobres em GC. Outras variações podem resultar do uso de diferentes protocolos para a extração e purificação dos ácidos nucleicos, a preparação das bibliotecas de sequenciamento e o uso de diferentes plataformas de sequenciamento. O presente método usa dose de sequências (doses do cromossomo ou doses dos segmentos) com base no conhecimento de sequências de normalização (sequências de cromossomos de normalização ou sequências de segmentos de normalização), para intrinsecamente levar em conta a variabilidade advinda proveniente da variabilidade intercromossoma (intracorrida) e intersequenciamento (intercorrida) e dependente da plataforma. Doses do cromossomo são com base no conhecimento de uma sequência de cromossomos de normalização, que pode ser composta de um único cromossomo ou de dois ou mais cromossomos selecionados de cromossomos 1-22, X e Y. Alternativamente, sequências de cromossomos de normalização podem ser compostas de um único segmento de cromossomo ou de dois ou mais segmentos de um cromossomo ou de dois ou mais cromossomos. Doses dos segmentos são com base no conhecimento de uma sequência de segmento de normalização, que pode ser composta de um único segmento de qualquer um cromossomo ou de dois ou mais segmentos de quaisquer dois ou mais dos cromossomos 1-22, X e Y.
CNV e Diagnóstico Pré-natal
[00310] DNA e RNA fetal sem célula circulante em sangue maternal pode ser usado para o diagnóstico pré-natal precoce não invasivo (NIPD) de um número crescente de condições genéticas, tanto para controle de gravidez quanto para auxiliar na tomada de decisão reprodutiva. A presença de DNA sem célula circulante na corrente sanguínea tem sido conhecida por mais de 50 anos. Mais recentemente, a presença de pequenas quantidades de DNA fetal circulante foi descoberta na corrente sanguínea materna durante a gravidez (Lo et al., Lancet 350:485-487 [1997]). Considerado originar da morte de células placentárias, DNA fetal sem célula (cfDNA) mostrou consistir em curtos fragmentos tipicamente de menos que 200 bp de comprimento Chan et al., Clin Chem 50:88-92 [2004]), que podem ser discernidos em até 4 semanas de gestação (Illanes et al., Early Human Dev 83:563-566 [2007]) e conhecidos por ser depurados da circulação materna em horas de dispensação (Lo et al., Am J Hum Genet 64:218-224 [1999]). Além do cfDNA, fragmentos de RNA fetal sem célula (cfRNA) pode também ser discernido na corrente sanguínea materna, proveniente de genes que são transcritos no feto ou placenta. A extração e subsequente análise desses elementos genéticos fetais de uma amostra de sangue materno oferecem oportunidades inéditas para NIPD.
[00311] O presente método é um método independente de polimorfismo que, para uso em NIPD e que não exige que o cfDNA fetal seja distinto do cfDNA maternal para permitir a determinação de uma aneuploidia fetal. Em algumas modalidades, a aneuploidia é uma trissomia ou monossomia cromossômica completa ou uma trissomia ou monossomia parcial. Aneuploidias parciais são causadas por perda ou ganho de parte de um cromossomo e engloba desequilíbrios cromossômicos resultantes de translocações desbalanceadas, inversões desbalanceadas, deleções e inserções. Sem dúvida, a aneuploidia conhecida mais comum compatível com a vida é trissomia 21, isto é, Síndrome de Down (DS), que é causada pela presença de parte ou todo o cromossomo 21. Raramente, DS pode ser causada por um defeito hereditário ou esporádico por meio do que uma cópia extra de todo ou parte do cromossomo 21 fica anexado em um outro cromossomo (normalmente, cromossomo 14) para formar um único cromossomo discrepante. DS é associada com deficiência intelectual, dificuldades de aprendizado severas e excesso de mortalidade causado por problema de saúde a longo prazo tal como doença cardíaca. Outras aneuploidias com significância clínica conhecida incluem síndrome de Edward (trissomia 18) e síndrome de Patau (trissomia 13), que são frequentemente fatais nos primeiros meses de vida. Anormalidades associadas com o número de cromossomos do sexo são também conhecidas e incluem monossomia X, por exemplo, síndrome de Turner (XO) e síndrome dos três X (XXX) em nascimentos fêmeas e síndrome de Kleinefelter (XXY) e síndrome de XYY em nascimentos machos, que são todas associadas com vários fenótipos incluindo esterilidade e redução nas habilidades intelectuais. Monossomia X [45, X] é uma causa comum de perda de gravidez prematura responsável por cerca de 7% de abortos espontâneos. Com base na frequência de nascidos vivos de 45,X (também denominada Síndrome de Turner) de 1 a 2/10.000, estima-se que menos de 1% de 45,X concepções sobreviverá até o término. Cerca de 30% de pacientes com síndrome Turner são mosaicos tanto com uma linhagem celular 45,X quanto uma linhagem celular 46,XX ou uma contendo um cromossomo X rearranjado (Hook e Warburton 1983). O fenótipo em uma criança nascida viva é relativamente brando, considerando a alta letalidade embriônica e foi conjeturado que possivelmente todas as fêmeas nascidas vivas com síndrome de Turner carregam uma linhagem celular contendo dois cromossomos do sexo. Monossomia X pode ocorrer em fêmeas como 45,X ou como 45,X/46XX e em machos como 45,X/46XY. Monossomias autossomais em humano são geralmente sugeridas ser incompatíveis com a vida; entretanto, existe um número bastante grande de reportagens citogenéticas descrevendo monossomia total de um cromossomo 21 em crianças nascidas vivas (Vosranova Iet al., Molecular Cytogen. 1:13 [2008]; Joosten et al., Prenatal Diagn. 17:271-5 [1997]. O método descrito aqui pode ser usado para diagnosticar essas e outras anormalidades cromossômicas pré-natalmente.
[00312] De acordo com algumas modalidades, os métodos descritos aqui podem determinar a presença ou ausência de trissomias cromossômicas de qualquer um dos cromossomos 1-22, X e Y. Exemplos de trissomias cromossômicas que podem ser detectadas de acordo com o presente método incluem sem limitação trissomia 21 (T21; Síndrome de Down), trissomia 18 (T18; síndrome de Edward), trissomia 16 (T16), trissomia 20 (T20), trissomia 22 (T22; síndrome do olho de gato), trissomia 15 (T15; síndrome de Prader Willi), trissomia 13 (T13; síndrome de Patau), trissomia 8 (T8; síndrome de Warkany), trissomia 9 e o XXY (síndrome de Kleinefelter), XYY ou XXX trissomias. Trissomias completas de outros autossomos existentes em um estado não mosaico são letais, mas podem ser compatíveis com a vida quando presentes em um estado mosaico. Percebe-se que várias trissomias completas, que existem em um estado mosaico ou não mosaico e trissomias parciais podem ser determinadas em cfDNA fetal de acordo com os preceitos fornecidos aqui.
[00313] Exemplos não limitantes de trissomias parciais que podem ser determinados pelo presente método incluem, mas sem se limitar a trissomia parcial 1q32-44, trissomia 9 p, mosaicismo de trissomia 4, trissomia 17p, trissomia parcial 4q26-qter, parcial 2p trissomia, trissomia parcial 1q, e/ou trissomia parcial 6p/monossomia 6q.
[00314] Os métodos descritos aqui podem ser também usados para determinar monossomia cromossômica X, monossomia cromossômica 21 e monossomias parciais, tais como monossomia 13, monossomia 15, monossomia 16, monossomia 21 e monossomia 22, que são conhecidas por estar envolvidas em aborto na gravidez. Monossomia parcial de cromossomos tipicamente envolvidos em aneuploidia completa pode também ser determinada pelo método descrito aqui. Exemplos não limitantes de síndromes de deleção que podem ser determinadas de acordo com o presente método incluem síndromes causadas por deleções parciais de cromossomos. Exemplos de deleções parciais que podem ser determinadas de acordo com os métodos descritos aqui incluem sem limitação deleções parciais de cromossomos 1, 4, 5, 7, 11, 18, 15, 13, 17, 22 e 10, que são descritos a seguir.
[00315] Síndrome de deleção 1q21.1 ou microdeleção 1q21.1 (recorrente) é uma aberração rara do cromossomo 1. A seguir à síndrome de deleção, existe também uma síndrome de duplicação 1q21.1. Embora seja uma parte do DNA ausente com a síndrome de deleção em um ponto particular, existem duas ou três cópias de uma parte similar do DNA no mesmo ponto da síndrome de duplicação. Literatura se refere tanto à deleção quanto a duplicação das variações do número de cópias 1q21.1 (CNV). A deleção 1q21.1 pode ser associada com a síndrome de TAR (Trombocitopenia com raio ausente).
[00316] Síndrome de Wolf-Hirschhorn (WHS) (OMIN #194190) é uma síndrome de deleção de gene contíguo associada com uma deleção hemizigota do cromossomo 4p16.3. Síndrome de Wolf-Hirschhorn é uma síndrome de má formação congênita caracterizada por deficiência de crescimento pré e pós natal, incapacidade desenvolvimental de grau variável, aspectos craniofaciais característicos (‘aparência de capacete de guerreiro grego’ do nariz, testa alta, glabela proeminente, hipertelorismo, sobrancelhas arqueadas altas, olhos salientes, dobras epicantais, filtro curto, boca distinta com cantos revirados para baixo e micrognatia) e um distúrbio convulsivo.
[00317] Deleção parcial do cromossomo 5, também conhecida como 5p- ou 5p menos, e denominada síndrome de Cris du Chat (OMIN#123450), é causada por uma deleção do braço curto (braço p) do cromossomo 5 (5p15.3- p15.2). Crianças com esta condição frequentemente têm um choro agudo e gritos que se parecem aos de um gato. O distúrbio é caracterizado por incapacidade intelectual e desenvolvimento atrasado, pequeno tamanho da cabeça (microcefalia), baixo peso no nascimento e fraco tônus muscular (hipotonia) na infância, características faciais distintivas e possivelmente defeitos cardíacos.
[00318] Síndrome de Williams-Beuren, também conhecida como síndrome de deleção do cromossomo 7q11.23 (OMIN 194050), é uma síndrome de deleção do gene contíguo que resulta em um distúrbio multissistema causado por deleção hemizogota de 1,5 a 1,8 Mb no cromossomo 7q11.23, que contém aproximadamente 28 genes.
[00319] Síndrome de Jacobsen, também conhecida como distúrbio de deleção 11q, é um raro distúrbio congênito resultante da deleção de uma região terminal do cromossomo 11 que inclui a banda 11q24.1. Ela pode causar incapacidades intelectuais, uma aparência facial distinta e uma variedade de problemas físicos incluindo problemas cardíacos e um distúrbio hemorrágico.
[00320] Monossomia parcial do cromossomo 18, conhecida como monossomia 18p, é um raro distúrbio cromossômico em que todo ou parte do braço curto (p) do cromossomo 18 é deletado (monossômico). O distúrbio é tipicamente caracterizado pela curta estatura, graus variáveis de retardo mental, atrasos na fala, más formações do crânio e região facial (craniofacial), e/ou anormalidades físicas adicionais. Defeitos craniofaciais associados podem variar bastante na faixa e severidade caso a caso.
[00321] Condições causadas por mudanças na estrutura ou número de cópias do cromossomo 15 incluem síndrome de Angelman e síndrome de Prader-Willi, que envolvem uma perda da atividade do gene na mesma parte do cromossomo 15, a região 15q11-q13. Percebe-se que diversas translocações e microdeleções podem ser assintomáticas no pai portador, e ainda podem causar uma doença genética principal na descendência. Por exemplo, uma mãe sadia que carrega a microdeleção 15q11-q13 pode dar à luz uma criança com síndrome de Angelman, um distúrbio neurodegenerativo severo. Assim, os métodos, aparelho e sistemas descritos aqui podem ser usados para identificar uma deleção parcial como esta e outras deleções no feto.
[00322] Monossomia parcial 13q é um raro distúrbio cromossômico que resulta quando um pedaço do braço comprido (q) do cromossomo 13 está faltando (monossômico). Crianças nascidas com monossomia parcial 13q podem exibir baixo peso no nascimento, más formações da cabeça e face (região craniofacial), anormalidades esqueléticas (especialmente das mãos e pés) e outras anormalidades físicas. Retardo mental é característica desta condição. A taxa de mortalidade durante a infância é alta entre indivíduos nascidos com este distúrbio. Praticamente todos os casos de monossomia parcial 13q ocorrem aleatoriamente sem motivo aparente (esporádico).
[00323] Síndrome de Smith-Magenis (SMS - OMIM #182290) é causada por uma deleção ou perda de material genético em uma cópia do cromossomo 17. Esta síndrome bem conhecida é associada com atraso desenvolvimental, retardo mental, anomalias congênitas tais como problemas renais e anormalidades neurocomportamentais tais como distúrbios severos e comportamento autoinjurioso. Síndrome de Smith-Magenis (SMS) é causada na maioria dos casos (90%) por uma deleção intersticial de 3.7-Mb no cromossomo 17p11.2.
[00324] Síndrome de deleção 22q11.2, também conhecida como síndrome de DiGeorge, é uma síndrome causada pela deleção de um pequeno pedaço do cromossomo 22. A deleção (22 q11.2) ocorre perto do meio do cromossomo no braço comprido de um do par de cromossomos. As características desta síndrome variam amplamente, mesmo entre membros da mesma família. e afetam muitas partes do corpo. Sinais característicos podem incluir defeitos de nascença tal como doença cardíaca congênita, defeitos no palato, mais comumente relacionados com problemas neuromusculares com fechamento (insuficiência velofaringeal), incapacidades de aprendizado, diferenças brandas nas características faciais e infecções recorrentes. Microdeleções na região cromossômica 22q11.2 são associadas com um risco aumentado 20 a 30 vezes de esquizofrenia.
[00325] Deleções no braço curto do cromossomo 10 são associadas com uma síndrome de DiGeorge tipo fenótipo. Monossomia parcial do cromossomo 10p é rara, mas foi observada em uma porção de pacientes que apresenta características da síndrome de DiGeorge.
[00326] Em uma modalidade, os métodos, aparelho e sistemas descritos aqui são usados para determinar monossomias parciais incluindo, mas sem se limitar a monossomia parcial dos cromossomos 1, 4, 5, 7, 11, 18, 15, 13, 17, 22 e 10, por exemplo, monossomia parcial 1q21.11, monossomia parcial 4p16.3, monossomia parcial 5p15.3-p15.2, monossomia parcial 7q11.23, monossomia parcial 11q24.1, monossomia parcial 18p, monossomia parcial do cromossomo 15 (15q11-q13), monossomia parcial 13q, monossomia parcial 17p11.2, monossomia parcial do cromossomo 22 (22q11.2) e monossomia parcial 10p pode também ser determinada usando o método.
[00327] Outras monossomias parciais que podem ser determinadas de acordo com os métodos descrito aqui incluem translocação desbalanceada t(8;11)(p23.2;p15.5); microdeleção 11q23; deleção 17p11.2; deleção 22q13.3; microdeleção Xp22.3; deleção 10p14; microdeleção 20p, deleções [del(22)(q11.2q11.23)], 7q11.23 e 7q36; deleção 1p36; microdeleção 2p; neurofibromatose tipo 1 (microdeleção 17q11.2), deleção Yq; microdeleção 4p16.3; microdeleção 1p36.2; deleção 11q14; microdeleção 19q13.2; Ruintervalostein-Taybi (microdeleção 16 p13.3); microdeleção 7p21; síndrome de Miller-Dieker (17p13.3); e microdeleção 2q37. Deleções parciais podem ser pequenas deleções de parte de um cromossomo, ou elas podem ser microdeleções de um cromossomo onde a deleção de um único gene pode ocorrer.
[00328] Diversas síndromes de duplicação causadas pela duplicação de parte dos braços do cromossomo foram identificadas (vide OMIN [Online Mendelian Inheritance em Man Viewed online em ncbi.nlm.nih.gov/omim]). Em uma modalidade, o presente método pode ser usado para determinar a presença ou ausência de duplicações e/ou multiplicações de segmentos de qualquer um dos cromossomos 1-22, X e Y. Exemplos não limitantes de síndromes de duplicação que podem ser determinadas de acordo com o presente método incluem duplicações de parte dos cromossomos 8, 15, 12 e 17, que são descritas a seguir.
[00329] Síndrome de duplicação 8p23.1 é um raro distúrbio genético causado por uma duplicação de uma região do cromossomo humano 8. Esta síndrome de duplicação tem uma prevalência estimada de 1 em 64.000 nascimentos e é o recíproco da síndrome de deleção 8p23.1. A duplicação 8p23.1 é associada com um fenótipo variável incluindo um ou mais de atraso de fala, atraso desenvolvimental, diformismo brando, com testa proeminente e sobrancelhas arqueadas e doença cardíaca congênita (CHD).
[00330] Síndrome de duplicação do cromossomo 15q (Dup15q) é uma síndrome clinicamente identificável que resulta de duplicações do cromossomo 15q11-13.1 Bebês com Dup15q normalmente têm hipotonia (fraco tônus muscular), retardo de crescimento; eles podem nascer com um lábio e/ou palato leporino ou más formações do coração, fígados ou outros órgãos; eles apresentam um certo grau de atraso/incapacidade cognitiva (retardo mental), atrasos de fala e linguagem e distúrbios de processamento sensorial.
[00331] Síndrome de Pallister Killian é um resultado de material cromossômico #12 extra. Existe normalmente uma mistura de células (mosaicismo), algumas com material #12 extra e alguns que são normais (46 cromossomos sem o material #12 extra). Bebês com esta síndrome têm muitos problemas incluindo retardo mental severo, fraco tônus muscular, características faciais “grosseiras” e uma testa proeminente. Eles tendem a ter um lábio superior muito fino com um lábio inferior mais grosso e um nariz curto. Outros problemas de saúde incluem epilepsia, alimentação fraca, juntas rígidas, cataratas na maioridade, perda de audição e problemas cardíacos. Pessoas com Pallister Killian têm uma vida mais curta.
[00332] Indivíduos com a condição genética designada como dup(17)(p11.2p11.2) ou dup 17p carregam informação genética extra (conhecida como uma duplicação) no braço curto do cromossomo 17.Duplicação do cromossomo 17p11.2 forma a base da síndrome de Potocki- Lupski (PTLS), que é uma condição genética recém-reconhecida com apenas algumas dezenas de casos reportados na literatura médica. Pacientes que têm esta duplicação frequentemente têm fraco tônus muscular, alimentação ruim e falha de prosperidade durante infância e também apresentam desenvolvimento atrasado de marcos motores e verbais. Muitos indivíduos que têm PTLS têm dificuldade com articulação e processamento da linguagem. Além do mais, pacientes podem ter características comportamentais similares àquelas observadas em pessoas com autismo ou transtornos do espectro autista. Indivíduos com PTLS podem ter problemas cardíacos e apneia do sono. Uma duplicação de uma grande região no cromossomo 17p12 que inclui o gene PMP22 é conhecida por causar doença de Charcot-Marie Tooth.
[00333] CNV foi associada com partos de crianças mortas. Entretanto, por causa de limitações inerentes de citogenética convencional, a contribuição de CNV para nascimento de criança morta é considerada sub-representativa (Harris et al., Prenatal Diagn 31:932-944 [2011]). Como está mostrado nos exemplos e descrito em algum lugar aqui, o presente método é capaz de determinar a presença de aneuploidias parciais, por exemplo, deleções e multiplicações de segmentos de cromossomos, e pode ser usado para identificar e determinar a presença ou ausência de CNV que são associadas com nascimentos de crianças mortas.
Aparelho e sistemas para determinar CNV
[00334] Análise dos dados de sequenciamento e o diagnóstico derivado dela são tipicamente realizados usando vários algoritmos e programas executados por computador. Portanto, certas modalidades empregam processos envolvendo dados armazenados ou transferidos através de um ou mais sistemas de computador ou outros sistemas de processamento. Modalidades aqui descritas também se referem a aparelho para realizar essas operações. Este aparelho pode ser especialmente construído para os propósitos exigidos, ou pode ser um computador de uso geral (ou um grupo de computadores) seletivamente ativados ou reconfigurados por um programa de computador e/ou estrutura de dados armazenados no computador. Em algumas modalidades, um grupo de processadores realiza algumas ou todas as operações analíticas citadas colaborativamente (por exemplo, por meio de uma rede ou computação de nuvens) e/ou em paralelo. Um processador ou grupo de processadores para realizar os métodos descritos aqui podem ser de vários tipos, incluindo microcontroladores e microprocessadores tais como dispositivos programáveis (por exemplo, CPLDs e FPGAs) e dispositivos não programáveis tal como arranjo de porta ASICs ou microprocessadores de uso geral.
[00335] Além do mais, certas modalidades se referem a mídia legível por computador tangível e/ou não transitória ou produtos de programa de computador que incluem instruções de programa e/ou dados (incluindo estruturas de dados) para realizar várias operações implementadas por computador. Exemplos de mídia legível por computador incluem, mas sem se limitar a dispositivos de memória de semicondutor, mídia magnética tais como unidades de disco, fita magnética, mídia óptica tais como CDs, mídia magneto-óptica e dispositivos de hardware que são especialmente configurados para armazenar e realizar instruções de programa, tais como dispositivos de memória apenas de leitura (ROM) e memória de acesso aleatório (RAM). A mídia legível por computador pode ser diretamente controlada por um usuário final ou a mídia pode ser indiretamente controlada pelo usuário final. Exemplos de mídia diretamente controlada incluem a mídia localizada em uma instalação do usuário e/ou mídias que não são compartilhadas com outras entidades. Exemplos de mídias indiretamente controladas incluem mídias que são indiretamente acessíveis ao usuário por meio de uma rede externa e/ou por meio de um serviço que fornece recursos compartilhados tal como “nuvem”. Exemplos de instruções de programa incluem tanto código de máquina, tais como produzidos por um compilador e arquivos contendo código de nível superior que pode ser executado pelo computador usando um interpretador.
[00336] Em várias modalidades, os dados ou informação empregados nos métodos e aparelho descritos são fornecidos em um formato eletrônico. Tais dados ou informação podem incluir leituras e marcadores derivados de uma amostra de ácido nucleico, contagens ou densidades de tais marcadores que alinham com regiões particulares de uma sequência de referência (por exemplo, que alinham com um cromossomo ou segmento de cromossomo), sequências de referência (incluindo sequências de referência que fornecem somente ou primariamente polimorfismos), cromossomo e dose dos segmentos, chamadas tais como chamadas aneuploidia, cromossomo normalizado e valores de segmento, pares de cromossomos ou segmentos e cromossomos ou segmentos de normalização correspondentes, recomendações de aconselhamento, diagnósticos e similares. Da forma aqui usada, dados ou outra informação fornecida em formato eletrônico é disponível para armazenamento em uma máquina e transmissão entre máquinas. Convencionalmente, dados em formato eletrônico são fornecidos digitalmente e podem ser armazenados como bits e/ou bytes em várias estruturas de dados, listas, bases de dados, etc. Os dados podem ser concebidos eletronicamente, opticamente, etc.
[00337] Uma modalidade fornece um produto de programa de computador para gerar uma saída indicando a presença ou ausência de um aneuploidia, por exemplo, um aneuploidia fetal ou câncer, em uma amostra de teste. O produto computador pode conter instruções para realizar qualquer um ou mais dos métodos supradescritos para determinar uma anomalia cromossômica. Como explicado, o produto computador pode incluir uma mídia legível por computador não transitória e/ou tangível tendo uma lógica executável ou compilável por computador (por exemplo, instruções) registrada nele para permitir que um processador determine doses do cromossomo e, em alguns casos, se uma aneuploidia fetal está presente ou ausente. Em um exemplo, o produto computador compreende uma mídia legível por computador tendo uma lógica executável ou compilável por computador (por exemplo, instruções) gravada nele para permitir que um processador diagnostique uma aneuploidia fetal compreendendo: um procedimento de recepção para receber dados de sequenciamento de pelo menos uma porção das moléculas de ácido nucleico de uma amostra biológica materna, em que os ditos dados de sequenciamento compreendem um cromossomo calculado e/ou dose do segmento; lógica assistida por computador para analisar uma aneuploidia fetal a partir dos ditos dados recebidos; e um procedimento de saída para gerar uma saída indicando a presença, ausência ou tipo da dita aneuploidia fetal.
[00338] A informação de sequência da amostra em consideração pode ser mapeada nas sequências de referência de cromossomo para identificar diversos marcadores de sequência para cada de um ou mais cromossomos de interesse e para identificar diversos marcadores de sequência para uma sequência de segmento de normalização para cada dos ditos um ou mais cromossomos de interesse. Em várias modalidades, as sequências de referência são armazenadas em uma base de dados tal como uma base de dados relacional ou de objeto, por exemplo.
[00339] Deve-se entender que não é prático ou mesmo possível, na maioria dos casos, que um ser humano sem ajuda realize as operações computacionais dos métodos descritos aqui. Por exemplo, mapeamento de uma única leitura de 30 bp de uma amostra em qualquer um dos cromossomos humanos pode levar anos de esforço sem a assistência de um aparelho computacional. Certamente, o problema é composto, em virtude de chamadas aneuploidia confiáveis geralmente exigirem o mapeamento de milhares (por exemplo, pelo menos cerca de 10.000) ou mesmo milhões de leituras para um ou mais cromossomos.
[00340] Os métodos descritos aqui podem ser realizados usando um sistema para a avaliação do número de cópias de uma sequência genética de interesse em uma amostra de teste. O sistema compreendendo: (a) um sequenciador para receber ácidos nucleicos da amostra de teste provendo à sequência de ácidos nucleicos informação da amostra; (b) um processador; e (c) um ou mais meios de armazenamento que podem ser lidos em computador tendo armazenado nele instruções para execução no dito processador para realizar um método para identificar qualquer CNV, por exemplo, aneuploidias cromossômicas ou parciais.
[00341] Em algumas modalidades, os métodos são instruídos por uma mídia legível por computador tendo armazenada nela instruções legíveis por computador para realizar um método para identificar qualquer CNV, por exemplo, aneuploidias cromossômicas ou parciais. Assim, uma modalidade fornece um produto de programa de computador compreendendo um ou mais mídias de armazenamento não transitórias legíveis por computador tendo armazenadas nelas instruções executáveis por computador que, quando executada por um ou mais processadores de um sistema de computador, fazem com que o sistema de computador implemente um método para a avaliação do número de cópias de uma sequência de interesse em uma amostra de teste compreendendo ácidos nucleicos sem células fetais e maternas. O método inclui: (a) fornecer leituras de sequência da amostra de teste; (b) alinhar as leituras de sequência da amostra de teste com um genoma de referência compreendendo a sequência de interesse, fornecendo assim marcadores da sequência de teste; (c) determinar uma cobertura dos marcadores da sequência de teste localizados em cada intervalo, em que o genoma de referência é dividido em uma pluralidade de intervalos; (d) fornecer um perfil global para a sequência de interesse, em que o perfil global compreende uma cobertura esperada em cada intervalo e em que a cobertura esperada é obtida de um conjunto de treinamento das amostras de treinamento não afetadas sequenciadas e alinhadas substancialmente da mesma maneira que a amostra de teste, a cobertura esperada exibindo variação de intervalo para intervalo; (e) ajustar a cobertura dos marcadores da sequência de teste de acordo com a cobertura esperada em cada intervalo, obtendo assim uma cobertura corrigida pelo perfil global em cada intervalo dos marcadores da sequência de teste; (f) ajustar as coberturas corrigidas com o perfil global com base na relação entre nível do teor de GC e a cobertura corrigida pelo perfil global para os intervalos dos marcadores da sequência de teste, obtendo assim uma cobertura corrigida por GC da amostra dos marcadores da sequência de teste na sequência de interesse; e (g) avaliar um número de cópias da sequência de interesse na amostra de teste com base na cobertura corrigida por GC da amostra. Em algumas modalidades, a cobertura determinada na etapa (c) é normalizada. A normalização pode envolver dividir a cobertura ou modelar a cobertura do número total de mapeamento de leituras em cromossomos robustos (algumas vezes também referido como normalização da profundidade da biblioteca).
[00342] Em algumas modalidades, as instruções podem adicionalmente incluir registrar automaticamente informação pertinente ao método tais como doses do cromossomo e a presença ou ausência de uma aneuploidia cromossômica fetal em um registro médico do paciente para um sujeito humano que fornece a amostra de teste maternal. O registro médico do paciente pode ser mantido, por exemplo, por um laboratório, consultório do médico, um hospital, uma organização de manutenção de saúde, uma empresa de seguro ou um website de registro médico pessoal. Adicionalmente, com base nos resultados da análise implementada por processador, o método pode adicionalmente envolver prescrever, iniciar e/ou alterar o tratamento de um sujeito humano do qual a amostra de teste maternal foi retirada. Isto pode envolver realizar um ou mais testes ou análises adicionais em amostras adicionais retiradas do sujeito.
[00343] Métodos descritos podem também ser realizados usando um sistema de processamento de computador que é adaptado ou configurado para realizar um método para identificar qualquer CNV, por exemplo, aneuploidias cromossômicas ou parciais. Uma modalidade fornece um sistema de processamento de computador que é adaptado ou configurado para realizar um método, conforme aqui descrito. Em uma modalidade, o aparelho compreende um dispositivo de sequenciamento adaptado ou configurado para sequenciamento de pelo menos uma porção das moléculas de ácido nucleico em uma amostra para obter o tipo de informação de sequência descrito em algum lugar aqui. O aparelho pode também incluir componentes para processar a amostra. Tais componentes são descritos em algum lugar aqui.
[00344] Sequência ou outros dados podem ser alimentados em um computador ou armazenados em uma mídia legível por computador, tanto diretamente quanto indiretamente. Em uma modalidade, um sistema de computador é diretamente acoplado em um dispositivo de sequenciamento que lê e/ou analisa sequências de ácidos nucleicos de amostras. Sequências ou outra informação de tais ferramentas são fornecidas por meio da interface no sistema de computador. Alternativamente, as sequências processadas pelo sistema são fornecidas de uma fonte de armazenamento de sequência tal como uma base de dados ou outro repositório. Uma vez disponível para o aparelho de processamento, um dispositivo de memória ou dispositivo de armazenamento de massa armazena temporariamente ou armazena, pelo menos temporariamente, sequências dos ácidos nucleicos. Além do mais, o dispositivo de memória pode armazenar contagens de marcador para vários cromossomos ou genomas, etc. A memória pode também armazenar várias rotinas e/ou programas para analisar a apresentação da sequência ou dados mapeados. Tais programas/rotinas podem incluir programas para realizar análise estatística, etc.
[00345] Em um exemplo, um usuário fornece uma amostra a um aparelho de sequenciamento. Dados são coletados e/ou analisados pelo aparelho de sequenciamento que é conectado a um computador. Software no computador permite coleta e/ou análise de dados. Dados podem ser armazenados, exibidos (por meio de um monitor ou outro dispositivo similar), e/ou transmitidos para um outro local. O computador pode ser conectado na internet que é usada para transmitir dados para um dispositivo portátil utilizado por um usuário remoto (por exemplo, um médico, cientista ou analista). Deve-se entender que os dados podem ser armazenados e/ou analisados antes da transmissão. Em algumas modalidades, dados brutos são coletados e transmitidos para um usuário ou aparelho remoto que analisará e/ou armazenará os dados. Transmissão pode ocorrer por meio da internet, mas pode também ocorrer por meio de satélite ou outra conexão. Alternativamente, dados podem ser armazenados em uma mídia legível por computador e a mídia pode ser transportada para um usuário final (por exemplo, por correio). O usuário remoto pode ser no mesmo local geográfico ou em um local diferente, incluindo, mas sem se limitar a um edifício, cidade, estado, país ou continente.
[00346] Em algumas modalidades, os métodos também incluem coletar dados relativos a uma pluralidade de sequências de polinucleotídeos (por exemplo, leituras, marcadores e/ou sequências de cromossomo de referência) e transmitir os dados para um computador ou outro sistema computacional. Por exemplo, o computador pode ser conectado no equipamento de laboratório, por exemplo, um aparelho de coleta de amostra, um aparelho de amplificação de nucleotídeo, um aparelho de sequenciamento de nucleotídeo ou um aparelho de hibridização. O computador pode então coletar dados aplicáveis coletados pelo dispositivo de laboratório. Os dados podem ser armazenados em um computador em qualquer etapa, por exemplo, enquanto coletados em tempo real, antes da transmissão, durante ou em conjunto com a transmissão ou após a transmissão. Os dados podem ser armazenados em uma mídia legível por computador que podem ser extraídos do computador. Os dados coletados ou armazenados podem ser transmitidos do computador para um local remoto, por exemplo, por meio de uma rede local ou uma rede de área ampla tal como a internet. No local remoto, várias operações podem ser realizadas nos dados transmitidos da maneira descrita a seguir.
[00347] Entre os tipos de dados formatados eletronicamente que podem ser armazenados, transmitidos, analisados e/ou manipulados em sistemas, aparelho e métodos descritos aqui estão os seguintes: Leituras obtidas pelo sequenciamento de ácidos nucleicos em uma amostra de teste Marcadores obtidos alinhando leituras com um genoma de referência ou outra sequência ou sequências de referência O genoma ou sequência de referência Densidade de marcador de sequência - Contagens ou números de marcadores para cada de duas ou mais regiões (tipicamente cromossomos ou segmentos de cromossomos) de um genoma de referência ou outras sequências de referência Identidades dos cromossomos de normalização ou segmento de cromossomos para cromossomos ou segmentos de cromossomos de interesse particulares Doses para cromossomos ou segmentos de cromossomos (ou outras regiões) obtidos de cromossomos ou segmentos de interesse e cromossomos ou segmentos de normalização correspondentes Limiares para chamar doses do cromossomo tanto como afetada, não afetada, quanto sem chamada As chamadas reais de doses do cromossomo Diagnósticos (condição clínica associada com as chamadas) Recomendações para testes adicionais derivados das chamadas e/ou diagnósticos Planos de tratamento e/ou monitoramento derivados das chamadas e/ou diagnósticos
[00348] Esses vários tipos de dados podem ser obtidos, armazenados, transmitidos, analisados e/ou manipulados em um ou mais locais usando aparelho distinto. As opções de processamento cobrem um amplo espectro. Em uma extremidade do espectro, toda ou muita desta informação é armazenada e usada no local onde a amostra de teste é processada, por exemplo, um consultório do médico ou outro ambiente clínico. Em outro extremo, a amostra é obtida em um local, ela é processada e opcionalmente sequenciada em um local diferente, leituras são alinhadas e chamadas são feitas em um ou mais locais e diagnósticos diferentes, recomendações e/ou planos são preparados em ainda um outro local (que pode ser um local onde a amostra foi obtida).
[00349] Em várias modalidades, as leituras são geradas com o aparelho de sequenciamento e então transmitidas para um sítio remoto onde elas são processadas para produzir chamadas aneuploidia. Neste local remoto, como um exemplo, as leituras são alinhadas com uma sequência de referência para produzir marcadores, que são contados e atribuídos a cromossomos ou segmentos de interesse. Também, no local remoto, as contagens são convertidas em doses usando cromossomos ou segmentos de normalização associados. Ainda adicionalmente, no local remoto, as doses são usadas para gerar chamadas aneuploidia.
[00350] Entre as operações de processamento que podem ser empregadas em distintos locais estão as seguintes: Coleta de amostra Processamento de amostra preliminar ao sequenciamento Sequenciamento Análise de dados de sequência e derivação de chamadas aneuploidia Diagnóstico Reportagem de um diagnóstico e/ou uma chamada ao paciente ou provedor de cuidado de saúde Desenvolvimento de um plano para posterior tratamento, teste e/ou monitoramento Execução do plano Aconselhamento
[00351] Qualquer uma ou mais dessas operações pode ser automatizada como descrito em algum lugar aqui. Tipicamente, o sequenciamento e a análise de dados de sequência e derivação de chamadas aneuploidia serão realizadas computacionalmente. As outras operações podem ser realizadas manualmente ou automaticamente.
[00352] Exemplos de locais onde coleta de amostra pode ser realizada incluem escritórios de práticos de saúde, clínicas, casas de pacientes (onde uma ferramenta ou kit de coleta de amostra é provido) e veículos de cuidado de saúde móveis. Exemplos de locais onde processamento da amostra antes do sequenciamento pode ser realizado incluem escritórios de práticos de saúde, clínicas, casas de pacientes (onde um aparelho ou kit de processamento de amostra é provido), veículos de instalações de cuidado de saúde móveis de provedores de análise de aneuploidia. Exemplos de locais onde sequenciamento pode ser realizado incluem escritórios de práticos de saúde, clínicas, casa de paciente (onde um aparelho e/ou kit de sequenciamento de amostra é provido), veículos de instalações de cuidado de saúde móveis. O local onde o sequenciamento ocorre pode ser provido com uma conexão de rede dedicada para transmitir dados de sequência (tipicamente leituras) em um formato eletrônico. Tal conexão pode ser por fio ou sem fio e tem e pode ser configurada para transmitir os dados para um local onde os dados podem ser processados e/ou agregados antes da transmissão para um local de processamento. Agregadores de dados podem ser mantidos por organizações de saúde tais como a Health Maintenance Organizations (HMOs).
[00353] As operações de análise e/ou derivação podem ser realizadas em qualquer dos locais expostos ou, alternativamente, em um local remoto adicional dedicado a computação e/ou o serviço de análise de dados de sequência de ácidos nucleicos. Tais locais incluem, por exemplo, agrupamentos tais como fazendas de serviço de uso geral, as instalações de um negócio de serviço de análise de aneuploidia e similares. Em algumas modalidades, o aparelho computacional empregado para realizar a análise é arrendado ou emprestado. Os recursos computacionais podem ser parte de uma coleção acessível pela internet de processadores tais como recursos de processamento coloquialmente conhecidos como nuvem. Em alguns casos, as computações são realizadas por um grupo de processadores paralelos ou massivamente paralelos que são afiliados ou não afiliados um ao outro. O processamento pode ser realizado usando processamento distribuído tal como computação em grupo, computação em rede e similares. Em tais modalidades, um agrupamento ou rede de recursos computacionais forma coletivamente um supercomputador virtual composto de múltiplos processadores ou computadores que agem juntos para realizar a análise e/ou derivação descritas aqui. Essas tecnologias bem como mais supercomputadores convencionais podem ser empregadas para processar dados de sequência, conforme aqui descrito. Cada é uma forma de computação paralela que se baseia em processadores ou computadores. No caso de computação de rede, esses processadores (frequentemente computadores totais) são conectados por uma rede (privada, pública ou a Internet) por um protocolo de rede convencional tal como a Ethernet. Ao contrário, um supercomputador tem muitos processadores conectados por um barrramento do computador de alta velocidade local.
[00354] Em certas modalidades, o diagnóstico (por exemplo, o feto tem Síndrome de Down ou o paciente tem um tipo particular de câncer) é gerado no mesmo local da operação de análise. Em outras modalidades, ele é realizado em um local diferente. Em alguns exemplos, reportagem do diagnóstico é realizada no local onde a amostra foi retirada, embora isto não precisa ser o caso. Exemplos de locais onde a diagnóstico pode ser gerada ou reportada e/ou onde desenvolvimento de um plano é realizado incluem escritórios de práticos de saúde, clínicas, sítios da internet acessíveis por computadores e dispositivos portáteis tais como telefones celulares, computadores de bolso, telefones inteligentes, etc. tendo uma conexão por fio ou sem fio a uma rede. Exemplos de locais onde aconselhamento é realizado incluem escritórios de práticos de saúde, clínicas, sítios da internet acessíveis por computadores, dispositivos portáteis, etc.
[00355] Em algumas modalidades, as operações de coleta de amostra, processamento de amostra e sequenciamento são realizadas em um primeiro local e a operação de análise e derivação é realizada em um segundo local. Entretanto, em alguns casos, a coleta de amostra é feita em um local (por exemplo, um escritório do prático de saúde ou clínica) e o processamento e sequenciamento de amostra é realizado em um local diferente que é opcionalmente o mesmo local onde ocorre a análise e derivação.
[00356] Em várias modalidades, uma sequência das operações supralistadas pode ser desencadeada por um usuário ou entidade que inicia a coleta de amostra, processamento e/ou sequenciamento de amostra. Depois de uma ou mais dessas operações terem começado, a execução das outras operações pode seguir naturalmente. Por exemplo, a operação de sequenciamento pode fazer com que leituras sejam automaticamente coletadas e transmitidas para um aparelho de processamento que então conduz, com frequência automaticamente e possivelmente sem intervenção adicional do usuário, a análise e derivação de sequência da operação de aneuploidia. Em algumas implementações, o resultado desta operação de processamento é então automaticamente entregue, possivelmente com reformatação como um diagnóstico, a um componente ou entidade do sistema que processa relatórios da informação a um profissional de saúde e/ou paciente. Como explicado, tal informação pode também ser automaticamente processada para produzir um plano de tratamento, teste e/ou monitoramento, possivelmente junto com informação de aconselhamento. Assim, iniciação de uma operação no estágio inicial pode desencadear uma sequência extremidade a extremidade em que o profissional de saúde, paciente ou outra parte envolvida é provida com um diagnóstico, um plano, aconselhamento e/ou outra informação útil para agir em uma condição física. Isto é feito mesmo que as partes do sistema geral sejam fisicamente separadas e possivelmente remotas do local, por exemplo, da amostra e aparelho de sequência.
[00357] Figura 5 mostra uma implementação de um sistema disperso para produzir uma chamada ou diagnóstico de uma amostra de teste. Um local de coleta de amostra 01 é usado para obter uma amostra de teste de um paciente tal como uma fêmea grávida ou um paciente com câncer putativo. As amostras então fornecidas a um local de processamento e sequenciamento 03 onde a amostra de teste pode ser processada e sequenciada como anteriormente descrito. O local 03 inclui aparelho para processar a amostra, bem como aparelho para sequenciamento da amostra processada. O resultado do sequenciamento, como descrito em algum lugar aqui, é uma coleta de leituras que são tipicamente fornecidas em um formato eletrônico e fornecidas a uma rede tal como a Internet, que é indicado pelo número de referência 05 na figura 5.
[00358] Os dados de sequência são fornecidos a um local remoto 07 onde análise e geração de chamada são realizadas. Este local pode incluir um ou mais dispositivos computacionais potentes tais como computadores ou processadores. Depois que os recursos computacionais no local 07 tiverem completada suas análises e gerado uma chamada da informação de sequência recebida, a chamada é retransmitida para a rede 05. Em algumas implementações, não somente uma chamada é gerada no local 07, mas um diagnóstico associado é também gerado. A chamada e/ou diagnóstico são então transmitidas através da rede e de volta para o local de coleta de amostra 01, como ilustrado na figura 5. Como explicado, isto é simplesmente uma das muitas variações de como as várias operações associadas com a geração de uma chamada ou diagnóstico podem ser divididas entre vários locais. Uma variante comum envolve prover a coleta de amostra e processamento e sequenciamento em um único local. Uma outra variação envolve prover processamento e sequenciamento no mesmo local da análise e geração da chamada.
[00359] Figura 6 elabora as opções para realizar várias operações em distintos locais. No sentido mais granular representado na figura 6, cada das operações seguintes é realizada em um local separado: coleta de amostra, processamento de amostra, sequenciamento, alinhamento de leitura, chamada, diagnóstico e reportagem e/ou desenvolvimento do plano.
[00360] Em uma modalidade que agrega algumas dessas operações, processamento de amostra e sequenciamento são realizados em um local e alinhamento, chamada e diagnóstico de leitura são realizados em um local separado. Vide a porção da Figura 6 identificada pelo caractere de referência A. Em uma outra implementação, que é identificada pelo caractere B na figura 6, coleta de amostra, processamento de amostra e sequenciamento são todos realizado no mesmo local. Nesta implementação, alinhamento de leitura e chamada são realizados em um segundo local. Finalmente, diagnóstico e reportagem e/ou desenvolvimento de plano são realizados em um terceiro local. Na implementação representada pelo caractere C na figura 6, coleta de amostra é realizada em um primeiro local, processamento de amostra, sequenciamento, alinhamento de leitura, chamada, e diagnóstico são todos realizado juntos em um segundo local e reportagem e/ou desenvolvimento de plano são realizados em um terceiro local. Finalmente, na implementação rotulada D na figura 6, coleta de amostra é realizada em um primeiro local, processamento de amostra, sequenciamento, alinhamento de leitura e chamada são todos realizados em um segundo local e diagnóstico e reportagem e/ou gerenciamento de plano são realizados em um terceiro local.
[00361] Uma modalidade fornece um sistema para uso na determinação da presença ou ausência de qualquer uma ou mais diferentes aneuploidias cromossômicas fetais completas em uma amostra de teste maternal compreendendo ácidos nucleicos fetal e maternal, o sistema incluindo uma sequenciador para receber uma amostra de ácido nucleico e fornecer informação de sequência de ácidos nucleicos fetal e maternal da amostra; um processador; e uma mídia de armazenamento legível por máquina compreendendo instruções para execução no dito processador, as instruções compreendendo: (a) código para obter informação de sequência para os ditos ácidos nucleicos fetal e maternal na amostra; (b) código para usar a dita informação de sequência para identificar computacionalmente diversos marcadores de sequência dos ácidos nucleicos fetal e maternal para cada de qualquer um ou mais cromossomos de interesse selecionados dos cromossomos 1-22, X e Y e identificar diversos marcadores de sequência para pelo menos uma sequência de cromossomo de normalização ou sequência de segmentos de cromossomos de normalização para cada dos ditos qualquer um ou mais cromossomos de interesse; (C) código para usar as ditas diversos marcadores de sequência identificados para cada dos ditos qualquer um ou mais cromossomos de interesse e as ditas diversos marcadores de sequência identificadas para cada sequência de cromossomos de normalização ou sequência de segmentos de cromossomos de normalização para calcular uma única dose do cromossomo para cada de qualquer um ou mais cromossomos de interesse; e (d) código para comparar cada das únicas doses do cromossomo para cada de qualquer um ou mais cromossomos de interesse com um valor limiar correspondente para cada de um ou mais cromossomos de interesse e por meio disto determinar a presença ou ausência de qualquer um ou mais diferentes aneuploidias cromossômicas fetal completas na amostra.
[00362] Em algumas modalidades, o código para calcular uma única dose do cromossomo para cada de qualquer um ou mais cromossomos de interesse compreende código para calcular uma dose do cromossomo para um selecionado dos cromossomos de interesse como a razão dos marcadores do número de sequência identificados para o cromossomo de interesse selecionado e os marcadores do número de sequência identificados para uma correspondente pelo menos uma sequência de cromossomo de normalização ou sequência de segmentos de cromossomos de normalização para o cromossomo de interesse selecionado.
[00363] Em algumas modalidades, o sistema compreende adicionalmente código para repetir o cálculo de uma dose do cromossomo para cada de qualquer segmento de cromossomos restante de qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse.
[00364] Em algumas modalidades, um ou mais cromossomos de interesse selecionados dos cromossomos 1-22, X e Y compreendem pelo menos vinte cromossomos selecionados dos cromossomos 1-22, X e Y e em que as instruções compreendem instruções para determinar a presença ou ausência de pelo menos vinte diferentes aneuploidias cromossômicas fetais completas é determinada.
[00365] Em algumas modalidades, pelo menos uma sequência de cromossomo de normalização é um grupo de cromossomos selecionado dos cromossomos 1-22, X e Y. Em outras modalidades, pelo menos uma sequência de cromossomo de normalização é um único cromossomo selecionado dos cromossomos 1-22, X e Y.
[00366] Uma outra modalidade fornece um sistema para uso na determinação da presença ou ausência de qualquer uma ou mais diferentes aneuploidias cromossômicas fetais parciais em uma amostra de teste maternal compreendendo ácidos nucleicos fetal e maternal, o sistema compreendendo: um sequenciador para receber uma amostra de ácido nucleico e prover à sequência de ácidos nucleicos fetal e maternal informação da amostra; um processador; e uma mídia de armazenamento legível por máquina compreendendo instruções para execução no dito processador, as instruções compreendendo: (A) código para obter informação de sequência para os ditos ácidos nucleicos fetal e maternal na dita amostra; (B) código para usar a dita informação de sequência para identificar computacionalmente diversos marcadores de sequência a partir dos ácidos nucleicos fetal e maternal para cada de qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse selecionados dos cromossomos 1-22, X e Y e para identificar diversos marcadores de sequência para pelo menos uma sequência de segmentos de normalização para cada dos ditos qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse; (C) código usando as ditos marcadores do número de sequência identificados para cada dos ditos qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse e das ditas diversos marcadores de sequência identificadas para a dita sequência de segmento de normalização para calcular uma única dose do cromossomo do segmento para cada dos ditos qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse; e (d) código para comparar cada da dita única dose do cromossomo dos segmentos para cada dos ditos qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse como um valor limiar correspondente para cada dos ditos qualquer um ou mais segmentos de cromossomos de qualquer um ou mais cromossomos de interesse e por meio disto determinar a presença ou ausência de uma ou mais diferentes aneuploidias cromossômicas fetais parciais na dita amostra.
[00367] Em algumas modalidades, o código para calcular uma única dose do cromossomo do segmento compreende código para calcular uma dose do cromossomo do segmento para um selecionado dos segmentos de cromossomos como a razão dos marcadores das diversas sequências identificadas para o segmento de cromossomo selecionado e as diversos marcadores de sequências identificadas para uma sequência de segmento de normalização correspondente para o segmento de cromossomo selecionado.
[00368] Em algumas modalidades, o sistema compreende adicionalmente código para repetir o cálculo de uma dose do cromossomo do segmento para cada de qualquer segmento de cromossomos restante de qualquer um ou mais segmentos de qualquer um ou mais cromossomos de interesse.
[00369] Em algumas modalidades, o sistema compreende adicionalmente (i) código para repetir (a)-(d) para amostras de teste de diferentes sujeitos maternais e (ii) código para determinar a presença ou ausência de qualquer um ou mais diferentes aneuploidias cromossômicas fetais parciais em cada das ditas amostras.
[00370] Em outras modalidades de qualquer dos sistemas fornecidos aqui, o código compreende adicionalmente código para registrar automaticamente a presença ou ausência de uma aneuploidia cromossômica fetal como determinada em (d) em um registro médico do paciente para um sujeito humano que fornece a amostra de teste maternal, em que o registro é realizado usando o processador.
[00371] Em algumas modalidades de qualquer dos sistemas fornecidos aqui, o sequenciador é configurado para realizar sequenciamento de última geração (NGS). Em algumas modalidades, o sequenciador é configurado para realizar sequenciamento massivamente paralelo usando sequenciamento por síntese com terminadores de corante reversíveis. Em outras modalidades, o sequenciador é configurado para realizar sequenciamento por ligação. Em ainda outras modalidades, o sequenciador é configurado para realizar sequenciamento de molécula única.
EXPERIMENTAL Exemplo 1 Preparação e sequenciamento de bibliotecas de sequenciamento primárias e enriquecidas a. Preparação de bibliotecas de sequenciamento - protocolo abreviado (ABB)
[00372] Todas as bibliotecas de sequenciamento, isto é, bibliotecas primárias e enriquecidas, foram preparadas de aproximadamente 2 ng de cfDNA purificado que foi extraído de plasma materno. Preparação da biblioteca foi realizada usando reagentes do NEBNext™ DNA Sample Prep DNA Reagent Set 1 (Part No. E6000L; New England Biolabs, Ipswich, MA), para Illumina® como se segue. Em virtude de o DNA de plasma sem célula ser fragmentado na natureza, não foi feita nenhuma fragmentação adicional por nebulização ou sonicação nas amostras do DNA de plasma. A saliência de aproximadamente 2 ng dos fragmentos de cfDNA purificados contidos em 40 μL foram convertidos em extremidades abruptas fosforiladas de acordo com o Módulo de Reparo da Extremidade NEBNext® incubando em um tubo de microfuga de 1,5 mL o cfDNA com 5μL de tampão de fosforilação 10X, 2 μL da mistura de solução de deoxinucleotídeo (10 mM cada dNTP), 1μL de uma diluição de DNA Polimerase I 1:5, 1 μL de DNA Polimerase T4 e 1 μL de polinucleotídeo quinase T4 fornecido no NEBNext™ DNA Sample Prep DNA Reagent Set 1 por 15 minutos a 20°C. As enzimas foram então inativadas incubando termicamente a mistura da reação a 75°C por 5 minutos. A mistura foi resfriada a 4°C e formação de cauda dA do DNA de extremidade abrupta foi realizada usando 10μL da mistura mestre de formação de cauda dA contendo o fragmento Klenow (3’ a 5’ exo minus) (NEBNext™ DNA Sample Prep DNA Reagent Set 1) e incubando por 15 minutos a 37°C. Subsequentemente, o fragmento Klenow foi inativado incubando termicamente a mistura da reação a 75°C por 5 minutos. Após a inativação do fragmento Klenow, 1 μL de uma diluição 1:5 de Illumina Genomic Adaptor Oligo Mix (Part No. 1000521; Illumina Inc., Hayward, CA) foi usado para ligar os adaptadores Illumina (Non-Index Y-Adaptors) no DNA com cauda formada dA usando 4 μL de T4 DNA ligase fornecidos no NEBNext™ DNA Sample Prep DNA Reagent Set 1, incubando a mistura da reação por 15 minutos a 25°C. A mistura foi resfriada a 4°C e o cfDNA ligado no adaptador foi purificado a partir dos adaptadores não ligados, dímeros do adaptador e outros reagentes usando glóbulos magnéticos fornecidos no sistema de purificação por PCR Agencourt AMPure XP (Part No. A63881; Beckman Coulter Genomics, DanVers, MA). Dezoito ciclos da PCR foram realizados para enriquecer seletivamente cfDNA ligado no adaptador (25 μL) usando Phusion ® High-Fidelity Master Mix (25μL; Finnzymes, Woburn, MA) e oligonucleotídeos iniciadores de PCR da Illumina (0,5 μM cada) complementares aos adaptadores (Part No. 1000537 e 1000537). O DNA ligado no adaptador foi submetido a PCR (98°C por 30 segundos; 18 ciclos de 98°C por 10 segundos, 65°C por 30 segundos e 72°C por 30; extensão final a 72°C por 5 minutos e mantido a 4°C) usando oligonucleotídeos iniciadores de PCR Illumina Genomic (Partes Nos. 100537 e 1000538) e a mistura mestre de PCR Phusion HF fornecida no NEBNext™ DNA Sample Prep DNA Reagent Set 1, de acordo com as instruções do fabricante. O produto amplificado foi purificado usando o sistema de purificação por PCR Agencourt AMPure XP (Agencourt Bioscience Corporation, Beverly, MA) de acordo com as instruções do fabricante disponíveis em www.beckmangenomics.com/products/AMPureXPProtocol_000387V001.pdf . O produto amplificado purificado foi eluído em 40 μL de Tampão EB Qiagen e a concentração e distribuição de tamanho das bibliotecas amplificadas foi analisada usando o Kit Agilent DNA 1000 para o Bioanalisador 2100 (Agilent Technologies Inc., Santa Clara, CA).
b. Preparação de bibliotecas de sequenciamento -protocolo de comprimento total
[00373] O protocolo de comprimento total descrito aqui é essencialmente o protocolo padrão fornecido por Illumina e difere apenas do protocolo Illumina na purificação da biblioteca amplificada. O protocolo Illumina instrui a biblioteca amplificada deve ser purificada usando eletroforese de gel, enquanto o protocolo descrito aqui usa glóbulos magnéticos para mesma etapa de purificação. Aproximadamente 2 ng de cfDNA purificados extraídos de plasma materno foram usados para preparar uma biblioteca de sequenciamento primário usando NEBNext™ DNA Sample Prep DNA Reagent Set 1 (Part No. E6000L; New England Biolabs, Ipswich, MA) para Illumina® essencialmente de acordo com as instruções do fabricante. Todas as etapas, exceto para a purificação final dos produtos ligados no adaptador, que foi realizada usando glóbulos magnéticos e reagentes Agencourt em vez da coluna de purificação, foram realizadas de acordo com o protocolo acompanhando os Reagentes NEBNext™ para Preparação de Amostra para uma biblioteca de DNA genômico que é sequenciada usando o Illumina® GAII. O protocolo NEBNext™ segue essencialmente aquele fornecido por Illumina, que é disponível em grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf.
[00374] A saliência de aproximadamente 2 ng de fragmentos de cfDNA purificados contidos em 40 μL foram convertidos em extremidades abruptas fosforiladas de acordo com o Módulo de Reparo da Extremidade NEBNext® incubando os 40μL de cfDNA com 5μL de tampão de fosforilação 10X, 2 μL de mistura de solução de deoxinucleotídeo (10 mM cada dNTP), 1 μL de uma diluição de DNA Polimerase I 1:5, 1 μL de DNA Polimerase T4 e 1 μL de polinucleotídeo quinase T4 fornecidos no NEBNext™ DNA Sample Prep DNA Reagent Set 1 em um tubo de microfuga de 200 μL em um termociclador por 30 minutos a 20°C. A amostra foi resfriada a 4°C e purificada usando uma coluna QIAQuick fornecida no Kit de Purificação de PCR QIAQuick (QIAGEN Inc., Valencia, CA) como se segue. Os 50 μL da reação foram transferidos para os tubos de microfuga de 1,5 mL e 250 μL de Tampão PB Qiagen foram adicionados. Os 300 μL resultantes foram transferidos para uma coluna MinElute, que foi centrifugada a 13.000 RPM por 1 minuto em um microfuga. A coluna foi lavada com 750 μL de Tampão PE Qiagen e recentrifugada. Etanol residual foi removido por uma centrifugação adicional por 5 minutos a 13.000 RPM. O DNA foi eluído em 39 μL de Tampão EB Qiagen por centrifugação. Formação de cauda dA de 34 μL do DNA de extremidade abrupta foi realizada usando 16 μL da mistura mestre de formação de cauda dA contendo o fragmento Klenow (3’ a 5’ exo minus) (NEBNext™ DNA Sample Prep DNA Reagent Set 1) e incubando por 30 minutos a 37°C de acordo com o Módulo de Formação de Cauda dA do fabricante NEBNext®. A amostra foi resfriada a 4°C e purificada usando uma coluna fornecida no Kit de Purificação de PCR MinElute (QIAGEN Inc., Valencia, CA) como se segue. Os 50 μL de reação foram transferidos para o tubo de microfuga de 1,5 mL e 250 μL de Tampão PB Qiagen foram adicionados. Os 300 μL foram transferidos para a coluna MinElute, que foi centrifugada a 13.000 RPM por 1 minuto em um microfuga. A coluna foi lavada com 750 μL de Tampão PE Qiagen e recentrifugada. Etanol residual foi removido por uma centrifugação adicional por 5 minutos a 13.000 RPM. O DNA foi eluído em 15 μL de Tampão EB Qiagen por centrifugação. Dez microlitros do eluato de DNA foram incubados com 1 μL de uma diluição 1:5 do Mistura de Oligo Adaptador Genômico Illumina (Parte No. 1000521), 15 μL de 2X Tampão de Reação de Ligação Rápida e 4 μL de Quick T4 DNA Ligase, por 15 minutos a 25°C de acordo com o Módulo de Ligação Rápida NEBNext®. A amostra foi resfriada a 4°C e purificada usando uma coluna MinElute como se segue. Cento e cinquenta microlitros de Tampão PE Qiagen foram adicionados nos 30 μL de reação e todo o volume foi transferido para uma coluna MinElute, que foi centrifugada a 13.000 RPM por 1 minuto em um microfuga. A coluna foi lavada com 750 μL de Tampão PE Qiagen e recentrifugada. Etanol residual foi removido por uma centrifugação adicional por 5 minutos a 13.000 RPM. O DNA foi eluído em 28 μL de Tampão EB Qiagen por centrifugação. Vinte e três microlitros do eluato de DNA ligados no adaptador foram submetidos a 18 ciclos de PCR (98°C por 30 segundos; 18 ciclos de 98°C por 10 segundos, 65°C por 30 segundos e 72°C por 30; extensão final a 72°C por 5 minutos e mantidos a 4°C) usando oligonucleotídeos iniciadores de PCR Illumina Genomic (Part Nos. 100537 e 1000538) e mistura mestre de PCR Phusion HF fornecidos no NEBNext™ DNA Sample Prep DNA Reagent Set 1, de acordo com as instruções do fabricante. O produto amplificado foi purificado usando o sistema de purificação por PCR Agencourt AMPure XP (Agencourt Bioscience Corporation, BeVerly, MA) de acordo com as instruções do fabricante disponíveis em www.beckmangenomics.com/products/AMPureXPProtocol_000387V001.pdf . O sistema de purificação por PCR Agencourt AMPure XP remove dNTPs não incorporados, oligonucleotídeos iniciadores, dímeros de oligonucleotídeo iniciador, sais e outro contaminantes e recupera amplicons maiores que 100 bp. O produto amplificado purificado foi eluído dos glóbulos Agencourt em 40 μL de Tampão EB Qiagen e a distribuição de tamanho das bibliotecas foi analisada usando o Kit Agilent DNA 1000 para o Bioanalisador 2100 (Agilent Technologies Inc., Santa Clara, CA).
c. Análise de bibliotecas de sequenciamento preparada de acordo com os protocolos abreviados (a) e de comprimento total (b)
[00375] Os eletrogramas gerados pelo Bioanalisador são mostrados nas figuras 7A e 7B. Figura 7A mostra o eletrograma de DNA de biblioteca preparado a partir de cfDNA purificado da amostra de plasma M24228 usando o protocolo de comprimento total descrito em (a) e Figura 7B mostra o eletrograma de DNA de biblioteca preparado a partir de cfDNA purificado da amostra de plasma M24228 usando o protocolo de comprimento total descrito em (b). Em ambas figuras, picos 1 e 4 representam o Marcador Inferior de 15 bp e o Marcador Superior de 1.500, respectivamente; os números acima dos picos indicam os tempos de migração para os fragmentos da biblioteca; e o linhas horizontais indicam o ajuste limiar para integração. O eletrograma na figura 7A mostra um pico menor de fragmentos de 187 bp e um pico maior de fragmentos de 263 bp, enquanto o eletrograma na figura 7B mostra apenas um pico a 265 bp. Integração das áreas de pico resultou em uma concentração calculada de 0,40 ng/μL para o DNA do pico de 187 bp na figura 7A, uma concentração de 7,34 ng/μL para o DNA do pico de 263bp na figura 7A e uma concentração de 14,72 ng/μL para o DNA do pico de 265 bp pico na figura 7B. Sabe-se que os adaptadores Illumina que foram ligados no cfDNA são 92 bp, que quando subtraídos dos 265 bp, indicam que o tamanho de pico do cfDNA é 173 bp. É possível que o pico menor a 187 bp represente fragmentos de dois oligonucleotídeos iniciadores que foram ligados extremidade a extremidade. Os dois fragmentos de oligonucleotídeo iniciador lineares são eliminados do produto de biblioteca final quando o protocolo abreviado é usado. O protocolo abreviado também elimina outros fragmentos menores que 187 bp. Neste exemplo, a concentração de cfDNA purificado ligado no adaptador é o dobro daquela de cfDNA ligado no adaptador produzido usando o protocolo de comprimento total. Notou-se que a concentração dos fragmentos de cfDNA ligados no adaptador foi sempre maior que aquela obtida usando o protocolo de comprimento total (dados não mostrados).
[00376] Assim, uma vantagem de preparar a biblioteca de sequenciamento usando o protocolo abreviado é que a biblioteca obtida consistentemente compreende apenas um pico maior na faixa de 262 a 267 bp enquanto a qualidade da biblioteca preparada usando o protocolo de comprimento total varia como refletido pelo número e mobilidade de picos a não ser aquela representando o cfDNA. Produtos não cfDNA ocupariam espaço na célula de fluxo e diminuiriam a qualidade da amplificação de agrupamento e formação de imagem subsequente das reações de sequenciamento, que sustentam a designação geral do estado de aneuploidia. O protocolo abreviado mostrou não afetar o sequenciamento da biblioteca.
[00377] Uma outra vantagem de preparar a biblioteca de sequenciamento usando o protocolo abreviado é que as três etapas enzimáticas de extremidade abrupta, formação de cauda d-A e ligação no adaptador, levam menos que uma hora para completar e suportar a validação e implementação de um serviço de diagnóstico de aneuploidia rápido.
[00378] Uma outra vantagem é que as três etapas enzimáticas de extremidade abrupta, formação de cauda d-A, e ligação do adaptador, são realizadas no mesmo tubo de reação, assim, evitar múltiplas transferências de amostra levaria potencialmente a perda de material e, mais importantemente, a possível mistura da amostra e contaminação da amostra.
Exemplo 2 Detecção de Aneuploidia Exata em Gravidezes de Gêmeos INTRODUÇÃO
[00379] Teste pré-natal não invasivo (NIPT) de DNA sem célula total (cfDNA) usando sequenciamento massivamente paralelo de genoma total mostrou ser um método muito preciso e robusto de detectar aneuploidias de cromossomo fetal. Vide, Bianchi DW, Platt LD, Goldberg JD, et al. Genoma-wide fetal aneuploidy detection by maternal plasma DNA sequencing. Obstet Gynecol 2012;119:890-901; Fan HC, Blumenfeld YJ, Chitkara U, Hudgins L, Quake SR. Noninvasive diagnosis of aneuploidy fetal by shotgun sequencing DNA from maternal blood. Proc Natl Acad Sci U S A 2008;105:16266-71; Sehnert AJ, Rhees B, Comstock D, et al. Optimal detection of fetal chromosomal abnormalities by massively parallel DNA sequencing of cell- free fetal DNA from maternal blood. Clin Chem 2011;57:1042-9. O presente teste detecta trissomia 21, 18, 13 e aneuploidias cromossomo de sexo de uma única amostra de sangue materno. O presente teste é atualmente indicado para mulheres grávidas com gestação de feto único a 10+ semanas e a alto risco para aneuploidia fetal. Recentemente, o American College of Obstetricians and Gynecologists (ACOG), o International Society for Prenatal Diagnosis (ISPD), o American College of Medical Genetics and Genomics (ACMG) e o National Society of Genetic Counselors (NSGC) recomendaram considerando o uso de NIPT para mulheres com um alto risco de aneuploidia fetal.
[00380] Nos Estados Unidos, gêmeos representam aproximadamente um em 30 nascidos vivos e a taxa de nascimentos de gêmeos está em crescimento (National Center for Health Statistics Data Brief, No. 80, January 2012). Como mulheres de idade avançada, elas são mais prováveis de liberar mais que um óvulo por ciclo menstrual e, como tal, mulheres acima de 30 representam cerca de 1/3 do aumento em gravidezes de gêmeos. Técnicas de reprodução assistida, onde frequentemente mais que um embrião é transferido durante fertilização in vitro, representam a maioria do aumento remanescente em gravidezes de gêmeos.
[00381] Evidência preliminar sugere que a quantidade de DNA fetal presente na circulação materna aumenta aproximadamente 35% em gravidezes de gêmeos quando comparado com gravidezes de feto único, mas o estudo não considerou a quantidade de cfDNA derivada de cada feto. Canick JA, Kloza IN, Lambert-Messerlian GM, et al. O sequenciamento de DNA de plasma materno para identificar Síndrome de Down e outras trissomias em múltiplas gestações. Prenat Diagn 2012;32:730-4. Pesquisadores demonstraram que embora exista um aumento geral na quantidade de DNA fetal circulante em gravidezes de gêmeos, a quantidade de cfDNA para cada feto diminui. Srinivasan A, Bianchi D, Liao W, Sehnert A, Rava R. 52: maternal plasma DNA sequencing: effects of multiple gestation on aneuploidy detection and the relative cell-free fetal DNA (cffDNA) per fetus. American Journal of obstetrics and gynecology 2013;208:S31. Srinivasan A, Bianchi DW, Huang H, Sehnert AJ, Rava RP. Noninvasive detection of fetal subchromosome abnormalities via deep sequencing of maternal plasma. American Journal of human genetics 2013;92:167-76. Portanto, metodologias sensíveis são exigidas para assegurar a classificação correta de aneuploidia em gravidezes de gêmeos.
[00382] Fatores que maximizam a capacidade de NIPT classificar precisamente amostras de aneuploidia são um aumento no número de leituras de sequenciamento usadas na análise, assim o ruído estatístico é minimizado e a capacidade de normalizar sinais cromossômicos de maneira tal que variabilidade intercorrida seja reduzida. Recentemente, foi desenvolvido um fluxo de trabalho de preparação de amostra melhorado, automatizado que aumenta o número de leituras usáveis por amostra e uma metodologia analítica melhorada que aumenta o sinal específico de cromossomos aneuploides. Esses aumentos melhoram a precisão geral de classificar amostras de aneuploide afetadas.
[00383] Este exemplo descreve a aplicação de um algoritmo de classificação melhorada para maior validação de gêmeos coorte usado até hoje. Demonstramos que um algoritmo de SAFeR melhorado (Algoritmo Seletivo para Resultados Fetais) permite detecção de aneuploidia precisa em amostras de gêmeos, que são conhecidas por ter uma quantidade reduzida de DNA sem célula por feto.
MÉTODOS
[00384] Amostras foram coletadas como parte de dois estudos clínicos independentes envolvendo populações maternas tanto de alto risco quanto de médio risco. O estudo Maternal BLood IS Source to Accurately Diagnose Aneuploidy Fetal (MELISSA; NCT01122524) foi projetado para detectar aneuploidias de cromossomo total em gravidezes de alto risco. Bianchi DW, Platt LD, Goldberg JD, et al. Genome-wide aneuploidy fetal detection for maternal plasma DNA sequencing. Obstet Gynecol 2012;119:890-901. O experimento Comparison of Aneuploidy Risk Avaliations (CARE; NCT01663350) foi projetado para demonstrar uma especificidade superior do presente teste comparado com métodos de classificação de soro pré-natal convencional para trissomia 21 e trissomia 18 em uma população materna de médio risco (submetido a publicação). Detalhes do conjunto de dados são mostrados em Tabela 3. Resultados clínicos foram determinados tanto por cariótipo de um procedimento invasivo pré-natal quanto por exame físico do recém-nascido.TABELA 3: Cariótipo e classificação imediata de amostras de gêmeos. Amostras maternas de 118 gravidezes de gêmeos foram analisadas usando o teste pré-natal imediato para aneuploidias de cromossomos 21, 18 e 13 e para a presença do cromossomo Y. Os dados imediatos foram comparados com resultados clínicos determinados tanto por análise do cariótipo quanto exame físico do recém-nascido.
[00385] DNA sem célula foi extraído de amostras de plasma congeladas e sequenciadas em sequenciadores HiSeq2000 como descrito previamente. Sehnert AJ, Rhees B, Comstock D, et al. Optimal detection of fetal chromossomal abnormalities by massively parallel DNA sequencing of cell-free fetal DNA from maternal blood. Clin Chem 2011;57:1042-9. Marcadores de sequência de sequenciamento paralelo massivo (MPS) foram mapeados na construção de referência de genoma humano hg19 e Valores de Cromossomo Normalizados (NCVs) foram calculados para cromossomos 21, 18, 13, X e Y usando um fluxo de trabalho melhorado analítico que maximizou o sinal para razão de ruído e melhorou a sensibilidade geral de detecção. Os componentes algorítmicos incluíram filtração genômica melhorada, remoção da tendenciosidade sistemática introduzida através das etapas de biologia molecular e métodos de normalização e classificação melhorados. Pessoal do laboratório que realizou o sequenciamento foi encoberto para o resultado clínico.
RESULTADOS
[00386] Amostras de plasma materno de 118 gravidezes de gêmeos com resultados clinicamente definidos foram investigados neste estudo (Tabela 3). As classificações de aneuploidia para cromossomos 21, 18 e 13 foram geradas para todas as amostras no estudo e quatro amostras das gravidezes com um ou mais fetos de aneuploidia foram corretamente identificadas (Figura 8). Duas das amostras foram de pares gêmeos dicoriônicos cada qual com um feto macho afetado com T21 e um feto macho não afetado (47,XY+21/46,XY); uma foi uma amostra de gêmeos monocoriônicos com um cariótipo 47,XY+18; e uma amostra foi gêmeos dicoriônicos onde um gêmeo teve o cariótipo mosaico 47,XY+T21[7]/46,XY[11]. Nenhuma das amostras clinicamente definidas não afetadas (N=114) neste estudo foi classificada como afetadas para aneuploidia.
[00387] O sexo dos fetos pode ser determinado pela presença do cromossomo Y em cfDNA. O teste descrito aqui foi capaz de identificar positivamente a presença do cromossomo Y em todas as amostras que tiveram pelo menos um feto macho (Figura 8). Além do mais, o teste também identificou corretamente a ausência do cromossomo Y em amostras com dois fetos fêmeos.
CONCLUSÕES
[00388] O estudo atual demonstra uma metodologia analítica melhorada que permite o teste de aneuploidia autossomal mais sensível de amostras de gêmeos. O método analítico intensificado tira vantagem de melhorias em filtração do genoma, redução de ruído sistemática e métodos de classificação melhorados. A utilidade do fluxo de trabalho analítico melhorado foi demonstrada em um conjunto de 118 amostras de gêmeos; o maior número de amostras usado em qualquer validação de MPS para detectar aneuploidias autossomais e presença do cromossomo Y em gêmeos (Figura 9). Figura 9 mostra amostras de gêmeos analisada em estudos de NIPT. Número de amostras de gêmeos usadas em vários estudos para avaliar o desempenho de testes NIPT comercialmente disponíveis. Canick JA, Kloza IN, Lambert-Messerlian GM, et al. DNA sequencing of maternal plasma to identify Down syndrome and other trissomies in multiple gestations. Prenat Diagn 2012;32:730-4. Lau TK, Jiang F, Chan MK, Zhang H, Lo PSS, Wang W. Non-invasive prenatal screening of fetal Down syndrome by maternal plasma DNA sequencing in twin pregnancies. Journal of Maternal-Fetal and Neonatal Medicine 2013;26:434-7. O método analítico melhorado mostrou realizar precisamente detectando corretamente a presença de todas as amostras de trissomia 21 e trissomia 18 no coorte, incluindo um feto afetado que foi mosaico para trissomia 21, sem gerar nenhum resultado falso positivo. Adicionalmente, o método analítico melhorado detectou corretamente a presença do cromossomo Y em todas as gravidezes de gêmeos que tiveram pelo menos um feto macho e não detectou o cromossomo Y em nenhuma das gravidezes de gêmeos que tiveram dois fetos fêmeos.
[00389] Uma característica de um método sensível é a capacidade de minimizar ruído sistemático e aumentar o sinal geral para razão de ruído. O atual estudo realizou isto produzindo mais leituras de sequenciamento por amostra do que qualquer dos outros ensaios de NIPT comercialmente disponíveis (aproximadamente 28M leituras de sequenciamento/amostra) e melhorando a metodologia analítica para lidar melhor com o ruído sistemático que vem com manipulação bioquímica de amostras de DNA complexo. O fluxo de trabalho analítico melhorado finalmente reduz a largura da distribuição de contagem cromossômica normalizada permitindo uma melhor separação das populações não afetadas e afetadas e uma capacidade melhorada de identificar precisamente fetos afetados por aneuploidia com baixas quantidades de DNA fetal.
[00390] A capacidade de ter uma metodologia muito precisa e sensível para detectar aneuploidia em gravidezes de gêmeos é importante em virtude de embora a quantidade total de DNA fetal sem célula aumentar em gravidezes de gêmeos, a quantidade atribuível para cada feto diminuir. Portanto, pode-se A) ignorar esta descoberta e testar as amostras como se elas fossem equivalentes a gravidezes de feto único e aumentar a probabilidade de resultados falso negativos, B) rejeitar um maior número de amostras devido a DNA insuficiente ou C) construir uma metodologia mais sensível (Tabela 4). TABELA 2: Estratégias para processar gravidezes de gêmeos usando testes NIPT comercialmente disponíveis
[00391] As melhorias analíticas no além de permitir classificação de aneuploidia precisa em gravidezes de gêmeos. Uma separação melhorada das populações não afetadas e afetadas também reduz a frequência geral das amostras que são classificadas como suspeitas de aneuploidia. Adicionalmente, o fluxo de trabalho analítico melhorado pode ser aplicado em gravidezes de feto único com melhorias similares em detecção de aneuploidia e classificação do sexo.
[00392] Conclusivamente, o estudo atual descreve um método analítico melhorado que leva a melhor separação de amostras não afetadas e afetadas de aneuploidia e classificação de aneuploidia autossomal mais precisa das amostras contendo baixas quantidades de DNA fetal. Incorporando essas melhorias as capacidades do teste pré-natal foram expandidas para testar gestações de gêmeos.
[00393] A presente descrição pode ser incorporada em outra forma específica sem fugir de seu espírito ou características essenciais. As modalidades descritas devem ser consideradas sob todos os pontos de vista apenas como ilustrativas e não restritivas. O escopo da descrição é, portanto, indicado pelas reivindicações anexas e não pela descrição anterior. Todas as mudanças que ficam no significado e faixa de equivalência das reivindicações devem ser admitidas no seu escopo.

Claims (24)

1. Método para avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste, implementado em um sistema de computador que inclui um ou mais processadores e memória do sistema, o método caracterizado pelo fato de que compreende: (a) prover, no sistema de computador, leituras de sequência obtidas por uma sequência de ácidos nucleicos da amostra de teste, cuja amostra de teste compreende moléculas de ácido nucleico de um ou mais genomas; (b) alinhar, pelo sistema de computador, as leituras da sequência da amostra de teste a um genoma de referência compreendendo a sequência de ácidos nucleicos de interesse, provendo assim marcadores de sequência de teste; (c) determinar, pelo sistema de computador, uma cobertura dos marcadores de sequência de teste localizada em cada intervalo, em que o genoma de referência é dividido em uma pluralidade de intervalos e em que a cobertura indica uma abundância de marcadores de sequência em um intervalo; (d) prover, pelo sistema de computador, um perfil global para a sequência de ácidos nucleicos de interesse, em que o perfil global compreende uma cobertura esperada em cada intervalo e em que a cobertura esperada é obtida de um conjunto de treinamento de amostras de treinamento não afetadas compreendendo moléculas de ácido nucleico sequenciadas e alinhadas substancialmente da mesma maneira que a amostra de teste, a cobertura esperada apresentando variação de intervalo para intervalo; (e) ajustar, pelo sistema de computador, a cobertura dos marcadores de sequência de teste em cada intervalo de pelo menos a sequência de ácidos nucleicos de interesse usando a cobertura esperada em cada intervalo, obtendo assim coberturas corrigidas para o perfil global para a sequência de ácidos nucleicos de interesse; (f) ajustar, pelo sistema de computador, as coberturas corrigidas para o perfil global para as sequências de ácido nucleico de interesse com base em uma relação entre níveis de teor de GC da amostra de teste e as coberturas corrigidas para o perfil global da amostra de teste, obtendo assim coberturas corrigidas para GC da amostra para a sequência de ácidos nucleicos de interesse; e (g) avaliar, pelo sistema de computador, um número de cópias da sequência de ácidos nucleicos de interesse na amostra de teste com base nas coberturas corrigidas para GC da amostra, em que as coberturas corrigidas para GC da amostra melhoram um nível de sinal e/ou reduzem um nível de ruído para determinar o número de cópias da sequência de ácidos nucleicos de interesse.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que as leituras da sequência são obtidas de sequências de DNA de célula livre de uma mulher grávida e DNA de célula livre de um feto carregado pela mulher grávida.
3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que adicionalmente compreende aplicar um mascarador de sequência que não leva em consideração coberturas em intervalos mascarados.
4. Método de acordo com a reivindicação 3, caracterizado pelo fato de que o mascarador de sequência é obtido por um método compreendendo: prover, no sistema de computador, um conjunto de treinamento compreendendo leituras da sequência de uma pluralidade de amostras de treinamento não afetadas; alinhar, pelo sistema de computador, as leituras da sequência do conjunto de treinamento com o genoma de referência, provendo assim marcadores de sequência de treinamento para as amostras de treinamento; dividir, pelo sistema de computador, o genoma de referência em uma pluralidade de intervalos; determinar, pelo sistema de computador, uma cobertura dos marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento; e criar, pelo sistema de computador, um mascarador de sequência compreendendo intervalo não mascarados e mascarados, em que cada intervalo mascarado tem um índice de distribuição que excede um limiar de mascaramento, o índice de distribuição se relacionando à distribuição das coberturas das amostras de treinamento.
5. Método de acordo com a reivindicação 3, caracterizado pelo fato de que o mascarador de sequência compreende intervalos mascarados e intervalos não mascarados definidos pela distribuição das pontuações da qualidade do mapeamento através das amostras de treinamento no intervalo, as pontuações da qualidade do mapeamento sendo derivadas das leituras de alinhamento da sequência de uma pluralidade de amostras de treinamento não afetadas ao genoma de referência.
6. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que a amostra de teste compreende uma mistura de ácidos nucleicos de dois diferentes genomas.
7. Método de acordo com a reivindicação 6, caracterizado pelo fato de que os ditos ácidos nucleicos compreendem moléculas de DNA de célula livre.
8. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que a amostra de teste compreende ácidos nucleicos livres de célula fetal e materna.
9. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que a amostra de teste compreende ácidos nucleicos de células cancerosas e não afetadas do mesmo indivíduo.
10. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que a cobertura esperada em cada intervalo compreende uma mediana ou média das coberturas das amostras de treinamento e em que o ajuste da cobertura dos marcadores da sequência de teste na operação (e) compreende dividir a cobertura dos marcadores de sequência de teste para cada intervalo pela mediana ou média das coberturas das amostras de treinamento do intervalo.
11. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que o ajuste da cobertura dos marcadores de sequência de teste na operação (e) compreende: (i) obter uma relação entre a cobertura dos marcadores de sequência de teste em função da cobertura esperada em uma pluralidade de intervalos em um ou mais cromossomos ou regiões robustos e (ii) aplicar a relação ao intervalo na sequência de interesse para obter as coberturas corrigidas para o perfil global.
12. Método de acordo com a reivindicação 11, caracterizado pelo fato de que a relação em (i) é obtida por uma regressão linear: ya = intercepção + declive * gwpa, em que ya é cobertura do intervalo a para a amostra de teste em um ou mais cromossomos ou regiões robustos e gwpa é o perfil global para intervalo a para amostras de treinamento não afetadas; e obtendo as coberturas corrigidas para o perfil global em (ii) compreende obter as coberturas corrigidas para o perfil global zb como: Zb = yb / (intercepção + declive * gwpb) -1 em que yb é uma cobertura observada do intervalo b para a amostra de teste na sequência de interesse e gwpb é o perfil global para intervalo b para amostras de treinamento não afetadas.
13. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que o ajuste da cobertura corrigida pelo perfil global na operação (f) compreende: agrupar o intervalo no genoma de referência em uma pluralidade de grupos GC, cada grupo GC compreendendo múltiplos intervalos, em que os múltiplos intervalos contêm marcadores de sequência de teste e têm teor de GC similar na amostra de teste; determinar um valor esperado da cobertura corrigida pelo perfil global para cada grupo GC para uma pluralidade de autossomos robustos; e ajustar a cobertura corrigida pelo perfil global dos marcadores de sequência de teste em cada intervalo na sequência de ácido nucleico de interesse para cada grupo GC com base no valor esperado determinado do mesmo grupo GC, obtendo assim a cobertura corrigida pelo GC da amostra dos marcadores de sequência de teste em cada intervalo na sequência de ácidos nucleicos de interesse.
14. Método de acordo com a reivindicação 13, caracterizado pelo fato de que o valor esperado da cobertura corrigida pelo perfil global é a média ou mediana da cobertura para o grupo GC de uma pluralidade de autossomos robustos.
15. Método de acordo com a reivindicação 13, caracterizado pelo fato de que o ajuste da cobertura corrigida pelo perfil global dos marcadores de sequência de teste compreende subtrair o valor esperado da cobertura corrigida pelo perfil global.
16. Método de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que o ajuste da cobertura corrigida pelo perfil global na operação (f) compreende: ajustar uma função matemática linear ou não linear aos pontos de dado de uma pluralidade de autossomos robustos, em que cada ponto de dados se refere a um valor de coberturas corrigidas para o perfil global da amostra de teste para um valor do teor de GC da amostra de teste; ajustar a cobertura corrigida pelo perfil global dos marcadores de sequência de teste em cada intervalo na sequência de ácido nucleico de interesse com base em um valor esperado de cobertura para cada intervalo, que se iguala ao calor de cobertura da função matemática no valor do teor de GC do intervalo em consideração.
17. Método de acordo com a reivindicação 16, caracterizado pelo fato de que o ajuste da cobertura corrigida pelo perfil global dos marcadores de sequência de teste compreende subtrair o valor esperado da cobertura corrigida pelo perfil global.
18. Método de acordo com qualquer uma das reivindicações 13 a 17, caracterizado pelo fato de que os autossomos robustos compreendem todos os autossomos, exceto para o(s) cromossomo(s) de interesse.
19. Método de acordo com qualquer uma das reivindicações 13 a 17, caracterizado pelo fato de que os autossomos robustos compreendem todos os autossomos, exceto para chr X, Y, 13, 18 e 21.
20. Método para criar um mascarador de sequência para a avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse, implementado em um sistema de computador que inclui um ou mais processadores e memória do sistema, o método caracterizado pelo fato de que compreende: (a) prover, no sistema de computador, um conjunto de treinamento compreendendo leituras da sequência de uma pluralidade de amostras de treinamento não afetadas; (b) alinhar, pelo sistema de computador, as leituras da sequência do conjunto de treinamento a um genoma de referência compreendendo a sequência de ácidos nucleicos de interesse, provendo assim marcadores de sequência de treinamento para as amostras de treinamento; (c) dividir, pelo sistema de computador, o genoma de referência em uma pluralidade de intervalos; (d) determinar para cada amostra de treinamento não afetada, pelo sistema de computador, uma cobertura dos marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento, em que a cobertura indica uma abundância de marcadores de sequência em um intervalo; (e) determinar, para cada intervalo, uma cobertura esperada dos marcadores de sequência de treinamento através de todas as amostras de treinamento; (f) ajustar, pelo sistema de computador, a cobertura dos marcadores de sequência de treinamento em cada intervalo para cada amostra de treinamento de acordo com a cobertura esperada em cada intervalo, obtendo assim coberturas corrigidas para o perfil global dos marcadores de sequência de treinamento no intervalo para cada amostra de treinamento; (g) criar, pelo sistema de computador, um mascarador de sequência compreendendo intervalos não mascarados e mascarados através do genoma de referência, em que cada intervalo mascarado tem um índice de distribuição excedendo um limiar de mascaramento, o índice de distribuição se relacionando à uma distribuição da cobertura corrigida pelo perfil global através das amostras de treinamento em cada intervalo.
21. Método de acordo com a reivindicação 20, caracterizado pelo fato de que a cobertura esperada determinada em (e) para cada intervalo compreende a mediana ou média das coberturas das amostras de treinamento.
22. Método de acordo com a reivindicação 21, caracterizado pelo fato de que o ajuste da cobertura dos marcadores de sequência de treinamento na operação (f) compreende subtrair a mediana ou média de cada amostra da cobertura de treinamento dos marcadores de sequência de treinamento para cada intervalo.
23. Método de acordo com a reivindicação 21, caracterizado pelo fato de que o ajuste da cobertura dos marcadores de sequência de treinamento na operação (f) compreende dividir cada amostra da cobertura de treinamento dos marcadores de sequência de treinamento para cada intervalo pela mediana ou média.
24. Sistema para avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste, caracterizado pelo fato de que o sistema compreende: um sequenciador para receber ácidos nucleicos da amostra de teste provendo informação da sequência de ácidos nucleicos da amostra; um ou mais processadores; e um ou mais meios de armazenamento que pode ser lido em computador tendo armazenado nele instruções para execução no dito processador para avaliar o número de cópias na amostra de teste usando um método compreendendo: (a) prover, no sistema, leituras da sequência da amostra de teste; (b) alinhar, por um ou mais processadores, as leituras da sequência da amostra de teste a um genoma de referência compreendendo a sequência de ácidos nucleicos de interesse, provendo assim marcadores de sequência de teste; (c) determinar, por um ou mais processadores, uma cobertura dos marcadores de sequência de teste localizada em cada intervalo, em que o genoma de referência é dividido em uma pluralidade de intervalos; (d) prover, por um ou mais processadores, um perfil global para a sequência de ácidos nucleicos de interesse, em que o perfil global compreende uma cobertura esperada em cada intervalo e em que a cobertura esperada é obtida de um conjunto de treinamento de amostras sequência de treinamento não afetadas e alinhadas substancialmente da mesma maneira que a amostra de teste, a cobertura esperada apresentando variação de intervalo para intervalo; (e) ajustar, por um ou mais processadores, a cobertura dos marcadores de sequência de teste em cada intervalo de pelo menos a sequência de ácidos nucleicos de interesse de acordo com a cobertura esperada em cada intervalo, obtendo assim uma cobertura corrigida pelo perfil global em cada intervalo dos marcadores de sequência de teste; (f) ajustar, por um ou mais processadores, as coberturas corrigidas para o perfil global com base em uma relação entre os níveis do teor de GC da amostra de teste e as coberturas corrigidas pelo perfil global da amostra de teste para o intervalo dos marcadores de sequência de teste, obtendo assim uma cobertura corrigida pelo GC da amostra dos marcadores de sequência de teste na sequência de ácidos nucleicos de interesse; e (g) avaliar, por um ou mais processadores, número de cópias da sequência de ácidos nucleicos de interesse na amostra de teste com base na cobertura corrigida pelo GC da amostra.
BR112016008870-0A 2013-10-21 2014-10-21 Método e sistema para avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste, e, método para criar um mascarador de sequência BR112016008870B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361893830P 2013-10-21 2013-10-21
US61/893830 2013-10-21
PCT/US2014/061635 WO2015061359A1 (en) 2013-10-21 2014-10-21 Method for improving the sensitivity of detection in determining copy number variations

Publications (2)

Publication Number Publication Date
BR112016008870A8 BR112016008870A8 (pt) 2020-03-24
BR112016008870B1 true BR112016008870B1 (pt) 2023-08-15

Family

ID=

Similar Documents

Publication Publication Date Title
AU2020200728B2 (en) Method for improving the sensitivity of detection in determining copy number variations
KR102566176B1 (ko) 태아 아-염색체 홀배수체 및 복제수 변이 탐지
EP3543354B1 (en) Method for generating a masked reference sequence of the y chromosome
BR112016008870B1 (pt) Método e sistema para avaliação de número de cópias de uma sequência de ácidos nucleicos de interesse em uma amostra de teste, e, método para criar um mascarador de sequência