BR112020013636A2

BR112020013636A2 - método para facilitar o diagnóstico pré-natal de um distúrbio genético a partir de uma amostra materna associada à gestante, método para identificação de contaminação associada a pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento de alto rendimento e método para caracterização associada a pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento

Info

Publication number: BR112020013636A2
Application number: BR112020013636-0A
Authority: BR
Inventors: David Tsao; Sukrit SILAS; Oguzhan Atay
Original assignee: Billiontoone, Inc.
Priority date: 2018-01-05
Filing date: 2018-08-06
Publication date: 2020-12-01
Also published as: WO2019135790A1; CN112020565A; EP3735470B1; EP4335928A3; ES2970286T3; AU2018399524A1; CA3087046A1; EP4335928A2; FI3735470T3; US20230015348A1; EP3735470A1; DK3735470T3; IL275699A; EP3735470A4; JP2021509583A; JP7164125B2; CN112020565B; PT3735470T; AU2018399524B2; US20190211395A1

Abstract

As realizações de um método e/ou sistema podem incluir a geração de um conjunto de moléculas de modelo para controle de qualidade (QCT); determinação de um conjunto de agrupamentos de leitura de sequência de QCT com base no conjunto de moléculas de QCT, como com base em regiões de variação do conjunto de moléculas de QCT; e com base no conjunto de agrupamentos de leitura de sequência de QCT, determinação de um parâmetro relacionado ao sequenciamento, como um parâmetro de contaminação e/ou parâmetro de contagem de molécula, associado a pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento.

Description

MÉTODO PARA FACILITAR O DIAGNÓSTICO PRÉ-NATAL DE UM DISTÚRBIO GENÉTICO A PARTIR DE UMA AMOSTRA MATERNA ASSOCIADA À GESTANTE, MÉTODO PARA IDENTIFICAÇÃO DE CONTAMINAÇÃO ASSOCIADA A PELO MENOS UM ENTRE PREPARAÇÃO DE BIBLIOTECA DE SEQUENCIAMENTO E SEQUENCIAMENTO DE ALTO RENDIMENTO E MÉTODO PARA CARACTERIZAÇÃO ASSOCIADA A PELO MENOS UM ENTRE PREPARAÇÃO DE BIBLIOTECA DE SEQUENCIAMENTO E SEQUENCIAMENTO REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS

[001] Este pedido reivindica o benefício do Pedido Provisório norte-americano número de série 62/614.236, depositado em 5 de janeiro de 2018, o qual é incorporado pelo presente em sua totalidade por meio desta referência.

CAMPO TÉCNICO

[002] Esta revelação se refere geralmente ao campo de sequenciamento genético.

HISTÓRICO

[003] O sequenciamento de alto rendimento (por exemplo, sequenciamento de nova geração (NGS)) é cada vez mais usado para testes diagnósticos, tanto para sequenciamento total de genoma quanto exoma, e para aplicações mais especializadas como exame pré-natal não invasivo (NIPT), biópsias de fluidos e exames similares que detectam polimorfismos. No sequenciamento de alto rendimento (por exemplo, NGS), a contaminação cruzada é uma preocupação importante para aplicações clínicas, devido ao fato de uma pluralidade de amostras (por exemplo, até 384 amostras, etc.) poder ser processada no mesmo ciclo de sequenciamento. Em especial, nos exames onde as mutações ou polimorfismos são raros, de modo que suas frequências de alelos representam apenas um percentual pequeno do total, a contaminação cruzada de outras amostras pode resultar em falso positivos. Isto é particularmente verdadeiro para NIPT e biópsias de fluidos, onde uma diferença quantitativa de menos de alguns porcentos é a diferença entre um resultado positivo e um negativo.

[004] As práticas de preparação de biblioteca padrão para o sequenciamento de alto rendimento podem exigir amplificação de uma amostra de DNA inicial de entrada. Estas etapas de amplificação podem exacerbar o efeito de contaminação cruzada, uma vez que qualquer amplificação de alelo mutante no laboratório pode contaminar as amostras e experimentos subsequentes, comumente conhecido como contaminação por transferência de PCR. Para evitar este problema, alguns exames diagnósticos padrão, como qPCR, utilizam sistemas de prevenção de transferência de dUTP/UNG, nos quais dUTP é substituído por dTTP em PCR, e os amplicons contendo uracila são degradados após o exame por meio do tratamento pela enzima Uracila DNA Glicosilase. No entanto, não há nenhuma solução similar para os exames baseados em sequenciamento de alto rendimento (por exemplo, exames baseados em NGS, etc.), apesar de uma necessidade ainda mais crítica devido ao aumento de sensibilidade do sequenciamento de alto rendimento (por exemplo, NGS) e pequenas alterações quantitativas que os exames baseados em sequenciamento de alto rendimento medem.

[005] Embora seja difícil eliminar completamente a contaminação cruzada no sequenciamento de alto rendimento devido à química associada, seria inestimável poder rastreá-la. No exemplos, uma sequência diferente e identificável pode ser adicionada a cada amostra para rastrear sua contaminação em outros poços. No entanto, estes exemplos onde cada usuário, cada experimento e cada amostra possui uma biblioteca diferente de sequências podem ser complicados e podem exigir a manutenção de uma grande pluralidade de bibliotecas distintas (por exemplo, 384 bibliotecas distintas; um número de bibliotecas distintas correspondendo ao número de amostras processadas no mesmo ciclo de sequenciamento; etc.) quando usados para rastrear a contaminação cruzada de exames baseados em sequenciamento de alto rendimento multiplexados (por exemplo, exames baseados em NGS, etc.). Além disso, estes exemplos não seriam capazes de rastrear a transferência por PCR a partir de experimentos anteriores, uma vez que as mesmas bibliotecas seriam usadas em diferentes experimentos. Ademais, devido à dificuldade de manter uma grande pluralidade de bibliotecas distintas (por exemplo, 384 bibliotecas distintas, etc.), as próprias sequências de identificador podem se contaminar por cruzamento. Desta forma, há necessidade de realizações novas e úteis de um método e/ou sistema, como para rastreio de contaminação cruzada durante a superação destas limitações.

BREVE DESCRIÇÃO DAS FIGURAS

[006] As FIGURAS 1A-1D incluem representações de fluxograma de variações das realizações de um método;

[007] A FIGURA 2 inclui uma representação de fluxograma de uma variação de uma realização de um método;

[008] FIGURA 3 inclui uma representação de fluxograma de uma variação de uma realização de um método;

[009] As FIGURAS 4A-4D incluem representações gráficas de resultados de porções de validação de uma variação de uma realização de um método, em particular em relação à contaminação cruzada e erro de designação de índice;

[0010] As FIGURAS 5A-5B incluem um exemplo específico de resultados de experimentos que validam o uso de moléculas de QCT para contagem molecular;

[0011] A FIGURA 6 inclui um exemplo específico de resultados associados a aspectos de qualidade associados ao gerenciamento técnico e/ou gerenciamento laboratorial;

[0012] As FIGURAS 7A-7C incluem representações gráficas de resultados de porções de validação de uma variação de uma realização de um método, em particular em relação à quantificação de moléculas de QCT;

[0013] As FIGURAS 8A-8B incluem representações gráficas de resultados de porções de validação de uma variação de uma realização de um método, em particular em relação à quantificação de alvos biológicos;

[0014] A FIGURA 9 inclui um exemplo específico de uso de moléculas de QCT para medir os equivalentes genômicos avaliáveis;

[0015] A FIGURA 10 inclui um exemplo específico de determinação de parâmetros de contaminação;

[0016] A FIGURA 11 inclui um exemplo específico de uso de moléculas de QCT com uma pluralidade de amostras para determinar erros de processamento de amostra;

[0017] A FIGURA 12 inclui um exemplo específico de uso de moléculas de QCT em diferentes estágios;

[0018] As FIGURAS 13A-13B incluem exemplos específicos de caracterização associada à alternância de índice;

[0019] A FIGURA 14 inclui um exemplo específico para facilitar a medição de níveis reais de contaminação associados ao uso de primers de índice duplo único;

[0020] As FIGURAS 15A-15D incluem exemplos específicos associados à facilitação de diagnóstico de um distúrbio genético único;

[0021] As FIGURAS 16A-16B incluem exemplos específicos associados à facilitação de diagnóstico de uma anormalidade cromossômica.

DESCRIÇÃO DAS REALIZAÇÕES

[0022] A descrição das realizações a seguir não se destina a limitar estas realizações, mas sim a possibilitar a realização e uso por qualquer técnico no assunto.

1. Visão geral.

[0023] Como mostrado nas FIGURAS 1A-1D e FIGURAS 2-3, as realizações de um método 100 (por exemplo, para caracterização associada a pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento; etc.) podem incluir a geração de um conjunto de moléculas de modelo para controle de qualidade (QCT) (por exemplo, cada molécula de QCT incluindo uma região associada ao alvo, uma região de variação, etc.) S110; determinação (por exemplo, computacional; etc.) de um conjunto de agrupamentos de leitura de sequência de QCT (por exemplo, correspondendo ao conjunto de moléculas de QCT; etc.) com base no conjunto de moléculas de QCT (por exemplo, com base nas regiões de variação do conjunto de moléculas de QCT; etc.) S120; e/ou com base no conjunto de agrupamentos de leitura de sequência de QCT, determinação de um parâmetro relacionado ao sequenciamento (por exemplo, um parâmetro de contaminação, um parâmetro de contagem molecular, etc.) associado a pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento S130.

[0024] Além disso ou alternativamente, as realizações do método 100 podem incluir a preparação de uma ou mais bibliotecas de sequência S112; sequenciamento com a uma ou mais bibliotecas de sequência S114; facilitação (por exemplo, auxílio, determinação, provisão, etc.) de um ou mais diagnósticos de uma ou mais condições (por exemplo, distúrbios genéticos, etc.) S140 (por exemplo, com base em um ou mais parâmetros relacionados ao sequenciamento; etc.); facilitação (por exemplo, auxílio, determinação, provisão, administração, etc.) de tratamento para uma ou mais condições, como com base nos parâmetros relacionados ao sequenciamento, diagnósticos e/ou outros componentes adequados S150; e/ou quaisquer outros processos adequados.

[0025] Em um exemplo específico, o método 100 (por exemplo, para facilitar o diagnóstico pré-natal de um distúrbio genético a partir de uma amostra materna associada a uma gestante; etc.), pode incluir: adição à amostra materna de um conjunto de moléculas de QCT associadas ao distúrbio genético, o conjunto de moléculas de QCT incluindo: regiões associadas ao alvo com similaridade de sequência com uma região da sequência alvo de moléculas endógenas alvo (por exemplo, associadas ao distúrbio genético; etc.) e regiões de variação (por exemplo, inclusive regiões de identificador molecular incorporado (EMI) que incluem um conjunto de bases "N" variáveis, onde cada base "N" é selecionada a partir de qualquer uma entre uma base "A", uma base "G", uma base "T" e uma base "C", etc.) com disparidade de sequência com uma região de sequência das moléculas endógenas alvo; geração de uma mistura co-amplificada com base na co-amplificação do conjunto de moléculas de QCT e moléculas de ácido nucleico (por exemplo, ácidos nucleicos; fragmentos de ácido nucleico; etc.) incluindo a região da sequência alvo; sequenciamento da mistura co-amplificada; determinação computacional de um número único do conjunto de moléculas de QCT com base em um número das regiões de variação distintas e detectadas a partir de leituras de sequência de molécula de QCT do sequenciamento, onde as leituras da sequência de moléculas de QCT correspondem ao conjunto de moléculas de QCT; cálculo da profundidade média do sequenciamento de QCT com base na divisão de um número de leituras da sequência de moléculas de QCT pelo número único de moléculas de QCT; determinação de uma contagem absoluta das moléculas endógenas alvo com base na divisão de uma contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT; determinação de uma contagem absoluta de moléculas endógenas de referência com base na divisão de uma contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT; e facilitação do diagnóstico pré-natal do distúrbio genético com base em uma comparação entre a contagem absoluta de sequências endógenas alvo e a contagem absoluta de sequências endógenas de referência.

[0026] Em um exemplo específico, o método 100 (por exemplo, para caracterização, como identificar contaminação, associada a pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento; etc.) pode inclui a geração de um conjunto de moléculas de QCT, cada molécula de QCT incluindo uma região de variação (por exemplo, incluindo uma ou mais regiões de EMI, etc.) e/ou uma região associada ao alvo (por exemplo, com similaridade de sequência com uma região da sequência alvo de um alvo biológico, etc.); determinação computacional de um conjunto de agrupamentos de leitura de sequência de QCT com base nas regiões de variação do conjunto de moléculas de QCT, em que o conjunto de agrupamentos de leitura de sequência de QCT inclui leituras de sequência de molécula de QCT derivadas do sequenciamento correspondente a uma mistura de QCT gerada com base no conjunto de moléculas de QCT e uma amostra incluindo o alvo biológico (por exemplo, uma amostra incluindo moléculas endógenas alvo correspondentes ao alvo biológico; etc.), em que a preparação de biblioteca de sequenciamento inclui co-amplificação do conjunto de moléculas de QCT e moléculas de ácido nucleico incluindo o alvo biológico (por exemplo, com base na similaridade de sequência da região associada ao alvo e da região da sequência alvo do alvo biológico, etc.); e com base no conjunto de agrupamentos de leitura de sequência de QCT, determinação de um parâmetro relacionado ao sequenciamento associado a pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento (por exemplo, determinação de um parâmetro de contaminação descrevendo a contaminação associada a pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento de alto rendimento, etc.).

[0027] Em um exemplo específico, como mostrado na FIGURA 2, o método 100 (por exemplo, para garantir a validade dos ensaios baseados em sequenciamento com base nas moléculas de QCT; etc.) pode incluir: geração de uma biblioteca de QCT ou misturas de bibliotecas de QCT de moléculas de QCT (por exemplo, DNA de QCT incluindo regiões associadas ao alvo com alta similaridade com o gene de interesse para possibilitar a co-amplificação usando os primers de PCR representados como setas pretas na FIGURA 2; DNA de QCT incluindo regiões de variação com diferenças de sequência em comparação ao gene de interesse, em que a região de variação pode incluir uma região de EMI incluindo bases “N” que podem adotar randomicamente bases “A”, “C”, “T” ou “G”, em que até 4^4 sequências exclusivas de EMI podem ser geradas com “NNNN”, em que a probabilidade de duas moléculas de QCT tendo o mesmo EMI possam ser encontradas usando a solução para o paradoxo de aniversário para calcular a probabilidade de colisão por dispersão, em que as subseções de QCT e diferenças de sequência HBB podem ser mostradas na FIGURA 2; DNA de QCT incluindo uma região do identificador de QCT (ID QCT) para distinguir as bibliotecas de QCT e sequências do gene de interesse nas leituras de sequenciamento; etc.); preparação de uma biblioteca de sequenciamento com base nas moléculas de QCT e uma ou mais amostras incluindo os alvos biológicos (por exemplo, HBB, como mostrado na FIGURA 2; etc.), como ao aumentar a biblioteca de QCT para o DNA humano; aplicação de abordagens computacionais para agrupar leituras de sequência de molécula de QCT (por exemplo, com base na similaridade de sequência de EMI; onde o número de grupos de EMI corresponde ao número absoluto de moléculas de QCT adicionadas à amostra; etc.) e designar os agrupamentos a diferentes identificadores de amostra (por exemplo, correspondendo a diferentes amostras;

correspondendo a diferentes compartimentos de amostra usados no sequenciamento; etc.); e usando estes dados para avaliar as métricas de controle de qualidade como contaminação cruzada, erro de designação de índice, erros do usuário (por exemplo, na execução do ensaio), não aderência aos parâmetros do ensaio (por exemplo, quantidade muito pequena de DNA de entrada, equivalentes genômicos acessíveis em uma amostra; etc.), e/ou quantificar a quantidade de alvo biológico de entrada acessível por um ensaio.

[0028] As realizações do método 100 e/ou sistema 200 podem funcionar para quantificar de forma precisa a abundância de alvos biológicos, monitorar e/ou quantificar precisamente o grau de contaminação (por exemplo, contaminação cruzada entre diferentes amostras, diferentes experimentos; verdadeiros níveis de contaminação associados ao uso de primers de índice duplo únicos; etc.), identificar erros de usuários na execução de ensaios com base no sequenciamento, monitorar erro de designação de índice de sequenciamento, determinar não aderência aos parâmetros do ensaio, identificar e/ou facilitar remoção de contaminação e/ou primers de alternância de índice e/ou melhorar quaisquer aspectos adequados associados à preparação de biblioteca de sequenciamento e/ou sequenciamento, como para aperfeiçoamento de diagnóstico e/ou terapêutica.

[0029] Em um exemplo, revela-se pelo presente um único reagente (por exemplo, incluindo um conjunto de moléculas de QCT, etc.) pode ser adicionado a um conjunto de amostras para monitorar a contaminação cruzada, bem como outros erros de usuário ao adicionar um único reagente a todas as amostras. Em um exemplo, a adição de moléculas de

QCT, quando acompanhada de um canal personalizado de análise matemática e computacional com base em soluções para o paradoxo de aniversário para colisão hash, pode monitorar a contaminação cruzada entre diferentes usuários, diferentes experimentos e diferentes amostras ao mesmo tempo.

Em exemplos, uma única biblioteca de QCT pode ser adicionada para todas as amostras (por exemplo, associadas ao sequenciamento de alto rendimento; etc.), como para melhorar a facilidade de uso e conveniência.

Em um exemplo específico, bibliotecas de QCT distintas (por exemplo, correspondendo a diferentes regiões do identificador de QCT, como IDs de QCT, etc.) podem ser adicionadas a diferentes estágio de preparação de amostra para monitorar qualquer erro do usuário ou perda de amostra de entrada.

Nos exemplos, pode-se aplicar uma abordagem automática de impressão digital na dispensa, onde cada amostra pode ser identificada pelas moléculas de QCT (por exemplo, com base nas regiões de variação das moléculas de QCT; regiões do identificador de QCT das moléculas de QCT; etc.). Nos exemplos, a contaminação devido à transferência por PCR pode ser medida, cuja contaminação pode ser uma preocupação em ambientes clínicos e/ou outros contextos.

Em exemplos específicos, as moléculas de QCT podem ser usadas para desenhar uma impressão digital molecular a cada tubo de PCR, e a transferência por PCR pode ser detectada e quantificada mantendo uma base de dados de todas regiões de variação (por exemplo, sequências de EMI de regiões de EMI, etc.) associadas a cada tubo de PCR realizada em um determinado local ou sala laboratorial.

A transferência por PCR em ensaios subsequentes pode então ser identificada pela busca computacional por impressão digital de região de variação (por exemplo, similaridades de impressão digital de EMI, etc.) na base de dados histórica.

[0030] Além disso ou alternativamente, as realizações podem ser usadas para garantia de qualidade contra uma preocupação importante quanto ao sequenciamento de alto rendimento (por exemplo, NGS, etc.), a saber, "comutação de índice" ou erro de designação de índice. Nos exemplos, mesmo na ausência de qualquer contaminação cruzada, leituras de sequenciamento ou sinais (por exemplo, até 5 a 10%; etc.) de uma amostra pode ser má designada a outra amostra quando multiplexada na mesma célula de fluxo. Nos exemplos, pode-se realizar uma abordagem conveniente de impressão digital na dispensa para quantificar precisamente o grau de erro de designação em cada amostra. Em um exemplo específico, como mostrado nas FIGURAS 4A-4D, o efeito cumulativo de contaminação cruzada em poços próximos e erro de designação de índice pode ser detectado em >90% de sensibilidade. Em um exemplo específico, como mostrado na FIGURA 4A, uma biblioteca Illumina Truseq HT pode ser preparada usando todas as 96 combinações de índice i7 e i5, onde cada poço corresponde a um experimento de sequenciamento de amplicon HBB com 400, 200, 100 ou 0 moléculas de QCT adicionadas a cada poço; mostra-se em cada poço a fração de leituras de QCT identificada como contaminação cruzada, em que no experimento, a contaminação cruzada e o erro de designação de índice variaram entre <1% a até 13%; devido a 0 molécula de QCT nas colunas D710-D712, a fração nestes poços indica a sensibilidade com a qual as variações de realizações do método 100 podem detectar a contaminação cruzada; e onde a FIGURA 4B ilustra número e fonte de leituras de contaminação encontradas em D702/D504, indicados por X (à esquerda); e número e destino das leituras de contaminação que originam-se de D702/D504, indicados por O (à direita); e onde a FIGURA 4C ilustra uma análise análoga como para a FIGURA 4B, mas para o D707/D504; e onde a FIGURA 4D ilustra a fonte de contaminação para os poços D710/D504 e D711/D504, e onde não encontrou-se nenhuma leitura de contaminação originando-se destes poços, compatível com a ausência de moléculas de QCT adicionadas a estes poços.

[0031] Além disso ou alternativamente, as realizações podem possibilitar a contagem molecular precisa de um alvo biológico (por exemplo, com base no uso de um conjunto de regiões de variação de um conjunto de moléculas de QCT, etc.), como quando a profundidade de leitura é suficiente (por exemplo, superior a vinte de profundidade de leitura por molécula de QCT distinta; etc.), o que pode auxiliar na obtenção de quantificação alvo precisa em abordagens que usam a adição de sequências complexas. As realizações podem quantificar o alvo biológico acessível que é avaliado quando a profundidade de leitura é suficientemente elevada. Em um exemplo, referente à detecção de mutações para uso de exame pré-natal não invasivo por sequenciamento de amplicon, obtém-se esta alta profundidade de leitura para uma sequência complexa quando <400 moléculas de QCT são adicionadas a cada amostra, em que 96 destas amostras são multiplexadas em um ciclo MiSeq (por exemplo, como mostrado na FIGURA 7C). No entanto, qualquer número adequado de moléculas de QCT pode ser adicionado a uma ou mais amostras para facilitar a contagem molecular e/ou outra funcionalidade adequada. Em exemplos específicos, como mostrado nas FIGURAS

5A-5B, o número de leituras de sequência e o número de moléculas (por exemplo, determinado com base nas leituras de sequência e no processamento associado às moléculas de QCT; etc.) podem ser correlacionados, e onde a proporção entre o número de moléculas e leituras pode diferir em 2 a 3 vezes, indicando as melhorias associadas ao uso de moléculas de QCT para determinar o número de moléculas em uma determinada amostrada (por exemplo, melhorias na capacidade de leitura sobre o uso de número leituras em si; etc.).

[0032] Nos exemplos (por exemplo, de quantificação de contagem molecular absoluta para um ou mais alvos biológicos, etc.), o método 100 e/ou sistema 200 pode ser usado a) para determinar os parâmetros para uso em algoritmos para determinação do resultado diagnóstico dos ensaios, b) para monitorar a perda de DNA de entrada em diferentes estágio de experimentos e ensaios, c) para retornar um resultado sem denominação quando o número de moléculas alvo é muito baixo (por exemplo, para determinar quando um ensaio não é confiável, etc.), d) para projetar ensaios para a detecção de variação do número de cópia em um local em particular ou entre locais, e/ou e) auxiliar a tomada de decisão terapêutica e clínica com base nos resultados de ensaios diagnósticos.

[0033] Além disso ou alternativamente, as realizações podem avaliar e/ou melhorar diversos aspectos de qualidade associados ao gerenciamento técnico e/ou gerenciamento laboratorial (por exemplo, gerencialmente laboratorial clínico; etc.). Como mostrado na FIGURA 6, em um exemplo específico, o método 100 e/ou sistema 200 pode ser usado para identificar processamento de amostra problemática por diferentes técnicos ou laboratórios, onde as Amostras A01 a A06 vs.

Amostras B31 a B35 foram executadas em dois laboratórios diferentes com diferentes práticas de separação pré/pós-PCR; adicionou-se o mesmo volume de moléculas de QCT a partir do mesmo kit, que correspondeu praticamente a ~200 moléculas a cada amostra antes do processamento; “núm_seqs” indica o número de agrupamentos de EMI distintos que foram identificados para cada amostra; “frac_contam” indica as leituras de fração total de contaminação que foram identificadas em cada amostra; “frac_colisão” identifica o grau em que dois agrupamentos válidos de EMI são encontrados em duas amostras diferentes; “frac_contam_colisão” combina as duas métricas anteriores; “ident_frac” é o número de leituras deste mapa para validar os EMIs dividido pelo número total de leituras para aquela amostra em particular; “leituras_por_molqct” indica a profundidade de leitura média para EMIs; usou-se um limiar de filtro para estas métricas derivadas para se identificar as amostras que passam ou não no controle de qualidade (QC); onde apenas 1 de 6 amostras passaram nas métricas de QC para o Laboratório A, ao passo que 5 das 5 amostras passaram nas métricas de QC no Laboratório B; e onde estes resultados podem ser usados para mudar como o processamento de amostra e a separação pré/pós- PCR pode ser conduzida (por exemplo, onde no Laboratório A, no ciclo seguinte com melhorias no processamento de amostra, amostras passaram nas mesmas métricas de QC; etc.). Como mostrado nas FIGURAS 7A-7C, em exemplos específicos, ao incluir diversas espécies de QCTs que são dispensados do mesmo grupo, erro aleatório em pipetas por meio da correlação de contagens absolutas de moléculas de QCT pode ser medido

(por exemplo, como mostrado na FIGURA 7C) e/ou o erro de pipetagem sistemática e/ou de quantificação pode ser adicional ou alternativamente rastreável (por exemplo, como mostrado na FIGURA 7A, com base em uma comparação do painel intermediário versus os painéis da esquerda e da direita). Em exemplos específicos, como mostrado nas FIGURAS 7A-7C, pode- se determinar a quantificação absoluta de moléculas de QCT aumentadas.

Em um exemplo específico, como mostrado na FIGURA 7A, as bibliotecas QCT1, QCT2 e QCT3 (por exemplo, correspondendo a diferentes conjuntos de moléculas de QCT; etc.) podem ser preparadas, agrupadas e aumentadas para reações de PCR em 100, 200 ou 400 moléculas por biblioteca de QCT; EMIs para cada biblioteca de QCT podem ser agrupados por agregação de leituras de sequência de EMI com no máximo 2 alterações de base; barras de erro podem representar média +/- desvio padrão para 24 réplicas; e as linhas do gráfico podem representar um ajuste de regressão linear com sombreamento correspondendo ao intervalo de confiança de 95% da média.

Em um exemplo específico, como mostrado na FIGURA 7B, para determinar a robustez da contagem de QCT para a profundidade de leitura, as leituras de sequenciamento podem ser amostradas a jusante pela seleção randômica de 1/2 das leituras totais; o número de agrupamentos de EMI recuperado de leituras de sequenciamento amostradas à jusante pode ser representado contra o conjunto de dados total; a cor dos pontos pode representar a profundidade de leitura amostrada a jusante por agrupamento de EMI, onde a linha preta possui inclinação=1, interceptação=0; a análise de QCT é robusta quando a profundidade de leitura por molécula de QCT é superior a 20, o que pode auxiliar a confiança da contagem molecular; e quando o número de agrupamentos QCT é 400, profundidade de leitura amostrada a jusante é inferior a 20 por molécula. Em um exemplo específico, como mostrado na FIGURA 7C, as contagens de moléculas de QCT pode ser não correlacionada entre as bibliotecas de QCT (por exemplo, como esperado, etc.); onde um gráfico de dispersão de números de agrupamentos QCT3 vs. agrupamentos QCT1 pode ser mostrado para cada réplica de PCR a partir da FIGURA 7A no nível de inserção de molécula QTC 100.

[0034] Além disso ou alternativamente, as realizações podem implementar bibliotecas de QCT em diferentes estágios de preparação de biblioteca de sequenciamento (por exemplo, estágios de preparação de amostra) e/ou estágios de sequenciamento para traçar perda de amostra. Em um exemplo específico, caso um primeiro conjunto de moléculas de QCT (por exemplo, moléculas de QCT1; primeiras moléculas de QCT incluindo uma primeira região do identificador de QCT compartilhada; etc.) seja dispensado no ponto de coleta de amostra, e uma quantidade igual de um segundo conjunto de moléculas de QCT (por exemplo, moléculas de QCT2; segundas moléculas de QCT incluindo uma segunda região do identificador de QCT compartilhada; etc.) seja dispensada após purificação da amostra, o rendimento de purificação pode ser avaliado por meio de comparações de contagens moleculares para o primeiro conjunto de moléculas de QCT e o segundo conjunto de moléculas de QCT (por exemplo, contagens de moléculas de QCT1 vs QCT2, etc.).

[0035] Além disso ou alternativamente, as realizações podem determinar a porção do material biológico acessível pelo ensaio, através de quantificação dos alvos biológicos com base no uso de moléculas de QCT, que podem melhorar mediante medição do material genômico total disponível e cálculo da concentração esperada de alvo biológico, devido ao fato de nem todos os alvos ser acessível pelos ensaios.

Em um exemplo específico, isto pode ser devido ao cisalhamento de DNA a uma curta distribuição de tamanho, como no caso de DNA livre circulante que é avaliado em aplicações de exame pré-natal não invasivo (NIPT) para a determinação de condições genéticas no feto e aplicações de biópsia de fluidos onde o DNA tumoral circulante é avaliado.

Em um exemplo específico, nestas aplicações, dependendo do alvo de interesse, menos de 25% do DNA pode ser acessível, em que, como mostrado nas FIGURAS 8A-8B, a determinação de equivalentes genômicos de DNA de entrada pode ser determinada usando moléculas de QCT, onde o DNA genômico humano pode ser enzima de restrição digerida por Alu ou Hpy, que corta fora ou dentro do gene de interesse, respectivamente; as moléculas de QCT podem ser então aumentadas para 9ng-36ng de DNA digerido (correspondendo a 2.500-10.000 equivalentes genômicos), amplificados por PCR e sequenciados em um MiSeq; os equivalentes genômicos (G.E.) de DNA humano em cada reação de PCR podem ser medidos por análises associadas às moléculas de QCT nas porções de aplicação de realizações do método 100; as reações de PCR podem ser realizadas em duplicidade, onde a FIGURA 8A ilustra uma linha de ajuste linear e sombreamento é o IC de 95% da média, e onde a medição do DNA de entrada é compatível entre as réplicas e através das séries de diluição, mas é sistematicamente mais elevada que a medição Qubit por um fator constante; e onde, como mostrado na FIGURA 8B, o DNA genômico humano pode ser submetido a cisalhamento a uma distribuição de tamanho com um máximo em 100-150 bp; as moléculas de QCT podem então ser aumentadas para 2,3 ng-36 ng do DNA submetido a cisalhamento, e os equivalentes genômicos do DNA submetido a cisalhamento podem ser medidos, com um tamanho de amplicon de ~150 bp, e onde a FIGURA 8B ilustra a inclinação da linha indicando a fração de moléculas que podem ser amplificadas devido ao cisalhamento randômico.

Em um exemplo específico, como mostrado na FIGURA 9, as moléculas de QCT podem ser usadas para medir equivalente genômicos avaliáveis, que podem ser diferentes para cada ensaio e iguais para o mesmo ensaio com diferentes impressões digitais; onde a região ao redor da mesma mutação foi amplificada a partir do DNA submetido a cisalhamento para formar um produto de PCR de 150 bp vs. produto de PCR de 72 bp (esquerda vs. direita), e as moléculas de QCT foram usadas para medir o número de moléculas amplificadas em ambos os casos; onde 18 nanogramas (ng) de DNA genômico correspondendo a 5000 equivalentes genômicos de entrada foram submetidos a cisalhamento para um comprimento médio de ~170 bp (por exemplo, o comprimento médio de DNA livre circulante) e foram incluídos em todos os casos (n=8 para 150 bp e n=4 para 72 bp); e compatível com os modelos teóricos, o número de moléculas que podem ser amplificadas é significativamente menor que o DNA de entrada e podem ter uma diferença de até 2 vezes entre diferentes impressões digitais para a mesma massa de DNA de entrada; e onde a FIGURA 9 pode indicar a razão pela qual outras medições de DNA de entrada (como concentração) não podem ser suficiente para o diagnóstico molecular preciso que exige informação molecular, em que a diminuição de ~2 vezes na contagem molecular aumentaria seu ruído Poisson em ~40%, o que pode ser a diferença entre a precisão de 95% (2 sigma) e 99% (3 sigma).

[0036] As realizações do método 100 e/ou sistema 200 podem ser usadas em associação a uma ou mais condições (por exemplo, em associação à caracterização, diagnóstico, tratamento e/ou realização de processos relacionados a uma ou mais condições; etc.), em que as condições podem incluir e/ou de outro modo estar associadas a um ou mais entre: exame pré- natal não invasivo (NIPT) (por exemplo, em relação à triagem genética quanto à presença de anormalidades cromossômicas incluindo aneuploidia, como trissomia 21 ou síndrome de Down, trissomia 18 ou síndrome de Edwards, trissomia 13 ou síndrome de Patau, aneuploidias cromossômicas sexuais como síndrome de Turner, outras aneuploidias adequadas; anormalidades cromossômicas incluindo síndrome de DiGeorge; em relação à triagem genética quanto a distúrbio genéticos únicos; etc.); outros exames pré-natais; análise de aneuploidia e/ou outra análise adequada fora do contexto pré-natal; distúrbios genéticos (por exemplo, distúrbio genéticos únicos incluindo anemia falciforme; anormalidade cromossômicas; distúrbios associados à amplificação de gene; deleção de gene; anormalidades cromossômicas parciais; síndrome de deleção de 22q11.2 ou síndrome de DiGeorge; síndrome de Charcot-Marie- Tooth, fibrose cística, doença de Huntington; distrofia muscular de Duchenne; hemofilia, talassemia; etc.), outras aplicações associadas a anormalidades cromossômicas (por exemplo, DNA cromossômico adicional, ausente, irregular, etc.), câncer (por exemplo, através de análises associadas a quaisquer oncogenes adequados, biomarcadores de câncer e/ou outros alvos associados ao câncer; através de análises associadas a biópsias de fluido) e/ou quaisquer outras condições adequadas. Em um exemplo, o método 100 pode incluir a determinação de uma contagem molecular alvo (por exemplo, correspondendo a um número de moléculas alvo em uma amostra; com base no uso de moléculas de QCT; etc.) para facilitar o diagnóstico associado a pelo menos um entre exame pré-natal não invasivo e biópsias de fluido. adicional ou alternativamente, as condições incluem: condições psiquiátricas e comportamentais (por exemplo, um transtorno psicológico; depressão; psicose; etc.); condições relacionadas à comunicação (por exemplo, transtorno de linguagem expressiva; gagueira; transtorno fonológico; transtorno de autismo; condições da voz; condições da audição; condições oculares; etc.); condições relacionadas ao sono (por exemplo, insônia, apneia do sono; etc.); condições cardiovasculares relacionadas (por exemplo, doença arterial coronariana; pressão arterial elevada; etc.); condições metabólicas relacionadas (por exemplo, diabetes, etc.), condições reumatoides relacionadas (por exemplo, artrite, etc.); condições relacionadas ao peso (por exemplo, obesidade, etc.); condições relacionadas à dor; condições endócrinas relacionadas; doença crônica; e/ou qualquer outro tipo adequado de condições.

[0037] O sequenciamento (por exemplo, em relação a S112) associado a uma ou mais realizações do método 100 e/ou sistema 200 inclui preferencialmente sequenciamento de alto rendimento, que pode incluir e/ou ser associado a qualquer um ou mais entre: NGS, tecnologias associadas a NGS, sequenciamento de assinatura maciçamente paralelo, sequenciamento de Polony, pirossequenciamento 454,

sequenciamento Illumina, sequenciamento SOLiD, sequenciamento semicondutor Ion Torrent, sequenciamento de nanobolas de DNA, sequenciamento de molécula única Heliscope, sequenciamento de molécula única em tempo real (SMRT), sequenciamento de DNA Nanopore, qualquer número de geração de tecnologias de sequenciamento (por exemplo, tecnologias de sequenciamento de segunda geração, tecnologias de sequenciamento de terceira geração, tecnologias de sequenciamento de quarta geração, etc.), sequenciamento associado ao amplicon (por exemplo, sequenciamento de amplicon direcionado), sequenciamento associado ao metagenoma, sequenciamento por síntese, sequenciamento por correntes de tunelamento, sequenciamento por hibridização, sequenciamento de espectrometria de massa, técnicas baseadas em microscopia e/ou quaisquer tecnologias adequadas relacionadas ao sequenciamento de alto rendimento. Adicional ou alternativamente, o sequenciamento pode incluir quaisquer tecnologias adequadas de sequenciamento (por exemplo, sequenciamento de Sanger, sequenciamento capilar, etc.).

[0038] Um ou mais exemplos e/ou porções das realizações do método 100 e/ou processos aqui descritos podem ser realizados de forma assíncrona (por exemplo, sequencialmente), concomitante (por exemplo, em paralelo; processamento concomitante de amostras biológicas de forma multiplexada e automatizada; processamento computacional concomitante das leituras de sequência para melhorara a capacidade de processamento do sistema; etc.), em relação temporal com um evento acionador e/ou em qualquer outra ordem adequada em qualquer momento e frequência adequados e/ou uso de um ou mais exemplos de realizações do sistema 200, componentes e/ou entidades aqui descritas.

[0039] Adicional ou alternativamente, os dados aqui descritos (por exemplo, agrupamentos, parâmetros relacionados ao sequenciamento, identificadores, profundidades de leitura, leituras de sequência, determinações da região de sequência, desenho da molécula de QCT, desenhos do primer, etc.) podem ser associados a quaisquer indicadores temporais adequados (por exemplo, segundos, minutos, horas, dias, semanas, intervalos, timepoints, indicações de horários, etc.), inclusive um ou mais: indicadores temporais de quando os dados foram coletados, determinado, transmitidos, recebidos e/ou de outro modo processado; indicadores temporais que proveem contexto ao conteúdo descrito pelos dados, como indicadores temporais indicando a sequência de estágios de preparação de biblioteca de sequenciamento e/ou sequenciamento; alterações nos indicadores temporais (por exemplo, dados ao longo do tempo; alteração nos dados; padrões de dados; tendência de dados; extrapolação de dados e/ou outra previsão; etc.); e/ou quaisquer outros indicadores adequados relacionados ao tempo.

[0040] Adicional ou alternativamente, parâmetros, métricas, entradas, saídas e/ou outros dados adequados aqui descritos podem ser associados aos tipos de valor que incluem um ou mais entre: pontuações, valores binários, classificações, níveis de confiança, identificadores (por exemplo, identificador de amostras, identificadores de molécula de QCT, etc.), valores com um espectro e/ou quaisquer outros tipos adequados de valores. Quaisquer tipos adequados de dados aqui descritos podem ser usados como entradas, gerados como saídas e/ou manipulados de qualquer forma adequada para quaisquer componentes adequados associados às realizações do método 100 e/ou sistema 200.

[0041] Adicional ou alternativamente, as realizações do sistema 200 podem incluir uma rede de manuseio de amostra configurada para gerar moléculas (por exemplo, moléculas de QCT; bibliotecas de QCT; etc.), processar amostras biológicas e/ou realizar outros processos adequados; um sistema de sequenciamento configurado para sequenciar material genético processado de misturas geradas com base em amostras biológicas e moléculas de QCT; um sistema informático (por exemplo, um sistema informático remoto; um sistema informático local; etc.) configurado para analisar as leituras de sequência, determinar os agrupamentos de leitura de sequência de QCT, determinar os parâmetros relacionados ao sequenciamento, facilitar diagnósticos, facilitar o tratamento e/ou realizar outros processos adequados (por exemplo, processos computacionais); e/ou quaisquer outros componentes adequados. Os componentes do sistema 200 podem ser integrados de forma física e/ou lógica de qualquer maneira (por exemplo, com quaisquer distribuições adequadas de funcionalidade entre os componentes, como em relação às porções de realizações do método 100; etc.). No entanto, o método 100 e o sistema 200 podem ser configurados de qualquer forma adequada.

2.1 Geração de moléculas de QCT.

[0042] As realizações do método 100 podem incluir a geração de um conjunto de moléculas de QCT S110, que pode funcionar para gerar moléculas a serem usadas (por exemplo, adicionadas, processadas, sequenciadas, etc.) em um ou mais estágios (por exemplo, etapas, fases, períodos, intervalos, etc.) de pelo menos um entre preparação de biblioteca de sequenciamento e sequenciamento (por exemplo, sequenciamento de alto rendimento, etc.), como para facilitar o processamento computacional a jusante (por exemplo, determinação de agrupamento de leitura de sequência de QCT para facilitar a determinação de parâmetro relacionado à sequência; etc.).

[0043] As moléculas de QCT incluem preferencialmente regiões associadas ao alvo (por exemplo, uma ou mais regiões associadas ao alvo por molécula de QCT; etc.). Como mostrado na FIGURA 2, as regiões associadas ao alvo incluem preferencialmente similaridade de sequência (por exemplo, similaridade total de sequência; similaridade de sequência que satisfaça uma condição limiar; similaridade de sequência de um número especificado de bases; etc.) para uma ou mais regiões da sequência alvo de uma ou mais moléculas alvo (por exemplo, moléculas endógenas alvo; correspondendo a um ou mais alvos biológicos; etc.), mas podem, adicional ou alternativamente, incluir qualquer associação adequada a quaisquer componentes adequados de uma ou mais moléculas alvo. As regiões associadas ao alvo preferencialmente possibilitam a co-amplificação das moléculas de QCT correspondentes (por exemplo, inclusive as regiões associadas ao alvo, etc.) e moléculas de ácido nucleico (por exemplo, ácidos nucleicos, fragmentos de ácido nucleico, etc.) incluindo a região da sequência alvo, o que pode facilitar a precisão aperfeiçoada na contagem molecular (por exemplo, na determinação de parâmetros de contem de moléculas; contabilizando os desvios de amplificação; etc.), mas podem,

adicional ou alternativamente, possibilitar quaisquer processos adequados associados à preparação de biblioteca de sequenciamento, sequenciamento e/ou porções das realizações do método 100. Em um exemplo, a preparação de biblioteca de sequenciamento (por exemplo, realização de preparação de biblioteca de sequenciamento S112) pode incluir co- amplificação do conjunto de moléculas de QCT e moléculas de ácido nucleico que incluem o alvo biológico com base na similaridade de sequência da região associada ao alvo e da região da sequência alvo do alvo biológico, e em que a determinação do parâmetro relacionado ao sequenciamento pode incluir a determinação de uma contagem de molécula alvo que descreve o número de moléculas do alvo biológico associado ao sequenciamento com base no conjunto de agrupamentos de leitura de sequência de QCT.

[0044] Na variações, as moléculas de QCT podem omitir regiões associadas ao alvo. Por exemplo, as moléculas de QCT podem ser usadas com componentes de amostras que incluem alvos biológicos, sem associação ao alvo (por exemplo, sem ter similaridade predeterminada com as regiões da sequência alvo dos alvos biológicos) e/ou sem co- amplificação correspondente com os componentes das amostras (por exemplo, moléculas de ácido nucleico que incluem as regiões da sequência alvo; etc.). Nos exemplos, as moléculas de QCT podem ser pré-processadas para ser adaptadas ao sequenciamento, em que as moléculas de QCT pré-processadas podem ser adicionadas a uma amostra processada adequada para sequenciamento, a ser co-sequenciada sem a necessidade de co- amplificação (por exemplo, para melhora da facilidade de uso). As moléculas de QCT que omitem as regiões associadas ao alvo são preferencialmente úteis para facilitar a determinação do parâmetro de contaminação, mas pode, adicional ou alternativamente, ser usadas para facilitar qualquer determinação adequada de parâmetro relacionado ao sequenciamento.

Em um exemplo específico, o conjunto de moléculas de QCT pode ser adaptado para o sequenciamento subsequente (por exemplo, sequenciamento de alto rendimento como NGS; etc.), em que a geração do conjunto de moléculas de QCT pode incluir a amplificação de um primeiro subconjunto de moléculas de QCT (por exemplo, cada um incluindo uma primeira região compartilhada do identificador de QCT; etc.) do conjunto de moléculas de QCT; e amplificação de um segundo subconjunto de moléculas de QCT (por exemplo, cada um incluindo uma segunda região compartilhada do identificador de QCT; etc.) do conjunto de moléculas de QCT, onde as leituras de sequenciamento de molécula de QCT são derivadas do sequenciamento que corresponde a: uma mistura de QCT gerada com base no primeiro subconjunto de moléculas de QCT e na amostra que inclui o alvo biológico (por exemplo, incluindo as primeiras moléculas alvo correspondentes ao alvo biológico; etc.), e uma mistura adicional de QCT gerada com base no segundo subconjunto de moléculas de QCT e em uma amostra adicional que inclui o alvo biológico (por exemplo, incluindo as segundas moléculas alvo correspondentes ao alvo biológico; etc.), em que a amostra e a amostra adicional correspondem, respectivamente, a um primeiro compartimento de amostra e um segundo compartimento de amostra dos compartimentos de amostra.

No entanto, as regiões associadas ao alvo e/ou moléculas de QCT que omitem regiões associadas ao alvo podem ser configuradas de qualquer forma adequada.

[0045] As moléculas de QCT incluem preferencialmente uma ou mais regiões de variação (por exemplo, uma ou mais regiões de variação por molécula de QCT; regiões de variação adjacentes; regiões de variação separadas; etc.). Como mostrado na FIGURA 2, uma região de variação inclui preferencialmente disparidade de sequência (por exemplo, disparidade de sequência completa; disparidade de um número especificado de bases; disparidade de sequência parcial; etc.) com uma ou mais regiões de sequência (por exemplo, diferentes de uma região da sequência alvo; etc.) de moléculas alvo.

Uma região de variação pode incluir, adicional ou alternativamente, uma ou mais regiões de EMI.

Em uma variação, uma região de EMI pode incluir um conjunto de bases "N" variáveis (por exemplo, uma ou mais bases "N" variáveis, etc.), em que cada base "N" é selecionada (por exemplo, randomicamente selecionada; selecionada de acordo com distribuições e/ou probabilidades estatísticas predeterminadas; etc.) a partir de qualquer uma entre uma base "A", uma base "G", uma base "T" e uma base "C". Em uma variação, uma região de EMI pode incluir uma região sintetizada (por exemplo, em uma microssérie; usando síntese baseada e silício; etc.) incluindo uma ou mais bases especificadas (por exemplo, bases desenhadas e sintetizadas; etc.), como regiões sintetizadas desenhadas para facilitar a determinação de agrupamento de leitura de sequência de QCT (por exemplo, maximizando a distância pareada de Hamming entre as regiões de EMI; etc.). Nas variações, uma molécula de QCT pode incluir, adicional ou alternativamente, uma pluralidade de regiões de EMI (por exemplo, uma região de variação que inclui uma pluralidade de regiões de EMI;

regiões de EMI adjacentes; regiões de EMI separadas; regiões de EMI que incluem bases “N” variáveis; regiões de EMI que incluem regiões sintetizadas; etc.). Por exemplo, cada região de variação do conjunto de moléculas de QCT pode incluir uma região do identificador molecular incorporado que inclui um conjunto de bases “N” variáveis, em que cada base “N” é selecionada a partir de qualquer uma entre uma base "A", uma base "G", uma base "T" e uma base "C", onde cada molécula de QCT do conjunto de moléculas de QCT inclui ainda uma região de EMI adicional incluindo um conjunto adicional de bases “N” variáveis, em que a região de EMI adicional é separada da região de EMI por uma região de sequência da molécula de QCT, em que o conjunto de bases “N” variáveis e o conjunto adicional de bases “N” variáveis pode, cada, incluir um número determinado (por exemplo, predeterminado) de bases “N” (por exemplo, superior a três bases “N”, superior a qualquer número adequado de bases “N”, um número exato de bases “N”; etc.), e em que a determinação de um parâmetro relacionado ao sequenciamento (por exemplo, parâmetro de contaminação) pode ser baseada nos agrupamentos de leitura de sequência de QCT derivadas com base nas regiões de EMI e nas regiões de EMI adicionais do conjunto de moléculas de QCT (por exemplo, com base nas leituras de sequência de EMI diferentes correspondentes aos pares de uma região de EMI e uma região de EMI adicional; etc.). Em uma variação, uma região de variação pode incluir, adicional ou alternativamente, uma região sintetizada.

[0046] Nas variações, como mostrado na FIGURA 2, uma molécula de QCT pode incluir uma região do identificador de QCT que identifica a molécula de QCT (e/ou outras moléculas de QCT adequadas), como uma região compartilhada do identificador de QCT (por exemplo, uma região de sequência compartilhada, com disparidade com uma ou mais regiões de sequência das moléculas alvo, etc.) identificando as moléculas de QCT pertencentes a um conjunto de moléculas de QCT (por exemplo, em que regiões diferentes do identificador de QCT são exclusivas para os diferentes conjuntos de moléculas de QCT, etc.). Em um exemplo, a região de variação de cada molécula de QCT de um primeiro conjunto de moléculas de QCT pode incluir uma primeira região de EMI separada de uma segunda região de EMI por pelo menos uma primeira região do identificador de QCT, em que cada molécula de QCT adicional de um segundo conjunto de moléculas de QCT pode incluir uma primeira região de EMI adicional separada de uma segunda região de EMI adicional por pelo menos uma segunda região do identificador de QCT.

Em um exemplo, a primeira, a segunda, a primeira adicional e a segunda região adicional de EMI podem incluir um conjunto de bases “N” variáveis, e em que cada base “N” é selecionada a partir de qualquer uma entre uma base "A", uma base "G", uma base "T" e uma base "C", e em que a determinação computacional do conjunto de agrupamentos de leitura de sequência de QCT pode incluir a determinação do conjunto de agrupamentos de leitura de sequência de QCT com base na primeira e na segunda regiões do identificador de QCT, e na primeira, na segunda, na primeira adicional e na segunda região adicional de EMI.

Em um exemplo, para cada molécula de QCT do primeiro conjunto de moléculas de QCT, a sequência de molécula de QCT correspondente é caracterizada por similaridade de sequência completa com um primeiro modelo de sequência do alvo biológico, exceto a primeira região do identificador de QCT, a primeira região de EMI e a segunda região de EMI; e em que, para cada molécula de QCT adicional do segundo conjunto de moléculas de QCT, a sequência de molécula de QCT adicional correspondente é caracterizada pela full similaridade de sequência completa com um segundo modelo de sequência, exceto a segunda região do identificador de QCT, a primeira região de EMI adicional e a segunda região de EMI adicional.

Em um exemplo específico, as sequências de molécula de QCT podem ser idênticas à sequência de molécula alvo (por exemplo, uma ou mais regiões da sequência de molécula alvo; etc.), exceto duas seções separadas de sequências 5N interrompidas por uma região do identificador de QCT diferente anteriormente determinada (por exemplo, sequência de identificado exclusiva, etc.). Em um exemplo específico, as regiões do identificador de QCT (por exemplo, sequência de ID de QCT, como mostrado na FIGURA 2, etc.) podem ser usadas para possibilitar o uso de diversas bibliotecas de QCT que podem ser adicionadas a um estágio para controle interno ou em diferentes estágios para monitoramento de perda de alvos biológicos de entrada ou outros erros de usuário.

Adicional ou alternativamente, as regiões do identificador de QCT podem ser configuradas de qualquer forma adequada.

No entanto, as moléculas de QCT podem incluir qualquer combinação adequada de qualquer tipo adequado de regiões (por exemplo, em que diferentes moléculas de QCT incluem tipos iguais ou diferentes de e/ou número de regiões; com qualquer similaridade de sequência adequada e/ou disparidade com regiões de sequência de moléculas alvo; etc.).

[0047] Nas variações, o método 100 pode incluir, adicional ou alternativamente, a geração de uma ou mais bibliotecas de QCT (por exemplo, cada biblioteca de QCT incluindo moléculas de QCT, etc.) em que uma biblioteca de QCT pode incluir diversos conjuntos de moléculas de QCT onde cada conjunto de moléculas de QCT é identificável por uma região do identificador de QCT diferente.

Em um exemplo, a geração de uma biblioteca de QCT pode incluir amplificação de diferentes conjuntos de moléculas de QCT (por exemplo, para a preparação para sequenciamento, em que as moléculas de QCT são amplificadas antes da adição de um ou mais componentes de uma amostra para gerar uma mistura de QCT; etc.). Nos exemplos, a geração de uma biblioteca de QCT pode incluir a determinação de um número de moléculas de QCT para incluir na biblioteca de QCT.

Em um exemplo específico, as soluções para o paradoxo de aniversário podem ser usadas para determinar o número máximo de moléculas de QCT exclusivas que devam ser incluídas em cada amostra dada uma diversidade particular de moléculas de QCT, em que para sequências 4^10 que podem ser geradas por 10 bases N variáveis em uma molécula de QCT, até 1200 moléculas de QCT podem ser usadas com a probabilidade de ~0,5 de uma única colisão de EMI válida (exp(- 1200*1199/2/4^10)~0,5), e em que nas 200 moléculas de QCT, a probabilidade de uma única colisão válida seja ~2%. Em um exemplo específico, a geração de uma biblioteca de QCT pode incluir a geração de uma biblioteca de QCT adaptada para implementação (por exemplo, em um único estágio de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento de alto rendimento, etc.) de menos de 0,00001 nanograma (e/ou outras quantias adequadas) de moléculas de

QCT amplificáveis para cada amostra de um conjunto de amostras. No entanto, a determinação do número de moléculas de QCT para incluir em uma biblioteca de QCT e a geração de bibliotecas de QCT podem ser realizadas de qualquer forma adequada.

[0048] Em um exemplo, as bibliotecas de QCT podem ser geradas sintetizando a cadeia complementar para sequências de oligonucleotídeo de cadeia única que contêm as sequências de “N” variável. Em um exemplo específico, as bibliotecas de QCT de cadeia dupla podem ser geradas pela nova suspensão e recozimento dos Ultramers de QCT com uma sequência complementar de primer, estendendo as sequências usando fragmento de Klenow (exo-), e tratamento com Exonuclease I. O produto final pode ser purificado para remover moléculas de DNA de cadeia única não usadas, e as bibliotecas de QCT podem ser quantificadas usando ensaios fluorométricos como ensaio Qubit HS, a partir do qual o número de moléculas de QCT a ser adicionado a cada amostra pode ser calculado usando o peso molecular esperado das moléculas de QCT de cadeia dupla.

[0049] No entanto, a geração de moléculas de QCT S110 pode ser realizada de qualquer forma adequada.

2.2 Determinação de um Conjunto de Agrupamentos de Leitura de Sequência de QCT.

[0050] As realizações do método 100 podem incluir a determinação de um ou mais agrupamentos de leitura de sequência de QCT S120, que podem funcionar para agrupar leituras de sequência de molécula de QCT (por exemplo, após a preparação de biblioteca de sequenciamento e sequenciamento,

etc.) para facilitar a determinação de parâmetro relacionado ao sequenciamento.

[0051] Os agrupamentos de leitura de sequência de QCT incluem preferencialmente leituras de sequência de molécula de QCT (por exemplo, derivadas do sequenciamento correspondente a uma ou mais misturas de QCT geradas com base em um ou mais conjuntos de moléculas de QCT e uma ou mais amostras que incluem o alvo biológico; etc.), mas podem incluir, adicional ou alternativamente, quaisquer leituras e/ou componentes adequados associados ao sequenciamento.

[0052] As leituras de sequência de molécula de QCT podem ser agrupadas de forma computacional para determinação da identidade do um ou mais conjuntos de moléculas de QCT que foram dispensados em cada amostra. Podem ser usadas diversas abordagens de agrupamento computacional, inclusive, entre outros, Análise de Componente Principais, K- médias, agrupamento hierárquico e/ou quaisquer abordagens de agrupamento baseadas na identidade da sequência. Adicional ou alternativamente, o agrupamento, as análises computacionais associadas ao agrupamento (por exemplo, pré-processamento, filtragem, etc.) e/ou quaisquer outras porções adequadas de realizações do método 100 podem aplicar abordagens de inteligência artificial (por exemplo, abordagens de aprendizagem de máquina, etc.) incluindo qualquer um ou mais entre: aprendizado supervisionado (por exemplo, usando regressão logística, usando redes neurais de propagação reversa, usando florestas aleatórias, árvores de decisão, etc.), aprendizado não supervisionado (por exemplo, usando um algoritmo Apriori, usando agrupamento de K-médias), aprendizado semisupervisionado, um algoritmo de aprendizagem profunda (por exemplo, redes neurais, uma máquina de Boltzmann restrita, um método de rede de confiança profunda, um método de rede neural convolucional, um método de rede neural recorrente, método de codificador automático empilhado, etc.), aprendizagem por reforço (por exemplo, usando um algoritmo de Q-aprendizagem, usando aprendizagem de diferença temporal), um algoritmo de regressão (por exemplo, mínimos quadrados ordinários, regressão logística, regressão progressiva, splines de regressão adaptativa multivariada, suavização de gráfico de dispersão localmente estimada, etc.), um método baseado em exemplo (por exemplo, k vizinho mais próximo, quantização de vetor de aprendizagem, mapa de auto-organização, etc.), um método de regularização (por exemplo, regressão de cumeeira, operador de retração e seleção menos absoluta, rede elástica, etc.), um método de aprendizagem por árvore de decisão (por exemplo, árvore de classificação e regressão, dicotomizador iterativo 3, C4.5, detecção de interação automática por quiquadrado, toco de decisão, floresta aleatória, splines de regressão adaptativa multivariada, máquinas de aumento de gradiente, etc.), um método bayesiano (por exemplo, naive Bayes, estimadores ponderados de uma dependência, rede de crenças bayesianas, etc.), um método de Kernel (por exemplo, uma máquina de vetor de suporte, uma função de base radial, uma análise discriminativa linear, etc.), um método de agrupamento (por exemplo, agrupamento de k-médias, maximização de expectativas, etc.), um algoritmo associado de aprendizagem de regras (por exemplo, um algoritmo Apriori, um algoritmo Eclat, etc.), um modelo de rede neural artificial (por exemplo, um método Perceptron, um método de propagação reversa, um método de rede de Hopfield, um método de mapa de auto-organização, um método de quantização de vetor de aprendizagem, etc.), um método de redução de dimensionalidade (por exemplo, análise de componente principal, regressão por mínimos quadrados parciais, mapeamento de Sammon, dimensionamento multidimensional, busca de projeção, etc.), um método de conjunto (por exemplo, aumento, agregação por inicialização, AdaBoost, generalização empilhada, método de máquina de aumento de gradiente, método de floreta aleatória, etc.) e/ou qualquer abordagem adequada de inteligência artificial.

[0053] A determinação de agrupamentos de leitura de sequência de QCT é baseada preferencialmente em uma ou mais regiões (por exemplo, regiões de variação; regiões do identificador de QCT; etc.) das moléculas de QCT (por exemplo, com base nas leituras de sequência correspondentes às regiões das moléculas de QCT; etc.), mas pode ser baseadas, adicional ou alternativamente, em quaisquer dados adequados. Em um exemplo específico, após as moléculas de QCT (por exemplo, modelos de controle de qualidade associados ao alvo, etc.) serem combinadas aos componentes da amostra e o alvo biológico (por exemplo, moléculas de ácido nucleico que incluem a região da sequência alvo; etc.) ser amplificado usando primers complementares tanto à região da sequência alvo quanto á sequência de molécula de QCT (por exemplo, regiões associadas ao alvo das moléculas de QCT; etc.), as moléculas podem ser indexadas por multiplexação, sequenciadas, e as leituras do sequenciamento podem ser separadas com base em seus índices de multiplexação. Em um exemplo específico, as leituras indexadas podem então ser agrupadas em diferentes grupos de QCT por regiões do identificador de QCT (por exemplo, sequência de ID de QCT; etc.) ou podem ser identificadas com base nas correspondências exatas de sequência com as sequências de QCT esperadas (exceto regiões de variação como a região de EMI, etc.). Em um exemplo, a determinação (por exemplo, computacional, etc.) de um conjunto de agrupamentos de leitura de sequência de QCT pode incluir agrupamento de uma primeira leitura de sequência de molécula de QCT e uma segunda leitura de sequência de molécula de QCT em um agrupamento de leitura de sequência de QCT, do conjunto de agrupamentos de leitura de sequência de QCT, com base em uma região de variação similaridade de sequência (por exemplo, entre uma primeira região de variação da primeira molécula de QCT e uma segunda região de variação da segunda molécula de QCT; etc.), satisfazendo uma primeira condição (por exemplo, menos de um número limiar de bases de disparidade; etc.), e para cada agrupamento de leitura de sequência de QCT do conjunto de agrupamentos de leitura de sequência de QCT, a determinação de uma designação do agrupamento de leitura de sequência de QCT para um identificador de amostra (por exemplo, para uma amostra, para um compartimento de amostra associado à preparação de biblioteca de sequenciamento e/ou sequenciamento, etc.) de um conjunto de identificador de amostras que identifica o conjunto de amostras, em que a determinação do parâmetro relacionado ao sequenciamento (por exemplo, parâmetro de contaminação, etc.) pode ser baseada no conjunto de agrupamentos de leitura de sequência de QCT e nas designações dos agrupamentos de leitura de sequência de QCT para o identificador de amostras do conjunto de identificador de amostras. Em um exemplo específico, o agrupamento da primeira e da segunda leituras de sequência de QCT pode incluir agrupamento da primeira e da segunda leituras de sequência de QCT no agrupamento de leitura de sequência de QCT com base na região de variação similaridade de sequência de menos de três substituições de ponto, e com base em uma profundidade de leitura associada ao agrupamento de leitura de sequência de QCT que satisfaz uma segunda condição (por exemplo, superior a 20 profundidade de leitura por agrupamento de leitura de sequência de QCT; superior a 30 profundidade de leitura; superior a qualquer profundidade de leitura adequada; etc.). Em um exemplo específico, uma leitura de sequência de molécula de QCT (por exemplo, uma leitura de sequência que inclui uma sequência da região de EMI) pode ser agregada caso seja observada outra leitura de sequência de molécula de QCT com 2 ou menos substituições de ponto no mesmo poço em profundidade de leitura mais elevada. Em um exemplo específico, cada EMI é designado a uma amostra em particular e poço e índice correspondente ou pares de índice.

[0054] Nas variações, a determinação de agrupamentos de leitura de sequência de QCT pode incluir a determinação e/ou descarte (por exemplo, filtragem, etc.) de agrupamentos inválidos de leitura de sequência de QCT (por exemplo, agrupamentos inválidos de EMI, etc.). Em um exemplo, como mostrado na FIGURA 10, os agrupamentos inválidos de leitura de sequência de QCT podem incluir agrupamentos de leitura de sequência de QCT com profundidade de leitura inferior e/ou em um limiar (por exemplo, 20 ou menos leituras; 30 ou menos leituras; um limiar de qualquer profundidade de leitura adequada; etc.), e/ou que satisfaça quaisquer condições adequadas (por exemplo, um número de leituras que corresponda às condições predeterminadas de profundidade de leitura; etc.), em que os agrupamentos inválidos de leitura de sequência de QCT podem ser descartados para a contagem molecular.

Em um exemplo específico, os agrupamentos válidos de leitura de sequência de QCT (por exemplo, agrupamentos do leitor de sequência de QCT restantes após o descarte de agrupamentos inválidos de leitura de sequência de QCT, etc.) podem ser usados para determinar a proporção entre o número de modelo de controle de qualidade e a contagem de leitura de sequenciamento para cada amostra (por exemplo, em que a proporção pode ser usada como um fator de correção para quantificar o número de moléculas alvo, etc.). Em um exemplo específico, como mostrado na FIGURA 10, em uma profundidade de leitura de EMI média de >30, os agrupamentos de leitura de sequência de QCT válidos versus inválidos (por exemplo, agrupamentos de EMI, etc.) podem ser claramente identificados por uma diminuição acentuada na profundidade de sequenciamento, e em profundidades de leitura médias inferiores, as abordagens adaptativas (por exemplo, determinação de limiar de profundidade de leitura adaptativa; etc.) podem ser usadas para identificar EMIs válidos versus inválidos.

Em um exemplo específico, a determinação de um conjunto de agrupamentos de leitura de sequência de QCT pode incluir a determinação de um subconjunto filtrado de agrupamentos de leitura de sequência de QCT (por exemplo, agrupamentos válidos de leitura de sequência de QCT, etc.) com base nas profundidades de leitura (por exemplo, satisfação de condições de limiar de profundidade de leitura e/ou outras condições adequadas; etc.) correspondentes ao subconjunto filtrado de agrupamentos de leitura de sequência de QCT, em que a determinação de um parâmetro relacionado ao sequenciamento (por exemplo, contagem de molécula alvo, do número de moléculas alvo presentes na amostra original; etc.) pode incluir a determinação de contagem de molécula de QCT com base no subconjunto filtrado de agrupamentos de leitura de sequência de QCT (por exemplo, em que o número de agrupamentos de leitura de sequência de QCT no subconjunto filtrado de agrupamentos de leitura de sequência de QCT pode corresponder à contagem de molécula de QCT; etc.); determinação de uma proporção de fator de correção com base na contagem de molécula de QCT e leituras da sequência de moléculas de QCT (por exemplo, divisão da contagem de molécula de QCT pelas leituras da sequência de moléculas de QCT; etc.); e determinação da contagem de molécula alvo com base na proporção do fator de correção e leituras de sequência de molécula alvo derivadas do sequenciamento (por exemplo, multiplicando o número de leituras de sequência de molécula alvo pela proporção de fator de correção; etc.), as leituras de sequência de molécula alvo associadas ao alvo biológico (por exemplo, inclusive a região da sequência alvo da molécula alvo; etc.). Em um exemplo específico, o método 100 pode incluir a determinação adaptativa de um limiar de profundidade de leitura com base nas características de distribuição da profundidade de leitura para as leituras da sequência de moléculas de QCT, e em que a determinação do subconjunto filtrado de agrupamentos de leitura de sequência de QCT pode incluir a determinação do subconjunto filtrado com base na satisfação do limiar de profundidade de leitura adaptativamente determinado pelas profundidades de leitura. Em um exemplo específico, cada profundidade de leitura das profundidades de leitura pode corresponder a mais de vinte leituras (e/ou outro número adequado de leituras; etc.) para o agrupamento correspondente de leitura de sequência de QCT do subconjunto filtrado de agrupamentos de leitura de sequência de QCT. Nos exemplos, devido aos erros de sequenciamento e PCR, os agrupamentos inválidos de leitura de sequência de QCT podem ser inválidos devido a aspectos diferentes de contaminação. Adicional ou alternativamente, a determinação de agrupamentos válidos ou inválidos de leitura de sequência de QCT pode ser realizada de qualquer forma adequada. No entanto, a determinação de agrupamentos de leitura de sequência de QCT S120 pode ser realizada de qualquer forma adequada.

2.3 Determinação de um Parâmetro relacionado ao sequenciamento.

[0055] As realizações do método 100 podem incluir a determinação de um ou mais parâmetros relacionados ao sequenciamento S130.

[0056] Os parâmetros relacionados ao sequenciamentos podem incluir qualquer um ou mais entre: parâmetros de contaminação (por exemplo, que descrevem a contaminação associada à preparação de biblioteca de sequenciamento e/ou sequenciamento, como entre diferentes usuários, amostras, experimentos, etc.); parâmetros de contagem molecular (por exemplo, que descreve o número de moléculas, como moléculas alvo e/ou moléculas de QCT, inicialmente presentes em uma determinada amostra e/ou mistura; etc.); parâmetros de monitoramento de amostra (por exemplo, associados à perda de amostra; etc.); parâmetros de erro de processamento de amostra (por exemplo, que descrevem ruído; operações de processamento de amostra errôneas como erro de pipetagem; erros sistemáticos; etc.); parâmetros de erro de quantificação (por exemplo, que descrevem erros de quantificação; etc.); parâmetros de erro de análise (por exemplo, que descrevem erros de análise computacional; etc.); e/ou quaisquer parâmetros adequados associados à preparação de biblioteca de sequenciamento, sequenciamento, análise de associação e/ou outros aspectos adequados.

Em um exemplo, como mostrado na FIGURA 11, os números de moléculas de QCT determinados entre uma pluralidade de amostras podem ser usados para determinar os erros de processamento de amostra que descrevem ruído e/ou processamento errôneo de amostra; em que o mesmo volume de moléculas de QCT, correspondendo aproximadamente a ~200 moléculas de QCT exclusivas, pode ser adicionada a cada amostra antes de PCR, e os agrupamentos válidos de leitura de sequência de QCT (por exemplo, agrupamentos de EMI, etc.) podem ser determinados partir dos dados de sequenciamento pós-PCR e sequenciamento; em que o coeficiente de variação (CV) esperado para ~200 moléculas de QCT é quadrado(200)/200 ~ 7%, que é compatível com os dados observados mostrados na FIGURA 11 entre as 12 amostras; em que caso quaisquer amostras caiam abaixo de um determinado limiar (por exemplo, 3 sigmas, 200-3*quadrado(200) ~150 ou um limiar menos rigoroso de ~200/2~100), o resultado pode ser usado para identificar erro de processamento de amostra para aquela amostra em particular; e em que o número de moléculas de QCT também pode ser elevado para determinar parâmetros adicionais de erro de processamento de amostra correspondendo a menos de CV de 7% em um processo.

Em um exemplo, a determinação do parâmetro relacionado ao sequenciamento pode incluir identificação de leituras de sequência de QCT que não designadas a um agrupamento de leitura de sequência de QCT do conjunto de agrupamentos de leitura de sequência de QCT; e a determinação pelo menos um entre uma taxa de erro de sequenciamento e uma taxa de erro de polimerase (por exemplo, taxas de erros de sequenciamento e polimerase de ponta a ponta; etc.) a partir de um número das leituras de sequência de QCT que não são designadas e um número total de leituras de sequência de QCT.

Em exemplos específicos, quaisquer sequências que possuem regiões variáveis (por exemplo, regiões de variação alvo, regiões de variação de referência, etc.) para sequências alvo ou de referência mas não são idênticas em sequência com uma sequência de agrupamento de leitura de QCT são devido a erros de sequência ou polimerase.

Em um exemplo específico, as contagens de leitura destas sequências, dividida pelas contagens de leitura total de QCT, é o erros de sequenciamento e de frequência de polimerase combinados.

O primeiro, erros de sequenciamento, pode ser produzido por um processo linear ao passo que os erros de polimerase podem ser produzidos por um processo exponencial (por exemplo, a menos que PCR linear seja empregada), em que o efeito de um erro em um ciclo inicial de PCR pode ser exponencialmente amplificado.

Portanto, em um exemplo específico, ao analisar a distribuição de contagens de leitura de sequência que não são designadas aos agrupamentos de leitura de QCT, a contribuição de erros de sequenciamento versus polimerase pode ser calculada.

No entanto, a determinação das taxas de erro de sequenciamento e/ou taxas de erro de polimerase pode ser realizada de qualquer forma adequada.

[0057] Nas variações, a determinação de parâmetros relacionados ao sequenciamento pode ser baseada no processamento com uma pluralidade de conjuntos de moléculas de QCT (por exemplo, diferentes conjuntos de moléculas de QCT identificados por diferentes regiões compartilhadas do identificador de QCT; diferentes conjuntos de moléculas de QCT empregados em diferentes estágios associados à preparação de biblioteca de sequenciamento e/ou sequenciamento; etc.), com base em diferentes subconjuntos de agrupamentos de leitura de sequência de QCT correspondentes aos diferentes conjuntos de moléculas de QCT. Em um exemplo, o método 100 pode incluir a geração de um conjunto de moléculas de QCT, cada molécula de QCT uma primeira região do identificador de QCT compartilhada entre o conjunto de moléculas de QCT e adaptada para identificar a molécula de QCT; geração de um conjunto de moléculas de QCT adicionais, cada molécula adicional de QCT incluindo uma segunda região do identificador de QCT compartilhada entre o conjunto de moléculas de QCT adicionais e adaptada para identificar a molécula adicional de QCT; determinação do conjunto de agrupamentos de leitura de sequência de QCT com base na primeira e na segunda regiões do identificador de QCT; e determinação do parâmetro relacionado ao sequenciamento com base no conjunto de agrupamentos de leitura de sequência de QCT. Em um exemplo específico, o conjunto de moléculas de QCT pode ser adaptado para implementação em um primeiro estágio de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento, em que o conjunto de moléculas de QCT adicionais é adaptado para implementação em um segundo estágio de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento, em que a determinação computacional do conjunto de agrupamentos de leitura de sequência de QCT inclui: determinação de um primeiro subconjunto do conjunto de agrupamentos de leitura de sequência de QCT (por exemplo, com base na primeira região do identificador de QCT e primeiras regiões de variação das primeiras moléculas de QCT correspondentes; etc.), em que o primeiro subconjunto corresponde à primeira região do identificador de QCT e está associado ao primeiro estágio; e determinação de um segundo subconjunto do conjunto de agrupamentos de leitura de sequência de QCT (por exemplo, com base na segunda região do identificador de QCT e segundas regiões de variação das segundas moléculas de QCT correspondentes; etc.), em que o segundo subconjunto corresponde à segunda região do identificador de QCT e está associado ao segundo estágio; e em que a determinação do parâmetro relacionado ao sequenciamento inclui determinação de um parâmetro de monitoramento de amostra associado à perda de amostra, com base no primeiro e no segundo subconjuntos do conjunto de agrupamentos de leitura de sequência de QCT.

[0058] Em um exemplo, a determinação de um parâmetro relacionado ao sequenciamento pode incluir a determinação de uma primeira contagem absoluta e uma segunda contagem absoluta correspondente ao conjunto de moléculas de QCT e ao conjunto de moléculas de QCT adicionais, respectivamente, com base no conjunto de agrupamentos de leitura de sequência de QCT, e determinação de pelo menos um entre um parâmetro de erro de pipetagem e um parâmetro de erro de quantificação com base na primeira e na segunda contagem absolutas.

[0059] Em um exemplo específico, como mostrado na FIGURA 12, o uso de moléculas de QCT em diferentes estágios pode permitir a comparação de diferentes abordagens de preparação de amostra; em que as abordagens de purificação de DNA podem ser avaliadas pela adição de 200 moléculas QCT1 (e/ou qualquer número adequado de moléculas de QCT) a cada amostra de plasma antes da purificação de DNA; em que o DNA foi purificado do plasma pelo Método de Purificação no 1 ou Método de Purificação no 2, e as amostras resultantes de DNA foram amplificadas por PCR e sequenciadas; em que as 200 moléculas de QCT2 (e/ou qualquer número adequado de moléculas de QCT) foram adicionadas após purificação de DNA, mas antes da amplificação por PCR; em que o número de agrupamentos válidos de leitura de sequência de QCT correspondendo às moléculas de QCT2 foi similar entre as duas amostras (dentro de ~25%), indicando que o processamento após purificação não foi diferente para estas duas amostras; e em que houve ~3 vezes menos agrupamentos válidos de leitura de sequência de QCT para QCT1 para o Método de Purificação no 1, indicando que o Método de Purificação no 1 resulta em uma perda de amostra significativa (por exemplo, de cfDNA).

[0060] Entretanto, a determinação dos parâmetros relacionados ao sequenciamento S130 pode ser realizada de qualquer forma adequada.

2.3.A Determinação de um Parâmetro de contaminação.

[0061] A determinação de parâmetros relacionados ao sequenciamento S130 pode incluir, adicional ou alternativamente, a determinação de um ou mais parâmetros de contaminação S132. Os parâmetros de contaminação podem incluir um ou mais entre um parâmetro de contaminação cruzada (por exemplo, descrevendo a contaminação cruzada entre as amostras e/ou compartimentos de amostra associados a pelo menos um entre a preparação de biblioteca de sequenciamento e sequenciamento; contaminação cruzada entre diferentes usuários; etc.), um parâmetro de contaminação por transferência (por exemplo, descrevendo a contaminação por transferência entre uma pluralidade de exemplos de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento; etc.), um parâmetro de contaminação por alternância de índice (por exemplo, descrevendo a contaminação por alternância de índice associada aos primers de alternância de índice, etc.). os parâmetros de contaminação podem descrever um grau de erro de designação de índice (por exemplo, associado ao sequenciamento de alto rendimento, etc.), em que um parâmetro de contaminação pode descrever tanto a (por exemplo, um efeito cumulativo de) contaminação cruzada (e/ou outra contaminação adequada) e erro de designação de índice e/ou quaisquer outras características adequadas associadas à preparação de biblioteca de sequenciamento e/ou sequenciamento.

[0062] Em um exemplo, a determinação de um parâmetro de contaminação pode incluir a determinação de uma porcentagem ou fração contaminante total para uma amostra em particular baseada na soma de profundidades de leitura para as sequências contaminantes (por exemplo, encontrada associada à amostra em particular; encontrada em um compartimento de amostra correspondente à amostra; etc.) e dividindo pelo número total de leituras (ou número total de leituras de sequência de molécula de QCT associado aos agrupamentos válidos de leitura de sequência de QCT). Em um exemplo específico, como mostrado na FIGURA 10, os parâmetros de contaminação podem ser determinados, onde caso a sequência de um agrupamento inválido de EMI para o sequenciamento da Amostra A seja descoberto um agrupamento válido de EMI em outra amostra (Amostra B), indica que esta leitura na Amostra A seja devido à contaminação da Amostra B; em que, ao encontrar e somar as profundidades de leitura para todas estas sequências contaminantes e dividindo pelo número total de leituras (ou número total de leituras que mapeia os agrupamentos válidos de EMI), pode-se determinar uma porcentagem ou fração contaminante total para uma amostra em particular; e em que a porcentagem ou fração contaminante total pode ser usada na análise do nível máximo de sensibilidade e especificidade analítica que o ensaio clínico pode relatar, e/ou como um limiar para relatar uma falha de ensaio e/ou resultado sem chamada em vez de um falso positivo; em que, caso um ensaio em particular exija a detecção de 0,1% de frações de alelo, uma fração de contaminação total em, acima ou próximo a 0,1% para aquela amostra pode ser usada para identificar um resultado sem chamada; e em que, alternativamente, o conhecimento das frações de alelo provenientes das amostras contaminantes pode ser usado para adaptar este limiar (ou seja, para a medição de um alelo em particular em uma determinada amostra, uma contaminação de 1% de outra amostra que possua 10% para o mesmo alelo tem o mesmo efeito de contaminação de 10% de uma amostra que possui aquele alelo em 1%).

[0063] Em um exemplo específico, como mostrado nas FIGURAS 4A-4D, a contaminação pode ser medida pela identificação da fonte e destino de leituras de sequência de molécula de QCT (por exemplo, leituras de sequência de EMI, etc.) em cada compartimento de amostra (por exemplo, poço, etc.). Em um exemplo específico, caso a mesma leitura de sequência de molécula de QCT (por exemplo, a mesma leitura de sequência de EMI) seja observada em uma pluralidade de compartimentos de amostra (por exemplo, pluralidade de poços, etc.), a leitura de sequência de molécula de QCT pode ser marcada como originária do compartimento de amostra da pluralidade de compartimentos de amostra, com maior profundidade de leitura e pode ser considerada um contaminante nos outros compartimentos de amostra da pluralidade de compartimentos de amostra (por exemplo, o(s) outro(s) poço(s); etc.). Em um exemplo específico, a determinação de um parâmetro de contaminação pode incluir identificação de um primeiro e um segundo agrupamento de leitura de sequência de QCT correspondente a uma sequência de região de variação compartilhada, em que as designações do primeiro e do segundo agrupamentos de leitura de sequência de QCT são para identificador de amostra diferentes (por exemplo, identificação de diferentes compartimentos de amostra; diferentes amostras; etc.) do conjunto de identificador de amostras; geração de uma comparação de profundidade de leitura entre a primeira profundidade de leitura associada ao primeiro agrupamento de leitura de sequência de QCT e uma segunda profundidade de leitura associada ao segundo agrupamento de leitura de sequência de QCT; e com base na comparação de profundidade de leitura,

determinação do parâmetro de contaminação associado a uma amostra identificada por um identificador de amostra diferente dos identificadores de amostra diferentes.

[0064] Em um exemplo, a determinação de um parâmetro de contaminação pode incluir a determinação de uma primeira impressão digital molecular associada à primeira amplificação em um primeiro caso da preparação de biblioteca de sequenciamento com base em um conjunto de agrupamentos de leitura de sequência de QCT; determinação de uma segunda impressão digital molecular associada à segunda amplificação em um segundo caso da preparação de biblioteca de sequenciamento com base em um conjunto adicional de agrupamentos de leitura de sequência de QCT; e com base em uma comparação entre a primeira e a segunda impressão digital molecular, determinação de uma parâmetro de contaminação por transferência que descreve a contaminação por transferência do primeiro caso para o segundo caso.

[0065] Em uma variação, determinação de um parâmetro de contaminação pode incluir a determinação de parâmetros de contaminação por alternância de índice. Em um exemplo específico, como mostrado nas FIGURAS 13A-13B, as moléculas de QCT podem ser usadas para facilitar a identificação e remoção de contaminante e/ou primers de alternância de índice; em que, como mostrado na FIGURA 13A, cada amostra foi identificada por código de barras por um primer de indexação D7xx correspondente e segue na mesma faixa de células do fluxo de sequenciamento para um experimento de validação; em que descobriu-se que D701 e D707 apresentavam frações contaminantes elevadas que se originam uma da outra, possivelmente devido aos oligos de indexação de

D701 e D707 serem sintetizados na mesma coluna de síntese de oligo, erro de síntese ou alternância de índice, e em que o nível é significativo em 5% e pode afetar os resultados clínicos; e em que, como mostrado na FIGURA 13B, nos ciclos subsequentes com amostras clínicas, os primers de indexação não foram usados, o que reduziu o nível máximo de contaminação abaixo de 1%.

[0066] Em um exemplo específico, como mostrado na FIGURA 14, as moléculas de QCT podem ser usadas para facilitar a medição de níveis verdadeiros de contaminação associados ao suo de primers de índice duplo exclusivos; em que os primers de indexação dupla padrão podem resultar em 0,1% de contaminação (como mostrado pelas Amostras 1 a 9), devido a uma combinação de contaminação verdadeira de amostra para amostra, alternância de índice e/ou contaminação de oligo por indexação; em que espera-se que a indexação dupla exclusiva reduza o efeito de alternância de índice e contaminação de oligo em indexação para 0,001*0,001~ 1-6; mas em que as medições indicam até 0,03% (3-5) frações contaminantes em reações indexadas exclusivas duplas (como mostrado pelas Amostras 10 a 29), o que mais elevado que a contaminação esperada de 1-6, que pode indicar a detecção dos verdadeiros níveis de contaminação em condições laboratoriais para o determinado ensaio.

[0067] No entanto, a determinação dos parâmetros de contaminação S132 pode ser realizada de qualquer forma adequada.

2.3.B Determinação de um Parâmetro de contagem molecular.

[0068] A determinação de parâmetros relacionados ao sequenciamento S130 pode incluir, adicional ou alternativamente, a determinação de um ou mais parâmetros de contagem molecular S134. Os parâmetros de contagem molecular podem incluir um ou mais entre as contagens de molécula alvo (por exemplo, contagem molecular absoluta de moléculas alvo, como na amostra original; contagem absoluta de moléculas endógenas alvo, como na amostra original; etc.); contagens de molécula de referência (por exemplo, contagem absoluta de moléculas endógenas de referência; como na amostra original; etc.); contagens de molécula de QCT (por exemplo, correspondentes a um número de agrupamentos válidos de leitura de sequência de QCT; correspondentes a um número de moléculas de QCT distintas adicionadas aos componentes da amostra; etc.); proporções associadas (por exemplo, fatores de correção; proporções entre uma contagem de molécula e um número associado de leituras de sequência; etc.); e/ou quaisquer outros parâmetros adequados associados a contagens moleculares.

[0069] Os parâmetros de contagem molecular são usados preferencialmente na facilitação de um ou mais diagnósticos, mas podem ser usados adicional ou alternativamente para (por exemplo, como entradas para) quaisquer porções adequadas de realizações do método 100.

[0070] Nas variações, a determinação de um parâmetro de contagem molecular (por exemplo, contagem de molécula alvo; etc.) pode ser baseada em uma proporção de fator de correção determinada com base em uma contagem de molécula de QCT (por exemplo, correspondente a um número de agrupamentos de leitura de sequência de QCT, como um número de agrupamentos válidos de leitura de sequência de QCT; etc.) e leituras de sequência de molécula de QCT (por exemplo, um número de leituras da sequência de moléculas de QCT correspondentes aos agrupamentos de leitura de sequência de QCT; etc.), como pela multiplicação do número de leituras de sequência de molécula alvo pela proporção do fator de correção.

Em um exemplo específico, o número de agrupamentos válidos não contaminantes de leitura de sequência de QCT (por exemplo, agrupamentos restantes de leitura de sequência de QCT após o descarte dos agrupamentos de leitura de sequência de QCT com 2 ou menos leituras, e/ou com qualquer número adequado ou menos de leituras; etc.) podem indicar a contagem de molécula de QCT (por exemplo, o número de moléculas de QCT para um compartimento de amostra em particular; para uma amostra em particular; para um identificador de amostra de particular; etc.). Em um exemplo específico, ao dividir a contagem de molécula de QCT pelas leituras de sequenciamento resultantes das moléculas de QCT correspondentes, pode-se encontrar o fator de correção, em que o fator de correção multiplicado pelas leituras de sequenciamento pertencentes às moléculas alvo (por exemplo, no compartimento de amostra em particular; a partir da amostra em particular; associadas aos identificador de amostra em particular; etc.) resultaria em uma contagem de molécula alvo (por exemplo, um número absoluto de moléculas iniciais alvo biológicas que eram acessíveis pelo ensaio para amplificação; etc.). Em um exemplo, a profundidade média do sequenciamento de QCT usada na determinação da contagem absoluta das moléculas endógenas alvo e da contagem absoluta de moléculas endógenas de referência é determinada separadamente de seus QCTs correspondentes.

[0071] Alternativamente, em uma variação de uma realização, o limiar de profundidade de leitura para o descarte de agrupamentos de leitura de sequência de QCT (por exemplo, para determinação dos parâmetros de contagem molecular e/ou parâmetros adequados relacionados ao sequenciamento; etc.) pode ser determinado de forma adaptativa com base nas características da distribuição de profundidade da leitura de sequência de molécula de QCT (por exemplo, leitura de sequência de EMI). Por exemplo, pode-se estabelecer um limiar para cada amostra indexada ao computar a profundidade média de leitura de EMI dentro de cada amostra, computando a raiz quadrada desta profundidade média de leitura e descartando os agrupamentos de leitura de sequência de QCT com profundidade de leitura abaixo da raiz quadrada da profundidade média de leitura. Adicional ou alternativamente, os limiares de profundidade de leitura para o descarte de agrupamentos de leitura de sequência de QCT podem ser computados de qualquer forma.

[0072] No entanto, a determinação dos parâmetros de contagem molecular S134 pode ser realizada de qualquer forma adequada.

2.4 Facilitação de Diagnóstico.

[0073] As realizações do método 100 pode incluir, adicional ou alternativamente, a facilitação de diagnóstico S140, que pode funcionar para auxiliar, determinar, prover e/ou de outro modo facilitar um ou mais diagnósticos para uma ou mais condições.

[0074] A facilitação de um ou mais diagnósticos pode incluir qualquer um ou mais entre a determinação de um ou mais diagnósticos (por exemplo, com base em um ou mais parâmetros relacionados ao sequenciamento; etc.); provisão de um ou mais diagnósticos (por exemplo, a um ou mais usuários; a um ou mais cuidadores, como para o uso por um ou mais cuidadores ao prover diagnósticos médicos aos pacientes; etc.); auxílio de um ou mais diagnósticos (por exemplo, provendo um ou mais parâmetros relacionados ao sequenciamento e/ou outros parâmetros adequados a um ou mais cuidadores e/ou outras entidades adequadas, para uso na determinação de um diagnóstico, como na combinação com outros dados; etc.); e/ou quaisquer processos adequados associados aos diagnósticos. Por exemplo, o auxílio do diagnóstico pode incluir a provisão de um parâmetro de contaminação (por exemplo, a um usuário; a um cuidador; etc.) adaptado para uso na determinação de um resultado diagnóstico para os ensaios associados a pelo menos um entre exame pré-natal não invasivo e biópsias de fluidos. Em um exemplo, a determinação de uma contagem de molécula alvo (e/ou parâmetros adequados relacionados ao sequenciamento, etc.) podem incluir a determinação da contagem de molécula alvo (e/ou de parâmetros adequados relacionados ao sequenciamento, etc.) para facilitação de diagnóstico associado a pelo menos entre exame pré-natal não invasivo e biópsias de fluidos.

[0075] Nas variações, a facilitação de diagnóstico pode incluir facilitação de diagnóstico pré-natal (por exemplo, associado a exame pré-natal não invasivo; para distúrbios genéticos associados e/ou condições adequadas; etc.). Em um exemplo, a facilitação de diagnóstico pode incluir a facilitação de diagnóstico pré-natal de um ou mais distúrbios genéticos (por exemplo, distúrbios genéticos únicos, anormalidades cromossômicas, etc.) com base em uma parâmetro de contagem de molécula alvo e um parâmetro de contagem molecular de referência (por exemplo, com base em uma comparação entre uma contagem absoluta de sequências endógenas alvo e uma contagem absoluta de sequências endógenas de referência; etc.).

[0076] Em variações, a facilitação de diagnóstico pode incluir a facilitação de diagnóstico de um ou mais distúrbios genéticos únicos (e/ou distúrbios genéticos adequados). Por exemplo, determinação de uma contagem absoluta de moléculas endógenas alvo pode incluir a determinação da contagem absoluta das moléculas endógenas alvo que incluem uma mutação associada ao distúrbio genético único (por exemplo, com base na divisão da contagem de leitura total para as moléculas endógenas alvo por uma profundidade média do sequenciamento de QCT, como derivado pela divisão de um número de leituras de sequência de molécula de QCT pelo número exclusivo de moléculas de QCT; etc.), em que a determinação de uma contagem absoluta das moléculas endógenas de referência pode incluir a determinação da contagem absoluta das moléculas endógenas de referência que carecem de mutação (por exemplo, com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT, etc.); e facilitação de diagnóstico pré-natal do distúrbio genético do distúrbio genético único com base na (por exemplo, uma comparação entre, etc.) contagem absoluta de sequências endógenas alvo e na contagem absoluta de sequências endógenas de referência. Em exemplos específicos, como mostrado nas FIGURAS 15A-15D, o número de alelos da doença e não doença pode ser medido e comparado em uma amostra para determinar o genótipo de um feto em desenvolvimento a partir do sangue materno; em que a FIGURA 15A inclui o número de moléculas HbS (hemoglobina mutada) e HbA (hemoglobina normal) conforme medido pelas moléculas de QCT em amostras de traço falciforme (SCT) onde esperam-se que os alelos de HbS e HbA estejam na mesma frequência, representando casos onde tanto a gestante quanto o feto em desenvolvimento são heterozigotos para o distúrbio; em que a FIGURA 15B inclui o número de moléculas de HbS e HbA conforme medido pelos QCTs em amostras de anemia falciforme (SCD) SCT+10% (SCD), representando casos em que a gestante é a portadora para o distúrbio, e o feto em desenvolvimento possui o alelo da doença herdada a partir de ambos os pais e, portanto, possui a doença; em que a FIGURA 15C inclui um número de moléculas e medição de fração fetal (por exemplo, medição em até 9 locais onde a mãe e o feto diferem em genótipo) para uso no cálculo da probabilidade posterior de que o feto tenha herdado do distúrbio por uma análise de dosagem de mutação relativa (RMD); e em que a FIGURA 15D inclui a média e os intervalos de confiança de 95% para 0% vs. 10% de SCD m adição à amostra de SCT (por exemplo, representando portador vs. feto com doença a partir de uma gestante que é uma portadora do distúrbio). No entanto, a facilitação de diagnósticos de distúrbios genéticos únicos pode ser realizada de qualquer forma adequada.

[0077] Nas variações, a facilitação de diagnóstico pode incluir a facilitação de diagnóstico de uma ou mais anormalidades cromossômicas (e/ou distúrbios genéticos adequados). Por exemplo, a determinação da contagem absoluta das moléculas endógenas alvo pode incluir a determinação da contagem absoluta das moléculas endógenas alvo associadas a um primeiro cromossomo (por exemplo, com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT; etc.), em que a determinação da contagem absoluta das moléculas endógenas de referência pode incluir a determinação da contagem absoluta das moléculas endógenas de referência associadas a um segundo cromossomo (por exemplo, com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT, etc.); e facilitação de diagnóstico pré-natal da anormalidade cromossômica com base (por exemplo, uma comparação entre, etc.) na contagem absoluta de sequências endógenas alvo e na contagem absoluta de sequências endógenas de referência.

Em exemplo específicos, como mostrado nas FIGURAS 16A-16B, o número de Chr21 e outro cromossomo pode ser contabilizados de forma similar usando as moléculas de QCT para determinar se há um número em excesso de Chr 21 (por exemplo, em comparação a outro cromossomo) para indicar que o apresenta síndrome de Down; em que para uma diferença de 3 vs. 2 cromossomos sendo contados, o sinal pode ser metade de um distúrbio recessivo herdado (por exemplo, HbSS vs HbAS é um sinal de 2 vs 1; 100% de aumento vs. 50% de aumento), o que pode indicar uma exigência de mais de um local em cada cromossomo a ser contado para melhora da precisão na medição de síndrome de Down no feto em desenvolvimento a partir do DNA circulante no sangue materno; e em que as porções de realizações do método 100 pode ser, adicional ou alternativamente, usadas para facilitar os diagnósticos para outras mutações de novo e/ou anormalidades cromossômicas como Trissomia 18 e/ou síndrome de DiGeorge.

[0078] Nas variações, a facilitação de diagnóstico pode incluir a facilitação de diagnóstico de uma ou mais microdeleções cromossômicas. Por exemplo, a determinação da contagem absoluta das moléculas endógenas alvo pode incluir a contagem absoluta das moléculas endógenas alvo associadas a uma região de microdeleção, com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT, em que a determinação da contagem absoluta das moléculas endógenas de referência pode incluir a determinação da contagem absoluta das moléculas endógenas de referência associadas a uma segunda região cromossômica que não espera- se ter um microdeleção, com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT, e em que a facilitação do diagnóstico (por exemplo, o diagnóstico pré- natal, etc.) do distúrbio genético pode incluir a facilitação do diagnóstico (por exemplo, diagnóstico pré-natal; etc.) da microdeleção cromossômica com base na comparação.

[0079] Nas variações, a facilitação de diagnóstico pode incluir a facilitação de diagnóstico de uma ou mais variações do número de cópia. Por exemplo, a determinação da contagem absoluta das moléculas endógenas alvo pode incluir a determinação da contagem absoluta das moléculas endógenas alvo associadas a uma região que pode apresentar variação do número de cópia, com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT, em que a determinação da contagem absoluta das moléculas endógenas de referência pode incluir a determinação da contagem absoluta das moléculas endógenas de referência associadas a uma região que não se espera apresentar uma variação do número de cópia, com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT, e em que a facilitação do diagnóstico (por exemplo, diagnóstico pré-natal) do distúrbio genético pode incluir a facilitação do diagnóstico (por exemplo, diagnóstico pré-natal) da variação do número de cópia com base na comparação.

[0080] Adicional ou alternativamente, a facilitação de diagnósticos pode ser para quaisquer condições adequadas.

[0081] Como mostrado nas FIGURAS 15C e 16B, a facilitação de diagnóstico pode ser baseada em uma ou mais medições de fração fetal. Por exemplo, a facilitação do diagnóstico pré-natal pode incluir a facilitação do diagnóstico pré-natal do distúrbio genético baseado em uma medição de fração fetal, na contagem absoluta de sequências endógenas alvo e na contagem absoluta de sequências endógenas de referência. No entanto, o uso de medições de fração fetal pode ser realizado de qualquer forma adequada para quaisquer processos adequados das realizações do método 100, e facilitação de diagnóstico S140 pode ser realizada de qualquer forma adequada.

[0082] No entanto, as realizações do método 100 podem ser realizadas de qualquer forma adequada.

[0083] As realizações do método 100 e/ou sistema 200 pode incluir toda combinação e permutação dos diversos componentes do sistema e os diversos processos do método, inclusive quaisquer variantes (por exemplo, realizações, variações, exemplos, exemplos específicos, figuras, etc.), em que as porções de realizações do método 100 e/ou processos aqui descritas podem ser realizadas de forma assíncrona (por exemplo, sequencialmente), concomitante (por exemplo, em paralelo) ou em qualquer outra ordem adequada e/ou uso de um ou mais casos, elementos, componentes de e/ou outros aspectos do sistema 200 e/ou outras entidades aqui descritas.

[0084] Quaisquer das variantes aqui descritas (por exemplo, realizações, variações, exemplos, exemplos específicos, figuras, etc.) e/ou qualquer porção das variantes aqui descritas podem ser, adicional ou alternativamente, combinadas, agregadas, excluídas, usadas, realizadas em série, realizadas em paralelo e/ou de outro modo aplicadas.

[0085] As porções de realizações do método 100 e/ou sistema 200 podem ser incorporadas e/ou implementadas pelo menos em parte como uma máquina configurada para receber mídia de leitura por computador que armazena instruções de leitura por computador. As instruções podem ser executadas por componentes executáveis por computador que podem ser integrados aos sistema. A mídia de leitura por computador pode ser armazenada em qualquer média de leitura por computador adequada como RAMs, ROMs, memória flash, EEPROMs, dispositivos ópticos (CD ou DVD), discos rígidos, disquetes,

ou qualquer dispositivo adequado. O componente executável por computador pode ser um processador geral ou específico à aplicação, mas qualquer hardware dedicado adequado ou dispositivo de combinação de hardware/firmware pode, adicional ou alternativamente, executar as instruções.

[0086] Conforme o técnico no assunto reconhecerá a partir da descrição detalhada anterior e a partir das figuras e reivindicações, podem-se realizadas modificações e alterações às realizações do método 100, sistema 200 e/ou variantes sem se desviar do escopo definido nas reivindicações.E

Claims

REIVINDICAÇÕES

1. MÉTODO PARA FACILITAR O DIAGNÓSTICO PRÉ-NATAL DE

UM DISTÚRBIO GENÉTICO A PARTIR DE UMA AMOSTRA MATERNA ASSOCIADA À GESTANTE, caracterizado por compreender: adição à amostra materna de um conjunto de moléculas de modelo para controle de qualidade (QCT) associadas ao distúrbio genético, o conjunto de moléculas de QCT compreendendo: - regiões associadas ao alvo com similaridade de sequência com uma região da sequência alvo das moléculas endógenas alvo, e - regiões de variação com disparidade de sequência com uma região de sequência das moléculas endógenas alvo; geração de uma mistura co-amplificada com base na co-amplificação do conjunto de moléculas de QCT e moléculas de ácido nucleico compreendendo a região da sequência alvo; sequenciamento da mistura co-amplificada; determinação computacional de um número único do conjunto de moléculas de QCT, com base no número das regiões de variação que são distintas e detectadas a partir das leituras da sequência de moléculas de QCT decorrentes do sequenciamento, em que as leituras da sequência de moléculas de QCT correspondem ao conjunto de moléculas de QCT; cálculo da profundidade média do sequenciamento de QCT com base na divisão de um número de leituras da sequência de moléculas de QCT pelo número único das moléculas de QCT; determinação de uma contagem absoluta das moléculas endógenas alvo com base na divisão de uma contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT;

determinação de uma contagem absoluta das moléculas endógenas de referência com base na divisão de uma contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT; e facilitação do diagnóstico pré-natal do distúrbio genético com base em uma comparação entre a contagem absoluta de sequências endógenas alvo e a contagem absoluta de sequências endógenas de referência.

2. MÉTODO, de acordo com a reivindicação 1, sendo o distúrbio genético caracterizado por compreender um distúrbio genético único, em que a determinação da contagem absoluta das moléculas endógenas alvo compreende a determinação da contagem absoluta das moléculas endógenas alvo compreendendo uma mutação associada ao distúrbio genético único, com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT; em que a determinação da contagem absoluta das moléculas endógenas de referência compreende a determinação da contagem absoluta das moléculas endógenas de referência desprovidas de mutação, com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT; e em que a facilitação do diagnóstico pré-natal do distúrbio genético compreende facilitar o diagnóstico pré- natal do distúrbio genético único com base na comparação.

3. MÉTODO, de acordo com a reivindicação 1, sendo o distúrbio genético caracterizado por compreender uma anormalidade cromossômica,

em que a determinação da contagem absoluta das moléculas endógenas alvo compreende a determinação da contagem absoluta das moléculas endógenas alvo associadas a um primeiro cromossomo com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT; em que a determinação da contagem absoluta das moléculas endógenas de referência compreende a determinação da contagem absoluta das moléculas endógenas de referência associadas a um segundo cromossomo com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT; e em que a facilitação do diagnóstico pré-natal do distúrbio genético compreende a facilitação do diagnóstico pré-natal das anormalidade cromossômica baseada na comparação.

4. MÉTODO, de acordo com a reivindicação 1, sendo o distúrbio genético caracterizado por compreender uma microdeleção cromossômica, em que a determinação da contagem absoluta das moléculas endógenas alvo compreende a determinação da contagem absoluta das moléculas endógenas alvo associadas a uma região de microdeleção com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT, em que a determinação da contagem absoluta das moléculas endógenas de referência compreende a determinação da contagem absoluta das moléculas endógenas de referência associadas a uma segunda região cromossômica que não se espera ter uma microdeleção com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT; e em que a facilitação do diagnóstico pré-natal do distúrbio genético compreende a facilitação do diagnóstico pré-natal da microdeleção cromossômica baseada na comparação.

5. MÉTODO, de acordo com a reivindicação 1, sendo o distúrbio genético caracterizado por compreender uma variação do número de cópia, em que a determinação da contagem absoluta das moléculas endógenas alvo compreende a determinação da contagem absoluta das moléculas endógenas alvo associadas a uma região que pode ter variação do número de cópia com base na divisão da contagem de leitura total para as moléculas endógenas alvo pela profundidade média do sequenciamento de QCT; em que a determinação da contagem absoluta das moléculas endógenas de referência compreende a determinação da contagem absoluta das moléculas endógenas de referência associadas a uma região que não se espera ter uma variação do número de cópia com base na divisão da contagem de leitura total para as moléculas endógenas de referência pela profundidade média do sequenciamento de QCT; e em que a facilitação do diagnóstico pré-natal do distúrbio genético compreende a facilitação do diagnóstico pré-natal da variação do número de cópia com base na comparação.

6. MÉTODO, de acordo com a reivindicação 1, caracterizado pela profundidade média do sequenciamento de QCT usada na determinação da contagem absoluta das moléculas endógenas alvo e da contagem absoluta de moléculas endógenas de referência ser determinada separadamente de seus QCTs correspondentes.

7. MÉTODO, de acordo com a reivindicação 1, sendo a facilitação do diagnóstico pré-natal caracterizada por compreender a facilitação do diagnóstico pré-natal do distúrbio genético com base em uma medição de fração fetal, na contagem absoluta de sequências endógenas alvo e na contagem absoluta de sequências endógenas de referência.

8. MÉTODO PARA IDENTIFICAÇÃO DE CONTAMINAÇÃO

ASSOCIADA A PELO MENOS UM ENTRE PREPARAÇÃO DE BIBLIOTECA DE SEQUENCIAMENTO E SEQUENCIAMENTO DE ALTO RENDIMENTO, o método caracterizado por compreender: geração de um conjunto de moléculas de modelo para controle de qualidade (QCT), cada molécula de QCT compreendendo: - região associada ao alvo com similaridade de sequência com uma região da sequência alvo de um alvo biológico, e - região de variação com disparidade de sequência com uma região de sequência do alvo biológico; e determinação computacional de um conjunto de agrupamentos de leitura de sequência de QCT com base nas regiões de variação do conjunto de moléculas de QCT; - em que o conjunto de agrupamentos de leitura de sequência de QCT compreende leituras de sequência de molécula de QCT derivadas do sequenciamento de alto rendimento correspondendo a um conjunto de misturas de QCT gerado com base no conjunto de moléculas de QCT e em um conjunto de amostras compreendendo o alvo biológico; e

- em que a preparação de biblioteca de sequenciamento compreende co-amplificação do conjunto de moléculas de QCT e das moléculas de ácido nucleico compreendendo o alvo biológico, com base na similaridade de sequência da região associada ao alvo e da região da sequência alvo do alvo biológico; e com base no conjunto de agrupamentos de leitura de sequência de QCT, determinação do parâmetro de contaminação descrevendo a contaminação associada a pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento de alto rendimento.

9. MÉTODO, de acordo com a reivindicação 8, sendo a determinação computacional do conjunto de agrupamentos de leitura de sequência de QCT caracterizada por compreender: agrupamento de uma primeira leitura de sequência de molécula de QCT e uma segunda leitura de sequência de molécula de QCT em um agrupamento de leitura de sequência de QCT do conjunto de agrupamentos de leitura de sequência de QCT com base em uma região de variação similaridade de sequência que satisfaça uma primeira condição; e para cada agrupamento de leitura de sequência de QCT do conjunto de agrupamentos de leitura de sequência de QCT, determinação de uma designação do agrupamento de leitura de sequência de QCT para um identificador de amostra de um conjunto de identificadores de amostra que identificam o conjunto de amostras; em que a determinação do parâmetro de contaminação compreende a determinação do parâmetro de contaminação com base no conjunto de agrupamentos de leitura de sequência de QCT e nas designações dos agrupamentos de leitura de sequência de QCT para os identificadores de amostra do conjunto de identificadores de amostra.

10. MÉTODO, de acordo com a reivindicação 9, sendo a determinação do parâmetro de contaminação caracterizada por compreender: identificação de um primeiro e um segundo agrupamento de leitura de sequência de QCT correspondendo a uma sequência de região de variação compartilhada, em que as designações do primeiro e do segundo agrupamentos de leitura de sequência de QCT são para os identificadores de amostras diferentes do conjunto de identificadores de amostra; geração de uma comparação de profundidade de leitura entre uma primeira profundidade de leitura associada ao primeiro agrupamento de leitura de sequência de QCT e uma segunda profundidade de leitura associada ao segundo agrupamento de leitura de sequência de QCT; e com base na comparação de profundidade de leitura, determinação do parâmetro de contaminação associado a uma amostra identificada por um identificador de amostra diferente dos identificadores de amostra diferentes.

11. MÉTODO, de acordo com a reivindicação 9, sendo o agrupamento da primeira e da segunda leituras de sequência de QCT caracterizado por compreender agrupamento da primeira e da segunda leituras de sequência de QCT no agrupamento de leitura de sequência de QCT com base na similaridade de sequência de região de variação de menos de três substituições de ponto, e com base em uma profundidade de leitura associada ao agrupamento de leitura de sequência de QCT que satisfaça uma segunda condição.

12. MÉTODO, de acordo com a reivindicação 8, sendo a determinação do parâmetro de contaminação caracterizada por compreender: determinação de uma impressão digital molecular associada à primeira amplificação em um primeiro exemplo da preparação de biblioteca de sequenciamento, com base no conjunto de agrupamentos de leitura de sequência de QCT; determinação de uma segunda impressão digital molecular associada à segunda amplificação em um segundo exemplo da preparação de biblioteca de sequenciamento, com base em um conjunto adicional de agrupamentos de leitura de sequência de QCT; e com base em uma comparação entre a primeira e a segunda impressões digitais moleculares, determinação de um parâmetro de contaminação de transferência descrevendo a contaminação de transferência do primeiro exemplo para o segundo exemplo.

13. MÉTODO, de acordo com a reivindicação 8, caracterizado pelo parâmetro de contaminação descrever um grau de erro de designação de índice associado ao sequenciamento de alto rendimento.

14. MÉTODO, de acordo com a reivindicação 13, caracterizado pelo parâmetro de contaminação ser adaptado para uso na determinação de um resultado diagnóstico para análises associadas a pelo menos um entre exame pré-natal não invasivo e biópsias de fluido.

15. MÉTODO, de acordo com a reivindicação 8, caracterizado por compreender ainda geração de uma única biblioteca de QCT compreendendo o conjunto de moléculas de QCT, em que a única biblioteca de QCT é adaptada para implementação em um único estágio de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento de alto rendimento, de menos de 0,00001 nanograma de moléculas de QCT amplificáveis para cada amostra do conjunto de amostras.

16. MÉTODO, de acordo com a reivindicação 8, sendo cada região de variação do conjunto de moléculas de QCT caracterizada por compreender uma região de identificador molecular incorporado (EMI) compreendendo um conjunto de bases "N" variáveis, em que cada base "N" é selecionada a partir de qualquer um entre uma base "A", uma base "G", uma base "T" e uma base "C"; em que cada molécula de QCT do conjunto de moléculas de QCT compreende ainda uma região de EMI adicional compreendendo um conjunto adicional de bases "N" variáveis, em que a região de EMI adicional é separada da região de EMI por uma região de sequência da molécula de QCT, em que o conjunto de bases "N" variáveis e o conjunto adicional de bases "N" variáveis compreende, cada um, mais de três bases "N"; e que a determinação do parâmetro de contaminação compreende a determinação do parâmetro de contaminação com base no conjunto de agrupamentos de leitura de sequência de QCT derivado com base nas regiões EMI e nas regiões EMI adicionais do conjunto de moléculas de QCT.

17. MÉTODO PARA CARACTERIZAÇÃO ASSOCIADA A PELO

MENOS UM ENTRE PREPARAÇÃO DE BIBLIOTECA DE SEQUENCIAMENTO E SEQUENCIAMENTO, caracterizado por compreender:

geração de um conjunto de moléculas de modelo para controle de qualidade (QCT), cada molécula de QCT compreendendo uma região de variação; determinação computacional de um conjunto de agrupamentos de leitura de sequência de QCT com base nas regiões de variação do conjunto de moléculas de QCT, em que o conjunto de agrupamentos de leitura de sequência de QCT compreende leituras de sequência de molécula de QCT derivadas do sequenciamento correspondente a uma mistura de QCT gerada com base no conjunto de moléculas de QCT e uma amostra compreendendo o alvo biológico; e com base no conjunto de agrupamentos de leitura de sequência de QCT, determinação de um parâmetro relacionado ao sequenciamento associado a pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento.

18. MÉTODO, de acordo com a reivindicação 17, sendo cada molécula de QCT caracterizada por compreender uma primeira região de identificador de QCT compartilhada entre o conjunto de moléculas de QCT e adaptado para identificar a molécula de QCT, em que o método compreende ainda a geração de um conjunto de moléculas de QCT adicionais, cada molécula de QCT adicional compreendendo uma segunda região do identificador de QCT compartilhada entre o conjunto de moléculas de QCT adicionais e adaptada para identificar as moléculas de QCT adicionais; e em que a determinação computacional do conjunto de agrupamentos de leitura de sequência de QCT compreende a determinação do conjunto de agrupamentos de leitura de sequência de QCT com base na primeira e na segunda regiões do identificador de QCT.

19. MÉTODO, de acordo com a reivindicação 18, caracterizado pelo conjunto de moléculas de QCT ser adaptado para implementação de um primeiro estágio de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento, em que o conjunto de moléculas de QCT adicionais é adaptado para implementação em um segundo estágio de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento; em que a determinação computacional do conjunto de agrupamentos de leitura de sequência de QCT compreende: - determinação de um primeiro subconjunto do conjunto de agrupamentos de leitura de sequência de QCT, em que o primeiro subconjunto corresponde à primeira região do identificador de QCT e é associado ao primeiro estágio; e - determinação de um segundo subconjunto do conjunto de agrupamentos de leitura de sequência de QCT, em que o subconjunto corresponde à segunda região do identificador de QCT e é associado ao segundo estágio; e em que a determinação do parâmetro relacionado ao sequenciamento compreende a determinação de um parâmetro de monitoramento de amostra associado à perda de amostra, com base no primeiro e no segundo subconjuntos do conjunto de agrupamentos de leitura de sequência de QCT.

20. MÉTODO, de acordo com a reivindicação 18, sendo a determinação do parâmetro relacionado ao sequenciamento caracterizada por compreender:

determinação de uma primeira contagem absoluta e uma segunda contagem absoluta correspondendo ao conjunto de moléculas de QCT e ao conjunto de moléculas de QCT adicionais, respectivamente, com base no conjunto de agrupamentos de leitura de sequência de QCT; e determinação de pelo menos um parâmetro de erro de pipetagem e um parâmetro de erro de quantificação com base na primeira e na segunda contagens absolutas.

21. MÉTODO, de acordo com a reivindicação 18, sendo a determinação do parâmetro relacionado ao sequenciamento caracterizada por compreender: identificação das leituras de sequência de QCT que não são designadas a um agrupamento de leitura de sequência de QCT do conjunto de agrupamentos de leitura de sequência de QCT; e determinação de pelo menos uma taxa de erro de sequenciamento e uma taxa de erro de polimerase a partir de um número das leituras de sequência de QCT que não são designadas e um número total de leituras de sequência de QCT.

22. MÉTODO, de acordo com a reivindicação 18, sendo a região de variação de cada molécula de QCT caracterizada por compreender uma primeira região do identificador molecular incorporado (EMI) separada de uma segunda região de EMI pelo menos pela primeira região do identificador de QCT, em que cada molécula de QCT adicional compreende uma primeira região de EMI adicional separada de uma segunda região de EMI adicional pelo menos pela segunda região do identificador de QCT; em que a primeira, a segunda, a primeira adicional e a segunda regiões adicionais de EMI compreende um conjunto de bases "N" variáveis, e em que cada base "N" é selecionada a partir de qualquer uma entre uma base "A", uma base "G", uma base "T" e uma base "C"; e em que a determinação computacional do conjunto de agrupamentos de leitura de sequência de QCT compreende a determinação do conjunto de agrupamentos de leitura de sequência de QCT com base na primeira e na segunda regiões do identificador de QCT, e na primeira, na segunda, na primeira adicional e na segunda regiões adicionais de EMI.

23. MÉTODO, de acordo com a reivindicação 22, sendo, para cada molécula de QCT, a sequência de molécula de QCT correspondente caracterizada pela similaridade de sequência total com um primeiro modelo de sequência do alvo biológico, exceto a primeira região do identificador de QCT, a primeira região de EMI e a segunda região de EMI; em que, para cada molécula de QCT adicional, a sequência de molécula de QCT adicional correspondente compreende a similaridade de sequência total com um segundo modelo de sequência, exceto a segunda região do identificador de QCT, a primeira região de EMI adicional e a segunda região de EMI adicional.

24. MÉTODO, de acordo com a reivindicação 17, caracterizado por compreender ainda, cada molécula de QCT do conjunto de moléculas de QCT, uma região associada ao alvo com similaridade de sequência com uma região da sequência alvo do alvo biológico; em que a preparação de biblioteca de sequenciamento compreende co-amplificação do conjunto de moléculas de QCT e moléculas de ácido nucleico compreendendo o alvo biológico,

com base na similaridade de sequência da região associada ao alvo e na região da sequência alvo do alvo biológico; e em que a determinação do parâmetro relacionado ao sequenciamento compreende a determinação de uma contagem de molécula alvo descrevendo um número de moléculas do alvo biológico associado ao sequenciamento, com base no conjunto de agrupamentos de leitura de sequência de QCT.

25. MÉTODO, de acordo com a reivindicação 24, sendo a determinação do conjunto de agrupamentos de leitura de sequência de QCT caracterizada por compreender determinar um subconjunto filtrado de agrupamentos de leitura de sequência de QCT com base nas profundidades de leitura correspondendo ao subconjunto filtrado de agrupamentos de leitura de sequência de QCT, em que a determinação da contagem de molécula alvo compreende: - determinação de uma contagem de molécula de QCT com base no subconjunto filtrado de agrupamentos de leitura de sequência de QCT; - determinação de uma proporção do fator de correção com base na contagem de molécula de QCT e leituras da sequência de moléculas de QCT; e - determinação da contagem de molécula alvo com base na proporção do fator de correção e leituras da sequência de molécula alvo derivadas do sequenciamento, das leituras de sequência de molécula alvo associadas ao alvo biológico.

26. MÉTODO, de acordo com a reivindicação 25, caracterizado por compreender ainda determinar adaptavelmente um limiar de profundidade de leitura com base nas características de distribuição de profundidade de leitura para as leituras da sequência de moléculas de QCT, em que a determinação do subconjunto filtrado de agrupamentos de leitura de sequência de QCT compreende determinação do subconjunto filtrado com base na satisfação do limiar profundidade de leitura adaptavelmente determinado pela profundidade de leituras.

27. MÉTODO, de acordo com a reivindicação 25, caracterizado por cada profundidade de leitura das profundidades de leitura corresponder a mais de vinte leituras para o agrupamento de leitura de sequência de QCT correspondente do subconjunto filtrado de agrupamentos de leitura de sequência de QCT.

28. MÉTODO, de acordo com a reivindicação 24, sendo a determinação da contagem de molécula alvo caracterizada por compreender a determinação da contagem de molécula alvo para facilitação de diagnóstico associada a pelo menos um entre exame pré-natal não invasivo e biópsias de fluidos.

29. MÉTODO, de acordo com a reivindicação 17, sendo a determinação do parâmetro relacionado ao sequenciamento caracterizada por compreender a determinação de um parâmetro de contaminação compreendendo pelo menos um entre: um parâmetro de contaminação cruzada que descreve a contaminação cruzada entre os compartimentos de amostra associados a pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento, um parâmetro de contaminação por transferência que descreve a contaminação por transferência entre uma pluralidade de exemplos de pelo menos um entre a preparação de biblioteca de sequenciamento e o sequenciamento, e parâmetro de contaminação por alternância em índice que descreve a contaminação por alternância de índice associada aos primers de alternância de índice.

30. MÉTODO, de acordo com a reivindicação 29, caracterizado pelo conjunto de moléculas de QCT ser adaptado para o sequenciamento, em que a geração do conjunto de moléculas de QCT compreende: - amplificação de um primeiro subconjunto de moléculas de QCT do conjunto de moléculas de QCT; e - amplificação de um segundo subconjunto de moléculas de QCT do conjunto de moléculas de QCT, em que as leituras do sequenciamento de molécula de QCT são derivadas do sequenciamento que corresponde a: mistura de QCT gerada com base no primeiro subconjunto de moléculas de QCT e na amostra compreendendo o alvo biológico; e mistura adicional de QCT gerada com base no segundo subconjunto de moléculas de QCT e em uma amostra adicional compreendendo o alvo biológico, em que a amostra e a amostra adicional correspondem, respectivamente, a um primeiro compartimento de amostra e um segundo compartimento de amostra dos compartimentos de amostra.