ES2969957T3 - Corrección de errores del código de barras del receptor inmunitario - Google Patents

Corrección de errores del código de barras del receptor inmunitario Download PDF

Info

Publication number
ES2969957T3
ES2969957T3 ES18786527T ES18786527T ES2969957T3 ES 2969957 T3 ES2969957 T3 ES 2969957T3 ES 18786527 T ES18786527 T ES 18786527T ES 18786527 T ES18786527 T ES 18786527T ES 2969957 T3 ES2969957 T3 ES 2969957T3
Authority
ES
Spain
Prior art keywords
sequences
target
sequence
molecular
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18786527T
Other languages
English (en)
Inventor
Eleen Shum
Jue Fan
Jennifer Tsai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Becton Dickinson and Co
Original Assignee
Becton Dickinson and Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Becton Dickinson and Co filed Critical Becton Dickinson and Co
Application granted granted Critical
Publication of ES2969957T3 publication Critical patent/ES2969957T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6848Nucleic acid amplification reactions characterised by the means for preventing contamination or increasing the specificity or sensitivity of an amplification reaction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2549/00Reactions characterised by the features used to influence the efficiency or specificity
    • C12Q2549/10Reactions characterised by the features used to influence the efficiency or specificity the purpose being that of reducing false positive or false negative signals
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/185Nucleic acid dedicated to use as a hidden marker/bar code, e.g. inclusion of nucleic acids to mark art objects or animals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioethics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

En el presente documento se describen métodos y sistemas para determinar la aparición de objetivos. En algunas realizaciones, el método comprende: colapsar secuencias putativas de la diana; colapsar secuencias de marcadores moleculares asociadas con las supuestas secuencias de la diana; y estimar la aparición de la diana, en donde la aparición de la diana estimada se correlaciona con la aparición de secuencias marcadoras moleculares asociadas con las supuestas secuencias de la diana en los datos de secuenciación después de colapsar la aparición de las supuestas secuencias de la diana y la aparición de secuencias de etiquetas moleculares de ruido. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Corrección de errores del código de barras del receptor inmunitario
ANTECEDENTES
Campo
La presente divulgación se refiere de manera general al campo de la codificación con códigos de barras moleculares y, más particularmente, a la corrección de errores de sustitución y no sustitución usando marcadores moleculares.
Descripción de la técnica relacionada
Los métodos y técnicas como la codificación con códigos de barras (incluyendo la codificación con códigos de barras estocásticos) son útiles para el análisis celular, en particular para descifrar los perfiles de expresión génica para determinar los estados de las células usando, por ejemplo, la transcripción inversa, la amplificación de la reacción en cadena de la polimerasa (PCR) y la secuenciación de próxima generación (NGS). Sin embargo, estos métodos y técnicas pueden introducir errores como errores de sustitución (por ejemplo, errores de sustitución que implican una o más sustituciones de bases) y errores de no sustitución (por ejemplo, errores de cruce de cebadores y errores de quimera de PCR), que si no se corrigen pueden dar como resultado recuentos moleculares sobreestimados. Por tanto, se necesitan métodos y técnicas capaces de corregir varios errores para obtener recuentos moleculares precisos.
SUMARIO
La invención se refiere a un método implementado por ordenador para corregir errores en los datos de secuenciación, como se define en las reivindicaciones adjuntas.
Aspectos adicionales también divulgados en la presente incluyen métodos para determinar apariciones de objetivos. En algunas realizaciones, el método comprende: (a) codificar con código de barras (por ejemplo, codificar con código de barras estocásticamente) una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear una pluralidad de objetivos codificados con barras (por ejemplo, objetivos codificados con códigos de barras estocásticamente), en donde cada uno de la pluralidad de códigos de barras comprende un marcador celular y un marcador molecular, en donde los marcadores moleculares de por lo menos dos códigos de barras de la pluralidad de códigos de barras comprenden secuencias de marcadores moleculares diferentes, y en donde por lo menos dos códigos de barras de la pluralidad de códigos de barras comprenden marcadores celulares con una secuencia de marcador celular idéntica; (b) obtener datos de secuenciación de los objetivos codificados con código de barras; y (c) para por lo menos un objetivo de la pluralidad de objetivos: (i) identificar secuencias putativas del objetivo en los datos de secuenciación; (ii) contar apariciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación identificados en (i); (iii) identificar agrupaciones de las secuencias putativas del objetivo; (iv) colapsar los datos de secuenciación obtenidos usando las agrupaciones de secuencias putativas del objetivo identificadas en (iii); (v) identificar agrupaciones de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; (vi) colapsar los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares identificados en (v); (vii) identificar agrupaciones de secuencias de combinación, en donde cada secuencia de combinación comprende una secuencia de las secuencias del objetivo y una secuencia de marcador molecular asociada de las secuencias de marcador molecular; (viii) colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificados en (vii); (ix) identificar una o más secuencias putativas del objetivo que correspondan a una o más secuencias quiméricas del objetivo, en donde las apariciones de la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo son menores que las apariciones de la una o más secuencias putativas restantes del objetivo que no corresponden a la una o más secuencias quiméricas del objetivo; (x) eliminar de los datos de secuenciación la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo identificadas en (ix); y (xi) estimar la aparición del objetivo, en donde la aparición del objetivo estimada se correlaciona con el número de secuencias de marcador molecular contadas en (ii) después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x).
En algunas realizaciones, la pluralidad de objetivos comprende objetivos de todo el transcriptoma de una célula. La pluralidad de objetivos puede comprender un gen que comprende una secuencia variable, como una región variable (V), una región de diversidad (D), una región de unión (J), o cualquier combinación de las mismas, que codifica un receptor inmunitario. El gen puede ser un gen que codifique un receptor de células T. Las secuencias putativas del objetivo pueden diferir entre sí en por lo menos un nucleótido.
La identificación de las agrupaciones de las secuencias putativas del objetivo comprende identificar las agrupaciones de las secuencias putativas del objetivo usando la adyacencia direccional. Las secuencias putativas del objetivo dentro de una agrupación pueden estar dentro de un primer umbral predeterminado de adyacencia direccional entre sí. El primer umbral de adyacencia direccional puede ser una distancia de Hamming de uno. Las secuencias putativas del objetivo dentro de la agrupación comprenden una o más secuencias padre y una o más secuencias hijas de la una o más secuencias padre, y en donde una aparición de la secuencia padre es mayor o igual que un primer umbral de aparición de adyacencia direccional predeterminado. El primer umbral de aparición de adyacencia direccional predeterminado puede ser el doble de una aparición de una secuencia hija menos uno.
El colapso de los datos de secuenciación obtenidos en (b) usando las agrupaciones de secuencias putativas del objetivo identificadas en (iii) comprende: atribuir una aparición de una secuencia hija de las una o más secuencias hijas a la secuencia padre de la secuencia hija.
La identificación de las agrupaciones de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo comprende la identificación de las agrupaciones de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo usando la adyacencia direccional. Las secuencias de marcadores moleculares del objetivo dentro de un grupo pueden estar dentro de un segundo umbral predeterminado de adyacencia direccional entre sí. El segundo umbral de adyacencia direccional puede ser una distancia de Hamming de uno. Las secuencias de marcadores moleculares putativas del objetivo dentro de la agrupación comprenden una o más secuencias de marcadores moleculares parentales y una o más secuencias de marcadores moleculares hijas de una o más secuencias de marcadores moleculares parentales, y en donde la aparición de la secuencia de marcador molecular parental es mayor o igual que un segundo umbral de aparición de adyacencia direccional predeterminado. El segundo umbral predeterminado de aparición de adyacencia direccional puede ser el doble de una aparición de una secuencia de marcador molecular hija menos uno.
El colapso de los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares asociadas con las secuencias del objetivo identificada en (v) comprende: atribuir una aparición de una secuencia de marcador molecular hija de las una o más secuencias de marcadores moleculares hijas al marcador molecular madre de la secuencia de marcador molecular hija.
La identificación de las agrupaciones de secuencias de combinación comprende identificar agrupaciones de secuencias de combinación usando la adyacencia direccional. Las secuencias de combinación dentro de una agrupación pueden estar dentro de un tercer umbral predeterminado de adyacencia direccional entre sí. El tercer umbral de adyacencia direccional puede ser una distancia Hamming de uno. Las secuencias de la combinación dentro de la agrupación comprenden una o más secuencias de la combinación parental y una o más secuencias de la combinación de los hijos de una o más secuencias de la combinación parental, y en donde una aparición de la secuencia de la combinación parental es mayor que o igual a un tercer umbral predeterminado de la aparición de la adyacencia direccional. El tercer umbral predeterminado de aparición de adyacencia direccional puede ser el doble de una aparición de una secuencia de combinación hija menos uno.
El colapso de los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas en (vii) comprende: atribuir una aparición de una secuencia de combinación hija de las una o más secuencias de combinación hijas a la secuencia de combinación parental de la secuencia de combinación hija.
En algunas realizaciones, la identificación de una o más secuencias putativas del objetivo correspondientes a una o más secuencias quiméricas del objetivo: la identificación de secuencias putativas del objetivo asociadas con una secuencia de marcador molecular de la pluralidad de secuencias moleculares; la identificación de una secuencia putativa de las secuencias putativas del objetivo asociadas con una secuencia de marcador molecular con una aparición menor que un umbral de aparición quimérica como correspondiente a una secuencia quimérica de una o más secuencias quiméricas del objetivo. Un valor del umbral de aparición quimérica es una aparición de una secuencia putativa de las secuencias putativas del objetivo asociada con la secuencia de un marcador molecular que es mayor que una aparición de cualquier otra secuencia de las secuencias putativas del objetivo.
En algunas realizaciones, el método comprende además: ajustar los datos de secuenciación después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x), establecer umbrales de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo para determinar las secuencias de marcadores moleculares de señal y las secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación contados en (b) tras colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x). El umbral de las secuencias moleculares asociadas con las secuencias putativas del objetivo puede comprender la realización de un análisis estadístico de las secuencias moleculares del objetivo, en donde la realización del análisis estadístico comprende:
ajustar las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo y sus apariciones a dos distribuciones binomiales negativas; determinar una aparición de secuencias de marcadores moleculares de señal n usando las dos distribuciones binomiales negativas; y eliminar las secuencias de marcador molecular de ruido de los datos de secuenciación obtenidos en (b) después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x), en donde las secuencias de marcadores moleculares de ruido comprenden secuencias de marcadores moleculares con apariciones menores que una aparición del enésimo marcador molecular más abundante, y en donde las secuencias de marcadores moleculares de señal comprenden secuencias de marcadores moleculares con apariciones superiores o iguales a la aparición del enésimo marcador molecular más abundante. Las dos distribuciones binomiales negativas pueden comprender una primera distribución binomial negativa correspondiente a las secuencias de marcadores moleculares de señal y una segunda distribución binomial negativa correspondiente a las secuencias de marcadores moleculares de ruido.
Se divulgan en la presente, pero no se reivindican, métodos para determinar apariciones de objetivos. En algunos aspectos de la divulgación, el método comprende: (a) recibir datos de secuenciación de una pluralidad de objetivos, en donde los datos de secuenciación comprenden secuencias putativas de un objetivo de la pluralidad de objetivos y apariciones de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación; (b) colapsar secuencias putativas del objetivo; (c) colapsar secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; y (d) estimar la aparición del objetivo, en donde la aparición del objetivo estimada se correlaciona con la aparición de secuencias de marcadores moleculares asociados con las secuencias putativas del objetivo en los datos de secuenciación después de colapsar la aparición de las secuencias putativas del objetivo en (b) y la aparición de secuencias de marcadores moleculares de ruido determinadas en (c).
En algunos aspectos de la divulgación, el método comprende: identificar las secuencias del objetivo en los datos de secuenciación; y contar las apariciones de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación.
En algunos aspectos de la divulgación, el método comprende: colapsar agrupaciones de secuencias de combinación, en donde cada secuencia de combinación comprende una secuencia de las secuencias del objetivo y una secuencia de marcador molecular asociada de las secuencias de marcadores moleculares, en donde la aparición del objetivo estimada se correlaciona con la aparición de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación después de colapsar la aparición de las secuencias de combinación. Colapsar las agrupaciones de secuencias de combinación puede comprender: colapsar las agrupaciones de secuencias de combinación usando adyacencia direccional. Colapsar las agrupaciones de secuencias de combinación usando adyacencia direccional puede comprender: identificar las agrupaciones de secuencias de combinación usando adyacencia direccional; y colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas. Colapsar las secuencias putativas del objetivo comprende: colapsar las secuencias putativas del objetivo usando adyacencia direccional. Colapsar las secuencias putativas del objetivo usando adyacencia direccional puede comprender: identificar agrupaciones de las secuencias putativas del objetivo usando adyacencia direccional; y colapsar los datos de secuenciación usando las agrupaciones de secuencias putativas del objetivo identificadas. En algunas realizaciones, colapsar las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo comprende: colapsar las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo usando adyacencia direccional. Colapsar las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo usando adyacencia direccional puede comprender: identificar agrupaciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo utilizando adyacencia direccional; y colapsar los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo identificadas.
En algunos aspectos de la divulgación, el método comprende: identificar una o más secuencias putativas del objetivo que corresponden a una o más secuencias quiméricas del objetivo, en donde las apariciones de una o más secuencias putativas del objetivo que corresponden a una o más secuencias quiméricas del objetivo son menores que las apariciones de una o más secuencias putativas restantes del objetivo que no corresponden a una o más secuencias quiméricas del objetivo; y eliminar de los datos de secuenciación una o más secuencias putativas del objetivo que corresponden a una o más secuencias quiméricas del objetivo. Identificar la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo puede comprender: identificar secuencias putativas del objetivo asociadas con una secuencia de marcador molecular de la pluralidad de secuencias moleculares; identificar una secuencia putativa de las secuencias putativas del objetivo asociadas con la una secuencia de marcador molecular con una aparición menor que un umbral de aparición quimérica como correspondiente a una secuencia quimérica de la una o más secuencias quiméricas del objetivo. Un valor del umbral de aparición quimérica puede ser una aparición de una secuencia putativa de las secuencias putativas del objetivo asociada con la secuencia de una marcador molecular que es mayor que una aparición de cualquier otra secuencia de las secuencias putativas del objetivo.
En algunos aspectos de la divulgación, el método comprende: determinar un estado de secuenciación del objetivo en los datos de secuenciación; y determinar una aparición de secuencias de marcadores moleculares de ruido asociadas con las secuencias putativas del objetivo en los datos de secuenciación, en donde la aparición del objetivo estimada se correlaciona con la aparición de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación ajustados de acuerdo con la aparición de las secuencias de marcadores moleculares de ruido. El estado de secuenciación del objetivo en los datos de secuenciación puede ser de secuenciación saturada, secuenciación insuficiente o secuenciación excesiva.
En algunos aspectos de la divulgación, el estado de secuenciación insuficiente puede determinarse porque el objetivo tiene una profundidad menor que un umbral de secuenciación insuficiente predeterminado, y en donde la profundidad del objetivo comprende una profundidad media, mínima o máxima de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación. El umbral de secuenciación insuficiente puede ser de aproximadamente cuatro. El umbral de secuenciación insuficiente puede ser independiente del número de secuencias moleculares marcadas. Si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación insuficiente, el número de secuencias moleculares de ruido determinadas puede ser cero.
En algunos aspectos de la divulgación, el estado de secuenciación saturada se determina por el número de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo por encima de un umbral de saturación. El umbral de saturación puede ser aproximadamente 6557 si una secuencia de marcador molecular de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo tiene una secuencia seleccionada de aproximadamente 6561 secuencias de marcadores moleculares. El umbral de saturación predeterminado puede ser de aproximadamente 65532 si una secuencia de marcador molecular de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo tiene una secuencia seleccionada de entre aproximadamente 65536 secuencias de marcadores moleculares. Si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación saturado, el número de secuencias de marcadores moleculares de ruido determinadas puede ser cero.
En algunos aspectos de la divulgación, el estado de secuenciación excesiva se determina porque el objetivo tiene una profundidad mayor que un umbral de secuenciación excesiva predeterminado, en donde la profundidad del objetivo comprende una profundidad media, mínima o máxima de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación. El umbral de secuenciación excesiva puede ser de aproximadamente 250 si una secuencia de marcador molecular de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo tiene una secuencia seleccionada de aproximadamente 6561 secuencias de marcadores moleculares. En algunas realizaciones, el método puede comprender: si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación saturada o el estado de secuenciación excesiva: submuestrear el número de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación hasta aproximadamente el umbral de secuenciación excesiva predeterminado.
En algunos aspectos de la divulgación, determinar la aparición de secuencias de marcadores moleculares de ruido asociadas con las secuencias putativas del objetivo en los datos de secuenciación comprende: si se satisface una condición de ajuste de distribución binomial negativa, ajustar una distribución binomial negativa de señal a las apariciones de las secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación, en donde la distribución binomial negativa de señal corresponde a una aparición de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación que son secuencias de marcadores moleculares de señal; ajustar una distribución binomial negativa de ruido a las apariciones de las secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación, en donde la distribución binomial negativa de ruido corresponde a una aparición de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación que son secuencias de marcadores moleculares de ruido; y determinar la aparición de las secuencias de marcadores moleculares de ruido usando la distribución binomial negativa de señal y la distribución binomial negativa de ruido. En algunas realizaciones, la condición de ajuste de la distribución binomial negativa puede comprender: el estado de secuenciación del objetivo en los datos de secuenciación no es el estado de secuenciación insuficiente ni el estado de secuenciación excesiva. Determinar el número de secuencias de marcadores moleculares de ruido usando la distribución binomial negativa de señal y la distribución binomial negativa de ruido puede comprender: para cada una de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación: determinar una probabilidad de señal de la secuencia de marcadores moleculares que esté en la distribución binomial negativa de señal; determinar una probabilidad de ruido de la secuencia de marcadores moleculares que esté en la distribución binomial negativa de ruido; y determinar que la secuencia de marcadores moleculares es un marcador molecular de ruido si la probabilidad de señal es menor que la probabilidad de ruido.
En algunos aspectos de la divulgación, determinar la aparición de secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación comprende: añadir pseudopuntos a la aparición de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación antes de determinar la aparición de secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación, si el estado de secuenciación del objetivo en los datos de secuenciación no es el estado de secuenciación insuficiente o el estado de secuenciación excesiva y la aparición de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación es menor que un umbral de pseudopuntos. El umbral de pseudopuntos puede ser diez. Determinar la aparición de secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación puede comprender: eliminar secuencias de marcadores moleculares no únicos al determinar la aparición de secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación, si el estado de secuenciación del objetivo en los datos de secuenciación no es el estado de secuenciación insuficiente o el estado de secuenciación excesiva y la aparición de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación no es menor de un umbral de pseudopuntos.
En algunos aspectos de la divulgación, recibir los datos de secuenciación de la pluralidad de objetivos comprende: codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos barras, una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados con códigos de barras estocásticamente), en donde cada uno de la pluralidad de códigos de barras comprende un marcador celular y un marcador molecular, en donde los marcadores moleculares de por lo menos dos códigos de barras de la pluralidad de códigos de barras comprenden secuencias de marcadores moleculares diferentes, y en donde por lo menos dos códigos de barras de la pluralidad de códigos de barras comprenden marcadores celulares con una secuencia de marcador celular idéntica; y obtención de datos de secuenciación de los objetivos codificados con códigos de barras. La codificación con códigos de barras (por ejemplo, codificación con códigos de barras estocásticamente) de la pluralidad de objetivos en la pluralidad de células usando la pluralidad de códigos de barras para crear la pluralidad de objetivos codificados con códigos de barras para las células de la pluralidad de células puede comprender: codificar con códigos de barras (por ejemplo, codificar con código de barras estocásticamente) la pluralidad de objetivos usando la pluralidad de códigos de barras de una partícula para crear la pluralidad de objetivos codificados con códigos de barras, en donde la partícula comprende un subconjunto de la pluralidad de códigos de barras, en donde cada uno del subconjunto de códigos de barras comprende una secuencia de marcador celular idéntica y con por lo menos 100 secuencias de marcadores moleculares diferentes.
En algunos aspectos de la divulgación, la partícula es una perla. La perla puede seleccionarse del grupo que consiste en perlas de estreptavidina, perlas de agarosa, perlas magnéticas, perlas conjugadas, perlas conjugadas con proteína A, perlas conjugadas con proteína G, perlas conjugadas con proteína A/G, perlas conjugadas con proteína L, perlas conjugadas con oligo(dT), perlas de sílice, perlas similares a sílice, perla antibiotina, perla antifluorocromo, y cualquier combinación de las mismas. La partícula puede comprender un material seleccionado del grupo que consiste en polidimetilsiloxano (PDMS), poliestireno, vidrio, polipropileno, agarosa, gelatina, hidrogel, paramagnético, cerámica, plástico, vidrio, metilestireno, polímero acrílico, titanio, látex, sefarosa, celulosa, nailon, silicona, y cualquier combinación de los mismos. Los códigos de barras (por ejemplo, códigos de barras estocásticos) de la partícula comprenden marcadores moleculares con por lo menos 1000, 10000, o cualquier combinación de las mismas, secuencias de marcadores moleculares diferentes.
En algunos aspectos de la divulgación, los marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) comprenden secuencias aleatorias. La partícula puede comprender por lo menos 10000 códigos de barras. La codificación con código de barras (por ejemplo, codificación con código de barras estocásticamente) de la pluralidad de objetivos usando la pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear la pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados con códigos de barras estocásticamente) puede comprender: (i) poner en contacto copias de los objetivos con regiones de unión a objetivo de los códigos de barras; y (ii) transcribir inversamente la pluralidad de objetivos usando la pluralidad de códigos de barras para crear una pluralidad de objetivos transcritos inversamente. En algunas realizaciones, el método comprende: antes de obtener los datos de secuenciación de la pluralidad de objetivos codificados con códigos de barras, amplificar los objetivos codificados con códigos de barras para generar una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos amplificados estocásticamente con código de barras. Amplificar los objetivos codificados con códigos de barras para generar la pluralidad de objetivos codificados con códigos de barras estocásticamente puede comprender: amplificar los objetivos codificados con códigos de barras mediante reacción en cadena de la polimerasa (PCR).
En algunas realizaciones, se divulgan sistemas informáticos que corrigen errores de datos de secuenciación. El sistema informático puede comprender: un procesador de hardware; y memoria no transitoria que tiene instrucciones almacenadas en la misma, que cuando son ejecutadas por el procesador de hardware hacen que el procesador realice el método de cualquiera de las reivindicaciones anteriores. Se divulgan medios legibles por ordenador. En algunas realizaciones, el medio legible por ordenador comprende códigos ejecutables para realizar el método de cualquiera de las reivindicaciones anteriores.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La FIG. 1 ilustra un código de barras estocástico ejemplar no limitativo.
La FIG. 2 muestra un flujo de trabajo ejemplar no limitativo de codificación con códigos de barras estocástica y recuento digital.
La FIG. 3 es una ilustración esquemática que muestra un proceso ejemplar no limitativo para generar una biblioteca indexada de objetivos codificados con códigos de barras estocásticamente de una pluralidad de objetivos.
La FIG. 4 es una ilustración esquemática que muestra distribuciones ejemplares no limitativas de errores de marcadores moleculares, errores de marcadores de muestra y señales de marcadores moleculares verdaderas. La FIG. 5 es un diagrama de flujo que muestra una realización ejemplar no limitativa de corrección de errores de PCR y secuenciación usando marcadores moleculares basada en la adyacencia direccional.
La FIG. 6 es un diagrama de flujo que muestra una realización ejemplar no limitativa de corrección de errores de PCR y secuenciación basada en la corrección recursiva de errores de sustitución y en la corrección de errores basada en la distribución.
La FIG. 7 es una ilustración esquemática que muestra una realización ejemplar no limitativa de la corrección del código de barras del receptor inmunitario basada en la corrección recursiva de errores de sustitución.
La FIG. 8 es un diagrama de flujo que muestra una realización ejemplar no limitativa de corrección de errores en secuencias de nucleótidos y marcadores moleculares usando corrección recursiva de errores de sustitución y corrección de errores en datos de secuenciación atribuibles a quimeras de PCR).
La FIG. 9 es una ilustración esquemática de un posible origen de las quimeras de receptores inmunitarios.
La FIG. 10 muestra un instrumento ejemplar no limitativo adecuado para los métodos de la divulgación.
La FIG. 11 ilustra una arquitectura ejemplar no limitativa de un sistema informático que puede usarse en relación con las realizaciones de la presente divulgación.
La FIG. 12 ilustra una arquitectura ejemplar no limitativa que muestra una red con una pluralidad de sistemas informáticos adecuados para su uso en los métodos de la divulgación.
La FIG. 13 ilustra una arquitectura ejemplar no limitativa de un sistema informático multiprocesador que usa un espacio de memoria de direcciones virtual compartido de acuerdo con los métodos de la divulgación.
La FIG. 14 es un gráfico ejemplar del cálculo teórico de marcadores moleculares únicos usados a medida que aumentan las moléculas de entrada.
La FIG. 15 es un gráfico ejemplar que muestra la cobertura del marcador molecular de cada marcador molecular a través de una placa de micropocillos para un gen de alta expresividad - ATCB, donde se observaron distribuciones distintas entre los marcadores moleculares de error y los marcadores moleculares reales.
La FIG. 16 es un gráfico ejemplar que muestra el ajuste de dos distribuciones binomiales negativas a la cobertura del marcador molecular de cada marcador molecular a través de una placa de micropocillos para un gen de alta expresión - ATCB. El ajuste de dos distribuciones binomiales negativas demuestra que pueden distinguirse estadísticamente los errores de marcador molecular con una profundidad de marcador molecular más baja y el marcador molecular verdadero con una profundidad de marcador molecular más alta. El eje x es la profundidad molecular.
La FIG. 17 muestra la corrección de marcadores moleculares, en donde estaba sobrerrepresentada la distancia de Hamming entre pares de 1. Después de la corrección de marcadores moleculares, los marcadores moleculares con una distancia de Hamming de uno se agruparon y colapsaron en el mismo marcador molecular parental. La FIG. 18 muestra la curva del número corregido de marcadores moleculares frente al número corregido de coberturas de lectura.
La FIG. 19 muestra una ilustración esquemática de un ejemplo de corrección de errores por sustitución recursiva. Las FIGS. 20A-20C muestran resultados ejemplares de la corrección de errores de PCR y secuenciación basados en dos distribuciones binomiales negativas para CD69.
Las FIGS. 21A-21C muestran resultados ejemplares de la corrección de errores de PCR y secuenciación basados en dos distribuciones binomiales negativas para CD3E.
Las FIGS. 22A-22J muestran una validación ejemplar no limitativa de un conjunto de datos corregidos usando dos distribuciones binomiales negativas.
Las FIGS. 23A-23D muestran visualizaciones ejemplares de la incrustación t-estocástica de vecinos (t-SNE) del ensayo dirigido Precise™ de 96 pocillos de células individuales mixtas Jurkat y de cáncer de mama (BrCa) (86 genes examinados).
Las FIGS. 24A-24B son gráficos ejemplares no limitativos que muestran el análisis de expresión diferencial entre agrupaciones celulares para genes con >0 ML en ambas agrupaciones seleccionadas calculadas por DBScan y determinadas por el nivel de marcador génico en cada agrupación.
Las FIGS. 25A-25D son gráficas ejemplares no limitativas que muestran la visualización de la incrustación testocástica de vecinos (t-SNE) de un ensayo dirigido BD Precise™ de una placa de 96 pocillos de células Jurkat mixtas y células individuales de cáncer de mama (T47D) con 86 genes examinados.
Las FIG. 26A-26B son mapas de calor ejemplares no limitativos que muestran la expresión génica diferencial por recuentos de marcadores moleculares entre diferentes grupos celulares identificados en las FIGS. 25A-25D antes de cualquier paso de corrección de errores (ML sin procesar mostrado en la FIG. 26A) y después de la corrección RSEC y DBEC (ML ajustado mostrado en la FIG. 26b ).
Las FIGs .27A-27B muestran una tabla que ilustra un ejemplo no limitativo de corrección de errores de código de barras de receptor inmune usando corrección de errores de sustitución recursiva.
La FIG. 28 es un histograma que muestra resultados ejemplares no limitativos de la corrección de errores de códigos de barras de receptores inmunitarios.
DESCRIPCIÓN DETALLADA
En la siguiente descripción detallada se hace referencia a los dibujos acompañantes, que forman parte de la misma. En los dibujos, símbolos similares identifican típicamente componentes similares, a menos que el contexto indique lo contrario. No se pretende que las realizaciones ilustrativas descritas en la descripción detallada, los dibujos y las reivindicaciones sean limitativas.
La cuantificación de pequeñas cantidades de ácidos nucleicos, por ejemplo moléculas de ácido ribonucleótido mensajero (ARNm), es clínicamente importante para determinar, por ejemplo, los genes que se expresan en una célula en diferentes etapas de desarrollo o en diferentes condiciones ambientales. Sin embargo, también puede ser muy desafiante determinar el número absoluto de moléculas de ácidos nucleicos (por ejemplo, moléculas de ARNm), especialmente cuando el número de moléculas es muy pequeño. Un método para determinar el número absoluto de moléculas en una muestra es la reacción en cadena de la polimerasa digital (PCR). Idealmente, la PCR produce una copia idéntica de una molécula en cada ciclo. Sin embargo, la PCR puede tener desventajas como que cada molécula se replica con una probabilidad estocástica, y esta probabilidad varía según el ciclo de PCR y la secuencia génica, lo que da como resultado un sesgo de amplificación y mediciones inexactas de la expresión génica. Los códigos de barras estocásticos con marcadores moleculares únicos (también denominados índices moleculares (MI) o índices moleculares universales (UMI)) pueden usarse para contar el número de moléculas y corregir el sesgo de amplificación. La codificación con códigos de barras estocásticos como el ensayo Precise™ (Cellular Research, Inc. (Palo Alto, CA)) pueden corregir el sesgo inducido por la PCR y los pasos de preparación de bibliotecas usando marcadores moleculares (ML) para marcar los ARNm durante la transcripción inversa (RT).
El ensayo Precise™ puede usar una agrupación no agotable de códigos de barras estocásticos con un gran número, por ejemplo de 6561 a 65536, marcadores moleculares únicos en oligonucleótidos poli(T) para hibridar con todos los ARNm poli(A) de una muestra durante el paso de RT. Además de los marcadores moleculares, puede usarse un marcador de muestra (también denominado índice de muestra (SI)) de códigos de barras estocásticos para identificar cada pocillo de la placa Precise™. Un código de barras estocástico puede comprender un sitio de cebado de PCR universal. Durante la RT, las moléculas del gen objetivo reaccionan aleatoriamente con los códigos de barras estocásticos. Cada molécula objetivo puede hibridar con un código de barras estocástico resultante para generar moléculas de ácido ribonucleótido complementario (ADNc) codificado con código de barras estocásticamente). Después del marcado, las moléculas de ADNc codificadas estocásticamente con códigos de barras a partir de los micropocillos de una placa de micropocillos pueden agruparse en un único tubo para la amplificación por PCR y la secuenciación. Los datos brutos de secuenciación pueden analizarse para producir el número de lecturas, el número de códigos de barras estocásticos con marcadores moleculares únicos y el número de moléculas de ARNm basándose en una corrección de Poisson o en un método de corrección basado en dos distribuciones binomiales negativas.
Además de la corrección de sesgos, los marcadores moleculares pueden proporcionar una mejor comprensión de la calidad estadística de los resultados al revelar el número inicial de moléculas de ADNc presentes en las lecturas de secuenciación observadas. Por ejemplo, un gran número de lecturas puede indicar una respuesta estadísticamente precisa, pero si las lecturas se derivan de sólo un pequeño número de moléculas de ARNm de partida, entonces la precisión de la medición puede verse comprometida.
Aunque el sesgo de amplificación inducido por la PCR y los pasos de preparación de bibliotecas puede remediarse, por ejemplo, mediante marcadores moleculares, la cuantificación del número absoluto de moléculas puede seguir siendo desafiante debido a varios otros factores. En primer lugar, la estimación del número de moléculas de ARNm puede verse limitada por la diversidad total de los marcadores moleculares. Durante la codificación con códigos de barras estocásticos, las moléculas de ARNm pueden reaccionar aleatoriamente con los códigos de barras estocásticos disponibles. Por tanto, cada molécula de ARNm puede hibridar con un código de barras estocástico; sin embargo, este marcador molecular puede no ser necesariamente único para cualquier gen dado. Cuando el número de moléculas de ARNm es pequeño en relación con el número de códigos de barras estocásticos, es probable que cada molécula de ARNm hibride con un código de barras estocástico con un marcador molecular único, y contar el número de moléculas puede ser equivalente a contar el número de marcadores moleculares.
A medida que aumenta el número de moléculas de ARNm, aumenta la probabilidad de que múltiples moléculas de ARNm hibriden con códigos de barras estocásticos con los mismos marcadores moleculares. Por lo tanto, el uso de recuentos de marcadores moleculares únicos puede subestimar el número de moléculas. En algunos casos, el número de moléculas de ARNm puede estimarse basándose en una corrección de Poisson o en una corrección basada en dos distribuciones binomiales negativas del número de marcadores moleculares únicos observadas en total. Sin embargo, en el extremo en el que se observa toda la colección de 6561 códigos de barras estocásticos, puede que ya no sea posible una corrección de Poisson o una corrección basada en dos distribuciones binomiales negativas. Por ejemplo, independientemente de 65000 o 100000 moléculas de ARNm de partida, en ambos casos se espera un máximo de 6561 códigos de barras estocásticos saturados.
En segundo lugar, los errores de PCR (es decir, los errores producidos durante la amplificación por PCR), pueden introducir códigos de barras estocásticos artificiales e inflar arbitrariamente los recuentos de marcadores moleculares. En tercer lugar, el sesgo de amplificación de la PCR y la PCR ineficiente pueden generar copias bajas de moléculas con códigos de barras que no se distinguen de los errores. En cuarto lugar, los errores de secuenciación, la llamada inexacta de secuencias de códigos de barras estocásticos, pueden introducir códigos de barras estocásticos artificiales e inflar los recuentos de marcadores moleculares. Además, la profundidad de secuenciación puede ser importante, especialmente cuando la secuenciación es demasiado superficial para detectar todos los ARNm codificados con códigos de barras estocásticamente presentes en una biblioteca de muestras.
Al realizar la secuenciación y los perfiles de receptores inmunitarios pueden producirse errores de sustitución, errores de cruce de cebadores y errores de quimeras de PCR. Por ejemplo, tales errores pueden producirse al determinar el número de apariciones o copias de moléculas de ARNm que codifican receptores inmunitarios, como los receptores de células T. Los receptores inmunitarios son genes estrechamente relacionados que están altamente diversificados. Por lo tanto, en comparación con otros genes, la posibilidad de que se produzcan tales errores puede ser mayor al realizar la secuenciación y los perfiles de receptores inmunitarios. Los errores llevan a menudo a una cuantificación excesiva de la diversidad del repertorio inmunitario. Los métodos para mitigar estos errores se denominan en la presente corrección de errores de código de barras del receptor inmunitario. En algunas realizaciones, la corrección de errores de código de barras del receptor inmunitario utiliza la corrección recursiva de errores de sustitución para corregir errores de sustitución en marcadores moleculares y secuencias de nucleótidos (por ejemplo, errores de sustitución en la región 3 determinante de la complementariedad (CDR3)). Para un marcador de muestra o marcador celular dados, pueden asociarse muchas CDR3 diferentes con la misma secuencia de marcador molecular, lo que lleva a una sobreestimación de la diversidad de receptores inmunitarios. Los métodos pueden corregir las quimeras de PCR que se cruzan antes del marcado molecular y el marcado de muestras, seguido de la identificación y eliminación de marcadores moleculares erróneos mediante la corrección de errores basada en la distribución.
En la presente se divulgan métodos para determinar apariciones de objetivos. En algunas realizaciones, el método comprende: (a) codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos barras) una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados con códigos de barras estocásticamente), en donde cada uno de la pluralidad de códigos de barras comprende un marcador celular y un marcador molecular, en donde los marcadores moleculares de por los menos dos códigos de barras de la pluralidad de códigos de barras comprenden marcadores celulares con una secuencia de marcador celular idéntica; (b) obtener datos de secuenciación de los objetivos codificados con códigos de barras; y (c) para por lo menos un objetivo de la pluralidad de objetivos: (i) identificar secuencias putativas del objetivo en los datos de secuenciación; (ii) contar apariciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación identificados en (i); (iii) identificar agrupaciones de las secuencias putativas del objetivo; (iv) colapsar los datos de secuenciación obtenidos usando las agrupaciones de secuencias putativas del objetivo identificadas en (iii); (v) identificar agrupaciones de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; (vi) colapsar los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares identificados en (v); (vii) identificar agrupaciones de secuencias de combinación, en donde cada secuencia de combinación comprende una secuencia de las secuencias del objetivo y una secuencia de marcador molecular asociada de las secuencias de marcadores moleculares; (viii) colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas en (vii); (ix) identificar una o más secuencias putativas del objetivo que correspondan a una o más secuencias quiméricas del objetivo, en donde las apariciones de la una o más secuencias putativas del objetivo que correspondan a la una o más secuencias quiméricas del objetivo sean menores que las apariciones de la una o más secuencias putativas restantes del objetivo que no correspondan a la una o más secuencias quiméricas del objetivo; (x) eliminar de los datos de secuenciación la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo identificadas en (ix); y (xi) estimar la aparición del objetivo, en donde la aparición del objetivo estimada se correlaciona con el número de secuencias del marcador molecular contadas en (ii) después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x).
En la presente se divulgan métodos para determinar la aparición de objetivos. En algunas realizaciones, el método comprende: (a) recibir datos de secuenciación de una pluralidad de objetivos, en donde los datos de secuenciación comprenden secuencias putativas de un objetivo de la pluralidad de objetivos y apariciones de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación; (b) colapsar secuencias putativas del objetivo; (c) colapsar secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; y (d) estimar la aparición del objetivo, en donde la aparición del objetivo estimada se correlaciona con la aparición de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación después de colapsar la aparición de las secuencias putativas del objetivo en (b) y la aparición de secuencias de marcadores moleculares de ruido determinadas en (c).
Se divulgan sistemas informáticos para determinar apariciones de objetivos. Se divulga un medio no transitorio legible por ordenador que contiene códigos ejecutables, que cuando se ejecutan, hacen que uno o más dispositivos informáticos determinen la aparición de objetivos.
Definiciones
A menos que se definan de otro modo, los términos técnicos y científicos usados en la presente tienen el mismo significado que el entendido comúnmente por un experto en la técnica a la que pertenece la presente divulgación. Consultar, por ejemplo, Singleton et al., Dictionary of Microbiology and Molecular Biology 2a ed., J. Wiley & Sons (Nueva York, NY 1994); Sambrook et al., Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Press (Cold Spring Harbor, NY 1989). A efectos de la presente divulgación, a continuación se definen los siguientes términos.
Como se usa en la presente, el término "adaptador" puede significar una secuencia para facilitar la amplificación o secuenciación de ácidos nucleicos asociados. Los ácidos nucleicos asociados pueden comprender ácidos nucleicos objetivo. Los ácidos nucleicos asociados pueden comprender uno o más de marcadores espaciales, marcadores objetivo, marcadores de muestra, marcador de indexación o secuencias de códigos de barras (por ejemplo, marcadores moleculares). Los adaptadores pueden ser lineales. Los adaptadores pueden ser preadenilados. Los adaptadores pueden ser de cadena sencilla o de cadena doble. Uno o más adaptadores pueden estar situados en el extremo 5' o 3' de un ácido nucleico. Cuando los adaptadores comprenden secuencias conocidas en los extremos 5' y 3', las secuencias conocidas pueden ser iguales o diferentes. Un adaptador situado en los extremos 5' y/o 3' de un polinucleótido puede ser capaz de hibridar con uno o más oligonucleótidos inmovilizados en una superficie. En algunas realizaciones, un adaptador puede comprender una secuencia universal. Una secuencia universal puede ser una región de secuencia de nucleótidos que es común a dos o más moléculas de ácidos nucleicos. Las dos o más moléculas de ácidos nucleicos también pueden tener regiones de secuencia diferente. Por tanto, por ejemplo, los adaptadores 5' pueden comprender secuencias de ácidos nucleicos idénticas y/o universales y los adaptadores 3' pueden comprender secuencias idénticas y/o universales. Una secuencia universal que puede estar presente en diferentes miembros de una pluralidad de moléculas de ácidos nucleicos puede permitir la replicación o amplificación de múltiples secuencias diferentes usando un único cebador universal que sea complementario a la secuencia universal. De manera similar, por lo menos una, dos (por ejemplo, un par) o más secuencias universales que pueden estar presentes en diferentes miembros de una colección de moléculas de ácidos nucleicos pueden permitir la replicación o amplificación de múltiples secuencias diferentes usando por lo menos uno, dos (por ejemplo, un par) o más cebadores universales únicos que son complementarios a las secuencias universales. Por tanto, un cebador universal incluye una secuencia que puede hibridar con dicha secuencia universal. Las moléculas portadoras de secuencias de ácidos nucleicos objetivo pueden modificarse para que se unan a adaptadores universales (por ejemplo, secuencias de ácidos nucleicos no objetivo) a uno o ambos extremos de las diferentes secuencias de ácidos nucleicos objetivo. El uno o más cebadores universales unidos al ácido nucleico objetivo pueden proporcionar sitios para la hibridación de cebadores universales. Los uno o más cebadores universales unidos al ácido nucleico objetivo pueden ser iguales o diferentes entre sí.
Como se usa en la presente, el término "asociado" o "asociado a" puede significar que dos o más especies pueden identificarse como colocalizadas en un momento dado. Una asociación puede significar que dos o más especies están o estaban dentro de un recipiente similar. Una asociación puede ser una asociación informática. Por ejemplo, la información digital relativa a dos o más especies puede almacenarse y usarse para determinar que una o más de las especies estaban colocalizadas en el mismo lugar en un momento dado. Una asociación también puede ser una asociación física. En algunas realizaciones, dos o más especies asociadas están "atadas", “unidas" o "inmovilizadas" entre sí o a una superficie sólida o semisólida común. Una asociación puede referirse a medios covalentes o no covalentes para unir marcadores a soportes sólidos o semisólidos como perlas. Una asociación puede ser una unión covalente entre un objetivo y un marcador. Una asociación puede comprender la hibridación entre dos moléculas (como una molécula objetivo y un marcador).
Como se usa en la presente, el término "complementario" puede referirse a la capacidad de emparejamiento preciso entre dos nucleótidos. Por ejemplo, si un nucleótido en una posición dada de un ácido nucleico es capaz de formar un enlace de hidrógeno con un nucleótido de otro ácido nucleico, entonces se considera que los dos ácidos nucleicos son complementarios entre sí en esa posición. La complementariedad entre dos moléculas de ácidos nucleicos de cadena sencilla puede ser "parcial", en la que sólo se unen algunos de los nucleótidos, o puede ser completa cuando existe complementariedad total entre las moléculas de cadena sencilla. Puede decirse que una primera secuencia de nucleótidos es el "complemento" de una segunda secuencia si la primera secuencia de nucleótidos es complementaria a la segunda secuencia de nucleótidos. Puede decirse que una primera secuencia de nucleótidos es el "complemento inverso" de una segunda secuencia, si la primera secuencia de nucleótidos es complementaria de una secuencia que es inversa (es decir, el orden de los nucleótidos está invertido) a la segunda secuencia. Como se usan en la presente, los términos "complemento", "complementario" y "complemento inverso" pueden usarse indistintamente. De la divulgación se entiende que si una molécula puede hibridar con otra molécula puede ser el complemento de la molécula que está hibridando.
Como se usa en la presente, el término "recuento digital" puede referirse a un método para estimar un número de moléculas objetivo en una muestra. El recuento digital puede incluir el paso de determinar un número de marcadores únicos que se han asociado con objetivos en una muestra. Esta metodología, que puede ser de naturaleza estocástica, transforma el problema del recuento de moléculas de uno de localización e identificación de moléculas idénticas a una serie de preguntas digitales de sí/no referentes a la detección de un conjunto de marcadores predefinidos.
Como se usa en la presente, el término "marcador" o "marcadores" puede referirse a códigos de ácido nucleico asociados a un objetivo dentro de una muestra. Un marcador puede ser, por ejemplo, un marcador de ácido nucleico. Un marcador puede ser total o parcialmente amplificable. Un marcador puede ser total o parcialmente secuenciable. Un marcador puede ser una porción de un ácido nucleico nativo identificable como distinto. Un marcador puede ser una secuencia conocida. Un marcador puede comprender una unión de secuencias de ácidos nucleicos, por ejemplo una unión de una secuencia nativa y no nativa. En la presente, el término "marcador" puede usarse indistintamente con los términos "índice", "etiqueta" o "marcador-etiqueta". Los marcadores pueden transmitir información. Por ejemplo, en varias realizaciones, los marcadores pueden usarse para determinar la identidad de una muestra, una fuente de una muestra, una identidad de una célula y/o un objetivo.
Como se usa en la presente, el término "depósitos no agotables" puede referirse a una agrupación de códigos de barras (por ejemplo, códigos de barras estocásticos) compuesta por muchos marcadores diferentes. Un depósito no agotable puede comprender un gran número de códigos de barras diferentes, de tal manera que cuando el depósito no agotable se asocia con una agrupación de objetivos, es probable que cada objetivo se asocie con un código de barras único. La unicidad de cada molécula objetivo marcada puede determinarse mediante la estadística de elección aleatoria, y depende del número de copias de moléculas objetivo idénticas en la colección en comparación con la diversidad de marcadores. El tamaño del conjunto resultante de moléculas objetivo marcadas puede determinarse por la naturaleza estocástica del proceso de codificación con códigos de barras, y el análisis del número de códigos de barras detectados permite entonces calcular el número de moléculas objetivo presentes en la colección o muestra original. Cuando la relación entre el número de copias de una molécula objetivo presente y el número de códigos de barras únicos es baja, las moléculas objetivo marcadas son altamente únicas (es decir, hay una probabilidad muy baja de que más de una molécula objetivo haya sido marcada con un marcador dado).
Como se usa en la presente, el término "ácido nucleico" se refiere a una secuencia de polinucleótidos o a un fragmento de la misma. Un ácido nucleico puede comprender nucleótidos. Un ácido nucleico puede ser exógeno o endógeno a una célula. Un ácido nucleico puede existir en un entorno libre de células. Un ácido nucleico puede ser un gen o un fragmento del mismo. Un ácido nucleico puede ser ADN. Un ácido nucleico puede ser ARN. Un ácido nucleico puede comprender uno o más análogos (por ejemplo, una estructura principal, azúcar o nucleobase alterados). Algunos ejemplos no limitativos de análogos incluyen: 5-bromouracilo, ácido nucleico peptídico, ácido xeno nucleico, morfolinos, ácidos nucleicos bloqueados, ácidos nucleicos glicólicos, ácidos nucleicos de treosa, dideoxinucleótidos, cordicepina, 7-deaza-GTP, fluoróforos (por ejemplo rodamina o fluoresceína enlazada al azúcar), nucleótidos que contienen tioles, nucleótidos enlazados a biotina, análogos de bases fluorescentes, islas CpG, metil-7-guanosina, nucleótidos metilados, inosina, tiouridina, pseudouridina, dihidrouridina, queuosina y wiosina. Los términos "ácido nucleico", "polinucleótido", "polinucleótido objetivo" y "ácido nucleico objetivo" pueden usarse indistintamente.
Un ácido nucleico puede comprender una o más modificaciones (por ejemplo, una modificación de base, una modificación de la estructura principal), para proporcionar al ácido nucleico una característica nueva o mejorada (por ejemplo, estabilidad mejorada). Un ácido nucleico puede comprender una etiqueta de afinidad de ácido nucleico. Un nucleósido puede ser una combinación de base-azúcar. La porción de base del nucleósido puede ser una base heterocíclica. Las dos clases más comunes de tales bases heterocíclicas son las purinas y las pirimidinas. Los nucleótidos pueden ser nucleósidos que incluyen además un grupo fosfato enlazado covalentemente a la porción de azúcar del nucleósido. Para aquellos nucleósidos que incluyen un azúcar pentofuranosilo, el grupo fosfato puede estar enlazado a la fracción hidroxilo 2', 3' o 5' del azúcar. Al formar ácidos nucleicos, los grupos fosfato pueden enlazar covalentemente nucleósidos adyacentes entre sí para formar un compuesto polimérico lineal. A su vez, los extremos respectivos de este compuesto polimérico lineal pueden unirse además para formar un compuesto circular; sin embargo, los compuestos lineales son generalmente adecuados. Además, los compuestos lineales pueden tener complementariedad interna de bases nucleotídicas y, por lo tanto, pueden plegarse de manera que produzcan un compuesto total o parcialmente de cadena doble. Dentro de los ácidos nucleicos, puede hacerse referencia a que los grupos fosfato forman la estructura principal internucleosídica del ácido nucleico. El enlace o estructura principal puede ser un enlace fosfodiéster de 3' a 5'.
Un ácido nucleico puede comprender una estructura principal modificada y/o enlaces internucleosídicos modificados. Un ácido nucleico puede comprender estructuras principales polinucleotídicas formadas por enlaces internucleosídicos alquilo o cicloalquilo de cadena corta, enlaces internucleosídicos heteroatómicos y alquilo o cicloalquilo mixtos, o uno o más enlaces internucleosídicos heteroatómicos o heterocíclicos de cadena corta. Un ácido nucleico puede comprender un mimético de ácido nucleico. Un ácido nucleico puede comprender una estructura principal de morfolino. Un ácido nucleico puede comprender unidades de morfolino enlazadas (es decir, ácido nucleico morfolino) que tienen bases heterocíclicas unidas al anillo morfolino.
Un ácido nucleico también puede incluir modificaciones o sustituciones de nucleobases (a menudo denominadas simplemente "bases"). Como se usan en la presente, las nucleobases "no modificadas" o "naturales" pueden incluir las bases de purina (por ejemplo, adenina (A) y guanina (G)) y las bases de pirimidina (por ejemplo, timina (T), citosina (C) y uracilo (U)). Las nucleobases modificadas pueden incluir otras nucleobases sintéticas y naturales.
Como se usa en la presente, el término "muestra" puede referirse a una composición que comprende objetivos. Las muestras adecuadas para el análisis mediante los métodos, dispositivos y sistemas divulgados incluyen células, tejidos, órganos u organismos.
Como se usa en la presente, el término "dispositivo de muestreo" o "dispositivo" puede referirse a un dispositivo que puede tomar una sección de una muestra y/o colocar la sección en un sustrato. Un dispositivo de muestreo puede referirse, por ejemplo, a una máquina de clasificación celular activada por fluorescencia (FACS), una máquina de clasificación celular, una aguja de biopsia, un dispositivo de biopsia, un dispositivo de seccionamiento de tejidos, un dispositivo de microfluidos, una rejilla de cuchillas y/o un micrótomo.
Como se usa en la presente, el término "soporte sólido" puede referirse a superficies sólidas o semisólidas discretas a las que puede adherirse una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos). Un soporte sólido puede abarcar cualquier tipo de esfera sólida, porosa o hueca, bola, cojinete, cilindro u otra configuración similar compuesta de plástico, cerámica, metal o material polimérico (por ejemplo, hidrogel) sobre la que puede inmovilizarse un ácido nucleico (por ejemplo, de manera covalente o no covalente). Un soporte sólido puede comprender una partícula discreta que puede ser esférica (por ejemplo, microesferas) o tener una forma no esférica o irregular, como cúbica, cuboide, piramidal, cilíndrica, cónica, oblonga o en forma de disco, y similares. Una perla puede tener una forma no esférica. Una pluralidad de soportes sólidos espaciados en una matriz puede no comprender un sustrato. Un soporte sólido puede usarse indistintamente con el término "perla".
Un soporte sólido puede referirse a un "sustrato". Un sustrato puede ser un tipo de soporte sólido. Un sustrato puede referirse a una superficie sólida o semisólida continua sobre la que pueden realizarse los métodos de la divulgación. Un sustrato puede referirse a una matriz, un cartucho, un chip, un dispositivo y un portaobjetos, por ejemplo.
Como se usa en la presente, el término "marcador espacial" puede referirse a un marcador que puede asociarse a una posición en el espacio.
Como se usa en la presente, el término "código de barras estocástico" puede referirse a una secuencia de polinucleótidos que comprende marcadores de la presente divulgación. Un código de barras estocástico puede ser una secuencia de polinucleótidos que puede usarse para codificar con códigos de barras estocásticos. Los códigos de barras estocásticos pueden usarse para cuantificar objetivos dentro de una muestra. Los códigos de barras estocásticos pueden usarse para controlar los errores que pueden producirse después de asociar un marcador a un objetivo. Por ejemplo, un código de barras estocástico puede usarse para evaluar errores de amplificación o secuenciación. Un código de barras estocástico asociado a un objetivo puede denominarse código de barras estocástico-objetivo código de barras estocástico-etiqueta-objetivo.
Como se usa en la presente, el término "código de barras estocástico específico de gen" puede referirse a una secuencia de polinucleótidos que comprende marcadores y una región de unión al objetivo que es específica de gen. Un código de barras estocástico puede ser una secuencia de polinucleótidos que puede usarse para codificar con códigos de barras estocásticos. Los códigos de barras estocásticos pueden usarse para cuantificar objetivos dentro de una muestra. Los códigos de barras estocásticos pueden usarse para controlar los errores que pueden producirse después de asociar un marcador con un objetivo. Por ejemplo, un código de barras estocástico puede usarse para evaluar errores de amplificación o secuenciación. Un código de barras estocástico asociado a un objetivo puede denominarse código de barras estocástico-objetivo o código de barras estocástico-etiqueta-objetivo.
Como se usa en la presente, el término "codificar con códigos de barras estocásticos" puede referirse al marcado aleatorio (por ejemplo, codificación con códigos de barras) de ácidos nucleicos. La codificación con códigos de barras estocásticos puede utilizar una estrategia de Poisson recursiva para asociar y cuantificar marcadores asociados a objetivos. Como se usa en la presente, el término "codificar con códigos de barras estocásticos" puede usarse indistintamente con "marcado estocástico".
Como se usa en la presente, el término "objetivo" puede referirse a una composición que puede asociarse a un código de barras (por ejemplo, un código de barras estocástico). Los objetivos ejemplares adecuados para el análisis mediante los métodos, dispositivos y sistemas divulgados incluyen oligonucleótidos, ADN, ARN, ARNm, microARN, ARNt y similares. Los objetivos pueden ser de cadena simple o doble. En algunas realizaciones, los objetivos pueden ser proteínas, péptidos o polipéptidos. En algunas realizaciones, los objetivos son lípidos. En la presente, "objetivo" puede usarse indistintamente con "especie".
Como se usa en la presente, el término "transcriptasas inversas" puede referirse a un grupo de enzimas que tienen actividad de transcriptasa inversa (es decir, que catalizan la síntesis de ADN a partir de una plantilla de ARN). En general, dichas enzimas incluyen, entre otras, la transcriptasa inversa retroviral, la transcriptasa inversa retrotransposónica, las transcriptasas inversas retroplásmidas, las transcriptasas inversas retrónicas, las transcriptasas inversas bacterianas, las transcriptasas inversas derivadas de intrones del grupo II y mutantes, variantes o derivados de las mismas. Las transcriptasas inversas no retrovirales incluyen transcriptasas inversas de retrotransposones no LTR, transcriptasas inversas de retroplásmidos, transciptasas inversas de retrones y transcriptasas inversas de intrones del grupo II. Ejemplos de transcriptasas inversas de intrones del grupo II incluyen la transcriptasa inversa de intrones LI.LtrB deLactococcus lactis,la transcriptasa inversa de intrones TeI4c deThermosynechococcus elongatuso la transcriptasa inversa de intrones GsI-IIC deGeobacillus stearothermophilus.Otras clases de transcriptasas inversas pueden incluir muchas clases de transcriptasas inversas no retrovirales (es decir, retrones, intrones del grupo II y retroelementos generadores de diversidad, entre otros).
Los términos "cebador de adaptador universal", "adaptador de cebador universal" o "secuencia de adaptador universal" se usan indistintamente para referirse a una secuencia de nucleótidos que puede usarse para hibridar con códigos de barras (por ejemplo, códigos de barras estocásticos) para generar códigos de barras específicos de genes. Una secuencia adaptadora universal puede, por ejemplo, ser una secuencia conocida que es universal en todos los códigos de barras usados en los métodos de la divulgación. Por ejemplo, cuando se están marcando múltiples objetivos usando los métodos divulgados en la presente, cada una de las secuencias específicas del objetivo puede enlazarse a la misma secuencia adaptadora universal. En algunas realizaciones, en los métodos divulgados en la presente puede usarse más de una secuencia adaptadora universal. Por ejemplo, cuando se marcan múltiples objetivos usando los métodos divulgados en la presente, por lo menos dos de las secuencias específicas del objetivo se enlazan a diferentes secuencias adaptadoras universales. Un cebador de adaptador universal y su complemento pueden incluirse en dos oligonucleótidos, uno de los cuales comprende una secuencia específica de objetivo y el otro comprende un código de barras. Por ejemplo, una secuencia adaptadora universal puede formar parte de un oligonucleótido que comprenda una secuencia específica de objetivo para generar una secuencia de nucleótidos que sea complementaria a un ácido nucleico objetivo. Un segundo oligonucleótido que comprende un código de barras y una secuencia complementaria de la secuencia adaptadora universal puede hibridar con la secuencia de nucleótidos y generar un código de barras específico del objetivo (por ejemplo, un código de barras estocástico específico del objetivo). En algunas realizaciones, un cebador de adaptador universal tiene una secuencia que es diferente de un cebador PCR universal usado en los métodos de esta divulgación.
En la presente se divulgan métodos y sistemas para detectar y/o corregir errores producidos durante la PCR y/o la secuenciación. Los tipos de errores pueden variar, por ejemplo, incluyen pero no se limitan a, errores de sustitución (una o más bases) y errores no de sustitución. Entre los errores de sustitución, los errores de sustitución de una base pueden producirse con mucha más frecuencia que los de más de una base. Los métodos y sistemas pueden usarse, por ejemplo, para proporcionar un recuento preciso de objetivos moleculares mediante codificación con códigos de barras estocásticos.
Códigos de barras
La codificación con códigos de barras, como la codificación con códigos de barras estocásticos, se ha descrito en, por ejemplo, la US20150299784, la WO2015031691, y Fu et al, Proc Natl Acad Sci U.S.A. 31 de mayo del 2011;108(22):9026-31, el contenido de estas publicaciones se incorpora en la presente en su totalidad. En algunas realizaciones, el código de barras divulgado en la presente puede ser un código de barras estocástico que puede ser una secuencia de polinucleótidos que puede usarse para marcar estocásticamente (por ejemplo, código de barras, etiqueta) un objetivo. Los códigos de barras pueden denominarse códigos de barras estocásticos si la relación entre el número de secuencias de códigos de barras diferentes de los códigos de barras estocásticos y el número de apariciones de cualquiera de los objetivos que se van a marcar puede ser, o ser de aproximadamente, 1:1, 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1, 11:1, 12:1, 13:1, 14:1, 15:1, 16:1, 17:1, 18:1, 19:1, 20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, 100:1, o un número o intervalo entre dos cualquiera de estos valores. Un objetivo puede ser una especie de ARNm que comprende moléculas de ARNm con secuencias idénticas o casi idénticas. Los códigos de barras pueden denominarse códigos de barras estocásticos si la relación entre el número de secuencias de códigos de barras diferentes de los códigos de barras estocásticos y el número de apariciones de cualquiera de los objetivos que deben marcarse es por lo menos, o como máximo, de 1:1, 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1, 11:1, 12:1, 13:1, 14:1, 15:1, 16:1, 17:1, 18:1, 19:1,20:1, 30:1,40:1, 50:1,60:1, 70:1,80:1, 90:1 o 100:1. Las secuencias de códigos de barras estocásticos pueden denominarse marcadores moleculares.
Un código de barras, por ejemplo un código de barras estocástico, puede comprender uno o más marcadores. Los marcadores ejemplares pueden incluir un marcador universal, un marcador celular, una secuencia de código de barras (por ejemplo, una marcador molecular), un marcador de muestra, un marcador de placa, un marcador espacial y/o un marcador preespacial. La FIG. 1 ilustra un código de barras 104 ejemplar con un marcador espacial. El código de barras 104 puede comprender una amina 5' que puede enlazar el código de barras a un soporte sólido 105. El código de barras puede comprender un marcador universal, un marcador dimensional, un marcador espacial, un marcador celular y/o un marcador molecular. El orden de los diferentes marcadores (incluyendo pero no limitados al marcador universal, el marcador dimensional, el marcador espacial, el marcador celular y el marcador molecular) en el código de barras puede variar. Por ejemplo, como se muestra en la FIG. 1, el marcador universal puede ser el marcados más 5', y el marcador molecular puede ser el marcador más 3'. El marcador espacial, el marcador dimensional y el marcador celular pueden estar en cualquier orden. En algunas realizaciones, el marcador universal, el marcador espacial, el marcador dimensional, el marcador celular y el marcador molecular están en cualquier orden.
El código de barras puede comprender una región de unión al objetivo. La región de unión al objetivo puede interactuar con un objetivo (por ejemplo, ácido nucleico objetivo, ARN, ARNm, ADN) en una muestra. Por ejemplo, una región de unión al objetivo puede comprender una secuencia oligo(dT) que puede interactuar con colas poli(A) de ARNm. En algunos casos, los marcadores del código de barras (por ejemplo, el marcador universal, el marcador dimensional, el marcador espacial, el marcador celular y la secuencia del código de barras) pueden estar separadas por 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 o más nucleótidos.
Un marcador, por ejemplo el marcador celular, puede comprender un conjunto único de subsecuencias de ácidos nucleicos de longitud definida, por ejemplo siete nucleótidos cada una (equivalente al número de bits usados en algunos códigos de corrección de errores de Hamming), que pueden diseñarse para proporcionar capacidad de corrección de errores. El conjunto de subsecuencias de corrección de errores comprende siete secuencias de nucleótidos y puede diseñarse de tal manera que cualquier combinación de secuencias por pares en el conjunto muestre una "distancia genética" definida (o número de bases malapareadas), por ejemplo, un conjunto de subsecuencias de corrección de errores puede diseñarse para mostrar una distancia genética de tres nucleótidos. En este caso, la revisión de las secuencias de corrección de errores en el conjunto de datos de secuencia para moléculas de ácidos nucleicos objetivo marcadas (descritas más detalladamente a continuación) puede permitir detectar o corregir errores de amplificación o secuenciación. En algunas realizaciones, la longitud de las subsecuencias de ácidos nucleicos usadas para crear códigos de corrección de errores puede variar, por ejemplo, pueden tener, o tener aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 31, 40, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. En algunas realizaciones, pueden usarse subsecuencias de ácidos nucleicos de otras longitudes para crear códigos de corrección de errores.
El código de barras (por ejemplo, el código de barras estocástico) puede incluir una región de unión al objetivo. La región de unión al objetivo puede interactuar con un objetivo en una muestra. El objetivo puede ser, o comprender, ácidos ribonucleicos (ARN), ARN mensajeros (ARNm), microARN, pequeños ARN interferente pequeño (ARNip), productos de degradación de ARN, ARN cada uno de los cuales comprende una cola poli(A), o cualquier combinación de los mismos. En algunas realizaciones, la pluralidad de objetivos puede incluir ácidos desoxirribonucleicos (ADN).
En algunas realizaciones, una región de unión al objetivo puede comprender una secuencia oligo(dT) que puede interactuar con colas poli(A) de ARNm. Uno o más de los marcadores del código de barras (por ejemplo, el marcador universal, el marcador dimensional, el marcador espacial, el marcador celular y las secuencias del código de barras (por ejemplo, el marcador molecular)) pueden estar separadas por un espaciador de otra u otras dos de los marcadores restantes del código de barras. El espaciador puede tener, por ejemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20, o más nucleótidos. En algunas realizaciones, ninguno de los marcadores del código de barras está separado por un espaciador.
Marcadores universales
Un código de barras puede comprender uno o más marcadores universales. En algunas realizaciones, el uno o más marcadores universales pueden ser los mismos para todos los códigos de barras del conjunto de códigos de barras unidos a un soporte sólido dado. En algunas realizaciones, el uno o más marcadores universales pueden ser los mismos para todos los códigos de barras unidos a una pluralidad de perlas. En algunas realizaciones, un marcador universal puede comprender una secuencia de ácido nucleico capaz de hibridar con un cebador de secuenciación. Los cebadores de secuenciación pueden usarse para secuenciar códigos de barras que comprenden un marcador universal. Los cebadores de secuenciación (por ejemplo, cebadores de secuenciación universales) pueden comprender cebadores de secuenciación asociados con plataformas de secuenciación de alto rendimiento. En algunas realizaciones, un marcador universal puede comprender una secuencia de ácido nucleico capaz de hibridar con un cebador de PCR. En algunas realizaciones, el marcador universal puede comprender una secuencia de ácido nucleico capaz de hibridar con un cebador de secuenciación y un cebador de PCR. La secuencia de ácido nucleico del marcador universal capaz de hibridar con un cebador de secuenciación o de PCR puede denominarse sitio de unión a cebador. Un marcador universal puede comprender una secuencia que puede usarse para iniciar la transcripción del código de barras. Un marcador universal puede comprender una secuencia que puede usarse para la extensión del código de barras o de una región dentro del código de barras. Un marcador universal puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Por ejemplo, un marcador universal puede comprender por lo menos aproximadamente 10 nucleótidos. Un marcador universal puede tener por lo menos, o tener como máximo, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 o 300 nucleótidos de longitud. En algunas realizaciones, un conector escindible o nucleótido modificado puede formar parte de la secuencia del marcador universal para permitir que el código de barras se escinda del soporte.
Marcadores dimensionales
Un código de barras puede comprender una o más marcadores dimensionales. En algunas realizaciones, un marcador dimensional puede comprender una secuencia de ácido nucleico que proporciona información sobre una dimensión en la que se produjo el marcado (por ejemplo, marcado estocástico). Por ejemplo, un marcador dimensional puede proporcionar información sobre el momento en el que un objetivo fue codificado con código de barras. Un marcador dimensional puede asociarse con un momento de la codificación con códigos de barras (por ejemplo, codificación con códigos de barras estocásticos) en una muestra. Un marcador dimensional puede activarse en el momento del marcado. Diferentes marcadores dimensionales pueden activarse en diferentes momentos. El marcador dimensional proporciona información sobre el orden en el que se marcaron los objetivos, grupos de objetivos y/o muestras. Por ejemplo, una población de células puede codificarse con códigos de barras en la fase G0 del ciclo celular. Las células pueden ser pulsadas de nuevo con códigos de barras (por ejemplo, códigos de barras estocásticos) en la fase G1 del ciclo celular. Las células pueden pulsarse de nuevo con códigos de barras en la fase S del ciclo celular, y demás. Los códigos de barras en cada pulso (por ejemplo, cada fase del ciclo celular), pueden comprender diferentes marcadores dimensionales. De esta manera, el marcador dimensional proporciona información sobre qué objetivos se marcaron y en qué fase del ciclo celular. Los marcadores dimensionales pueden interrogar muchos tiempos biológicos diferentes. Los tiempos biológicos ejemplares pueden incluir, entre otros, el ciclo celular, la transcripción (por ejemplo, el inicio de la transcripción) y la degradación de la transcripción. En otro ejemplo, una muestra (por ejemplo, una célula, una población de células) puede marcarse antes y/o después del tratamiento con un fármaco y/o terapia. Los cambios en el número de copias de distintos objetivos pueden ser indicativos de la respuesta de la muestra al fármaco y/o terapia.
Un marcador dimensional puede ser activable. Un marcador dimensional activable puede activarse en un momento específico. El marcador activable puede ser, por ejemplo, activado constitutivamente (por ejemplo, no apagado). El marcador dimensional activable puede, por ejemplo, activarse reversiblemente (por ejemplo, el marcador dimensional activable puede encenderse y apagarse). El marcador dimensional puede ser, por ejemplo, reversiblemente activable por lo menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, o más veces. El marcador dimensional puede ser reversiblemente activable, por ejemplo, por lo menos 1,2, 3, 4, 5, 6, 7, 8, 9, 10o más veces. En algunas realizaciones, el marcador dimensional puede activarse con fluorescencia, luz, un evento químico (por ejemplo, escisión, ligadura de otra molécula, adición de modificaciones (por ejemplo, pegilado, sumoilado, acetilado, metilado, desacetilado, desmetilado), un evento fotoquímico (por ejemplo, fotocaptura) y la introducción de un nucleótido no natural.
El marcador dimensional puede, en algunas realizaciones, ser idéntico para todos los códigos de barras (por ejemplo, códigos de barras estocásticos) unidos a un soporte sólido dado (por ejemplo, una perla), pero diferente para diferentes soportes sólidos (por ejemplo, perlas). En algunas realizaciones, por lo menos el 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99% o 100% de los códigos de barras en el mismo soporte sólido pueden comprender el mismo marcador dimensional. En algunas realizaciones, por lo menos el 60% de los códigos de barras en el mismo soporte sólido pueden incluir el mismo marcador dimensional. En algunas realizaciones, por lo menos el 95% de los códigos de barras en el mismo soporte sólido pueden incluir el mismo marcador dimensional.
Puede haber hasta 106 o más secuencias de marcadores dimensionales únicas representadas en una pluralidad de soportes sólidos (por ejemplo, perlas). Un marcador dimensional puede tener, o tener aproximadamente 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Un marcador dimensional puede tener por lo menos, o como máximo, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 o 300 nucleótidos de longitud. Un marcador dimensional puede comprender entre aproximadamente 5 y aproximadamente 200 nucleótidos. Un marcador dimensional puede comprender entre aproximadamente 10 y aproximadamente 150 nucleótidos. Un marcador dimensional puede comprender entre aproximadamente 20 y aproximadamente 125 nucleótidos de longitud.
Marcadores espaciales
Un código de barras puede comprender uno o más marcadores espaciales. En algunas realizaciones, un marcador espacial puede comprender una secuencia de ácido nucleico que proporciona información sobre la orientación espacial de una molécula objetivo asociada al código de barras. Un marcador espacial puede asociarse a una coordenada en una muestra. La coordenada puede ser una coordenada fija. Por ejemplo, una coordenada puede ser fija en referencia a un sustrato. Un marcador espacial puede estar en referencia a una cuadrícula bidimensional o tridimensional. Una coordenada puede fijarse en referencia a un punto de referencia. El punto de referencia puede ser identificable en el espacio. Un punto de referencia puede ser una estructura de la que puedan obtenerse imágenes. Un punto de referencia puede ser una estructura biológica, por ejemplo un punto de referencia anatómico. Un punto de referencia puede ser un punto de referencia celular, por ejemplo un orgánulo. Un punto de referencia puede ser un punto de referencia no natural, como una estructura con un identificador identificable, como un código de color, un código de barras, una propiedad magnética, fluorescentes, radiactividad, o un tamaño o forma únicos. Un marcador espacial puede estar asociado a una partición física (por ejemplo, un pocillo, un recipiente o una gotita). En algunas realizaciones, se usan múltiples marcadores espaciales juntos para codificar una o más posiciones en el espacio.
El marcador espacial puede ser idéntico para todos los códigos de barras unidos a un soporte sólido dado (por ejemplo, una perla), pero diferente para diferentes soportes sólidos (por ejemplo, perlas). En algunas realizaciones, el porcentaje de códigos de barras en el mismo soporte sólido que comprende el mismo marcador espacial puede ser, o ser aproximadamente, el 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, 100%, o un número o un intervalo entre dos cualquiera de estos valores. En algunas realizaciones, el porcentaje de códigos de barras en el mismo soporte sólido que comprende la misma marcador espacial puede ser como mínimo, o como máximo, del 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99% o 100%. En algunas realizaciones, por lo menos el 60% de los códigos de barras del mismo soporte sólido pueden incluir el mismo marcador espacial. En algunas realizaciones, por lo menos el 95% de los códigos de barras del mismo soporte sólido pueden incluir el mismo marcador espacial.
Puede haber hasta 106 o más secuencias de marcadores espaciales únicas representadas en una pluralidad de soportes sólidos (por ejemplo, perlas). Un marcador espacial puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Un marcador espacial puede tener por lo menos o como máximo 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 o 300 nucleótidos de longitud. Un marcador espacial puede comprender entre aproximadamente 5 y aproximadamente 200 nucleótidos. Un marcador espacial puede comprender entre aproximadamente 10 y aproximadamente 150 nucleótidos. Un marcador espacial puede comprender entre aproximadamente 20 y aproximadamente 125 nucleótidos de longitud.
Marcadores celulares
Un código de barras (por ejemplo, un código de barras estocástico) puede comprender uno o más marcadores celulares. En algunas realizaciones, un marcador celular puede comprender una secuencia de ácido nucleico que proporciona información para determinar qué ácido nucleico objetivo se originó a partir de qué célula. En algunas realizaciones, el marcador celular es idéntico para todos los códigos de barras unidos a un soporte sólido dado (por ejemplo, una perla), pero diferente para diferentes soportes sólidos (por ejemplo, perlas). En algunas realizaciones, el porcentaje de códigos de barras en el mismo soporte sólido que comprende el mismo marcador celular puede ser, o ser de aproximadamente el 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, 100%, o un número o un intervalo entre dos cualquiera de estos valores. En algunas realizaciones, el porcentaje de códigos de barras en el mismo soporte sólido que comprende el mismo marcador celular puede ser, o ser aproximadamente el 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, o 100%. Por ejemplo, por lo menos el 60% de los códigos de barras en el mismo soporte sólido pueden comprender el mismo marcador celular. Como otro ejemplo, por lo menos el 95% de los códigos de barras en el mismo soporte sólido pueden comprender el mismo marcador celular.
Puede haber hasta 106 o más secuencias de marcadores celulares únicos representados en una pluralidad de soportes sólidos (por ejemplo, perlas). Un marcador celular puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Un marcador celular puede tener por lo menos, o como máximo, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 o 300 nucleótidos de longitud. Por ejemplo, un marcador celular puede comprender entre aproximadamente 5 y aproximadamente 200 nucleótidos. Como otro ejemplo, un marcador celular puede comprender entre aproximadamente 10 y aproximadamente 150 nucleótidos. Como otro ejemplo más, un marcador celular puede comprender entre aproximadamente 20 y aproximadamente 125 nucleótidos de longitud.
Secuencias de códigos de barras
Un código de barras puede comprender una o más secuencias de códigos de barras. En algunas realizaciones, una secuencia de código de barras puede comprender una secuencia de ácido nucleico que proporciona información de identificación para el tipo específico de especie de ácido nucleico objetivo hibridada con el código de barras. Una secuencia de código de barras puede comprender una secuencia de ácido nucleico que proporcione un contador (por ejemplo, que proporcione una aproximación) para la aparición específica de la especie de ácido nucleico objetivo hibridada con el código de barras (por ejemplo, región de unión al objetivo).
En algunas realizaciones, un conjunto diverso de secuencias de códigos de barras se unen a un soporte sólido dado (por ejemplo, una perla). En algunas realizaciones, puede haber, o haber aproximadamente, 102, 103, 104, 105, 106, 107, 108, 109, o un número o un intervalo entre dos cualquiera de estos valores, secuencias de marcadores moleculares únicos. Por ejemplo, una pluralidad de códigos de barras puede comprender aproximadamente 6561 secuencias de códigos de barras con secuencias distintas. Como otro ejemplo, una pluralidad de códigos de barras puede comprender aproximadamente 65536 secuencias de códigos de barras con secuencias distintas. En algunas realizaciones, puede haber por lo menos, o haber como máximo, 102, 103, 104, 105, 106, 107, 108, o 109, secuencias de códigos de barras únicas. Las secuencias de marcadores moleculares únicos pueden unirse a un soporte sólido dado (por ejemplo, una perla).
En diferentes implementaciones la longitud de un código de barras puede ser diferente. Por ejemplo, un código de barras puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Como otro ejemplo, un código de barras puede tener como mínimo, o como máximo, 1, 2, 3, 4, 5,10,15, 20, 25, 30, 35, 40, 45, 50, 100, 200 o 300 nucleótidos de longitud.
Marcadores moleculares
Un código de barras (por ejemplo, un código de barras estocástico) puede comprender uno o más marcadores moleculares. Los marcadores moleculares pueden incluir secuencias de código de barras. En algunas realizaciones, un marcador molecular puede comprender una secuencia de ácido nucleico que proporciona información de identificación para el tipo específico de especie de ácido nucleico objetivo hibridada con el código de barras. Un marcador molecular puede comprender una secuencia de ácido nucleico que proporciona un contador para la aparición específica de la especie de ácido nucleico objetivo hibridada con el código de barras (por ejemplo, región de unión al objetivo).
En algunas realizaciones, un conjunto diverso de marcadores moleculares se unen a un soporte sólido dado (por ejemplo, una perla). En algunas realizaciones, puede haber, o haber aproximadamente, 102, 103, 104, 105, 106, 107, 108, 109, o un número o un intervalo entre dos cualquiera de estos valores, de secuencias de marcadores moleculares únicos. Por ejemplo, una pluralidad de códigos de barras puede comprender aproximadamente 6561 marcadores moleculares con secuencias distintas. Como otro ejemplo, una pluralidad de códigos de barras puede comprender aproximadamente 65536 marcadores moleculares con secuencias distintas. En algunas realizaciones, puede haber por lo menos, o como máximo, 102, 103, 104, 105, 106, 107, 108, o 109, secuencias de marcadores moleculares únicos. Los códigos de barras con secuencias de marcadores moleculares únicos pueden unirse a un soporte sólido dado (por ejemplo, una perla).
Para la codificación con códigos de barras estocásticos usando una pluralidad de códigos de barras estocásticos, la relación entre el número de secuencias de marcadores moleculares diferentes y el número de apariciones de cualquiera de los objetivos puede ser, o ser de aproximadamente, 1:1, 21, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1, 11:1, 12:1, 13:1, 14:1, 15:1, 16:1, 17:1, 18:1, 19:1,20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, 100:1, o un número o intervalo entre dos de estos valores. Un objetivo puede ser una especie de ARNm que comprende moléculas de ARNm con secuencias idénticas o casi idénticas. En algunas realizaciones, la relación entre el número de secuencias de marcadores moleculares diferentes y el número de apariciones de cualquiera de los objetivos es por lo menos, o es como máximo, 1:1, 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1, 11:1, 12:1, 13:1, 14:1, 15:1, 16:1, 17:1, 18:1, 19:1, 20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, o 100:1.
Un marcador molecular puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Un marcador molecular puede tener por lo menos, o como máximo, 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200 o 300 nucleótidos de longitud.
Región de unión al objetivo
Un código de barras puede comprender una o más regiones de unión al objetivo, como sondas de captura. En algunas realizaciones, una región de unión al objetivo puede hibridar con un objetivo de interés. En algunas realizaciones, las regiones de unión a objetivo pueden comprender una secuencia de ácido nucleico que hibrida específicamente con un objetivo (por ejemplo, ácido nucleico objetivo, molécula objetivo, por ejemplo, un ácido nucleico celular a analizar), por ejemplo con una secuencia génica específica. En algunas realizaciones, una región de unión al objetivo puede comprender una secuencia de ácido nucleico que puede unirse (por ejemplo, hibridar) a una ubicación específica de un ácido nucleico objetivo específico. En algunas realizaciones, la región de unión al objetivo puede comprender una secuencia de ácido nucleico que es capaz de hibridar específicamente con un saliente de sitio de enzima de restricción (por ejemplo, un saliente de extremo pegajoso de EcoRI). El código de barras puede entonces ligarse a cualquier molécula de ácido nucleico que comprenda una secuencia complementaria al saliente del sitio de restricción.
En algunas realizaciones, una región de unión al objetivo puede comprender una secuencia de ácido nucleico objetivo no específica. Una secuencia de ácido nucleico objetivo no específica puede referirse a una secuencia que puede unirse a múltiples ácidos nucleicos objetivo, independientemente de la secuencia específica del ácido nucleico objetivo. Por ejemplo, la región de unión al objetivo puede comprender una secuencia multimérica aleatoria, o una secuencia oligo(dT) que hibrida con la cola poli(A) de las moléculas de ARNm. Una secuencia multimérica aleatoria puede ser, por ejemplo, un dímero, trímero, cuatrámero, pentámero, hexámero, septámero, octámero, nonámero, decámero o una secuencia multimérica superior aleatoria de cualquier longitud. En algunas realizaciones, la región de unión objetivo es la misma para todos los códigos de barras unidos a una perla dada. En algunas realizaciones, las regiones de unión objetivo para la pluralidad de códigos de barras unidos a una perla dada pueden comprender dos o más secuencias de unión objetivo diferentes. Una región de unión objetivo puede tener, o tener aproximadamente, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50 nucleótidos, o un número o intervalo entre dos cualquiera de estos valores, de longitud. Una región de unión al objetivo puede tener como máximo aproximadamente 5, 10, 15, 20, 25, 30, 35, 40, 45, 50 o más nucleótidos de longitud.
En algunas realizaciones, una región de unión al objetivo puede comprender un oligo(dT) que puede hibridar con ARNm que comprenden extremos poliadenilados. Una región de unión al objetivo puede ser específica de un gen. Por ejemplo, una región de unión al objetivo puede configurarse para hibridar con una región específica de un objetivo.
Una región de unión al objetivo puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 2627, 28, 29, 30, o un número o intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. Una región de unión al objetivo puede tener por lo menos, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26 27, 28, 29, o 30, nucleótidos de longitud. Una región de unión al objetivo puede tener aproximadamente 5-30 nucleótidos de longitud. Cuando un código de barras comprende una región de unión al objetivo específica de un gen, el código de barras puede denominarse en la presente código de barras específico de un gen.
Propiedad de orientación
Un código de barras estocástico (por ejemplo, un código de barras estocástico) puede comprender una o más propiedades de orientación que pueden usarse para orientar (por ejemplo, alinear) los códigos de barras. Un código de barras puede comprender una fracción para enfoque isoeléctrico. Diferentes códigos de barras pueden comprender diferentes puntos de enfoque isoeléctrico. Cuando estos códigos de barras se introducen en una muestra, la muestra puede someterse a un enfoque isoeléctrico para orientar los códigos de barras de una manera conocida. De esta manera, la propiedad de orientación puede usarse para desarrollar un mapa conocido de códigos de barras en una muestra. Las propiedades de orientación ejemplares pueden incluir, movilidad electroforética (por ejemplo, basada en el tamaño del código de barras), punto isoeléctrico, espín, conductividad y/o autoensamblaje. Por ejemplo, los códigos de barras con una propiedad de orientación de autoensamblaje pueden autoensamblarse en una orientación específica (por ejemplo, nanoestructura de ácido nucleico) tras la activación.
Propiedad de afinidad
Un código de barras (por ejemplo, un código de barras estocástico) puede comprender una o más propiedades de afinidad. Por ejemplo, un marcador espacial puede incluir una propiedad de afinidad. Una propiedad de afinidad puede incluir una fracción química y/o biológica que puede facilitar la unión del código de barras a otra entidad (por ejemplo, un receptor celular). Por ejemplo, una propiedad de afinidad puede comprender un anticuerpo, por ejemplo, un anticuerpo específico para una fracción específica (por ejemplo, receptor) en una muestra. En algunas realizaciones, el anticuerpo puede guiar el código de barras a un tipo de célula o molécula específica. Los objetivos en y/o cerca del tipo de célula o molécula específica pueden marcarse (por ejemplo, marcarse estocásticamente). En algunas realizaciones, la propiedad de afinidad puede proporcionar información espacial además de la secuencia de nucleótidos del marcador espacial, ya que el anticuerpo puede guiar el código de barras a una localización específica. El anticuerpo puede ser un anticuerpo terapéutico, por ejemplo un anticuerpo monoclonal o un anticuerpo policlonal. El anticuerpo puede ser humanizado o quimérico. El anticuerpo puede ser un anticuerpo desnudo o un anticuerpo de fusión.
El anticuerpo puede ser una molécula de inmunoglobulina de longitud completa (es decir, de origen natural o formada por procesos recombinatorios de fragmentos de genes de inmunoglobulina normales) (por ejemplo, un anticuerpo IgG) o una porción inmunológicamente activa (es decir, de unión específica) de una molécula de inmunoglobulina, como un fragmento de anticuerpo.
El fragmento de anticuerpo puede ser, por ejemplo, una porción de un anticuerpo como F(ab')2, Fab', Fab, Fv, sFvy similares. En algunas realizaciones, el fragmento de anticuerpo puede unirse al mismo antígeno reconocido por el anticuerpo de longitud completa. El fragmento de anticuerpo puede incluir fragmentos aislados consistentes en las regiones variables de los anticuerpos, como los fragmentos "Fv" consistentes en las regiones variables de las cadenas pesada y ligera y moléculas polipeptídicas recombinantes de cadena sencilla en las que las regiones variables ligera y pesada están conectadas por un conector peptídico ("proteínas scFv"). Los anticuerpos ejemplares pueden incluir, entre otros, anticuerpos contra células cancerosas, anticuerpos contra virus, anticuerpos que se unen a receptores de la superficie celular (CD8, CD34, CD45) y anticuerpos terapéuticos.
Cebador de adaptador universal
Un código de barras puede comprender uno o más cebadores de adaptadores universales. Por ejemplo, un código de barras específico de un gen, como un código de barras estocástico específico de un gen, puede comprender un cebador adaptador universal. Un cebador de adaptador universal puede referirse a una secuencia de nucleótidos que es universal para todos los códigos de barras. Un cebador de adaptador universal puede usarse para construir códigos de barras específicos de gen. Un cebador de adaptador universal puede tener, o tener aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 2627, 28, 29, 30, o un número o intervalo entre dos cualquiera de estos nucleótidos de longitud. Un cebador de adaptador universal puede tener por lo menos, o como máximo, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 2627, 28, 29 o 30 nucleótidos de longitud. Un cebador de adaptador universal puede tener una longitud de 5-30 nucleótidos.
Soportes sólidos
En algunas realizaciones, los códigos de barras, como los códigos de barras estocásticos, divulgados en la presente pueden asociarse a un soporte sólido. El soporte sólido puede ser, por ejemplo, una partícula sintética. En algunas realizaciones, algunas o todas las secuencias de códigos de barras, como marcadores moleculares para códigos de barras estocásticos (por ejemplo, las primeras secuencias de códigos de barras) de una pluralidad de códigos de barras (por ejemplo, la primera pluralidad de códigos de barras) sobre un soporte sólido difieren en por lo menos un nucleótido. Los marcadores celulares de los códigos de barras en el mismo soporte sólido pueden ser los mismas. Los marcadores celulares de los códigos de barras en diferentes soportes sólidos pueden diferir en por lo menos un nucleótido. Por ejemplo, los primeros marcadores celulares de una primera pluralidad de códigos de barras en un primer soporte sólido pueden tener la misma secuencia, y los segundos marcadores celulares de una segunda pluralidad de códigos de barras en un segundo soporte sólido pueden tener la misma secuencia. Los primeros marcadores celulares de la primera pluralidad de códigos de barras en el primer soporte sólido y los segundos marcadores celulares de la segunda pluralidad de códigos de barras en el segundo soporte sólido pueden diferir en por lo menos un nucleótido. Un marcador celular puede tener, por ejemplo, aproximadamente 5-20 nucleótidos de longitud. Una secuencia de código de barras puede tener, por ejemplo, aproximadamente 5-20 nucleótidos de longitud. La partícula sintética puede ser, por ejemplo, una perla.
La perla puede ser, por ejemplo, una perla de gel de sílice, una perla de vidrio de poro controlado, una perla magnética, una Dynabead, una perla Sephadex/Sepharose, una perla de celulosa, una perla de poliestireno o cualquier combinación de las mismas. La perla puede comprender un material como polidimetilsiloxano (PDMS), poliestireno, vidrio, polipropileno, agarosa, gelatina, hidrogel, paramagnético, cerámica, plástico, vidrio, metilestireno, polímero acrílico, titanio, látex, Sepharose, celulosa, nailon, silicona, o cualquier combinación de los mismos.
En algunas realizaciones, la perla puede ser una perla polimérica, por ejemplo una perla deformable o una perla de gel, funcionalizada con códigos de barras o códigos de barras estocásticos (como las perlas de gel de 10X Genomics (San Francisco, CA). En alguna implementación, una perla de gel puede comprender geles a base de polímero. Las perlas de gel pueden generarse, por ejemplo, encapsulando uno o más precursores poliméricos en gotas. Tras la exposición de los precursores poliméricos a un acelerador (por ejemplo, tetrametiletilendiamina (TEMED)), puede generarse una perla de gel.
En algunas realizaciones, la partícula puede ser degradable. Por ejemplo, la perla polimérica puede disolverse, fundirse o degradarse, por ejemplo, en una condición deseada. La condición deseada puede incluir una condición ambiental. La condición deseada puede dar como resultado que la perla polimérica se disuelva, funda o degrade de manera controlada. Una perla de gel puede disolverse, fundirse o degradarse debido a un estímulo químico, un estímulo físico, un estímulo biológico, un estímulo térmico, un estímulo magnético, un estímulo eléctrico, un estímulo luminoso o cualquier combinación de los mismos.
Los analitos y/o reactivos, como los códigos de barras de oligonucleótidos, por ejemplo, pueden acoplarse/inmovilizarse a la superficie interior de una perla de gel (por ejemplo, el interior accesible mediante difusión de un código de barras de oligonucleótidos y/o los materiales usados para generar un código de barras de oligonucleótidos) y/o la superficie exterior de una perla de gel o cualquier otra microcápsula descrita en la presente. El acoplamiento/inmovilización puede realizarse mediante cualquier forma de enlace químico (por ejemplo, enlace covalente, enlace iónico) o fenómeno físico (por ejemplo, fuerzas de Van der Waals, interacciones dipolo-dipolo, etc.). En algunas realizaciones, el acoplamiento/inmovilización de un reactivo a una perla de gel o a cualquier otra microcápsula descrita en la presente puede ser reversible, como, por ejemplo, a través de una fracción lábil (por ejemplo, a través de un reticulante químico, incluyendo los reticulantes químicos descritos en la presente). Tras la aplicación de un estímulo, la fracción lábil puede escindirse y puede liberarse el reactivo inmovilizado. En algunas realizaciones, la fracción lábil es un enlace disulfuro. Por ejemplo, en el caso de que un código de barras de oligonucleótidos esté inmovilizado a una perla de gel mediante un enlace disulfuro, la exposición del enlace disulfuro a un agente reductor puede romper el enlace disulfuro y liberar el código de barras de oligonucleótidos de la perla. La fracción lábil puede incluirse como parte de una perla o microcápsula de gel, como parte de un conector químico que enlaza un reactivo o analito a una perla o microcápsula de gel, y/o como parte de un reactivo o analito. En algunas realizaciones, por lo menos un código de barras de la pluralidad de códigos de barras puede estar inmovilizado en la partícula, parcialmente inmovilizado en la partícula, encerrado en la partícula, parcialmente encerrado en la partícula, o cualquier combinación de los mismos.
En algunas realizaciones, una perla de gel puede comprender una amplia variedad de polímeros diferentes, incluyendo, entre otros: polímeros, polímeros sensibles al calor, polímeros fotosensibles, polímeros magnéticos, polímeros sensibles al pH, polímeros sensibles a sales, polímeros sensibles a los productos químicos, polielectrolitos, polisacáridos, péptidos, proteínas y/o plásticos. Los polímeros pueden incluir, entre otros, materiales como poli(N-isopropilacrilamida) (PNIPAAm), poli(sulfonato de estireno) (PSS), poli(alil amina) (PAAm), poli(ácido acrílico) (PAA), poli(etileno imina) (PEI), poli(cloruro de dialildimetil-amonio) (PDADMAC), poli(pirrol) (PPy), poli(vinilpirrolidona) (PVPON), poli(vinilpiridina) (PVP), poli(ácido metacrílico) (PMAA), poli(metacrilato de metilo) (PMMA), poliestireno (PS), poli(tetrahidrofurano) (PTh F), poli(ftaladehído) (PTh F), poli(hexil viologeno) (PHV), poli(L-lisina) (PLL), poli(L-arginina) (PARG), poli(ácido láctico-co-glicólico) (PLGA).
Pueden usarse numerosos estímulos químicos para desencadenar la alteración, disolución o degradación de las perlas. Los ejemplos de estos cambios químicos pueden incluir, pero no se limitan a, cambios en la pared de la perla mediados por el pH, disgregación de la pared de la perla mediante la escisión química de los enlaces cruzados, despolimerización desencadenada de la pared de la perla y reacciones de cambio de la pared de la perla. También pueden usarse cambios de volumen para desencadenar la alteración de las perlas.
Los cambios físicos o de volumen de la microcápsula mediante varios estímulos también ofrecen muchas ventajas en el diseño de cápsulas para liberar reactivos. Los cambios físicos o de volumen se producen a escala macroscópica, en la que la ruptura de la perla es el resultado de fuerzas mecanofísicas inducidas por un estímulo. Estos procesos pueden incluir, entre otros, la ruptura inducida por presión, la fusión de la pared de la perla o cambios en la porosidad de la pared de la perla.
También pueden usarse estímulos biológicos para desencadenar la alteración, disolución o degradación de las perlas. En general, los desencadenantes biológicos se parecen a los desencadenantes químicos, pero muchos ejemplos usan biomoléculas, o moléculas que se encuentran comúnmente en los sistemas vivos, como enzimas, péptidos, sacáridos, ácidos grasos, ácidos nucleicos y similares. Por ejemplo, las perlas pueden comprender polímeros con enlaces cruzados peptídicos sensibles a la escisión por proteasas específicas. Más concretamente, un ejemplo puede comprender una microcápsula con enlaces cruzados de péptidos GFLGK. Tras la adición de un desencadenante biológico, como la proteasa catepsina B, los enlaces cruzados peptídicos de la microcápsula se escinden y se libera el contenido de las perlas. En otros casos, las proteasas pueden activarse por calor. En otro ejemplo, las perlas comprenden una pared de cáscara que comprende celulosa. La adición de la enzima hidrolítica quitosano sirve como desencadenante biológico para la ruptura de los enlaces celulósicos, la despolimerización de la pared de cáscara y la liberación de su contenido interno.
También puede inducirse que las perlas liberen su contenido mediante la aplicación de un estímulo térmico. Un cambio de temperatura puede provocar una variedad de cambios en las perlas. Un cambio de calor puede provocar la fusión de una perla y la disgregación de su pared. En otros casos, el calor puede aumentar la presión interna de los componentes interiores de la perla de tal manera que ésta se rompa o explote. En otros casos más, el calor puede transformar la perla en un estado deshidratado y encogido. El calor también puede actuar sobre los polímeros termosensibles de la pared de la perla y provocar la alteración de la perla.
La inclusión de nanopartículas magnéticas en la pared de perlas de las microcápsulas puede permitir la ruptura desencadenada de las perlas, así como guiar las perlas en una matriz. Un dispositivo de la presente divulgación puede incluir perlas magnéticas para ambos propósitos. En un ejemplo, la incorporación de nanopartículas de Fe3O4 en perlas que contienen polielectrolitos desencadena la ruptura en presencia de un estímulo de campo magnético oscilante.
Una perla también puede alterarse, disolverse o degradarse como resultado de la estimulación eléctrica. De manera similar a las partículas magnéticas descritas en la sección anterior, las perlas eléctricamente sensibles pueden permitir tanto la ruptura desencadenada de las perlas como otras funciones como la alineación en un campo eléctrico, la conductividad eléctrica o las reacciones redox. En un ejemplo, las perlas que contienen material eléctricamente sensible se alinean en un campo eléctrico de tal manera que pueda controlarse la liberación de reactivos internos. En otros ejemplos, los campos eléctricos pueden inducir reacciones redox dentro de la propia pared de la perla que pueden aumentar la porosidad.
También puede usarse un estímulo luminoso para alterar las perlas. Son posibles numerosos activadores luminosos y pueden incluir sistemas que usen varias moléculas, como nanopartículas y cromóforos, capaces de absorber fotones de intervalos específicos de longitudes de onda. Por ejemplo, pueden usarse recubrimientos de óxido metálico como desencadenantes de cápsulas. La irradiación UV de cápsulas de polielectrolito recubiertas con SiO2 puede provocar la disgregación de la pared de la perla. En otro ejemplo más, pueden incorporarse a la pared de la perla materiales fotoactivables, como grupos azobenceno. Tras la aplicación de luz ultravioleta o visible, estas sustancias químicas experimentan una isomerización reversible de cis a trans después de la absorción de fotones. En este aspecto, la incorporación de interruptores de fotones da como resultado una pared de perlas que puede disgregarse o volverse más porosa tras la aplicación de un desencadenante de luz.
Por ejemplo, en un ejemplo no limitativo de codificación con códigos de barras (por ejemplo, códigos de barras estocásticos) ilustrado en la FIG. 2, después de introducir células como células individuales en una pluralidad de micropocillos de una matriz de micropocillos en el bloque 208, pueden introducirse perlas en la pluralidad de micropocillos de la matriz de micropocillos en el bloque 212. Cada micropocillo puede comprender una perla. Cada micropocillo puede comprender una perla. Las perlas pueden comprender una pluralidad de códigos de barras. Un código de barras puede comprender una región de amina 5' unida a una perla. El código de barras puede comprender un marcador universal, una secuencia de código de barras (por ejemplo, un marcador molecular), una región de unión al objetivo o cualquier combinación de las mismas.
Los códigos de barras divulgados en la presente pueden asociarse (por ejemplo, unirse) a un soporte sólido (por ejemplo, una perla). Los códigos de barras asociados con un soporte sólido pueden comprender cada uno una secuencia de código de barras seleccionada de un grupo que comprende por lo menos 100 o 1000 secuencias de códigos de barras con secuencias únicas. En algunas realizaciones, diferentes códigos de barras asociados con un soporte sólido pueden comprender códigos de barras con secuencias diferentes. En algunas realizaciones, un porcentaje de códigos de barras asociados a un soporte sólido comprende el mismo marcador celular. Por ejemplo, el porcentaje puede ser, o ser aproximadamente el 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, 100%, o un número o un intervalo entre dos cualquiera de estos valores. Como otro ejemplo, el porcentaje puede ser por lo menos, o ser como máximo del 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, o 100%. En algunas realizaciones, los códigos de barras asociados a un soporte sólido pueden tener el mismo marcador celular. Los códigos de barras asociados con diferentes soportes sólidos pueden tener diferentes marcadores celulares seleccionados de un grupo que comprende por lo menos 100 o 1000 marcadores celulares con secuencias únicas.
Los códigos de barras divulgados en la presente pueden asociarse a (por ejemplo, unirse a) un soporte sólido (por ejemplo, una perla). En algunas realizaciones, la codificación con códigos de barras de la pluralidad de objetivos en la muestra puede realizarse con un soporte sólido que incluye una pluralidad de partículas sintéticas asociadas con la pluralidad de códigos de barras. En algunas realizaciones, el soporte sólido puede incluir una pluralidad de partículas sintéticas asociadas a la pluralidad de códigos de barras. Los marcadores espaciales de la pluralidad de códigos de barras en diferentes soportes sólidos pueden diferir en por lo menos un nucleótido. El soporte sólido puede, por ejemplo, incluir la pluralidad de códigos de barras en dos dimensiones o en tres dimensiones. Las partículas sintéticas pueden ser perlas. Las perlas pueden ser perlas de gel de sílice, perlas de vidrio de poro controlado, perlas magnéticas, Dynabeads, perlas Sephadex/Sepharose, perlas de celulosa, perlas de poliestireno, o cualquier combinación de las mismas. El soporte sólido puede incluir un polímero, una matriz, un hidrogel, un dispositivo de matriz de agujas, un anticuerpo o cualquier combinación de los mismos. En algunas realizaciones, los soportes sólidos pueden flotar libremente. En algunas realizaciones, los soportes sólidos pueden estar incrustados en una matriz semisólida o sólida. Los códigos de barras pueden no estar asociados a los soportes sólidos. Los códigos de barras pueden ser nucleótidos individuales. Los códigos de barras pueden estar asociados a un sustrato.
Como se usa en la presente, los términos "atado", "unido" e "inmovilizado" se usan indistintamente y pueden referirse a medios covalentes o no covalentes para unir códigos de barras a un soporte sólido. Puede usarse cualquiera de una variedad de diferentes soportes sólidos como soporte sólido para unir códigos de barras presintetizados o para la síntesisin situen fase sólida de códigos de barras.
En algunas realizaciones, el soporte sólido es una perla. La perla puede comprender uno o más tipos de esfera sólida, porosa o hueca, bola, cojinete, cilindro u otra configuración similar que pueda inmovilizar un ácido nucleico (por ejemplo, covalente o no covalentemente). La perla puede estar compuesta, por ejemplo, de plástico, cerámica, metal, material polimérico o cualquier combinación de los mismos. Una perla puede ser, o comprender, una partícula discreta que es esférica (por ejemplo, microesferas) o tener una forma no esférica o irregular, como cúbica, cuboide, piramidal, cilíndrica, cónica, oblonga o en forma de disco, y similares. En algunas realizaciones, una perla puede tener forma no esférica.
Las perlas pueden comprender una variedad de materiales incluyendo, pero no limitados a, materiales paramagnéticos (por ejemplo, magnesio, molibdeno, litio y tántalo), materiales superparamagnéticos (por ejemplo, nanopartículas de ferrita (Fe3O4; magnetita)), materiales ferromagnéticos (por ejemplo, hierro, níquel, cobalto, algunas aleaciones de los mismos y algunos compuestos metálicos de tierras raras), cerámica, plástico, vidrio, poliestireno, sílice, metilestireno, polímeros acrílicos, titanio, látex, sefarosa, agarosa, hidrogel, polímero, celulosa, nailon o cualquier combinación de los mismos.
En algunas realizaciones, la perla (por ejemplo, la perla a la que se adhieren los marcadores) es una perla de hidrogel. En algunas realizaciones, la perla de hidrogel es disoluble. En algunas realizaciones, la perla comprende hidrogel.
Algunas realizaciones divulgadas en la presente incluyen una o más partículas (por ejemplo, perlas). Cada una de las partículas puede comprender una pluralidad de oligonucleótidos (por ejemplo, códigos de barras). Cada uno de la pluralidad de oligonucleótidos puede comprender una secuencia de código de barras (por ejemplo, una secuencia de marcador molecular), un marcador celular y una región de unión al objetivo (por ejemplo, una secuencia oligo(dT), una secuencia específica de gen, un multímero aleatorio o una combinación de los mismos). La secuencia del marcador celular de cada uno de la pluralidad de oligonucleótidos puede ser la misma. Las secuencias de marcadores celulares de los oligonucleótidos en partículas diferentes pueden ser diferentes, de tal manera que puedan identificarse los oligonucleótidos en partículas diferentes. En diferentes implementaciones el número de secuencias de marcadores celulares diferentes puede ser diferente. En algunas realizaciones, el número de secuencias de marcadores celulares puede ser, puede ser aproximadamente, puede ser por lo menos, o puede ser como máximo, 10, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 70000, 80000, 90000, 100000, 106, 107, 108, 109, un número o un intervalo entre dos cualquiera de estos valores, o más. En algunas realizaciones, no más de, o no más de aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, o más de la pluralidad de las partículas incluyen oligonucleótidos con la misma secuencia celular.
La pluralidad de oligonucleótidos en cada partícula puede comprender diferentes secuencias de códigos de barras (por ejemplo, marcadores moleculares). En algunas realizaciones, el número de secuencias de códigos de barras puede ser, puede ser aproximadamente, puede ser por lo menos, o puede ser como máximo, 10, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 70000, 80000, 90000, 100000, 106, 107, 108, 109, o un número o un intervalo entre dos cualquiera de estos valores. Como otro ejemplo, en una sola partícula, por lo menos 100, 500, 1000, 5000, 10000, 15000, 20000, 50000, un número o un intervalo entre dos cualquiera de estos valores, o más de la pluralidad de oligonucleótidos comprenden diferentes secuencias de códigos de barras. Algunas realizaciones proporcionan una pluralidad de partículas que comprenden códigos de barras. En algunas realizaciones, la proporción de una aparición (o una copia o un número) de un objetivo a marcar y las diferentes secuencias de códigos de barras puede ser de por lo menos 1:1, 12, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 1:10, 1:11, 1:12, 1:13, 1:14, 1:15, 1:16, 1:17, 1:18, 1:19, 1:20, 1:30, 1:40, 1:50, 1:60, 1:70, 1:80, 1:90, o más. En algunas realizaciones, cada uno de la pluralidad de oligonucleótidos comprende además un marcador de muestra, un marcador universal, o ambos. La partícula puede ser, por ejemplo, una nanopartícula o una micropartícula.
Métodos de codificación con códigos de barras
La divulgación proporciona métodos para estimar el número de objetivos distintos en ubicaciones distintas en una muestra física (por ejemplo, tejido, órgano, tumor, célula). Los métodos pueden comprender la colocación de códigos de barras (por ejemplo, códigos de barras estocásticos) en estrecha proximidad con la muestra, la lisis de la muestra, la asociación de objetivos distintos con los códigos de barras, la amplificación de los objetivos y/o el recuento digital de los objetivos. El método puede comprender además el análisis y/o la visualización de la información obtenida a partir de las marcadores espaciales de los códigos de barras. En algunas realizaciones, el método comprende visualizar la pluralidad de objetivos en la muestra. El mapeo de la pluralidad de objetivos en el mapa de la muestra puede incluir generar un mapa bidimensional o un mapa tridimensional de la muestra. El mapa bidimensional y el mapa tridimensional pueden generarse antes o después de codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos de barras) la pluralidad de objetivos en la muestra. La visualización de la pluralidad de objetivos en la muestra puede incluir mapear la pluralidad de objetivos en un mapa de la muestra. El mapeo de la pluralidad de objetivos en el mapa de la muestra puede incluir generar un mapa bidimensional o tridimensional de la muestra. En algunas realizaciones, el mapa bidimensional y el mapa tridimensional pueden generarse antes o después de lisar la muestra. La lisis de la muestra antes o después de generar el mapa bidimensional o el mapa tridimensional puede incluir calentar la muestra, poner en contacto la muestra con un detergente, cambiar el pH de la muestra, o cualquier combinación de los mismos.
En algunas realizaciones, codificar con códigos de barras de la pluralidad de objetivos comprende la hibridación de una pluralidad de códigos de barras con una pluralidad de objetivos para crear objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). Codificar con códigos de barras la pluralidad de objetivos puede comprender generar una biblioteca indexada de los objetivos codificados con códigos de barras. Generar una biblioteca indexada de los objetivos codificados con códigos de barras puede realizarse con un soporte sólido que comprende la pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos).
Poner en contacto una muestra y un código de barras
La divulgación proporciona métodos para poner en contacto una muestra (por ejemplo, células) con un sustrato de la divulgación. Una muestra que comprende, por ejemplo, una célula, órgano o sección delgada de tejido, puede ponerse en contacto con códigos de barras (por ejemplo, códigos de barras estocásticos). Las células pueden ponerse en contacto, por ejemplo, por flujo de gravedad en donde las células pueden asentarse y crear una monocapa. La muestra puede ser una sección delgada de tejido. La sección delgada puede colocarse sobre el sustrato. La muestra puede ser unidimensional (por ejemplo, formar una superficie plana). La muestra (por ejemplo, células) puede extenderse por el sustrato, por ejemplo, haciendo crecer/cultivando las células en el sustrato.
Cuando los códigos de barras están cerca de los objetivos, los objetivos pueden hibridar con el código de barras. Los códigos de barras pueden ponerse en contacto en una proporción no agotable, de tal manera que cada objetivo distinto pueda asociarse con un código de barras distinto de la divulgación. Para garantizar una asociación eficaz entre el objetivo y el código de barras, los objetivos pueden reticularse con el código de barras.
Lisis celular
Después de la distribución de células y códigos de barras, las células pueden lisarse para liberar las moléculas objetivo. La lisis celular puede realizarse mediante una variedad de medios, por ejemplo, por medios químicos o bioquímicos, por choque osmótico o mediante lisis térmica, mecánica u óptica. Las células pueden lisarse mediante la adición de un tampón de lisis celular que comprenda un detergente (por ejemplo, SDS, Li dodecil sulfato, Triton X-100, Tween-20 o NP-40), un solvente orgánico (por ejemplo, metanol o acetona) o enzimas digestivas (por ejemplo, proteinasa K, pepsina o tripsina), o cualquier combinación de los mismos. Para aumentar la asociación de un objetivo y un código de barras, la velocidad de difusión de las moléculas objetivo puede alterarse, por ejemplo, reduciendo la temperatura y/o aumentando la viscosidad del lisado.
En algunas realizaciones, la lisis puede realizarse mediante lisis mecánica, lisis térmica, lisis óptica y/o lisis química. Una célula lisada puede comprender por lo menos aproximadamente 100000, 200000, 300000, 400000, 500000, 600000 o 700000 o más moléculas de ácidos nucleicos objetivo. Una célula lisada puede comprender como máximo aproximadamente 100000, 200000, 300000, 400000, 500000, 600000 o 700000 o más moléculas de ácidos nucleicos objetivo.
Unión de códigos de barras a moléculas de ácidos nucleicos objetivo
Después de la lisis de las células y la liberación de moléculas de ácidos nucleicos de las mismas, las moléculas de ácidos nucleicos pueden asociarse aleatoriamente con los códigos de barras del soporte sólido colocalizado. La asociación puede comprender la hibridación de la región de reconocimiento del objetivo de un código de barras con una porción complementaria de la molécula de ácido nucleico objetivo (por ejemplo, el oligo(dT) del código de barras puede interactuar con una cola de poli(A) de un objetivo). Las condiciones de ensayo usadas para la hibridación (por ejemplo, pH del tampón, fuerza iónica, temperatura, etc.) pueden elegirse para promover la formación de híbridos específicos y estables. En algunas realizaciones, las moléculas de ácidos nucleicos liberadas de las células lisadas pueden asociarse con la pluralidad de sondas del sustrato (por ejemplo, hibridar con las sondas del sustrato). Cuando las sondas comprenden oligo(dT), las moléculas de ARNm pueden hibridar con las sondas y transcribirse inversamente. La porción de oligo(dT) del oligonucleótido puede actuar como cebador para la síntesis de la primera cadena de la molécula de ADNc. Por ejemplo, en un ejemplo no limitativo de codificación con códigos de barras ilustrado en la FIG. 2, en el bloque 216, las moléculas de ARNm pueden hibridar con códigos de barras en perlas. Por ejemplo, los fragmentos de nucleótidos de cadena sencilla pueden hibridar con las regiones de unión al objetivo de los códigos de barras.
La unión puede comprender además la ligación de una región de reconocimiento de objetivo de un código de barras y una porción de la molécula de ácido nucleico objetivo. Por ejemplo, la región de reconocimiento del objetivo puede comprender una secuencia de ácido nucleico que puede ser capaz de hibridación específica a un saliente de sitio de restricción (por ejemplo, un saliente de extremo pegajoso EcoRI). El procedimiento de ensayo puede comprender además tratar los ácidos nucleicos objetivo con una enzima de restricción (por ejemplo, EcoRI) para crear un saliente de sitio de restricción. Luego, el código de barras puede ligarse a cualquier molécula de ácido nucleico que comprenda una secuencia complementaria al saliente del sitio de restricción. Para unir los dos fragmentos puede usarse una ligasa (por ejemplo, T4 ADN ligasa).
Por ejemplo, en un ejemplo no limitativo de codificación con códigos de barras ilustrado en la FIG. 2, en el bloque 220, los objetivos marcados de una pluralidad de células (o una pluralidad de muestras) (por ejemplo, moléculas de código de barras objetivo) pueden agruparse posteriormente, por ejemplo, en un tubo. Los objetivos marcados pueden agruparse, por ejemplo, recuperando los códigos de barras y/o las perlas a las que están unidas las moléculas de código de barras objetivo.
La recuperación de colecciones basadas en soportes sólidos de moléculas de códigos de barras objetivo unidas puede implementarse mediante el uso de perlas magnéticas y un campo magnético aplicado externamente. Una vez agrupadas las moléculas de código de barras objetivo, todo el procesamiento posterior puede realizarse en un único recipiente de reacción. El procesamiento adicional puede incluir, por ejemplo, reacciones de transcripción inversa, reacciones de amplificación, reacciones de escisión, reacciones de disociación y/o reacciones de extensión de ácidos nucleicos. Las reacciones de procesamiento adicional pueden realizarse dentro de los micropocillos, es decir, sin agrupar primero las moléculas de ácidos nucleicos objetivo marcadas de una pluralidad de células.
Transcripción inversa
La divulgación proporciona un método para crear un conjugado objetivo-código de barras usando transcripción inversa (por ejemplo, en el bloque 224 de la FIG. 2). El conjugado objetivo-código de barras puede comprender el código de barras y una secuencia complementaria de todo o parte del ácido nucleico objetivo (es decir, una molécula de ADNc codificada con código de barras, como una molécula de ADNc codificada estocásticamente con código de barras). La transcripción inversa de la molécula de ARN asociada puede producirse mediante la adición de un cebador de transcripción inversa junto con la transcriptasa inversa. El cebador de transcripción inversa puede ser un cebador oligo(dT), un cebador hexanucleótido aleatorio o un cebador oligonucleótido específico de objetivo. Los cebadores oligo(dT) pueden tener, o tener aproximadamente, 12-18 nucleótidos de longitud y se unen a la cola de poli(A) endógena en el extremo 3' del ARNm de mamífero. Los cebadores hexanucleotídicos aleatorios pueden unirse al ARNm en una variedad de sitios complementarios. Los cebadores oligonucleotídicos específicos de objetivo típicamente se ceban selectivamente el ARNm de interés.
En algunas realizaciones, la transcripción inversa de la molécula de ARN marcado puede producirse mediante la adición de un cebador de transcripción inversa. En algunas realizaciones, el cebador de transcripción inversa es un cebador oligo(dT), un cebador hexanucleótido aleatorio o un cebador oligonucleótido específico del objetivo. Generalmente, los cebadores oligo(dT) tienen una longitud de 12-18 nucleótidos y se unen a la cola de poli(A) endógena en el extremo 3' del ARNm de mamíferos. Los cebadores hexanucleótidos aleatorios pueden unirse al ARNm en una variedad de sitios complementarios. Los cebadores oligonucleotídicos específicos de objetivo típicamente ceban selectivamente el ARNm de interés.
La transcripción inversa puede realizarse repetidamente para producir múltiples moléculas de ADNc marcado. Los métodos divulgados en la presente pueden comprender la realización de por lo menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 reacciones de transcripción inversa. El método puede comprender la realización de por lo menos aproximadamente 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 reacciones de transcripción inversa.
Amplificación
Pueden realizarse una o más reacciones de amplificación de ácidos nucleicos (por ejemplo, en el bloque 228 de la FIG. 2) para crear múltiples copias de las moléculas de ácidos nucleicos objetivo marcadas. La amplificación puede realizarse de manera multiplexada, en donde múltiples secuencias de ácidos nucleicos objetivo se amplifican simultáneamente. La reacción de amplificación puede usarse para añadir adaptadores de secuenciación a las moléculas de ácidos nucleicos. Las reacciones de amplificación pueden comprender la amplificación de por lo menos una parte de un marcador de muestra, si lo hay. Las reacciones de amplificación pueden comprender amplificar por lo menos una parte del marcador celular y/o la secuencia del código de barras (por ejemplo, un marcador molecular). Las reacciones de amplificación pueden comprender la amplificación de por lo menos una porción de un marcador de muestra, un marcador celular, un marcador espacial, una secuencia de código de barras (por ejemplo, un marcador molecular), un ácido nucleico objetivo, o una combinación de los mismos. Las reacciones de amplificación pueden comprender la amplificación del 0,5%, 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 97%, 100%, o un intervalo o un número entre dos cualquiera de estos valores, de la pluralidad de ácidos nucleicos. El método puede comprender además realizar una o más reacciones de síntesis de ADNc para producir una o más copias de ADNc de moléculas de código de barras objetivo que comprenden un marcador de muestra, un marcador celular, un marcador espacial y/o una secuencia de código de barras (por ejemplo, un marcador molecular).
En algunas realizaciones, la amplificación puede llevarse a cabo usando una reacción en cadena de la polimerasa (PCR). Como se usa en la presente, PCR puede referirse a una reacción para la amplificación in vitro de secuencias específicas de ADN mediante la extensión simultánea de cebadores de cadenas complementarias de ADN. Como se usa en la presente, PCR puede abarcar formas derivadas de la reacción, incluyendo pero no limitado a, RT-PCR, PCR en tiempo real, PCR anidada, PCR cuantitativa, PCR multiplexada, PCR digital y PCR de ensamblaje.
La amplificación de los ácidos nucleicos marcados puede comprender métodos no basados en PCR. Los ejemplos de métodos no basados en PCR incluyen, entre otros, amplificación por desplazamiento múltiple (MDA), amplificación mediada por transcripción (TMA), amplificación basada en la secuencia del ácido nucleico (NASBA), amplificación por desplazamiento de cadena (SDA), SDA en tiempo real, amplificación de círculo rodante o amplificación de círculo a círculo. Otros métodos de amplificación no basados en la PCR incluyen ciclos múltiples de amplificación de transcripción de ARN impulsada por<a>R<n>polimerasa dependiente de ADN o síntesis y transcripción de ADN dirigida por ARN para amplificar objetivos de ADN o ARN, una reacción en cadena de ligasa (LCR), y un método de Qp replicasa (Qp), uso de sondas palindrómicas, amplificación por desplazamiento de cadena, amplificación impulsada por oligonucleótidos usando una endonucleasa de restricción, un método de amplificación en el que un cebador hibrida con una secuencia de ácido nucleico y el dúplex resultante se escinde antes de la reacción de extensión y amplificación, amplificación por desplazamiento de cadena usando una polimerasa de ácido nucleico que carece de actividad exonucleasa 5', amplificación por círculo rodante y amplificación por extensión ramificada (RAM). En algunas realizaciones, la amplificación no produce transcritos circularizados.
En algunas realizaciones, los métodos divulgados en la presente comprenden además llevar a cabo una reacción en cadena de la polimerasa en el ácido nucleico marcado (por ejemplo, ARN marcado, ADN marcado, ADNc marcado) para producir un amplicón marcado (por ejemplo, un amplicón marcado estocásticamente). El amplicón marcado puede ser una molécula de cadena doble. La molécula de cadena doble puede comprender una molécula de cadena doble de ARN, una molécula de cadena doble de ADN o una molécula de ARN hibridada con una molécula de ADN. Una o ambas cadenas de la molécula de cadena doble pueden incluir un marcador de muestra, un marcador espacial, un marcador celular y/o una secuencia de código de barras (por ejemplo, un marcador molecular). El amplicón marcado puede ser una molécula de cadena sencilla. La molécula de cadena sencilla puede comprender ADN, ARN o una combinación de los mismos. Los ácidos nucleicos de la divulgación pueden comprender ácidos nucleicos sintéticos o alterados.
La amplificación puede incluir el uso de uno o más nucleótidos no naturales. Los nucleótidos no naturales pueden incluir nucleótidos fotolábiles o activables. Los ejemplos de nucleótidos no naturales pueden incluir, entre otros, ácido nucleico peptídico (PNA), morfolino y ácido nucleico bloqueado (LNA), así como ácido nucleico glicólico (GNA) y ácido nucleico de treosa (TNA). Los nucleótidos no naturales pueden añadirse a uno o más ciclos de una reacción de amplificación. La adición de los nucleótidos no naturales puede usarse para identificar productos como ciclos o puntos temporales específicos en la reacción de amplificación.
El uno o más cebadores pueden incluir un cebador universal. El cebador universal puede aparearse a un sitio de unión del cebador universal. El uno o más cebadores personalizados pueden aparearse con un primer marcador de muestra, un segundo marcador de muestra, un marcador espacial, un marcador celular, una secuencia de código de barras (por ejemplo, un marcador molecular), un objetivo o cualquier combinación de los mismos. El uno o más cebadores puede comprender un cebador universal y un cebador personalizado. El cebador personalizado puede diseñarse para amplificar uno o más objetivos. Los objetivos pueden comprender un subconjunto de los ácidos nucleicos totales en una o más muestras. Los objetivos pueden comprender un subconjunto del total de objetivos marcados en una o más muestras. El uno o más cebadores puede comprender por lo menos 96 o más cebadores personalizados. El uno o más cebadores puede comprender por lo menos 960 o más cebadores personalizados. El uno o más cebadores pueden comprender por lo menos 9600 o más cebadores personalizados. El uno o más cebadores personalizados pueden aparearse con dos o más ácidos nucleicos marcados diferentes. Los dos o más ácidos nucleicos marcados diferentes pueden corresponder a uno o más genes.
En los métodos de la presente divulgación puede usarse cualquier esquema de amplificación. Por ejemplo, en un esquema, la primera ronda de PCR puede amplificar moléculas unidas a la perla usando un cebador específico de gen y un cebador contra la secuencia del cebador 1 de secuenciación universal de Illumina. La segunda ronda de PCR puede amplificar los primeros productos de PCR usando un cebador específico de gen anidado flanqueado por la secuencia del cebador 2 de secuenciación de Illumina, y un cebador contra la secuencia del cebador 1 de secuenciación de Illumina universal. La tercera ronda de PCR añade P5 y P7 e índice de muestra para convertir los productos de PCR en una biblioteca de secuenciación de Illumina. La secuenciación usando secuenciación de 150 pb x 2 puede revelar el marcador celular y la secuencia del código de barras (por ejemplo, el marcador molecular) en la lectura 1, el gen en la lectura 2 y el índice de la muestra en la lectura 1 del índice.
En algunas realizaciones, los ácidos nucleicos pueden eliminarse del sustrato mediante escisión química. Por ejemplo, puede usarse un grupo químico o una base modificada presente en un ácido nucleico para facilitar su eliminación de un soporte sólido. Por ejemplo, puede usarse una enzima para eliminar un ácido nucleico de un sustrato. Por ejemplo, un ácido nucleico puede eliminarse de un sustrato mediante una digestión con endonucleasas de restricción. Por ejemplo, puede usarse tratamiento de un ácido nucleico que contiene un dUTP o ddUTP con uracilod-glicosilasa (UDG) para eliminar un ácido nucleico de un sustrato. Por ejemplo, un ácido nucleico puede eliminarse de un sustrato usando una enzima que realiza la escisión de nucleótidos, como una enzima de reparación por escisión de bases, como una endonucleasa apurínica/apirimidínica (AP). En algunas realizaciones, un ácido nucleico puede eliminarse de un sustrato usando un grupo fotoescindible y luz. En algunas realizaciones, puede usarse un conector escindible para eliminar un ácido nucleico del sustrato. Por ejemplo, el conector escindible puede comprender por lo menos uno de biotina/avidina, biotina/estreptavidina, biotina/neutravidina, Ig-proteína A, un conector foto-lábil, un grupo conector ácido o base-lábil, o un aptámero.
Cuando las sondas son específicas de un gen, las moléculas pueden hibridar con las sondas y transcribirse inversamente y/o amplificarse. En algunas realizaciones, una vez se ha sintetizado el ácido nucleico (por ejemplo, se ha transcrito inversamente), puede amplificarse. La amplificación puede realizarse de forma multiplex, en donde múltiples secuencias de ácidos nucleicos objetivo se amplifican simultáneamente. La amplificación puede añadir adaptadores de secuenciación al ácido nucleico.
En algunas realizaciones, la amplificación puede realizarse en el sustrato, por ejemplo, con amplificación en puente. Los ADNc pueden prolongarse con colas de homopolímero para generar un extremo compatible para la amplificación en puente usando sondas oligo(dT) en el sustrato. En la amplificación en puente, el cebador complementario al extremo 3' del ácido nucleico plantilla puede ser el primer cebador de cada par que está unido covalentemente a la partícula sólida. Cuando una muestra que contiene el ácido nucleico plantilla se pone en contacto con la partícula y se realiza un único ciclo térmico, la molécula plantilla puede aparearse con el primer cebador y el primer cebador se alarga en la dirección directa mediante la adición de nucleótidos para formar una molécula dúplex que consiste en la molécula plantilla y una cadena de ADN recién formada que es complementaria a la plantilla. En el paso de calentamiento del siguiente ciclo, la molécula dúplex puede desnaturalizarse, liberando la molécula plantilla de la partícula y dejando la cadena de ADN complementaria unida a la partícula a través del primer cebador. En la etapa de apareamiento y el paso de elongación que sigue, la cadena complementaria puede hibridar con el segundo cebador, que es complementario a un segmento de la cadena complementaria en una ubicación retirada del primer cebador. Esta hibridación puede hacer que la cadena complementaria forme un puente entre el primer y el segundo cebadores, fijado al primer cebador por un enlace covalente y al segundo cebador por hibridación. En la etapa de elongación, el segundo cebador puede alargarse en sentido inverso mediante la adición de nucleótidos en la misma mezcla de reacción, convirtiendo de este modo el puente en un puente de cadena doble. A continuación, se inicia el siguiente ciclo, y el puente de cadena doble puede desnaturalizarse para proporcionar dos moléculas de ácidos nucleicos de cadena sencilla, cada una de las cuales tiene un extremo unido a la superficie de la partícula a través del primer y del segundo cebadores, respectivamente, con el otro extremo de cada una de ellas sin unir. En el paso de apareamiento y elongación de este segundo ciclo, cada cadena puede hibridar con un cebador complementario adicional, previamente no usado, en la misma partícula, para formar nuevos puentes de cadena sencilla. Los dos cebadores no usados anteriormente que ahora están hibridados se alargan para convertir los dos nuevos puentes en puentes de cadena doble.
La amplificación de los ácidos nucleicos marcados puede comprender métodos basados en PCR o métodos no basados en PCR. La amplificación de los ácidos nucleicos marcados puede comprender la amplificación exponencial de los ácidos nucleicos marcados. La amplificación de los ácidos nucleicos marcados puede comprender la amplificación lineal de los ácidos nucleicos marcados. La amplificación puede realizarse mediante reacción en cadena de la polimerasa (PCR). La PCR puede referirse a una reacción para la amplificación in vitro de secuencias específicas de ADN mediante la extensión simultánea de cebadores de cadenas complementarias de ADN. La PCR puede abarcar formas derivadas de la reacción, incluyendo, entre otras, RT-PCR, PCR en tiempo real, PCR anidada, PCR cuantitativa, PCR multiplexada, PCR digital, PCR de supresión, PCR semisupresiva y PCR de ensamblaje.
En algunas realizaciones, la amplificación de los ácidos nucleicos marcados comprende métodos no basados en la RCP. Ejemplos de métodos no basados en PCR incluyen, pero no se limitan a, amplificación por desplazamiento múltiple (MDA), amplificación mediada por transcripción (TMA), amplificación basada en secuencia de ácido nucleico (NASBA), amplificación por desplazamiento de cadena (SDA), SDA en tiempo real, amplificación de círculo rodante o amplificación de círculo a círculo. Otros métodos de amplificación no basados en la<p>C<r>incluyen ciclos múltiples de amplificación de transcripción de ARN dependiente de ADN impulsada por ARN polimerasa o síntesis y transcripción de ADN dirigida por ARN para amplificar objetivos de ADN o ARN, una reacción en cadena de ligasa (LCR), una replicasa Qp (Qp), uso de sondas palindrómicas, amplificación por desplazamiento de cadena, amplificación impulsada por oligonucleótidos usando una endonucleasa de restricción, un método de amplificación en el que un cebador se hibrida con una secuencia de ácido nucleico y el dúplex resultante se escinde antes de la reacción de extensión y amplificación, amplificación por desplazamiento de cadena usando una polimerasa de ácido nucleico que carece de actividad exonucleasa 5', amplificación por círculo rodante, y/o amplificación por extensión ramificada (RAM).
En algunas realizaciones, los métodos divulgados en la presente comprenden además la realización de una reacción en cadena de la polimerasa anidada en el amplicón amplificado (por ejemplo, objetivo). El amplicón puede ser una molécula de cadena doble. La molécula de cadena doble puede comprender una molécula de ARN de cadena doble, una molécula de ADN de cadena doble o una molécula de ARN hibridada con una molécula de ADN. Una o ambas cadenas de la molécula de cadena doble pueden contener una marcador de muestra o un marcador de identificación molecular. Alternativamente, el amplicón puede ser una molécula de cadena sencilla. La molécula de cadena sencilla puede comprender ADN, ARN o una combinación de los mismos. Los ácidos nucleicos de la presente invención pueden comprender ácidos nucleicos sintéticos o alterados.
En algunas realizaciones, el método comprende amplificar repetidamente el ácido nucleico marcado para producir múltiples amplicones. Los métodos divulgados en la presente pueden comprender llevar a cabo por lo menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 reacciones de amplificación. Alternativamente, el método comprende realizar por lo menos aproximadamente 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 reacciones de amplificación.
La amplificación puede comprender además la adición de uno o más ácidos nucleicos de control a una o más muestras que comprenden una pluralidad de ácidos nucleicos. La amplificación puede comprender además la adición de uno o más ácidos nucleicos de control a una pluralidad de ácidos nucleicos. Los ácidos nucleicos de control pueden comprender un marcador de control.
La amplificación puede comprender el uso de uno o más nucleótidos no naturales. Los nucleótidos no naturales pueden incluir nucleótidos fotolábiles y/o activables. Ejemplos de nucleótidos no naturales incluyen, pero no se limitan a, ácido nucleico peptídico (PNA), morfolino y ácido nucleico bloqueado (LNA), así como ácido nucleico glicólico (GNA) y ácido nucleico de treosa (TNA). Los nucleótidos no naturales pueden añadirse a uno o más ciclos de una reacción de amplificación. La adición de los nucleótidos no naturales puede usarse para identificar productos como ciclos específicos o puntos temporales en la reacción de amplificación.
La realización de una o más reacciones de amplificación puede comprender el uso de uno o más cebadores. El uno o más cebadores pueden comprender uno o más oligonucleótidos. El uno o más oligonucleótidos pueden comprender por lo menos aproximadamente 7-9 nucleótidos. El uno o más oligonucleótidos pueden comprender menos de 12-15 nucleótidos. El uno o más cebadores pueden aparearse con por lo menos una parte de la pluralidad de ácidos nucleicos marcados. El uno o más cebadores pueden aparearse con el extremo 3' y/o el extremo 5' de la pluralidad de ácidos nucleicos marcados. El uno o más cebadores pueden aparearse con una región interna de la pluralidad de ácidos nucleicos marcados. La región interna puede estar por lo menos a aproximadamente 50, 100, 150, 200, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 360, 370, 380, 390, 400, 410, 420, 430, 440, 450, 460, 470, 480, 490, 500, 510, 520, 530, 540, 550, 560, 570, 580, 590, 600, 650, 700, 750, 800, 850, 900 o 1000 nucleótidos de los extremos 3' de la pluralidad de ácidos nucleicos marcados. El uno o más cebadores pueden comprender un panel fijo de cebadores. El uno o más cebadores pueden comprender por lo menos uno o más cebadores personalizados. El uno o más cebadores pueden comprender por lo menos uno o más cebadores de control. El uno o más cebadores pueden comprender por lo menos uno o más cebadores de genes constitutivos. El uno o más cebadores pueden comprender un cebador universal. El cebador universal puede aparearse con un sitio de unión del cebador universal. El uno o más cebadores personalizados pueden aparearse con el primer marcador de muestra, con el segundo marcador de muestra, con el marcador identificador molecular, al ácido nucleico o a un producto del mismo. El uno o más cebadores pueden comprender un cebador universal y un cebador personalizado. El cebador personalizado puede diseñarse para amplificar uno o más ácidos nucleicos objetivo. Los ácidos nucleicos objetivo pueden comprender un subconjunto de los ácidos nucleicos totales en una o más muestras. En algunas realizaciones, los cebadores son las sondas unidas a la matriz de la divulgación.
En algunas realizaciones, la codificación con código de barras (por ejemplo, codificación con código de barras estocásticamente) de la pluralidad de objetivos de la muestra comprende además la generación de una biblioteca indexada de los objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras) o fragmentos codificados con códigos de barras de los objetivos. Las secuencias de códigos de barras de diferentes códigos de barras (por ejemplo, los marcadores moleculares de diferentes códigos de barras estocásticos) pueden ser diferentes entre sí. La generación de una biblioteca indexada de objetivos codificados con códigos de barras incluye la generación de una pluralidad de polinucleótidos indexados a partir de la pluralidad de objetivos de la muestra. Por ejemplo, para una biblioteca indexada de objetivos codificados con códigos de barras que comprende un primer objetivo indexado y un segundo objetivo indexado, la región del marcador del primer polinucleótido indexado puede diferir de la región del marcador del segundo polinucleótido indexado en, en aproximadamente, por lo menos, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos. En algunas realizaciones, la generación de una biblioteca indexada de los objetivos codificados con códigos de barras incluye poner en contacto una pluralidad de objetivos, por ejemplo moléculas de ARNm, con una pluralidad de oligonucleótidos que incluyen una región poli(T) y una región de marcador; y llevar a cabo una síntesis de primera cadena usando una transcriptasa inversa para producir moléculas de ADNc marcadas de cadena sencilla que cada una comprenden una región de ADNc y una región de marcador, en donde la pluralidad de objetivos incluye por lo menos dos moléculas de ARNm de secuencias diferentes y la pluralidad de oligonucleótidos incluye por lo menos dos oligonucleótidos de secuencias diferentes. La generación de una biblioteca indexada de los objetivos codificados con códigos de barras puede comprender además la amplificación de las moléculas de ADNc marcadas de cadena sencilla para producir moléculas de ADNc marcadas de cadena doble; y la realización de PCR anidada en las moléculas de ADNc marcadas de cadena doble para producir amplicones marcados. En algunas realizaciones, el método puede incluir la generación de un amplicón marcado con adaptador.
La codificación con códigos de barras (por ejemplo, codificación con códigos de barras estocásticos) puede incluir el uso de códigos de barras o etiquetas de ácido nucleico para marcar moléculas individuales de ácido nucleico (por ejemplo, ADN o ARN). En algunas realizaciones, implica añadir códigos de barras o etiquetas de ADN a moléculas de ADNc a medida que se generan a partir de ARNm. Puede realizarse una PCR anidada para minimizar el sesgo de amplificación de la PCR. Pueden añadirse adaptadores para la secuenciación usando, por ejemplo, la secuenciación de próxima generación (NGS). Los resultados de la secuenciación pueden usarse para determinar marcadores celulares, marcadores moleculares y secuencias de fragmentos de nucleótidos de una o más copias de los objetivos, por ejemplo en el bloque 232 de la FIG. 2.
La FIG. 3 es una ilustración esquemática que muestra un proceso ejemplar no limitativo de generación de una biblioteca indexada de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras), como ARNm codificados con códigos de barras o fragmentos de los mismos. Como se muestra en el paso 1, el proceso de transcripción inversa puede codificar cada molécula de ARNm con un marcador molecular único, un marcador celular y un sitio de PCR universal. En particular, las moléculas de ARN 302 pueden transcribirse inversamente para producir moléculas de ADNc marcadas 304, incluyendo una región de ADNc 306, por hibridación (por ejemplo, hibridación estocástica) de un conjunto de códigos de barras (por ejemplo, códigos de barras estocásticos) 310 a la región de cola poli(A) 308 de las moléculas de ARN 302. Cada uno de los códigos de barras 310 puede comprender una región de unión al objetivo, por ejemplo una región poli(dT) 312, una región de marcador 314 (por ejemplo, una secuencia de código de barras o una molécula), y una región de PCR universal 316.
En algunas realizaciones, el marcador celular puede incluir de 3 a 20 nucleótidos. En algunas realizaciones, el marcador molecular puede incluir de 3 a 20 nucleótidos. En algunas realizaciones, cada uno de la pluralidad de códigos de barras estocásticos comprende además uno o más de un marcador universal y un marcador celular, en donde los marcadores universales son los mismos para la pluralidad de códigos de barras estocásticos en el soporte sólido y los marcadores celulares son los mismos para la pluralidad de códigos de barras estocásticos en el soporte sólido. En algunas realizaciones, el marcador universal puede incluir de 3 a 20 nucleótidos. En algunas realizaciones, el marcador celular comprende de 3 a 20 nucleótidos.
En algunas realizaciones, la región de marcador 314 puede incluir una secuencia de código de barras o un marcador molecular 318 y un marcador celular 320. En algunas realizaciones, la región de marcador 314 puede incluir una o más de un marcador universal, un marcador dimensional y un marcador celular. La secuencia de código de barras o marcador molecular 318 puede tener, puede tener aproximadamente, puede tener por lo menos, o puede tener como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos cualquiera de estos valores, nucleótidos de longitud. El marcador celular 320 puede tener, puede tener aproximadamente, puede tener por lo menos, o puede tener como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre cualquiera de estos valores, de nucleótidos de longitud. El marcador universal puede tener, puede tener aproximadamente, puede tener por lo menos, o puede tener como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre cualquiera de estos valores, nucleótidos de longitud. Los marcadores universales pueden ser los mismos para la pluralidad de códigos de barras estocásticos en el soporte sólido y los marcadores celulares son los mismos para la pluralidad de códigos de barras estocásticos en el soporte sólido. El marcador dimensional puede tener, puede tener aproximadamente, puede tener por lo menos, o puede tener como máximo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre cualquiera de estos valores, nucleótidos de longitud.
En algunas realizaciones, la región de marcador 314 puede comprender, comprender aproximadamente, comprender por lo menos, o comprender como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, o un número o un intervalo entre cualquiera de estos valores, marcadores diferentes, como una secuencia de código de barras o un marcador molecular 318 y un marcador celular 320. Cada marcador puede tener, puede tener aproximadamente, puede tener por lo menos, o puede tener como máximo 1, 2, 3, 4, 6, 7, 8, 9, 10, 20, 30, 50, 60, 70, 90, 100, o un número o un intervalo entre cualquiera de estos valores, nucleótidos de longitud. Un conjunto de códigos de barras o códigos de barras estocásticos 310 puede contener, contener aproximadamente, contener por lo menos, o puede ser como máximo, 10, 20, 40, 50, 70, 80, 90, 102, 103, 104, 105, 106, 107, 108, 109, 1010, 1011, 1012, 1013, 1014, 1015, 1020, o un número o un intervalo entre cualquiera de estos valores, códigos de barras o códigos de barras estocásticos 310. Y el conjunto de códigos de barras o códigos de barras estocásticos 310 puede, por ejemplo, contener cada uno una región de marcador única 314. Las moléculas de ADNc marcadas 304 pueden purificarse para eliminar el exceso de códigos de barras o de códigos de barras estocásticos 310. La purificación puede comprender la purificación con perlas Ampure.
Como se muestra en el paso 2, los productos del proceso de transcripción inversa del paso 1 pueden agruparse en 1 tubo y amplificarse por PCR con una 1a agrupación de cebadores de PCR y un 1° cebador de PCR universal. El agrupamiento es posible gracias a la región de marcador única 314. En particular, las moléculas de ADNc marcadas 304 pueden amplificarse para producir amplicones marcados por PCR anidados 322. La amplificación puede comprender una amplificación PCR multiplex. La amplificación puede comprender una amplificación PCR multiplex con 96 cebadores multiplex en un único volumen de reacción. En algunas realizaciones, la amplificación PCR multiplex puede utilizar, utilizar aproximadamente, utilizar por lo menos, o utilizar como máximo, 10, 20, 40, 50, 70, 80, 90, 10, 1023, 104, 105, 106, 107, 108, 109, 1010, 1011, 1012, 1013, 1014, 1015, 1020, o un número o un intervalo entre cualquiera de estos valores, cebadores multiplex en un único volumen de reacción. La amplificación puede comprender el uso de una 1a agrupación de cebadores de PCR 324 que comprende cebadores personalizados 326A-C dirigidos a genes específicos y un cebador universal 328. Los cebadores personalizados 326 pueden hibridar con una región dentro de la porción de ADNc 306' de la molécula de ADNc marcada 304. El cebador universal 328 puede hibridar con la región de PCR universal 316 de la molécula de ADNc marcada 304.
Como se muestra en el paso 3 de la FIG. 3, los productos de la amplificación PCR del paso 2 pueden amplificarse con una agrupación de cebadores PCR anidados y un 2° cebador de PCR universal. La PCR anidada puede minimizar el sesgo de amplificación por PCR. En particular, los amplicones marcados por PCR anidada 322 pueden amplificarse adicionalmente por<p>C<r>anidada. La PCR anidada puede comprender PCR multiplex con la agrupación de cebadores de PCR anidada 330 de cebadores de PCR anidada 332a-c y un 2° cebador de PCR universal 328' en un único volumen de reacción. La agrupación de cebadores de PCR anidados 328 puede contener, contener aproximadamente, contener por lo menos, o contener como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, o un número o un intervalo entre cualquiera de estos valores, cebadores de PCR anidados diferentes 330. Los cebadores de PCR anidados 332 pueden contener un adaptador 334 e hibridar con una región dentro de la porción de ADNc 306" del amplicón marcado 322. El cebador universal 328' puede contener un adaptador 336 e hibridar con la región de PCR universal 316 del amplicón marcado 322. Por tanto, el paso 3 produce el amplicón marcado con adaptador 338. En algunas realizaciones, los cebadores de PCR anidados 332 y el 2° cebador de PCR universal 328' pueden no contener los adaptadores 334 y 336. Los adaptadores 334 y 336 pueden ligarse a los productos de la PCR anidada para producir el amplicón marcado con adaptador 338.
Como se muestra en el paso 4, los productos de PCR del paso 3 pueden amplificarse por PCR para secuenciación usando cebadores de amplificación de bibliotecas. En particular, los adaptadores 334 y 336 pueden usarse para realizar uno o más ensayos adicionales en el amplicón marcado con adaptador 338. Los adaptadores 334 y 336 pueden hibridar con los cebadores 340 y 342. Uno o más cebadores 340 y 342 pueden ser cebadores de amplificación de PCR. El uno o más cebadores 340 y 342 pueden ser cebadores de secuenciación. El uno o más adaptadores 334 y 336 pueden usarse para la amplificación adicional de los amplicones marcados con adaptador 338. El uno o más adaptadores 334 y 336 pueden usarse para secuenciar el amplicón marcado con adaptador 338. El cebador 342 puede contener un índice de placa 344 para que los amplicones generados usando el mismo conjunto de códigos de barras o códigos de barras estocásticos 310 puedan secuenciarse en una reacción de secuenciación usando secuenciación de próxima generación (NGS).
Errores en los datos de secuenciación
Los métodos divulgados en la presente pueden usarse para identificar y/o corregir errores en los datos de secuenciación, por ejemplo los errores que se producen en los métodos de recuento de uno o más ácidos nucleicos objetivo. En algunas realizaciones, el error puede comprender, o ser, una supresión de uno o más nucleótidos, una sustitución de uno o más nucleótidos, una adición de uno o más nucleótidos, o cualquier combinación de los mismos. El error puede estar presente en un marcador molecular (ML), un marcador de muestra (SL) u otro marcador en un código de barras (por ejemplo, un código de barras estocástico). En algunas realizaciones, un error de datos de secuenciación puede comprender, o ser, un error inducido por PCR, un error inducido por secuenciación, un error de contaminación del cebador de transcripción inversa (RT), o cualquier combinación de los mismos. El error inducido por la PCR puede comprender, o ser, el resultado de un error de amplificación de la PCR, un sesgo de amplificación de la PCR, una amplificación insuficiente de la PCR, o cualquier combinación de los mismos. El error inducido por la secuenciación puede comprender, o ser, el resultado de una llamada de bases inexacta, una secuenciación insuficiente o cualquier combinación de los mismos. El error de contaminación del cebador RT puede ser un error provocado por un cebador de transcripción inversa que se introduce en la PCR.
Como se usa en la presente, el término "cobertura" o "profundidad de secuenciación" puede referirse al número de lecturas de un objetivo con código de barras con un ML particular y un SL particular en los datos de secuenciación. Por ejemplo, un objetivo codificado con códigos de barras puede secuenciarse varias veces. Por consiguiente, el objetivo codificado con código de barras con un ML y un SL particulares puede observarse múltiples veces. Como otro ejemplo, una célula puede contener múltiples copias de un objetivo (por ejemplo, múltiples copias de moléculas de ARNm de un gen). Estas copias múltiples del objetivo pueden codificarse con códigos de barras. Después de la amplificación por PCR (por ejemplo, bloque 228 en la FIG. 2), puede haber múltiples copias de un objetivo codificado con código de barras con un ML y SL particulares. Durante la secuenciación, pueden secuenciarse algunas o todas las copias múltiples del objetivo con código de barras con el ML y SL particulares. El número de lecturas del objetivo codificado con código de barras con el mismo ML y SL observado en los datos de secuenciación puede denominarse "cobertura" o "profundidad de secuenciación".
En algunas realizaciones, pueden identificarse y/o corregirse errores en los datos de secuenciación. Por ejemplo, las copias de un objetivo de una célula pueden codificarse con códigos de barras con diferentes ML y el mismo SL. El objetivo codificado con código de barras con un ML puede tener múltiples lecturas en los datos de secuenciación. El objetivo codificado con código de barras con un ML diferente puede tener sólo unas pocas lecturas (por ejemplo, una lectura). El primer objetivo codificado con código de barras puede tener más probabilidades de tener un m L verdadero (o ML real o de señal), en comparación con el segundo objetivo codificado con código de barras. El segundo objetivo codificado con código de barras puede incluir un ML de error (o ML falso o de ruido). Esto puede deberse a que cabe esperar que los dos ML tengan coberturas o profundidades de secuenciación similares. El último objetivo codificado con código de barras con sólo unas pocas lecturas puede ser un artefacto o error generado durante la secuenciación o la PCR.
Como otro ejemplo, el código de barras (por ejemplo, un código de barras estocástico) que se introduce en la PCR puede dar como resultado un error de contaminación del cebador RT. En algunas realizaciones, tras la transcripción inversa de moléculas de ARNm en moléculas de ADNc (por ejemplo, en el bloque 224 de la FIG. 2), los códigos de barras no incorporados a las moléculas de ADNc pueden eliminarse mediante, por ejemplo, la purificación con perlas Amptire. El método de eliminación, por ejemplo la purificación de perlas Ampure, puede no eliminar completamente los códigos de barras que no se extienden por transcripción inversa para incorporarse a moléculas de ADNc codificadas con códigos de barras (por ejemplo, moléculas de ADNc codificadas con códigos de barras estocásticos). Por ejemplo, el 15%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0,5%, 0,1%, o un intervalo entre dos cualquiera de estos valores de códigos de barras que no se extienden por la transcripción inversa para incorporarse a moléculas de ADNc con código de barras pueden no eliminarse mediante la purificación con perlas Ampure. Estos códigos de barras no eliminados pueden dar lugar a errores en los datos de secuenciación durante la amplificación de las moléculas de ADNc (por ejemplo, en el bloque 228 de la FIG. 2). Los códigos de barras entre muestras pueden ser altamente similares. Por ejemplo, los marcadores de muestra de los códigos de barras pueden ser idénticos para una muestra. Por tanto, puede producirse un cruce de PCR porque estos códigos de barras no eliminados pueden hibridar con otras moléculas de ácidos nucleicos de la misma muestra (por ejemplo, las regiones SL de moléculas de ARNm codificadas con código de barras, como las moléculas de ARNm codificadas estocásticamente con códigos de barras) durante la PCR y pueden dar lugar a errores en los datos de secuenciación denominados errores SL.
Los ML verdaderos, los ML de error y los errores de SL pueden tener distribuciones distintas. La FIG. 4 es una ilustración esquemática que muestra distribuciones ejemplares no limitativas de errores de marcadores moleculares, errores de marcadores de muestra y señales de marcadores moleculares verdaderas. Como se ilustra en la FIG. 4, puede ser más probable que los ML de error tengan una cobertura de ML inferior porque los ML de error pueden ser el resultado de errores de PCR o de secuenciación. Por ejemplo, los ML de error pueden ser el resultado de errores de secuenciación en su mayor parte y de algunos errores de PCR. Los errores de SL pueden tener más probabilidades de tener una cobertura de Ml inferior porque los errores de SL pueden ser resultados principalmente de códigos de barras (por ejemplo, códigos de barras estocásticos) que se introducen en la PCR.
Corrección de errores de PCR y secuenciación basada en la adyacencia direccional
En la presente se divulgan métodos para corregir errores de PCR o secuenciación. En algunas realizaciones, el método comprende: (a) recibir datos de secuenciación de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). Los objetivos codificados con códigos de barras pueden obtenerse codificando con códigos de barras (por ejemplo, codificando estocásticamente con códigos de barras) una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras), en donde cada uno de la pluralidad de códigos de barras comprende un marcador molecular. En algunas realizaciones, el método comprende: (b) para uno o más de la pluralidad de objetivos: (i) contar el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación; (ii) identificar agrupaciones de marcadores moleculares del objetivo usando adyacencia direccional; (iii) colapsar los datos de secuenciación recibidos en (b) usando las agrupaciones de marcadores moleculares del objetivo identificadas en (ii); y (iv) estimar el número del objetivo, en donde el número del objetivo estimado se correlaciona con el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados en (i) después de colapsar los datos de secuenciación en (ii). La pluralidad de objetivos puede comprender objetivos de todo el transcriptoma de una célula. En algunas realizaciones, el método comprende además: (c) codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos barras) la pluralidad de objetivos usando la pluralidad de códigos de barras para crear la pluralidad de objetivos codificados con códigos de barras; y (d) secuenciar los objetivos codificados con códigos de barras para generar los datos de secuenciación de objetivos codificados estocásticamente con códigos de barras recibidos.
La FIG. 5 es un diagrama de flujo que muestra una realización ejemplar no limitativa 500 de corrección de errores de PCR y secuenciación usando marcadores moleculares basada en la adyacencia direccional. La corrección de errores de PCR y secuenciación usando marcadores moleculares basada en adyacencia direccional puede denominarse corrección recursiva de errores de sustitución (RSEC). El método 500 comienza en el bloque 504 después de recibir datos de secuenciación de una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). En algunas realizaciones, el método 500 comprende además codificar estocásticamente con códigos de barras una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear la pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras), en donde cada uno de la pluralidad de códigos de barras comprende un marcador molecular. En algunas realizaciones, el método 500 comprende además secuenciar la pluralidad de objetivos codificados con códigos de barras para obtener los datos de secuenciación.
En el bloque 508, para uno o más de la pluralidad de objetivos: puede contarse el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación. En el bloque 512, pueden identificarse agrupaciones de marcadores moleculares del objetivo usando la adyacencia direccional. Los marcadores moleculares del objetivo dentro de una agrupación pueden estar dentro de un umbral de adyacencia direccional predeterminado. El umbral de adyacencia direccional puede variar. En algunas realizaciones, el umbral de adyacencia direccional predeterminado puede ser, ser aproximadamente, ser por lo menos, o ser como máximo, una distancia de Hamming de uno o dos.
En algunas realizaciones, los marcadores moleculares del objetivo dentro de la agrupación pueden comprender uno o más marcadores moleculares parentales y marcadores moleculares hijos del uno o más marcadores moleculares parentales. La aparición del marcador molecular parental puede ser mayor o igual que un umbral de aparición de adyacencia direccional predeterminado. En algunas realizaciones, el umbral de aparición de adyacencia direccional predeterminado puede ser, ser aproximadamente, ser por lo menos, o ser como máximo, el doble de la aparición de un marcador molecular hijo menos uno. En algunas realizaciones, el umbral de aparición de adyacencia direccional predeterminado puede ser, o ser de aproximadamente 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces, 10 veces, o un número o un intervalo entre dos cualquiera de estos valores, la aparición de un marcador molecular hijo. En algunas realizaciones, el umbral de aparición de adyacencia direccional predeterminado puede ser, como mínimo o como máximo 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces o 10 veces, la aparición de un marcador molecular hijo.
En el bloque 520, los datos de secuenciación se contraen usando las agrupaciones de marcadores moleculares del objetivo. Colapsar los datos de secuenciación puede comprender la atribución de la aparición del marcador molecular hijo al marcador molecular parental. En el bloque 532, el número del objetivo puede estimarse para generar la salida después de colapsar los datos de secuenciación. El método 500 termina en el bloque 536.
En algunas realizaciones, los métodos comprenden además: determinar una profundidad de secuenciación del objetivo. Estimar el número del objetivo, si la profundidad de secuenciación del objetivo está por encima de un umbral de profundidad de secuenciación predeterminado, comprende ajustar los datos de secuenciación contados en (i). El umbral de profundidad de secuenciación predeterminado puede estar entre 15 y 20. Ajustar los datos de secuenciación contados en (i) comprende: poner un umbral a los marcadores moleculares del objetivo para determinar los marcadores moleculares verdaderos y los marcadores moleculares falsos asociados al objetivo en los datos de secuenciación obtenidos en (b). Poner un umbral de marcadores moleculares del objetivo comprende realizar un análisis estadístico de los marcadores moleculares del objetivo. Realizar el análisis estadístico comprende: ajustar la distribución de los marcadores moleculares del objetivo y sus apariciones a dos distribuciones como dos distribuciones binomiales negativas; determinar el número de marcadores moleculares verdaderos n usando las dos distribuciones binomiales negativas; y eliminar los marcadores moleculares falsos de los datos de secuenciación obtenidos en (b), en donde los marcadores moleculares falsos comprenden marcadores moleculares con apariciones inferiores a la aparición del enésimo marcador molecular más abundante, y en donde los marcadores moleculares verdaderos comprenden marcadores moleculares con apariciones superiores o iguales a la aparición del enésimo marcador molecular más abundante.
Corrección de errores de PCR y secuenciación basada en la adyacencia direccional y corrección de errores basada en la distribución
En la presente se divulgan métodos para corregir errores de PCR o secuenciación. Los métodos pueden usarse para determinar el número de objetivos. En algunas realizaciones, el método comprende: (a) recibir datos de secuenciación de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). Los objetivos codificados con códigos de barras pueden obtenerse mediante codificación con códigos de barras (por ejemplo, codificación estocástica con códigos de barras) de una pluralidad de objetivos utilizando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras), en donde cada uno de la pluralidad de códigos de barras comprende un marcador molecular. En algunas realizaciones, el método comprende (b) para uno o más de la pluralidad de objetivos: (i) contar el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación; (ii) determinar un número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación; y (iii) estimar el número del objetivo, en donde el número del objetivo estimado se correlaciona con el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados en (i) ajustado de acuerdo con el número de marcadores moleculares de ruido determinado en (ii). En algunas realizaciones, el método comprende determinar un estado de secuenciación del objetivo en los datos de secuenciación. En algunas realizaciones, el método comprende además: (c) codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos de barras) la pluralidad de objetivos usando la pluralidad de códigos de barras para crear la pluralidad de objetivos codificados con códigos de barras; y (d) secuenciar los objetivos codificados con códigos de barras para generar los datos de secuenciación de objetivos codificados con códigos de barras recibidos.
La FIG. 6 es un diagrama de flujo que muestra una realización ejemplar no limitativa 600 de corrección de errores de PCR y secuenciación basada en la corrección recursiva de errores de sustitución y la corrección de errores basada en la distribución. El método 600 comienza en el bloque 604 después de recibir datos de secuenciación de una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). En algunas realizaciones, el método 600 comprende además codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos de barras) una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear la pluralidad de objetivos codificados con barras, en donde cada uno de la pluralidad de códigos de barras comprende un marcador molecular. En algunas realizaciones, el método 600 comprende además secuenciar la pluralidad de objetivos codificados con códigos de barras para obtener los datos de secuenciación.
En el bloque 608, para uno o más de la pluralidad de objetivos: puede contarse el número de marcadores moleculares con secuencias distintas asociadas al objetivo en los datos de secuenciación. En el bloque de decisión 612, puede determinarse si los datos de secuenciación tienen un estado de secuenciación saturado. Por ejemplo, puede considerarse que el objetivo tiene el estado de secuenciación saturada si tiene un número de marcadores moleculares con secuencias distintas de más de 1000,2000,3000,4000, 5000, 6000, 7000,8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 70000, 80000, 90000, 100000, o un número o un intervalo entre dos cualquiera de estos. Como otro ejemplo, puede considerarse que el objetivo tiene el estado de secuenciación saturada si tiene un número de marcadores moleculares con secuencias distintas de más del 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99,9%, o un número o un intervalo entre dos cualquiera de estos, de los marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) con secuencias distintas.
En algunas realizaciones, el estado de secuenciación saturada puede determinarse porque el objetivo que tiene un número de marcadores moleculares con secuencias distintas mayor que un umbral de saturación predeterminado. En diferentes implementaciones el umbral de saturación predeterminado puede ser diferente. Por ejemplo, el umbral de saturación predeterminado puede ser, o ser de aproximadamente, 1000, 2000, 3000, 4000, 5000, 6000, 6557, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 65532, 70000, 80000, 90000, 100000, o un número o un intervalo entre dos cualquiera de estos valores. Como otro ejemplo, el umbral de saturación predeterminado puede ser por lo menos, o como máximo, 1000, 2000, 3000, 4000, 5000, 6000, 6557, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 65532, 70000, 80000, 90000, o 100000.
En algunas realizaciones, el estado de secuenciación saturada puede depender del número de marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) con secuencias distintas. Por ejemplo, el umbral de saturación predeterminado puede ser de aproximadamente 6557 si los códigos de barras comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas. Como otro ejemplo, el umbral de saturación predeterminado puede ser de aproximadamente 65532 si los códigos de barras (por ejemplo, códigos de barras estocásticos, comprenden aproximadamente 65536 marcadores moleculares con secuencias distintas. En algunas realizaciones, el estado de secuenciación saturada puede no depender del número de marcadores moleculares de los códigos de barras con secuencias distintas.
Si los datos de secuenciación no tienen un estado de secuenciación saturado en el bloque de decisión 612, el método 600 puede proceder al bloque 616, donde los recuentos de marcadores moleculares pueden ajustarse basándose en la adyacencia direccional. En algunas realizaciones, ajustar los recuentos de marcadores moleculares basándose en la adyacencia direccional puede ser como se describe con referencia a la FIG. 5. Por ejemplo, ajustar los recuentos de marcadores moleculares basándose en la adyacencia direccional puede incluir identificar agrupaciones de marcadores moleculares del objetivo usando adyacencia direccional; colapsar los datos de secuenciación usando las agrupaciones de marcadores moleculares del objetivo identificados; y estimar el número del objetivo, en donde el número del objetivo estimado se correlaciona con el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados después de colapsar los datos de secuenciación.
En el bloque 620, puede determinarse el estado de secuenciación del objetivo en los datos de secuenciación. El estado de secuenciación del objetivo en los datos de secuenciación puede incluir, o estar, bajo secuenciación. En el bloque de decisión 624, puede determinarse si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación insuficiente. Por ejemplo, puede considerarse que el objetivo tiene el estado de secuenciación insuficiente si su profundidad (por ejemplo, una profundidad media, mínima o máxima) es menor que, o menor que aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos cualquiera de estos. Como otro ejemplo, puede considerarse que el objetivo tiene el estado de secuenciación bajo si su profundidad es menor que por lo menos, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
En algunas realizaciones, el estado de secuenciación insuficiente puede determinarse porque el objetivo tiene una profundidad (por ejemplo, una profundidad media, mínima o máxima) menor que un umbral de secuenciación insuficiente predeterminado. En diferentes implementaciones el umbral de secuenciación insuficiente puede ser diferente. Por ejemplo, el umbral de secuenciación insuficiente puede ser, o ser de aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o intervalo entre dos cualquiera de estos valores. Como otro ejemplo, el umbral de secuenciación inferior puede ser como mínimo, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
En algunas realizaciones, el estado de secuenciación insuficiente puede depender del número de marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) con secuencias distintas. Por ejemplo, el umbral de secuenciación insuficiente puede ser 10 (u otro número de umbral) si los códigos de barras comprenden, o son aproximadamente, 1000, 2000, 3000, 4000, 5000, 6000, 6561, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 65532, 70000, 80000, 90000, 100000, o un número o intervalo entre dos cualquiera de estos valores, marcadores moleculares con secuencias distintas. Como otro ejemplo, el umbral de secuenciación insuficiente puede ser 10 (u otro número de umbral) si los códigos de barras comprenden por lo menos, o como máximo, 1000, 2000, 3000, 4000, 5000, 6000, 6561, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 65532, 70000, 80000, 90000, o 100000. En algunas realizaciones, el estado de secuenciación insuficiente puede no depender del número de marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) con secuencias distintas.
En el bloque de decisión 624, si el estado de secuenciación del objetivo en los datos de secuenciación no es el estado secuenciación insuficiente, el método 600 puede proceder al bloque 628 para filtrar los recuentos de marcadores moleculares. El filtrado de los recuentos de marcadores moleculares puede incluir, en el bloque de decisión 632, determinar que el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación es menor que un umbral de pseudopuntos. En diferentes implementaciones el umbral de pseudopuntos puede ser diferente. Por ejemplo, el umbral de pseudopuntos puede ser, o ser de aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos cualquiera de estos valores si los códigos de barras (por ejemplo, códigos de barras estocásticos) comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas. Como otro ejemplo, el umbral de secuenciación de pseudopuntos puede ser por lo menos, o como máximo, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100, si los códigos de barras (por ejemplo, códigos de barras estocásticos) comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas.
En el bloque de decisión 632, si el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación es menor que el umbral de pseudopuntos, el método 600 puede proceder opcionalmente al bloque 636, donde los pseudopuntos pueden añadirse al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación antes de determinar el número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. En diferentes implementaciones los pseudopuntos pueden tener diferentes recuentos de marcadores moleculares. Por ejemplo, el recuento de marcadores moleculares de un pseudopunto puede ser, o ser de aproximadamente de, 0,0001, 0,001, 0,01, 0,1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos cualquiera de estos valores. Como otro ejemplo, el recuento de marcadores moleculares de un pseudopunto puede ser como mínimo, o como máximo, 0,0001, 0,001, 0,01, 0,1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
En el bloque de decisión 632, si el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación no es menor que el umbral de pseudopuntos, en el bloque 640 pueden eliminarse los marcadores moleculares no únicos. Los marcadores moleculares no únicos pueden eliminarse en el bloque 644 determinando el número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. En el bloque 640 los marcadores moleculares no únicos pueden incluir marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. Los marcadores moleculares no únicos pueden incluir marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación que son mayores que un umbral de marcador molecular reciclado predeterminado. En diferentes implementaciones el umbral de marcadores moleculares reciclados puede ser diferente. Por ejemplo, el umbral de marcadores moleculares reciclados puede ser, o ser de aproximadamente, 100, 200, 300, 400, 500, 600, 650, 700, 900, 1000, 2000, o un número o un intervalo entre dos cualquiera de estos valores, si los códigos de barras (por ejemplo, códigos de barras estocásticos, comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas. Como otro ejemplo, el umbral de marcadores moleculares reciclados puede ser como mínimo, o como máximo, 100, 200, 300, 400, 500, 600, 650, 700, 900, 1000, o 2000, si los códigos de barras (por ejemplo, códigos de barras estocásticos) comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas.
En algunas realizaciones, la eliminación de los marcadores moleculares no únicos comprende: determinar un número teórico de marcadores moleculares no únicos para el número de marcadores moleculares con secuencias distintas asociadas al objetivo en los datos de secuenciación. La eliminación de los marcadores moleculares no únicos puede comprender la eliminación de un marcador molecular con una aparición mayor que el enésimo marcador molecular más abundante de los marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación. El númeronpuede ser el número teórico de marcadores moleculares no únicos.
En el bloque 644, los recuentos de marcadores moleculares pueden ajustarse usando un método de corrección de errores basado en la distribución. El método de corrección de errores basado en la distribución puede incluir la determinación del número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. La determinación del número de marcadores moleculares de ruido puede comprender: ajustar dos distribuciones binomiales negativas para el número de marcadores moleculares con secuencias distintas asociadas al objetivo en los datos de secuenciación. Por ejemplo, determinar el número de marcadores moleculares de ruido puede comprender: ajustar una distribución binomial negativa de señal (una de las dos distribuciones binomiales negativas) al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados, en donde la distribución binomial negativa de señal corresponde a un número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados que son marcadores moleculares de señal. Determinar el número de marcadores moleculares de ruido puede comprender: ajustar una distribución binomial negativa de ruido (la otra de las dos distribuciones binomiales negativas) al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados, en donde la distribución binomial negativa de ruido corresponde a un número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados que son marcadores moleculares de ruido. La determinación del número de marcadores moleculares de ruido puede comprender la determinación del número de marcadores moleculares de ruido usando la distribución binomial negativa de señal ajustada y la distribución binomial negativa de ruido ajustada.
En algunas realizaciones, la determinación del número de marcadores moleculares de ruido usando la distribución binomial negativa de señal ajustada y la distribución binomial negativa de ruido ajustada comprende, para cada una de las secuencias distintas asociadas con el objetivo en los datos de secuenciación, la determinación de una probabilidad de señal de la secuencia distinta en la distribución binomial negativa de señal. También puede determinarse una probabilidad de ruido de la secuencia distinta en la distribución binomial negativa de ruido. Además, puede determinarse que la secuencia distinta es un marcador molecular de ruido si la probabilidad de señal es menor que la probabilidad de ruido. En algunas realizaciones, ajustar los recuentos de marcadores moleculares en el bloque 644 puede incluir la eliminación de singletones (por ejemplo, sustituciones de una sola base) si se encuentran menos de dos picos (porque pueden requerirse dos picos para determinar la distribución binomial negativa de señal y la distribución binomial negativa de ruido).
En el bloque 648, el número del objetivo puede estimarse para generar la salida después de las correcciones de errores basadas en la adyacencia y en la distribución. En el bloque de decisión 612, si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación saturado, el método 600 puede proceder al bloque 648 para generar la salida sin ajustar los marcadores moleculares basándose en la adyacencia direccional y la corrección de errores basada en la distribución. Por ejemplo, el número de marcadores moleculares de ruido determinadas puede ser cero.
En el bloque de decisión 624, si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación insuficiente, el método 600 puede proceder al bloque 648 para generar la salida sin ajustar los marcadores moleculares basándose en la corrección de errores basada en la distribución. Por ejemplo, el número de marcadores moleculares de ruido determinadas puede ser cero. El método 600 termina en el bloque 652.
Corrección de errores en los códigos de barras de receptores inmunitarios
Pueden producirse errores de sustitución, errores de cruce de cebadores y errores de quimeras de PCR al realizar la secuenciación y la creación de perfiles, como la secuenciación y la realización de perfiles de receptores inmunitarios. Por ejemplo, pueden producirse errores cuando se determina el número de apariciones o copias de moléculas de ARN que codifican receptores inmunitarios, como los receptores de células T. Los receptores inmunitarios incluyen genes estrechamente relacionados que están altamente diversificados. Por lo tanto, al comparar con otros genes, la posibilidad de que se produzcan errores en los datos de secuenciación puede ser mayor cuando se realizan secuenciación y los perfiles de receptores inmunitarios. Los errores a menudo llevan a una cuantificación excesiva de la diversidad del repertorio inmunitario. Los métodos para mitigar estos errores se denominan en la presente corrección de errores de código de barras de receptores inmunitarios. En algunas realizaciones, la corrección de errores de código de barras del receptor inmunitario utiliza la corrección recursiva de errores de sustitución para corregir errores de sustitución en marcadores moleculares y secuencias de nucleótidos (por ejemplo, errores de sustitución en la región 3 determinante de la complementariedad (CDR3)). Para una marcador de muestra o marcador celular dados, pueden asociarse muchas CDR3 diferentes con la misma secuencia de marcador molecular, lo que lleva a una sobreestimación de la diversidad de receptores inmunitarios. Los métodos de corrección divulgados en la presente pueden corregir las quimeras de PCR que se cruzan antes del marcado molecular y el marcado de la muestra seguido de la identificación y eliminación de marcadores moleculares de error.
En la presente se divulgan métodos para determinar apariciones de objetivos. En algunas realizaciones, el método comprende: (a) codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos barras) una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras), en donde cada uno de la pluralidad de códigos de barras comprende un marcador celular y un marcador molecular, en donde los marcadores moleculares de por lo menos dos códigos de barras de la pluralidad de códigos de barras comprenden secuencias de marcadores moleculares diferentes, y en donde por lo menos dos códigos de barras de la pluralidad de códigos de barras comprenden marcadores celulares con una secuencia de marcador celular idéntica; (b) obtener datos de secuenciación de los objetivos codificados con códigos de barras; y (c) para por lo menos un objetivo de la pluralidad de objetivos: (i) identificar secuencias putativas del objetivo en los datos de secuenciación; (ii) contar apariciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación identificados en (i); (iii) identificar agrupaciones de las secuencias putativas del objetivo; (iv) colapsar los datos de secuenciación obtenidos usando las agrupaciones de secuencias putativas del objetivo identificadas en (iii); (v) identificar agrupaciones de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; (vi) colapsar los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares identificados en (v); (vii) identificar agrupaciones de secuencias de combinación, en donde cada secuencia de combinación comprende una secuencia de las secuencias del objetivo y una secuencia de marcador molecular asociada de las secuencias de marcadores moleculares; (viii) colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas en (vii); (ix) identificar una o más secuencias putativas del objetivo que correspondan a una o más secuencias quiméricas del objetivo, en donde las apariciones de la una o más secuencias putativas del objetivo que corresponden a una o más secuencias quiméricas del objetivo son menores que las apariciones de una o más secuencias putativas restantes del objetivo que no corresponden a una o más secuencias quiméricas del objetivo; (x) eliminar de los datos de secuenciación la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo identificadas en (ix); y (xi) estimar la aparición del objetivo, en donde la aparición del objetivo estimada se correlaciona con el número de secuencias del marcador molecular contadas en (ii) después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x).
En la presente se divulgan métodos para determinar la aparición de objetivos. En algunas realizaciones, el método comprende: (a) recibir datos de secuenciación de una pluralidad de objetivos, en donde los datos de secuenciación comprenden secuencias putativas de un objetivo de la pluralidad de objetivos y apariciones de secuencias de marcadores moleculares asociadas con las secuencias del objetivo en los datos de secuenciación; (b) colapsar secuencias putativas del objetivo; (c) colapsar secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; y (d) estimar la aparición del objetivo, en donde la aparición del objetivo estimada se correlaciona con la aparición de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación después de colapsar la aparición de las secuencias putativas del objetivo en (b) y la aparición de secuencias de marcadores moleculares de ruido determinadas en (c).
Las regiones determinantes de la complementariedad (CDR) forman parte de las cadenas variables de las inmunoglobulinas (anticuerpos), generadas por las células B, y de los receptores de células T, generados por las células T. Hay tres CDR (CDR1, CDR2 y CDR3), dispuestas de manera no consecutiva, en la secuencia de aminoácidos de un dominio variable de un receptor de antígeno o un receptor inmunitario. Como los receptores de antígenos están típicamente compuestos por dos dominios variables (en dos cadenas polipeptídicas diferentes, cadena pesada y ligera), hay seis CDR, por cada par de cadena pesada y cadena ligera, que pueden entrar colectivamente en contacto con el antígeno. Como la mayor parte de la variación de secuencia asociada con las inmunoglobulinas y con los receptores de células T se encuentra en las CDR, no puede distinguirse fácilmente la variación en la secuencia de nucleótidos que codifica las CDR que resulta de uno o más errores durante la secuenciación y la variación que existe en la secuencia de nucleótidos que codifica las CDR. Dentro del dominio variable, la CDR1 y la CDR2 se encuentran en la región variable (V) de una cadena polipeptídica, y la CDR3 incluye parte de la región V, y toda la región de diversidad (D) y la región de unión (J) para una cadena pesada. Una cadena ligera contiene una región V y una región J, pero no una región D. La CDR3 es la más variable de las CDR.
La FIG. 7 es una ilustración esquemática que muestra una realización ejemplar no limitativa de la corrección de códigos de barras de receptores inmunitarios basada en la corrección recursiva de errores de sustitución (RSEC, también denominada en la presente adyacencia direccional). Los códigos de barras (por ejemplo, códigos de barras estocásticos) que comprenden marcadores celulares y marcadores moleculares pueden usarse para determinar las secuencias de moléculas de ARNm que codifican receptores inmunitarios, u objetivos de interés en general. La CDR3 incluye parte de la región V y toda la región D y la región J. Como se ilustra, pueden producirse errores de sustitución durante la preparación de la muestra y la secuenciación en las regiones D y J (indicadas con un "*"). Aunque no se ilustra, también pueden producirse errores de sustitución en la región V. Además, pueden producirse errores de secuenciación en los marcadores moleculares (ML, indicadas con un "*"). La Corrección Recursiva de Errores de Sustitución (RSEC) puede usarse para corregir tales errores. Por ejemplo, la RSEC puede usarse para ajustar primero los recuentos de las secuencias de CDR3. Posteriormente, la RSEC puede usarse para ajustar los recuentos de los marcadores moleculares. Opcionalmente, la RSEC puede usarse para ajustar los recuentos tanto de las secuencias de CDR3 como de los marcadores moleculares simultáneamente, considerando cada secuencia de CDR3 y el marcador molecular asociado en los datos de secuenciación como una secuencia. En algunas realizaciones, los recuentos de los marcadores moleculares pueden ajustarse usando primero la RSEC.
La FIG. 8 es un diagrama de flujo que muestra una realización ejemplar no limitativa 800 de corrección de errores en secuencias de nucleótidos y marcadores moleculares basada en corrección recursiva de errores de sustitución y corrección de errores en datos de secuenciación atribuibles a una o más quimeras de PCR. El método 800 comienza en el bloque 804 después de recibir los datos de secuenciación de una pluralidad de objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). En algunas realizaciones, el método 800 comprende además codificar con códigos barras (por ejemplo, codificar estocásticamente con códigos de barras) una pluralidad de objetivos usando una pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) para crear la pluralidad de objetivos codificados con códigos de barras, en donde cada uno de la pluralidad de códigos de barras comprende un marcador molecular y/o un marcador celular. En algunas realizaciones, el método 800 comprende además secuenciar la pluralidad de objetivos codificados con códigos de barras para obtener los datos de secuenciación. La pluralidad de objetivos puede incluir objetivos del transcriptoma completo de una célula, un gen (por ejemplo, un gen que codifica un receptor inmunitario, como un receptor de células T), una secuencia variable (por ejemplo, una región variable (V), una región de diversidad (D), una región de unión (J) que codifica un receptor inmunitario), o cualquier combinación de los mismos.
En el bloque 808, el método 800 puede incluir: para uno o más de la pluralidad de objetivos, determinar (por ejemplo, contar) el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación. En algunas realizaciones, contar el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación puede incluir: identificar secuencias putativas del objetivo (por ejemplo, una secuencia de receptor inmunitario, como la secuencia de CDR3) en los datos de secuenciación; y contar apariciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación identificados.
Las secuencias putativas del objetivo (por ejemplo, CDR3) pueden diferir entre sí en uno o más nucleótidos. Las secuencias son putativas en el sentido de que sólo una secuencia es la secuencia real o correcta (por ejemplo, sólo hay una secuencia CDR3 correcta por célula). Las secuencias putativas del objetivo pueden diferir entre sí en por lo menos un nucleótido.
En el bloque 812, el método 800 puede incluir ajustar los recuentos de las secuencias de nucleótidos putativas del objetivo de interés basándose en la Corrección Recursiva de Errores de Sustitución (también denominada en la presente adyacencia direccional). En algunas realizaciones, ajustar los recuentos de secuencias de nucleótidos basándose en RSEC puede ser similar a ajustar los recuentos de marcadores moleculares basándose en la adyacencia direccional descrita con referencia a la FIG. 5. Por ejemplo, ajustar los recuentos de secuencias de nucleótidos basándose en la adyacencia direccional puede incluir: identificar secuencias putativas del objetivo en los datos de secuenciación; el recuento de apariciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación identificados; identificar agrupaciones de las secuencias putativas del objetivo; y colapsar los datos de secuenciación obtenidos usando las agrupaciones de secuencias putativas del objetivo identificadas. La identificación de las agrupaciones de secuencias putativas del objetivo puede comprender identificar las agrupaciones de secuencias putativas del objetivo mediante RSEC. El colapso de los datos de secuenciación obtenidos usando las agrupaciones de secuencias putativas del objetivo identificado puede comprender: atribuir una aparición de una secuencia hija de una o más secuencias hijas a la secuencia parental de la secuencia hija.
En algunas realizaciones, las secuencias putativas del objetivo dentro de una agrupación pueden estar dentro de un primer umbral de adyacencia direccional predeterminado entre ellas. En diferentes implementaciones el primer umbral de adyacencia direccional predeterminado puede ser diferente. En algunas realizaciones, el primer umbral de adyacencia direccional puede ser una distancia de Hamming, o aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, o un número o un intervalo entre dos cualquiera de estos valores. En algunas realizaciones, el primer umbral de adyacencia direccional puede ser una distancia Hamming de por lo menos, o como máximo, 1,2, 3, 4, 5, 6, 7, 8, 9, o 10. Las secuencias putativas del objetivo dentro de la agrupación pueden comprender una o más secuencias parentales y una o más secuencias hijas de la una o más secuencias parentales. Un número de apariciones de la secuencia parental puede ser mayor o igual que un primer umbral predeterminado de apariciones de adyacencia direccional. En diferentes implementaciones el primer umbral predeterminado de aparición de adyacencia direccional puede ser diferente. En algunas realizaciones, el primer umbral de aparición de adyacencia direccional predeterminado puede ser el doble de un número de aparición de una secuencia hija menos uno. En algunas realizaciones, el primer umbral de aparición de adyacencia direccional predeterminado puede ser, o ser aproximadamente 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces, 10 veces, o un número o un intervalo entre dos cualquiera de estos valores, la aparición de una secuencia hija. En algunas realizaciones, el primer umbral de aparición de adyacencia direccional predeterminado puede ser, como mínimo o como máximo de 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces o 10 veces, la aparición de una secuencia hija.
En el bloque 816, el método 800 puede incluir ajustar los recuentos de los marcadores moleculares basándose en RSEC. En algunas realizaciones, ajustar los recuentos de marcadores moleculares basándose en la adyacencia direccional puede ser como se describe con referencia a la FIG. 5. Por ejemplo, ajustar los recuentos de marcadores moleculares basándose en la adyacencia direccional puede incluir: identificar agrupaciones de las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo; y colapsar los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares identificadas. La identificación de las agrupaciones de secuencias moleculares asociadas con las secuencias putativas del objetivo puede comprender la identificación de las agrupaciones de secuencias moleculares asociadas con las secuencias putativas del objetivo usando adyacencia direccional. Las secuencias de marcadores moleculares del objetivo dentro de una agrupación pueden estar dentro de un segundo umbral predeterminado de adyacencia direccional entre sí. El segundo umbral de adyacencia direccional predeterminado puede ser diferente en diferentes implementaciones. En algunas realizaciones, el segundo umbral de adyacencia direccional puede ser una distancia de Hamming, o aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, o un número o un intervalo entre dos de estos valores. En algunas realizaciones, el segundo umbral de adyacencia direccional puede ser una distancia de Hamming de por lo menos, o como máximo, 1,2, 3, 4, 5, 6, 7, 8, 9, o 10. Las secuencias de marcadores moleculares putativas del objetivo dentro de la agrupación pueden comprender una o más secuencias de marcadores moleculares parentales y una o más secuencias de marcadores moleculares hijas de la una o más secuencias de marcadores moleculares parentales. La aparición de la secuencia de marcador molecular parental puede ser mayor o igual que un segundo umbral de aparición de adyacencia direccional predeterminado. En diferentes realizaciones el segundo umbral predeterminado de adyacencia direccional puede ser diferente. En algunas realizaciones, el segundo umbral de aparición de adyacencia direccional predeterminado es el doble de una aparición de una secuencia de marcador molecular hija menos uno. En algunas realizaciones, el segundo umbral de aparición de adyacencia direccional predeterminado puede ser, o ser aproximadamente 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces, 10 veces, o un número o un intervalo entre dos cualquiera de estos valores, la aparición de una secuencia hija. En algunas realizaciones, el segundo umbral de aparición de adyacencia direccional predeterminado puede ser, por lo menos o como máximo 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces o 10 veces, la aparición de una secuencia hija. El colapso de los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares asociadas con las secuencias del objetivo identificada puede comprender: atribuir una aparición de una secuencia de marcador molecular hija de las una o más secuencias de marcadores moleculares hijas al marcador molecular parental de la secuencia de marcador molecular hija.
En el bloque 820, el método 800 puede incluir opcionalmente ajustar los recuentos de las secuencias de nucleótidos y marcadores moleculares al mismo tiempo basándose en RSEC. Ajustar los recuentos de las secuencias de nucleótidos y marcadores moleculares al mismo tiempo basándose en la adyacencia direccional puede incluir identificar agrupaciones de secuencias de combinación, en donde cada secuencia de combinación comprende una secuencia de las secuencias del objetivo y una secuencia de marcador molecular asociada de las secuencias de marcadores moleculares; y colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas. Identificación de las agrupaciones de secuencias de combinación puede comprender identificar agrupaciones de secuencias de combinación usando adyacencia direccional. Las secuencias de combinación dentro de una agrupación pueden estar dentro de un tercer umbral predeterminado de adyacencia direccional entre sí. En algunas realizaciones, el tercer umbral de adyacencia direccional puede ser una distancia de Hamming, o aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, o un número o un intervalo entre dos cualquiera de estos valores. En algunas realizaciones, el tercer umbral de adyacencia direccional puede ser una distancia de Hamming de por lo menos, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, o 10. Las secuencias de combinación dentro de la agrupación pueden comprender una o más secuencias de combinación parentales y una o más secuencias de combinación hijas de una o más secuencias de combinación parentales, y en donde una aparición de la secuencia de combinación parental es mayor o igual que un tercer umbral de aparición de adyacencia direccional predeterminado. En diferentes implementaciones el tercer umbral de aparición de adyacencia direccional predeterminado puede ser diferente. En algunas realizaciones, el tercer umbral de aparición de adyacencia direccional predeterminado es dos veces una aparición de una secuencia de marcador molecular hija menos uno. En algunas realizaciones, el tercer umbral de aparición de adyacencia direccional predeterminado puede ser, o ser aproximadamente de 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces, 10 veces, o un número o un intervalo entre dos cualquiera de estos valores, la aparición de una secuencia hija. En algunas realizaciones, el tercer umbral de aparición de adyacencia direccional predeterminado puede ser, por lo menos o como máximo 1,5 veces, 2 veces, 3 veces, 4 veces, 5 veces, 6 veces, 7 veces, 8 veces, 9 veces o 10 veces, la aparición de una secuencia hija. Colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas en (vii) puede comprender: atribuir una aparición de una secuencia de combinación hija de las una o más secuencias de combinación hijas a la secuencia de combinación parental de la secuencia de combinación hija.
En el bloque 824, puede determinarse opcionalmente el estado de secuenciación del objetivo en los datos de secuenciación. El estado de secuenciación del objetivo en los datos de secuenciación puede incluir, o estar, bajo secuenciación. En el bloque de decisión 828, puede determinarse opcionalmente si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación insuficiente. Por ejemplo, puede considerarse que el objetivo tiene el estado de secuenciación insuficiente si su profundidad (por ejemplo, una profundidad media, mínima o máxima) es menor que, o menor que aproximadamente, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos de estos. Como otro ejemplo, puede considerarse que el objetivo tiene el estado de secuenciación bajo si su profundidad es menor que por lo menos, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
En algunas realizaciones, el estado de secuenciación insuficiente puede determinarse porque el objetivo tiene una profundidad (por ejemplo, una profundidad media, mínima o máxima) menor que un umbral de secuenciación insuficiente predeterminado. En diferentes implementaciones el umbral de secuenciación insuficiente puede ser diferente. Por ejemplo, el umbral de secuenciación insuficiente puede ser, o ser de aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o intervalo entre dos cualquiera de estos valores. Como otro ejemplo, el umbral de secuenciación insuficiente puede ser como mínimo, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
En algunas realizaciones, el estado de secuenciación insuficiente puede depender del número de marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) con secuencias distintas. Por ejemplo, el umbral de secuenciación insuficiente puede ser 10 (u otro número de umbral) si los códigos de barras comprenden, o son aproximadamente, 1000, 2000, 3000, 4000, 5000, 6000, 6561, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 65532, 70000, 80000, 90000, 100000, o un número o intervalo entre dos cualquiera de estos valores, marcadores moleculares con secuencias distintas. Como otro ejemplo, el umbral de secuenciación insuficiente puede ser 10 (u otro número de umbral) si los códigos de barras comprenden por lo menos, o como máximo, 1000, 2000, 3000, 4000, 5000, 6000, 6561, 7000, 8000, 9000, 10000, 20000, 30000, 40000, 50000, 60000, 65532, 70000, 80000, 90000, o 100000. En algunas realizaciones, el estado de secuenciación insuficiente puede no depender del número de marcadores moleculares de los códigos de barras (por ejemplo, códigos de barras estocásticos) con secuencias distintas.
En el bloque de decisión 828, si el estado de secuenciación del objetivo en los datos de secuenciación no es el estado de secuenciación insuficiente, el método 800 puede proceder al bloque de decisión 832 para determinar si hay algún singleton (por ejemplo, sustituciones de una sola base) en las secuencias de nucleótidos y/o marcadores moleculares restantes después de los ajustes en los bloques 812, 816 y 820. Si queda por lo menos un singleton, el método 800 puede proceder al bloque 836, en donde pueden eliminarse los recuentos de marcadores moleculares correspondientes a las quimeras.
En el bloque 836, el método 800 puede incluir eliminar los recuentos de marcadores moleculares correspondientes a las quimeras. La FIG. 9 es una ilustración esquemática de un posible origen de quimeras de receptores inmunitarios (o quimeras de objetivo). Como se ilustra, muchas secuencias de CDR3 diferentes (o secuencias putativas de un objetivo) pueden tener o estar asociadas con el mismo ML (y marcador de muestra o marcador celular), lo que puede dar como resultado una diversidad de TCR sobrestimada. Dos o más secuencias de CDR3 reales pueden cruzarse durante la PCR. Por ejemplo, dos secuencias CDR3 reales, marcadas CDR3-1 y CDR3-2 en la FIG. 9, pueden asociarse con dos marcadores moleculares diferentes, marcadas ML-1 y ML-2, después de la codificación con códigos de barras (por ejemplo, después del bloque 224 en la FIG. 2). Dos (o más) secuencias de CDR3 reales pueden ser dos secuencias de CDR3 diferentes de dos células diferentes no son resultado del cruce de PCR. Pueden formarse quimeras de receptores inmunitarios durante la PCR (por ejemplo, en el bloque 228 de la FIG.
2) de tal manera que múltiples secuencias de CDR3 diferentes (por ejemplo, dos secuencias de CDR3 diferentes) pueden tener el mismo ML. Por ejemplo, ML-1 puede asociarse con CDR3-1 y un quimérico de CDR3-1 y CDR3-2. Como otro ejemplo, ML-2 puede asociarse con CDR3-2 y un quimérico de CDR3-1 y CDR3-2. Puede ser ventajoso eliminar los recuentos de marcadores moleculares correspondientes a las quimeras.
En referencia a la FIG. 8, la eliminación de recuentos de marcadores moleculares correspondientes a quimeras puede incluir la identificación de una o más secuencias putativas del objetivo que corresponden a una o más secuencias quiméricas del objetivo, en donde las apariciones de la una o más secuencias putativas del objetivo que corresponden a una o más secuencias quiméricas del objetivo son menores que las apariciones de una o más secuencias putativas restantes del objetivo que no corresponden a la una o más secuencias quiméricas del objetivo; y eliminar la una o más secuencias putativas del objetivo que correspondan a la una o más secuencias quiméricas del objetivo identificadas en los datos de secuenciación. Identificar la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo puede incluir: identificar secuencias putativas del objetivo asociadas con una secuencia de marcador molecular de la pluralidad de secuencias moleculares; e identificar una secuencia putativa de las secuencias putativas del objetivo asociadas con la una secuencia de marcador molecular con una aparición menor que un umbral de aparición quimérica como correspondiente a una secuencia quimérica de la una o más secuencias quiméricas del objetivo. El umbral de aparición quimérica puede ser diferente en diferentes implementaciones. En algunas realizaciones, el umbral de aparición quimérica puede ser una aparición de una secuencia putativa de las secuencias putativas del objetivo asociada con la secuencia de un marcador molecular que es mayor que una aparición de cualquier otra secuencia de las secuencias putativas del objetivo. En algunas realizaciones, el umbral de aparición quimérica puede ser una aparición de una secuencia putativa de las secuencias putativas del objetivo asociada con la secuencia de un marcador molecular que es mayor que una aparición de cualquier otra secuencia de las secuencias putativas del objetivo ajustada (por ejemplo, restada) por un sesgo. En diferentes implementaciones el sesgo puede ser diferente. En algunas realizaciones, el sesgo puede ser, o ser de aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o intervalo entre dos cualquiera de estos valores. En algunas realizaciones, el sesgo puede ser por lo menos, o como máximo, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
La aparición del objetivo estimada después del bloque 824 se correlaciona con el número de secuencias de marcadores moleculares contadas en el bloque 808 después de colapsar los datos de secuenciación en los bloques 812, 816 y 820. La aparición del objetivo estimada después del bloque 836 se correlaciona con el número de secuencias moleculares marcadas contadas en el bloque 808 después de colapsar los datos de secuenciación en los bloques 812, 816 y 820 y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en el bloque 836.
• [0200]
En el bloque 840, pueden añadirse opcionalmente pseudopuntos al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación antes de determinar el número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. Por ejemplo, si el número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación es inferior a un umbral de pseudopuntos, el método 800 puede incluir la adición de pseudopuntos al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación antes de determinar el número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. El umbral de pseudopuntos puede ser diferente en diferentes implementaciones. Por ejemplo, el umbral de pseudopuntos puede ser, o ser aproximadamente, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos de estos valores si los códigos de barras (por ejemplo, códigos de barras estocásticos) comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas. Como otro ejemplo, el umbral de secuenciación de pseudopuntos puede ser por lo menos, o como máximo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100, si los códigos de barras (por ejemplo, códigos de barras estocásticos) comprenden aproximadamente 6561 marcadores moleculares con secuencias distintas. Los pseudopuntos añadidos pueden tener diferentes recuentos de marcadores moleculares en diferentes implementaciones. Por ejemplo, el recuento de marcadores moleculares de un pseudopunto puede ser, o ser aproximadamente, 0,0001, 0,001, 0,01,0,1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, o un número o un intervalo entre dos cualquiera de estos valores. Como otro ejemplo, el recuento de marcadores moleculares de un pseudopunto puede ser como mínimo, o como máximo, 0,0001, 0,001, 0,01, 0,1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, o 100.
En el bloque 844, los recuentos de marcadores moleculares pueden ajustarse usando un método de corrección de errores basado en la distribución. La realización del método de corrección de errores basado en la distribución puede incluir la determinación del número de marcadores moleculares de ruido con secuencias distintas asociadas con el objetivo en los datos de secuenciación. La determinación del número de marcadores moleculares de ruido puede comprender: ajustar dos distribuciones (como dos distribuciones binomiales negativas) al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación. Por ejemplo, determinar el número de marcadores moleculares de ruido puede comprender: ajustar una distribución binomial negativa de señal (una de las dos distribuciones binomiales negativas) al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados, en donde la distribución binomial negativa de señal corresponde a un número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados que son marcadores moleculares de señal. La determinación del número de marcadores moleculares de ruido puede comprender: ajustar una distribución binomial negativa de ruido (la otra de las dos distribuciones binomiales negativas) al número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados, en donde la distribución binomial negativa de ruido corresponde a un número de marcadores moleculares con secuencias distintas asociadas con el objetivo en los datos de secuenciación contados que son marcadores moleculares de ruido. Determinar el número de marcadores moleculares de ruido puede comprender determinar el número de marcadores moleculares de ruido usando la distribución binomial negativa de señal ajustada y la distribución binomial negativa de ruido ajustada.
En algunas realizaciones, la determinación del número de marcadores moleculares de ruido usando la distribución binomial negativa de señal ajustada y la distribución binomial negativa de ruido ajustada comprende, para cada una de las secuencias distintas asociadas con el objetivo en los datos de secuenciación: determinar una probabilidad de señal de la secuencia distinta para que esté en la distribución binomial negativa de señal. Y se puede determinar una probabilidad de ruido de la secuencia distinta que se encuentra en la distribución binomial negativa de ruido. Además, puede determinarse que la secuencia distinta es un marcador molecular de ruido si la probabilidad de señal es menor que la probabilidad de ruido. En algunas realizaciones, ajustar los recuentos de marcadores moleculares en el bloque 644 puede incluir la eliminación de singletones (por ejemplo, sustituciones de una sola base) si se encuentran menos de dos picos (porque pueden requerirse dos picos para determinar la distribución binomial negativa de señal y la distribución binomial negativa de ruido).
La realización de la corrección de errores basada en la distribución después de colapsar los datos de secuenciación en los bloques 812, 816 y 820 y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en el bloque 836 puede incluir: establecer umbral para las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo para determinar las secuencias de marcadores moleculares de señal y las secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación contados en el bloque 808 después de colapsar los datos de secuenciación en los bloques 812, 816 y 820 y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en el bloque 836. Establecer umbral para las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo puede comprender realizar un análisis estadístico de las secuencias de marcadores moleculares del objetivo. Realizar el análisis estadístico puede comprender: ajustar las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo y sus apariciones a dos distribuciones binomiales negativas; determinar una aparición de secuencias de marcadores moleculares de señal n usando las dos distribuciones binomiales negativas; y eliminar las secuencias de ruido de marcadores moleculares de los datos de secuenciación obtenidos en (b) después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x), en donde las secuencias de marcadores moleculares de ruido comprenden secuencias de marcadores moleculares con apariciones inferiores a una aparición del enésimo marcador molecular más abundante, y en donde las secuencias de marcadores moleculares de señal comprenden secuencias de marcadores moleculares con apariciones superiores o iguales a la aparición del enésimo marcador molecular más abundante. Las dos distribuciones binomiales negativas pueden comprender una primera distribución binomial negativa correspondiente a las secuencias de marcadores moleculares de señal y una segunda distribución binomial negativa correspondiente a las secuencias de marcadores moleculares de ruido.
En el bloque 848, el número del objetivo puede estimarse para generar la salida después de las correcciones de errores basadas en la adyacencia y en la distribución. En el bloque de decisión 828, si el estado de secuenciación del objetivo en los datos de secuenciación es el estado de secuenciación insuficiente, el método 800 puede proceder al bloque 848 para generar la salida sin ajustar los marcadores moleculares basándose en la corrección de errores basada en la distribución. Por ejemplo, el número de marcadores moleculares de ruido puede ser cero. En el bloque de decisión 832, si no quedan singletones en los datos de secuenciación ajustados, el método 800 puede proceder al bloque 848 para generar la salida sin ajustar los marcadores moleculares basándose en la corrección de errores basada en la distribución. El método 800 finaliza en el bloque 852.
Secuenciación
En algunas realizaciones, estimar el número de diferentes objetivos marcados o codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras) puede comprender determinar las secuencias de los objetivos marcados, el marcador espacial, el marcador molecular, el marcador de muestra, el marcador celular o cualquier producto de los mismos (por ejemplo, amplicones marcados o moléculas de ADNc marcados). Un objetivo amplificado puede someterse a secuenciación. Determinar la secuencia del objetivo codificado con código de barras (por ejemplo, el objetivo codificado estocásticamente con código de barras) o cualquier producto de la misma puede comprender la realización de una reacción de secuenciación para determinar la secuencia de por lo menos una parte de un marcador de muestra, un marcador espacial, un marcador celular, un marcador molecular, por lo menos una parte del objetivo codificado con código de barras, un complemento de los mismos, un complemento inverso de los mismos, o cualquier combinación de los mismos.
La determinación de la secuencia de un objetivo codificado con código de barras o un objetivo codificado estocásticamente con código de barras (por ejemplo, ácido nucleico amplificado, ácido nucleico marcado, copia de ADNc de un ácido nucleico marcado, etc.) puede realizarse usando una variedad de métodos de secuenciación incluyendo, pero no limitados a, secuenciación por hibridación (SBH), secuenciación por ligadura (SBL), secuenciación por adición cuantitativa de nucleótidos fluorescentes incrementales (QIFNAS), ligadura y escisión por pasos, transferencia de energía por resonancia de fluorescencia (FRET), balizas moleculares, digestión con sonda reportera TaqMan, pirosecuenciación, secuenciación in situ fluorescente (FISSEQ), perlas FISSEQ, secuenciación wobble, secuenciación multiplex, secuenciación de colonias polimerizadas (POLONY); secuenciación en círculo rodante nanogrid (ROLONY), ensayos de ligadura de oligo específicos de alelos (por ejemplo, ensayo de ligadura de oligo (OLA), OLA de molécula de plantilla única usando una sonda lineal ligada y una lectura de amplificación de círculo rodante (RCA), sondas de candado ligadas, u OLA de molécula de plantilla única usando una sonda de candado circular ligada y una lectura de amplificación de círculo rodante (RCA), y similares.
En algunas realizaciones, la determinación de la secuencia del objetivo codificado con código de barras (por ejemplo, un objetivo codificado estocásticamente con código de barras) o de cualquier producto de la misma comprende secuenciación de extremos emparejados, secuenciación de nanoporos, secuenciación de alto rendimiento, secuenciación de escopeta, secuenciación de colorante-terminador, secuenciación de ADN de cebadores múltiples, caminata de cebadores, secuenciación dideoxídica de Sanger, secuenciación de Maxim-Gilbert, pirosecuenciación, secuenciación de molécula única real o cualquier combinación de las mismas. Alternativamente, la secuencia del objetivo codificado con código de barras o cualquier producto de la misma puede determinarse mediante microscopía electrónica o una matriz de transistores de efecto de campo químico-sensibles (chemFET).
También pueden utilizarse métodos de secuenciación de alto rendimiento, como la secuenciación por matrices cíclica usando plataformas como Roche 454, Illumina Solexa, ABI-SOLiD, ION Torrent, Complete Genomics, Pacific Bioscience, Helicos o la plataforma Polonator. En algunas realizaciones, la secuenciación puede comprender la secuenciación MiSeq. En algunas realizaciones, la secuenciación puede comprender la secuenciación HiSeq.
Los objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras) pueden comprender ácidos nucleicos que representen de aproximadamente el 0,01% de los genes del genoma de un organismo a aproximadamente el 100% de los genes del genoma de un organismo. Por ejemplo, puede secuenciarse de aproximadamente el 0,01% de los genes del genoma de un organismo hasta aproximadamente el 100% de los genes del genoma de un organismo usando una región complementaria del objetivo que comprende una pluralidad de multímeros mediante la captura de los genes que contienen una secuencia complementaria de la muestra. En algunas realizaciones, los objetivos codificados con códigos de barras comprenden ácidos nucleicos que representan de aproximadamente el 0,01% de los transcritos del transcriptoma de un organismo hasta aproximadamente el 100% de los transcritos del transcriptoma de un organismo. Por ejemplo, puede secuenciarse de aproximadamente el 0,501% de los transcritos del transcriptoma de un organismo hasta aproximadamente el 100% de los transcritos del transcriptoma de un organismo usando una región complementaria del objetivo que comprende una cola poli(T) mediante la captura de los ARNm de la muestra.
La determinación de las secuencias de las marcadores espaciales y los marcadores moleculares de la pluralidad de códigos de barras (por ejemplo, códigos de barras estocásticos) puede incluir la secuenciación del 0,00001%, 0,0001%, 0,001%, 0,01%, 0,1%, 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 99%, 100%, o un número o un intervalo entre dos cualquiera de estos valores, de la pluralidad de códigos de barras. La determinación de las secuencias de los marcadores de la pluralidad de códigos de barras, por ejemplo los marcadores de muestra, los marcadores espaciales y los marcadores moleculares, puede incluir la secuenciación de 1, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 103, 104, 105, 106, 107, 108, 109, 1010, 1011, 1012, 1013, 1014, 1015, 1016, 1017, 1018, 1019, 1020, o un número o un intervalo entre dos cualquiera de estos valores, de la pluralidad de códigos de barras. La secuenciación de una parte o de la totalidad de la pluralidad de códigos de barras puede incluir la generación de secuencias con longitudes de lectura de, de aproximadamente, de por lo menos, o de como máximo, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, o un número o un intervalo entre dos cualquiera de estos valores, de nucleótidos o bases.
La secuenciación puede comprender la secuenciación de por lo menos o por lo menos aproximadamente 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 o más nucleótidos o pares de bases de los objetivos codificados con códigos de barras (por ejemplo, objetivos codificados estocásticamente con códigos de barras). Por ejemplo, la secuenciación puede comprender la generación de datos de secuenciación con secuencias con longitudes de lectura de 50, 75, o 100, o más nucleótidos mediante la realización de amplificación por reacción en cadena de la polimerasa (PCR) de la pluralidad de objetivos codificados con códigos de barras. La secuenciación puede comprender la secuenciación de por lo menos o por lo menos aproximadamente 200, 300, 400, 500, 600, 700, 800, 900, 1.000 o más nucleótidos o pares de bases de los objetivos codificados con códigos de barras. La secuenciación puede comprender secuenciar por lo menos o por lo menos aproximadamente 1500, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, o 10000 o más nucleótidos o pares de bases de los objetivos codificados con códigos de barras.
La secuenciación puede comprender por lo menos aproximadamente 200, 300, 400, 500, 600, 700, 800, 900, 1.000 o más lecturas de secuenciación por serie. En algunas realizaciones, la secuenciación comprende secuenciar por lo menos o por lo menos aproximadamente 1500, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000 o 10000 o más lecturas de secuenciación por serie. La secuenciación puede comprender menos o igual a aproximadamente 1.600.000.000 lecturas de secuenciación por serie. La secuenciación puede comprender menos o igual a 200.000.000 de lecturas por serie.
Muestras
En algunas realizaciones, la pluralidad de objetivos puede estar comprendida en una o más muestras. Una muestra puede comprender una o más células, o ácidos nucleicos de una o más células. Una muestra puede ser una única célula o ácidos nucleicos de una única célula. La una o más células pueden ser de uno o más tipos celulares. Por lo menos uno de los uno o más tipos celulares puede ser célula cerebral, célula cardiaca, célula cancerosa, célula tumoral circulante, célula de órgano, célula epitelial, célula metastásica, célula benigna, célula primaria, célula circulatoria, o cualquier combinación de las mismas.
Una muestra para su uso en el método de la divulgación puede comprender una o más células. Una muestra puede referirse a una o más células. En algunas realizaciones, la pluralidad de células puede incluir uno o más tipos de células. Por lo menos uno de los uno o más tipos celulares puede ser célula cerebral, célula cardiaca, célula cancerosa, célula tumoral circulante, célula de órgano, célula epitelial, célula metastásica, célula benigna, célula primaria, célula circulatoria, o cualquier combinación de las mismas. En algunas realizaciones, las células son células cancerosas extirpadas de un tejido canceroso, por ejemplo, cáncer de mama, cáncer de pulmón, cáncer de colon, cáncer de próstata, cáncer de ovario, cáncer de páncreas, cáncer cerebral, melanoma y cánceres de piel no melanoma, y similares. En algunas realizaciones, las células se derivan de un cáncer pero se recogen de un fluido corporal (por ejemplo, células tumorales circulantes). Ejemplos no limitativos de cánceres pueden incluir adenoma, adenocarcinoma, carcinoma de células escamosas, carcinoma de células basales, carcinoma de células pequeñas, carcinoma indiferenciado de células grandes, condrosarcoma y fibrosarcoma. La muestra puede incluir un tejido, una monocapa celular, células fijadas, una sección de tejido o cualquier combinación de los mismos. La muestra puede incluir una muestra biológica, una muestra clínica, una muestra ambiental, un fluido biológico, un tejido o una célula de un sujeto. La muestra puede obtenerse de un humano, un mamífero, un perro, una rata, un ratón, un pez, una mosca, un gusano, una planta, un hongo, una bacteria, un virus, un vertebrado o un invertebrado.
En algunas realizaciones, las células son células que han sido infectadas con virus y contienen oligonucleótidos virales. En algunas realizaciones, la infección vírica puede estar provocada por un virus como los virus de ADN de cadena sencilla (cadena o "sentido") (por ejemplo, parvovirus), o virus de ARN de cadena doble (por ejemplo, reovirus). En algunas realizaciones, las células son bacterias. Pueden ser bacterias grampositivas o gramnegativas. En algunas realizaciones, las células son hongos. En algunas realizaciones, las células son protozoos u otros parásitos.
Como se usa en la presente, el término "célula" puede referirse a una o más células. En algunas realizaciones, las células son células normales, por ejemplo, células humanas en diferentes etapas de desarrollo, o células humanas de diferentes órganos o tipos de tejido. En algunas realizaciones, las células son células no humanas, por ejemplo, otros tipos de células de mamíferos (por ejemplo, ratón, rata, cerdo, perro, vaca o caballo). En algunas realizaciones, las células son otros tipos de células animales o vegetales. En otras realizaciones, las células pueden ser células procariotas o eucariotas.
Software de análisisyvisualización dedatos
Análisis y visualización de datos de la resolución espacial de los objetivos
La divulgación proporciona métodos para estimar el número y la posición de objetivos codificados con códigos de barras (por ejemplo, codificación con códigos de barras estocástica) y recuento digital usando marcadores espaciales. Los datos obtenidos de los métodos de la divulgación pueden visualizarse en un mapa. Puede construirse un mapa del número y ubicación de los objetivos de una muestra usando la información generada usando los métodos descritos en la presente. El mapa puede usarse para localizar la ubicación física de un objetivo. El mapa puede utilizarse para identificar la ubicación de múltiples objetivos. Los múltiples objetivos pueden ser la misma especie de objetivo, o los objetivos múltiples pueden ser múltiples objetivos diferentes. Por ejemplo, puede construirse un mapa de un cerebro para mostrar el recuento digital y la ubicación de múltiples objetivos.
El mapa puede generarse a partir de los datos de una única muestra. El mapa puede construirse usando datos de múltiples muestras, generando de este modo un mapa combinado. El mapa puede construirse con datos de decenas, cientos y/o miles de muestras. Un mapa construido a partir de múltiples muestras puede mostrar una distribución de recuentos digitales de objetivos asociados con regiones comunes a las múltiples muestras. Por ejemplo, los ensayos replicados pueden mostrarse en el mismo mapa. Por lo menos 1, 2, 3, 4, 5, 6, 7, 8, 9, o 10 o más réplicas pueden mostrarse (por ejemplo, superpuestas) en el mismo mapa. Como máximo, pueden visualizarse (por ejemplo, superponerse) 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 o más réplicas en el mismo mapa. La distribución espacial y el número de objetivos pueden representarse mediante una variedad de estadísticas.
La combinación de datos de múltiples muestras puede aumentar la resolución de localización del mapa combinado. La orientación de múltiples muestras puede registrarse mediante puntos de referencia comunes, en donde las mediciones de localización individuales de las muestras son, por lo menos en parte, no contiguas. Un ejemplo concreto es seccionar una muestra usando un micrótomo en un eje y, a continuación, seccionar una segunda muestra a lo largo de un acceso diferente. El conjunto de datos combinados proporcionará ubicaciones espaciales tridimensionales asociadas a recuentos digitales de objetivos. La multiplexación del enfoque anterior permitirá obtener mapas tridimensionales de alta resolución de las estadísticas de recuento digital.
En algunas realizaciones del sistema de instrumentos, el sistema comprenderá medios legibles por ordenador que incluyan código para proporcionar análisis de datos para los conjuntos de datos de secuencias generados realizando ensayos de codificación con códigos de barras unicelulares (por ejemplo, ensayos de codificación con códigos de barras estocásticos). Los ejemplos de funcionalidad de análisis de datos que puede proporcionar el software de análisis de datos incluyen, entre otros, (i) algoritmos para decodificar/demultiplexar el marcador de muestra, el marcador celular, el marcador espacial y el marcador molecular, y los datos de la secuencia objetivo proporcionados por la secuenciación de la biblioteca de códigos de barras (por ejemplo, biblioteca de códigos de barras estocásticos) creados en la realización del ensayo, (ii) algoritmos para determinar el número de lecturas por gen y por célula, y el número de moléculas de transcripción únicas por gen y por célula, basándose en los datos, y creando tablas de resumen, (iii) análisis estadístico de los datos de secuencia, por ejemplo, para agrupar células según los datos de expresión génica, o para predecir intervalos de confianza para las determinaciones del número de moléculas de transcripción por gen y por célula, etc, (iv) algoritmos para identificar subpoblaciones de células raras, por ejemplo, usando análisis de componentes principales, agrupación jerárquica, agrupación media k, mapas autoorganizativos, redes neuronales, etc., (v) capacidades de alineación de secuencias para alinear datos de secuencias de genes con secuencias de referencia conocidas y detectar mutaciones, marcadores polimórficos y variantes de corte y empalme, y (vi) agrupación automatizada de marcadores moleculares para compensar errores de amplificación o secuenciación. En algunas realizaciones, puede usarse software disponible comercialmente para realizar todo o parte del análisis de datos, por ejemplo, puede usarse el software Seven Bridges (https://www.sbgenomics.com/) para compilar tablas del número de copias de uno o más genes que se producen en cada célula para toda la colección de células. En algunas realizaciones, el software de análisis de datos puede incluir opciones para la salida de los resultados de secuenciación en formatos gráficos útiles, por ejemplo, mapas de calor que indican el número de copias de uno o más genes que se producen en cada célula de una colección de células. En algunas realizaciones, el software de análisis de datos puede comprender además algoritmos para extraer el significado biológico de los resultados de la secuenciación, por ejemplo, correlacionando el número de copias de uno o más genes que se producen en cada célula de una colección de células con un tipo de célula, un tipo de célula rara, o una célula derivada de un sujeto que tiene una enfermedad o afección específica. En alguna realización, el software de análisis de datos puede comprender además algoritmos para comparar poblaciones de células a través de diferentes muestras biológicas.
En algunas realizaciones, toda la funcionalidad de análisis de datos puede empaquetarse dentro de un único paquete de software. En algunas realizaciones, el conjunto completo de capacidades de análisis de datos puede comprender una suite de paquetes de software. En algunas realizaciones, el software de análisis de datos puede ser un paquete independiente que se pone a disposición de los usuarios independientemente del sistema del instrumento de ensayo. En algunas realizaciones, el software puede estar basado en la web, y puede permitir a los usuarios compartir datos.
En algunas realizaciones, toda la funcionalidad de análisis de datos puede empaquetarse dentro de un único paquete de software. En algunas realizaciones, el conjunto completo de capacidades de análisis de datos puede comprender una suite de paquetes de software. En algunas realizaciones, el software de análisis de datos puede ser un paquete independiente que se pone a disposición de los usuarios independientemente del sistema del instrumento de ensayo. En algunas realizaciones, el software puede estar basado en la web, y puede permitir a los usuarios compartir datos.
Procesadores de sistema y redes
En general, el ordenador o procesador adecuado para su uso en los métodos de los sistemas de instrumentos actualmente divulgados, como se ilustra en la FIG. 10, puede entenderse además como un aparato lógico que puede leer instrucciones de los medios 1011 o un puerto de red 1005, que opcionalmente puede conectarse al servidor 1009 que tiene medios fijos 1012. El sistema 1000, como se muestra en la FIG. 10 puede incluir una CPU 1001, unidades de disco 1003, dispositivos de entrada opcionales como teclado 1015 o ratón 1016 y monitor opcional 1007. La comunicación de datos puede lograrse a través del medio de comunicación indicado a un servidor en una ubicación local o remota. El medio de comunicación puede incluir cualquier medio de transmisión o recepción de datos. Por ejemplo, el medio de comunicación puede ser una conexión de red, una conexión inalámbrica o una conexión a Internet. Dicha conexión puede permitir la comunicación a través de la World Wide Web. Se prevé que los datos relacionados con la presente divulgación puedan ser transmitidos a través de tales redes o conexiones para su recepción o revisión por una parte 1022 como se ilustra en la FIG. 10.
La FIG. 11 ilustra una realización ejemplar de un primer ejemplo de arquitectura de un sistema informático 1100 que puede ser usado en conexión con realizaciones de ejemplo de la presente divulgación. Como se representa en la FIG. 11, el sistema informático de ejemplo puede incluir un procesador 1102 para procesar instrucciones. Ejemplos no limitativos de procesadores incluyen: procesador Intel XeonTM, procesador AMD Opteron™, procesador Samsung 32-bit RISC ARM 1176JZ(F)-S v1.0™, procesador ARM Cortex-A8 Samsung S5PC100TM, procesador ARM Cortex-A8 Apple A4TM, procesador Marvell PXA930TM, o un procesador funcionalmente equivalente. Pueden usarse múltiples hilos de ejecución para el procesamiento en paralelo. En algunas realizaciones, también pueden usarse múltiples procesadores o procesadores con múltiples núcleos, ya sea en un único sistema informático, en un clústero distribuidos a través de sistemas sobre una red que comprende una pluralidad de ordenadores, teléfonos móviles o dispositivos de asistente de datos personales.
Como se ilustra en la FIG. 11, puede conectarse un cache de alta velocidad 1104, o incorporarse en, el procesador 1102 para proveer una memoria de alta velocidad para instrucciones o datos que han sido recientemente, o son frecuentemente, usados por el procesador 1102. El procesador 1102 está conectado a un puente norte 1106 por un bus de procesador 1108. El puente norte 1106 está conectado a la memoria de acceso aleatorio (RAM) 1110 mediante un bus de memoria 1112 y gestiona el acceso a la RAM 1110 por parte del procesador 1102. El puente norte 1106 también está conectado a un puente sur 1114 por un bus de chipset 1116. El puente sur 1114 está, a su vez, conectado a un bus periférico 1118. El bus periférico puede ser, por ejemplo, PCI, PCI-X, PCI Express u otro bus periférico. El puente norte y el puente sur se denominan a menudo chipset del procesador y gestionan la transferencia de datos entre el procesador, la RAM y los componentes periféricos en el bus periférico 1118. En algunas arquitecturas alternativas, la funcionalidad del puente norte puede incorporarse en el procesador en lugar de usar un chip de puente norte separado.
En algunas realizaciones, el sistema 1100 puede incluir una tarjeta aceleradora 1122 conectada al bus periférico 1118. La aceleradora puede incluir matrices de puertas programables en campo (FPGA) u otro hardware para acelerar ciertos procesamientos. Por ejemplo, una aceleradora puede usarse para la reestructuración adaptativa de datos o para evaluar expresiones algebraicas usadas en el procesamiento de conjuntos extendidos.
El software y los datos se almacenan en el almacenamiento externo 1124 y pueden cargarse en la memoria RAM 1110 o en la memoria caché 1104 para su uso por el procesador. El sistema 1100 incluye un sistema operativo para gestionar los recursos del sistema; ejemplos no limitativos de sistemas operativos incluyen: Linux, Windows™, MACOS™, BlackBerry OS™, iOS™, y otros sistemas operativos funcionalmente equivalentes, así como software de aplicación que se ejecuta sobre el sistema operativo para gestionar el almacenamiento de datos y la optimización de acuerdo con realizaciones de ejemplo de la presente invención.
En este ejemplo, el sistema 1100 también incluye tarjetas de interfaz de red (NIC) 1120 y 1121 conectadas al bus periférico para proporcionar interfaces de red a almacenamiento externo, como Network Attached Storage (NAS) y otros sistemas informáticos que pueden usarse para procesamiento paralelo distribuido.
La FIG. 12 ilustra un diagrama ejemplar que muestra una red 1200 con una pluralidad de sistemas informáticos 1202a, y 1202b, una pluralidad de teléfonos móviles y asistentes de datos personales 1202c, y Almacenamiento Conectado a Red (NAS) 1204a, y 1204b adecuados para su uso en los métodos de la divulgación. En realizaciones de ejemplo, los sistemas 1212a, 1212b, y 1212c pueden gestionar el almacenamiento de datos y optimizar el acceso a datos almacenados en Almacenamiento Conectado a Red (NAS) 1214a y 1214b. Puede usarse un modelo matemático para los datos y evaluarse usando procesamiento paralelo distribuido a través de los sistemas informáticos 1212a, y 1212b, y los sistemas de teléfono móvil y asistente personal de datos 1212c. Los sistemas informáticos 1212a, y 1212b, y los sistemas de teléfono móvil y asistente de datos personales 1212c también pueden proporcionar procesamiento paralelo para la reestructuración adaptativa de los datos almacenados en el Almacenamiento Adjunto a la Red (NAS) 1214a y 1214b. La FIG. 12 ilustra sólo un ejemplo, y puede usarse una amplia variedad de otras arquitecturas y sistemas informáticos junto con las varias realizaciones de la presente invención. Por ejemplo, puede usarse un servidor blade para proporcionar procesamiento en paralelo. Los procesadores blade pueden conectarse a través de un plano posterior para proporcionar procesamiento en paralelo. El almacenamiento también puede conectarse al plano posterior o como almacenamiento conectado a la red (NAS) a través de una interfaz de red independiente.
En algunas realizaciones de ejemplo, los procesadores pueden mantener espacios de memoria separados y transmitir datos a través de interfaces de red, plano posterior u otros conectores para su procesamiento en paralelo por otros procesadores. En otras realizaciones, algunos o todos los procesadores pueden usar un espacio de memoria de dirección virtual compartido.
La FIG. 13 ilustra un diagrama de bloques ejemplar de un sistema informático multiprocesador 1300 que usa un espacio de memoria de dirección virtual compartido de acuerdo con una realización de ejemplo. El sistema incluye una pluralidad de procesadores 1302a-f que pueden accedera un subsistema de memoria compartida 1304. El sistema incorpora una pluralidad de procesadores de algoritmo de memoria de hardware programable (MAPs) 1306a-f en el subsistema de memoria 1304. Cada MAP 1306a-f puede comprender una memoria 1308a-f y una o más matrices de puertas programables en campo (FPGAs) 1310a-f. El MAP proporciona una unidad funcional configurable y algoritmos particulares o porciones de algoritmos pueden ser proporcionados a las FPGAs 1310a-f para su procesamiento en estrecha coordinación con un procesador respectivo. Por ejemplo, los MAPs pueden usarse para evaluar expresiones algebraicas con respecto al modelo de datos y para realizar la reestructuración adaptativa de datos en realizaciones de ejemplo. En este ejemplo, cada MAP es accesible globalmente por todos los procesadores para estos propósitos. En una configuración, cada MAP puede usar Acceso Directo a Memoria (DMA) para accedera una memoria asociada 1308a-f, permitiéndole ejecutar tareas independientemente de, y asíncronamente desde, el microprocesador 1302a-f respectivo. En esta configuración, un MAP puede alimentar resultados directamente a otro MAP para segmentación y ejecución en paralelo de algoritmos.
Las arquitecturas y sistemas informáticos anteriores son sólo ejemplos, y puede usarse una amplia variedad de otras arquitecturas y sistemas informáticos, de teléfonos móviles y de asistentes personales de datos en relación con las realizaciones de ejemplo, incluyendo los sistemas que usan cualquier combinación de procesadores generales, coprocesadores, FPGA y otros dispositivos lógicos programables, sistemas en chips (SOC), circuitos integrados específicos para aplicaciones (ASIC) y otros elementos lógicos y de procesamiento. En algunas realizaciones, todo o parte del sistema informático puede implementarse en software o hardware. Puede usarse cualquier medio de almacenamiento de datos en relación con las realizaciones de ejemplo, incluyendo memoria de acceso aleatorio, discos duros, memoria flash, unidades de cinta, matrices de discos, almacenamiento conectado a red (NAS) y otros dispositivos y sistemas de almacenamiento de datos locales o distribuidos.
En realizaciones de ejemplo, el subsistema informático de la presente divulgación puede implementarse usando módulos de software que se ejecuten en cualquiera de las arquitecturas y sistemas informáticos anteriores u otros. En otras realizaciones, las funciones del sistema pueden implementarse parcial o totalmente en firmware, dispositivos lógicos programables como matrices de puertas programables en campo (FPGA), sistemas en chips (SOL), circuitos integrados de aplicación específica (ASIC) u otros elementos lógicos y de procesamiento. Por ejemplo, el procesador de conjuntos y el optimizador pueden implementarse con aceleración de hardware mediante el uso de una tarjeta aceleradora de hardware, como una tarjeta aceleradora.
EJEMPLOS
Algunos aspectos de las realizaciones analizadas anteriormente se describen con más detalle en los siguientes ejemplos, que no se pretende en modo alguno que limiten el alcance de la presente divulgación.
Ejemplo 1
Cobertura de ML de cada ML en una placa para un gen de alta expresión - ACTB
Este ejemplo demuestra que las distintas distribuciones de los errores de ML derivados durante la secuenciación o la PCR generalmente tienen distribuciones distintas de los ML verdaderos.
Además del recuento absoluto de la expresión génica y la corrección del sesgo de la PCR, los ML pueden proporcionar una mejor comprensión de la calidad estadística del procedimiento de preparación de bibliotecas y de los datos de secuenciación. Al observar el número de lecturas que presentan el mismo ML génico, denominado cobertura de ML, es posible detectar para la secuenciación llamadas de bases erróneas o errores de PCR generados durante la preparación de bibliotecas. Por ejemplo, un gen de ML de una SL dada que está representado por múltiples lecturas es probablemente una medida precisa en comparación con un gen de ML de una SL dada que está representado por una sola lectura. Los códigos de barras de baja cobertura de ML en presencia de códigos de barras de alta cobertura de ML en la misma biblioteca son a menudo artefactos o errores generados durante la ejecución de la secuenciación o los pasos de PCR durante la preparación de la biblioteca. Los errores de ML derivados durante la secuenciación o la PCR generalmente tienen distribuciones distintas de los ML verdaderos. La FIG. 15 es un ejemplo de gráfico que muestra la cobertura del marcador molecular de cada marcador molecular en una placa de micropocillos para un gen de alta expresión, ACTB, donde se observaron distribuciones distintas entre los marcadores moleculares de error y los marcadores moleculares reales. La FIG. 16 es un gráfico ejemplar que muestra el ajuste de dos distribuciones binomiales negativas a la cobertura del marcador molecular de cada marcador molecular a través de una placa de micropocillos para un gen ACTB de alta expresión. El ajuste de dos distribuciones binomiales negativas demuestra que pueden distinguirse estadísticamente los errores de marcador molecular con una profundidad de marcador molecular más baja y el marcador molecular verdadero con una profundidad de marcador molecular más alta. El eje x es la profundidad molecular.
En conjunto, estos datos demuestran que los errores de ML derivados durante la secuenciación o la PCR generalmente tienen distribuciones distintas de los ML verdaderos.
Ejemplo 2
Corrección de marcadores moleculares debida a errores de PCR o de sustitución de secuenciación
Este ejemplo demuestra un método para corregir marcadores moleculares debido a errores de sustitución de PCR y secuenciación que puede aplicarse a ensayos de transcriptoma completo sin la suposición de una cobertura uniforme y sin requerir una alta cobertura de secuenciación para el estado de secuenciación completo.
La deduplicación se realizó en la primera coordenada de mapeo y marcadores moleculares únicos (UMI) de cada lectura, y se asumió que las lecturas eran idénticas dada la misma coordenada de inicio, UML y cadena. Tras la deduplicación, se retuvieron las UML con los recuentos más altos por agrupación (Tabla 13).
Los marcadores moleculares (ML) se corrigieron en base a cada gen. Para cada gen, se identificaron agrupaciones de ML mediante adyacencia direccional. El método de adyacencia direccional agrupó los ML si los ML estaban dentro de una distancia de Hamming de 1 y un recuento de ML parental > 2* (recuento de ML hijo) - 1. Se consideró que todos los ML dentro de la misma agrupación se originaban del mismo ML parental, y los recuentos de ML hijos se colapsaron al ML parental. La FIG. 17 muestra la corrección de marcadores moleculares, en la que la distancia de Hamming por pares de 1 estaba sobrerrepresentada. Después de la corrección del marcador molecular, los marcadores moleculares con una distancia de Hamming de uno se agruparon y se fusionaron con el mismo marcador molecular principal. La FIG. 18 muestra que la curva del número corregido de ML frente al número de lecturas converge. Dado que se conservaron todas las lecturas, este método también puede usarse para eliminar errores de PCR o de secuenciación de una base.
Tabla 13. Después de deduplicar los marcadores moleculares, sólo se consideraron errores un número insuficiente de marcadores moleculares únicos dado un ensa o de transcri toma com leto
En conjunto, estos datos demuestran un método de corrección que puede aplicarse para corregir o ajustar los datos de ensayos de transcriptomas completos, ya que todas las lecturas fueron reentrenadas.
Ejemplo 3
Contador de marcadores moleculares para muestras de entrada elevada
Este ejemplo describe marcadores moleculares únicos usados a medida que aumentan las moléculas de entrada.
El ensayo dirigido BD Precise™ puede ser el más adecuado cuando se usa en introducción de muestras pequeñas - como en células individuales - para permitir el marcado estocástico y único de los ARNm. A medida que aumenta el número de transcritos con respecto a la agrupación de códigos de barras en experimentos con una introducción de ARN/célula elevada, aumenta el porcentaje de ML que se reciclan para marcar el mismo gen y se calculó teóricamente usando una distribución de Poisson (FIG. 14). En estas situaciones, sin corrección estadística, la cuantificación de la expresión génica mediante ML subestimaría el número de moléculas inicialmente presentes sin ninguna corrección de Poisson o correcciones basadas en dos distribuciones binomiales negativas.
En muestras de entrada extremadamente altas en las que el número de ARNm por gen supera la colección completa de 6561 códigos de barras, ya no es posible una corrección de Poisson o una corrección basada en dos distribuciones binomiales negativas. Por ejemplo, independientemente de 65000 o 100000 moléculas de entrada, en ambos casos se espera un máximo de 6561 códigos de barras saturados. Por lo tanto, los genes y las muestras que parecen tener una entrada de muestra elevada pueden alterarse, con lo que probablemente se subestimarían los recuentos de ML.
En conjunto, estos datos demuestran la necesidad de ajustar los datos brutos al cuantificar la expresión génica mediante ML.
Ejemplo 4
Corrección de errores por sustitución recursiva (RSEC)
Este ejemplo demuestra la corrección recursiva de errores de sustitución.
Pueden emplearse dos métodos de colaboración en la canalización de análisis del ensayo dirigido BD Precise™ para eliminar los errores de ML. En resumen, los errores de ML derivados de errores de sustitución de llamadas de bases de secuenciación se identifican y ajustan al verdadero código de barras de ML mediante la corrección recursiva de errores de sustitución (RSEC). Posteriormente, los errores de ML derivados de los pasos de preparación de bibliotecas o los errores de eliminación de bases de secuenciación se ajustan mediante la corrección de errores basada en la distribución (DBEC).
El algoritmo RSEC puede ajustar los errores de ML derivados de la sustitución por PCR o secuenciación. Estos eventos erróneos raros se han observado al examinar la cobertura de ML. Por ejemplo, la cobertura de ML para los ML de error puede ser significativamente menor a la de los ML verdaderos en muestras secuenciadas adecuadamente (FIG. 15); en los casos en los que se usan dos ML muy similares durante los pasos Molecular Indexing™ iniciales (transcripción inversa), generalmente tendrían una cobertura de ML similar y no sería necesario eliminarlos. A medida que aumenta la profundidad de secuenciación, aparecen más errores de ML, por lo que la RSEC puede ser crucial para ajustar el recuento de ML en bibliotecas con códigos de barras altamente secuenciadas.
En resumen, la RSEC considera dos factores en la corrección de errores: 1) La similitud en la secuencia de ML; y 2) y su cobertura de ML. Para cada gen objetivo, los ML están conectados cuando la secuencia de ambos ML está dentro de 1 base (distancia de Hamming = 1) entre sí. Para cada conexión entre ML x e y, si:
Cobertura (y) > 2*Cobertura(x)+1, Ecuación (5)
donde y denota "ML parental" y x denota "ML hijo".
Sobre la base de esta asignación, los ML hijos pueden unirse a su ML parental. Este proceso es recursivo hasta que no haya más ML parentales/hijos identificables para el gen.
La FIG. 19 muestra una ilustración esquemática de un ejemplo de corrección recursiva de errores de sustitución descrito anteriormente. Los ML en los datos brutos antes de la corrección RSEC incluyen nueve ML únicos: GTCAAATT, GTCAAAAT, GTCAAAAA, TTCAAAAA, TTCAGAAA, CTCAAAAA, TTCAAACT, TTCAAAAT y TTCAAACA (SEQ ID NO: 3-11). Aplicando la RSEC, GTCAAATT (SEQ ID NO: 3) puede colapsarse en GTCAAAAT (SEQ ID NO: 4) porque los dos ML difieren en un nucleótido (subrayado) y el ML GTCAAATT (Se Q ID NO: 3) tiene un recuento de ML menor que el de GTCAAAAT (SEQ ID NO: 4). A su vez, el ML GTCAAAAT (SEQ ID NO: 4) puede colapsarse en el ML GTCAAAAA (SEQ ID NO: 5) (la diferencia en las secuencias de ML está subrayada), que tiene un recuento de ML mayor que el de GTCAAAAT (Se Q ID NO: 4). De manera similar, los ML TTCAGa Aa (Se Q ID NO: 7) y CTCAAAAA (SEQ ID NO: 8) pueden colapsarse en el ML TTCAAAAA (SEQ ID NO: 6). El ML TTCAAACT (SEQ iD NO: 9) puede colapsarse en el ML TTCAAAAT (SEQ ID NO: 10), que a su vez puede colapsarse en el ML TTCAAAAA (SEQ ID NO: 6). El ML TTCAAACA (SEQ ID NO: 11) difiere de todos los demás ML en más de un nucleótido, por lo que no se descompone en ninguno de los otros ocho ML. Antes de la corrección de RSEC, el número de recuentos de ML en bruto era nueve. Después de la corrección de RSEC, el número de recuentos de ML era dos: ML TTCAAAAA (SEQ ID NO: 6) y TTCAAACA (SEQ ID NO: 11).
En conjunto, estos datos demuestran el uso de RSEC para corregir los recuentos brutos de ML.
Ejemplo 5
Cálculos de la cobertura de ML
Este ejemplo describe el cálculo de la cobertura de ML.
Después de la RSEC, se evalúan los recuentos de ML de genes por pocillo para determinar su idoneidad para correcciones posteriores. Los genes con una cobertura de ML baja (< 4 lecturas por ML) eluden los pasos de corrección posteriores y se notifican en la tabla de datos de ML final y se registran como "Profundidad Baja" en el proceso bioinformático. Para genes con entradas extremadamente altas en las que se observan por lo menos 6557 de los 6561 códigos de barras posibles, en los que resulta difícil determinar el número de moléculas debido a la diversidad de códigos de barras y los genes se marcan como "Saturados". Para los ML de genes que no cumplen ninguno de los 2 puntos de decisión pasan al algoritmo DBEC posterior y se marcan como "Aprobado" en el archivo de registro de salida. Además, los genes con una media más alta de 650 ML por pocillo se registran como "Entrada alta", ya que >5% de estos ML se reciclan sobre la base de una distribución de Poisson (FIG. 15).
En conjunto, este ejemplo describe el cálculo de la cobertura de ML.
Ejemplo 6
Corrección de errores basada en la distribución (DBEC)
Este ejemplo describe la corrección de errores basada en la distribución.
A diferencia de la RSEC, el algoritmo DBEC es un método para discriminar si un ML es un error o una señal verdadera independientemente de su secuencia de ML. Mientras que la RSEC puede usar tanto la secuencia de ML como la información de cobertura de ML para corregir errores, la DBEC se basa principalmente en la cobertura de ML sólo para corregir errores de no sustitución. Como ya se ha mencionado anteriormente, los códigos de barras de error generalmente tienen una cobertura de ML baja que es distinta de la cobertura ML de los códigos de barras verdaderos; esta diferencia en la cobertura de ML puede observarse en un histograma de la cobertura ML como distribuciones distintas (FIG. 15). Dada esta diferencia, la DBEC ajusta dos distribuciones binomiales negativas para distinguir estadísticamente entre errores de ML (con menor cobertura de ML), y una para señal verdadera con mayor cobertura de ML.
Eliminación de ML reciclados para un ajuste óptimo de la distribución
Para un gen dado, a medida que aumenta los ML detectados, aumenta el porcentaje de ML reciclados (es decir, el mismo ML se usa para marcar 2 o más ARNm del mismo gen) y puede estimarse. Usando una distribución de Poisson(Ano-único),el número de ML reciclados para el pocilloi (nno-único,)se estima a partir de la ecuación de la tasa de reciclaje de ML [ecuación (6)]. Si el ML reciclado estimado es superior al 5% del ML total para el gen dado en el pocilloi,este gen en el pocilloise marca como "Entrada alta". Para estos datos de "Entrada alta", los ML de cobertura de ML superior se eliminarían del ajuste de la distribución, pero se conservarían para pasos de recuento posteriores, para obtener una mejor distribución binomial negativa.
P (X<>>1\Á,no-unico ) r P n o - umco
- Número de ML</>6561<. Ecuación (>6<)>n y n pocilios r
no-umco ¿¿i-i™no-único,<Ecuación (7)>
Adición de pseudopuntos para genes de baja expresión
Si el número único de ML es menor de 10, a menudo es más difícil ajustar las distribuciones debido a la escasez de datos. Para paliar este problema, la DBEC añade pseudopuntos al 1 % de los recuentos de señales para ayudar al ajuste de la distribución, pero sin afectar a los datos.
Estimación de parámetros
Para ajustar dos distribuciones binomiales negativas para separar el error de la señal de ML, se aproximan dos conjuntos de valores iniciales para la estimación de parámetros. Se supone que la distribución del error es binomial negativa con media y dispersión de 1.
Estimación de la probabilidad de error/señal
Supongamos que las distribuciones de señal y error son NegativaBinomial(jseñal, tamañoseñal) y NegativaB¡nomial(|Jerror, tamañoerror), respectivamente. Para determinar el número de ML de señal, en orden ascendente, se calculan las probabilidades de que el número de lecturas de un ML dado procedan de las distribuciones de señal y error hasta que se satisfaga la ecuación (8), donde todos los ML precedentes se consideran ML de error.
P(X = r \ u f’f-gJ'VQT'f tamaño = tamaño error)<P ( X = r \ ¡i=¡¿señal > tamaño = tamañOseñJEcuación (8) En conjunto, este ejemplo muestra los cálculos para realizar una corrección de errores basada en la distribución.
Ejemplo 7
Corrección de errores de PCR y secuenciación basándose en la DBEC
Este ejemplo demuestra la corrección de errores de PCR y secuenciación basándose en dos distribuciones binomiales negativas.
Las FIGS. 20A-20C muestran resultados ejemplares de la corrección de errores de PCR y secuenciación basada en dos distribuciones binomiales negativas para CD69. La FIG. 20A muestra el ajuste de dos distribuciones binomiales negativas (Dn para la distribución binomial negativa de ruido y Ds para la distribución binomial de señal) para CD69 en los datos de recuento de ML mostrados en el histograma de profundidad de ML en la FIG. 20B. La línea de puntos de la FIG. 20B muestra la separación de las señales de ML y los errores de SL determinados por las dos distribuciones binomiales negativas mostradas en la FIG. 20A. La línea vertical de la FIG. 20C muestra el máximo local de las segundas derivadas según se determina basándose en el gráfico de suma acumulativa de lecturas. De manera similar a las FIGS. 20A-20C, las FIGS. 21A-21C muestran resultados ejemplares de la corrección de errores de PCR y secuenciación basada en dos distribuciones binomiales negativas para CD3E.
En conjunto, estos datos demuestran que la DBEC puede usarse para corregir errores de PCR y secuenciación.
Ejemplo 8
Corrección de recuentos de ML usando dos distribuciones binomiales negativas
Este ejemplo muestra recuentos de ML de diez objetivos corregidos usando dos distribuciones binomiales negativas.
Las FIGS. 22A-22J muestran una validación ejemplar no limitativa del conjunto de datos corregidos usando dos distribuciones binomiales negativas. Los recuentos de M<l>de diez objetivos se corrigieron como se muestra en las FIGS. 22A-22J. La línea vertical en cada una de las FIGS. 22A-22J muestra la separación de las señales de ML y los errores de SL para un objetivo determinado usando dos distribuciones binomiales negativas.
En conjunto, estos datos validan la corrección de recuentos de ML usando dos distribuciones binomiales negativas.
Ejemplo 9
Visualización de la incrustación t-estocástica de vecinos de un ensayo dirigido BD Precise™ a partir de 96 pocillos de células individuales mixtas Jurkat y de cáncer de mama (BrCa).
Este ejemplo demuestra un método para corregir errores de PCR y secuenciación basado en la corrección recursiva de errores de sustitución y la corrección de errores basada en la distribución para células individuales mixtas Jurkat y de cáncer de mama (BrCa).
Las FIGS. 23A-23D muestran visualizaciones ejemplares de incrustación t-estocástica de vecinos (t-SNE) del ensayo dirigido Precise™ a partir de 96 pocillos de células individuales mixtas Jurkat y de cáncer de mama (BrCa) (86 genes examinados). La FIG. 23A muestra que se identificaron agrupaciones de células usando DBScan con los mismos parámetros antes y después de los ajustes de ML. Las FIGS. 23B-23D muestran la expresión de marcadores individuales escalada tanto por color como por tamaño de punto. La FIG. 23B muestra PSMB4, un gen constitutivo que está presente en ambos tipos celulares y, tras los ajustes de ML, la falta de señal de PSMB4 se resalta aún más en el grupo "Señal Baja". La FIG. 23C muestra CD3E, un marcador de linfocitos que resalta los grupos de células Jurkat. La FIG. 23D muestra CDH1, un marcador de células epiteliales que resalta el grupo de BrCa.
En conjunto, estos datos demuestran que el ajuste de ML eliminó el ruido de ML, lo que permitió diferenciar claramente la expresión génica entre grupos de células.
Ejemplo 10
Análisis de expresión diferencial entre agrupaciones celulares
Este ejemplo demuestra un método de corrección de errores de PCR y secuenciación basada en la corrección recursiva de errores de sustitución y la corrección de errores basada en la distribución para células de baja señal y células de cáncer de mama (BrCa).
Las FIGS. 24A-24B son gráficos ejemplares no limitativos que muestran el análisis de expresión diferencial entre grupos de células para genes con >0 ML en ambos grupos seleccionados calculado por DBScan y determinado por el nivel de marcador génico en cada grupo. La FIG. 24A muestra la expresión génica del grupo "Señal Baja" en comparación con el resto de las células. La FIG. 24A, panel superior muestra la comparación de ML sin procesar mostrando que el ruido de ML era generalmente mayor para los genes con mayor expresión media en otras células. La FIG. 24A, panel inferior, muestra que tras los ajustes de ML usando RSEC y DBEC, se redujo el ruido de ML detectado en el grupo 'Señal Baja', permitiendo una distinción más clara de la expresión génica entre grupos. La FIG.
24B muestra la expresión génica del grupo 'BrCa' en comparación con el resto de las células. La FIG. 24B, panel superior muestra ML en bruto en células no BrCa también tenían un recuento significativo de ML de marcadores de BrCa, como KRT1, MUC1. La FIG. 24B, panel inferior muestra que los ML ajustados de marcadores de BrCa fueron altamente enriquecidos en el grupo de BrCa que el resto de las células.
En conjunto, estos datos demuestran que los errores de PCR y secuenciación pueden corregirse basándose en la corrección recursiva de errores de sustitución y en la corrección de errores basada en la distribución para células, como las células de baja señal y las células de cáncer de mama.
Ejemplo 11
Ajuste de los recuentos de marcadores moleculares para células Jurkat y T47D mezcladas
Este ejemplo demuestra un método de ajuste de recuentos de marcadores moleculares para células Jurkat y T47D mezcladas.
Las FIGS. 25A-25D son gráficos ejemplares no limitativos que muestran la visualización de la incrustación testocástica de vecinos (t-SNE) de un ensayo dirigido BD Precise™ a partir de una placa de 96 pocillos de células individuales Jurkat y de cáncer de mama (T47D) mezcladas con 86 genes examinados. La FIG. 25a muestra que se identificaron grupos de células usando DBScan con los mismos parámetros antes y después de los ajustes de ML. Las FIGS. 25B-25D muestran que la expresión de marcadores individuales se escaló tanto por color como por tamaño de punto. La FIG. 25B muestra la escala de PSMB4, un gen de mantenimiento que estaba presente en ambos tipos de células y después de los ajustes de ML. La falta de señal de PSMB4 se resalta aún más en el grupo de control sin plantilla (n Tc ). La FIG. 25C muestra el escalado de CD3E, un marcador de linfocitos que resalta los grupos de células Jurkat. La FIG. 25D muestra el escalado de CDH1, un marcador de células epiteliales que resalta el grupo T47D.
Las FIGS. 26A-26B son mapas de calor ejemplares no limitativos que muestran la expresión génica diferencial por recuentos de marcadores moleculares entre diferentes grupos celulares identificados en las FIGS. 25A-25D antes de cualquier paso de corrección de errores (ML sin procesar mostrado en la FIG. 26A) y después de la corrección por RSEC y DBEC (ML ajustado mostrado en la FIG. 26B). Los genes de baja expresión aparecen en azul y los de alta expresión en naranja. Los genes con un patrón de expresión similar entre estos tipos celulares se agrupan juntos. Sin corrección de errores, el NTC tenía ruido de genes de alta expresión como CD3E y KRT18, que son marcadores de Jurkat y T47D, respectivamente. Además, la corrección de errores reveló patrones de expresión génica distintos entre Jurkat y T47D.
En conjunto, estos datos demuestran que el ajuste de ML puede eliminar el ruido de Ml, lo que permite diferenciar claramente la expresión génica entre grupos de células.
Ejemplo 12
Corrección de errores de código de barras de receptores inmunitarios usando corrección recursiva de errores de sustitución
Este ejemplo demuestra la corrección de errores de código de barras de receptor inmune basada en la corrección de errores de sustitución recursiva.
Las FIGS. 27A-27B muestran una tabla que ilustra un ejemplo no limitativo de corrección de errores de código de barras de receptor inmunitario basado en la corrección recursiva de errores de sustitución. La realización de la corrección de errores de código de barras de receptor inmunitario incluyó el ajuste de recuentos de secuencias de nucleótidos (NS) de interés (por ejemplo, secuencias de nucleótidos putativas de CDR3) mediante la corrección recursiva de errores de sustitución. Se identificaron múltiples grupos de secuencias putativas de CDR3. Un grupo incluía secuencias que diferían de la secuencia de nucleótidos parental TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO: 58) en un nucleótido (subrayado), como las secuencias nucleotídicas hijas TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACTTTT (SEQ iD NO: 59) y CGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO: 77). La secuencia de nucleótidos TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO: 58) fue la secuencia de nucleótidos parental porque tenía el mayor número de lecturas brutas en este grupo, 294, que era el número de marcadores moleculares con diferentes secuencias asociadas a esta secuencia de nucleótidos en los datos de secuenciación. Otros grupos incluyeron TGTGCTGTCCACCGAGGAAGCCAAGGAAATCTCATCTTT (SEQ ID NO: 78), y TGTGCTGTCCACCGAGGAAGCCAAGGAAATCTCATCGTT (SEQ ID NO: 79); TGTGCAGGAGAATCTGGGGGATTACCAAAGTTACCTTT (SEQ ID NO: 80),yTGTGCAGGAGAATCTGGGGGGTTACCAGAAAGTTACCTTT (SEQ ID NO: 81); TGTGCAGCAACCGAGTCCTATGGTCAGAATTTTGTCTTT (SEQ ID NO: 82),yTGTGCAGCAACAGTCCTATGGGAATTTTGTCTTT (SEQ ID NO: 83);
TGCCTCGTGGGGAGCCTTTCTGGTTCTGCAAGGCAACTGACCTTT (SEQ ID NO: 84) TGCCTCGTGGGGGAGCCTTTCCGGTTCTGCAAGGCAACTGACCTTT (SEQ ID NO: 85). La aparición de cada secuencia de nucleótidos hija se atribuyó a la secuencia correspondiente de marcador molecular madre (mostrada como las flechas desde la columna marcada "Lecturas sin procesar" a la columna marcada "Lecturas Ajustadas NS".
La realización de corrección de errores del código de barras del receptor inmunitario incluía el ajuste de los recuentos de los marcadores moleculares (ML) mediante la corrección recursiva de errores de sustitución. Un grupo de secuencias de marcadores moleculares incluía la secuencia de marcadores moleculares parental AGTGCGAg (SEQ ID NO: 110) y las secuencias de marcadores moleculares hijas AGTGCGG y AGTGCNAG (SEQ ID NO: 111 y 112 respectivamente), que difieren de la secuencia de marcadores moleculares parental en un nucleótido (subrayado). En este ejemplo, la secuencia de marcador molecular AGTGCGAG (SEQ ID NO: 110) asociada con la secuencia de CDR3 TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO: 58) tenía las lecturas ajustadas a la secuencia de nucleótidos más alta de todas las secuencias de CDR3 asociadas con el marcador molecular AGTGCGAG (SEQ ID NO: 110). La aparición de cada secuencia de nucleótidos hija (dos y una para las secuencias de marcadores moleculares hija AG<t>G<c>GG y AGTGCNAG (SEQ ID NO: 111 y 112 respectivamente)), se atribuyó a la secuencia de marcador molecular madre correspondiente con las lecturas ajustadas de secuencia de nucleótidos más altas (319 para el marcador molecular madre AGTGCGAG (SEQ ID NO: 110)). La realización de la corrección de errores de código de barras del receptor inmunitario incluyó el ajuste de los recuentos de las secuencias de nucleótidos y los marcadores moleculares al mismo tiempo basándose en RSEC. En este ejemplo, no se ajustó el recuento del marcador molecular cuando cada secuencia de nucleótidos y el marcador molecular correspondiente se consideraron como una secuencia al aplicar la RSEC.
Se identificaron múltiples quimeras y se eliminaron los recuentos de marcadores moleculares correspondientes a quimeras. Por ejemplo, la secuencia de marcador molecular AGTGCGAG (SEQ ID NO: 110) se asoció con múltiples secuencias de nucleótidos de CDR3, como TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO: 58) y TGTGCTGTCCACCGAGGAAGCCAAGGAAATCTCATCTTT (SEQ ID NO: 78). La aparición ajustada (por ejemplo, el número de apariciones observadas en los datos de secuenciación tras el ajuste descrito anteriormente) de la secuencia de nucleótidos TGTGCTGTCCACCGAGGAAGCCAAGGAAATCTCATCTTT (SEQ ID NO: 78) fue 7, menor que la aparición ajustada de la secuencia de nucleótidos TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO: 58), 322, que fue la más alta de todas las secuencias de nucleótidos con la secuencia de marcador molecular AGTGCGAG (SEQ ID NO: 110). Se eliminaron las secuencias putativas del objetivo correspondientes a las secuencias quiméricas de CDR3 identificadas (mostradas como las flechas que van de la columna marcada como "Lecturas ajustadas de NS y ML" a la columna marcada como "Quimera Eliminada"). Con los ajustes y la eliminación de quimeras, se determinó que la secuencia de la CDR3 era TGTGTGGTGAACGGAGACGGCACTGCCAGTAAACTCACCTTT (SEQ ID NO. 58), que se asoció con la secuencia de marcador molecular AGTGCGAG (SEQ ID NO. 110) que tenía un recuento de marcadores moleculares ajustado de 322.
En conjunto, estos datos demuestran el ajuste de los recuentos de secuencias de nucleótidos, los recuentos de marcadores moleculares y los recuentos de secuencias de nucleótidos y moleculares con RSEC y la eliminación de secuencias CDR3 quiméricas.
Ejemplo 13
Corrección de errores de código de barras de receptores inmunitarios usando corrección recursiva de errores de sustitución y corrección de errores basada en la distribución
Este ejemplo demuestra la corrección de errores del código de barras del receptor inmunitario usando la corrección recursiva de errores de sustitución y la corrección de errores basada en la distribución.
Se cargó una muestra de 500 células con un 75% de células mononucleares de sangre periférica (PBMC) sanas y un 25% de células Jurkat en un cartucho Rhapsody™ y se capturaron en micropocillos que contenían perlas Rhapsody™. Las perlas Rhapsody™ eran perlas magnéticas con códigos de barras unidos a su superficie. Cada perla llevaba unidos códigos de barras con marcadores celulares con una secuencia de marcador celular idéntica y marcadores moleculares seleccionadas entre un grupo de secuencias moleculares diferentes. Los códigos de barras de las diferentes perlas tenían marcadores celulares con diferentes secuencias de marcadores celulares. Los códigos de barras de cada perla tenían sitios de captura para capturar moléculas de ARNm del TCR. Las moléculas de ARNm del TCR capturadas se marcaron con códigos de barras y se secuenciaron como se describe en la presente. Se usaron marcadores celulares y moleculares para determinar el origen celular y molecular de cada molécula de TCR. El número de apariciones o los recuentos de diferentes moléculas de TCR se determinaron usando los marcadores moleculares.
Se corrigieron los datos de secuenciación de diferentes moléculas de TCR usando la corrección de errores de código de barras de receptor inmunitario (descrita con referencia a las FIGS. 7, 8 y 27 y el Ejemplo 12). Brevemente, los recuentos de secuencias de nucleótidos putativos de diferentes genes de TCR (por ejemplo, TCRb) se ajustaron basándose en la corrección recursiva de errores de sustitución. Los recuentos de los marcadores moleculares se ajustaron basándose en la corrección recursiva de errores de sustitución. Los recuentos de las secuencias de nucleótidos (por ejemplo, TCRb) y los marcadores moleculares se ajustaron basándose en la corrección recursiva de errores de sustitución. Se eliminaron los recuentos de marcadores moleculares que correspondían a quimeras. Posteriormente, los recuentos de marcadores moleculares se ajustaron usando la corrección de errores basada en la distribución descrita en la presente. La FIG. 28 es un histograma que muestra resultados ejemplares no limitativos de la corrección de errores de código de barras de receptor inmunitario seguida de la corrección de errores basada en la distribución para TCRb. Sin la corrección de errores, la diversidad de TCR (incluyendo la diversidad de TCRb) se sobrestimaría.
En conjunto, estos datos demuestran el ajuste de los recuentos de secuencias de nucleótidos de TCR, los recuentos de marcadores moleculares y los recuentos de secuencias de nucleótidos de TCR y moleculares con corrección recursiva de errores de sustitución y eliminación de secuencias quiméricas de TCR, seguido de una corrección de errores basada en la distribución para evitar la sobreestimación de la diversidad de TCR.
En por lo menos algunas de las realizaciones descritas anteriormente, uno o más elementos usados en una realización pueden usarse indistintamente en otra realización, a menos que dicha sustitución no sea técnicamente factible. Los expertos en la técnica apreciarán que pueden realizarse otras omisiones, adiciones y modificaciones a los métodos y estructuras descritos anteriormente sin apartarse del alcance de la materia reivindicada. Todas estas modificaciones y cambios se incluyen en el ámbito de aplicación de la materia, tal como se define en las reivindicaciones adjuntas.
Con respecto al uso de términos en plural y/o singular, los expertos en la técnica pueden traducir del plural al singular y/o del singular al plural según sea apropiado para el contexto y/o aplicación. Las varias permutaciones singular/plural pueden exponerse en la presente expresamente en la presente en aras de la claridad. Tal como se usan en esta memoria descriptiva y en las reivindicaciones adjuntas, las formas singulares "un", "uno" y "el" incluyen referencias plurales a menos que el contexto indique claramente lo contrario. Cualquier referencia a "o" en la presente se pretende que abarque "y/o" a menos que se indique lo contrario.
Los expertos en la técnica entenderán que, en general, los términos usados en la presente, y especialmente en las reivindicaciones adjuntas (por ejemplo, los cuerpos de las reivindicaciones adjuntas) se entienden generalmente como términos "abiertos" (por ejemplo, el término "que incluye" debe interpretarse como "que incluyen pero no está limitado a", el término "que tiene" debe interpretarse como "que tiene por lo menos", el término "incluye" debe interpretarse como "incluye pero no se limita a", etc.). Los expertos en la técnica entenderán además que si se pretende un número específico de una reivindicación introducida, tal intención se enunciará explícitamente en la reivindicación, y en ausencia de tal enunciado no existe tal intención. Por ejemplo, como ayuda para la comprensión, las siguientes reivindicaciones adjuntas pueden contener el uso de las frases introductorias "por lo menos uno" y "uno o más" para introducir las enumeraciones de reivindicaciones. Sin embargo, el uso de tales frases no debe interpretarse en el sentido de que la introducción de un enunciado de reivindicación mediante los artículos indefinidos "un" o "uno" limita cualquier reivindicación particular que contenga dicho enunciado de reivindicación introducido a realizaciones que contengan solo uno de dichos enunciados, incluso cuando la misma reivindicación incluya las frases introductorias "uno o más" o "por lo menos uno" y artículos indefinidos como "un" o "uno" (por ejemplo, "un" y/o "uno" deben interpretarse en el sentido de "por lo menos uno" o "uno o más"); lo mismo ocurre con el uso de artículos definidos usados para introducir las reivindicaciones. Además, incluso si se enuncia explícitamente un número específico de un enunciado de reivindicación introducida, los expertos en la técnica reconocerán que dicho enunciado debe interpretarse en el sentido de que significa por lo menos el número enunciado (por ejemplo, el simple enunciado de "dos enunciados", sin otros modificadores, significa por lo menos dos enunciados, o dos o más enunciados). Además, en aquellos casos en los que se usa una convención análoga a "por lo menos uno de A, B y C, etc.", en general dicha construcción se entiende en el sentido en el que un experto en la técnica entendería la convención (por ejemplo, "un sistema que tenga por lo menos uno de A, B y C" incluiría, entre otros, sistemas que tengan A solo, B solo, C solo, A y B juntos, A y C juntos, B y C juntos, y/o A, B y C juntos, etc.). En aquellos casos en los que se usa una convención análoga a "por lo menos uno de A, B o C, etc.", en general dicha construcción se entiende en el sentido en el que un exp e rto en la té cn ica e n te n d e ría la co n ve n c ió n (p o r e jem p lo , "un s is tem a que tie n e po r lo m enos uno de A, B o C" inc lu iría , pero no se lim ita ría a, s is te m a s que tie n e n A solo, B solo, C solo, A y B ju n to s , A y C ju n to s , B y C ju n to s , y /o A, B y C ju n to s , etc.). Los expertos en la técn ica en te n d e rá n a d e m á s que debe en tend e rse que p rá c tica m e n te cu a lq u ie r p a la b ra y /o fra se d isyu n tiva que p re sen te dos o m ás té rm in o s a lte rna tivos , ya sea en la de scrip c ión , las re iv in d ica c io n e s o los d ibu jos , c o n te m p la las p o s ib ilid a d e s de in c lu ir uno de los té rm in o s , cu a lq u ie ra de los té rm inos , o am b os té rm in os . P o r e jem p lo , se e n te n d e rá que la fra se "A o B" in c luye las po s ib ilidad es de "A " o "B " o "A y B".
A d e m á s , cua nd o las ca ra c te rís tica s o a sp e c to s de la d ivu lg a c ió n se de sc rib en en té rm in o s de g ru po s de M arkush , los e xp e rto s en la té cn ica reco n o ce rá n que la d ivu lg ac ión ta m b ié n se d e sc rib e en té rm in o s de c u a lq u ie r m ie m b ro ind iv idu a l o s u b g ru p o de m ie m b ro s de l g ru p o de M arkush .
C o m o en te n d e rá n los e xp e rto s en la técn ica , a to d o s los e fec tos, po r e jem p lo para p ro p o rc io n a r una d e sc rip c ió n escrita , to d a s los in te rva los d ivu lg a d o s en la p re se n te ab a rca n ta m b ié n to d o s y cad a uno de los po s ib les su b in te rva lo s y co m b in a c io n e s de s u b in te rva lo s de los m ism os. C u a lq u ie r in te rva lo en u m e ra d o puede reco no ce rse fá c ilm e n te com o su fic ie n te m e n te d e sc rip tivo y pe rm ite d e s c o m p o n e r el m ism o in te rva lo en m itades, te rc io s , cuartos, qu in tos , déc im os, etc., po r lo m en os igua les. A m od o de e jem p lo no lim ita tivo , cad a in te rva lo de sc rito en la p re sen te pued e d iv id irse fá c ilm e n te en un te rc io in fe rio r, un te rc io m ed io y un te rc io superio r, etc. C o m o ta m b ié n e n tend e rá n los exp e rtos en la técn ica , to d o s los té rm in o s com o "has ta ", "p o r lo m enos", "m a y o r que", "m e n o r que" y s im ila re s inc luyen el n ú m ero e n u m e ra d o y se re fie ren a in te rva los que pueden d iv id irse po s te rio rm e n te en su b in te rva lo s , com o se ha a n a liza d o a n te rio rm en te . P o r últim o, com o c o m p re n d e rá n los exp e rto s en la técn ica , un in te rva lo in c luye a cada m ie m b ro ind iv idua l. Así, po r e jem p lo , un g ru po que t ie n e 1-3 a rtícu lo s se re fie re a g ru po s que t ie n e n 1, 2 o 3 artícu los . De m an era s im ila r, un g ru po que t ie n e 1-5 a rtícu lo s se re fie re a g ru po s que tie n e n 1, 2, 3, 4 o 5 a rtícu los , y dem ás.

Claims (15)

REIVINDICACIONES
1. Un método implementado por ordenador para corregir errores en los datos de secuenciación, que comprende
(a) obtener datos de secuenciación de una pluralidad de objetivos codificados estocásticamente con códigos de barras, cada objetivo codificado estocásticamente con código de barras comprendiendo un código de barras estocástico de una pluralidad de códigos de barras estocásticos, cada código de barras estocástico comprendiendo un marcador celular y un marcador molecular, en donde los marcadores moleculares de por lo menos dos códigos de barras estocásticos de la pluralidad de códigos de barras estocásticos comprenden secuencias de marcadores moleculares diferentes, y en donde por lo menos dos códigos de barras estocásticos de la pluralidad de códigos de barras estocásticos comprenden marcadores celulares con una secuencia de marcador celular idéntica; y (b) para por lo menos un objetivo de la pluralidad de objetivos codificados estocásticamente con códigos de barras:
(i) identificar secuencias putativas del objetivo en los datos de secuenciación;
(ii) contar las apariciones de secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo en los datos de secuenciación identificados en (i);
(iii) identificar agrupaciones de las secuencias putativas del objetivo usando adyacencia direccional, en donde las secuencias putativas del objetivo dentro de la agrupación de las secuencias putativas del objetivo comprenden una o más secuencias parentales y una o más secuencias hijas de la una o más secuencias parentales, y en donde una aparición de la secuencia parenteral es mayor o igual que un primer umbral predeterminado de aparición de adyacencia direccional;
(iv) colapsar los datos de secuenciación obtenidos usando las agrupaciones de secuencias putativas del objetivo identificados en (iii) atribuyendo una aparición de una secuencia hija de las una o más secuencias hijas a la secuencia parental de la secuencia hija;
(v) identificar agrupaciones de secuencias moleculares asociadas con las secuencias putativas del objetivo usando adyacencia direccional, en donde las secuencias putativas del objetivo dentro de la agrupación de secuencias moleculares comprenden una o más secuencias moleculares parentales y una o más secuencias moleculares hijas de una o más secuencias moleculares parentales, y en donde una aparición de la secuencia molecular parental es mayor o igual que un segundo umbral predeterminado de aparición de adyacencia direccional;
(vi) colapsar los datos de secuenciación usando las agrupaciones de secuencias de marcadores moleculares identificadas en (v) atribuyendo una aparición de una secuencia de marcador molecular hija de las una o más secuencias de marcadores moleculares hijas al marcador molecular parental de la secuencia de marcador molecular hija;
(vii) identificar agrupaciones de secuencias de combinación mediante adyacencia direccional, en donde cada secuencia de combinación comprende una secuencia de las secuencias del objetivo y una secuencia de marcador molecular asociada de las secuencias de marcadores moleculares, y en donde las secuencias de combinación dentro de la agrupación comprenden una o más secuencias de combinación parentales y una o más secuencias de combinación hijas de una o más secuencias de combinación parentales, y en donde una aparición de la secuencia de combinación parental es mayor o igual que un tercer umbral predeterminado de aparición de adyacencia direccional;
(viii) colapsar los datos de secuenciación usando las agrupaciones de secuencias de combinación identificadas en (vii) atribuyendo una aparición de una secuencia de combinación hija de las una o más secuencias de combinación hijas a la secuencia de combinación parental de la secuencia de combinación hija;
(ix) identificar una o más secuencias putativas del objetivo que correspondan a una o más secuencias quiméricas del objetivo, en donde las apariciones de la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo son menores que las apariciones de una o más secuencias putativas restantes del objetivo que no correspondan a la una o más secuencias quiméricas del objetivo;
(x) eliminar de los datos de secuenciación la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo identificadas en (ix); y
(xi) estimar la aparición del objetivo, en donde la aparición estimada del objetivo se correlaciona con el número de secuencias de marcadores moleculares contadas en ii) después de colapsar los datos de secuenciación en (iv), (vi) y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en x).
2. El método de la reivindicación 1, en el que la pluralidad de objetivos comprende objetivos de todo el transcriptoma de una célula.
3. El método de la reivindicación 2, en el que la pluralidad de objetivos comprende un gen que comprende una secuencia variable.
4. El método de la reivindicación 3, en el que el gen codifica un receptor de células T.
5. El método de cualquiera de las reivindicaciones 1-4, en el que las secuencias putativas del objetivo difieren entre sí en por lo menos un nucleótido.
6. El método de cualquiera de las reivindicaciones 1-5, en el que
el primer umbral de adyacencia direccional es una distancia de Hamming de uno; y/o
el segundo umbral de adyacencia direccional es una distancia de Hamming de uno; y/o
el tercer umbral de adyacencia direccional es una distancia de Hamming de uno.
7. El método de cualquiera de las reivindicaciones 1-6, en el que
el primer umbral predeterminado de aparición de adyacencia direccional es el doble de una aparición de una secuencia hija menos uno; y/o
el segundo umbral predeterminado de aparición de adyacencia direccional es el doble de una aparición de una secuencia hija menos uno; y/o
el tercer umbral predeterminado de aparición de adyacencia direccional es el doble de una aparición de una secuencia hija menos uno.
8. El método de cualquiera de las reivindicaciones 1-7, en el que la identificación de la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo comprende:
identificar secuencias putativas del objetivo asociadas con una secuencia de marcador molecular de la pluralidad de secuencias moleculares; e
identificar una secuencia putativa de las secuencias putativas del objetivo asociada con una secuencia de marcador molecular con una aparición menor que un umbral de aparición quimérica como correspondiente a una secuencia quimérica de una o más secuencias quiméricas del objetivo, en donde un valor del umbral de aparición quimérica es una aparición de una secuencia putativa de las secuencias putativas del objetivo asociada con una secuencia de marcador molecular que es mayor que una aparición de cualquier otra secuencia de las secuencias putativas del objetivo.
9. El método de cualquiera de las reivindicaciones 1-8, que comprende además:
ajustar los datos de secuenciación después de colapsar los datos de secuenciación en (iv), (vi), y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x) mediante
el establecimiento de umbrales para las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo para determinar las secuencias de marcadores moleculares de señal y las secuencias de marcadores moleculares de ruido asociadas con las secuencias del objetivo en los datos de secuenciación contados en (b) después de colapsar los datos de secuenciación en (iv), (vi) y (viii); y
la eliminación de la una o más secuencias putativas del objetivo correspondientes a la una o más secuencias quiméricas del objetivo en (x).
10. El método de la reivindicación 9, en donde establecer umbrales para las secuencias de marcadores moleculares asociadas con las secuencias putativas del objetivo comprende realizar un análisis estadístico de las secuencias de marcadores moleculares del objetivo, en donde realizar el análisis estadístico comprende:
ajustar las secuencias de marcadores moleculares asociadas a las secuencias putativas del objetivo y sus apariciones a dos distribuciones binomiales negativas;
determinar una aparición de secuencias de marcadores moleculares de señalización n usando las dos distribuciones binomiales negativas; y
eliminar las secuencias de marcadores moleculares de ruido de los datos de secuenciación obtenidos en (b) después de colapsar los datos de secuenciación en (iv), (vi) y (viii) y eliminar la una o más secuencias putativas del objetivo que corresponden a la una o más secuencias quiméricas del objetivo en (x), en donde las secuencias de marcadores moleculares de ruido comprenden secuencias de marcadores moleculares con apariciones menores que una aparición del enésimo marcador molecular más abundante, y en donde las secuencias de marcadores moleculares de señal comprenden secuencias de marcadores moleculares con apariciones superiores o iguales a la aparición del enésimo marcador molecular más abundante.
11. El método de la reivindicación 10, en el que las dos distribuciones binomiales negativas comprenden una primera distribución binomial negativa correspondiente para las secuencias de marcadores moleculares de señal y una segunda distribución binomial negativa para las secuencias de marcadores moleculares de ruido.
12. El método de cualquiera de las reivindicaciones 1-11, que comprende además codificar estocásticamente con códigos de barras la pluralidad de objetivos usando una pluralidad de códigos de barras estocásticos para crear la pluralidad de objetivos codificados estocásticamente con códigos de barras.
13. El método de la reivindicación 12, en el que codificar estocásticamente con códigos de barras la pluralidad de o b je tivo s usando la p lu ra lid ad de có d ig o s de ba rras e s to cá s tico s para c re a r la p lu ra lid ad de ob je tivo s cod ifica dos e s to cá s tica m e n te con cód ig os de ba rras com p ren de :
(i) po ne r en co n ta c to las cop ia s de los o b je tivo s con las reg io nes de un ión al ob je tivo de los có d ig o s de ba rras e s to cás ticos ; y
(ii) t ra n s c r ib ir in ve rsa m e n te la p lu ra lidad de o b je tivo s usando la p lu ra lid ad de cód ig os de ba rras e s to cá s tico s para c re a r una p lu ra lidad de ob je tivo s tra n sc r ito s inve rsam en te .
14. Un s is tem a in fo rm á tico para co rre g ir e rro res de da tos de se cu e n c ia c ió n que com prende :
un p ro ce sa d o r de ha rdw are ; y
m e m o ria no tra n s ito r ia que t ie n e in s tru cc io n e s a lm a ce n a d a s en la m ism a, que cua nd o son e je cu ta d a s po r el p ro c e s a d o r de h a rdw are hacen que el p ro ce sa d o r rea lice el m é tod o de c u a lq u ie ra de las re iv in d ica c io n e s 1-11.
15. Un m ed io leg ib le po r o rd e n a d o r que c o m p re n d e un p ro g ra m a de so ftw a re que c o m p re n d e cód ig o para re a liza r el m é tod o de c u a lq u ie ra de las re iv in d ica c io n e s 1-11.
ES18786527T 2017-09-25 2018-09-24 Corrección de errores del código de barras del receptor inmunitario Active ES2969957T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762562978P 2017-09-25 2017-09-25
PCT/US2018/052365 WO2019060804A1 (en) 2017-09-25 2018-09-24 IMMUNE BAR CODE RECEIVER ERROR CORRECTION

Publications (1)

Publication Number Publication Date
ES2969957T3 true ES2969957T3 (es) 2024-05-23

Family

ID=63858103

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18786527T Active ES2969957T3 (es) 2017-09-25 2018-09-24 Corrección de errores del código de barras del receptor inmunitario

Country Status (5)

Country Link
US (1) US20190095578A1 (es)
EP (2) EP4379727A1 (es)
CN (1) CN111247589A (es)
ES (1) ES2969957T3 (es)
WO (1) WO2019060804A1 (es)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US10941396B2 (en) 2012-02-27 2021-03-09 Becton, Dickinson And Company Compositions and kits for molecular counting
ES2711168T3 (es) 2013-08-28 2019-04-30 Becton Dickinson Co Análisis masivo en paralelo de células individuales
ES2836802T3 (es) 2015-02-27 2021-06-28 Becton Dickinson Co Códigos de barras moleculares espacialmente direccionables
EP3277843A2 (en) 2015-03-30 2018-02-07 Cellular Research, Inc. Methods and compositions for combinatorial barcoding
WO2016172373A1 (en) 2015-04-23 2016-10-27 Cellular Research, Inc. Methods and compositions for whole transcriptome amplification
WO2017044574A1 (en) 2015-09-11 2017-03-16 Cellular Research, Inc. Methods and compositions for nucleic acid library normalization
US10301677B2 (en) 2016-05-25 2019-05-28 Cellular Research, Inc. Normalization of nucleic acid libraries
EP4407625A2 (en) 2016-05-26 2024-07-31 Becton, Dickinson and Company Molecular label counting adjustment methods
US10202641B2 (en) 2016-05-31 2019-02-12 Cellular Research, Inc. Error correction in amplification of samples
US10640763B2 (en) 2016-05-31 2020-05-05 Cellular Research, Inc. Molecular indexing of internal sequences
KR102522023B1 (ko) 2016-09-26 2023-04-17 셀룰러 리서치, 인크. 바코딩된 올리고뉴클레오티드 서열을 갖는 시약을 이용한 단백질 발현의 측정
KR20190077061A (ko) 2016-11-08 2019-07-02 셀룰러 리서치, 인크. 세포 표지 분류 방법
CN109952612B (zh) 2016-11-08 2023-12-01 贝克顿迪金森公司 用于表达谱分类的方法
CN110382708A (zh) 2017-02-01 2019-10-25 赛卢拉研究公司 使用阻断性寡核苷酸进行选择性扩增
CN110719959B (zh) 2017-06-05 2021-08-06 贝克顿迪金森公司 针对单细胞的样品索引
JP7358388B2 (ja) 2018-05-03 2023-10-10 ベクトン・ディキンソン・アンド・カンパニー 反対側の転写物末端における分子バーコーディング
US11773441B2 (en) 2018-05-03 2023-10-03 Becton, Dickinson And Company High throughput multiomics sample analysis
EP3861134A1 (en) 2018-10-01 2021-08-11 Becton, Dickinson and Company Determining 5' transcript sequences
CN112969789A (zh) 2018-11-08 2021-06-15 贝克顿迪金森公司 使用随机引发的单细胞全转录组分析
EP3894552A1 (en) 2018-12-13 2021-10-20 Becton, Dickinson and Company Selective extension in single cell whole transcriptome analysis
CN113574178A (zh) 2019-01-23 2021-10-29 贝克顿迪金森公司 与抗体关联的寡核苷酸
WO2020257575A1 (en) * 2019-06-21 2020-12-24 St, Jude Children's Research Hospital T-cell receptor for treating fibrolamellar hepatocellular carcinoma
CN110357952B (zh) * 2019-07-17 2022-03-22 深圳市因诺转化医学研究院 识别人***瘤病毒hpv16-e7抗原的tcr
WO2021016239A1 (en) 2019-07-22 2021-01-28 Becton, Dickinson And Company Single cell chromatin immunoprecipitation sequencing assay
US11773436B2 (en) 2019-11-08 2023-10-03 Becton, Dickinson And Company Using random priming to obtain full-length V(D)J information for immune repertoire sequencing
WO2021146207A1 (en) 2020-01-13 2021-07-22 Becton, Dickinson And Company Methods and compositions for quantitation of proteins and rna
EP4150118A1 (en) 2020-05-14 2023-03-22 Becton Dickinson and Company Primers for immune repertoire profiling
EP4176437A1 (en) * 2020-07-02 2023-05-10 10X Genomics, Inc. Systems and methods for detection of low-abundance molecular barcodes from a sequencing library
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
US20220083832A1 (en) * 2020-09-16 2022-03-17 10X Genomics, Inc. Methods and systems for barcode-assisted image registration and alignment
US11739443B2 (en) 2020-11-20 2023-08-29 Becton, Dickinson And Company Profiling of highly expressed and lowly expressed proteins
GB202019035D0 (en) * 2020-12-02 2021-01-13 Univ Oxford Innovation Ltd Polynucleotide Arrays
CN112530522B (zh) * 2020-12-15 2022-10-28 中国科学院深圳先进技术研究院 序列纠错方法、装置、设备和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2452195A4 (en) * 2009-07-07 2012-12-05 Agency Science Tech & Res METHODS OF IDENTIFYING A PAIR OF LIAISON PARTNERS
US8835358B2 (en) * 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US20140066317A1 (en) * 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US9708657B2 (en) * 2013-07-01 2017-07-18 Adaptive Biotechnologies Corp. Method for generating clonotype profiles using sequence tags
ES2711168T3 (es) 2013-08-28 2019-04-30 Becton Dickinson Co Análisis masivo en paralelo de células individuales
ES2784450T3 (es) * 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
US20170292149A1 (en) * 2014-03-05 2017-10-12 Adaptive Biotechnologies Corporation Methods using randomer-containing synthetic molecules
GB201409282D0 (en) * 2014-05-23 2014-07-09 Univ Sydney Tech Sequencing process
US10584331B2 (en) * 2014-07-02 2020-03-10 Dna Chip Research Inc. Method for counting number of nucleic acid molecules
EP3763825B1 (en) * 2015-01-23 2023-10-04 Qiagen Sciences, LLC High multiplex pcr with molecular barcoding
ES2836802T3 (es) * 2015-02-27 2021-06-28 Becton Dickinson Co Códigos de barras moleculares espacialmente direccionables
WO2017134303A1 (en) * 2016-02-05 2017-08-10 Ludwig-Maximilians-Universität München Molecular identification with sub-nanometer localization accuracy
EP4407625A2 (en) * 2016-05-26 2024-07-31 Becton, Dickinson and Company Molecular label counting adjustment methods

Also Published As

Publication number Publication date
WO2019060804A1 (en) 2019-03-28
EP3688763B1 (en) 2023-11-15
EP3688763A1 (en) 2020-08-05
EP4379727A1 (en) 2024-06-05
US20190095578A1 (en) 2019-03-28
CN111247589A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
ES2969957T3 (es) Corrección de errores del código de barras del receptor inmunitario
US20230295609A1 (en) Methods for cell label classification
JP7169290B2 (ja) マルチプレットを決定するための合成マルチプレット
US20230065324A1 (en) Molecular label counting adjustment methods
US20200040379A1 (en) Nuclei barcoding and capture in single cells
CN109952612B (zh) 用于表达谱分类的方法
US20200255888A1 (en) Determining expressions of transcript variants and polyadenylation sites