ES2632602T3 - Métodos de fabricación o creación de un consorcio microbiano sintético identificado mediante análisis computacional de secuencias de amplicones - Google Patents

Métodos de fabricación o creación de un consorcio microbiano sintético identificado mediante análisis computacional de secuencias de amplicones Download PDF

Info

Publication number
ES2632602T3
ES2632602T3 ES13759967.6T ES13759967T ES2632602T3 ES 2632602 T3 ES2632602 T3 ES 2632602T3 ES 13759967 T ES13759967 T ES 13759967T ES 2632602 T3 ES2632602 T3 ES 2632602T3
Authority
ES
Spain
Prior art keywords
markers
microbes
samples
group
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13759967.6T
Other languages
English (en)
Inventor
Victor KUNIN
Matthew Ashby
Stewart Scherer
Nasstasia PATIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taxon Biosciences Inc
Original Assignee
Taxon Biosciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taxon Biosciences Inc filed Critical Taxon Biosciences Inc
Application granted granted Critical
Publication of ES2632602T3 publication Critical patent/ES2632602T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Toxicology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un método de identificación de un consorcio microbiano o de un grupo de microbios con distribuciones medioambientales correlacionadas, que comprende: (a) proporcionar abundancias de marcadores en dos o más muestras, en las que cada marcador es representativo de un grupo de microbios con distribuciones medioambientales correlacionadas, y el marcador comprende una composición producida mediante: (i) el suministro de una colección de muestras, en la que las muestras son secuencias de ácidos nucleicos de una o más comunidades microbianas o un grupo de microbios con distribuciones medioambientales correlacionadas, y el procesamiento de las muestras mediante: (ii) la identificación de secuencias de nucleótidos que contienen códigos de barras identificadores de la muestra y el registro de su correspondencia con una determinada muestra y luego, la retirada de los códigos de barras y el descarte de las secuencias que no contienen los códigos de barras correctos o que contienen códigos de barras que no se corresponden con ninguna de las muestras; (iii) el corte o truncamiento de las secuencias de nucleótidos o las "lecturas" de (a) y la designación de las secuencias de nucleótidos específicas de la región que quedan como "marcadores", de modo que un marcador es una versión procesada o truncada de una lectura, y el resto de secuencias de nucleótidos identificadas o "lecturas" de la etapa (ii) y el mantenimiento de solo regiones previamente definidas; (iv) la filtración cualitativa de las lecturas truncadas mediante la eliminación de las lecturas truncadas ambiguas y la eliminación de las lecturas truncadas de baja calidad, en la que una lectura de baja calidad está por debajo del umbral de calidad; (v) la clasificación taxonómica de los marcadores restantes y, opcionalmente, la generación de una salida de datos que comprende una descripción de comunidades microbianas como recuentos de la abundancia de los miembros únicos de cada comunidad; (vi) la importación de las secuencias e identificadores de nuevos marcadores a una base de datos; y (viii) la importación de los marcadores de las abundancias de recuentos de las muestras a la base de datos; (viii) la constricción o modificación de la base de datos que comprende los marcadores únicos de las etapas (ii) a (vii), en relación con sus abundancias en las muestras; (ix) la exportación de datos de abundancia de marcadores de al menos dos muestras de la base de datos; en la que se fija un umbral para los marcadores que aparecen en el análisis, identificando de este modo la composición de comunidades microbianas o un grupo de microbios con distribuciones medioambientales correlacionadas; (b) identificar similitudes de abundancias en muestras entre pares de microbios, mediante la comparación de las abundancias de un microbio con otro microbio de cada muestra usando métricas de distancia; (c) repetir la etapa (b) para al menos un par más de microbios; (d) almacenar las similitudes obtenidas en la etapa (b) y (c) en forma de una estructura de datos matricial en un formato digital; (e) realizar bien un análisis de red, un análisis de grupos o un agrupamiento en la estructura matricial de datos de similitud obtenida en la etapa (d), implicando el análisis de red la representación de los datos en la que los microbios o los marcadores se designan como nodos de la red y las similitudes entre los marcadores o los microbios obtenidos en las etapas (b) y (c) se designan como bordes de la red; y (f) designar los microbios que están conectados en la red o asignados al mismo grupo como un consorcio, de manera que las etapas del método de identificación de un consorcio microbiano o grupo de microbios con distribuciones medioambientales correlacionadas se implantan por ordenador.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Metodos de fabricacion o creacion de un consorcio microbiano sintetico identificado mediante analisis computacional de secuencias de amplicones
Campo de la invencion
La presente invencion se refiere, en general, a la ecologfa microbiana, a la bioinformatica, a la biologfa computacional y a la microbiologfa. En realizaciones alternativas, la invencion proporciona algoritmos computacionales, programas informaticos, software y otros metodos, sistemas y productos de fabricacion (por ejemplo, ordenadores, dispositivos o aparatos) para identificar miembros de comunidades microbianas, su abundancia y distribucion a partir de datos de secuencia de amplicones y comparar comunidades microbianas y consorcios microbianos. En realizaciones alternativas, la invencion proporciona metodos de identificacion de consorcios, seguidos opcionalmente de la construccion de consorcios microbianos artificiales a partir de cepas puras o de cultivos de enriquecimiento.
Antecedentes
Una de las tareas mas importantes en la ecologfa microbiana es la identificacion de los miembros de una comunidad y su abundancia relativa. Actualmente, las comunidades microbianas se caracterizan por secuenciacion de moleculas de ARNr 16S amplificadas por PCR y el analisis informatico de las secuencias. Existen varias lfneas informaticas para efectuar dichos analisis, y consisten, en lfneas generales, en la eliminacion de las lecturas de baja calidad, el agrupamiento (la tarea de asignar un conjunto de objetos o secuencias a grupos o agrupaciones) y la clasificacion de los representantes del grupo.
La etapa de agrupamiento se considera esencial. Esto se debe a que cada secuencia se considera como un representante de una celula, y, sin embargo, el proceso de secuenciacion es inherentemente erroneo, y las secuencias con errores se pueden interpretar como nuevos organismos. En forma acumulativa, se sabe que estos errores inflan las estimaciones de la riqueza de la comunidad. Por lo tanto, el agrupamiento al 97 % de identidad es actualmente la practica comun en el campo.
Sin embargo, el agrupamiento tiene muchos inconvenientes intrfnsecos. Ademas de los errores de secuenciacion, el agrupamiento concentra la diversidad microbiana genuina. La secuencia mas comun del grupo se usa como representativa, mientras que las otras secuencias del agrupamiento se pierden. Ademas, los agrupamientos son intrfnsecamente sensibles a los datos de entrada, no son estables con el tiempo y cambian cada vez que se agregan nuevos datos. Por lo tanto, un analisis realizado con N muestras debe reagruparse y, por lo tanto, volverse a realizar cuando se anade la muestra N + 1. Dado que la adicion de muestras es una operacion frecuente, evitar el agrupamiento podrfa ahorrar tiempo tanto al investigador como a los ordenadores.
El analisis de la composicion de la comunidad solo es una etapa para interrogar a una comunidad microbiana. El aislamiento de cultivos es otra tecnica valiosa. Los aislados pueden secuenciarse para identificar la secuencia correspondiente a la region indicadora (amplicon). Sin embargo, la naturaleza fluida de los grupos significa que el agrupamiento al que se asigna el aislamiento puede cambiar con respecto al numero de miembros y la distribucion entre las muestras, incluso para los conjuntos de datos previamente analizados.
Otro inconveniente es que la practica actual de asignar la clasificacion taxonomica a secuencias representativas del grupo requiere la reclasificacion despues de cada agrupamiento. Se trata de un procedimiento posiblemente costoso desde el punto de vista informatico. Ademas, dado que las secuencias representativas de los grupos cambian, la taxonomfa puede no coincidir, haciendo que el analisis de los datos sea aun mas desconcertante.
La tecnologfa de secuenciacion cambia cada pocos meses. Los cambios reducen principalmente el coste de la secuencia por base o aumentan la longitud de la lectura. A medida que la tecnologfa cambia, los nuevos datos de amplicones mas largos no se pueden comparar directamente con los datos heredados. Las soluciones actuales incluyen bien el uso de datos antiguos de menor resolucion o la resecuenciacion de muestras antiguas. Cualquier solucion tiene problemas: la primera solucion descarta la mayor resolucion que puede proporcionar la nueva tecnologfa, mientras que la segunda requiere un gran esfuerzo de recogida de muestras, que puede no estar disponible para muestras anteriores.
La identificacion de los miembros de las comunidades microbianas es una etapa importante hacia la identificacion de consorcios microbianos. Los consorcios microbianos realizan muchas tareas importantes en la naturaleza, en concreto, la biodegradacion de compuestos complejos. Estos consorcios normalmente se estudian de una manera especffica, cuando se selecciona una tarea en mano para la interrogacion, se identifican los organismos de interes y se estudia la interaccion. Esta estrategia de caso por caso permite una comprension profunda de algunos consorcios, pero no presenta una vision general de la variedad de consorcios que hay en la naturaleza.
5
10
15
20
25
30
35
40
45
50
55
60
65
El documento WO 2011/159924 desvela composiciones microbianas, por ejemplo, consorcios, que se optimizan especfficamente tanto para estimular la metanogenesis como para conversiones “metilotroficas” u otras conversiones. En realizaciones alternativas, el documento WO 2011/159924 desvela metodos de desarrollo de cambios de nutrientes y composiciones microbianas ambos optimizados especfficamente para estimular la metanogenesis de un reservorio dado. El documento WO 2011/159924 tambien proporciona metodos de evaluacion de la formacion de biomasa potencialmente danina y la precipitacion a escala producida como consecuencia de la adicion de cambios de nutrientes. En otras realizaciones, el documento WO 2011/159924 desvela metodos de simulacion de biogas en condiciones subterraneas usando un modelo computacional.
Sumario
En realizaciones alternativas, la presente invencion proporciona metodos de identificacion de consorcios microbianos o de un grupo de microbios con distribuciones medioambientales correlacionadas de acuerdo con la reivindicacion 1.
Los detalles de una o mas realizaciones de la invencion se exponen en los dibujos adjuntos y en la descripcion que figura mas adelante. Otras caracterfsticas, objetos y ventajas de la invencion seran evidentes a la luz de la descripcion y de los dibujos, y de las reivindicaciones.
Breve descripcion de los dibujos
Los siguientes dibujos son ilustrativos de los aspectos de la invencion, y no pretenden limitar el alcance de la invencion englobado por las reivindicaciones.
La Figura 1 ilustra esquematicamente un esquema de ejemplo del nucleo de una base de datos usado para la practica de la invencion. Los recuadros representan los principales tipos de datos, las lfneas representan las conexiones entre ellos. Cada bloque representa un grupo de tablas, hojas de calculo o archivos. Los datos para los marcadores, el procedimiento de secuenciacion, las muestras y los metadatos, aislados, taxonomfas y clasificacion estan interrelacionados.
La Figura 2 ilustra una visualizacion de una red concurrente microbiana, segun lo descrito detalladamente mas adelante.
La Figura 3 ilustra un metodo, o procedimiento, de ejemplo de la invencion, que ilustra esquematicamente un procedimiento de identificacion de la composicion de una comunidad de secuencias de amplicones o "lecturas", segun lo descrito en el apartado de Procedimientos mas adelante.
La Figura 4 ilustra un metodo, o procedimiento, de ejemplo de la invencion, que ilustra esquematicamente un procedimiento de identificacion y creacion de consorcios sinteticos. Las composiciones de las comunidades de multiples muestras son la entrada. A partir de la distribucion de los marcadores en las muestras se calcula una matriz de distancia para los marcadores. Los grupos de microbios con distribucion relacionada se identificaron manualmente o por agrupamiento, y se denominaron consorcios. Los microbios correspondientes se identifican en colecciones de cultivos o cultivos de enriquecimiento y se combinan sinteticamente para formar un consorcio sintetico.
Los sfmbolos de referencia similares de los diversos dibujos indican elementos similares.
Descripcion detallada
En aspectos alternativos, la divulgacion proporciona metodos, sistemas y productos de fabricacion (por ejemplo, ordenadores, dispositivos o aparatos) para identificar y comparar miembros de comunidades microbianas, consorcios microbianos o grupos de microbios con distribuciones medioambientales correlacionadas, a partir de datos de secuencia de amplicones, e identificar miembros de una comunicacion microbiana, un consorcio microbiano o un grupo de microbios con distribuciones medioambientales correlacionadas, a partir del analisis de las secuencias de amplicones. En aspectos alternativos, la divulgacion proporciona algoritmos computacionales, programas informaticos y otros metodos, sistemas y productos de fabricacion (por ejemplo, ordenadores, dispositivos o aparatos) para identificar miembros de comunidades microbianas, su abundancia y distribucion a partir de datos de secuencia de amplicones y comparar comunidades microbianas y consorcios microbianos.
En aspectos alternativos, la divulgacion proporciona algoritmos computacionales, programas informaticos, software y otros metodos, sistemas y productos de fabricacion (por ejemplo, ordenadores, dispositivos o aparatos) para identificar miembros de una comunidad microbiana, un consorcio microbiano o un grupo de microbios con distribuciones medioambientales correlacionadas, su abundancia y distribucion a partir de datos de secuencia de amplicones y comparar comunidades microbianas y consorcios microbianos. En aspectos alternativos, la divulgacion usa lecturas truncadas unicas (denominadas "marcadores") como representantes de organismos. Los marcadores unicos y sus apariciones en las muestras se almacenan en una base de datos. La base de datos tambien puede vincularse a otros tipos de datos, tales como la clasificacion de marcadores, la presencia en colecciones de cultivos, etc.
5
10
15
20
25
30
35
40
45
50
55
60
65
En aspectos alternatives, los errores de secuenciacion se evidencian mediante: (i) el recorte de las lecturas en una region predefinida (vease la Etapa 2 del Procedimiento); ii) la eliminacion de las lecturas truncadas de baja calidad; e iii) la fijacion de un umbral para que la abundancia minima de los marcadores aparezca en el analisis.
Evitando el agrupamiento, la presente invencion permite la consistencia del recuento de los miembros cuando se anaden o se eliminan muestras. Las diferencias en la distribucion de la abundancia de los marcadores muy similares entre las muestras se pueden usar para identificar organismos ecologicamente distintos.
En aspectos alternativos, los metodos o metodos implementados por ordenador de la divulgacion comprenden:
Base de datos:
Se mantiene una base de datos que contiene datos de experimentos previos, por ejemplo, como se ilustra en la Figura 1. La base de datos debe contener marcadores unicos. Los marcadores son secuencias de nucleotidos unicas recortadas hasta la region deseada como se describe en la etapa 1 del Procedimiento. La base de datos debe contener registros de la aparicion de marcadores entre muestras analizadas previamente o conjuntos de datos. La base de datos puede contener clasificaciones taxonomicas de marcadores, enlaces a aislamientos o colecciones de cultivos que contienen secuencias de marcadores en sus genomas o cualquier otro dato asociado con marcadores.
Entrada:
1) Salida del secuenciador, que comprende o contiene lecturas y puntuaciones de calidad asociadas para un gen amplificado (por ejemplo, un gen amplificado por PCR) que, opcionalmente, comprende o es un ADNr 16S, 18S, 23S o 28S (AdN que codifica ARN ribosomico).
2) Una lista de muestras y “codigos de barras” asociados. Los codigos de barras son secuencias oligonucleotidicas cortas de identificacion de muestras incluidas dentro de las secuencias de cebadores que permiten la multiplexacion dentro de una sola serie.
Procedimiento
1) Se identifican las secuencias de nucleotidos que contienen los codigos de barras mencionados en el archivo de entrada y se registra su correspondencia con las muestras, y se eliminan los codigos de barras. Las secuencias que no contienen codigos de barras correctos se descartan.
2) Las lecturas se cortan para mantener solo regiones predefinidas. Las secuencias resultantes se denominan marcadores. En realizaciones alternativas, el corte se puede realizar reconociendo patrones dentro de la lectura o recortando lecturas a la longitud deseada. Por ejemplo, el recorte de longitud a la longitud 250 mantendra las bases 1 a 250 y descartara otras bases. Los patrones se pueden reconocer, por ejemplo, para cualquier secuencia superior a 120 pares de bases (pb) que reconozca los patrones conservados GGTAGTC (SEQ ID NO: 1) en 5' de la secuencia y AATTGNCGGGG (SEQ ID NO: 2) en 3' de la secuencia, lo que permite menos de 2 desapareamientos, y el marcador resultante debe ser de entre 90 y 200 pares de bases de longitud. Las lecturas que son mas cortas que la longitud definida o no coinciden con el patron se descartan. Se pueden aplicar multiples reglas o cualquier combinacion de las reglas para recortar secuencias.
3) Se eliminan las lecturas truncadas de baja calidad. Las lecturas truncadas de alta calidad pueden identificarse como lecturas truncadas en las que al menos el X % de las bases tiene al menos puntuacion Q de Y. Se pueden implementar multiples reglas. Por ejemplo, solo se mantienen truncadas lecturas que tengan una puntuacion Q de 20/25 para el 100/90 por ciento de las bases, respectivamente, y eliminarse las lecturas truncadas con nucleotidos ambiguos (tales como “N”). Las lecturas truncadas por debajo de este umbral se consideran de baja calidad y se eliminan. Pueden emplearse otros procedimientos para el control de la calidad, por ejemplo, los procedimientos descritos en Sogin (2006) Proc. Natl. Acad. Sci. EE.UU., vol. 103(32): 12115-12120; P. H. Victor Kunin, "PyroTagger: A fast, accurate pipeline for analysis of rRNA amplicon pyrosequence data". The Open Journal, vol. 1, n.° 1.
4) Se introducen nuevos marcadores (que no estan presentes en la version anterior de la base de datos) y los recuentos de marcadores de cada muestra se introducen en la base de datos. Los recuentos de marcadores pueden ser recuentos reales (tales como 5) o fracciones del total de marcadores de la muestra (tal como el 0,5 % del total).
5) Se clasifican taxonomicamente nuevos marcadores. Existen multiples procedimientos alternativos para la clasificacion taxonomica que pueden usarse para poner en practica la invencion, como se describe, por ejemplo, en: Wu, et al. (2008) “An Automated Phylogenetic Tree-Based Small Subunit rRNA Taxonomy and Alignment Pipeline (STAP)”. PLoS ONE 3(7):e2566.doi:10.1371/journal.pone.0002566, y las referencias citadas en el mismo. Un procedimiento ilustrativo usado para poner en practica la invencion es una transferencia de la anotacion de la secuencia mas cercana de una base de datos publica, por ejemplo, tal como una base de datos
5
10
15
20
25
30
35
40
45
50
55
60
65
de Genbank.
6) En esta etapa, la base de datos contiene los recuentos de miembros de la comunidad reflejados por la abundancia de marcadores y la taxonoirna de cada marcador. Esta informacion se debe presentar al ser humano en un formato de lectura o analizado ademas computacionalmente. Otros analisis pueden incluir la distribucion en marcadores entre muestras; la identificacion de consorcios microbianos entre muestras; la identificacion de sesgos de procedimiento, etc. El formato de lectura para seres humanos puede comprender un grafico, una representacion o una tabla u otra forma de presentacion. Por ejemplo, el formato de lectura para seres humanos puede ser una tabla en la que las muestras sean columnas, los marcadores sean filas y las celdas reflejen los recuentos del marcador en la muestra. Se establece un umbral para que la secuencia aparezca en el analisis. Por ejemplo, se puede requerir que las secuencias sean abundantes al menos un X % en al menos Y conjuntos de datos; por ejemplo, al menos un 1 % en al menos 1 conjunto de datos. Este umbral (denominado X anteriormente) puede ser variado por la solicitud, siendo aproximadamente el 1 % el mas util. Este procedimiento permite analizar los errores raros y los miembros irrelevantes de la comunidad, manteniendose a la vez la mayona de los miembros importantes de la comunidad.
En aspectos alternativos, los metodos usan la normalizacion para el tamano de los datos y la representacion de las abundancias microbianas como fraccion del recuento microbiano total en una muestra. En realizaciones alternativas, la representacion como fracciones puede ser necesaria a medida que los tamanos de la muestra vanan y los conjuntos de datos no se pueden comparar facilmente sin una normalizacion.
En aspectos alternativos, los datos de abundancia se transforman mediante una transformacion logantmica. Esta transformacion puede ser necesaria, ya que existe un gran intervalo natural de los datos, y porque los recuentos de abundancia suelen ser reproducibles solo al nivel del orden de magnitud. Por lo tanto, la transformacion logantmica permite corregir las inexactitudes de las metodologfas de secuenciacion. Dado que la transformada logantmica no es posible para valores 0, estos se pueden sustituir con valores arbitrarios muy pequenos, por ejemplo, al 0,01 %, o por debajo del 1 % de abundancia o un recuento absoluto de 1.
En aspectos alternativos, las etapas 1, 2 y 3 se pueden realizar en cualquier orden o en paralelo. En realizaciones alternativas, las etapas 1 y 5 no son esenciales, por ejemplo, en una realizacion, un protocolo de la invencion comprende las etapas 2, 3, 4 y 6. Las etapas 4 y 5 se pueden realizar en paralelo o realizarse en cualquier orden.
En aspectos alternativos, se usan procedimientos similares cuando las lecturas son de extremo par (solapadas o no solapadas), usandose el ensamblaje de lecturas emparejadas cuando se requiera, tal como la secuenciacion con una plataforma de secuenciacion de acido nucleico Illumina, por ejemplo, GENOME ANALYZER IIX™ o HISEQ SYSTEM™ (Illumina, San Diego, CA), o equivalente). En este procedimiento se usara un par de lectura (ensamblado o no) como una “lectura” en el procedimiento descrito anteriormente.
Resultado:
El resultado es una descripcion de las comunidades microbianas como recuentos de la abundancia de los miembros unicos de cada comunidad. Se proporciona en una forma de visualizacion (tabla de abundancias), y se almacena como base de datos o recogida de archivos que describen marcadores unicos, su distribucion entre las muestras como lo evidencia la secuenciacion.
Tratamiento de los errores de secuenciacion
Una caractenstica distintiva de la invencion es la representacion de los miembros de la comunidad con marcadores unicos en lugar de grupos. Dicha representacion permite el uso de la base de datos y no requiere el agrupamiento. En aspectos alternativos, se considera que la funcion mas importante del agrupamiento es la absorcion de los errores de secuenciacion en una sola secuencia OTU representativa que representa todas las secuencias dentro de una metrica de distancia definida (por ejemplo, el 0,03 por ciento). La presente invencion rechaza la vision actual de que, sin agrupamiento, el ruido oscurecera la senal y las conclusiones del analisis de la comunidad seran incorrectas.
La presente invencion comprende el uso de las siguientes salvaguardias para limitar la influencia de los errores de secuenciacion:
1) Las lecturas se recortan. A medida que las lecturas tienden a acumular mas errores cerca de (uno o ambos) de los extremos, esta etapa reduce los posibles errores (etapa 2 del Procedimiento).
2) Las lecturas truncadas con un alto numero de bases de baja calidad se eliminan del conjunto de datos (etapa 3 del Procedimiento).
3) Los errores de secuenciacion que pasan por el filtro descrito en la etapa (2) se pueden dividir en raros y sistematicos. Los errores raros del proceso de secuenciacion dan lugar a marcadores que tienen una aparicion insignificante, y se eliminan mediante el metodo descrito en el Procedimiento (6). Se considera que los marcadores con errores no eliminados por el procedimiento (6) tienen errores sistematicos. Se espera que los
5
10
15
20
25
30
35
40
45
50
55
60
65
marcadores con errores sistematicos correlacionen la distribucion con su secuencia “madre” o “correcta”, teniendo el marcador correcto mucha mayor abundancia y alta similitud (identidad de secuencia) con el marcador con error. Estos rasgos de errores sistematicos permiten la correccion en el analisis de datos y el procesamiento posterior.
Consistencia de los datos
Antes de la presente invencion, cada vez que se anadfa una muestra a un grupo previamente analizado de muestras, se debfa volver a realizar el analisis (incluyendo el agrupamiento y la clasificacion taxonomica). Por otra parte, debido a la naturaleza del agrupamiento, los grupos son de naturaleza fluida, y pueden agregar o arrojar marcadores unicos. A medida que los marcadores se anaden o se eliminan de los grupos, los recuentos de las abundancias de los grupos por muestra pueden cambiar. En realizaciones alternativas, la presente invencion, mediante el uso de marcadores unicos, garantiza la consistencia de los recuentos de marcadores cuando se anaden o se eliminan muestras.
Debido a la naturaleza fluida de los grupos, antes de la presente invencion, la union entre tipos de datos era un procedimiento diffcil. En realizaciones alternativas, la presente invencion permite construir una base de datos con enlaces entre tipos de datos. Por ejemplo, los marcadores pueden unirse a clasificaciones taxonomicas, su distribucion entre las muestras, aislados disponibles en las colecciones de cepas y otros datos con mayor simplicidad. Esta capacidad potencia la capacidad del operador para rastrear los datos.
La tecnologfa de secuenciacion cambia cada pocos meses. Los cambios principalmente reducen el coste de la secuencia por base y/o aumentan la longitud de lectura. A medida que la tecnologfa cambia, los nuevos datos de amplicones mas largos no se pueden comparar directamente con los datos heredados. Antes de la invencion, una solucion era descartar las ventajas proporcionadas por una mayor resolucion de la tecnologfa mas reciente y usar las mismas regiones que con la tecnologfa anterior para la consistencia. Como alternativa, se requerfa la resecuenciacion de muestras antiguas, lo que requerfa un gran esfuerzo de recogida de muestras que podia no estar disponible para muestras mas antiguas.
En aspectos alternativos, la base de datos puede contener marcadores obtenidos con diversas tecnologfas de secuenciacion, cubriendo diferentes regiones de amplicon o diferentes zonas de la misma region de amplicon. Pueden vincularse diversos marcadores identificadores del mismo grupo de organismos, permitiendo la comparacion de los marcadores obtenidos con diversas tecnologfas de amplificacion, secuenciacion o procesamiento de datos. Por ejemplo, si la tecnologfa anterior permitfa la secuenciacion de la region v5 de la molecula de ARNr 16S, la nueva tecnologfa permitfa la secuenciacion de ambas regiones v5 y v6. Por lo tanto, los marcadores obtenidos con la tecnologfa solo v5 pueden identificarse como incluidos en los marcadores de las regiones v5 y v6. Si hay otra secuencia disponible con la region solo v6, las secuencias v5 y v6 pueden unirse a traves de una secuencia que contenga ambas regiones. Para concluir, la invencion tiene la capacidad de permitir el analisis de los datos obtenidos con tecnologfa diferente.
Identificacion de la divergencia ecologica de cepas muy similares
Antes de la presente invencion, los marcadores muy similares (por ejemplo, marcadores con alta similitud de secuencia) estaban representados por un solo grupo. Cuando estos marcadores representaban organismos ecologicamente diferentes, se perdfa la distincion de su distribucion ecologica, y solo se informaba de la distribucion combinada de todos los miembros del grupo. En realizaciones alternativas, la presente invencion, rastreando cada marcador, permite la comparacion de distribuciones ecologicas de secuencias altamente relacionadas.
La capacidad de la invencion para rastrear marcadores muy similares a traves de entornos proporciona una herramienta para distinguir entre errores de secuenciacion y organismos genuinamente distintos. Los marcadores altamente similares pueden representar cepas altamente relacionadas o ser variantes dentro del mismo genoma. Las distribuciones de marcadores similares entre muestras (alta correlacion) pueden ser el resultado de las variantes dentro de un genoma, las cepas relacionadas con una distribucion ecologica similar o error de secuenciacion. Por el contrario, las distribuciones de marcadores altamente divergentes entre muestras (como lo indica la baja correlacion), solo pueden derivarse de cepas relacionadas con una distribucion ecologica distinta. Por lo tanto, en realizaciones alternativas, la distribucion de secuencias entre muestras se usa para identificar variantes ecologicamente relevantes de organismos similares. La "correlacion" es cualquier forma de calculo que identifica similitud o distancia, y puede ser opcionalmente la distancia Euclidiana, la correlacion de Pearson, las distancias vectoriales, el Chi cuadrado, la distancia de Manhattan, metodos de ordenacion que comprenden opcionalmente el uso de PCA, la disimilitud de Bray-Curtis y el escalamiento multidimensional no metrico (NMS o NMDS).
Los marcadores que tienen alta similitud de secuencia pero no se correlacionan de manera significativa se pueden identificar como representantes de distintos organismos con una distribucion medioambiental distinta. Sin embargo, en algunos casos, los marcadores que representan organismos distintos pueden tener distribuciones correlacionadas. Estos se pueden identificar usando un procedimiento ligeramente diferente. Uno de los marcadores se puede designar como una referencia, y usarse su distribucion para predecir la distribucion de un marcador
5
10
15
20
25
30
35
40
45
50
55
60
65
correlacionado. Se puede usar una desviacion significativa de la aparicion esperada del marcador correlacionado en una o mas muestras como una indicacion de que el marcador representa un organismo distinto. La significacion de la desviacion se establecera dependiendo del metodo preciso seleccionado, y hay un gran volumen de literatura que describe la evaluacion de la importancia de las predicciones en funcion de la metodologfa usada.
En realizaciones alternativas, la presente invencion permite utilizar informacion adicional procedente de marcadores mas largos. Antes de la invencion, los marcadores se agruparon. Por ejemplo, los marcadores de 100 pares de bases (pb) de longitud que tenfan 1 diferencia se incluyeron en el 99 % de los grupos, asf como los marcadores de 200 pb que tenfan 2 diferencias. En realizaciones alternativas, la presente invencion usa marcadores unicos, permitiendo asf diferenciar entre variantes mas ecologicas a medida que aumenta la longitud de secuencia.
La Figura 2 ilustra una visualizacion de la red de aparicion simultanea de microbios. Esta figura se obtuvo de la siguiente manera: se obtuvieron recuentos de las abundancias microbianas a partir de una base de datos que contiene mas de mil muestras unicas y mas de 2,74 millones de marcadores unicos de ARNr 16S. Solo se seleccionaron muestras naturales no cultivadas para este analisis. Solo se seleccionaron marcadores con abundancia acumulada de mas de 100 en todas las muestras. Se sometieron las abundancias a transformacion logarftmica. Se compararon las abundancias de todos los microbios que aparecieron simultaneamente en mas de 5 muestras, se descartaron los microbios que no aparecieron simultaneamente. Solo se consideraron como presencia en la muestra los recuentos de 10 o mas, descartandose una abundancia menor. Se consideraron los marcadores que tenfan una correlacion de Pearson superior a 0,3. La matriz de correlacion se agrupo con el programa MCL usando el valor de inflacion de 1,1. Los resultados se representaron en una red en la que los nodos son marcadores y los bordes son correlaciones. La visualizacion se realiza con un programa BIOLAYOUT™ (Biotechnology and Biological Sciences Research Council (BBSRC), Swindon, RU). Debido a las limitaciones de espacio, solo se muestra una fraccion de toda la red. Los consorcios microbianos se identifican facilmente como grupos de nodos estrechamente conectados en el grafico.
Identificacion de los consorcios microbianos
En realizaciones alternativas, la invencion proporciona metodos de identificacion de consorcios microbianos o grupos de microbios con distribuciones medioambientales correlacionadas. Los consorcios microbianos realizan muchas tareas importantes en la naturaleza, en concreto, la biodegradacion de compuestos complejos. Estos consorcios normalmente se estudian de una manera especffica, cuando se selecciona una tarea en mano para la interrogacion, se identifican los organismos de interes y se estudia la interaccion. Esta estrategia de caso por caso permite una comprension profunda de algunos consorcios, pero no presenta una vision general de la variedad de consorcios que hay en la naturaleza.
La identificacion de consorcios es un problema inverso a la identificacion de organismos con secuencias similares, pero con diversas distribuciones ecologicas. En cambio, los consorcios suelen tener organismos evolutivamente divergentes, con diversas secuencias que tienen una distribucion medioambiental muy similar. Esos organismos estarfan interactuando en la naturaleza, y esas interacciones pueden estar en forma de consorcios u otra forma de coexistencia.
Los microbios pueden tener diversos tipos de interacciones. Por ejemplo, dos microbios pueden depender enteramente uno del otro. Estos microbios tambien aparecerfan siempre simultaneamente en las mismas muestras. Cabrfa esperar una fuerte correlacion lineal entre las abundancias de estos dos microbios. Sin embargo, este tipo de interaccion se informa con relativamente poca frecuencia en la literatura, y se espera que solo sea una fraccion de todas las interacciones microbianas. El analisis previo de las secuencias presentadas simultaneamente al Proyecto de Bases de Datos Ribosomicas identifico un grupo limitado de organismos que se espera que se correlacionen de esta manera.
En la mayorfa de los casos, los microbios no serfan absolutamente dependientes entre sf, sino que formarfan una interaccion transitoria para participar en un consorcio que realizara alguna funcion. Estos microbios no aparecerfan siempre juntos en la naturaleza. Sin embargo, si participan en algun proceso, para las muestras en las que tenga lugar el proceso, pueden estar correlacionados. Por lo tanto, se espera una correlacion (mas) debil para los formadores de consorcios transitorios.
Otra forma de correlacion es la anticorrelacion. Es decir, en el mismo tipo de muestra, la abundancia de un organismo se reduce cuando otro organismo esta presente. Esta interaccion se puede observar cuando los organismos se excluyen entre sf debido a la competitividad, o porque las condiciones medioambientales que favorecen a un organismo y suprimen al otro.
En realizaciones alternativas, la eleccion de las muestras para el analisis de correlacion puede ser flexible. En una realizacion, una opcion consiste en seleccionar todas las muestras de la base de datos. Otra opcion es la de limitar las muestras por alguna caracterfstica. Esas caracterfsticas podrfan ser el proyecto, el tipo de muestra o la fuente, seleccionando unicamente muestras sin cultivar o cultivadas, o cualquier combinacion de las mismas. Opcionalmente, se pueden excluir las muestras que sean demasiado similares para ser informativas.
5
10
15
20
25
30
35
40
45
50
55
60
65
En realizaciones alternativas, para la identificacion de consorcios, se requiere un conjunto de datos o una base de datos de abundancias microbianas en muestras. Esta base de datos puede construirse usando un metodo de la invencion, por ejemplo, usando un ARNr, o mediante secuenciacion genica, o mediante cualquier otro metodo conocido en la tecnica. Los recuentos de la abundancia de cada secuencia de la base de datos se comparan con los recuentos de la abundancia de otras secuencias de la seleccion escogida de muestras. En realizaciones alternativas, las secuencias para las que se comparan los recuentos de la abundancia son todas las secuencias de la base de datos, o comprenden una subseccion de secuencias, por ejemplo, incluyendo solo secuencias abundantes o secuencias solo significativamente diferentes o cualquier otro subconjunto de secuencias de la base de datos. Las abundancias microbianas de la base de datos pueden representarse como recuentos absolutos o como una fraccion del total. Las abundancias pueden ademas someterse a transformacion logarftmica, por ejemplo, para acomodar mejor el intervalo de datos y/o corregir las imprecisiones cuantitativas.
En realizaciones alternativas, se comparan las similitudes de las distribuciones de cada dos secuencias usando metricas de distancia. Estas metricas de distancia pueden incluir cualquiera o cualquier combinacion de distancia Euclidiana, la correlacion de Pearson, distancias vectoriales, Chi cuadrado, distancia de Manhattan o metodos de ordenacion que comprenden opcionalmente el uso del Analisis de Componentes Principales (PCA), la ordenacion de Bray-Curtis o la disimilitud de Bray-Curtis, y el escalamiento multidimensional no metrico (NMS o NMDS). La parte mas importante es que estas metricas producen un valor numerico de distancia o similitud entre los dos microbios o marcadores. Se puede usar un umbral de distancia o similitud apropiado para designar marcadores similares, cuya similitud debe ser superior a 0.
En realizaciones alternativas, las similitudes entre marcadores se almacenan en una estructura de datos matricial en un ordenador, en forma de archivo, base de datos, en memoria de ordenador, o en un disco o una unidad.
En realizaciones alternativas, la matriz de similitud se visualiza como una red. En esta red, cada nodo puede ser un microbio o un marcador, y cada borde es una similitud entre ellos. En realizaciones alternativas, esta red ya presentarfa consorcios en forma de componentes conectados en el grafico. Las superficies de un grafico que comparten mas conexiones son microorganismos que ocurren simultaneamente, que se pueden identificar como consorcios.
En realizaciones alternativas, la red puede ser demasiado grande e incomoda de visualizar y analizar. Esto es asf, en particular, en ausencia de agrupamiento basado en secuencias. Esta forma de agrupamiento absorbe secuencias similares, reduciendo el tamano de los datos disponibles para el examen. En ausencia de agrupamiento basado en secuencias, la resolucion es mayor, lo que coincide con el aumento de tamano de los datos. El numero de componentes puede llegar a ser demasiado grande para realizar el examen facilmente, y el numero de posibles pares de comparaciones crece como el cuadrado del numero de microbios (o marcadores) examinados. Por lo tanto, en dicha realizacion, se desea la reduccion de los datos hasta un tamano manejable.
En realizaciones alternativas, para facilitar el analisis, se usa el agrupamiento basado en la distribucion medioambiental (a diferencia del agrupamiento basado en secuencias). El agrupamiento es una tecnica computacional de identificacion del agrupamiento de un conjunto de objetos de manera que los objetos del mismo grupo (denominados grupo) son mas similares (en algun sentido u otro) a los demas de los de otros grupos. En la presente solicitud, los objetos son microbios o marcadores, y la similitud se basa en la distribucion medioambiental. Hay muchos algoritmos en la tecnica que realizan el agrupamiento. En realizaciones alternativas, la invencion comprende el uso del agrupamiento jerarquico, la identificacion de componentes conectados, el agrupamiento basado en la conectividad, el agrupamiento basado en la distribucion, el agrupamiento basado en la densidad, el agrupamiento de un solo enlace, el agrupamiento de Marcov (MCL, Marcov clustering) y/o el agrupamiento de centroides entre otros. En realizaciones alternativas, este agrupamiento identifica grupos de microbios con distribuciones ambientales similares. Los microbios que componen estos grupos pueden interpretarse como formadores de consorcios.
En realizaciones alternativas, los metodos de la invencion permiten una reduccion de la complejidad de las interacciones que un investigador examina desde todos los microbios de todas las muestras ensayadas hasta los microbios que son miembros de un solo grupo o un grupo de grupos basado en la distribucion. En realizaciones alternativas, el papel de dichos microbios dentro de un supuesto consorcio se podrfa ensayar posteriormente en un laboratorio, en el que dichos microbios se pueden ensamblar artificialmente a partir de una coleccion de cultivos. Esta comunidad ensamblada se puede ensayar entonces para realizar una funcion del supuesto consorcio, e identificarse un grupo de organismos necesario para esta tarea.
Construccion de consorcios sinteticos
Los microorganismos rara vez ocurren en la naturaleza como una sola especie. En la gran mayorfa de los casos, interactuan con otros microorganismos que estan presentes en el mismo ambiente, es decir, tienen la misma distribucion medioambiental. Algunas de esas interacciones son de competitividad, mientras que otras interacciones implican cooperacion; o una interaccion puede implicar la competitividad en un aspecto y la cooperacion en otro. La presente invencion define organismos que tienden a coexistir como un consorcio y describe un procedimiento de
5
10
15
20
25
30
35
40
45
50
55
60
65
identificacion de miembros de consorcios y construccion de consorcios sinteticos.
Los ejemplos de la funcion de interes de un consorcio incluyen, por ejemplo, sintetizar o degradar un compuesto de interes (por ejemplo, una metanogenesis utilizando metanol o una conversion “metilotrofica”); mantener la salud de un organismo hospedador, por ejemplo, un ser humano, o causar la enfermedad de un hospedador; formar una interaccion mutuamente beneficiosa con una planta, un hongo o un animal; la prevencion de enfermedades; la conservacion y/o fermentacion de productos alimenticios (por ejemplo, como ingrediente de un probiotico), la mejora de las cualidades del agua o del suelo; la biodegradacion de contaminantes y la descontaminacion; etc.
La identificacion bioinformatica de los consorcios anteriores puede usarse para ensamblar un consorcio sintetico. La mayorfa de los laboratorios de microbiologfa tienen acceso a colecciones de cepas en las que las cepas puras se mantienen o crecen aisladas de otros microbios. Esas cepas se pueden identificar por la secuenciacion de ADNr 16S, la secuenciacion del genoma u otros metodos (tales como metodos fenotfpicos, recepcion de cepas de una fuente de confianza, etc.). A veces, las cepas no se pueden purificar hasta un estado axenico deseado y se mantienen como cultivos de enriquecimiento.
En aspectos alternativos, los consorcios identificados mediante metodos bioinformaticos descritos en la presente invencion pueden construirse sinteticamente. Las cepas correspondientes o los cultivos de enriquecimiento pueden referenciarse de forma cruzada. Esta referencia cruzada puede realizarse mediante secuenciacion de ADNr 16S (cuando el cultivo tiene una secuencia identica al marcador) o mediante clasificacion al mismo grupo taxonomico (tal como las especies). Cuando no se puede encontrar una coincidencia exacta entre un microbio identificado por los metodos bioinformaticos descritos en la presente invencion dentro de la coleccion de cultivos, se puede sustituir con un organismo estrechamente relacionado. El organismo estrechamente relacionado puede ser un organismo de la misma especie o del mismo genero, o tener un 95 % o mas de identidad de secuencia de marcador o ARNr.
Los microbios identificados como presentes en el consorcio se pueden mezclar artificialmente en un laboratorio, creando un consorcio sintetico. El consorcio sintetico se puede ensayar entonces para realizar la tarea deseada de interes, tal como sintetica o degradante de un compuesto de interes.
Distribuciones medioambientales
En aspectos alternativos, la divulgacion comprende metodos de identificacion y/o fabricacion de un consorcio microbiano o un grupo de microbios que tenga una distribucion medioambiental correlacionada, y consorcios microbianos o un grupo de microbios fabricados mediante estos metodos. En aspectos alternativos, la distribucion medioambiental es una distribucion de cualquier muestra medioambiental tal como, por ejemplo, un agua de produccion, un agua de formacion, una muestra nucleo, un corte de perforacion, agua, un sedimento o un suelo. En aspectos alternativos, la distribucion medioambiental es una distribucion de cualquier medio ambiente que tenga un sustrato carbonoso, por ejemplo, incluyendo una formacion rica en materia organica subterranea natural o artificial, tal como vertederos, biorreactores superficiales o subterraneos, o un deposito subterraneo artificial; o pizarra, carbon, arenas petrolfferas, betun, alquitran, aceite, arenisca y caliza con desechos organicos u otros depositos o formaciones ricos en hidrocarburos, por ejemplo, a traves de la via metilotrofica.
Referencias
[1] M. L. Sogin, et al., "Microbial diversity in the deep sea and the underexplored 'rare biosphere'", Proc. Natl. Acad. Sci. EE.UU., vol. 103, n.° 32, pags. 12115-12120, agosto de 2006.
[2] C. Quince, et al., "Accurate determination of microbial diversity from 454 pyrosequencing data", Nat. Methods, vol. 6, n.° 9, pags. 639-641, septiembre de 2009.
[3] P. H. Victor Kunin, "PyroTagger: A fast, accurate pipeline for analysis of rRNA amplicon pyrosequence data", The Open Journal, vol. 1, n.° 1.
[4] J. Kuczynski, et al., "Using QIIME to analyze 16S rRNA gene sequences from microbial communities", Curr Protoc Bioinformatics, vol. capftulo 10, p. Unidad 10.7., diciembre de 2011.
[5] V. Kunin, et al., "Wrinkles in the rare biosphere: pyrosequencing errors can lead to artificial inflation of diversity estimates", Environ. Microbiol, vol. 12, n.° 1, pags. 118-123, enero de 2010.
Algunas partes de la siguiente descripcion detallada se presentan en terminos de algoritmos y representaciones simbolicas de operaciones sobre bits de datos dentro de una memoria de ordenador. Estas descripciones y representaciones algorftmicas son los medios usados por los expertos en las tecnicas de procesamiento de datos para transmitir mas eficazmente el contenido de su labor a los expertos en la materia. Un algoritmo, en el presente documento y en general, se concibe como una secuencia autoconsistente de etapas que conducen a un resultado. Las etapas son aquellas que requieren manipulaciones ffsicas de cantidades ffsicas. Normalmente, aunque no necesariamente, estas cantidades adoptan la forma de senales electricas o magneticas capaces de ser almacenadas, transferidas, combinadas, comparadas y manipuladas de otra manera. A veces, ha demostrado ser conveniente, principalmente por razones de uso comun, para referirse a estas senales como bits, valores, elementos, sfmbolos, caracteres, terminos, numeros o similares.
5
10
15
20
25
30
35
40
45
50
55
60
65
Se ha de tener en cuenta, sin embargo, que todos estos terminos y terminos similares deben asociarse con las cantidades ffsicas apropiadas y son meramente marcadores convenientes aplicados a estas cantidades. A menos que se indique espedficamente lo contrario, como es evidente a partir de la presente descripcion, se aprecia que a lo largo de la descripcion, los analisis que utilizan terminos tales como "procesamiento", "computo", "calculo", "determinacion", "visualizacion" o similares, se refieren a las acciones y a los procesos de un sistema informatico o dispositivo electronico similar que manipule y transforme datos representados como cantidades ffsicas (por ejemplo, electronicos) dentro de los registros y de las memorias del sistema informatico en otros datos representados de manera similar como cantidades ffsicas dentro de las memorias o de los registros del sistema informatico u otros de dichos dispositivos de almacenamiento, transmision o visualizacion de la informacion.
En aspectos alternativos, la divulgacion proporciona productos de fabricacion, o aparato, para realizar las operaciones de la invencion. Estos productos de fabricacion o aparatos pueden estar especialmente construidos para los fines requeridos o pueden comprender un ordenador de uso general activado selectivamente o reconfigurado por un programa informatico almacenado en el ordenador. Dicho programa informatico puede almacenarse en un soporte de almacenamiento informatico de lectura tal como, pero sin limitacion, cualquier tipo de disco incluyendo disquetes, discos opticos, CD-ROM y discos magneticos opticos, memorias de solo lectura (ROM) , memorias de acceso aleatorio (RAM), EPROM, EEPROM, tarjetas magneticas u opticas, o cualquier tipo de medio adecuado para almacenar instrucciones electronicas.
Los algoritmos y las presentaciones presentados en el presente documento no estan inherentemente relacionados con ningun ordenador u otro aparato en particular. Se pueden usar diversos sistemas de uso general con programas de acuerdo con las ensenanzas de la presente memoria, o puede resultar conveniente construir un aparato mas especializado para realizar las etapas del metodo. La estructura para una variedad de estos sistemas aparecera en la siguiente descripcion. Ademas, la presente invencion no se describe con referencia a ningun lenguaje de programacion en particular. En realizaciones alternativas, se usa una variedad de lenguajes de programacion para implementar las realizaciones de la invencion como se describe en el presente documento.
En aspectos alternativos, un medio de lectura por maquina incluye cualquier mecanismo para almacenar o transmitir informacion en una forma legible por una maquina (por ejemplo, un ordenador). Por ejemplo, un medio de lectura por maquina incluye un medio de almacenamiento de lectura por maquina (por ejemplo, memoria de solo lectura (ROM), memoria de acceso aleatorio (RAM), medios de almacenamiento en disco magnetico, medios de almacenamiento opticos, dispositivos de memoria flash, etc.), un medio de transmision de lectura por maquina (senales electricas, opticas, acusticas u otras formas de senales propagadas (por ejemplo, ondas portadoras, senales infrarrojas, senales digitales, etc.)), etc.
En la presente descripcion, se exponen numerosos detalles. Sera evidente, sin embargo, para un experto en la materia que la presente invencion se puede poner en practica sin estos detalles espedficos.
En realizaciones alternativas, la "complementariedad" puede definirse como un porcentaje de identidad o un porcentaje de identidad de secuencia, por ejemplo, en realizaciones alternativas, dos cadenas de acido nucleico son un 80 %, 81 %, 82 %, 83 %, 84 %, 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %,
97 %, 98 %, 99 % o mas, o completamente (100 %) identicas o un 80 %, 81 %, 82 %, 83 %, 84 %, 85 %, 86 %,
87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 % , 96 %, 97 %, 98 %, 99 % o mas, o completamente
complementarias. Cuanto mas complementarias sean las dos cadenas, mas probable es que el codigo resultante
codifique una proterna en particular o, en el caso de la presente invencion, cuanto mas complementarias sean dos secuencias de amplicon, mayor grado de certeza habra de que dos miembros (a partir de los cuales se derivan las secuencias de amplicon) pertenezcan a la misma comunidad microbiana.
Sistemas informaticos y dispositivos de almacenamiento de datos
En realizaciones alternativas, los metodos de la invencion, en su totalidad o en parte, requieren necesariamente la implementacion usando una maquina, un sistema informatico o equivalente, dentro del cual se pueda ejecutar un conjunto de instrucciones para hacer que el ordenador o la maquina realice uno o mas de los protocolos o metodologfas de la invencion. En realizaciones alternativas, la maquina puede conectarse (por ejemplo, conectarse en red) a otras maquinas, por ejemplo, en una red de area local (LAN), una intranet, una extranet o Internet, o cualquier equivalente de la misma. La maquina puede funcionar en la capacidad de un servidor o una maquina de cliente en un entorno de red cliente-servidor, o como una maquina igual en un entorno de red de igual a igual (o distribuido). La maquina puede ser un ordenador personal (PC), un PC Tablet, un decodificador (STB), un Asistente Personal Digital (PDA), un telefono celular, un dispositivo web, un servidor, un enrutador de red, un conmutador o un puente, o cualquier maquina capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro tipo) que especifiquen las acciones que vayan a ser realizadas por esa maquina. Se entendera que el termino "maquina" tambien incluira cualquier coleccion de maquinas, ordenadores o productos de fabricacion que ejecuten individual o conjuntamente un conjunto (o conjuntos multiples) de instrucciones para realizar una o mas de las metodologfas de la invencion.
5
10
15
20
25
30
35
40
45
50
55
60
65
En las realizaciones alternativas, un sistema informatico ilustrativo de la invencion comprende un dispositivo de procesamiento (procesador), una memoria principal (por ejemplo, memoria de solo lectura (ROM), memoria flash, memoria dinamica de acceso aleatorio (DRAM) tal como DRAM sfncrona (SDRAM) o DRAM Rambus (RDRAM), etc.), una memoria estatica (por ejemplo, memoria flash, memoria estatica de acceso aleatorio (SRAM), etc.) y un dispositivo de almacenamiento de datos que se comunican entre si a traves de un bus.
En realizaciones alternativas, un procesador representa uno o mas dispositivos de procesamiento de uso general tales como un microprocesador, una unidad de procesamiento central o similar. Mas concretamente, el procesador puede ser un microprocesador de calculo de conjunto de instrucciones complejas (CISC), microprocesador de calculo de instrucciones reducidas (RISC), microprocesador de palabras de instruccion muy largas (VLIW) o un procesador que implemente otros conjuntos de instrucciones o procesadores que implementen una combinacion de conjuntos de instrucciones. El procesador tambien puede ser uno o mas dispositivos de procesamiento de uso especial, tales como un circuito integrado especffico de la aplicacion (ASIC), una matriz de puerta programable por campo (FPGA), un procesador de senales digitales (DSP), un procesador de red o similar. En realizaciones alternativas, el procesador esta configurado para ejecutar las instrucciones (por ejemplo, el proceso logico de procesamiento) para realizar las operaciones y las etapas descritas en el presente documento.
En realizaciones alternativas, el sistema informatico comprende ademas un dispositivo de interfaz de red. El sistema informatico tambien puede incluir una unidad de visualizacion de video (por ejemplo, una pantalla de cristal liquido (LCD) o un tubo de rayos catodicos (CRT)), un dispositivo de entrada alfanumerico (por ejemplo, un teclado), un dispositivo de control del cursor y un dispositivo de generacion de senales (por ejemplo, un altavoz).
En realizaciones alternativas, el dispositivo de almacenamiento de datos (por ejemplo, la unidad de disco) comprende un soporte informatico de lectura de almacenamiento sobre el que se almacenan uno o mas conjuntos de instrucciones (por ejemplo, software) que incorporan uno cualquiera o mas de los protocolos, de las metodologias o de las funciones de la presente invencion. Las instrucciones tambien pueden residir, total o al menos parcialmente, dentro de la memoria principal y/o dentro del procesador durante su ejecucion por el sistema informatico, tambien constituyendo la memoria principal y el procesador medios de almacenamiento accesibles por la maquina. Las instrucciones ademas se pueden transmitir o recibir por una red a traves del dispositivo de interfaz de red.
En realizaciones alternativas, el soporte informatico de lectura de almacenamiento se usa para almacenar conjuntos de estructuras de datos que definen estados de identificacion de usuario y preferencias de usuario que definen perfiles de usuario. Los conjuntos de estructuras de datos y los perfiles de usuario tambien se pueden almacenar en otras secciones del sistema informatico, tales como la memoria estatica.
En realizaciones alternativas, mientras que el soporte informatico de lectura de almacenamiento de un ejemplo de realizacion es un solo medio, la expresion "medio de almacenamiento accesible por la maquina" puede considerarse que incluye un solo medio o varios medios (por ejemplo, una base de datos centralizada o distribuida y/o caches y servidores asociados) que almacenen uno o mas conjuntos de instrucciones. En realizaciones alternativas, la expresion "medio de almacenamiento accesible por la maquina" tambien puede considerarse que incluye cualquier medio que sea capaz de almacenar, codificar o transportar un conjunto de instrucciones para su ejecucion por la maquina y que haga que la maquina realice una o mas de las metodologias de la presente invencion. Por consiguiente, en realizaciones alternativas, la expresion "medio de almacenamiento accesible por la maquina" se considerara que incluye, pero sin limitacion, memorias de estado solido, y medios opticos y magneticos.
En realizaciones alternativas, la informacion y las senales se representan usando cualquier tecnologfa y/o tecnica conocida en la materia. Por ejemplo, los datos, las instrucciones, los comandos, la informacion, las senales, los bits, los sfmbolos y los chips usados para poner en practica las composiciones (dispositivos, ordenadores) y los metodos de la invencion pueden representarse por tensiones, corrientes, ondas electromagneticas, campos magneticos o partfculas, campos opticos o partfculas, o cualquier combinacion de los mismos.
En realizaciones alternativas, los diversos bloques logicos ilustrativos, modulos, circuitos y etapas algorftmicas usados para describir realizaciones ilustrativas de la invencion se pueden implantar como hardware electronico, software informatico, o combinaciones de ambos. Para ilustrar claramente esta capacidad de intercambio de hardware y software, se han descrito anteriormente varios componentes ilustrativos, bloques, modulos, circuitos y etapas, en general, en terminos de su funcionalidad. Que dicha funcionalidad se implante como hardware o como software depende de las restricciones de aplicacion y diseno impuestas en particular al sistema en general. Los expertos en la materia pueden implantar la funcionalidad descrita de diversas maneras para cada aplicacion particular, pero dichas decisiones de implantacion no deben interpretarse como causantes de un alejamiento del alcance de la presente invencion.
En vista de las presentes ensenanzas, a los expertos en la materia, se les ocurriran facilmente modificaciones de la presente invencion. La descripcion de la invencion del presente documento es ilustrativa y no restrictiva. La presente invencion solo estara limitada por las siguientes reivindicaciones, que incluyen la totalidad de dichas realizaciones y modificaciones observadas junto con la memoria descriptiva anterior y los dibujos adjuntos. Por lo tanto, el alcance de la invencion debe determinarse no con referencia a la descripcion anterior, sino que debe determinarse con
referencia a las reivindicaciones adjuntas junto con su alcance completo de equivalentes.

Claims (13)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo de identificacion de un consorcio microbiano o de un grupo de microbios con distribuciones medioambientales correlacionadas, que comprende:
    (a) proporcionar abundancias de marcadores en dos o mas muestras, en las que cada marcador es representativo de un grupo de microbios con distribuciones medioambientales correlacionadas, y el marcador comprende una composicion producida mediante:
    (i) el suministro de una coleccion de muestras, en la que las muestras son secuencias de acidos nucleicos de una o mas comunidades microbianas o un grupo de microbios con distribuciones medioambientales correlacionadas, y el procesamiento de las muestras mediante:
    (ii) la identificacion de secuencias de nucleotidos que contienen codigos de barras identificadores de la muestra y el registro de su correspondencia con una determinada muestra y luego, la retirada de los codigos de barras y el descarte de las secuencias que no contienen los codigos de barras correctos o que contienen codigos de barras que no se corresponden con ninguna de las muestras;
    (iii) el corte o truncamiento de las secuencias de nucleotidos o las “lecturas” de (a) y la designacion de las secuencias de nucleotidos especfficas de la region que quedan como “marcadores”, de modo que un marcador es una version procesada o truncada de una lectura, y el resto de secuencias de nucleotidos identificadas o “lecturas” de la etapa (ii) y el mantenimiento de solo regiones previamente definidas;
    (iv) la filtracion cualitativa de las lecturas truncadas mediante la eliminacion de las lecturas truncadas ambiguas y la eliminacion de las lecturas truncadas de baja calidad, en la que una lectura de baja calidad esta por debajo del umbral de calidad;
    (v) la clasificacion taxonomica de los marcadores restantes y, opcionalmente, la generacion de una salida de datos que comprende una descripcion de comunidades microbianas como recuentos de la abundancia de los miembros unicos de cada comunidad;
    (vi) la importacion de las secuencias e identificadores de nuevos marcadores a una base de datos; y
    (viii) la importacion de los marcadores de las abundancias de recuentos de las muestras a la base de datos;
    (viii) la constriccion o modificacion de la base de datos que comprende los marcadores unicos de las etapas (ii) a (vii), en relacion con sus abundancias en las muestras;
    (ix) la exportacion de datos de abundancia de marcadores de al menos dos muestras de la base de datos; en la que se fija un umbral para los marcadores que aparecen en el analisis,
    identificando de este modo la composicion de comunidades microbianas o un grupo de microbios con distribuciones medioambientales correlacionadas;
    (b) identificar similitudes de abundancias en muestras entre pares de microbios, mediante la comparacion de las abundancias de un microbio con otro microbio de cada muestra usando metricas de distancia;
    (c) repetir la etapa (b) para al menos un par mas de microbios;
    (d) almacenar las similitudes obtenidas en la etapa (b) y (c) en forma de una estructura de datos matricial en un formato digital;
    (e) realizar bien un analisis de red, un analisis de grupos o un agrupamiento en la estructura matricial de datos de similitud obtenida en la etapa (d), implicando el analisis de red la representacion de los datos en la que los microbios o los marcadores se designan como nodos de la red y las similitudes entre los marcadores o los microbios obtenidos en las etapas (b) y (c) se designan como bordes de la red; y
    (f) designar los microbios que estan conectados en la red o asignados al mismo grupo como un consorcio, de manera que las etapas del metodo de identificacion de un consorcio microbiano o grupo de microbios con distribuciones medioambientales correlacionadas se implantan por ordenador.
  2. 2. El metodo de la reivindicacion 1, que comprende ademas la etapa de combinar los correspondientes cultivos microbianos, en el que los cultivos microbianos se componen de cepas puras, cepas enriquecidas o cualquier combinacion de las mismas.
  3. 3. El metodo de las reivindicaciones 1 o 2, en el que la distribucion medioambiental es una distribucion de cualquier muestra medioambiental, tal como, por ejemplo, un agua de produccion, un agua de formacion, una muestra nucleo, un corte de perforacion, agua, un sedimento o un suelo; o la distribucion medioambiental es una distribucion desde cualquier medio ambiente que tenga un sustrato carbonoso, por ejemplo, incluyendo una formacion rica en materia organica subterranea natural o artificial, tal como vertederos, biorreactores superficiales o subterraneos, o un deposito subterraneo artificial; o pizarra, carbon, arenas petrolfferas, betun, alquitran, aceite, arenisca y caliza con desechos organicos u otros depositos o formaciones ricos en hidrocarburos.
  4. 4. El metodo de cualquiera de las reivindicaciones 1 a 3, en el que las abundancias se deducen a partir del numero de copias de secuencias genicas distintas detectadas en cada muestra.
  5. 5. El metodo de la reivindicacion 4, en el que el gen es una secuencia de genes de ARNr 16S.
    5
    10
    15
    20
    25
    30
  6. 6. El metodo de la reivindicacion 5, en el que las abundancias se representan como recuentos absolutos o fraccion del total.
  7. 7. El metodo de la reivindicacion 6, metodo que comprende la transformacion logarftmica de los datos de abundancia.
  8. 8. El metodo de las reivindicaciones 1 a 7, en el que la metrica de distancia comprende: una distancia Euclidiana, un Chi cuadrado, una correlacion, una distancia de Manhattan, un metodo de ordenacion que comprende opcionalmente el uso de un analisis de componentes principales, una disimilitud de Bray-Curtis y/o un escalamiento multidimensional no metrico, opcionalmente, NMS o NMDS.
  9. 9. El metodo de la reivindicacion 8, en el que cada muestra puede comprender todas las muestras disponibles o cualquier fraccion de las muestras.
  10. 10. El metodo de una cualquiera de las reivindicaciones 1 a 9, en el que la estructura de datos matricial se almacena en una memoria de ordenador, en una unidad de disco, en un archivo, en una coleccion de archivos o una base de datos.
  11. 11. El metodo de una cualquiera de las reivindicaciones 1 a 10, en el que el analisis de los grupos o agrupamiento es un agrupamiento jerarquico, una identificacion de componentes conectados, un agrupamiento basado en la conectividad, un agrupamiento basado en la distribucion, un agrupamiento basado en la densidad, un agrupamiento de un solo enlace, un agrupamiento de Marcov (MCL) o un agrupamiento de centroides.
  12. 12. El metodo de una cualquiera de las reivindicaciones 1 a 11, en el que los microbios comprenden todos los microbios conectados en la red o todos los microbios del grupo o cualquier fraccion de los mismos.
  13. 13. El metodo de una cualquiera de las reivindicaciones 1-12, en el que las etapas del metodo se implantan por ordenador usando un producto de programa informatico para implantar estas etapas o un producto de programa informatico para el procesamiento de datos, comprendiendo el producto de programa informatico un proceso logico ejecutable por ordenador contenido en un soporte informatico de lectura para implantar estas etapas.
ES13759967.6T 2012-06-28 2013-06-28 Métodos de fabricación o creación de un consorcio microbiano sintético identificado mediante análisis computacional de secuencias de amplicones Active ES2632602T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261665656P 2012-06-28 2012-06-28
US201261665656P 2012-06-28
PCT/US2013/048719 WO2014005094A1 (en) 2012-06-28 2013-06-28 Compositions and methods for identifying and comparing members of microbial communities by computational analysis of amplicon sequences

Publications (1)

Publication Number Publication Date
ES2632602T3 true ES2632602T3 (es) 2017-09-14

Family

ID=49783924

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13759967.6T Active ES2632602T3 (es) 2012-06-28 2013-06-28 Métodos de fabricación o creación de un consorcio microbiano sintético identificado mediante análisis computacional de secuencias de amplicones

Country Status (6)

Country Link
US (1) US9593382B2 (es)
EP (1) EP2694669B1 (es)
CA (1) CA2840459A1 (es)
DK (1) DK2694669T3 (es)
ES (1) ES2632602T3 (es)
WO (1) WO2014005094A1 (es)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676739B2 (en) * 2010-11-11 2014-03-18 International Business Machines Corporation Determining a preferred node in a classification and regression tree for use in a predictive analysis
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
RU2634793C1 (ru) 2014-03-07 2017-11-03 Эксонмобил Апстрим Рисерч Компани Способ разведки и система для обнаружения углеводородов по водяному столбу
CN103981259A (zh) * 2014-05-06 2014-08-13 山西晋城无烟煤矿业集团有限责任公司 一种煤层水中微生物多样性和物种丰度的分析方法
WO2015198074A1 (en) * 2014-06-27 2015-12-30 Illumina Cambridge Limited Methods, applications and systems for processing and presenting gene sequencing information
WO2016043982A1 (en) 2014-09-18 2016-03-24 Exxonmobil Upstream Research Company Method to determine the presence of source rocks and the timing and extent of hydrocarbon generation for exploration, production and development of hydrocarbons
US10094815B2 (en) 2014-09-18 2018-10-09 Exxonmobil Upstream Research Company Method to enhance exploration, development and production of hydrocarbons using multiply substituted isotopologue geochemistry, basin modeling and molecular kinetics
US10494923B2 (en) 2014-09-18 2019-12-03 Exxonmobil Upstream Research Company Method to perform hydrocarbon system analysis for exploration, production and development of hydrocarbons
EP3195022B1 (en) 2014-09-18 2020-04-29 Exxonmobil Upstream Research Company Method to enhance exploration, development and production of hydrocarbons using multiply substituted isotopologue geochemistry, basin modeling and molecular kinetics
EP3193615A1 (en) 2014-09-19 2017-07-26 Taxon Biosciences, Inc. Plant growth-promoting microbes, compositions, and uses
EP3254100B1 (en) 2015-02-03 2020-02-19 Exxonmobil Upstream Research Company Applications of advanced isotope geochemistry of hydrocarbons and inert gases to petroleum production engineering
US10533414B2 (en) 2015-02-03 2020-01-14 Michael Lawson Applications of advanced isotope geochemistry of hydrocarbons and inert gases to petroleum production engineering
US11237146B2 (en) 2015-03-02 2022-02-01 Exxonmobil Upstream Research Company Field deployable system to measure clumped isotopes
EP3064592A1 (en) * 2015-03-06 2016-09-07 Brigitte König Methods for the qualitative and quantitative detection of microbes in a sample
US10851399B2 (en) 2015-06-25 2020-12-01 Native Microbials, Inc. Methods, apparatuses, and systems for microorganism strain analysis of complex heterogeneous communities, predicting and identifying functional relationships and interactions thereof, and selecting and synthesizing microbial ensembles based thereon
US9938558B2 (en) 2015-06-25 2018-04-10 Ascus Biosciences, Inc. Methods, apparatuses, and systems for analyzing microorganism strains from complex heterogeneous communities, predicting and identifying functional relationships and interactions thereof, and selecting and synthesizing microbial ensembles based thereon
WO2018126026A1 (en) 2016-12-28 2018-07-05 Ascus Biosciences, Inc. Methods, apparatuses, and systems for analyzing complete microorganism strains in complex heterogeneous communities, determining functional relationships and interactions thereof, and identifying and synthesizing bioreactive modificators based thereon
AU2016282996A1 (en) 2015-06-25 2018-01-18 Ascus Biosciences, Inc. Methods, apparatuses, and systems for analyzing microorganism strains from complex heterogeneous communities, predicting and identifying functional relationships and interactions thereof, and selecting and synthesizing microbial ensembles based thereon
US20170046474A1 (en) * 2015-08-11 2017-02-16 International Business Machines Corporation Confidence interval estimation of species in metagenomic data
ITUB20153602A1 (it) * 2015-09-14 2017-03-14 Ecamricert S R L Protocollo di identificazione e conteggio di microrganismi
US10762982B1 (en) * 2015-10-07 2020-09-01 Trace Genomics, Inc. System and method for nucleotide analysis
US10724108B2 (en) 2016-05-31 2020-07-28 Exxonmobil Upstream Research Company Methods for isolating nucleic acids from samples
WO2018005522A1 (en) 2016-07-01 2018-01-04 Exxonmobil Upstream Research Company Methods for identifying hydrocarbon reservoirs
US11610649B2 (en) 2016-07-30 2023-03-21 Tata Consultancy Services Limited Method and system for identification of key driver organisms from microbiome / metagenomics studies
US10132144B2 (en) 2016-09-02 2018-11-20 Exxonmobil Upstream Research Company Geochemical methods for monitoring and evaluating microbial enhanced recovery operations
US11015154B2 (en) 2016-11-09 2021-05-25 The Regents Of The University Of California Methods for identifying interactions amongst microorganisms
JP2020503048A (ja) 2016-12-28 2020-01-30 アスカス バイオサイエンシーズ, インコーポレイテッド トレーサー分析論による複雑な不均一コミュニティの微生物株の解析、その機能的関連性及び相互作用の決定、ならびに微生物アンサンブル(投与される微生物アンサンブル及び接種される微生物アンサンブルを含む)の合成、のための方法、装置、及びシステム
ES2887024T3 (es) * 2017-07-28 2021-12-21 Tata Consultancy Services Ltd Procedimiento y sistema de identificación y clasificación de unidades taxonómicas operativas en una muestra metagenómica
US11579137B2 (en) * 2017-11-13 2023-02-14 Texas Tech University System System and method for fibrogram fiber quality evaluation
US20200115766A1 (en) * 2018-08-10 2020-04-16 Tata Consultancy Services Limited Method and system for improving amplicon sequencing based taxonomic resolution of microbial communities
CN109337967A (zh) * 2018-09-27 2019-02-15 华中科技大学鄂州工业技术研究院 一种实验室的微生物污染鉴别方法
CN110176305A (zh) * 2019-05-27 2019-08-27 天益健康科学研究院(镇江)有限公司 一种利用高通量基因测序评估肠道菌群健康的方法
CN110714061A (zh) * 2019-09-25 2020-01-21 国网安徽省电力有限公司电力科学研究院 基于多维指标针对长期堆煤对土壤细菌影响操作方法
CN110734989A (zh) * 2019-11-06 2020-01-31 华中科技大学鄂州工业技术研究院 一种药用植物共生微生物鉴定方法及其应用
CN114023388B (zh) * 2022-01-06 2022-03-08 山东省中地易采石油技术有限责任公司 一种基于地质微生物群落特征的监控油藏的方法
CN114622004B (zh) * 2022-02-28 2024-04-12 中南大学 一种煤岩液相流生物核酸探针示踪方法
CN115438035B (zh) * 2022-10-27 2023-04-07 江西师范大学 一种基于kpca和混合相似度的数据异常处理方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5055397A (en) 1987-12-17 1991-10-08 Atlantic Richfield Company Geomicrobiological methods of ore and petroleum exploration
US5093236A (en) 1988-09-14 1992-03-03 Genecor International, Inc. Microbiological oil prospecting
US5424195A (en) 1990-06-20 1995-06-13 Secretary Of The Interior Method for in situ biological conversion of coal to methane
US5866330A (en) 1995-09-12 1999-02-02 The Johns Hopkins University School Of Medicine Method for serial analysis of gene expression
US5695937A (en) 1995-09-12 1997-12-09 The Johns Hopkins University School Of Medicine Method for serial analysis of gene expression
US5981190A (en) 1997-01-08 1999-11-09 Ontogeny, Inc. Analysis of gene expression, methods and reagents therefor
KR100284313B1 (ko) * 1999-08-20 2001-03-02 이성기 난분해 독성화학물질을 분해하는 세균 공동체 이비씨1000 및 이를 이용하여 산업폐수, 폐기물, 토양 등을 오염시키는 난분해 독성화학물질을 생물학적으로 교정하는 방법
US6543535B2 (en) 2000-03-15 2003-04-08 Exxonmobil Upstream Research Company Process for stimulating microbial activity in a hydrocarbon-bearing, subterranean formation
AU2001253310A1 (en) 2000-04-10 2001-10-23 Matthew Ashby Methods for the survey and genetic analysis of populations
WO2002034931A2 (en) 2000-10-26 2002-05-02 Guyer Joe E Method of generating and recovering gas from subsurface formations of coal, carbonaceous shale and organic-rich shales
US7416879B2 (en) 2006-01-11 2008-08-26 Luca Technologies, Inc. Thermacetogenium phaeum consortium for the production of materials with enhanced hydrogen content
ES2679996T3 (es) * 2006-11-15 2018-09-03 Biospherex Llc Secuenciación multi-etiqueta y análisis ecogenómico
BRPI0912617A2 (pt) 2008-05-12 2017-03-21 Synthetic Genomics Inc métodos para estimular a produção biogênica de metano a partir de formações contendo hidrocarbonetos
US8247009B2 (en) 2008-09-30 2012-08-21 Uchicago Argonne, Llc Biological methane production from coal, manure, sludge, wastes, or other carbonaceous feedstocks with simultaneous sequestration of CO2
WO2011011094A1 (en) * 2009-07-24 2011-01-27 Dowd Scot E Universal microbial diagnosis, detection, quantification, and specimen-targeted therapy
WO2011159919A2 (en) 2010-06-16 2011-12-22 Conocophillips Company In situ methanogenesis modeling and risk analysis
US20130204901A1 (en) 2010-09-11 2013-08-08 San Diego State University (Sdsu) Foundation Apparatus, system, and method for data analysis

Also Published As

Publication number Publication date
US20140162274A1 (en) 2014-06-12
US9593382B2 (en) 2017-03-14
EP2694669A4 (en) 2014-12-31
EP2694669B1 (en) 2017-05-17
WO2014005094A1 (en) 2014-01-03
EP2694669A1 (en) 2014-02-12
CA2840459A1 (en) 2014-01-03
DK2694669T3 (en) 2017-07-24

Similar Documents

Publication Publication Date Title
ES2632602T3 (es) Métodos de fabricación o creación de un consorcio microbiano sintético identificado mediante análisis computacional de secuencias de amplicones
Bahram et al. Structure and function of the global topsoil microbiome
Xia et al. Statistical analysis of microbiome data with R
Louca et al. High taxonomic variability despite stable functional structure across microbial communities
Liu et al. Estimating phylogenetic trees from genome‐scale data
Jeffries et al. Substrate type determines metagenomic profiles from diverse chemical habitats
Chen et al. Comparison of the chloroplast genome sequences of 13 oil-tea camellia samples and identification of an undetermined oil-tea camellia species from Hainan province
Nagarajan Metagenomics: Perspectives, methods, and applications
González-Miguéns et al. Deconstructing Difflugia: The tangled evolution of lobose testate amoebae shells (Amoebozoa: Arcellinida) illustrates the importance of convergent evolution in protist phylogeny
Méndez-García et al. Metagenomic protocols and strategies
Malki et al. Spatial and temporal dynamics of prokaryotic and viral community assemblages in a lotic system (Manatee Springs, Florida)
Xia et al. Bioinformatic analysis of microbiome data
Poudel et al. Integration of phenotypes in microbiome networks for designing synthetic communities: a study of mycobiomes in the grafted tomato system
Zhang et al. Rare biosphere in cultivated Panax rhizosphere shows deterministic assembly and cross-plant similarity
Larkin et al. Persistent El Niño driven shifts in marine cyanobacteria populations
Xiao et al. Diversity and biogeography of Woesearchaeota: a comprehensive analysis of multi-environment data
Guo Rhizosphere metagenomics of three biofuel crops
Woloszynek et al. Analysis methods for shotgun metagenomics
Guo et al. Comparing faster evolving rplB and rpsC versus SSU rRNA for improved microbial community resolution
Wang Introduction to Computational Metagenomics
Lehtinen Comparison of normalization and statistical testing methods of 16S rRNA gene sequencing data
Humphreys Characterizing the Accuracy of Phylogenetic Analyses that Leverage 16S rRNA Sequencing Data
Kua et al. Reference-free comparative genomics of 174 chloroplasts
Gibson Explorative analysis of the mechanisms of Phaeocystis globosa blooms in the Beibu Gulf using amplicon sequencing data
Ohan et al. Microbiome convergence and deterministic community assembly along successional biocrust gradients on potash salt heaps