ES2698609T3 - Almacenamiento de alta capacidad de información digital en ADN - Google Patents

Almacenamiento de alta capacidad de información digital en ADN Download PDF

Info

Publication number
ES2698609T3
ES2698609T3 ES13728990T ES13728990T ES2698609T3 ES 2698609 T3 ES2698609 T3 ES 2698609T3 ES 13728990 T ES13728990 T ES 13728990T ES 13728990 T ES13728990 T ES 13728990T ES 2698609 T3 ES2698609 T3 ES 2698609T3
Authority
ES
Spain
Prior art keywords
dna
information
segments
dna segments
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13728990T
Other languages
English (en)
Inventor
Nick Goldman
John Birney
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Europaisches Laboratorium fuer Molekularbiologie EMBL
Original Assignee
Europaisches Laboratorium fuer Molekularbiologie EMBL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Europaisches Laboratorium fuer Molekularbiologie EMBL filed Critical Europaisches Laboratorium fuer Molekularbiologie EMBL
Application granted granted Critical
Publication of ES2698609T3 publication Critical patent/ES2698609T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B82NANOTECHNOLOGY
    • B82YSPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
    • B82Y10/00Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/02Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using elements whose operation depends upon chemical change
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1032Reliability improvement, data loss prevention, degraded operation etc

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Nanotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Peptides Or Proteins (AREA)
  • Saccharide Compounds (AREA)
  • Detection And Correction Of Errors (AREA)
  • Error Detection And Correction (AREA)

Abstract

Un método para el almacenamiento de un elemento de información (210), que comprende: - codificar (720) bytes del elemento de información (210) utilizando un código Huffman de base 3; - representar, utilizando un esquema de representación que no forme homopolímeros, los bytes codificados (720) por al menos un nucleótido de ADN para producir una secuencia de ADN (230); - dividir (730) la secuencia de ADN (230) en una pluralidad de segmentos de ADN solapantes (240) de una longitud de 100 bases con un solapamiento de al menos 75 bases, en donde la pluralidad de segmentos de ADN solapantes (240) se acumula en una redundancia de almacenamiento de los elementos de información (210); - aumentar (750) la información de indexación (250) a la pluralidad de segmentos de ADN solapantes (240), especificando la información de indexación una ubicación única en la secuencia de ADN (230) de cualquiera de los segmentos de ADN solapantes (240); - sintetizar (790) la pluralidad de segmentos de ADN solapantes (240) con la información de indexación aumentada para producir segmentos de ADN sintetizados (240), la síntesis incluye añadir adaptadores a los segmentos de ADN (240); y - almacenar (795) los segmentos de ADN sintetizados (240).

Description

DESCRIPCIÓN
Almacenamiento de alta capacidad de información digital en ADN
Campo de la invención
La divulgación se refiere a un método y aparato para el almacenamiento de información digital en ADN.
Antecedentes
El ADN tiene la capacidad de contener vastas cantidades de información, almacenada fácilmente durante largos periodos de tiempo en forma compacta1,2. La idea de utilizar el ADN como una tienda de información digital ha existido desde 19953 Las implementaciones físicas del almacenamiento de ADN han almacenado hasta la fecha solo cantidades triviales de información, generalmente unos pocos números o palabras de texto en inglés4-8. Los inventores desconocen el almacenamiento y la recuperación a gran escala de información digital de tamaño arbitrario codificada en ADN físico, que no sea el almacenamiento de datos en sustratos magnéticos o sustratos ópticos.
Actualmente, la síntesis de ADN es una tecnología especializada centrada en aplicaciones biomédicas. El coste de la síntesis de ADN ha disminuido de forma constante durante la última década. Es interesante especular en qué escala de tiempo el almacenamiento de datos en una molécula de ADN, como se desvela en el presente documento, sería más rentable que el actual proceso de archivo a largo plazo de almacenamiento de datos en cinta con una transferencia rara pero regular a nuevos medios cada 3 a 5 años. La tecnología actual "lista para usar" para la síntesis de ADN equivale a un precio de aproximadamente 100 bytes por dólar estadounidense. La tecnología más reciente disponible comercialmente de Agilent Technologies (Santa Clara, CA) puede disminuir sustancialmente este coste. Sin embargo, también es necesario tener en cuenta la transferencia regular de datos entre los medios de cinta. Las cuestiones son tanto los costes de esta transferencia de datos como si este coste se fija o disminuye con el tiempo. Si se asume que un monto sustancial del coste es fijo, hay un horizonte temporal en el que el uso de moléculas de ADN para el almacenamiento de datos es más rentable que el almacenamiento de datos regular en el medio de cinta. Después de 400 años (al menos 80 transferencias de medios), es posible que este almacenamiento de datos utilizando moléculas de ADN ya sea rentable.
Un procedimiento práctico de codificación-descodificación que almacena más información de la que se manejó anteriormente se describe en esta divulgación. Los inventores han codificado cinco archivos de ordenador (un total de 757.051 bytes (739 kB) de almacenamiento en disco duro y con una información de Shannon estimada9 de 5,2 x 106 bits, en un código de ADN. Los inventores posteriormente sintetizaron este ADN, transportaron el ADN sintetizado desde EE. UU. a Alemania a través del Reino Unido, secuenciaron el ADN y reconstruyeron los cinco archivos de ordenador con un 100 % de precisión.
Los cinco archivos de ordenador incluían un texto en inglés (los 154 sonetos de Shakespeare), un documento PDF de un artículo científico clásico10, una fotografía en color JPEG y un archivo de audio en formato MP3 que contiene 26 segundos de discurso (del discurso "Tengo un sueño" de Martin Luther King). Este almacenamiento de datos representa aproximadamente 800 veces más información que el conocido almacenamiento basado en ADN anterior y cubre una variedad mucho mayor de formatos digitales. Los resultados demuestran que el almacenamiento de ADN es cada vez más realista y podría, en el futuro, proporcionar un medio rentable para archivar información digital y puede que ya sea rentable para tareas de archivo de varias décadas de bajo acceso.
Técnica anterior
La alta capacidad del ADN para almacenar información de manera estable en condiciones fáciles de lograr1,2 ha hecho del ADN un objetivo atractivo para el almacenamiento de información desde 19953. Además de la densidad de información, las moléculas de ADN tienen un historial probado como portador de información, se conoce la longevidad de la molécula de ADN y el hecho de que, como base de la vida en la tierra, los métodos de manipulación, el almacenamiento y la lectura de la molécula de ADN seguirá siendo el tema de la innovación tecnológica continua, mientras que la vida inteligente basada en el ADN se mantendrá1,2. Se han propuesto sistemas de almacenamiento de datos basados tanto en ADN de vector vivo5-8 (moléculas de ADN in vivo) como en el ADN sintetizado4,1 (ADN in vitro). Los sistemas de almacenamiento de datos in vivo tienen varias desventajas. Tales desventajas incluyen restricciones en la cantidad, elementos genómicos y ubicaciones que pueden manipularse sin afectar a la viabilidad de las moléculas de ADN en los organismos vectores vivos. Los ejemplos de dichos organismos vectores vivos incluyen, pero sin limitaciones, bacterias. La reducción de la viabilidad incluye la disminución de la capacidad y el aumento de la complejidad de los esquemas de codificación de la información. Además, la línea germinal y la mutación somática provocarán que la fidelidad de la información almacenada y la información descodificada se reduzcan con el tiempo y, posiblemente, un requisito para que las condiciones de almacenamiento del ADN vivo se regulen cuidadosamente.
Por el contrario, el "ADN aislado" (es decir, el ADN in vitro) se "escribe" más fácilmente y la recuperación rutinaria de ejemplos del ADN no vivo de muestras que tienen decenas de miles de años11-14 indica que una muestra de ADN no viva bien preparada debe tener una vida útil excepcionalmente larga en entornos de bajo mantenimiento fáciles de lograr (es decir, ambientes fríos, secos y oscuros)1 "17.
El trabajo previo sobre el almacenamiento de información (también denominado datos) en el ADN se ha centrado normalmente en "escribir" un mensaje legible por el ser humano en el ADN en forma codificada, y luego "leer" el mensaje codificado por el ser humano determinando la secuencia del ADN y la descodificando la secuencia. El trabajo en el campo de la computación de ADN ha dado lugar a esquemas que, en principio, permiten la memoria asociativa a gran escala (direccionada por contenido)318"20, pero no ha habido intentos de desarrollar este trabajo como esquemas prácticos de almacenamiento en ADN. La figura 1 muestra las cantidades de información codificada y recuperada con éxito en 14 estudios previos (observe la escala logarítmica en el eje y). Los puntos se muestran para 14 experimentos anteriores (círculos abiertos) y para la presente divulgación (círculo sólido). La mayor cantidad de mensajes legibles por seres humanos almacenados de esta manera son 1280 caracteres de texto en idioma inglés8, equivalente a aproximadamente 6.500 bits de información de Shannon9.
El Indian Council of Scientific and Industrial Research ha presentado una publicación de solicitud de patente de Estados Unidos n.° US 2005/0053968 (Bharadwaj et al.) que enseña un método para almacenar información en el ADN. El método de la '968 de Estados Unidos comprende el uso de un método de codificación que utiliza 4 bases de ADN que representan cada carácter de un conjunto de caracteres ASCII extendido. Entonces, se produce una molécula de ADN sintético, que incluye la información digital, una clave de cifrado y que está flanqueada en cada lado por una secuencia de cebador. Finalmente, el ADN sintetizado se incorpora en un ADN de almacenamiento. En el caso de que la cantidad de ADN sea demasiado grande, entonces la información se puede fragmentar en varios segmentos. El método desvelado en el documento U.S. '968 es capaz de reconstruir los segmentos de ADN fragmentados haciendo coincidir el cebador del encabezado de uno de los segmentos con el cebador de la cola en el posterior de los segmentos.
La solicitud de patente internacional WO 02/024123 (Mt Sinai School of Medicine) enseña una técnica para usar moléculas de ácido nucleico como medio para el almacenamiento a largo plazo y la recuperación de información. El método comprende sintetizar la denominada molécula de ácido nucleico de información que almacena información como una secuencia de nucleótidos y una llamada clave de poliprímero. La clave de poliprímero proporciona la información necesaria para la amplificación y la secuencia de la molécula de ácido nucleico de información, o que permite la recuperación de la información almacenada. Los ácidos nucleicos de información que tienen los siguientes elementos de secuencia: cebadores de amplificación de PCTR directos e inversos flanqueantes comunes, un cebador de secuenciación único, un pequeño espaciador común que sirve como señal para indicar el inicio de la información a almacenar y un segmento de información único. La información a almacenar se codifica sucesivamente en estos segmentos de información, comenzando con el primer elemento de información. La clave de poliprímero también está flanqueada por los cebadores de amplificación de PCR común directo e inverso y contiene en el orden correcto los cebadores de secuencia únicos para la recuperación ordenada de cada molécula de ácido nucleico de información de la secuencia del segmento de información correspondiente.
Se conocen otras publicaciones de patentes que describen técnicas para almacenar información en el ADN. Por ejemplo, la patente de Estados Unidos 6.312.911 enseña un método esteganográfico para ocultar mensajes codificados en el ADN. El método comprende ocultar un mensaje codificado de ADN dentro de una muestra de ADN genómico, seguido de un ocultamiento adicional de la muestra de ADN en un micropunto. La solicitud de esta patente de Estados Unidos '911 es, en particular, para el ocultamiento de información confidencial. Dicha información generalmente tiene una extensión limitada y, por lo tanto, el documento no explica cómo almacenar elementos de información que tienen una extensión mayor. Los mismos inventores han presentado una solicitud de patente internacional publicada como Publicación Internacional N.° WO 03/025123.
Sumario de la invención
Se describe un método para almacenar un elemento de información como un segmento de ADN sintetizado de acuerdo con la reivindicación 1 y un método para descodificar el segmento de ADN sintetizado para recuperar el elemento de información. El método comprende la codificación de bytes en el elemento de información utilizando un código Hufmann de base 3. Los bytes codificados se representan utilizando un esquema de representación (que no forma homopolímeros) por un nucleótido de ADN para producir una secuencia de ADN in silico. En una etapa siguiente, la secuencia de ADN se divide en una pluralidad de segmentos de ADN solapantes. Los segmentos alternos de los segmentos de ADN se complementan de forma inversa y la información de indexación aumenta a la pluralidad de segmentos de ADN solapantes. Finalmente, la pluralidad de segmentos de ADN se sintetiza para producir un segmento de ADN sintetizado y el segmento de ADN sintetizado se almacena.
La adición de la información de indexación a los segmentos de ADN significa que la posición de los segmentos en la secuencia de ADN que representa el elemento de información se puede identificar de manera única. No es necesario depender de una equivalencia de un cebador de cabeza con un cebador de cola. Esto hace posible recuperar casi todo el elemento de información, incluso si uno de los segmentos no se ha reproducido correctamente. Si no hubiera información de indexación, entonces existiría el riesgo de que no sea posible reproducir correctamente todo el elemento de información si los segmentos no pudieran coincidir entre sí debido a los segmentos "huérfanos" cuya posición en la secuencia de ADN no se puede identificar claramente.
El uso de los segmentos de ADN solapantes significa que un grado de redundancia está integrado en el almacenamiento de los elementos de información. Si uno de los segmentos de ADN que se solapa con uno o más del otro segmento de ADN no se puede descodificar, los bytes codificados aún se pueden recuperar de los vecinos de los segmentos de ADN que se solapan. Por lo tanto, la redundancia está integrada en el sistema.
Se pueden hacer múltiples copias de los segmentos de ADN usando técnicas de síntesis de ADN conocido. Esto proporciona un grado adicional de redundancia para permitir que el elemento de información sea descodificado, incluso si algunas de las copias de los segmentos de ADN están dañadas y no se pueden descodificar.
El esquema de representación utilizado para la codificación está diseñado de tal manera que los adyacentes de los nucleótidos de ADN son diferentes. Esto es para aumentar la fiabilidad de la síntesis, reproducción y secuenciación (lectura) de los segmentos de ADN.
En otro aspecto adicional de la invención, se añade una verificación de paridad a la información de indexación. Esta comprobación de paridad permite la síntesis errónea, reproducción o secuenciación de los segmentos de ADN a identificar. La comprobación de paridad se puede ampliar para incluir también información de corrección de errores.
En un aspecto de la invención, los alternos de los segmentos de ADN sintetizados se complementan inversamente. Estos proporcionan un grado adicional de redundancia en el ADN y significa que hay más información disponible si alguno de los segmentos de ADN está dañado.
Descripción de las figuras
La figura 1 es un gráfico de cantidades de información almacenada, en el ADN y recuperada con éxito. En función del tiempo.
La figura 2 muestra un ejemplo del método de la presente divulgación.
La figura 3 muestra un gráfico de la rentabilidad del almacenamiento a lo largo del tiempo.
La figura 4 muestra un motivo con un patrón complementario auto-inverso.
La figura 5 muestra la eficiencia de la codificación.
La figura 6 muestra las tasas de error.
La figura 7 muestra un diagrama de flujo de la codificación del método.
La figura 8 muestra un diagrama de flujo de la descodificación del método.
Descripción detallada
Uno de los principales desafíos para una implementación práctica de almacenamiento de ADN hasta la fecha ha sido la dificultad de crear secuencias largas de ADN para un diseño específico. Las largas secuencias de ADN son necesarias para almacenar grandes archivos de datos, tales como elementos de texto largo y vídeos. También es preferible utilizar una codificación con una pluralidad de copias de cada ADN diseñado. Tal redundancia protege contra errores de codificación y descodificación, como se explicará a continuación. No es rentable usar un sistema basado en cadenas de ADN largas individuales para codificar cada mensaje (potencialmente grande)8. Los inventores han desarrollado un método que utiliza la información de "indexación" asociada con cada uno de los segmentos de ADN para indicar la posición del segmento de ADN en una molécula de ADN hipotéticamente más larga que codifica todo el mensaje.
Los inventores utilizaron métodos de la teoría de códigos para mejorar la capacidad de recuperación de los mensajes codificados del segmento de ADN, incluida la prohibición de homopolímeros de ADN (es decir, ejecuciones de más de una base idéntica) que se sabe que están asociadas con mayores tasas de error en las tecnologías de alto rendimiento existentes. Los inventores incorporaron además un componente simple de detección de errores, análogo a un bit9 de verificación de paridad en la información de indexación en el código. Esquemas más complejos, incluidos, pero sin limitaciones, códigos de corrección de errores9 y, de hecho, sustancialmente cualquier forma de seguridad de datos digitales (por ejemplo, esquemas basados en RAID21) actualmente empleados en informática, podrían implementarse en futuros desarrollos del esquema de almacenamiento de ADN3.
Los inventores seleccionaron cinco archivos de ordenador para codificarlos como una prueba de concepto para el almacenamiento en ADN de esta divulgación. En lugar de restringir los archivos a información legible por seres humanos, se eligieron archivos que utilizan una gama de formatos comunes. Esto demostró la capacidad de las enseñanzas de la divulgación para almacenar tipos arbitrarios de información digital. Los archivos contenían los 154 sonetos de Shakespeare (en formato TXT), el texto completo y la figura de la ref. 10 (en formato PDF), una fotografía en color de resolución media del EMBL-European Bioinformatics Institute (formato JPEG 2000), un extracto de 26 segundos del discurso de Martin Luther King "Tengo un sueño" (formato MP3) y un archivo que define el código de Huffman utilizado en este estudio para convertir bytes en dígitos de base 3 (como un archivo de texto legible por seres humanos).
Los cinco archivos seleccionados para el almacenamiento de ADN fueron los siguientes.
Wssnt10.txt - 107738 bytes - Formato de texto ASCII para los 154 sonetos de Shakespeare (de Project Gutenberg, http://www.gutenberg.org/ebooks/1041)
watsoncrick.pdf - 280864 bytes - documento en formato PDF de la publicación de Watson y Crick (1953)10 que describe la estructura del ADN (del sitio web de Nature, http://www.nature.com/nature/dna50/archive.html, modificado para lograr una mayor compresión y, por lo tanto, un tamaño de archivo más pequeño).
EBI.jp2 - 184264 bytes - Fotografía de color de archivo de imagen en formato JPEG 2000 (16,7 millones de colores, resolución de 640 x 480 píxeles) del EMBL-European Bioinformatics Institute (imagen propia).
MLK_excerpt_VBR_45-85.mp3 - 168539 bytes - archivo de sonido en formato MP3, extracto de 26 segundos del discurso de Martin Luther King "Tengo un sueño" (de http://www.americanrhetoric.com/speeches/mlkihaveadream.htm, modificado para lograr una mayor compresión: velocidad de bits variable, normalmente 48-56 kbps; frecuencia de muestreo 44,1kHz)
View_huff3.cd.new - 15646 bytes - Archivo ASCII legible por seres humanos que define el código de Huffman utilizado en este estudio para convertir bytes en dígitos en base 3 (trits).
Los cinco archivos informáticos comprenden un total de 757.051 bytes, aproximadamente equivalente a una información de Shannon de 5,2 x 106 bits u 800 veces más información codificada y recuperada diseñada por seres humanos que la cantidad máxima anterior que se sabe que se ha almacenado (véase la Fig. 1).
La codificación de ADN de cada uno de los archivos de ordenador se computó utilizando un software y el método se ilustra en la figura 7. En un aspecto de la invención 700 descrita en el presente documento, los bytes que comprenden cada archivo de ordenador 210 se representaron en la etapa 720 como una secuencia de ADN 230 sin homopolímeros mediante un esquema de codificación para producir un archivo codificado 220 que reemplaza cada byte por cinco o seis bases (véase a continuación) que forman la secuencia de ADN 230. El código utilizado en el esquema de codificación se construyó para permitir una codificación directa que esté cerca de la capacidad de información óptima para un canal de longitud limitada de ejecución (es decir, sin nucleótidos repetidos). Sin embargo, se apreciará que pueden usarse otros esquemas de codificación.
Las secuencias de ADN 230 in silico resultantes son demasiado largas para ser producidas fácilmente mediante la síntesis de oligonucleótidos estándar. Por lo tanto, cada una de las secuencias de ADN 230 se dividió en la etapa 730 en segmentos solapantes 240 de 100 bases de longitud con un solapamiento de 75 bases. Para reducir el riesgo de errores de síntesis sistemáticos introducidos en cualquier serie particular de bases, los segmentos alternos se convirtieron a continuación en la etapa 740 en sus complementarios inversos, lo que significa que cada base está "escrita" cuatro veces, dos veces en cada dirección. A continuación, cada segmento se aumentó en la etapa 750 con una información de indexación 250 que permitió la determinación del archivo de ordenador a partir del cual se originó el segmento 240 y su ubicación dentro de ese archivo de ordenador 210, más la información de detección de errores simples. Esta información de indexación 250 también se codificó en la etapa 760 como nucleótidos de ADN no repetitivos y se adjuntó en la etapa 770 a las 100 bases de almacenamiento de información de los segmentos de a Dn 240. Se apreciará que la división de los segmentos de ADN 240 en longitudes de 100 bases con un solapamiento de 75 bases es puramente arbitraria. Sería posible usar otras longitudes y solapamientos, y esto no es limitativo de la invención.
En total, los cinco archivos de ordenador estaban representados por 153.335 cadenas de ADN. Cada una de las cadenas de ADN comprendía 117 nucleótidos (codificando información digital original más información de indexación). El esquema de codificación utilizado tenía varias características del ADN sintetizado (por ejemplo, longitudes de segmento uniformes, ausencia de homopolímeros) que hacían obvio que el ADN sintetizado no tenía un origen natural (biológico). Por lo tanto, es obvio que el ADN sintetizado tiene un diseño deliberado e información codificada2.
Como se ha señalado anteriormente, podrían usarse otros esquemas de codificación para los segmentos de ADN 240, por ejemplo, para proporcionar propiedades mejoradas de corrección de errores. También sería sencillo aumentar la cantidad de información de indexación para permitir que se codifiquen más archivos o archivos más grandes. Se ha sugerido que el esquema de Memoria Molecular de cebador anidado (NPMM)19 alcanza su capacidad máxima práctica en 16,8M de direcciones únicas20, y no parece haber ninguna razón para que el método de la divulgación no pueda extenderse más allá de esto para permitir la codificación de cantidades de información casi arbitrariamente grandes.
Una extensión del esquema de codificación para evitar patrones sistemáticos en los segmentos de ADN 240 sería añadir el cambio de la información. Se intentaron dos maneras de hacer esto. Una primera forma involucró "barajar" la información en los segmentos de ADN 240, La información se puede recuperar si uno conoce el patrón de barajado. En un aspecto de la divulgación, se usaron diferentes patrones de barajado aleatorio para diferentes segmentos de ADN 240.
Otra forma es añadir un grado de aleatoriedad a la información en cada uno de los segmentos de ADN 240. Se puede usar una serie de dígitos al azar para esto, utilizando la adición modular de la serie de dígitos aleatorios y los dígitos que comprenden la información codificada en los segmentos de ADN 240. La información se puede recuperar fácilmente por sustracción modular durante la descodificación si se conoce la serie de dígitos aleatorios utilizados. En un aspecto de la divulgación, se utilizaron diferentes series de dígitos aleatorios para diferentes segmentos de ADN 240.
La información digital codificada en la etapa 720 se llevó a cabo de la siguiente manera. Los cinco archivos de ordenador 210 de información digital (representados en la figura 2A) almacenados en una unidad de disco duro se codificaron usando software. Cada byte de cada uno de los cinco archivos de ordenador 210 que se codificarán en la etapa 720 se representó como una secuencia de bases de ADN a través de los dígitos de base 3 ('trits' 0, 1 y 2) utilizando un código Huffman diseñado específicamente para este propósito que se muestra en la Tabla 1 (más adelante) para producir el archivo codificado 220. Este esquema de codificación de ejemplo se muestra en el esquema en la figura 2B. Cada uno de los 256 bytes posibles estaba representado por cinco o seis trits. Posteriormente, cada uno de los trits se codificó como un nucleótido de ADN 230 seleccionado de los tres nucleótidos diferentes del nucleótido anterior (Figura 2C). En otras palabras, en el esquema de codificación elegido para este aspecto de la divulgación, cada uno de los tres nucleótidos fue diferente del anterior utilizado para asegurar que no haya homopolímeros. La secuencia de ADN resultante 230 se dividió en la etapa 730 en segmentos de ADN 240 de 100 bases de longitud, como se muestra en la Figura 2D. Cada uno de los segmentos de ADN se solapó al segmento de ADN anterior en 75 bases, para dar segmentos de ADN de una longitud que se sintetiza fácilmente y proporcionar redundancia. Los segmentos alternos de ADN se complementaron inversamente.
La información de indexación 250 comprendía dos trits para la identificación del archivo (lo que permite distinguir 32 = 9 archivos, en esta implementación), 12 trits para la información de ubicación dentro del archivo (lo que permite 312 = 531.441 ubicaciones por archivo) y un trit de "comprobación de paridad". La información de indexación 250 se codificó en la etapa 760 como nucleótidos de ADN no repetidos y se adjuntó en la etapa 770 a las 100 bases de almacenamiento de información. Cada segmento de ADN 240 indexado tenía una base adicional añadida en la etapa 780 en cada extremo, consistente con la regla de "no homopolímeros", eso indicaría si todo el segmento de ADN 240 se complementó a la inversa durante la etapa de "lectura" del experimento.
En total, los cinco archivos de ordenador 210 estaban representados por 153.335 cadenas de ADN, comprendiendo cada uno 117 (1 100 2 12 1 1) nucleótidos (que codifica información digital original e información de indexación).
El componente de codificación de datos de cada cadena en el aspecto de la invención que se describe en el presente documento puede contener información de Shannon a 5,07 bits por base de ADN, que está cerca del óptimo teórico de 5,05 bits por base de ADN para los canales de base 4 con longitud de ejecución limitada a uno. La implementación de indexación 250 permite 314 = 4.782.969 ubicaciones de datos únicas. Aumentar el número de trits de indexación (y, por lo tanto, las bases) que se utilizan para especificar el archivo y la ubicación dentro del archivo en solo dos a 16, da 316 = 43.046.721 ubicaciones únicas, en exceso de los 16,8M que es el máximo prácti esquema de NPMM19,20.
El proceso de síntesis de ADN de la etapa 790 también se usó para incorporar adaptadores de 33 pb a cada extremo de cada uno de los oligonucleótidos (oligo) para facilitar la secuenciación en las plataformas de secuenciación de Illumina:
Adaptador en 5': ACACTCTTTCCCT ACACGACGCT CTTCCGAT CT
Adaptador en 3': AGATCG GAAGAG CGGTTCAGCAG GAAT GCCGAG
Los 153.335 diseños de segmentos de ADN 240 se sintetizaron en la etapa 790 en tres ejecuciones distintas (con los segmentos de ADN 240 asignados aleatoriamente a ejecuciones) usando una versión actualizada del proceso OLS de Agilent Technologies (Oligo Library Synthesis, síntesis de la biblioteca de oligos) descrito anteriormente22,23 para crear aproximadamente 1,2 x 107 copias de cada diseño de segmento de ADN. Se observó que los errores ocurrían en solo un error por cada 500 bases e independientemente en copias diferentes de los segmentos de ADN 240. Agilent Technologies adaptó la química de fosforamidita desarrollada previamente24 y empleó tecnologías de impresión por chorro de tinta y de reactor de celda de flujo en la plataforma de síntesis de micromatrices SurePrint in situ de Agilent. La impresión por chorro de tinta dentro de una cámara anhidra permite la liberación de volúmenes muy pequeños de fosforamiditas a un área de acoplamiento confinada en una superficie plana 2D, dando como resultado la adición de cientos de miles de bases en paralelo. La oxidación y la destritilación posteriores se llevan a cabo en un reactor de celdas de flujo. Una vez completada la síntesis de ADN, los oligonucleótidos se escinden de la superficie y se desprotegen25.
Los adaptadores se añadieron a los segmentos de ADN para permitir que se pueda hacer fácilmente una pluralidad de copias de los segmentos de ADN. Un segmento de ADN sin adaptador requeriría procesos químicos adicionales para “iniciar” la química de la síntesis de las copias múltiples al añadir grupos adicionales en los extremos de los segmentos de a Dn .
Se logra una eficiencia de acoplamiento de hasta ~ 99,8 % utilizando un exceso de miles de veces de fosforamidita y solución activadora. De manera similar, un exceso de millones de veces del agente de destritilación hace que la eliminación del grupo protector 5'-hidroxilo esté casi completa. Un proceso controlado en el reactor de celda de flujo redujo significativamente la despurinación, que es la reacción secundaria más prevalente22 Se pueden sintetizar hasta 244.000 secuencias únicas en paralelo y liberarse como grupos de oligos de ~ 1-10 picomoles.
Las tres muestras de oligos liofilizados se incubaron en tampón Tris durante la noche a 4 °C, se mezclaron periódicamente con pipeta y agitación, y finalmente se incubaron a 50 °C durante 1 hora, hasta una concentración de 5 ng/ml. Como quedó material insolubilizado, las muestras se dejaron durante 5 días más a 4 °C mezclando dos o cuatro veces al día. A continuación, las muestras se incubaron a 50 °C durante 1 hora y a 68 °C durante 10 minutos, y se purificaron a partir de subproductos de síntesis residuales en esferas paramagnéticas de Ampure XP (Beckman Coulter) y se pudieron almacenar en la etapa 795. La secuenciación y la descodificación se muestran en la Figura 8. La muestra de olios combinados se amplificó en la etapa 810 (22 ciclos de PCR usando las condiciones del termociclador diseñado para dar A/T pares rente a G/C26) utilizando cebadores de PCR Illumina de extremo pareado y reactivos AccuPrime de alta fidelidad (Invitrogen), una combinación de polimerasas Taq y Pyrococcus con una proteína accesoria termoestable. Los productos amplificados se purificaron en esferas y se cuantificaron en un bioanalizador Agilent 2100 y se secuenciaron utilizando el software AYB en modo pareado en un Illumina HiSeq 2000 para producir lecturas de 104 bases.
La descodificación de la información digital se llevó a cabo de la siguiente manera. Las 91 bases centrales de cada oligo se secuenciaron en la etapa 820 desde ambos extremos y, por lo tanto, el cálculo rápido de los oligos de longitud completa (117 bases) y la eliminación de las lecturas de secuencia inconsistentes con los diseños fue sencillo. Las lecturas de secuencia se descodificaron en la etapa 830 utilizando un software informático que invierte exactamente el proceso de codificación. Las lecturas de la secuencia para las que e trit de la comprobación de paridad indica un error o que en cualquier etapa no se pudo descodificar de forma inequívoca o se asignaron a un archivo de ordenador reconstruido se descartaron en la etapa 840 de consideraciones adicionales.
La gran mayoría de las ubicaciones dentro de cada archivo descodificado se detectó en múltiples oligos de ADN secuenciados diferentes y se usó la mayoría simple de votación en la etapa 850 para resolver cualquier discrepancia causada por la síntesis de ADN o los errores de secuenciación. Al término de este procedimiento 860, cuatro de los cinco archivos de ordenador originales 210 fueron reconstruidos perfectamente. El quinto archivo de ordenador requirió intervención manual para corregir dos regiones, cada una de las 25 bases que no se recuperaron de ninguna lectura secuenciada.
Durante la descodificación en la etapa 850, se observó que un archivo (finalmente determinado como watsoncrick.pdf) reconstruido in silico a nivel de ADN (antes de la descodificación, a través de base-3, a bytes) contenía dos regiones de 25 bases que no se recuperaron de ninguno de los oligos secuenciados. Dada el solapamiento de la estructura del segmento de la codificación, cada región indicó el fracaso de cuatro segmentos consecutivos para sintetizar o secuenciar, dado que cualquiera de los cuatro segmentos solapantes consecutivos habría contenido bases correspondientes a esta ubicación. La inspección de las dos regiones indicó que las bases no detectadas cayeron dentro de repeticiones largas del siguiente motivo de 20 bases:
5 'GAGCATCTGCAGATGCTCAT 3'
Se observó que las repeticiones de este motivo tienen un patrón complementario auto-inverso. Estos se muestran en la Figura 4.
Es posible que los segmentos de ADN complementarios auto-inversos podrían no ser secuenciados fácilmente usando el proceso de extremo pareado de Illumina, debido a la posibilidad de que los segmentos de ADN puedan formar estructuras internas no lineales de bucle-vástago que inhibirían la reacción de secuenciación por síntesis utilizada en el protocolo utilizado en el método descrito en el presente documento. Por consiguiente, la secuencia de ADN in silico se modificó para reparar el patrón de motivo de repetición y luego se sometió a etapas de descodificación posteriores. No se encontraron más problemas y el archivo descodificado final coincidió perfectamente con el archivo watsoncrick.pdf. Un código que garantice que no existan regiones autocomplementarias durante mucho tiempo en ninguno de los segmentos de ADN diseñados podría usarse en el futuro.
Ejemplo de esquema de codificación de Huffman
La Tabla 1 muestra un ejemplo del esquema de codificación de Huffman ilustrativo utilizado para convertir valores de bytes (0-255) en base-3. Para información altamente comprimida, cada valor de byte debe aparecer con la misma frecuencia y el número medio de trits por byte será (239*5 17*6)/256= 5,07. El número máximo teórico de trits por byte es log(256)/log(3)= 5,05.
Tabla 1
Figure imgf000008_0001
Figure imgf000009_0001
Figure imgf000010_0001
Figure imgf000011_0001
Figure imgf000012_0001
Figure imgf000013_0001
Figure imgf000014_0001
Figure imgf000015_0001
Figure imgf000016_0002
Codificación del archivo
El archivo de ordenador arbitrario 210 se representa como una cadena S0 de bytes (a menudo interpretada como un número entre 0 y 28 - 1, es decir, un valor en el conjunto {0... 255}). La cadena S 0 se codifica utilizando el código de Huffman y la conversión a base 3. Esto genera una cadena Si de caracteres como el trit {0, 1, 2}.
Ahora escribamos len() para la función que calcula la longitud (en caracteres) de la cadena S1 , y define n=len(Si).
Represente n en base 3 y anteponga 0 para generar una cadena S 2 de trits tal que len(S 2 ) = 20. Forme la concatenación de cadenas S 4 = Si, S3 , S 2 , donde S3 es una cadena de, a lo sumo, 24 ceros se elige para que len(S 4 ) sea un múltiplo entero de 25.
S 4 se convierte a la cadena de ADN S5 de los caracteres en {A, C, G, T} sin nucleótidos (nt) repetidos usando el esquema ilustrado en la siguiente tabla. El primera trit de S4 se codifica utilizando la fila "A" de la tabla. Para cada trit posterior, los caracteres se toman de la fila definida por la conversión de caracteres anterior.
Nt anterior escrito siguiente trit para codificar
Figure imgf000016_0001
Tabla: ADN de base 3 codificador que garantiza que no se repitan nucleótidos.
Para que cada trit t a codificar, seleccione la fila etiquetada con el nucleótido anterior ^ usado y la columna etiquetada t y codifique utilizando el nt en la celda de la tabla correspondiente.
Defina N = len (S5) y permita que ID sea una cadena de dos trit que identifique el archivo original y único dentro de un experimento dado (permitiendo la mezcla de ADN de diferentes archivos S0 en un experimento). Divida S5 en los segmentos de ADN solapantes 240 de 100 nt de longitud, estando cada uno de los segmentos de ADN 240 desplazado desde el anterior de los segmentos de ADN 240 en 25 nt. Esto significa que habrá ((N/25) -3) segmentos de ADN 240, convenientemente indexado i = 0...(N/25)-4. El segmento de ADN i se denota F¡ y contiene (ADN) los caracteres 25i.... 25i+gg de S5.
Cada segmento de ADN Fi se procesa adicionalmente de la siguiente manera:
Si i es impar, invierta el complementario del segmento de ADN F¡.
Sea i3 la representación de base 3 de i, añadiendo suficientes ceros iniciales para que len(i3)= 12. Calcule P como la suma (mod 3) de los trits posicionados impares en ID e i3, es decir ID 1 + i31 i33 i3¡ i37 i39 como un 'trit de paridad' - análogo a un bit de paridad - para verificar errores en la información codificada sobre ID e i).
Forma la información de indexación cadena 250 IX = ID. i2. P (que comprende 2 12 1 = 15 trits). Añada la versión codificada en ADN (etapa 760) de IX a F¡ usando la misma estrategia que se muestra en la tabla anterior, comenzando con la fila de la tabla de códigos definida por el último carácter de F¡, para dar el segmento indexado F'¡. Forme F"¡ añadiendo A o T y añadiendo C o G a F¡, -se elige entre A y T, y entre C y G, aleatoriamente si es posible pero siempre de forma que no haya nucleótidos repetidos. Esto garantiza que se pueda distinguir un segmento de ADN 240 que se ha complementado de manera inversa (etapa 240) durante la secuenciación de ADN de uno que no lo ha hecho. El primero comenzará con G | C y el final con T | A; este último comenzará con A | T y finalizará con C | G.
Los segmentos F"¡ se sintetizan en la etapa 790 como oligonucleótidos de ADN reales y se almacenan en la etapa 790 y pueden suministrarse para la secuenciación en la etapa 820.
Descodificación
La descodificación es simplemente inversa de la codificación en la etapa 720, comenzando con los segmentos de ADN secuenciados 240 F"¡ de 117 nucleótidos de longitud. La complementación inversa durante el procedimiento de secuenciación del ADN (por ejemplo, durante las reacciones de PCR) se puede identificar para la posterior inversión observando si los fragmentos comienzan con A | T y terminan con C | G, o comienzan con G | C y terminan con T | A. Con estos dos nucleótidos de "orientación" eliminados, los 115 nucleótidos restantes de cada segmento de ADN 240 pueden dividirse en los primeros 100 nucleótidos del "mensaje" y los quince nucleótidos restantes de la "información de indexación 250". La información de indexación del nucleótido 250 se puede descodificar para determinar el identificador ID del archivo y el índice de posición ¡3 y, por lo tanto, i, y los errores se pueden detectar analizando la paridad trit P. La información de indexación de posición 250 permite la reconstrucción del archivo codificado con ADN 230, que luego se puede convertir a base 3 usando el inverso de la tabla de codificación anterior y, después, a los bytes originales usando el código de Huffman dado.
Discusión sobre el almacenamiento de datos
El almacenamiento de ADN tiene propiedades diferentes del almacenamiento tradicional basado en cinta o el almacenamiento basado en disco. El ~ 750kB de información en este ejemplo se sintetizó en 10pmol de ADN, dando una densidad de almacenamiento de información de aproximadamente un Terabyte/gramo. El almacenamiento de ADN no requiere energía y permanece (potencialmente) viable durante miles de años, incluso según estimaciones conservadoras.
Los archivos de ADN también pueden copiarse de forma masivamente paralela mediante la aplicación de PCR a los pares de cebadores, seguido de la división alícuota (división) de la solución de ADN resultante. En la demostración práctica de esta tecnología en el proceso de secuenciación, este procedimiento se realizó varias veces, pero esto también podría usarse explícitamente para copiar a gran escala la información y, después, enviar físicamente esta información a dos o más ubicaciones. El almacenamiento de la información en múltiples ubicaciones proporcionaría una mayor solidez a cualquier esquema de archivo, y podría ser útil en sí mismo para operaciones de copia de datos a gran escala entre instalaciones.
El ancho de banda de descodificación en este ejemplo fue de 3,4 bits/segundo, en comparación con el disco (aproximadamente un Terabit/segundo) o una cinta (140 Megabit/segundo), y la latencia también es alta (~ 20 días en este ejemplo). Se espera que las futuras tecnologías de secuenciación puedan mejorar ambos factores.
El modelado del coste total de archivar utilizando el almacenamiento de ADN de esta divulgación o el almacenamiento en cinta muestra que los parámetros clave son la frecuencia y los costes fijos de la transición entre las tecnologías de almacenamiento en cinta y los medios. La figura 3 muestra las escalas de tiempo para las cuales el almacenamiento de ADN es rentable. La curva superior en negrita indica el tiempo de equilibrio (eje x) más allá del cual el almacenamiento de ADN tal como se describe en esta divulgación es menos costoso que la cinta. Esto supone que el archivo de cinta debe leerse y reescribirse cada 3 años (f = 1/3), y depende del coste relativo de la síntesis de almacenamiento de ADN y los costes fijos de la transferencia de cinta (eje y). La curva en negrita inferior corresponde a las transferencias de cinta cada 5 años. La región debajo de la curva en negrita inferior indica casos para los cuales el almacenamiento de ADN es rentable cuando las transferencias se producen con más frecuencia que cada 5 años; entre las dos curvas en negrita, el almacenamiento de ADN es rentable cuando las transferencias se producen de 3 a 5 años; y por encima de la cinta de la curva superior en negrita es menos costoso cuando las transferencias se producen con menos frecuencia que cada 3 años. Las líneas horizontales punteadas indican los intervalos de los costes relativos de la síntesis de ADN a la transferencia de cinta de 125-500 (valores actuales) y 12,5-50 (alcanzados si los costes de síntesis de ADN se reducen en un orden de magnitud). Las líneas verticales punteadas indican los tiempos de equilibrio correspondientes. Obsérvense las escalas logarítmicas en todos los ejes. Un problema para el archivo digital a largo plazo es cómo el almacenamiento basado en ADN se adapta a aplicaciones más grandes. El número de bases del ADN sintetizado necesario para codificar la información crece linealmente con la cantidad de información que se almacenará. También se debe considerar la información de indexación requerida para reconstruir archivos de longitud completa a partir de los segmentos cortos de ADN 240. La información de indexación 250 crece solo como el logaritmo de la cantidad de segmentos de ADN 240 a indexar. La cantidad total de ADN sintetizado requerida crece de forma sublineal. Sin embargo, se necesitan partes cada vez más grandes de cada uno de los segmentos de ADN 240 para la indexación y, aunque es razonable esperar que la síntesis de cadenas más largas sea posible en el futuro, el comportamiento del esquema se modeló bajo la restricción conservadora de un constante de 114 nucleótidos disponibles tanto para los datos como para la información de indexación 250.
Dado que la cantidad de información aumenta, la eficiencia de la codificación solo disminuye lentamente (Fig. 5). En el experimento (escala de megabytes), el esquema de codificación tiene una eficiencia del 88 %. La figura 5 indica que la eficiencia permanece > 70 % para el almacenamiento de datos en escalas de petabyte (PB, 1015 bytes) y> 65 % en escalas de exabyte (EB, 1018 bytes), y que el almacenamiento basado en ADN sigue siendo factible en escalas de muchos órdenes de magnitud mayor que los volúmenes de datos globales actuales. La Figura 5 también muestra que los costes (por unidad de información almacenada) aumentan lentamente a medida que los volúmenes de datos aumentan en muchos órdenes de magnitud. La eficiencia y los costes aumentan aún más favorablemente si consideramos las longitudes de los segmentos de ADN sintetizados 240 disponibles con la última tecnología. A medida que aumenta la cantidad de información almacenada, la descodificación requiere más oligos para secuenciar. Un gasto fijo de descodificación por byte de información codificada significaría que cada base se lee menos veces y, por lo tanto, es más probable que sufra un error de descodificación. La extensión del análisis de escala para modelar la influencia de la reducción de la cobertura de secuenciación en la tasa de error por base descodificada reveló que las tasas de error aumentan muy lentamente a medida que aumenta la cantidad de información codificada a una escala de datos global y más. Esto también sugiere que la cobertura de secuenciación media de 1.308 veces fue considerablemente superior a la necesaria para una descodificación fiable. Esto se confirmó mediante un submuestreo de los pares de lectura de 79,6x3106 para simular experimentos con menor cobertura.
La Figura 5 indica que la reducción de la cobertura en un factor de 10 (o incluso más) habría conducido a características de descodificación inalteradas, lo que ilustra aún más la robustez del método de almacenamiento de ADN. Las aplicaciones del almacenamiento basado en ADN ya podrían ser económicamente viables para los archivos de horizonte largo con una baja expectativa de acceso extenso, tales como el gobierno y los registros históricos. Un ejemplo en un contexto científico es el sistema CASTOR del CERN, que almacena un total de 80 PB de datos de Large Hadron Collider y crece a 15 PB año-1. Solo el 10 % se mantiene en el disco, y CASTOR migra regularmente entre los formatos de cinta magnética. Se necesitan archivos de datos antiguos para la posible verificación futura de acontecimientos, pero las tasas de acceso disminuyen considerablemente 2-3 años después de la recolección. Otros ejemplos se encuentran en la astronomía, medicina y exploración interplanetaria.
La figura 5 muestra la eficiencia de la codificación y los costes cambian a medida que aumenta la cantidad de información almacenada. El eje x (escala logarítmica) representa la cantidad total de información a codificar. Se indican escalas de datos comunes, incluyendo la estimación de datos globales de tres zettabyte (3 ZB, 3x1021 bytes). La escala del eje y a la izquierda indica la eficiencia de codificación, medida como la proporción de bases sintetizadas disponibles para la codificación de datos. La escala del eje y a la derecha indica el efecto correspondiente en los costos de codificación, tanto en los niveles de coste de síntesis actuales (línea continua) como en el caso de una reducción de magnitud de dos órdenes (línea discontinua).
La figura 6 muestra la tasa de error por base recuperada (eje y) en función de la cobertura de secuenciación, representado por el porcentaje de los 79.6x106 pares de lectura originales muestreados (eje x; escala logarítmica). Una curva representa los cuatro archivos recuperados sin intervención humana: el error es cero cuando se utiliza > 2 % de las lecturas originales. Otra curva se obtiene mediante la simulación de Monte Carlo a partir de nuestro modelo teórico de tasa de error. La curva final representa el archivo (watsoncrick.pdf) que requirió corrección manual: la mínima tasa de error posible es 0,0036 %. El área en el recuadro se muestra ampliada en el recuadro.
Además del almacenamiento de datos, las enseñanzas de esta descripción también pueden usarse para la esteganografía.
Referencias
1. Bancroft, C., Bowler, T., Bloom, B. & Clelland, C. T. Long-term storage of information in DNA. Science 293, 1763-1765 (2001)
2. Cox, J. P. L. Long-term data storage in DNA. TRENDS Biotech. 19, 247-250 (2001)
3. Baum, E. B. Building an associative memory vastly larger than the brain. Science 268, 583-585 (1995) 4. Clelland, C. T., Risca, V. & Bancroft, C. Hiding messages in DNA microdots. Nature 399, 533-534 (1999) 5. Kac, E. Genesis (1999) http://www.ekac.org/geninfo.html consultado online, 2 de abril de 2012
6. Wong, P. C., Wong, K.-K. y Foote, H. Organic data memory. Using the DNA approach. Comm. ACM 46, 95-98 (2003)
7. Ailenberg, M. y Rotstein, O. D. An improved Huffman coding method for archiving text, images, and music characters in DnA. Biotechniques 47, 747-754 (2009)
8. Gibson, D. G. et al. Creation of a bacterial cell controlled by a chemically synthesized genome. Science 329, 52-56 (2010)
9. MacKay, D. J. C. Information Theory, Inference, and Learning Algorithms. (Cambridge University Press, 2003) 10. Watson, J. D. y Crick, F. H. C. Molecular structure of nucleic acids. Nature 171, 737-738 (1953)
11. Shapiro, B. et al. Rise and fall of the Beringian steppe bison. Science 306, 1561-1565 (2004)
12. Poinar, H. K. et al. Metagenomics to paleogenomics: large-scale sequencing of mammoth DNA. Science 311, 392-394 (2005)
13. Willerslev, E. et al. Ancient biomolecules from deep ice cores reveal a forested southern Greenland. Science 317, 111-114 (2007)
14. Green, R. E. et al. A draft sequence of the Neanderthal genome. Science 328, 710-722 (2010)
15. Anchordoquy, T. J. y Molina, M. C. Preservation of DNA. Cell Preservation Tech. 5, 180-188 (2007)
16. Bonnet, J. et al. Chain and conformation stability of solid-state DNA: implications for room temperature storage. Nucl. Acids Res. 38, 1531-1546 (2010)
17. Lee, S. B., Crouse, C. A. y Kline, M. C. Optimizing storage and handling of DNA extracts. Forensic Sci. Rev.
22, 131-144 (2010)
18. Tsaftaris, S. A. y Katsaggelos, A. K. On designing DNA databases for the storage and retrieval of digital signals. Lecture Notes Comp. Sci. 3611, 1192-1201 (2005)
19. Yamamoto, M., Kashiwamura, S., Ohuchi, A. y Furukawa, M. Large-scale DNA memory based on the nested PCR. Natural Computing 7, 335-346 (2008)
20. Kari, L. y Mahalingam, K. DNA computing: a research snapshot. En Atallah, M. J. y Blanton, M. (eds.) Algorithms and Theory of Computation Handbook, vol. 2. 2a ed. pág. 31-1-31-24 (Chapman & Hall, 2009) 21. Chen, P. M., Lee, E. K., Gibson, G. A., Katz, R. H. y Patterson, D. A. RAID: high-performance, reliable secondary storage. ACM Computing Surveys 26, 145-185 (1994)
22. Le Proust, E. M. et al. Synthesis of high-quality libraries of long (150mer) oligonucleotides by a novel depurination controlled process. Nucl. Acids Res. 38, 2522-2540 (2010)
23. Kosuri, S. et al. A scalable gene synthesis platform using high-fidelity DNA microchips. Nature Biotech. 28, 1295-1299 (2010)
24. Beaucage, S. L. y Caruthers, M. H. Deoxynucleoside phosphoramidites -a new class of key intermediates for deoxypolynucleotide synthesis. Tetrahedron Lett. 22, 1859-1862(1981)
25. Cleary, M. A. et al. Production of complex nucleic acid libraries using highly parallel in situ oligonucleotide synthesis. Nature Methods 1,241-248 (2004)
26. Aird, D. et al. Analysing and minimizing PCR amplification bias in Illumina sequencing libraries. Genome Biol.
12, R18 (2011)

Claims (4)

REIVINDICACIONES
1. Un método para el almacenamiento de un elemento de información (210), que comprende:
- codificar (720) bytes del elemento de información (210) utilizando un código Huffman de base 3;
- representar, utilizando un esquema de representación que no forme homopolímeros, los bytes codificados (720) por al menos un nucleótido de ADN para producir una secuencia de ADN (230);
- dividir (730) la secuencia de ADN (230) en una pluralidad de segmentos de ADN solapantes (240) de una longitud de 100 bases con un solapamiento de al menos 75 bases, en donde la pluralidad de segmentos de ADN solapantes (240) se acumula en una redundancia de almacenamiento de los elementos de información (210); - aumentar (750) la información de indexación (250) a la pluralidad de segmentos de ADN solapantes (240), especificando la información de indexación una ubicación única en la secuencia de ADN (230) de cualquiera de los segmentos de ADN solapantes (240);
- sintetizar (790) la pluralidad de segmentos de ADN solapantes (240) con la información de indexación aumentada para producir segmentos de ADN sintetizados (240), la síntesis incluye añadir adaptadores a los segmentos de ADN (240); y
- almacenar (795) los segmentos de ADN sintetizados (240).
2. El procedimiento de la reivindicación 1, que comprende además añadir una comprobación de paridad a la información de indexación.
3. El procedimiento de las reivindicaciones 1 o 2, que comprende además la complementación inversa (740) de segmentos alternantes de los segmentos de ADN (240).
4. Un procedimiento para descodificar un segmento de ADN (240) sintetizado que comprende:
- secuenciar segmentos de ADN (240) sintetizados por un método de las reivindicaciones 1 a 3;
- identificar la información de indexación (250) y los nucleótidos del mensaje;
- reconstruir el archivo codificado de ADN (230) a partir de la información de indexación 250 y los nucleótidos mensaje;
- convertir el archivo codificado por ADN (230) en un elemento codificado de información (210); y
- reconstruir el elemento de información (210) del elemento codificado de información (210) usando una tabla Huffman de base 3.
ES13728990T 2012-06-01 2013-05-31 Almacenamiento de alta capacidad de información digital en ADN Active ES2698609T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261654295P 2012-06-01 2012-06-01
PCT/EP2013/061300 WO2013178801A2 (en) 2012-06-01 2013-05-31 High-capacity storage of digital information in dna

Publications (1)

Publication Number Publication Date
ES2698609T3 true ES2698609T3 (es) 2019-02-05

Family

ID=48626420

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13728990T Active ES2698609T3 (es) 2012-06-01 2013-05-31 Almacenamiento de alta capacidad de información digital en ADN

Country Status (15)

Country Link
US (4) US10387301B2 (es)
EP (2) EP2856375B1 (es)
JP (4) JP2015529864A (es)
KR (1) KR20150016572A (es)
CN (2) CN104520864B (es)
AU (5) AU2013269536B2 (es)
CA (1) CA2874540A1 (es)
DK (1) DK2856375T3 (es)
ES (1) ES2698609T3 (es)
HK (2) HK1208937A1 (es)
IL (4) IL235954B (es)
IN (1) IN2014DN09960A (es)
RU (1) RU2014152796A (es)
SG (1) SG11201407818PA (es)
WO (1) WO2013178801A2 (es)

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2856375B1 (en) * 2012-06-01 2018-07-18 European Molecular Biology Laboratory High-capacity storage of digital information in dna
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
KR102423377B1 (ko) 2013-08-05 2022-07-25 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
GB2521387B (en) * 2013-12-18 2020-05-27 Ge Healthcare Uk Ltd Oligonucleotide data storage on solid supports
KR20150092585A (ko) * 2014-02-05 2015-08-13 한국전자통신연구원 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치
WO2015144858A1 (en) 2014-03-28 2015-10-01 Thomson Licensing Methods for storing and reading digital data on a set of dna strands
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
EP2958238A1 (en) 2014-06-17 2015-12-23 Thomson Licensing Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
KR101788673B1 (ko) * 2014-06-24 2017-11-15 싸이퍼롬, 인코퍼레이티드 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
WO2015199440A1 (ko) * 2014-06-24 2015-12-30 서울대학교산학협력단 핵산염기서열 보안 방법, 장치 및 이를 저장한 기록매체
US20170335334A1 (en) * 2014-10-29 2017-11-23 Massachusetts Institute Of Technology Dna cloaking technologies
CA2975852A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
WO2016126987A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Compositions and methods for synthetic gene assembly
CN104850760B (zh) * 2015-03-27 2016-12-21 苏州泓迅生物科技有限公司 人工合成dna存储介质的信息存储读取方法
US11164661B2 (en) 2015-04-10 2021-11-02 University Of Washington Integrated system for nucleic acid-based storage and retrieval of digital data using keys
WO2016172377A1 (en) 2015-04-21 2016-10-27 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
US10423341B1 (en) * 2015-06-12 2019-09-24 Bahram Ghaffarzadeh Kermani Accurate and efficient DNA-based storage of electronic data
US9898579B2 (en) 2015-06-16 2018-02-20 Microsoft Technology Licensing, Llc Relational DNA operations
WO2017011492A1 (en) 2015-07-13 2017-01-19 President And Fellows Of Harvard College Methods for retrievable information storage using nucleic acids
CN108368482A (zh) 2015-09-18 2018-08-03 特韦斯特生物科学公司 寡核酸变体文库及其合成
KR20180058772A (ko) 2015-09-22 2018-06-01 트위스트 바이오사이언스 코포레이션 핵산 합성을 위한 가요성 기판
US10566077B1 (en) 2015-11-19 2020-02-18 The Board Of Trustees Of The University Of Illinois Re-writable DNA-based digital storage with random access
EP3173961A1 (en) * 2015-11-27 2017-05-31 Thomson Licensing Method for storing user data and decoding information in synthesized oligos, apparatus and substance
CN108603307A (zh) 2015-12-01 2018-09-28 特韦斯特生物科学公司 功能化表面及其制备
WO2017139592A1 (en) 2016-02-12 2017-08-17 Genosecurity, LLC Security enhanced portable data store and processor for allowing secure and selective access to genomic data
US10640822B2 (en) 2016-02-29 2020-05-05 Iridia, Inc. Systems and methods for writing, reading, and controlling data stored in a polymer
US10438662B2 (en) 2016-02-29 2019-10-08 Iridia, Inc. Methods, compositions, and devices for information storage
US10859562B2 (en) 2016-02-29 2020-12-08 Iridia, Inc. Methods, compositions, and devices for information storage
WO2017153351A1 (en) * 2016-03-08 2017-09-14 Thomson Licensing Method and device for decoding data segments derived from oligonucleotides and related sequencer
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
US11359234B2 (en) 2016-07-01 2022-06-14 Microsoft Technology Licensing, Llc Barcoding sequences for identification of gene expression
CN109477130B (zh) 2016-07-01 2022-08-30 微软技术许可有限责任公司 通过迭代dna编辑的存储
US10892034B2 (en) 2016-07-01 2021-01-12 Microsoft Technology Licensing, Llc Use of homology direct repair to record timing of a molecular event
JP6854340B2 (ja) 2016-08-22 2021-04-07 ツイスト バイオサイエンス コーポレーション デノボ合成された核酸ライブラリ
EP3509018B1 (en) * 2016-08-30 2023-10-18 Tsinghua University Method for biologically storing and restoring data
KR102217487B1 (ko) 2016-09-21 2021-02-23 트위스트 바이오사이언스 코포레이션 핵산 기반 데이터 저장
US10370246B1 (en) * 2016-10-20 2019-08-06 The Board Of Trustees Of The University Of Illinois Portable and low-error DNA-based data storage
EP3532965A1 (en) 2016-10-28 2019-09-04 Integrated DNA Technologies Inc. Dna data storage using reusable nucleic acids
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
CA3043887A1 (en) * 2016-11-16 2018-05-24 Catalog Technologies, Inc. Nucleic acid-based data storage
CN110024037B (zh) * 2016-11-30 2023-06-27 微软技术许可有限责任公司 经由连接的dna随机存取存储***
US10853244B2 (en) * 2016-12-07 2020-12-01 Sandisk Technologies Llc Randomly writable memory device and method of operating thereof
EA201991262A1 (ru) 2016-12-16 2020-04-07 Твист Байосайенс Корпорейшн Библиотеки вариантов иммунологического синапса и их синтез
US10839948B2 (en) * 2016-12-29 2020-11-17 Intel Corporation Microfluidic information-encoding polymer data storage
US10793897B2 (en) 2017-02-08 2020-10-06 Microsoft Technology Licensing, Llc Primer and payload design for retrieval of stored polynucleotides
US10787699B2 (en) * 2017-02-08 2020-09-29 Microsoft Technology Licensing, Llc Generating pluralities of primer and payload designs for retrieval of stored nucleotides
US10689684B2 (en) 2017-02-14 2020-06-23 Microsoft Technology Licensing, Llc Modifications to polynucleotides for sequencing
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
EP3586255A4 (en) 2017-02-22 2021-03-31 Twist Bioscience Corporation NUCLEIC ACID-BASED DATA STORAGE
US10930370B2 (en) 2017-03-03 2021-02-23 Microsoft Technology Licensing, Llc Polynucleotide sequencer tuned to artificial polynucleotides
US10774379B2 (en) 2017-03-15 2020-09-15 Microsoft Technology Licensing, Llc Random access of data encoded by polynucleotides
WO2018170169A1 (en) 2017-03-15 2018-09-20 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
CA3066744A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
RU2659025C1 (ru) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Способы кодирования и декодирования информации
US10742233B2 (en) * 2017-07-11 2020-08-11 Erlich Lab Llc Efficient encoding of data for storage in polymers such as DNA
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
WO2019040871A1 (en) * 2017-08-24 2019-02-28 Miller Julian DEVICE FOR ENCODING AND STORING INFORMATION USING ARTIFICIALLY EXPANDED ALPHABETS OF NUCLEIC ACIDS AND OTHER ANALOGOUS POLYMERS
US11810651B2 (en) 2017-09-01 2023-11-07 Seagate Technology Llc Multi-dimensional mapping of binary data to DNA sequences
CA3075505A1 (en) 2017-09-11 2019-03-14 Twist Bioscience Corporation Gpcr binding proteins and synthesis thereof
US11538554B1 (en) 2017-09-19 2022-12-27 The Board Of Trustees Of The Univ Of Illinois Nick-based data storage in native nucleic acids
US10810495B2 (en) * 2017-09-20 2020-10-20 University Of Wyoming Methods for data encoding in DNA and genetically modified organism authentication
GB2583590A (en) 2017-10-20 2020-11-04 Twist Bioscience Corp Heated nanowells for polynucleotide synthesis
US11539516B2 (en) 2017-10-27 2022-12-27 Eth Zurich Encoding and decoding information in synthetic DNA with cryptographic keys generated based on polymorphic features of nucleic acids
JP7191448B2 (ja) 2018-01-04 2022-12-19 ツイスト バイオサイエンス コーポレーション Dnaベースのデジタル情報ストレージ
AU2019236289A1 (en) 2018-03-16 2020-10-08 Catalog Technologies, Inc. Chemical methods for nucleic acid-based data storage
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
KR102138864B1 (ko) * 2018-04-11 2020-07-28 경희대학교 산학협력단 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
EP3776557A4 (en) 2018-04-13 2021-12-15 The Hong Kong Polytechnic University DATA STORAGE USING PEPTIDES
CN108631791B (zh) * 2018-05-14 2021-08-10 东南大学 一种基于化学反应网络的低密度奇偶校验码解码方法
EP3794598A1 (en) 2018-05-16 2021-03-24 Catalog Technologies, Inc. Compositions and methods for nucleic acid-based data storage
AU2019270243A1 (en) 2018-05-18 2021-01-07 Twist Bioscience Corporation Polynucleotides, reagents, and methods for nucleic acid hybridization
CN110569974B (zh) * 2018-06-06 2021-08-24 天津大学 可包含人造碱基的dna存储分层表示与交织编码方法
WO2019234213A1 (en) 2018-06-07 2019-12-12 Vib Vzw A method of storing information using dna molecules
US11854669B1 (en) 2018-07-30 2023-12-26 National Technology & Engineering Solutions Of Sandia, Llc Synthetic nucleic acids for information storage and transmission
KR102236439B1 (ko) * 2018-08-30 2021-04-06 (주) 케일헬스케어 디지털 정보를 dna 분자에 저장하는 방법 및 그 장치
US11515012B1 (en) 2018-09-22 2022-11-29 Mark Gordon Arnold Method and apparatus for a pipelined DNA memory hierarchy
US11017170B2 (en) * 2018-09-27 2021-05-25 At&T Intellectual Property I, L.P. Encoding and storing text using DNA sequences
EP3651156A1 (en) * 2018-11-07 2020-05-13 BioSistemika d.o.o. Nucleic acid-based data storage
US20220064705A1 (en) * 2018-12-26 2022-03-03 Bgi Shenzhen Method and device for fixed-point editing of nucleotide sequence with stored data
CN109887549B (zh) * 2019-02-22 2023-01-20 天津大学 一种数据存储、还原方法及装置
WO2020176678A1 (en) 2019-02-26 2020-09-03 Twist Bioscience Corporation Variant nucleic acid libraries for glp1 receptor
SG11202109283UA (en) 2019-02-26 2021-09-29 Twist Bioscience Corp Variant nucleic acid libraries for antibody optimization
JP2022531790A (ja) 2019-05-09 2022-07-11 カタログ テクノロジーズ, インコーポレイテッド Dnaに基づくデータ記憶における探索、算出、および索引付けのためのデータ構造および動作
GB201907460D0 (en) 2019-05-27 2019-07-10 Vib Vzw A method of storing information in pools of nucleic acid molecules
US11590505B2 (en) 2019-05-31 2023-02-28 Illumina, Inc. System and method for storage
SG11202012811RA (en) 2019-05-31 2021-01-28 Illumina Inc Flow cell with one or more barrier features
WO2020243072A1 (en) 2019-05-31 2020-12-03 Illumina, Inc. Flow cell with selective deposition or activation of nucleotides
US11282588B2 (en) 2019-05-31 2022-03-22 Illumina, Inc. Storage device, system, and method
CN112689682A (zh) 2019-05-31 2021-04-20 伊鲁米纳公司 从流动池中的生物样品获取信息
CN114729342A (zh) 2019-06-21 2022-07-08 特韦斯特生物科学公司 基于条形码的核酸序列装配
US11939570B2 (en) 2019-08-20 2024-03-26 Seagate Technology Llc Microfluidic lab-on-a-chip for gene synthesis
US11535842B2 (en) 2019-10-11 2022-12-27 Catalog Technologies, Inc. Nucleic acid security and authentication
US11755640B2 (en) * 2019-12-20 2023-09-12 The Board Of Trustees Of The University Of Illinois DNA-based image storage and retrieval
US11702689B2 (en) * 2020-04-24 2023-07-18 Microsoft Technology Licensing, Llc Homopolymer primers for amplification of polynucleotides created by enzymatic synthesis
CN111680797B (zh) * 2020-05-08 2023-06-06 中国科学院计算技术研究所 一种dna活字印刷机、基于dna的数据存储设备和方法
EP4150622A1 (en) 2020-05-11 2023-03-22 Catalog Technologies, Inc. Programs and functions in dna-based data storage
PT116392B (pt) 2020-05-15 2022-06-30 Univ Aveiro Método e composição para estabilizar e armazenar adn à temperatura ambiente e utilizações dos mesmos
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN111858510B (zh) * 2020-07-16 2021-08-20 中国科学院北京基因组研究所(国家生物信息中心) Dna活字存储***和方法
US11837302B1 (en) 2020-08-07 2023-12-05 Iridia, Inc. Systems and methods for writing and reading data stored in a polymer using nano-channels
KR102418617B1 (ko) * 2020-10-13 2022-07-07 서울대학교산학협력단 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치
EP4323375A1 (en) 2021-04-14 2024-02-21 Microsoft Technology Licensing, LLC Compostable silica encapsulation of oligonucleotides for long-term storage
CN113314187B (zh) * 2021-05-27 2022-05-10 广州大学 一种数据存储方法、解码方法、***、装置及存储介质
US11823065B2 (en) 2021-05-28 2023-11-21 Bank Of America Corporation Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
US11823064B2 (en) 2021-05-28 2023-11-21 Bank Of America Corporation Enterprise market volatility prediction through synthetic DNA and mutant nucleotides
US11823066B2 (en) 2021-05-28 2023-11-21 Bank Of America Corporation Enterprise market volatility predictions through synthetic DNA and mutant nucleotides
CN116451780A (zh) * 2022-01-05 2023-07-18 密码子(杭州)科技有限公司 用于在分子中存储信息的方法和设备
KR20240048218A (ko) 2022-10-06 2024-04-15 (주)디나스텍 불량 가능성이 낮은 dna 인코딩 방법 및 장치
KR20240056939A (ko) 2022-10-24 2024-05-02 (주)디나스텍 섞인 이진 데이터를 원래 이진 데이터로 복원하는 방법
KR20240049911A (ko) 2022-10-11 2024-04-18 (주)디나스텍 염기서열의 반복 배치를 방지하기 위한 이진 데이터 섞는 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2324513T3 (es) * 1999-03-18 2009-08-10 Complete Genomics As Procedimientos de clonacion y produccion de cadenas de fragmentos con contenido de informacion legible.
AU4703300A (en) * 1999-05-06 2000-11-21 Mount Sinai School Of Medicine Of The City University Of New York, The Dna-based steganography
GB0103364D0 (en) * 2001-02-10 2001-03-28 Nat Inst Of Agricultural Botan Storage of encoded information within biological macromolecules
US7110885B2 (en) * 2001-03-08 2006-09-19 Dnaprint Genomics, Inc. Efficient methods and apparatus for high-throughput processing of gene sequence data
WO2003025123A2 (en) * 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
US7158892B2 (en) 2002-06-28 2007-01-02 International Business Machines Corporation Genomic messaging system
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
US6943417B2 (en) * 2003-05-01 2005-09-13 Clemson University DNA-based memory device and method of reading and writing same
TWI326308B (en) 2003-08-06 2010-06-21 Applied Dna Sciences Inc British Virgin Island Apdn B V I Inc Method for concealing a secret information carried within a dna molecule and method for decoding thereof
JP2005072772A (ja) * 2003-08-21 2005-03-17 Sony Ericsson Mobilecommunications Japan Inc データバックアップシステム、端末装置およびデータバックアッププログラム
EP1846853B1 (en) * 2005-02-11 2008-08-27 Smartgene GmbH Computer-implemented method and computer-based system for validating dna sequencing data
US20070067332A1 (en) * 2005-03-14 2007-03-22 Gridiron Software, Inc. Distributed, secure digital file storage and retrieval
WO2007091064A1 (en) * 2006-02-08 2007-08-16 Solexa Limited End modification to prevent over-representation of fragments
US8691509B2 (en) * 2009-04-02 2014-04-08 Fluidigm Corporation Multi-primer amplification method for barcoding of target nucleic acids
RU106771U1 (ru) 2011-04-14 2011-07-20 Межрегиональное общественное учреждение "Институт инженерной физики" Устройство хранения и передачи данных с исправлением ошибок в байте информации и обнаружением ошибок в байтах информации
US20140357497A1 (en) * 2011-04-27 2014-12-04 Kun Zhang Designing padlock probes for targeted genomic sequencing
CN102329884B (zh) * 2011-10-20 2013-05-08 东南大学 两核苷酸同时合成dna测序方法及其应用
EP2856375B1 (en) * 2012-06-01 2018-07-18 European Molecular Biology Laboratory High-capacity storage of digital information in dna
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US9255265B2 (en) * 2013-03-15 2016-02-09 Illumina, Inc. Methods for producing stranded cDNA libraries

Also Published As

Publication number Publication date
AU2018247323B2 (en) 2020-01-30
HK1257702A1 (zh) 2019-10-25
EP3346404A1 (en) 2018-07-11
SG11201407818PA (en) 2014-12-30
US20150261664A1 (en) 2015-09-17
IL235954A0 (en) 2015-04-30
US20230325308A9 (en) 2023-10-12
US20230281112A9 (en) 2023-09-07
IL277102B (en) 2022-03-01
AU2020202857A1 (en) 2020-05-21
KR20150016572A (ko) 2015-02-12
CA2874540A1 (en) 2013-12-05
WO2013178801A2 (en) 2013-12-05
JP6674518B2 (ja) 2020-04-01
EP2856375A2 (en) 2015-04-08
IL277102A (en) 2020-10-29
AU2020202857B2 (en) 2022-03-17
JP2020119576A (ja) 2020-08-06
US20190370164A1 (en) 2019-12-05
HK1208937A1 (en) 2016-03-18
JP6896905B2 (ja) 2021-06-30
AU2018247323A1 (en) 2018-11-08
IN2014DN09960A (es) 2015-08-14
US20220043744A1 (en) 2022-02-10
AU2022203933A1 (en) 2022-06-23
IL290490B2 (en) 2023-08-01
IL264325B (en) 2020-09-30
US20220043743A1 (en) 2022-02-10
IL290490A (en) 2022-04-01
RU2014152796A (ru) 2016-07-27
CN107055468A (zh) 2017-08-18
US20230214319A9 (en) 2023-07-06
DK2856375T3 (en) 2018-11-05
AU2013269536B2 (en) 2018-11-08
AU2024201484A1 (en) 2024-03-28
JP2021144745A (ja) 2021-09-24
AU2013269536A1 (en) 2014-12-18
JP7431775B2 (ja) 2024-02-15
CN104520864A (zh) 2015-04-15
JP2015529864A (ja) 2015-10-08
JP2019023890A (ja) 2019-02-14
WO2013178801A3 (en) 2014-01-23
CN104520864B (zh) 2017-09-05
IL235954B (en) 2019-02-28
IL290490B1 (en) 2023-04-01
US11892945B2 (en) 2024-02-06
US10387301B2 (en) 2019-08-20
EP2856375B1 (en) 2018-07-18

Similar Documents

Publication Publication Date Title
ES2698609T3 (es) Almacenamiento de alta capacidad de información digital en ADN
US11379729B2 (en) Nucleic acid-based data storage
EP3542294B1 (en) Nucleic acid-based data storage
Bornholt et al. A DNA-based archival storage system
Ping et al. Carbon-based archiving: current progress and future prospects of DNA-based data storage
De Silva et al. New trends of digital data storage in DNA
KR20200071720A (ko) Dna-기반 데이터 저장
Ezekannagha et al. Design considerations for advancing data storage with synthetic DNA for long-term archiving
Bennet et al. Current and emerging opportunities in biological medium‐based computing and digital data storage
Patel et al. Deoxyribonucleic acid as a tool for digital information storage: an overview
TWI770247B (zh) 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
Hamadani et al. Big data management: from hard drives to DNA drives