ES2698609T3

ES2698609T3 - Almacenamiento de alta capacidad de información digital en ADN

Info

Publication number: ES2698609T3
Application number: ES13728990T
Authority: ES
Inventors: Nick Goldman; John Birney
Original assignee: Europaisches Laboratorium fuer Molekularbiologie EMBL
Current assignee: Europaisches Laboratorium fuer Molekularbiologie EMBL
Priority date: 2012-06-01
Filing date: 2013-05-31
Publication date: 2019-02-05
Anticipated expiration: 2033-05-31
Also published as: AU2018247323B2; HK1257702A1; EP3346404A1; SG11201407818PA; US20150261664A1; IL235954A0; US20230325308A9; US20230281112A9; IL277102B; AU2020202857A1; KR20150016572A; CA2874540A1; WO2013178801A2; JP6674518B2; EP2856375A2; IL277102A; AU2020202857B2; JP2020119576A; US20190370164A1; HK1208937A1

Abstract

Un método para el almacenamiento de un elemento de información (210), que comprende: - codificar (720) bytes del elemento de información (210) utilizando un código Huffman de base 3; - representar, utilizando un esquema de representación que no forme homopolímeros, los bytes codificados (720) por al menos un nucleótido de ADN para producir una secuencia de ADN (230); - dividir (730) la secuencia de ADN (230) en una pluralidad de segmentos de ADN solapantes (240) de una longitud de 100 bases con un solapamiento de al menos 75 bases, en donde la pluralidad de segmentos de ADN solapantes (240) se acumula en una redundancia de almacenamiento de los elementos de información (210); - aumentar (750) la información de indexación (250) a la pluralidad de segmentos de ADN solapantes (240), especificando la información de indexación una ubicación única en la secuencia de ADN (230) de cualquiera de los segmentos de ADN solapantes (240); - sintetizar (790) la pluralidad de segmentos de ADN solapantes (240) con la información de indexación aumentada para producir segmentos de ADN sintetizados (240), la síntesis incluye añadir adaptadores a los segmentos de ADN (240); y - almacenar (795) los segmentos de ADN sintetizados (240).

Description

DESCRIPCIÓN

Almacenamiento de alta capacidad de información digital en ADN

Campo de la invención

La divulgación se refiere a un método y aparato para el almacenamiento de información digital en ADN.

Antecedentes

El ADN tiene la capacidad de contener vastas cantidades de información, almacenada fácilmente durante largos periodos de tiempo en forma compacta1,2. La idea de utilizar el ADN como una tienda de información digital ha existido desde 19953 Las implementaciones físicas del almacenamiento de ADN han almacenado hasta la fecha solo cantidades triviales de información, generalmente unos pocos números o palabras de texto en inglés4-8. Los inventores desconocen el almacenamiento y la recuperación a gran escala de información digital de tamaño arbitrario codificada en ADN físico, que no sea el almacenamiento de datos en sustratos magnéticos o sustratos ópticos.

Actualmente, la síntesis de ADN es una tecnología especializada centrada en aplicaciones biomédicas. El coste de la síntesis de ADN ha disminuido de forma constante durante la última década. Es interesante especular en qué escala de tiempo el almacenamiento de datos en una molécula de ADN, como se desvela en el presente documento, sería más rentable que el actual proceso de archivo a largo plazo de almacenamiento de datos en cinta con una transferencia rara pero regular a nuevos medios cada 3 a 5 años. La tecnología actual "lista para usar" para la síntesis de ADN equivale a un precio de aproximadamente 100 bytes por dólar estadounidense. La tecnología más reciente disponible comercialmente de Agilent Technologies (Santa Clara, CA) puede disminuir sustancialmente este coste. Sin embargo, también es necesario tener en cuenta la transferencia regular de datos entre los medios de cinta. Las cuestiones son tanto los costes de esta transferencia de datos como si este coste se fija o disminuye con el tiempo. Si se asume que un monto sustancial del coste es fijo, hay un horizonte temporal en el que el uso de moléculas de ADN para el almacenamiento de datos es más rentable que el almacenamiento de datos regular en el medio de cinta. Después de 400 años (al menos 80 transferencias de medios), es posible que este almacenamiento de datos utilizando moléculas de ADN ya sea rentable.

Un procedimiento práctico de codificación-descodificación que almacena más información de la que se manejó anteriormente se describe en esta divulgación. Los inventores han codificado cinco archivos de ordenador (un total de 757.051 bytes (739 kB) de almacenamiento en disco duro y con una información de Shannon estimada9 de 5,2 x 106 bits, en un código de ADN. Los inventores posteriormente sintetizaron este ADN, transportaron el ADN sintetizado desde EE. UU. a Alemania a través del Reino Unido, secuenciaron el ADN y reconstruyeron los cinco archivos de ordenador con un 100 % de precisión.

Los cinco archivos de ordenador incluían un texto en inglés (los 154 sonetos de Shakespeare), un documento PDF de un artículo científico clásico10, una fotografía en color JPEG y un archivo de audio en formato MP3 que contiene 26 segundos de discurso (del discurso "Tengo un sueño" de Martin Luther King). Este almacenamiento de datos representa aproximadamente 800 veces más información que el conocido almacenamiento basado en ADN anterior y cubre una variedad mucho mayor de formatos digitales. Los resultados demuestran que el almacenamiento de ADN es cada vez más realista y podría, en el futuro, proporcionar un medio rentable para archivar información digital y puede que ya sea rentable para tareas de archivo de varias décadas de bajo acceso.

Técnica anterior

La alta capacidad del ADN para almacenar información de manera estable en condiciones fáciles de lograr1,2 ha hecho del ADN un objetivo atractivo para el almacenamiento de información desde 19953. Además de la densidad de información, las moléculas de ADN tienen un historial probado como portador de información, se conoce la longevidad de la molécula de ADN y el hecho de que, como base de la vida en la tierra, los métodos de manipulación, el almacenamiento y la lectura de la molécula de ADN seguirá siendo el tema de la innovación tecnológica continua, mientras que la vida inteligente basada en el ADN se mantendrá1,2. Se han propuesto sistemas de almacenamiento de datos basados tanto en ADN de vector vivo5-8 (moléculas de ADN in vivo) como en el ADN sintetizado4,1 (ADN in vitro). Los sistemas de almacenamiento de datos in vivo tienen varias desventajas. Tales desventajas incluyen restricciones en la cantidad, elementos genómicos y ubicaciones que pueden manipularse sin afectar a la viabilidad de las moléculas de ADN en los organismos vectores vivos. Los ejemplos de dichos organismos vectores vivos incluyen, pero sin limitaciones, bacterias. La reducción de la viabilidad incluye la disminución de la capacidad y el aumento de la complejidad de los esquemas de codificación de la información. Además, la línea germinal y la mutación somática provocarán que la fidelidad de la información almacenada y la información descodificada se reduzcan con el tiempo y, posiblemente, un requisito para que las condiciones de almacenamiento del ADN vivo se regulen cuidadosamente.

Por el contrario, el "ADN aislado" (es decir, el ADN in vitro) se "escribe" más fácilmente y la recuperación rutinaria de ejemplos del ADN no vivo de muestras que tienen decenas de miles de años11-14 indica que una muestra de ADN no viva bien preparada debe tener una vida útil excepcionalmente larga en entornos de bajo mantenimiento fáciles de lograr (es decir, ambientes fríos, secos y oscuros)1 "17.

El trabajo previo sobre el almacenamiento de información (también denominado datos) en el ADN se ha centrado normalmente en "escribir" un mensaje legible por el ser humano en el ADN en forma codificada, y luego "leer" el mensaje codificado por el ser humano determinando la secuencia del ADN y la descodificando la secuencia. El trabajo en el campo de la computación de ADN ha dado lugar a esquemas que, en principio, permiten la memoria asociativa a gran escala (direccionada por contenido)318"20, pero no ha habido intentos de desarrollar este trabajo como esquemas prácticos de almacenamiento en ADN. La figura 1 muestra las cantidades de información codificada y recuperada con éxito en 14 estudios previos (observe la escala logarítmica en el eje y). Los puntos se muestran para 14 experimentos anteriores (círculos abiertos) y para la presente divulgación (círculo sólido). La mayor cantidad de mensajes legibles por seres humanos almacenados de esta manera son 1280 caracteres de texto en idioma inglés8, equivalente a aproximadamente 6.500 bits de información de Shannon9.

El Indian Council of Scientific and Industrial Research ha presentado una publicación de solicitud de patente de Estados Unidos n.° US 2005/0053968 (Bharadwaj et al.) que enseña un método para almacenar información en el ADN. El método de la '968 de Estados Unidos comprende el uso de un método de codificación que utiliza 4 bases de ADN que representan cada carácter de un conjunto de caracteres ASCII extendido. Entonces, se produce una molécula de ADN sintético, que incluye la información digital, una clave de cifrado y que está flanqueada en cada lado por una secuencia de cebador. Finalmente, el ADN sintetizado se incorpora en un ADN de almacenamiento. En el caso de que la cantidad de ADN sea demasiado grande, entonces la información se puede fragmentar en varios segmentos. El método desvelado en el documento U.S. '968 es capaz de reconstruir los segmentos de ADN fragmentados haciendo coincidir el cebador del encabezado de uno de los segmentos con el cebador de la cola en el posterior de los segmentos.

La solicitud de patente internacional WO 02/024123 (Mt Sinai School of Medicine) enseña una técnica para usar moléculas de ácido nucleico como medio para el almacenamiento a largo plazo y la recuperación de información. El método comprende sintetizar la denominada molécula de ácido nucleico de información que almacena información como una secuencia de nucleótidos y una llamada clave de poliprímero. La clave de poliprímero proporciona la información necesaria para la amplificación y la secuencia de la molécula de ácido nucleico de información, o que permite la recuperación de la información almacenada. Los ácidos nucleicos de información que tienen los siguientes elementos de secuencia: cebadores de amplificación de PCTR directos e inversos flanqueantes comunes, un cebador de secuenciación único, un pequeño espaciador común que sirve como señal para indicar el inicio de la información a almacenar y un segmento de información único. La información a almacenar se codifica sucesivamente en estos segmentos de información, comenzando con el primer elemento de información. La clave de poliprímero también está flanqueada por los cebadores de amplificación de PCR común directo e inverso y contiene en el orden correcto los cebadores de secuencia únicos para la recuperación ordenada de cada molécula de ácido nucleico de información de la secuencia del segmento de información correspondiente.

Se conocen otras publicaciones de patentes que describen técnicas para almacenar información en el ADN. Por ejemplo, la patente de Estados Unidos 6.312.911 enseña un método esteganográfico para ocultar mensajes codificados en el ADN. El método comprende ocultar un mensaje codificado de ADN dentro de una muestra de ADN genómico, seguido de un ocultamiento adicional de la muestra de ADN en un micropunto. La solicitud de esta patente de Estados Unidos '911 es, en particular, para el ocultamiento de información confidencial. Dicha información generalmente tiene una extensión limitada y, por lo tanto, el documento no explica cómo almacenar elementos de información que tienen una extensión mayor. Los mismos inventores han presentado una solicitud de patente internacional publicada como Publicación Internacional N.° WO 03/025123.

Sumario de la invención

Se describe un método para almacenar un elemento de información como un segmento de ADN sintetizado de acuerdo con la reivindicación 1 y un método para descodificar el segmento de ADN sintetizado para recuperar el elemento de información. El método comprende la codificación de bytes en el elemento de información utilizando un código Hufmann de base 3. Los bytes codificados se representan utilizando un esquema de representación (que no forma homopolímeros) por un nucleótido de ADN para producir una secuencia de ADN in silico. En una etapa siguiente, la secuencia de ADN se divide en una pluralidad de segmentos de ADN solapantes. Los segmentos alternos de los segmentos de ADN se complementan de forma inversa y la información de indexación aumenta a la pluralidad de segmentos de ADN solapantes. Finalmente, la pluralidad de segmentos de ADN se sintetiza para producir un segmento de ADN sintetizado y el segmento de ADN sintetizado se almacena.

La adición de la información de indexación a los segmentos de ADN significa que la posición de los segmentos en la secuencia de ADN que representa el elemento de información se puede identificar de manera única. No es necesario depender de una equivalencia de un cebador de cabeza con un cebador de cola. Esto hace posible recuperar casi todo el elemento de información, incluso si uno de los segmentos no se ha reproducido correctamente. Si no hubiera información de indexación, entonces existiría el riesgo de que no sea posible reproducir correctamente todo el elemento de información si los segmentos no pudieran coincidir entre sí debido a los segmentos "huérfanos" cuya posición en la secuencia de ADN no se puede identificar claramente.

El uso de los segmentos de ADN solapantes significa que un grado de redundancia está integrado en el almacenamiento de los elementos de información. Si uno de los segmentos de ADN que se solapa con uno o más del otro segmento de ADN no se puede descodificar, los bytes codificados aún se pueden recuperar de los vecinos de los segmentos de ADN que se solapan. Por lo tanto, la redundancia está integrada en el sistema.

Se pueden hacer múltiples copias de los segmentos de ADN usando técnicas de síntesis de ADN conocido. Esto proporciona un grado adicional de redundancia para permitir que el elemento de información sea descodificado, incluso si algunas de las copias de los segmentos de ADN están dañadas y no se pueden descodificar.

El esquema de representación utilizado para la codificación está diseñado de tal manera que los adyacentes de los nucleótidos de ADN son diferentes. Esto es para aumentar la fiabilidad de la síntesis, reproducción y secuenciación (lectura) de los segmentos de ADN.

En otro aspecto adicional de la invención, se añade una verificación de paridad a la información de indexación. Esta comprobación de paridad permite la síntesis errónea, reproducción o secuenciación de los segmentos de ADN a identificar. La comprobación de paridad se puede ampliar para incluir también información de corrección de errores.

En un aspecto de la invención, los alternos de los segmentos de ADN sintetizados se complementan inversamente. Estos proporcionan un grado adicional de redundancia en el ADN y significa que hay más información disponible si alguno de los segmentos de ADN está dañado.

Descripción de las figuras

La figura 1 es un gráfico de cantidades de información almacenada, en el ADN y recuperada con éxito. En función del tiempo.

La figura 2 muestra un ejemplo del método de la presente divulgación.

La figura 3 muestra un gráfico de la rentabilidad del almacenamiento a lo largo del tiempo.

La figura 4 muestra un motivo con un patrón complementario auto-inverso.

La figura 5 muestra la eficiencia de la codificación.

La figura 6 muestra las tasas de error.

La figura 7 muestra un diagrama de flujo de la codificación del método.

La figura 8 muestra un diagrama de flujo de la descodificación del método.

Descripción detallada

Uno de los principales desafíos para una implementación práctica de almacenamiento de ADN hasta la fecha ha sido la dificultad de crear secuencias largas de ADN para un diseño específico. Las largas secuencias de ADN son necesarias para almacenar grandes archivos de datos, tales como elementos de texto largo y vídeos. También es preferible utilizar una codificación con una pluralidad de copias de cada ADN diseñado. Tal redundancia protege contra errores de codificación y descodificación, como se explicará a continuación. No es rentable usar un sistema basado en cadenas de ADN largas individuales para codificar cada mensaje (potencialmente grande)8. Los inventores han desarrollado un método que utiliza la información de "indexación" asociada con cada uno de los segmentos de ADN para indicar la posición del segmento de ADN en una molécula de ADN hipotéticamente más larga que codifica todo el mensaje.

Los inventores utilizaron métodos de la teoría de códigos para mejorar la capacidad de recuperación de los mensajes codificados del segmento de ADN, incluida la prohibición de homopolímeros de ADN (es decir, ejecuciones de más de una base idéntica) que se sabe que están asociadas con mayores tasas de error en las tecnologías de alto rendimiento existentes. Los inventores incorporaron además un componente simple de detección de errores, análogo a un bit9 de verificación de paridad en la información de indexación en el código. Esquemas más complejos, incluidos, pero sin limitaciones, códigos de corrección de errores9 y, de hecho, sustancialmente cualquier forma de seguridad de datos digitales (por ejemplo, esquemas basados en RAID21) actualmente empleados en informática, podrían implementarse en futuros desarrollos del esquema de almacenamiento de ADN3.

Los inventores seleccionaron cinco archivos de ordenador para codificarlos como una prueba de concepto para el almacenamiento en ADN de esta divulgación. En lugar de restringir los archivos a información legible por seres humanos, se eligieron archivos que utilizan una gama de formatos comunes. Esto demostró la capacidad de las enseñanzas de la divulgación para almacenar tipos arbitrarios de información digital. Los archivos contenían los 154 sonetos de Shakespeare (en formato TXT), el texto completo y la figura de la ref. 10 (en formato PDF), una fotografía en color de resolución media del EMBL-European Bioinformatics Institute (formato JPEG 2000), un extracto de 26 segundos del discurso de Martin Luther King "Tengo un sueño" (formato MP3) y un archivo que define el código de Huffman utilizado en este estudio para convertir bytes en dígitos de base 3 (como un archivo de texto legible por seres humanos).

Los cinco archivos seleccionados para el almacenamiento de ADN fueron los siguientes.

Wssnt10.txt - 107738 bytes - Formato de texto ASCII para los 154 sonetos de Shakespeare (de Project Gutenberg, http://www.gutenberg.org/ebooks/1041)

watsoncrick.pdf - 280864 bytes - documento en formato PDF de la publicación de Watson y Crick (1953)10 que describe la estructura del ADN (del sitio web de Nature, http://www.nature.com/nature/dna50/archive.html, modificado para lograr una mayor compresión y, por lo tanto, un tamaño de archivo más pequeño).

EBI.jp2 - 184264 bytes - Fotografía de color de archivo de imagen en formato JPEG 2000 (16,7 millones de colores, resolución de 640 x 480 píxeles) del EMBL-European Bioinformatics Institute (imagen propia).

MLK_excerpt_VBR_45-85.mp3 - 168539 bytes - archivo de sonido en formato MP3, extracto de 26 segundos del discurso de Martin Luther King "Tengo un sueño" (de http://www.americanrhetoric.com/speeches/mlkihaveadream.htm, modificado para lograr una mayor compresión: velocidad de bits variable, normalmente 48-56 kbps; frecuencia de muestreo 44,1kHz)

View_huff3.cd.new - 15646 bytes - Archivo ASCII legible por seres humanos que define el código de Huffman utilizado en este estudio para convertir bytes en dígitos en base 3 (trits).

Los cinco archivos informáticos comprenden un total de 757.051 bytes, aproximadamente equivalente a una información de Shannon de 5,2 x 106 bits u 800 veces más información codificada y recuperada diseñada por seres humanos que la cantidad máxima anterior que se sabe que se ha almacenado (véase la Fig. 1).

La codificación de ADN de cada uno de los archivos de ordenador se computó utilizando un software y el método se ilustra en la figura 7. En un aspecto de la invención 700 descrita en el presente documento, los bytes que comprenden cada archivo de ordenador 210 se representaron en la etapa 720 como una secuencia de ADN 230 sin homopolímeros mediante un esquema de codificación para producir un archivo codificado 220 que reemplaza cada byte por cinco o seis bases (véase a continuación) que forman la secuencia de ADN 230. El código utilizado en el esquema de codificación se construyó para permitir una codificación directa que esté cerca de la capacidad de información óptima para un canal de longitud limitada de ejecución (es decir, sin nucleótidos repetidos). Sin embargo, se apreciará que pueden usarse otros esquemas de codificación.

Las secuencias de ADN 230 in silico resultantes son demasiado largas para ser producidas fácilmente mediante la síntesis de oligonucleótidos estándar. Por lo tanto, cada una de las secuencias de ADN 230 se dividió en la etapa 730 en segmentos solapantes 240 de 100 bases de longitud con un solapamiento de 75 bases. Para reducir el riesgo de errores de síntesis sistemáticos introducidos en cualquier serie particular de bases, los segmentos alternos se convirtieron a continuación en la etapa 740 en sus complementarios inversos, lo que significa que cada base está "escrita" cuatro veces, dos veces en cada dirección. A continuación, cada segmento se aumentó en la etapa 750 con una información de indexación 250 que permitió la determinación del archivo de ordenador a partir del cual se originó el segmento 240 y su ubicación dentro de ese archivo de ordenador 210, más la información de detección de errores simples. Esta información de indexación 250 también se codificó en la etapa 760 como nucleótidos de ADN no repetitivos y se adjuntó en la etapa 770 a las 100 bases de almacenamiento de información de los segmentos de a Dn 240. Se apreciará que la división de los segmentos de ADN 240 en longitudes de 100 bases con un solapamiento de 75 bases es puramente arbitraria. Sería posible usar otras longitudes y solapamientos, y esto no es limitativo de la invención.

En total, los cinco archivos de ordenador estaban representados por 153.335 cadenas de ADN. Cada una de las cadenas de ADN comprendía 117 nucleótidos (codificando información digital original más información de indexación). El esquema de codificación utilizado tenía varias características del ADN sintetizado (por ejemplo, longitudes de segmento uniformes, ausencia de homopolímeros) que hacían obvio que el ADN sintetizado no tenía un origen natural (biológico). Por lo tanto, es obvio que el ADN sintetizado tiene un diseño deliberado e información codificada2.

Como se ha señalado anteriormente, podrían usarse otros esquemas de codificación para los segmentos de ADN 240, por ejemplo, para proporcionar propiedades mejoradas de corrección de errores. También sería sencillo aumentar la cantidad de información de indexación para permitir que se codifiquen más archivos o archivos más grandes. Se ha sugerido que el esquema de Memoria Molecular de cebador anidado (NPMM)19 alcanza su capacidad máxima práctica en 16,8M de direcciones únicas20, y no parece haber ninguna razón para que el método de la divulgación no pueda extenderse más allá de esto para permitir la codificación de cantidades de información casi arbitrariamente grandes.

Una extensión del esquema de codificación para evitar patrones sistemáticos en los segmentos de ADN 240 sería añadir el cambio de la información. Se intentaron dos maneras de hacer esto. Una primera forma involucró "barajar" la información en los segmentos de ADN 240, La información se puede recuperar si uno conoce el patrón de barajado. En un aspecto de la divulgación, se usaron diferentes patrones de barajado aleatorio para diferentes segmentos de ADN 240.

Otra forma es añadir un grado de aleatoriedad a la información en cada uno de los segmentos de ADN 240. Se puede usar una serie de dígitos al azar para esto, utilizando la adición modular de la serie de dígitos aleatorios y los dígitos que comprenden la información codificada en los segmentos de ADN 240. La información se puede recuperar fácilmente por sustracción modular durante la descodificación si se conoce la serie de dígitos aleatorios utilizados. En un aspecto de la divulgación, se utilizaron diferentes series de dígitos aleatorios para diferentes segmentos de ADN 240.

La información digital codificada en la etapa 720 se llevó a cabo de la siguiente manera. Los cinco archivos de ordenador 210 de información digital (representados en la figura 2A) almacenados en una unidad de disco duro se codificaron usando software. Cada byte de cada uno de los cinco archivos de ordenador 210 que se codificarán en la etapa 720 se representó como una secuencia de bases de ADN a través de los dígitos de base 3 ('trits' 0, 1 y 2) utilizando un código Huffman diseñado específicamente para este propósito que se muestra en la Tabla 1 (más adelante) para producir el archivo codificado 220. Este esquema de codificación de ejemplo se muestra en el esquema en la figura 2B. Cada uno de los 256 bytes posibles estaba representado por cinco o seis trits. Posteriormente, cada uno de los trits se codificó como un nucleótido de ADN 230 seleccionado de los tres nucleótidos diferentes del nucleótido anterior (Figura 2C). En otras palabras, en el esquema de codificación elegido para este aspecto de la divulgación, cada uno de los tres nucleótidos fue diferente del anterior utilizado para asegurar que no haya homopolímeros. La secuencia de ADN resultante 230 se dividió en la etapa 730 en segmentos de ADN 240 de 100 bases de longitud, como se muestra en la Figura 2D. Cada uno de los segmentos de ADN se solapó al segmento de ADN anterior en 75 bases, para dar segmentos de ADN de una longitud que se sintetiza fácilmente y proporcionar redundancia. Los segmentos alternos de ADN se complementaron inversamente.

La información de indexación 250 comprendía dos trits para la identificación del archivo (lo que permite distinguir 32 = 9 archivos, en esta implementación), 12 trits para la información de ubicación dentro del archivo (lo que permite 312 = 531.441 ubicaciones por archivo) y un trit de "comprobación de paridad". La información de indexación 250 se codificó en la etapa 760 como nucleótidos de ADN no repetidos y se adjuntó en la etapa 770 a las 100 bases de almacenamiento de información. Cada segmento de ADN 240 indexado tenía una base adicional añadida en la etapa 780 en cada extremo, consistente con la regla de "no homopolímeros", eso indicaría si todo el segmento de ADN 240 se complementó a la inversa durante la etapa de "lectura" del experimento.

En total, los cinco archivos de ordenador 210 estaban representados por 153.335 cadenas de ADN, comprendiendo cada uno 117 (1 100 2 12 1 1) nucleótidos (que codifica información digital original e información de indexación).

El componente de codificación de datos de cada cadena en el aspecto de la invención que se describe en el presente documento puede contener información de Shannon a 5,07 bits por base de ADN, que está cerca del óptimo teórico de 5,05 bits por base de ADN para los canales de base 4 con longitud de ejecución limitada a uno. La implementación de indexación 250 permite 314 = 4.782.969 ubicaciones de datos únicas. Aumentar el número de trits de indexación (y, por lo tanto, las bases) que se utilizan para especificar el archivo y la ubicación dentro del archivo en solo dos a 16, da 316 = 43.046.721 ubicaciones únicas, en exceso de los 16,8M que es el máximo prácti esquema de NPMM19,20.

El proceso de síntesis de ADN de la etapa 790 también se usó para incorporar adaptadores de 33 pb a cada extremo de cada uno de los oligonucleótidos (oligo) para facilitar la secuenciación en las plataformas de secuenciación de Illumina:

Adaptador en 5': ACACTCTTTCCCT ACACGACGCT CTTCCGAT CT

Adaptador en 3': AGATCG GAAGAG CGGTTCAGCAG GAAT GCCGAG

Los 153.335 diseños de segmentos de ADN 240 se sintetizaron en la etapa 790 en tres ejecuciones distintas (con los segmentos de ADN 240 asignados aleatoriamente a ejecuciones) usando una versión actualizada del proceso OLS de Agilent Technologies (Oligo Library Synthesis, síntesis de la biblioteca de oligos) descrito anteriormente22,23 para crear aproximadamente 1,2 x 107 copias de cada diseño de segmento de ADN. Se observó que los errores ocurrían en solo un error por cada 500 bases e independientemente en copias diferentes de los segmentos de ADN 240. Agilent Technologies adaptó la química de fosforamidita desarrollada previamente24 y empleó tecnologías de impresión por chorro de tinta y de reactor de celda de flujo en la plataforma de síntesis de micromatrices SurePrint in situ de Agilent. La impresión por chorro de tinta dentro de una cámara anhidra permite la liberación de volúmenes muy pequeños de fosforamiditas a un área de acoplamiento confinada en una superficie plana 2D, dando como resultado la adición de cientos de miles de bases en paralelo. La oxidación y la destritilación posteriores se llevan a cabo en un reactor de celdas de flujo. Una vez completada la síntesis de ADN, los oligonucleótidos se escinden de la superficie y se desprotegen25.

Los adaptadores se añadieron a los segmentos de ADN para permitir que se pueda hacer fácilmente una pluralidad de copias de los segmentos de ADN. Un segmento de ADN sin adaptador requeriría procesos químicos adicionales para “iniciar” la química de la síntesis de las copias múltiples al añadir grupos adicionales en los extremos de los segmentos de a Dn .

Se logra una eficiencia de acoplamiento de hasta ~ 99,8 % utilizando un exceso de miles de veces de fosforamidita y solución activadora. De manera similar, un exceso de millones de veces del agente de destritilación hace que la eliminación del grupo protector 5'-hidroxilo esté casi completa. Un proceso controlado en el reactor de celda de flujo redujo significativamente la despurinación, que es la reacción secundaria más prevalente22 Se pueden sintetizar hasta 244.000 secuencias únicas en paralelo y liberarse como grupos de oligos de ~ 1-10 picomoles.

Las tres muestras de oligos liofilizados se incubaron en tampón Tris durante la noche a 4 °C, se mezclaron periódicamente con pipeta y agitación, y finalmente se incubaron a 50 °C durante 1 hora, hasta una concentración de 5 ng/ml. Como quedó material insolubilizado, las muestras se dejaron durante 5 días más a 4 °C mezclando dos o cuatro veces al día. A continuación, las muestras se incubaron a 50 °C durante 1 hora y a 68 °C durante 10 minutos, y se purificaron a partir de subproductos de síntesis residuales en esferas paramagnéticas de Ampure XP (Beckman Coulter) y se pudieron almacenar en la etapa 795. La secuenciación y la descodificación se muestran en la Figura 8. La muestra de olios combinados se amplificó en la etapa 810 (22 ciclos de PCR usando las condiciones del termociclador diseñado para dar A/T pares rente a G/C26) utilizando cebadores de PCR Illumina de extremo pareado y reactivos AccuPrime de alta fidelidad (Invitrogen), una combinación de polimerasas Taq y Pyrococcus con una proteína accesoria termoestable. Los productos amplificados se purificaron en esferas y se cuantificaron en un bioanalizador Agilent 2100 y se secuenciaron utilizando el software AYB en modo pareado en un Illumina HiSeq 2000 para producir lecturas de 104 bases.

La descodificación de la información digital se llevó a cabo de la siguiente manera. Las 91 bases centrales de cada oligo se secuenciaron en la etapa 820 desde ambos extremos y, por lo tanto, el cálculo rápido de los oligos de longitud completa (117 bases) y la eliminación de las lecturas de secuencia inconsistentes con los diseños fue sencillo. Las lecturas de secuencia se descodificaron en la etapa 830 utilizando un software informático que invierte exactamente el proceso de codificación. Las lecturas de la secuencia para las que e trit de la comprobación de paridad indica un error o que en cualquier etapa no se pudo descodificar de forma inequívoca o se asignaron a un archivo de ordenador reconstruido se descartaron en la etapa 840 de consideraciones adicionales.

La gran mayoría de las ubicaciones dentro de cada archivo descodificado se detectó en múltiples oligos de ADN secuenciados diferentes y se usó la mayoría simple de votación en la etapa 850 para resolver cualquier discrepancia causada por la síntesis de ADN o los errores de secuenciación. Al término de este procedimiento 860, cuatro de los cinco archivos de ordenador originales 210 fueron reconstruidos perfectamente. El quinto archivo de ordenador requirió intervención manual para corregir dos regiones, cada una de las 25 bases que no se recuperaron de ninguna lectura secuenciada.

Durante la descodificación en la etapa 850, se observó que un archivo (finalmente determinado como watsoncrick.pdf) reconstruido in silico a nivel de ADN (antes de la descodificación, a través de base-3, a bytes) contenía dos regiones de 25 bases que no se recuperaron de ninguno de los oligos secuenciados. Dada el solapamiento de la estructura del segmento de la codificación, cada región indicó el fracaso de cuatro segmentos consecutivos para sintetizar o secuenciar, dado que cualquiera de los cuatro segmentos solapantes consecutivos habría contenido bases correspondientes a esta ubicación. La inspección de las dos regiones indicó que las bases no detectadas cayeron dentro de repeticiones largas del siguiente motivo de 20 bases:

5 'GAGCATCTGCAGATGCTCAT 3'

Se observó que las repeticiones de este motivo tienen un patrón complementario auto-inverso. Estos se muestran en la Figura 4.

Es posible que los segmentos de ADN complementarios auto-inversos podrían no ser secuenciados fácilmente usando el proceso de extremo pareado de Illumina, debido a la posibilidad de que los segmentos de ADN puedan formar estructuras internas no lineales de bucle-vástago que inhibirían la reacción de secuenciación por síntesis utilizada en el protocolo utilizado en el método descrito en el presente documento. Por consiguiente, la secuencia de ADN in silico se modificó para reparar el patrón de motivo de repetición y luego se sometió a etapas de descodificación posteriores. No se encontraron más problemas y el archivo descodificado final coincidió perfectamente con el archivo watsoncrick.pdf. Un código que garantice que no existan regiones autocomplementarias durante mucho tiempo en ninguno de los segmentos de ADN diseñados podría usarse en el futuro.

Ejemplo de esquema de codificación de Huffman

La Tabla 1 muestra un ejemplo del esquema de codificación de Huffman ilustrativo utilizado para convertir valores de bytes (0-255) en base-3. Para información altamente comprimida, cada valor de byte debe aparecer con la misma frecuencia y el número medio de trits por byte será (239*5 17*6)/256= 5,07. El número máximo teórico de trits por byte es log(256)/log(3)= 5,05.

Tabla 1

Codificación del archivo

El archivo de ordenador arbitrario 210 se representa como una cadena S⁰de bytes (a menudo interpretada como un número entre 0 y 2⁸- 1, es decir, un valor en el conjunto {0... 255}). La cadena S ⁰ se codifica utilizando el código de Huffman y la conversión a base 3. Esto genera una cadena Si de caracteres como el trit {0, 1, 2}.

Ahora escribamos len() para la función que calcula la longitud (en caracteres) de la cadena S¹, y define n=len(Si).

Represente n en base 3 y anteponga 0 para generar una cadena S ² de trits tal que len(S ² ) = 20. Forme la concatenación de cadenas S ⁴ = Si, S³, S ² , donde S³es una cadena de, a lo sumo, 24 ceros se elige para que len(S ⁴ ) sea un múltiplo entero de 25.

S ⁴ se convierte a la cadena de ADN S⁵de los caracteres en {A, C, G, T} sin nucleótidos (nt) repetidos usando el esquema ilustrado en la siguiente tabla. El primera trit de S4 se codifica utilizando la fila "A" de la tabla. Para cada trit posterior, los caracteres se toman de la fila definida por la conversión de caracteres anterior.

Nt anterior escrito siguiente trit para codificar

Tabla: ADN de base 3 codificador que garantiza que no se repitan nucleótidos.

Para que cada trit t a codificar, seleccione la fila etiquetada con el nucleótido anterior ^ usado y la columna etiquetada t y codifique utilizando el nt en la celda de la tabla correspondiente.

Defina N = len (S5) y permita que ID sea una cadena de dos trit que identifique el archivo original y único dentro de un experimento dado (permitiendo la mezcla de ADN de diferentes archivos S0 en un experimento). Divida S5 en los segmentos de ADN solapantes 240 de 100 nt de longitud, estando cada uno de los segmentos de ADN 240 desplazado desde el anterior de los segmentos de ADN 240 en 25 nt. Esto significa que habrá ((N/25) -3) segmentos de ADN 240, convenientemente indexado i = 0...(N/25)-4. El segmento de ADN i se denota F¡ y contiene (ADN) los caracteres 25^i.... 25^i+ggde S⁵.

Cada segmento de ADN Fi se procesa adicionalmente de la siguiente manera:

Si i es impar, invierta el complementario del segmento de ADN F¡.

Sea i3 la representación de base 3 de i, añadiendo suficientes ceros iniciales para que len(i3)= 12. Calcule P como la suma (mod 3) de los trits posicionados impares en ID e i3, es decir ID ¹ + i31 i33 i3¡ i37 i39 como un 'trit de paridad' - análogo a un bit de paridad - para verificar errores en la información codificada sobre ID e i).

Forma la información de indexación cadena 250 IX = ID. i2. P (que comprende 2 12 1 = 15 trits). Añada la versión codificada en ADN (etapa 760) de IX a F¡ usando la misma estrategia que se muestra en la tabla anterior, comenzando con la fila de la tabla de códigos definida por el último carácter de F¡, para dar el segmento indexado F'¡. Forme F"¡ añadiendo A o T y añadiendo C o G a F¡, -se elige entre A y T, y entre C y G, aleatoriamente si es posible pero siempre de forma que no haya nucleótidos repetidos. Esto garantiza que se pueda distinguir un segmento de ADN 240 que se ha complementado de manera inversa (etapa 240) durante la secuenciación de ADN de uno que no lo ha hecho. El primero comenzará con G | C y el final con T | A; este último comenzará con A | T y finalizará con C | G.

Los segmentos F"¡ se sintetizan en la etapa 790 como oligonucleótidos de ADN reales y se almacenan en la etapa 790 y pueden suministrarse para la secuenciación en la etapa 820.

Descodificación

La descodificación es simplemente inversa de la codificación en la etapa 720, comenzando con los segmentos de ADN secuenciados 240 F"¡ de 117 nucleótidos de longitud. La complementación inversa durante el procedimiento de secuenciación del ADN (por ejemplo, durante las reacciones de PCR) se puede identificar para la posterior inversión observando si los fragmentos comienzan con A | T y terminan con C | G, o comienzan con G | C y terminan con T | A. Con estos dos nucleótidos de "orientación" eliminados, los 115 nucleótidos restantes de cada segmento de ADN 240 pueden dividirse en los primeros 100 nucleótidos del "mensaje" y los quince nucleótidos restantes de la "información de indexación 250". La información de indexación del nucleótido 250 se puede descodificar para determinar el identificador ID del archivo y el índice de posición ¡3 y, por lo tanto, i, y los errores se pueden detectar analizando la paridad trit P. La información de indexación de posición 250 permite la reconstrucción del archivo codificado con ADN 230, que luego se puede convertir a base 3 usando el inverso de la tabla de codificación anterior y, después, a los bytes originales usando el código de Huffman dado.

Discusión sobre el almacenamiento de datos

El almacenamiento de ADN tiene propiedades diferentes del almacenamiento tradicional basado en cinta o el almacenamiento basado en disco. El ~ 750kB de información en este ejemplo se sintetizó en 10pmol de ADN, dando una densidad de almacenamiento de información de aproximadamente un Terabyte/gramo. El almacenamiento de ADN no requiere energía y permanece (potencialmente) viable durante miles de años, incluso según estimaciones conservadoras.

Los archivos de ADN también pueden copiarse de forma masivamente paralela mediante la aplicación de PCR a los pares de cebadores, seguido de la división alícuota (división) de la solución de ADN resultante. En la demostración práctica de esta tecnología en el proceso de secuenciación, este procedimiento se realizó varias veces, pero esto también podría usarse explícitamente para copiar a gran escala la información y, después, enviar físicamente esta información a dos o más ubicaciones. El almacenamiento de la información en múltiples ubicaciones proporcionaría una mayor solidez a cualquier esquema de archivo, y podría ser útil en sí mismo para operaciones de copia de datos a gran escala entre instalaciones.

El ancho de banda de descodificación en este ejemplo fue de 3,4 bits/segundo, en comparación con el disco (aproximadamente un Terabit/segundo) o una cinta (140 Megabit/segundo), y la latencia también es alta (~ 20 días en este ejemplo). Se espera que las futuras tecnologías de secuenciación puedan mejorar ambos factores.

El modelado del coste total de archivar utilizando el almacenamiento de ADN de esta divulgación o el almacenamiento en cinta muestra que los parámetros clave son la frecuencia y los costes fijos de la transición entre las tecnologías de almacenamiento en cinta y los medios. La figura 3 muestra las escalas de tiempo para las cuales el almacenamiento de ADN es rentable. La curva superior en negrita indica el tiempo de equilibrio (eje x) más allá del cual el almacenamiento de ADN tal como se describe en esta divulgación es menos costoso que la cinta. Esto supone que el archivo de cinta debe leerse y reescribirse cada 3 años (f = 1/3), y depende del coste relativo de la síntesis de almacenamiento de ADN y los costes fijos de la transferencia de cinta (eje y). La curva en negrita inferior corresponde a las transferencias de cinta cada 5 años. La región debajo de la curva en negrita inferior indica casos para los cuales el almacenamiento de ADN es rentable cuando las transferencias se producen con más frecuencia que cada 5 años; entre las dos curvas en negrita, el almacenamiento de ADN es rentable cuando las transferencias se producen de 3 a 5 años; y por encima de la cinta de la curva superior en negrita es menos costoso cuando las transferencias se producen con menos frecuencia que cada 3 años. Las líneas horizontales punteadas indican los intervalos de los costes relativos de la síntesis de ADN a la transferencia de cinta de 125-500 (valores actuales) y 12,5-50 (alcanzados si los costes de síntesis de ADN se reducen en un orden de magnitud). Las líneas verticales punteadas indican los tiempos de equilibrio correspondientes. Obsérvense las escalas logarítmicas en todos los ejes. Un problema para el archivo digital a largo plazo es cómo el almacenamiento basado en ADN se adapta a aplicaciones más grandes. El número de bases del ADN sintetizado necesario para codificar la información crece linealmente con la cantidad de información que se almacenará. También se debe considerar la información de indexación requerida para reconstruir archivos de longitud completa a partir de los segmentos cortos de ADN 240. La información de indexación 250 crece solo como el logaritmo de la cantidad de segmentos de ADN 240 a indexar. La cantidad total de ADN sintetizado requerida crece de forma sublineal. Sin embargo, se necesitan partes cada vez más grandes de cada uno de los segmentos de ADN 240 para la indexación y, aunque es razonable esperar que la síntesis de cadenas más largas sea posible en el futuro, el comportamiento del esquema se modeló bajo la restricción conservadora de un constante de 114 nucleótidos disponibles tanto para los datos como para la información de indexación 250.

Dado que la cantidad de información aumenta, la eficiencia de la codificación solo disminuye lentamente (Fig. 5). En el experimento (escala de megabytes), el esquema de codificación tiene una eficiencia del 88 %. La figura 5 indica que la eficiencia permanece > 70 % para el almacenamiento de datos en escalas de petabyte (PB, 1015 bytes) y> 65 % en escalas de exabyte (EB, 1018 bytes), y que el almacenamiento basado en ADN sigue siendo factible en escalas de muchos órdenes de magnitud mayor que los volúmenes de datos globales actuales. La Figura 5 también muestra que los costes (por unidad de información almacenada) aumentan lentamente a medida que los volúmenes de datos aumentan en muchos órdenes de magnitud. La eficiencia y los costes aumentan aún más favorablemente si consideramos las longitudes de los segmentos de ADN sintetizados 240 disponibles con la última tecnología. A medida que aumenta la cantidad de información almacenada, la descodificación requiere más oligos para secuenciar. Un gasto fijo de descodificación por byte de información codificada significaría que cada base se lee menos veces y, por lo tanto, es más probable que sufra un error de descodificación. La extensión del análisis de escala para modelar la influencia de la reducción de la cobertura de secuenciación en la tasa de error por base descodificada reveló que las tasas de error aumentan muy lentamente a medida que aumenta la cantidad de información codificada a una escala de datos global y más. Esto también sugiere que la cobertura de secuenciación media de 1.308 veces fue considerablemente superior a la necesaria para una descodificación fiable. Esto se confirmó mediante un submuestreo de los pares de lectura de 79,6x3106 para simular experimentos con menor cobertura.

La Figura 5 indica que la reducción de la cobertura en un factor de 10 (o incluso más) habría conducido a características de descodificación inalteradas, lo que ilustra aún más la robustez del método de almacenamiento de ADN. Las aplicaciones del almacenamiento basado en ADN ya podrían ser económicamente viables para los archivos de horizonte largo con una baja expectativa de acceso extenso, tales como el gobierno y los registros históricos. Un ejemplo en un contexto científico es el sistema CASTOR del CERN, que almacena un total de 80 PB de datos de Large Hadron Collider y crece a 15 PB año-1. Solo el 10 % se mantiene en el disco, y CASTOR migra regularmente entre los formatos de cinta magnética. Se necesitan archivos de datos antiguos para la posible verificación futura de acontecimientos, pero las tasas de acceso disminuyen considerablemente 2-3 años después de la recolección. Otros ejemplos se encuentran en la astronomía, medicina y exploración interplanetaria.

La figura 5 muestra la eficiencia de la codificación y los costes cambian a medida que aumenta la cantidad de información almacenada. El eje x (escala logarítmica) representa la cantidad total de información a codificar. Se indican escalas de datos comunes, incluyendo la estimación de datos globales de tres zettabyte (3 ZB, 3x1021 bytes). La escala del eje y a la izquierda indica la eficiencia de codificación, medida como la proporción de bases sintetizadas disponibles para la codificación de datos. La escala del eje y a la derecha indica el efecto correspondiente en los costos de codificación, tanto en los niveles de coste de síntesis actuales (línea continua) como en el caso de una reducción de magnitud de dos órdenes (línea discontinua).

La figura 6 muestra la tasa de error por base recuperada (eje y) en función de la cobertura de secuenciación, representado por el porcentaje de los 79.6x106 pares de lectura originales muestreados (eje x; escala logarítmica). Una curva representa los cuatro archivos recuperados sin intervención humana: el error es cero cuando se utiliza > 2 % de las lecturas originales. Otra curva se obtiene mediante la simulación de Monte Carlo a partir de nuestro modelo teórico de tasa de error. La curva final representa el archivo (watsoncrick.pdf) que requirió corrección manual: la mínima tasa de error posible es 0,0036 %. El área en el recuadro se muestra ampliada en el recuadro.

Además del almacenamiento de datos, las enseñanzas de esta descripción también pueden usarse para la esteganografía.

Referencias

1. Bancroft, C., Bowler, T., Bloom, B. & Clelland, C. T. Long-term storage of information in DNA. Science 293, 1763-1765 (2001)

2. Cox, J. P. L. Long-term data storage in DNA. TRENDS Biotech. 19, 247-250 (2001)

3. Baum, E. B. Building an associative memory vastly larger than the brain. Science 268, 583-585 (1995) 4. Clelland, C. T., Risca, V. & Bancroft, C. Hiding messages in DNA microdots. Nature 399, 533-534 (1999) 5. Kac, E. Genesis (1999) http://www.ekac.org/geninfo.html consultado online, 2 de abril de 2012

6. Wong, P. C., Wong, K.-K. y Foote, H. Organic data memory. Using the DNA approach. Comm. ACM 46, 95-98 (2003)

7. Ailenberg, M. y Rotstein, O. D. An improved Huffman coding method for archiving text, images, and music characters in DⁿA. Biotechniques 47, 747-754 (2009)

8. Gibson, D. G. et al. Creation of a bacterial cell controlled by a chemically synthesized genome. Science 329, 52-56 (2010)

9. MacKay, D. J. C. Information Theory, Inference, and Learning Algorithms. (Cambridge University Press, 2003) 10. Watson, J. D. y Crick, F. H. C. Molecular structure of nucleic acids. Nature 171, 737-738 (1953)

11. Shapiro, B. et al. Rise and fall of the Beringian steppe bison. Science 306, 1561-1565 (2004)

12. Poinar, H. K. et al. Metagenomics to paleogenomics: large-scale sequencing of mammoth DNA. Science 311, 392-394 (2005)

13. Willerslev, E. et al. Ancient biomolecules from deep ice cores reveal a forested southern Greenland. Science 317, 111-114 (2007)

14. Green, R. E. et al. A draft sequence of the Neanderthal genome. Science 328, 710-722 (2010)

15. Anchordoquy, T. J. y Molina, M. C. Preservation of DNA. Cell Preservation Tech. 5, 180-188 (2007)

16. Bonnet, J. et al. Chain and conformation stability of solid-state DNA: implications for room temperature storage. Nucl. Acids Res. 38, 1531-1546 (2010)

17. Lee, S. B., Crouse, C. A. y Kline, M. C. Optimizing storage and handling of DNA extracts. Forensic Sci. Rev.

22, 131-144 (2010)

18. Tsaftaris, S. A. y Katsaggelos, A. K. On designing DNA databases for the storage and retrieval of digital signals. Lecture Notes Comp. Sci. 3611, 1192-1201 (2005)

19. Yamamoto, M., Kashiwamura, S., Ohuchi, A. y Furukawa, M. Large-scale DNA memory based on the nested PCR. Natural Computing 7, 335-346 (2008)

20. Kari, L. y Mahalingam, K. DNA computing: a research snapshot. En Atallah, M. J. y Blanton, M. (eds.) Algorithms and Theory of Computation Handbook, vol. 2. 2a ed. pág. 31-1-31-24 (Chapman & Hall, 2009) 21. Chen, P. M., Lee, E. K., Gibson, G. A., Katz, R. H. y Patterson, D. A. RAID: high-performance, reliable secondary storage. ACM Computing Surveys 26, 145-185 (1994)

22. Le Proust, E. M. et al. Synthesis of high-quality libraries of long (150mer) oligonucleotides by a novel depurination controlled process. Nucl. Acids Res. 38, 2522-2540 (2010)

23. Kosuri, S. et al. A scalable gene synthesis platform using high-fidelity DNA microchips. Nature Biotech. 28, 1295-1299 (2010)

24. Beaucage, S. L. y Caruthers, M. H. Deoxynucleoside phosphoramidites -a new class of key intermediates for deoxypolynucleotide synthesis. Tetrahedron Lett. 22, 1859-1862(1981)

25. Cleary, M. A. et al. Production of complex nucleic acid libraries using highly parallel in situ oligonucleotide synthesis. Nature Methods 1,241-248 (2004)

26. Aird, D. et al. Analysing and minimizing PCR amplification bias in Illumina sequencing libraries. Genome Biol.

12, R18 (2011)

Claims

REIVINDICACIONES

1. Un método para el almacenamiento de un elemento de información (210), que comprende:

- codificar (720) bytes del elemento de información (210) utilizando un código Huffman de base 3;

- representar, utilizando un esquema de representación que no forme homopolímeros, los bytes codificados (720) por al menos un nucleótido de ADN para producir una secuencia de ADN (230);

- dividir (730) la secuencia de ADN (230) en una pluralidad de segmentos de ADN solapantes (240) de una longitud de 100 bases con un solapamiento de al menos 75 bases, en donde la pluralidad de segmentos de ADN solapantes (240) se acumula en una redundancia de almacenamiento de los elementos de información (210); - aumentar (750) la información de indexación (250) a la pluralidad de segmentos de ADN solapantes (240), especificando la información de indexación una ubicación única en la secuencia de ADN (230) de cualquiera de los segmentos de ADN solapantes (240);

- sintetizar (790) la pluralidad de segmentos de ADN solapantes (240) con la información de indexación aumentada para producir segmentos de ADN sintetizados (240), la síntesis incluye añadir adaptadores a los segmentos de ADN (240); y

- almacenar (795) los segmentos de ADN sintetizados (240).

2. El procedimiento de la reivindicación 1, que comprende además añadir una comprobación de paridad a la información de indexación.

3. El procedimiento de las reivindicaciones 1 o 2, que comprende además la complementación inversa (740) de segmentos alternantes de los segmentos de ADN (240).

4. Un procedimiento para descodificar un segmento de ADN (240) sintetizado que comprende:

- secuenciar segmentos de ADN (240) sintetizados por un método de las reivindicaciones 1 a 3;

- identificar la información de indexación (250) y los nucleótidos del mensaje;

- reconstruir el archivo codificado de ADN (230) a partir de la información de indexación 250 y los nucleótidos mensaje;

- convertir el archivo codificado por ADN (230) en un elemento codificado de información (210); y

- reconstruir el elemento de información (210) del elemento codificado de información (210) usando una tabla Huffman de base 3.