KR102138864B1 - Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법 - Google Patents

Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법 Download PDF

Info

Publication number
KR102138864B1
KR102138864B1 KR1020180042269A KR20180042269A KR102138864B1 KR 102138864 B1 KR102138864 B1 KR 102138864B1 KR 1020180042269 A KR1020180042269 A KR 1020180042269A KR 20180042269 A KR20180042269 A KR 20180042269A KR 102138864 B1 KR102138864 B1 KR 102138864B1
Authority
KR
South Korea
Prior art keywords
base
dna
bases
digital data
data storage
Prior art date
Application number
KR1020180042269A
Other languages
English (en)
Other versions
KR20190118853A (ko
Inventor
권성훈
박욱
최영재
류태훈
송석흥
김혜리
김서주
Original Assignee
경희대학교 산학협력단
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단, 서울대학교산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020180042269A priority Critical patent/KR102138864B1/ko
Priority to US16/138,123 priority patent/US10929039B2/en
Publication of KR20190118853A publication Critical patent/KR20190118853A/ko
Application granted granted Critical
Publication of KR102138864B1 publication Critical patent/KR102138864B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H21/00Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
    • C07H21/02Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with ribosyl as saccharide radical
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07HSUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
    • C07H21/00Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
    • C07H21/04Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

DNA 디지털 데이터 저장 방법은 복수의 비트 데이터를 적어도 하나의 디제너레이트 염기를 포함하는 복수의 염기 서열로 인코딩하는 단계, 및 상기 적어도 하나의 디제너레이트 염기를 구성하는 적어도 두 종류의 염기들을 혼합 비율에 기초하여 기판 위에서 합성하는 단계를 포함한다.

Description

DNA 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법{DNA DIGITAL DATA STORAGE DEVICE AND METHOD, AND DECODING METHOD OF DNA DIGITAL DATA STORAGE DEVICE}
본 개시는 DNA 디지털 데이터 저장 장치 및 저장 방법, 그리고 DNA 디지털 데이터의 디코딩 방법에 관한 것이다.
빠른 접근을 위해 모드 데이터를 플래시 메모리에 저장된다고 가정할 때, 2040년에는 디지털데이터 스토리지에 대한 연간 수요가 기하 급수적으로 증가하여 실리콘 공급을 초과할 것으로 예상된다. 디지털데이터의 대량 축적을 위해서, 대체 저장 방법 개발이 필요하다.
DNA의 높은 물리적 정보 밀도와 내구성으로 인해, DNA를 디지털 데이터 저장 매체로 사용하는 것이 정보 저장에 대한 급격히 증가하는 요구를 해결하는 방법으로 부상했다.
그러나 DNA 디지털 데이터 저장 장치가 아직 실제로 구현되고 있지 못하고 있는데, 이는 단위 데이터저장 당 비용이 높기 때문이다.
DNA를 이용한 디지털 데이터 저장 비용을 감소시켜 실제적으로 DNA 디지털 데이터 저장 장치 및 저장 방법, 및 디코딩 방법을 구현하고자 한다.
발명의 한 특징에 따른 DNA 디지털 데이터 저장 방법은, 복수의 비트 데이터를 적어도 하나의 디제너레이트 염기를 포함하는 복수의 염기 서열로 인코딩하는 단계, 및 상기 적어도 하나의 디제너레이트 염기를 구성하는 적어도 두 종류의 염기들을 혼합 비율에 기초하여 기판 위에서 합성하는 단계를 포함한다.
상기 DNA 디지털 데이터 저장 방법은, 상기 복수의 염기 서열 중 단일 종류의 염기를 상기 기판 위에서 합성하는 단계를 더 포함할 수 있다.
상기 적어도 하나의 디제너레이트 염기를 합성하는 단계는, 상기 혼합 비율에 기초한 상기 적어도 두 종류의 염기들을 상기 기판 위에 혼입하는 단계를 포함할 수 있다.
상기 적어도 하나의 디제너레이트 염기를 합성하는 단계는, 외부에서 상기 혼합 비율에 따라 혼합된 상기 적어도 두 종류의 염기들을 상기 기판 위에 혼입하는 단계를 포함할 수 있다.
상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 동일할 수 있다.
상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 다를 수 있다.
상기 적어도 두 종류의 염기들은 DNA 염기, RNA 염기, 및 핵산 유사체(Nucleic acid analogue) 중 적어도 하나일 수 있다.
발명의 다른 특징에 따른 복수의 비트 데이터를 인코딩한 복수의 염기 서열이 저장 기본 단위로 구분되어 저장된 DNA 디지털 데이터 저장 장치는, 상기 복수의 염기 서열 중 상기 저장 기본 단위에 대응하는 제1 염기 서열에 기초하여 복수의 염기들이 합성된 분자들을 포함하고, 상기 제1 염기 서열은 적어도 두 종류의 염기로 구성된 제1 디제너레이트 염기를 포함하며, 상기 분자들은, 상기 적어도 두 종류의 염기 중 제1 염기가 합성된 제1 분자들, 및 상기 적어도 두 종류의 염기 중 제2 염기가 적어도 한 염기 합성된 제2 분자들을 포함할 수 있다.
상기 제1 분자들과 상기 제2 분자들 간의 비율은 혼합 비율에 따를 수 있다. 상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 동일하거나 다를 수 있다.
상기 적어도 두 종류의 염기들은 DNA 염기, RNA 염기, 및 핵산 유사체(Nucleic acid analogue) 중 적어도 하나일 수 있다.
발명의 또 다른 특징에 따른 DNA 데이터의 디코딩 방법은, 복수의 DNA 프래그멘트를 주소에 따라 분류하는 단계, 상기 분류된 복수의 DNA 프래그멘트 각각에 대해 동일한 위치에서의 염기를 분석하는 단계, 상기 분석 결과에 기초하여 염기 비율의 산포도를 산출하는 단계, 상기 염기 비율의 산포도가 적어도 두 염기들의 혼합 비율일 때, 해당 위치의 염기를 디제너레이트 염기로 결정하는 단계, 및 상기 결정된 디제너레이트 염기를 기초로 데이터를 디코딩하는 단계를 포함할 수 있다.
상기 염기를 분석하는 단계는, 상기 복수의 DNA 프래그멘트 각각의 각 위치에 대한 염기 호출이 분석되는 단계를 포함할 수 있다.
상기 DNA 데이터의 디코딩 방법에 있어서, 상기 염기 비율의 산포도가 적어도 두 염기의 제1 혼합 비율일 때, 해당 위치의 염기를 제1 디제너레이트 염기로 결정하고, 상기 염기 비율의 산포도가 상기 적어도 두 염기의 제2 혼합 비율일 때, 해당 위치의 염기를 제2 디제너레이트 염기로 결정하며, 상기 제1 혼합 비율과 상기 제2 혼합 비율이 서로 다르고, 상기 제1 디제너레이트 염기와 상기 제2 디제너레이트 염기가 서로 다르다.
실시 예를 통해, DNA를 이용한 디지털 데이터 저장 비용을 감소시켜 실제적으로 DNA 디지털 데이터 저장 장치 및 저장 방법, 및 디코딩 방법을 구현할 수 있다.
도 1은 실시 예에 따른 DNA 디지털 데이터 저장 장치의 일 예를 나타낸 도면이다.
도 2A-도 2C는 실시 예를 설명하기 위한 제1 실험 예로서, 도 2D의 텍스트 파일을 저장하는데 있어서, 디제너레이트 염기를 추가하여 DNA 길이를 압축하는 DNA 디지털 데이터 저장 방법을 나타낸 도면이다.
도 3A-도 3D는 제1 실험 예에 따른 DNA 디지털 데이터 저장의 구조 및 디코딩 프로세스를 나타낸 도면이다.
도 4는 훈민정음 사본의 섬네일(thumbnail) 이미지이다.
도 5는 제2 실험 예에서 데이터 조각 구조(어댑터없음) 및 오류 수정 체계를 나타낸 도면이다.
도 6A 및 도 6B는 디제너레이트 염기에서 각 염기의 호출 빈도를 나타낸 그래프이다.
도 7A-7C는 실험예 및 시뮬레이션 예들을 통해 실시 예에 따른 플랫폼의 견고성 및 확장성(robustness and scalability )을 보여주는 그래프이다.
도 8은 실시 예에 따른 비용과 종래 비용을 비교한 그래프이다.
이하에서는 첨부한 도면을 참고로 하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명을 상세히 설명한다. 그러나, 본 발명이 본 개시에서 설명된 것에 한정되지 않고 다른 형태로 구체화될 수도 있다.
본 개시는 해당 데이터를 저장하는 데 필요한 DNA의 길이를 압축하기 위해서, adenine(A), cytosine(C), guanine(G), 및 thymine(T) 이외의 추가 문자를 지시하는 디제너레이트 염기(degenerate bases) 또는 혼합 염기(mixed bases) 서열을 이용하여, 데이터를 DNA로 인코딩하는 장치 및 그 방법에 관한 것이다. 그러면, DNA를 이용한 데이터 저장 비용을 감소시켜, DNA를 이용한 디지털 데이터 저장 장치(이하, DNA 디지털 데이터 저장 장치)를 실제적으로 제공할 수 있다.
디지털 데이터 저장 매체로 DNA를 사용하는 것은 두 가지 주요 이점이 있다. DNA 1 그램(gram) 당 페타바이트의 데이터를 저장할 수 있는 높은 물리적 정보 밀도와 에너지 입력 없이 수세기 동안 지속되는 내구성이다.
DNA 디지털 데이터 저장에 대한 이전 연구의 주요 목표는 데이터 오류 또는 손실을 줄이기 위한 데이터 인코딩 알고리즘을 향상시키는 것이다. 예를 들어, 오류를 발생시키는 원인으로 알려진, 높은 GC 함량과 인코딩에서의 긴 호모 폴리머(homo polymer)를 제거하는 알고리즘이 제안되어 왔다. 또한, 디코딩하는 동안 오류를 수정하거나 삭제된 데이터 조각을 복구하기 위해 DNA 디지털 데이터 저장에 대한 다양한 오류 수정 알고리즘이 개발되어 왔다. 이러한 인코딩 알고리즘에 대한 이전의 연구는 거의 모든 데이터 오류 또는 손실을 제거하여 디지털 데이터 저장 매체로서의 DNA의 잠재력을 가속화해 왔다.
이상적인 DNA 디지털 데이터 저장을 향한 다음 단계는 데이터 저장 비용을 줄이는 것이다. 이전 연구에 따르면 DNA 비용이 약 1/100으로 감소해야만, 백업 저장 매체로 DNA를 실용화할 수 있다. 따라서 합성된 뉴클레오티드(nucleotide) 당 저장할 수 있는 데이터의 양(정보 용량, bit/nt)을 늘리고 데이터 저장을 위한 DNA 길이를 압축함으로써 비용을 최소화해야 한다. 그러나 이전의 DNA 디지털 데이터 저장 알고리즘은 비트 인코딩에 네 가지 유형의 문자(A, C, G, T)가 사용되기 때문에, 정보 용량이 2.0 bit/nt으로 제한된다. 이전의 연구가 이론적인 최댓값에 거의 도달했기 때문에 추가 인코딩 문자를 도입하지 않으면 정보 용량이 많이 증가하지 않는다.
실시 예는 4 개의 DNA 염기에 기초한 조합과 관련된 혼합 염기(mixed bases) 또는 디제너레이트 염기(degenerate bases)를, 정보 용량 한계를 초과하는 인코딩을 위한 추가 문자로 사용한다. 실시 예에서, 디제너레이트 염기는 추가 비용 없이 단일 염기 위치에 수많은 변형을 생성 할 수 있다.
실시 예에서, DNA 디지털 데이터 저장 장치의 한 위치에 저장된 염기를 시퀀싱하여, 두 종류 이상의 염기 서열이 리드되는 경우, 그 위치에서의 염기 조합이 디제너레이트 염기로 검출되고, A, C, G, T 이외의 인코딩 문자에 해당되는 것으로 판단된다. 예를 들어, A, C, G, T를 포함한 총 15 개의 인코딩 문자를 사용하면, 정보 용량이 3.37 bit/nt로 향상되고, 종래 기술과 비교하여, 같은 데이터를 저장하는 데 필요한 DNA 길이를 절반으로 압축할 수 있다. 그러면, DNA 디지털 데이터 저장 비용을 절반 이상 줄일 수 있다.
도 1은 실시 예에 따른 DNA 디지털 데이터 저장 장치의 일 예를 나타낸 도면이다.
도 1에 도시된 바와 같이, DNA 디지털 데이터 저장 장치(1)는 복수의 메모리 셀(11)을 포함한다. 도 1에서는, 매트릭스 형태로 복수의 메모리 셀(11)이 배열되어 있는 것으로 도시되어 있으나, 발명이 이에 한정되는 것은 아니다. 메모리 셀은 튜브로 구현될 수 있고, 이 경우, DNA 디지털 데이터 저장 장치(1)는 복수의 튜브를 포함할 수 있으며, 배열 형태는 제한되지 않는다.
복수의 메모리 셀(11) 각각에는 저장 기본 단위인 한 프래그멘트(fragment)에 대응하는 복수의 염기 서열들이 합성되어 형성된 분자들이 저장될 수 있다.
도 2A-도 2C는 실시 예를 설명하기 위한 제1 실험 예로서, 디제너레이트 염기를 추가하여 DNA 길이를 압축하는 DNA 디지털 데이터 저장을 나타낸 도면이다.
도 2B에 도시된 바와 같이, 디지털 데이터를 DNA로 인코딩하기 위해 A, C, G 및 T 외에 11 종류의 디제너레이트 염기를 사용할 수 있다. 그러면, 4 개에서 15 개의 문자를 기반으로한 인코딩 시스템으로의 변환이 이뤄져, 이론적으로 최대 정보 용량이 2(=log24) bit/nt 에서 3.90(=log215) bit/nt로 증가한다. 이진 데이터는 A, C, G, T 및 11 개의 추가 디제너레이트 염기로 구성된 총 15개의 인코딩 문자에 대응하는 DNA 서열(sequence)로 인코딩 될 수 있다.
제1 실험 예에 따라 인코딩된 DNA의 길이는 추가된 인코딩 문자가 있기 때문에 A, C, G, T만 사용하는 기존의 인코딩 방법의 길이보다 줄어든다. 예를 들어, 도 2A에 도시된 바와 같이, 실시 예에서는 40bit가 11nt로 인코딩될 수 있고, 이는 "This work"로 표시되어 있다. 기존 인코딩 방법들에 따라 40bit를 인코딩한 (3)~(9) 경우보다 제1 실험 예에 따른 정보 용량(information capacity)이 대략 2배 정도 높은 것을 알 수 있다.
디제너레이트 염기는 뉴클레오타이드의 혼합 풀(pool)로 구성된 추가 문자를 나타낸다. 인코딩된 서열 중 디제너레이트 부분의 합성 과정 동안, DNA 포스포르아미다이트(phosphoramidites)를 혼합함으로써 혼입될 수 있다. 도 2C에 도시된 바와 같이, 기판(12) 위에서 합성 순서 3'->5'에 따라 염기 'A'가 합성되고, 디제너레이트 염기 'K'를 구성하는 염기 'T'와 'G' 각각이 혼합 비율에 기초하여 합성되며, 염기 'C'가 합성되고, 디제너레이트 염기 'D'를 구성하는 'A', 'G', 'T' 각각이 혼합 비율에 기초하여 합성된다. 도 2B에서는 기판(12)에 디제너레이트 염기를 구성하는 염기들을 혼합 비율에 기초하여 혼입한다. 그러나, 발명이 이에 한정되는 것은 아니고, 다른 장치에서 디제너레이트 염기를 구성하는 염기들을 혼합 비율에 따라 혼합한 후, 혼합된 염기들을 기판(12)에 혼입할 수 있다.
도 2C에서는 기판(12) 위의 한 컬럼(13)에서 저장 기본 단위인 한 프레그멘트에 대응하는 복수의 염기 서열들이 합성된 결과가 도시되어 있다(컬럼 방식). 그러나 복수의 염기 서열들이 합성되는 방식이 이에 한정되는 것은 아니고 잉크젯 방식에 따라 유리 기판 위에서 합성이 이뤄질 수 있다(잉크젯 방식). 컬럼 기반(column-based) 및 잉크젯 기반(inkjet-based) 올리고뉴클레오티드 합성(oligonucleotide synthesis)에 있어서, 사용된 포스포르아미다이트의 총량이 동일하기 때문에, 디제너레이트 염기는 추가 비용 없이 인코딩될 수 있다. 따라서 실시 예에서는, 동일한 양의 데이터를 저장할 때, 동일한 단위 합성 비용으로 종래의 DNA의 길이에 비해 DNA의 길이를 약 절반으로 압축할 수 있어, 데이터 저장 비용을 줄일 수 있다.
제1 실험 예에서는, 도 2D에 도시된 854 바이트의 텍스트 파일을 DNA 서열로 인코딩한다.
도 2D는 제1 실험 예를 위한 텍스트 파일의 일 예이다.
데이터는 일련의 DNA 코돈(codon)으로 변형되고, 코돈은 15 개의 문자 중 3 개의 문자로 구성될 수 있다. 4 염기 이상의 호모 폴리머를 피하기 위해 코돈의 마지막 위치 서열과 코돈의 프론트 서열은 동일하지 않도록 한다.
아래 표 1은 15 개의 문자 중 3 개의 문자로 구성된 코돈을 나타내고 있다.
[표 1]
Figure 112018036114367-pat00001
Figure 112018036114367-pat00002
Figure 112018036114367-pat00003
Figure 112018036114367-pat00004
Figure 112018036114367-pat00005
Figure 112018036114367-pat00006
Figure 112018036114367-pat00007
도 3A-도 3D는 제1 실험 예에 따른 DNA 디지털 데이터 저장의 구조 및 디코딩 프로세스를 나타낸 도면이다.
도 3A는 DNA 프래그멘트(fragment)의 디자인 구조이고, 도 3B는 DNA 프래그멘트가 NGS(Next Generation Sequencing)에 의해 분석되는 것을 나타내고 있다. 주소에 따라 분류를 한 후에, DNA 디지털 데이터 장치의 각 컬럼에서 동일한 위치에서의 DNA 염기에 기초한 문자 분배가 분석되고, 그 결정에 따라 디제너레이트 염기가 디코딩될 수 있다. 예를 들어, 도 3C에 도시된 바와 같이, 동일한 위치에서의 염기를 분석하고, 분석한 결과에 기초하여 염기 비율의 산포도(scatter plot)를 산출하며, 염기 비율의 산포도에 따라 디제너레이트 염기가 결정될 수 있다. 도 3D에서, 전체 프레그멘트에 대한 특정 평균 적용 범위에서 결정된 DNA 염기의 에러율이 도시되어 있다. 도 3D의 그래프에서, 표준 편차(s.d.)는 무작위 샘플링을 5 번 반복함으로써 얻어졌고, 오차 막대는 s.d.를 나타낸다.
도 3A에 도시된 바와 같이, 부호화된 정보는 42nt의 단편으로 분할되고, 길이 3nt의 염기로 구성된 주소가 할당된다. 주소를 나타내는 3nt의 염기는 디제너레이트 염기를 포함하지 않고, 그 예는 아래 표 2과 같다.
[표 2]
Figure 112018036114367-pat00008
각 프래그멘트는 증폭 및 시퀀싱을 위해 2 개의 어댑터 (5 '및 3'말단 각각 에 20nt)로 보충되며, 전체 단편의 길이는 85nt이다. 제1 실험 예에서, 45 개의 DNA 프래그멘트가 컬럼-기초 올리고뉴클레오티드 합성기(column-based oligonucleotide synthesizer)에 의해 합성되었다. 어댑터를 제외한 전체 뉴클레오티드 합성에서 인코딩된 비트의 수를 고려하면, 3.37bit/nt의 정보 용량이 제1 실험 예에서 제공될 수 있다. 평균 800 분자로 구성된 합성 DNA 라이브러리는 설계된 어댑터에 의해 증폭되고 "Illumina MiniSeq"에 의해 시퀀싱될 수 있다.
원 NGS 데이터는 설계된 길이로 필터링되고 주소별로 분류된다. 도 3B에 도시된 바와 같이, 분류된 다음 복제된 리드(read)가 제거되고 프레그멘트의 각 위치에 대한 염기 호출(call)이 분석된다. 분석되는 뉴클레오타이드의 중간 비율은 합성 동안의 커플링 효율이 성장하는 올리고뉴클레오타이드의 유형 및 위치에 따라 각각의 염기마다 변하기 때문에 일관되게 동일하지는 않다.
그러나, 동일한 위치에서 분석한 서열에서 A:C:G:T의 비율을 산포도로 관찰 할 때, 도 3C에 도시된 바와 같이, 전체 분포는 15 개의 클러스터로 나누어지고, 그 중 2 개 이상의 염기들이 혼합 비율에 따라 구성된 11 개의 클러스터가 디제너레이트 염기로 간주된다. 특정 뉴클레오타이드의 지배적인 비율을 갖는 나머지 4 클러스터는 순수한 염기 서열로 간주된다. 이와 같이, 제1 실험 예에서, 원 NGS 데이터에서 원 데이터를 성공적으로 복구할 수 있다.
도 3D에서는, 평균 10 회 무작위로 평균 250x 커버리지(coverage)로 다운 샘플링 한 10 건에서, 데이터를 복구할 수 있는 점을 볼 수 있다. 1x 커버리지는 설계된 모든 DNA에 대해서 NGS로 DNA의 종류를 검출하여 데이터를 읽는 것을 의미한다. 원 NGS 데이터(예를 들어, 3600x 커버리지)에서 250x 커버리지를 랜덤하게 다운 샘플링하여 인코딩된 원 데이터와 비교한 결과 오차가 없었고, 이 다운 샘플링을 10번 반복한 다운 샘플링 한 10건 모두에서 오차가 발생하지 않았다. 정보평균 NGS 커버리지가 250x보다 낮으면 인코딩 문자들의 클러스터들 간의 교차점이 증가하기 때문에 에러율이 증가할 수 있다.
도 4는 훈민정음 사본의 섬네일(thumbnail) 이미지이다.
실시 예에 따른 DNA 디지털 데이터 저장 플랫폼의 확장성을 보여주기 위해 제2 실험 예에서는, 풀링된 올리고뉴클레오타이드 합성(pooled oligonucleotide synthesis) 방법을 사용하여 4503 개의 DNA 프래그멘트에 훈민정음 사본의 섬네일 이미지 데이터인 135.4Kbytes를 저장하였다.
도 5는 제2 실험 예에서 데이터 조각 구조(어댑터없음) 및 오류 수정 체계를 나타낸 도면이다.
도 5에 도시된 바와 같이, 높은 복잡성으로 올리고뉴클레오타이드 풀을 합성 및 증폭할 때 발생할 수 있는 오차와 증폭 바이어스에 대처하기 위해 Reed-Solomon 기반 중복(Reed-Solomon based redundancy)을 추가했다.
도 5에서 도시된 실시 예에서는 디제너레이트 염기 'W'와 'S'를 추가하여, 데이터를 인코딩하였다. 표 3은 디제너레이트 염기 W 및 S를 포함한 코돈(codon) 테이블이다.
[표 3]
Figure 112018036114367-pat00009
도 5에 도시된 바와 같아, 인코딩된 데이터 111nt는 표 3의 코돈에 기초하여 37bit의 디지털 데이터로 디코딩된다. 예를 들어, 디코딩된 원정보(original information)가 에러를 가지고 있을 때, 중복(RS)에 기초하여 에러가 수정되어, 원정보가 에러 없이 복구될 수 있다.
제2 실험 예에서도, 제1 실험 예와 동일하게, 원 NGS 데이터에서 250x 커버리지를 랜덤하게 다운 샘플링한 결과를 10번 반복하였다. 그 결과 평균 250x 커버리지(average coverage to 250x)에서 원 데이터를 오차 없이 복구하여, 정보 용량 2.0 bit/nt이 달성되었다.
제1 및 제2 실험 예에서의 플랫폼은 순 정보 용량, 입력 데이터, 올리고 (oligo) 수, 최소 커버리지 및 물리적 밀도 측면에서 Erlich and Zielinski에 의한 플랫폼과 더 자세히 분석되고 비교될 수 있다.
표 4는 제1 및 제2 실험 예와 Erlich and Zielinski간의 순 정보 용량(Net Information capacity (bi/nt), 입력 데이터의 사이즈(Input data), 완전 복구(Full recovery) 여부, 올리고 수(Number of oligos), 최소 NGS 커버리지(평균)(Minimum NGS coverage (average)) 및 물리적 밀도(Physical density (Pbytes/g)) 측면을 비교한 표이다.
[표 4]
Figure 112018036114367-pat00010
단일 디자인 프래그멘트에서 다수의 올리고뉴클레오타이드 변이체를 합성하였지만, 제1 및 제2 실험 예 각각에서의 데이터 복구에 필요한 디자인 당 올리고뉴클레오타이드 분자 수는 438개 및 800개이다. 이는 종래 Erlich and Zielinski에서 데이터 해독에 올리고뉴클레오타이드 분자 1300개가 사용된 것과 비교해 개선된 점 중 하나이다.
또한, 제1 및 제2 실험에서 입증된 순 정보 용량과 물리적 밀도 역시 종래 Erlich and Zielinski에 비해서 개선된 것을 알 수 있다. 순정보 용량은 뉴클레오타이드(nt) 당 저장 가능한 비트(bit) 수로 정의되고, 물리적 밀도는 데이터를 복구하기 위해서 필요한 동일 분자수를 실험적으로 산출하고, 산출된 분자수에 기초해서 단위 무게(g) 당 저장할 수 있는 데이터의 크기(Pbyte)를 나타낸다.
이와 같이, 제1 및 제2 실험에 기초한 데이터에 근거하여 다양한 유형의 디제너레이트 염기가 대규모로 사용되었을 때 데이터 복구의 가능성을 시뮬레이션했다.
도 6A 및 도 6B는 디제너레이트 염기에서 각 염기의 호출 빈도를 나타낸 그래프이다.
디제너레이트 염기 W를 인코딩하기 위해서 염기 A 및 T를 동일한 비율로 혼합하여도, 디코딩에서 호출되는 비율은 동일하지 않다. 도 6A에 도시된 바와 같이, 50개의 디제너레이트 염기 W에 대해서 염기 A의 호출 비율은 0.34145이고, 염기 T의 호출 비율은 0.64461이며, 염기 A 및 T 각각의 호출 빈도가 이항 분포를 따른다.
마찬가지로, 디네너레이트 염기 S를 인코딩하기 위해서 염기 C 및 G를 동일한 비율로 혼합하여도, 디코딩에서 호출되는 비율은 동일하지 않다. 도 6B에 도시된 바와 같이, 50개의 디제너레이트 염기 S에 대해서 염기 C의 호출 비율은 0.46355이고, 염기 G의 호출 비율은 0.51541이며, 염기 C 및 G 각각의 호출 빈도가 이항 분포를 따른다.
각 디제너레이트 염기가 포함하는 염기 각각의 호출 빈도도 이항 분포를 따르기 때문에, 실시 예에 따른 플랫폼은 몬테카를로(Monte-Carlo) 시뮬레이션을 통해 모델링될 수 있다. 몬테카를로 시뮬레이션은, 확률적 분포가 산출되었을 때, 전산적으로 산출된 확률적 분포를 변수 생성하여 확인하는 일반적인 모델링 기법이다.
몬테카를로 시뮬레이션을 통해 모델링되는 과정은, 특정 확률분포(이항분포)에 빈도가 따르는 것에 기반하여, 1) 디제너레이트 염기를 포함하여 인코딩된 랜덤 데이터를 생성, 2) 랜덤 데이터에 대한 염기 호출분포를 이항분포에 기반하여 생성, 3) 생성된 염기 호출분포와 실제 염기 호출분포 간의 에러율 생성(또는, 데이터 복구가 가능한지 확인)의 동작 1-3을 반복하는 것을 포함할 수 있다.
도 7A-7C는 실험예 및 시뮬레이션 예들을 통해 실시 예에 따른 플랫폼의 견고성 및 확장성(robustness and scalability )을 보여주는 그래프이다.
도 7A는 프래그멘트의 리드(read) 커버리지에 따라 염기쌍 당 에러율을 나타낸 그래프이다. 도 7A의 그래프는 무작위로 그리고 일률적으로 리드들이 생성된 결과에 기초하거나, 실험 데이터에 대해서 샘플링 된 것을 기초로할 수 있다.
도 7A에서, 프레그멘트 당 커버리지 수에 따라 염기 당 에러율이 도시되어 있다. 이 때, 에러율은 염기들의 에러율들을 평균하여 산출될 수 있다. 도 7A에 도시된 바와 같이, 프레그멘트 당 커버리지의 수가 증가할수록 염기 당 에러율이 감소하는 것을 실험 예와 시뮬레이션 예들에서 알 수 있다.
2개의 디제너리에트 염기 W 및 S를 포함하는 실험 예의 결과와 2개의 디제너리에트 염기 W 및 S를 포함하는 시뮬레이션의 결과가 유사한 패턴을 보이고 있다. 이에, 디제너레이트 염기들(R, Y, M, K, S, W, H, B, V, D, N)을 포함하는 15개의 문자로 인코딩한 데이터에 대한 시뮬레이션 결과에 기초하면, 그 실험 예도 유사한 결과가 도출될 수 있음을 예측할 수 있다.
또한, 12개의 디제너레이트 염기들과 4 개의 디제너레이트 염기들(H, B, V, D, N)을 포함하는 21개의 문자로 인코딩한 데이터에 대한 시뮬레이션 결과에 기초하면, 그 실험 예도 유사한 결과가 도출될 수 있음을 예측할 수 있다. 12개의 디제너레이트 염기들 각각은 혼합 염기들의 혼합비를 다르게 하여 생성될 수 있다. 예를 들어, 디제너레이트 염기들(R, Y, M, K, S, W) 각각은 염기들의 혼합비가 3:7인 디제너레이트 염기와 혼합비가 7:3인 디제너레이트 염기를 포함할 수 있다. 구체적으로, A:T = 3:7의 경우 W1을 지정하고, A:T = 7:3의 경우 W2를 지정할 수 있다.
도 7B는 실험을 통해 PCR 바이어스에 의해 프레그멘트가 호출되는 빈도를 나타낸 그래프이다. 도 7B에 도시된 바와 같이, 프레그멘트의 호출 빈도는 고르지 않은 프로파일(profile)을 나타낸다. 도 7B에서, NGS 커버리지 횟수에 따라 리드되는 프레그멘트의 호출 빈도가 나타나 있다. 예를 들어, NGS 커버리지 횟수가 100x, 500x, 및 1000x일 때의 프래그멘트의 호출 빈도 분포가 도시되어 있다. 즉, NGS 커버리지가 시행될 때마다, 모든 프레그멘트가 리드되지 않고, 리드되지 않는 프래그멘트가 발생한다. 또한, NGS 커버리지 횟수가 증가하여도 프래그멘트의 호출 빈도 분포가 개선되는 것은 아니다. 도 7B에서 적색 라인은 음 이항 적합(negative binomial fit)을 나타내고 있다.
도 7C는 프레그멘트가 호출되는 빈도가 고르지 않은 것을 적용할 때, 전체 프래그멘트에 대한 NGS 커버리지 횟수에 따른 염기쌍 당 에러율을 나타내고 있다. 도 7C의 그래프에서, 실험 결과의 표준 편차(s.d.)는 무작위 샘플링을 5 번 반복함으로써 얻어졌고, 오차 막대는 s.d. 를 나타낸다.
도 7A에 도시된 프래그멘트의 커버리지 당 염기 에러율에 도 7B에 도시된 프래크멘트의 커버리지에 따른 호출 빈도를 적용하여 도 7C에 도시된 전체 프래그멘트에 대한 NGS 커버리지 횟수에 따른 염기당 에러율을 시뮬레이션 할 수 있다.
다양한 유형의 디제너레이트 염기를 사용하면 에러율이 증가하지만 에러율은 NGS 커버리지를 증가함에 따라 감소한다. 시뮬레이션에서 1300x 이상의 NGS 커버리지가 주어지면, 10% Reed-Solomon redundancy를 가지는 100 메가 바이트의 정보를 완벽하게 디코딩 할 수 있다.
본 시뮬레이션에서, 디제너레이트 염기를 이용하여 이전에 보고된 DNA 디지털 데이터 저장 시스템의 순 정보 용량과 물리적 밀도를 실험적으로 두 배로 늘릴 수 있는 점을 알 수 있다. 또한, 시뮬레이션을 통해 플랫폼의 확장성을 보여주었다. 도입된 플랫폼이 많은 양의 NGS를 필요로 하지만, 시퀀싱기술은 진화 속도가 더 빠르며 현재의 DNA 시퀀싱 가격은 DNA 디지털데이터 스토리지에 사용되는 염기 당 합성 가격보다 약 50,000 배 더 낮다. 이로부터, 실시 예에 따른 플랫폼이 2000x의 NGS 커버리지를 사용한다고 해도, 시퀀싱 비용은 합성 비용의 4%에 불과하다. 실시 예는 이전 보고서(Erlich and Zielinski)의 정보 용량보다 두 배 이상 높은 DNA 디지털 데이터 저장 장치의 정보 용량을 제공할 수 있다.
도 8은 실시 예에 따른 비용과 종래 비용을 비교한 그래프이다.
도 8에서, 인코딩 문자가 4개인 경우의 비용은 Erlich and Zielinski 의 셋업을 기준으로 산출하였고, 실시 예에 따른 인코딩 문자가 15개 및 20개인 경우의 비용은 Erlich and Zielinski의 셋업 길이에 맞추어, 프래그멘트의 길이가 200nt이고, 어드레스의 길이는 12nt이며, 아답터(adapter)가 양단에 20nt으로 붙어있으며, 10%의 reed-solomon error correction 을 넣어주는 것으로 디자인할 때의 비용이다.
도 8에 도시된 바와 같이, DNA 시퀀싱가격이 종래에 비해 증가하더라도, 풀-베이스(pool-based) 올리고뉴클레오타이드 합성기가 디제너레이트 염기 합성할 때, DNA 디지털 데이터 저장 비용을 절반 이상 줄일 수 있는 효과를 제공할 수 있다.
실시예는 디제너레이트 염기를 이용하여 이전에 보고된 DNA 기반 데이터 저장 시스템의 순정보 용량과 물리적 밀도를 실험적으로 두 배로 늘릴 수 있음을 보여준다. 또한, 시뮬레이션을 통해 실시예에 기초한 플랫폼의 확장성과 비용 경쟁력을 입증했다. 실시 예는 모든 디제너레이트 염기를 사용할 수 있는 컬럼 기반 올리고 뉴클레오티드 풀 합성 설정(column-based oligonucleotide pool synthesis setup)에 이용될 수 있다. 합성 설정은 뉴클레오타이드 조합의 낮은 편차로 뉴클레오티드의 비율을 정확하게 조절해야 한다. 그런 다음 대규모 실험에서 플랫폼을 최적화하여, 시뮬레이션에서 제안된 비-등가 비 (non-equivalent ratios)를 이용한 변조된 디제너레이트 염기를 사용할 수 있다.
또한, 합성 염기에 대한 합성 및 시퀀싱 방법이 개발되면, 변조된 디제너레이트 염기들은 다른 유형의 추가 인코딩문자로 사용될 수 있다. 제1 및 제2 실험 예에서는 디제너레이트 염기가 DNA 염기(A, T, G, C) 중 적어도 두 개의 염기의 혼합으로 구성되었으나, 발명이 이에 한정되는 것은 아니다. 예를 들어, DNA 이외의 RNA 염기나, PNA, XNA, ZNA 등을 포함하는 핵산 유사체(Nucleic acid analogue, https://en.wikipedia.org/wiki/Nucleic_acid_analogue)들은 화학적 합성법이 알려져 있고, 현재 기존에 알려져 있는 효소(Enzyme)나 이의 변형물로 증폭이 가능하다고 알려져 있다. 따라서, 이들에 대한 시퀀싱 방법의 개발에 따라, 다른 유형의 인코딩 문자에 대응하는 디제너레이트 염기로 사용 될 수 있다.
국제 공개 특허 문헌 WO 2017/011492 A1 에서는, DNA 이외의 RNA, 그리고 Z, P, dNaM, dSSIC, isoC, isoG, Ds, Px, PNA(Peptide nucleic acid), XNA(Xeno nucleic acid), ZNA(Zip nucleic acid) 등을 포함하는 Nucleic acid analogue 들이 화학적 합성 및 중합효소(polymerase)를 이용한 증폭이 가능한 점이 개시되어 있다. Nucleic acid analogue 는 DNA, RNA와 구조가 유사하지만 backbone이 phosphate backbone이 아니거나 base의 구조가 A, G, T, C, U와 상이한 생화학 물질을 뜻한다.
실시 예에 따른 디제너레이트 염기는 DNA, RNA, 및 핵산 유사체 중 적어도 두 종류가 혼합된 것으로 정의될 수 있고, 해당 디제너레트 염기에 대응하는 인코딩 문자는 데이터 저장에 이용 될 수 있다. 아래는 DNA 염기, RNA 염기, 및 핵산 유사체들 각각의 분자 구조와 염기 페어링(base paring) 분자 구조이다.
Figure 112018036114367-pat00011
Figure 112018036114367-pat00012
Figure 112018036114367-pat00013
Figure 112018036114367-pat00014
Figure 112018036114367-pat00015
이상에서 본 개시에서 설명된 것에 의해 본 발명의 권리범위가 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
1: DNA 디지털 데이터 저장 장치
11: 메모리 셀

Claims (15)

  1. 적어도 하나의 디제너레이트 염기를 포함하는 복수의 염기 서열로 인코딩된 복수의 비트 데이터를 저장하는 방법에 있어서,
    상기 적어도 하나의 디제너레이트 염기를 구성하는 적어도 두 종류의 염기들이 혼합 비율에 기초하여 기판 위에서 합성되는 단계를 포함하는 DNA 디지털 데이터 저장 방법.
  2. 제1항에 있어서,
    상기 복수의 염기 서열 중 단일 종류의 염기가 상기 기판 위에서 합성되는 단계를 더 포함하는 DNA 디지털 데이터 저장 방법.
  3. 제1항에 있어서,
    상기 적어도 하나의 디제너레이트 염기가 합성되는 단계는,
    상기 혼합 비율에 기초한 상기 적어도 두 종류의 염기들이 상기 기판 위에 혼입되는 단계를 포함하는 DNA 디지털 데이터 저장 방법.
  4. 제1항에 있어서,
    상기 적어도 하나의 디제너레이트 염기가 합성되는 단계는,
    외부에서 상기 혼합 비율에 따라 혼합된 상기 적어도 두 종류의 염기들이 상기 기판 위에 혼입되는 단계를 포함하는 DNA 디지털 데이터 저장 방법.
  5. 제1항에 있어서,
    상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 동일한 DNA 디지털 데이터 저장 방법.
  6. 제1항에 있어서,
    상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 다른 DNA 디지털 데이터 저장 방법.
  7. 제1항에 있어서,
    상기 적어도 두 종류의 염기들은 DNA 염기, RNA 염기, 및 핵산 유사체(Nucleic acid analogue) 중 적어도 하나인 DNA 디지털 데이터 저장 방법.
  8. 복수의 비트 데이터를 인코딩한 복수의 염기 서열이 저장 기본 단위로 구분되어 저장된 DNA 디지털 데이터 저장 장치에 있어서,
    상기 복수의 염기 서열 중 상기 저장 기본 단위에 대응하는 제1 염기 서열에 기초하여 복수의 염기들이 합성된 분자들을 포함하고,
    상기 제1 염기 서열은 적어도 두 종류의 염기로 구성된 제1 디제너레이트 염기를 포함하며,
    상기 분자들은,
    상기 적어도 두 종류의 염기 중 제1 염기가 합성된 제1 분자들, 및
    상기 적어도 두 종류의 염기 중 제2 염기가 합성된 제2 분자들을 포함하는 DNA 디지털 데이터 저장 장치.
  9. 제8항에 있어서,
    상기 제1 분자들과 상기 제2 분자들 간의 비율은 혼합 비율에 따르는 DNA 디지털 데이터 저장 장치.
  10. 제9항에 있어서,
    상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 동일한 DNA 디지털 데이터 저장 장치.
  11. 제9항에 있어서,
    상기 혼합 비율에서, 상기 적어도 두 종류의 염기들 간의 비율이 다른 DNA 디지털 데이터 저장 장치.
  12. 제8항에 있어서,
    상기 적어도 두 종류의 염기들은 DNA 염기, RNA 염기, 및 핵산 유사체(Nucleic acid analogue) 중 적어도 하나인 DNA 디지털 데이터 저장 장치.
  13. 시퀀싱 장비에 의해 수행되는 적어도 하나의 단계를 포함하는 DNA 데이터의 디코딩 방법에 있어서,
    복수의 DNA 프래그멘트를 주소에 따라 분류하는 단계;
    상기 분류된 복수의 DNA 프래그멘트 각각에 대해 동일한 위치에서의 염기를 분석하는 단계;
    상기 분석 결과에 기초하여 염기 비율의 산포도를 산출하는 단계;
    상기 염기 비율의 산포도가 적어도 두 염기들의 혼합 비율일 때, 해당 위치의 염기를 디제너레이트 염기로 결정하는 단계; 및
    상기 결정된 디제너레이트 염기를기초로 데이터를 디코딩하는 단계를 포함하는 DNA 데이터의 디코딩 방법.
  14. 제13항에 있어서,
    상기 염기를 분석하는 단계는,
    상기 복수의 DNA 프래그멘트 각각의 각 위치에 대한 염기 호출이 분석되는 단계를 포함하는 DNA 데이터의 디코딩 방법.
  15. 제13항에 있어서,
    상기 염기 비율의 산포도가 적어도 두 염기의 제1 혼합 비율일 때, 해당 위치의 염기를 제1 디제너레이트 염기로 결정하고,
    상기 염기 비율의 산포도가 상기 적어도 두 염기의 제2 혼합 비율일 때, 해당 위치의 염기를 제2 디제너레이트 염기로 결정하며,
    상기 제1 혼합 비율과 상기 제2 혼합 비율이 서로 다르고, 상기 제1 디제너레이트 염기와 상기 제2 디제너레이트 염기가 서로 다른 DNA 데이터의 디코딩 방법.
KR1020180042269A 2018-04-11 2018-04-11 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법 KR102138864B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180042269A KR102138864B1 (ko) 2018-04-11 2018-04-11 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
US16/138,123 US10929039B2 (en) 2018-04-11 2018-09-21 DNA digital data storage device and method, and decoding method of DNA digital data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180042269A KR102138864B1 (ko) 2018-04-11 2018-04-11 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법

Publications (2)

Publication Number Publication Date
KR20190118853A KR20190118853A (ko) 2019-10-21
KR102138864B1 true KR102138864B1 (ko) 2020-07-28

Family

ID=68160274

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180042269A KR102138864B1 (ko) 2018-04-11 2018-04-11 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법

Country Status (2)

Country Link
US (1) US10929039B2 (ko)
KR (1) KR102138864B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220048831A (ko) * 2020-10-13 2022-04-20 서울대학교산학협력단 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102534408B1 (ko) 2016-11-16 2023-05-18 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터 저장
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
EP3766077A4 (en) 2018-03-16 2021-12-08 Catalog Technologies, Inc. CHEMICAL PROCESSES FOR DATA STORAGE BASED ON NUCLEIC ACIDS
KR20210029147A (ko) 2018-05-16 2021-03-15 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 조성물 및 방법
US11017170B2 (en) * 2018-09-27 2021-05-25 At&T Intellectual Property I, L.P. Encoding and storing text using DNA sequences
KR20220017409A (ko) 2019-05-09 2022-02-11 카탈로그 테크놀로지스, 인크. Dna 기반 데이터 저장소에서 검색, 컴퓨팅 및 인덱싱하기 위한 데이터 구조 및 동작
KR20220080172A (ko) 2019-10-11 2022-06-14 카탈로그 테크놀로지스, 인크. 핵산 보안 및 인증
AU2021271639A1 (en) 2020-05-11 2022-12-08 Catalog Technologies, Inc. Programs and functions in DNA-based data storage
CN112619614B (zh) * 2020-12-03 2022-11-04 云南中烟工业有限责任公司 一种羟基磷灰石复合多孔材料、其制备方法及用途
WO2022120626A1 (zh) * 2020-12-09 2022-06-16 中国科学院深圳先进技术研究院 基于dna的数据存储方法、数据恢复方法、装置及终端设备
KR20230015713A (ko) 2021-07-23 2023-01-31 울산과학기술원 유전체 정보의 암호화 및 복호화 방법
WO2024076044A1 (ko) * 2022-10-06 2024-04-11 이근우 Dna 인코딩 및 디코딩 방법 및 장치

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050053968A1 (en) * 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
US8116988B2 (en) * 2006-05-19 2012-02-14 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US8806127B2 (en) * 2009-10-26 2014-08-12 Genisyss Llc Data storage device with integrated DNA storage media
ES2683707T3 (es) * 2012-05-02 2018-09-27 Ibis Biosciences, Inc. Secuenciación de ADN
KR20150016572A (ko) * 2012-06-01 2015-02-12 유럽피안 몰레큘러 바이올로지 래보러토리 Dna 디지털 정보의 고-용량 저장
CN108875312A (zh) * 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
WO2016059610A1 (en) 2014-10-18 2016-04-21 Malik Girik A biomolecule based data storage system
US20170338943A1 (en) 2014-10-29 2017-11-23 Massachusetts Institute Of Technology Dna encryption technologies
US11789906B2 (en) 2014-11-19 2023-10-17 Arc Bio, Llc Systems and methods for genomic manipulations and analysis
EP3322812B1 (en) 2015-07-13 2022-05-18 President and Fellows of Harvard College Methods for retrievable information storage using nucleic acids
LU92881B1 (en) 2015-11-18 2017-06-21 Technische Univ Hamburg Harburg Methods for encoding and decoding a binary string and System therefore
KR101953663B1 (ko) * 2016-03-04 2019-03-04 연세대학교 산학협력단 하나의 올리고뉴클레오티드를 이용해서 올리고뉴클레오티드 풀을 생산하는 방법
WO2018102064A1 (en) * 2016-11-30 2018-06-07 Microsoft Technology Licensing, Llc. Dna random access storage system via ligation
WO2018132457A1 (en) * 2017-01-10 2018-07-19 Roswell Biotechnologies, Inc. Methods and systems for dna data storage
US10689684B2 (en) * 2017-02-14 2020-06-23 Microsoft Technology Licensing, Llc Modifications to polynucleotides for sequencing
US11845982B2 (en) * 2017-12-27 2023-12-19 Anjali CHAKRADHAR Key-value store that harnesses live micro-organisms to store and retrieve digital information
US11106633B2 (en) * 2018-04-24 2021-08-31 EMC IP Holding Company, LLC DNA-based data center with deduplication capability

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A.D. Johnson, "An extended IUPAC nomenclature code for polymorphic nucleic acids", Bioinformatics Advanced Access, 2010.03.03.
B. Hwang 외, "Toward a new paradigm of DNA writing (후략)", Science Reports 6:37176, 2016.11.23.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220048831A (ko) * 2020-10-13 2022-04-20 서울대학교산학협력단 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치
WO2022080863A1 (ko) * 2020-10-13 2022-04-21 서울대학교 산학협력단 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치
KR102418617B1 (ko) 2020-10-13 2022-07-07 서울대학교산학협력단 염기 비율과 연속적 발생을 제한하는 dna 저장 부호화 방법, 프로그램 및 장치

Also Published As

Publication number Publication date
US10929039B2 (en) 2021-02-23
KR20190118853A (ko) 2019-10-21
US20190317684A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
KR102138864B1 (ko) Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
US11892945B2 (en) High-capacity storage of digital information in DNA
CN110945595B (zh) 基于dna的数据存储和检索
Yazdi et al. DNA-based storage: Trends and methods
Ping et al. Carbon-based archiving: current progress and future prospects of DNA-based data storage
US11177019B2 (en) Method for biologically storing and restoring data
US10742233B2 (en) Efficient encoding of data for storage in polymers such as DNA
US20170134045A1 (en) Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
Song et al. Robust data storage in DNA by de Bruijn graph-based decoding
Wang et al. Oligo design with single primer binding site for high capacity DNA-based data storage
US20070113137A1 (en) Error Correction in Binary-encoded DNA Using Linear Feedback Shift Registers
WO2019204702A1 (en) Error-correcting dna barcodes
KR102236439B1 (ko) 디지털 정보를 dna 분자에 저장하는 방법 및 그 장치
Halperin et al. Handling long targets and errors in sequencing by hybridization
Milenkovic et al. DNA-Based Data Storage Systems: A Review of Implementations and Code Constructions
최영재 High Information Capacity and Low Cost DNA-based Data Storage through Additional Encoding Characters
TWI770247B (zh) 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
Wang et al. DNA Digital Data Storage based on Distributed Method
Rescheneder Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Mousavi Methods for studying the genome-wide landscape of tandem repeats
Hwang Viability of Synthetic Nucleotides in Digital Storage

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant