CN114023374A - Dna信道仿真与编码优化方法及装置 - Google Patents

Dna信道仿真与编码优化方法及装置 Download PDF

Info

Publication number
CN114023374A
CN114023374A CN202111307148.6A CN202111307148A CN114023374A CN 114023374 A CN114023374 A CN 114023374A CN 202111307148 A CN202111307148 A CN 202111307148A CN 114023374 A CN114023374 A CN 114023374A
Authority
CN
China
Prior art keywords
simulation
channel
coding
sequencing result
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111307148.6A
Other languages
English (en)
Inventor
汪小我
袁乐康
王也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202111307148.6A priority Critical patent/CN114023374A/zh
Publication of CN114023374A publication Critical patent/CN114023374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及信息存储技术领域,特别涉及一种DNA信道仿真与编码优化方法及装置,其中,方法包括:基于给定的储存环节和参数,建立针对储存条件的信道仿真模型;将编码后的DNA序列输入信道仿真模型,得到仿真测序结果,并由仿真测序结果确定解码情况;由仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用编码优化数据优化信道编码设计和信道参数设计。本申请实施例允许用户快速搭建DNA信道模型,以极低的实验成本验证特定编码方案的可行性,并通过***性调整方法获取针对特定信道的最优冗余设计,有助减少解码失败、储存空间浪费等问题发生的可能性。

Description

DNA信道仿真与编码优化方法及装置
技术领域
本申请涉及信息存储技术领域,特别涉及一种DNA(Deoxyribo Nucleic Acid,脱氧核糖核苷酸)信道仿真与编码优化方法及装置。
背景技术
在数据***的时代下,传统的信息储存方式难以满足快速增长的数据储存需求:地球上每年产生的信息量呈指数增长的趋势,预计到2040年,全球将需要一百万吨的硅基芯片才能储存当年产生的数据。作为储存生物遗传信息的分子,DNA具有用于信息储存的诸多优势:储存密度大、能耗低、储存周期长等,特别是储存密度可达到1019bit/cm3,理论上只需要一公斤DNA即可储存目前的全球信息总量,是一种极具吸引力的信息储存介质。
DNA的由含四种不同碱基(A,T,G,C)的脱氧核苷酸组成,理论上一个核苷酸位点可以储存两个比特的数据。在实际操作中,需要储存的数据被编码到多条DNA链中,通过DNA合成仪合成承载信息的DNA,经取样、PCR扩增等系列步骤后,通过DNA测序仪测序读出,解码恢复储存的数据。由于这一信道并非完美,各种错误可能在储存过程中被引入,包括碱基的替换、丢失、增加等链内错误和整链丢失。为从含有错误的测序信息中完美恢复储存数据,需要使用合适的纠错码,通过在编码时增加一定量的冗余来对抗信道中的噪声。
相关技术中,学界提出将RS码、喷泉码、LDPC码等编码用于DNA编码的解决方案,但如何设计适合DNA储存的编码方式、如何***确定合适的冗余量是该领域的一个技术难点。然而,根据香农编码理论,寻找最优的编码方式和冗余量,必须以合适的方式引入冗余以对抗特定信道特殊的噪声结构,但是目前技术条件下开展DNA储存实验仍存在价格昂贵、实验周期长的限制,难以通过反复实验来迭代优化编码设计。
因此,面向DNA信息存储的编码设计仍缺少快速、低成本的验证方式,以及***的调整优化方法,亟待解决。
申请内容
本申请提供一种DNA信道仿真与编码优化方法及装置,以解决了面向DNA信息存储的编码设计仍缺少快速、低成本的验证方式,以及***的调整优化方法的问题。
本申请第一方面实施例提供一种DNA信道仿真与编码优化方法,包括以下步骤:基于给定的储存环节和参数,建立针对储存条件的信道仿真模型;将编码后的DNA序列输入所述信道仿真模型,得到仿真测序结果,并由所述仿真测序结果确定解码情况;由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用所述编码优化数据优化所述信道编码设计和信道参数设计。
可选地,在本申请的一个实施例中,所述将编码后的数据输入所述信道仿真模型,得到仿真测序结果,包括:将所述编码后的DNA序列输入至所述信道仿真模型,得到测序序列和各中间阶段的序列存在状态;根据所述测序序列和所述各中间阶段的序列存在状态获取所述仿真测序结果。
可选地,在本申请的一个实施例中,在得到所述仿真测序结果之后,还包括:基于所述仿真测序结果提取信道错误特征,并利用所述信道错误特征分析调整所述编码优化数据,得到最佳编码优化数据。
可选地,在本申请的一个实施例中,所述由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,包括:基于所述仿真测序结果得到链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项;由所述链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项得到所述编码优化数据。
可选地,在本申请的一个实施例中,所述由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,进一步包括:基于冗余度与错误匹配的原则,通过计算冗余度、信息储存密度、成功恢复概率的关系,确定信息储存密度和成功恢复概率的最佳平衡点。
本申请第二方面实施例提供一种DNA信道仿真与编码优化装置,包括:建立模块,用于基于给定的储存环节和参数,建立针对储存条件的信道仿真模型;仿真模块,用于将编码后的DNA序列输入所述信道仿真模型,得到仿真测序结果,并由所述仿真测序结果确定解码情况;优化模块,用于由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用所述编码优化数据优化所述信道编码设计和信道参数设计。
可选地,在本申请的一个实施例中,所述仿真模块包括:生成单元,用于将所述编码后的DNA序列输入至所述信道仿真模型,得到测序序列和各中间阶段的序列存在状态;第一获取单元,用于根据所述测序序列和所述各中间阶段的序列存在状态获取所述仿真测序结果。
可选地,在本申请的一个实施例中,所述优化模块包括:第二获取单元,用于基于所述仿真测序结果得到链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项;第三获取单元,用于由所述链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项得到所述编码优化数据。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的DNA信道仿真与编码优化方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的DNA信道仿真与编码优化方法。
本申请实施例可以允许用户快速创建特定DNA信道的仿真模型,以极低的实验成本分析信道错误特征,验证特定编码方案的可行性,可以节约大量的时间和金钱,并且提供一种***性的冗余量调整方案,获取针对特定编码***的最优冗余设计,有助减少解码失败、储存空间浪费等问题发生的可能性,有效满足DNA信息存储的编码设计需求。由此,解决了面向DNA信息存储的编码设计仍缺少快速、低成本的验证方式,以及***的调整优化方法的问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种DNA信道仿真与编码优化方法的流程图;
图2为根据本申请一个具体实施例的DNA信道仿真与编码优化方法的原理示意图;
图3为根据本申请一个实施例的DNA信道仿真与编码优化方法的仿真模型构建方式示意图;
图4为根据本申请一个实施例的DNA信道仿真与编码优化方法的仿真结果示意图;
图5为根据本申请一个实施例的DNA信道仿真与编码优化方法的参数优化过程示意图;
图6为根据本申请一个实施例的DNA信道仿真与编码优化方法的用户操作界面示意图;
图7为根据本申请实施例的DNA信道仿真与编码优化装置的示例图;
图8为根据本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的DNA信道仿真与编码优化方法、装置、电子设备及存储介质。针对上述背景技术中心提到的面向DNA信息存储的编码设计仍缺少快速、低成本的验证方式,以及***的调整优化方法的问题,本申请提供了一种DNA信道仿真与编码优化方法,在该方法中,允许用户快速创建特定DNA信道的仿真模型,以极低的实验成本分析信道错误特征,验证特定编码方案的可行性,可以节约大量的时间和金钱,并且提供一种***性的冗余量调整方案,获取针对特定编码***的最优冗余设计,有助减少解码失败、储存空间浪费等问题发生的可能性,有效满足DNA信息存储的编码设计需求。由此,解决了面向DNA信息存储的编码设计仍缺少快速、低成本的验证方式,以及***的调整优化方法的问题。
具体而言,图1为本申请实施例所提供的一种DNA信道仿真与编码优化方法的流程示意图。
如图1所示,该DNA信道仿真与编码优化方法包括以下步骤:
在步骤S101中,基于给定的储存环节和参数,建立针对储存条件的信道仿真模型。
可以理解的是,如图2所示,首先,本申请实施例基于给定储存环节和参数,建立针对储存条件的信道仿真模型。其中,信道仿真模型可通过模块化级联的方式构建,从而在下述步骤利用信道仿真模型可以通过随机模拟或分析的方式产生仿真结果,下面会进行详细描述。
举例而言,如图3所示,本申请实施例使用模块级联的方式快速建立信道仿真模型,其可以使用错误增加E与分布变换D两个基本模块,仿真新引入的链内错误、链拷贝数变化和整链丢失两种基本变化;通过对两个基本模块和额外特殊模块的组合,构建DNA合成、衰变、PCR扩增、抽样、DNA测序等各个主要实验环节的仿真模型;根据实际采取的实验步骤组合预构建的仿真模型,得到针对特定信道的完整信道模型。通过这种模块化的构建方式,用户可以快速定制特定的信道模型,也允许用户根据实验需要扩充新的模块。
另外,实验参数可以通过以下方式确定:使用来自参考文献的***默认参数;使用实际测量的仪器参数以及实验测量的仪器参数;提供特定实验设置下得到的实际数据,最小化仿真数据与实际数据的差异来拟合得到该信道的参数,在此不做具体限制。
本申请实施例的仿真模型通过随机模拟的方式仿真各个阶段错误产生、各链拷贝分布变化的随机过程,部分环节也可使用分析解做一定近似加速仿真速度,进一步满足使用需求。
在步骤S102中,将编码后的DNA序列输入信道仿真模型,得到仿真测序结果,并由仿真测序结果确定解码情况。
可以理解的是,如图2所示,其次,本申请实施例可以将编码后的数据输入建立的信道仿真模型,得到仿真测序结果,尝试解码验证编码设计的可行性。
可选地,在本申请的一个实施例中,将编码后的数据输入信道仿真模型,得到仿真测序结果,包括:将编码后的DNA序列输入至信道仿真模型,得到测序序列和各中间阶段的序列存在状态;根据测序序列和各中间阶段的序列存在状态获取仿真测序结果。
例如,本申请实施例输入到信道仿真模型的数据为N条DNA序列,仿真模型输出的数据为对模拟的实际测序数据,通过采用与实际实验类似的输入输出格式,保证该模型的拟真性与泛用性。
另外,在本申请的一个实施例中,在得到仿真测序结果之后,还包括:基于仿真测序结果提取信道错误特征,并利用信道错误特征分析调整编码优化数据,得到最佳编码优化数据。
也就是说,本申请实施例的信道仿真模型接受编码后的DNA序列为输入,在提供模拟最终测序序列作为仿真输出的同时,可提供各中间阶段的序列存在状态用于对信道错误特征的进一步分析。即言,除最终测序数据以外,仿真模型也可以提供DNA中间环节的存在状态等信息,用于加深对目标信道的理解。
在步骤S103中,由仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用编码优化数据优化信道编码设计和信道参数设计。
可以理解的是,如图2所示,最后,本申请实施例以寻求信息储存密度及成功恢复概率为目标,通过冗余度与错误量匹配的原则对编码设计进行优化。
可选地,在本申请的一个实施例中,由仿真测序结果及对应的解码情况统计分析得到编码优化数据,包括:基于仿真测序结果得到链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项;由链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项得到编码优化数据。
在实际执行的过程中,本申请实施例统计分析的内容可以包括但不限于链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容。
进一步地,在本申请的一个实施例中,由仿真测序结果及对应的解码情况统计分析得到编码优化数据,进一步包括:基于冗余度与错误匹配的原则,通过计算冗余度、信息储存密度、成功恢复概率的关系,确定信息储存密度和成功恢复概率的最佳平衡点。
本领域技术人员应该理解到的是,本申请实施例的编码优化方法基于冗余度与错误匹配的原则,通过计算冗余度、信息储存密度、成功恢复概率的关系,确定信息储存密度和成功恢复概率的最佳平衡点。
举例而言,本申请实施例的步骤S103包括:
步骤S1031:多次运行仿真与解码过程,统计得到错误分布(包括各链拷贝数目的分布、链内错误的分布、序列丢失数目分布、投票后含有错误序列个数分布)信息,以及解码冗余度需求分布(在一定错误条件下,完成解码所需要的冗余度的分布)。
步骤S1032:根据步骤S1031中求得的分布,计算信息储存密度、成功恢复概率与使用冗余度之间的关系,根据实际需求推荐合适的冗余度设计。
简言之,本申请实施例包括给定储存环节和参数,建立针对储存条件的信道仿真模型,并且将编码后的数据输入建立的信道仿真模型,得到仿真测序结果,尝试解码验证编码设计的可行性,以及对仿真数据和解码情况进行统计分析,得出***性的编码优化方案,从而可以允许用户快速搭建DNA信道模型,以极低的实验成本验证特定编码方案的可行性,并通过***性调整方法获取针对特定信道的最优冗余设计,有助减少解码失败、储存空间浪费等问题发生的可能性。
以下列举实施例,对本申请实施例的DNA信道仿真与编码优化方法进行示意性说明。
结合图1和图2所示,在本申请的一个实施例中,对一定实验条件下的特定DNA信道建立仿真模型,并基于该仿真模型实现DNA喷泉码的编码验证和冗余度优化。特别需要指出的是,本申请实施例只是示例性的,除示例所使用的目标信道和编码方法外,本申请可以应用于对各种信道条件的仿真与各种编码方法的优化,本实施例不能理解为对本申请的限制。
具体地,DNA喷泉码是DNA信息储存领域的一种常用编码,其编码原理为:编码时,将二进制数据分成N个片段,使用喷泉算法对片段进行线性组合生成(1+α)N个“液滴”,对每个液滴加入长度为LRS的RS码后转化为DNA序列。通过DNA信道后,部分DNA序列会丢失,DNA序列内部也可能碱基缺失、添加、替换等错误。在解码时,将每条DNA序列转化成二进制,并使用RS码纠正链内错误,如果错误过多无法纠正则直接将这条链丢弃;使用剩余无错误的“液滴”求解原先的数据,当剩余“液滴”的数量略大于N时,即可恢复原先的数据。α和LRS设置越高,增加的冗余度越多,对抗信道噪声的能力越强,但是信息密度也会相应降低,需要根据信道的噪声特性选取合适的值。在这一实施例中,将展示通过本申请实施例的方法建立信道仿真模型,模拟实际存储实验对编码方案进行验证,以及对冗余度进行***调整的过程。
步骤S1:给定储存环节和参数,建立针对储存条件的信道仿真模型。
一些实施例中,实验者预计使用引物池芯片合成技术进行DNA合成并对合成后的DNA池进行PCR扩增;数据在DNA池中会储存一定时间;为读取数据,从DNA池取少量溶液,进行PCR扩增后使用illumina二代测序平台测序读取。根据实施使用的实验流程,依次组合DNA合成、PCR扩增、DNA衰变、抽样、PCR扩增、DNA测序模块构建对应的DNA信道模型。其中,合成、测序环节参数参考对应平台的公开测量数据,PCR等环节使用的参数和实际实验保持一致。
步骤S2:将编码后的数据输入建立的信道仿真模型,得到仿真测序结果,尝试解码验证编码设计的可行性。
一些实施例中,使用喷泉码对Lena.jpg文件进行编码,根据合成与测序平台对DNA长度的限制,设定单条DNA序列的长度L=104bp,按照α=0.5、LRS=4设置冗余,得到2076条编码后的DNA序列。使用给定信道进行仿真,得到模拟的测序结果,对获得的DNA序列进行解码,得到2612条可以被RS码纠正错误的“液滴”,设置冗余度明显高于信道的噪声程度,可以解码恢复Lena.jpg。
除验证解码方案的可行性以外,也可以通过本方法中的仿真模型获得拷贝数目分布、链内错误分布在各个阶段的变化(图4.a),DNA序列对应在各个阶段的拷贝存在形态的变化(图4.b),单DNA序列的多条测序数据投票后的结果(图4.c),调整测序深度、抽样深度等参数后错误数目的变化趋势等信息,可以得到对目标信道的错误特征的一个全面***的认识,有助指导新的编码方法的提出。
步骤S3:对仿真数据和解码情况进行统计分析,得出***性的编码优化方案。
在一些实施例中,将对喷泉码的冗余度进行优化,在获取理想解码成功率的同时,使用尽可能小的冗余度以获取较高的信息储存密度。
首先对链内RS编码长度LRS进行优化。根据仿真得到的含有k个错误的链的分布数据,按照下式估计不同LRS下的信息密度,选取可以取得最高信息密度的LRS:
Figure BDA0003340696610000071
根据计算得到的D(k),LRS=2最优,可达到76%的估计信息密度,因此选择LRS=2。
然后,对α进行优化。在本申请实施例中,通过计算解码失败概率pfail与α的函数关系,根据实验所需要的成功解码概率选择选择合适的α。其中,pfail(α)可通过丢失数目和解码需要的链数两个分布的关系得到:
Figure BDA0003340696610000072
两分布可分别通过多次运行仿真与解码过程,使用得到的数据拟合特定先验分布获得,先验分布可以通过理论推导或实验方式确定,如图5所示,本申请实例中,丢失数目分布使用Possion分布,解码链数分布服从Gumbel分布(如图5.b)。根据得到的pfail(α)曲线,希望得到99%的解码成功率时,可以设置α=0.25-0.28.(如图5.c)。
在上述实施例中,本申请通过低成本的计算机模拟方式实现对目标信道错误特征的分析以及对编码方式的验证,可以节约大量实验成本;通过***调优的方式获得最优的冗余度设计,有助避免解码失败、储存空间浪费等问题的发生。
根据本申请实施例提出的DNA信道仿真与编码优化方法,可以允许用户快速创建特定DNA信道的仿真模型,以极低的实验成本分析信道错误特征,验证特定编码方案的可行性,可以节约大量的时间和金钱,并且提供一种***性的冗余量调整方案,获取针对特定编码***的最优冗余设计,有助减少解码失败、储存空间浪费等问题发生的可能性,有效满足DNA信息存储的编码设计需求。
其次参照附图描述根据本申请实施例提出的DNA信道仿真与编码优化装置。
图7是本申请实施例的DNA信道仿真与编码优化装置的方框示意图。
如图7所示,该DNA信道仿真与编码优化装置10包括:建立模块100、仿真模块200和优化模块300。
具体地,建立模块100,用于基于给定的储存环节和参数,建立针对储存条件的信道仿真模型。
仿真模块200,用于将编码后的DNA序列输入信道仿真模型,得到仿真测序结果,并由仿真测序结果确定解码情况。
优化模块300,用于由仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用编码优化数据优化信道编码设计和信道参数设计。
可选地,在本申请的一个实施例中,仿真模块200包括:生成单元和第一获取单元。
其中,生成单元,用于将编码后的DNA序列输入至信道仿真模型,得到测序序列和各中间阶段的序列存在状态。
第一获取单元,用于根据测序序列和各中间阶段的序列存在状态获取仿真测序结果。
可选地,在本申请的一个实施例中,优化模块300包括:第二获取单元和第三获取单元。
其中,第二获取单元,用于基于仿真测序结果得到链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项。
第三获取单元,用于由链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项得到编码优化数据。
可选地,在本申请的一个实施例中,仿真模块200还用于在得到仿真测序结果之后,基于仿真测序结果提取信道错误特征,并利用信道错误特征分析调整编码优化数据,得到最佳编码优化数据。
可选地,在本申请的一个实施例中,优化模块300进一步用于基于冗余度与错误匹配的原则,通过计算冗余度、信息储存密度、成功恢复概率的关系,确定信息储存密度和成功恢复概率的最佳平衡点。
需要说明的是,前述对DNA信道仿真与编码优化方法实施例的解释说明也适用于该实施例的DNA信道仿真与编码优化装置,此处不再赘述。
根据本申请实施例提出的DNA信道仿真与编码优化装置,可以允许用户快速创建特定DNA信道的仿真模型,以极低的实验成本分析信道错误特征,验证特定编码方案的可行性,可以节约大量的时间和金钱,并且提供一种***性的冗余量调整方案,获取针对特定编码***的最优冗余设计,有助减少解码失败、储存空间浪费等问题发生的可能性,有效满足DNA信息存储的编码设计需求。
图8为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
处理器802执行程序时实现上述实施例中提供的DNA信道仿真与编码优化方法。
进一步地,电子设备还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机程序。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的DNA信道仿真与编码优化方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种DNA信道仿真与编码优化方法,其特征在于,包括以下步骤:
基于给定的储存环节和参数,建立针对储存条件的信道仿真模型;
将编码后的脱氧核糖核苷酸DNA序列输入所述信道仿真模型,得到仿真测序结果,并由所述仿真测序结果确定解码情况;以及
由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用所述编码优化数据优化所述信道编码设计和信道参数设计。
2.根据权利要求1所述的方法,其特征在于,所述将编码后的数据输入所述信道仿真模型,得到仿真测序结果,包括:
将所述编码后的DNA序列输入至所述信道仿真模型,得到测序序列和各中间阶段的序列存在状态;
根据所述测序序列和所述各中间阶段的序列存在状态获取所述仿真测序结果。
3.根据权利要求2所述的方法,其特征在于,在得到所述仿真测序结果之后,还包括:
基于所述仿真测序结果提取信道错误特征,并利用所述信道错误特征分析调整所述编码优化数据,得到最佳编码优化数据。
4.根据权利要求1所述的方法,其特征在于,所述由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,包括:
基于所述仿真测序结果得到链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项;
由所述链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项得到所述编码优化数据。
5.根据权利要求1或4所述的方法,其特征在于,所述由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,进一步包括:
基于冗余度与错误匹配的原则,通过计算冗余度、信息储存密度、成功恢复概率的关系,确定信息储存密度和成功恢复概率的最佳平衡点。
6.一种DNA信道仿真与编码优化装置,其特征在于,包括:
建立模块,用于基于给定的储存环节和参数,建立针对储存条件的信道仿真模型;
仿真模块,用于将编码后的DNA序列输入所述信道仿真模型,得到仿真测序结果,并由所述仿真测序结果确定解码情况;以及
优化模块,用于由所述仿真测序结果及对应的解码情况统计分析得到编码优化数据,并利用所述编码优化数据优化所述信道编码设计和信道参数设计。
7.根据权利要求6所述的装置,其特征在于,所述仿真模块包括:
生成单元,用于将所述编码后的DNA序列输入至所述信道仿真模型,得到测序序列和各中间阶段的序列存在状态;
第一获取单元,用于根据所述测序序列和所述各中间阶段的序列存在状态获取所述仿真测序结果。
8.根据权利要求6所述的装置,其特征在于,所述优化模块包括:
第二获取单元,用于基于所述仿真测序结果得到链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项;
第三获取单元,用于由所述链内错误的分布、各链拷贝数的分布、序列丢失和含有错误的序列的个数、解码时数据恢复的比例内容中的一项或多项得到所述编码优化数据。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的DNA信道仿真与编码优化方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的DNA信道仿真与编码优化方法。
CN202111307148.6A 2021-11-05 2021-11-05 Dna信道仿真与编码优化方法及装置 Pending CN114023374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111307148.6A CN114023374A (zh) 2021-11-05 2021-11-05 Dna信道仿真与编码优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111307148.6A CN114023374A (zh) 2021-11-05 2021-11-05 Dna信道仿真与编码优化方法及装置

Publications (1)

Publication Number Publication Date
CN114023374A true CN114023374A (zh) 2022-02-08

Family

ID=80061643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111307148.6A Pending CN114023374A (zh) 2021-11-05 2021-11-05 Dna信道仿真与编码优化方法及装置

Country Status (1)

Country Link
CN (1) CN114023374A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933972A (zh) * 2022-11-24 2023-04-07 中国华能集团清洁能源技术研究院有限公司 多专业仿真平台的分布式数据存储方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115933972A (zh) * 2022-11-24 2023-04-07 中国华能集团清洁能源技术研究院有限公司 多专业仿真平台的分布式数据存储方法及***
CN115933972B (zh) * 2022-11-24 2024-05-31 中国华能集团清洁能源技术研究院有限公司 多专业仿真平台的分布式数据存储方法及***

Similar Documents

Publication Publication Date Title
CN112711935B (zh) 编码方法、解码方法、装置及计算机可读存储介质
US20170243115A1 (en) Code generation method, code generating apparatus and computer readable storage medium
WO2015000284A1 (zh) 一种测序序列映射方法及***
CN112802549B (zh) Dna序列完整性校验和纠错的编解码方法
CN111858507B (zh) 基于dna的数据存储方法、解码方法、***和装置
Wilburn et al. Remote homology search with hidden Potts models
CN114023374A (zh) Dna信道仿真与编码优化方法及装置
Song et al. Super-robust data storage in DNA by de Bruijn graph-based decoding
Hamoum et al. Channel model with memory for DNA data storage with nanopore sequencing
CN115312129A (zh) 高通量测序背景下的基因数据压缩方法、装置及相关设备
Masutani et al. Investigating the mitochondrial genomic landscape of Arabidopsis thaliana by long-read sequencing
CN113314187B (zh) 一种数据存储方法、解码方法、***、装置及存储介质
WO2019204702A1 (en) Error-correcting dna barcodes
Landweber et al. DNA2DNA computations: A potential “killer app”?
Huo et al. CS2A: A compressed suffix array-based method for short read alignment
Chaykin et al. DNA-storalator: end-to-end DNA storage simulator
EP2947589A1 (en) Method and apparatus for controlling a decoding of information encoded in synthesized oligos
Sun Bounds on edit metric codes with combinatorial dna constraints
EP3652862B1 (en) Method for encoding and decoding of quality values of a data structure
Quah et al. DNA data storage, sequencing data-carrying DNA
CN114730616A (zh) 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
Shafir et al. Sequence design and reconstruction under the repeat channel in enzymatic DNA synthesis
Banik Effect of the side effect machines in edit metric decoding
Jiang et al. DNA Storage Designer: A practical and holistic design platform for storing digital information in DNA sequence
Muttakin et al. Motif discovery in unaligned DNA sequences using genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination