CN111640467B - 基于自适应编码顺序的dna测序质量分数无损压缩方法 - Google Patents

基于自适应编码顺序的dna测序质量分数无损压缩方法 Download PDF

Info

Publication number
CN111640467B
CN111640467B CN202010446416.1A CN202010446416A CN111640467B CN 111640467 B CN111640467 B CN 111640467B CN 202010446416 A CN202010446416 A CN 202010446416A CN 111640467 B CN111640467 B CN 111640467B
Authority
CN
China
Prior art keywords
num
row
data
compression
mass fraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010446416.1A
Other languages
English (en)
Other versions
CN111640467A (zh
Inventor
牛毅
马明明
李甫
田英轩
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010446416.1A priority Critical patent/CN111640467B/zh
Publication of CN111640467A publication Critical patent/CN111640467A/zh
Application granted granted Critical
Publication of CN111640467B publication Critical patent/CN111640467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种基于自适应编码顺序的DNA测序质量分数无损压缩方法,主要解决现有质量分数压缩方法预测模型不够准确导致压缩率偏低的问题。其实现方案为:1)通过两个编码压缩块P1和P2提取FASTQ文件中的质量分数数据和碱基数据;2)计算第一编码压缩块P1所提取文件中每行质量分数的均值并进行量化,得到M×1的行均值矩阵F;3)统计编码字符的上下文信息、碱基信息和行均值信息,4)设置两个标识符C和D,并对3)统计的信息统一量化,以构建编码模型;5)用编码模型驱动自适应算数编码器,并采用蛇形编码顺序沿相关性最强的方向对第一编码压缩块P1进行遍历压缩。本发明提高了压缩效率,可用于基因数据的存储与传输。

Description

基于自适应编码顺序的DNA测序质量分数无损压缩方法
技术领域
本发明属于数据压缩技术领域,特别涉及一种DNA测序质量分数无损压缩方法,可用于生物基因测序数据的压缩。
背景技术
测序已经逐渐成为在生物研究中广泛应用的技术,获取不同生物体的基因遗传信息,能够帮助我们提高对有机世界的认识。随着新一代高通量基因测序技术NGS的飞速发展,以Illumina为代表的测序公司不断推出新的测序技术,使得测序成本迅速下降,人类全基因组测序WGS价格已经下降到1000美金甚至更低,并且依然按照高于摩尔定律的速度下降。在这种情况下,产生的新一代测序数据的数量将超过天文数据,相对的,存储和传输这些数据所带来的开销也日益增大。因此,通过数据压缩减少基因测序数据大小,从而降低存储和传输成本具有重要的意义。目前基因压缩工具研究取得了许多成果,但是没有方案从编码顺序上考虑减少码流,因此压缩效率还有提升空间。
下一代测序产生成千上万条短读,这些短读通常以广泛接受的基于文本的FASTQ格式存储,包含测序产生的所有信息。其中每条短读包含三部分内容:一是元数据,用于描述测序平台等信息;二是DNA碱基序列,用于记录在当前短读中所获得的DNA片段;三是质量分数,用于表示所对应DNA碱基序列中各符号测定的可信程度。FASTQ格式中的质量分数数据具有较高的随机性和噪声,与测序仪器、测序方法等因素有关,通常包含几十种不同的字符,压缩难度高,在压缩文件中通常占比70%左右,因此,质量分数数据的压缩结果对整个FASTQ格式数据的压缩效果起着关键的影响。
目前,典型的对基因测序数据中质量分数无损压缩的方法主要有以下几种:
第一种是用现有的文本压缩工具作为FASTQ文件最常用的压缩方式,如Gzip和7z,这些方法主要设计用于处理普通字符序列,并未考虑质量分数数据的独有特点,因此在压缩基因测序数据时效果不佳。
第二种是针对基因数据压缩产生的改进run-length方法和字典方法,这些方法在大部分情况下压缩效果都比熵编码方法差,不能达到最大程度上降低压缩率的目的。
第三种是一些针对质量分数的压缩算法如Quip等,这种方法使用高阶马尔科夫模型对其进行预测编码,虽然得到了不错的压缩效果,但其所占存储体积较大,计算预测模型时过于复杂,并且没有考虑到编码顺序对压缩产生的影响,导致压缩耗时较长且算法的鲁棒性不佳。
发明内容
本发明的目的在于客服上述现有技术存在的缺陷,提出一种基于自适应编码顺序的DNA测序质量分数无损压缩方法,以在不增加压缩时间的情况下最大程度的提高压缩效果。
本发明的技术方案是:首先,提取FASTQ文件中的碱基序列和质量分数序列;然后针对每行质量分数数据计算其均值并进行量化,根据上下文信息,均值信息,碱基信息构建预测模型;最后采用蛇形编码顺序驱动算术编码器对序列进行编码,达到压缩质量分数的目的,具体实现如下:
(1)提取FASTQ文件中的质量分数数据和碱基数据:
(1a)统计分析DNA测序数据特征,创建两个M×N大小的编码压缩块P1和P2,其中M为压缩块的行数,即一次处理质量分数数据的行数,N为压缩块的列数,即质量分数的长度,N≤150;
(1b)分别通过第一编码压缩块P1和第二编码压缩块P2提取存放在FASTQ文件中的质量分数数据和碱基数据;
(2)计算第一编码压缩块P1所提取FASTQ文件中每行质量分数的均值并进行量化,得到M×1的行均值矩阵F;
(3)统计编码字符的上下文信息、碱基信息和行均值信息并进行统一量化,计算最终的编码模型:
(3a)对当前编码字符q建立模型:统计前四个字符q1,q2,q3和q4,取第二编码压缩块P2中当前字符和前一个字符对应的碱基信息记做j1和j2,取行均值矩阵F中字符q所在行的均值记做f,该f为已经量化后的结果;对于缺少上文信息的边缘字符,其q1,q2,q3和q4取相同符号或令其等于零;
(3b)通过量化整体模型的方式减少模型代价,即取前两个字符q1和q2中的较大值记做A,后两个字符q3和q4中的较大值记做B,创建两个不同的标识符C和D,计算当前编码符号的最终编码模型:
Pnow=A·B·C·D·j1·j2·f
其中,当q1=q2时标识符C=1,否则C=0;当q3=q4时D=1,否则D=0;Pnow为当前编码符号的概率估计;
(4)利用设计的最终编码模型驱动自适应算数编码器,采用蛇形编码顺序沿相关性最强的方向对第一编码压缩块P1进行遍历压缩。
本发明与现有技术相比,具有以下优点:
1.本发明由于充分利用了算术编码器的概率更新机制,因而对等长FASTQ文件中的质量分数数据的压缩率优于目前所有的算法。
2.本发明由于在压缩质量分数数据的同时压缩了每行质量分数的均值,便于下游处理过程中对均值的统计和访问。
3.本发明由于设计的编码模型结构简单,因而可移植性强,方便再次优化和融入到整个FASTQ文件的压缩,可广泛应用于各种使用该模块的压缩方案,具有良好的可扩展性。
附图说明
图1为本发明的实现流程图;
图2为本发明中对质量分数行均值进行量化的示意图;
图3为本发明中采用蛇形扫描顺序的示意图。
具体实施方式
以下结合附图和具体实施例,对本发明进行进一步详细描述。
参照图1,本发明的实现步骤如下:
步骤1,提取FASTQ文件中的质量分数数据和碱基数据。
基因测序会产生成千上万条短读,这些短读通常以广泛接受的基于文本的FASTQ格式存储,包含测序产生的所有信息。在FASTQ文件格式中,每个短读包含四行,每行由换行符分隔,其中:
第一行从‘@’字符开始,后面跟着唯一的序列ID标识符及可选的序列描述内容,标识符与描述字符以空格分隔;
第二行是核苷酸序列,表示碱基数据,由仅包含{‘A’,‘T’,‘C’,‘G’,‘N’}五个字符的序列构成,其中字符‘N’表示不明确的碱基;
第三行以字符‘+’开始,后面再次加上序列的标志及描述信息,或者没有信息,充当分隔符;
最后一行为质量分数行,每个字符对应第二行相应位置上碱基的质量,质量分数对应于数字Q=-10log 10P,其中P表示读取中相应核苷酸的概率是错误的。质量分数通常使用ASCII字母[33:73]或[64:104]表示,既用于原始数据的质量控制,也用于下游处理。
本步骤的具体实现如下:
1.1)统计分析DNA测序数据特征,创建两个M×N大小的两个编码压缩块P1和P2,其中M为压缩块的行数,即一次处理质量分数数据的行数,N为压缩块的列数,即质量分数的长度,N≤150;
1.2)分别通过第一编码压缩块P1和第二编码压缩块P2提取存放在FASTQ文件中的质量分数数据和碱基数据;
由于大部分FASTQ文件中的质量分数字符数都小于40且跳跃性不大,因此可以根据数据间的相关性设计好的预测模型来提升压缩效果。同时,考虑到相关字符过多不仅会导致时间和计算的复杂度升高,有时也会带来模型代价问题,因此需要采用合适的压缩块来统计质量分数之间的相关性,在计算资源允许的范围内,压缩块设计的越大压缩效果越好,但为了不超过最大内存,在本实施例中,取2000000×160的压缩块。总模型数设置为40×40×40×16。在实际压缩过程中,每次都要处理一个压缩块大小的数据,直至文件结尾。
步骤2,计算第一编码压缩块P1所提取FASTQ文件中每行质量分数的均值并进行量化,得到M×1的行均值矩阵F。
2.1)对大小为M×N的第一编码压缩块P1的每一行进行求平均值操作,将各行的N个质量分数值相加除以总数N得到各行质量分数的均值;
2.2)对得到的各行质量分数值进行量化操作并存储:
参照图2,在统计出每行质量分数的均值后,根据均值分布状况进行聚类,对于数量较多的均值进行细分,对于数量较小且值较低的质量值进行合并,以有利于编码效率的提升。对于具体的压缩文件可根据均值分布情况设计特有的量化方式以达到最优的效果,但是这样不仅增加了计算量还额外增加了许多计算时间。因此本实例选用扩展性较强且容易实现的量化方式,即将两个相邻均值看做是同一种情况,对于质量值较小且数量较低的部分整体看做一个部分。总结量化经验,得到如下所示的量化结果:
如果fi<(num-15),则fi=(num-15);
如果(num-15)≤fi<(num-13),则fi=(num-13);
如果(num-13)≤fi<(num-11),则fi=(num-11);
如果(num-11)≤fi<(num-9),则fi=(num-9);
如果(num-9)≤fi<(num-7),则fi=(num-7);
如果(num-7)≤fi,则fi=(num-6);
其中,num为编码符号总数40,fi为当前行的均值,i取值为[1,M];
将量化后各行的均值fi按照列排列的方式合并,得到M×1的行均值矩阵F。
步骤3,统计编码字符的上下文信息、碱基信息和行均值信息并进行统一量化,计算最终的编码模型。
3.1)对当前编码字符q建立模型:统计前四个字符q1,q2,q3和q4,取P2中当前字符和前一个字符对应的碱基信息记做j1和j2,字符q所在行的均值记做f,这里的f为已经量化后的结果;对于缺少上文信息的边缘字符,其q1,q2,q3和q4可取相同符号或令其等于零。
例如:给定第一编码压缩块P1的具体内容为:E,F,G,H,I;第二编码压缩块P2的具体内容为:A,T,C,G,G;
当对第一编码压缩块P1中的第三个字符“G”建立编码模型时,其前四个字符取值分别为:q1=F,q2=E,q3=0,q4=0;其当前字符和前一个字符对应的碱基信息取值为:j1=C,j2=T;其所在行的均值取值为:f=mean(ASCII(E)+ASCII(F)+ASCII(G)+ASCII(H)+ASCII(I));
当对P1中的第五个字符“I”建立编码模型时,其前四个字符取值分别为:q1=H,q2=G,q3=F,q4=E;其当前字符和前一个字符对应的碱基信息取值为:j1=G,j2=G;其所在行的均值取值为:f=mean(ASCII(E)+ASCII(F)+ASCII(G)+ASCII(H)+ASCII(I));
由此可以看出对于缺少上文信息的边缘字符可以使用相同的方式建立模型。
3.2)考虑模型总数有限的实际情况,通过量化整体模型的方式减少模型代价,即取q1和q2中的较大值记做A,q3和q4中的较大值记做B,创建两个不同的标识符C和D,C为用来判断q1和q2是否相等,D用来判断q3和q4是否相等。因此当前编码符号最终选取的模型为:Pnow=A·B·C·D·j1·j2·f。
其中,Pnow为当前编码符号的概率估计值。
步骤4,利用设计的最终编码模型驱动自适应算数编码器,采用蛇形编码顺序沿相关性最强的方向对第一编码压缩块P1进行遍历压缩。
4.1)通过上述最终编码模型得到当前编码字符更加准确的概率估计值Pnow,并将其作为最优预测结果送入自适应算术编码器;
4.2)编码器进行遍历编码压缩:
编码时需要对逐个字符进行编码扫描,传统扫描方式默认为逐行遍历,当遍历完一整行后从第二行起始位置开始继续扫描。本实例采用按列扫描,且在编码完一列之后,将下一列的尾部作为起始,反向向上遍历,以此循环往复,整体看起来如蛇形扫描,如图3所示。通过对所有字符进行遍历编码,实现最终的无损压缩。
以上描述仅是本发明的一个具体实例,并不构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (5)

1.一种基于自适应编码顺序的DNA测序质量分数无损压缩方法,其特征在于,包括如下:
(1)提取FASTQ文件中的质量分数数据和碱基数据:
(1a)统计分析DNA测序数据特征,创建两个M×N大小的编码压缩块P1和P2,其中M为压缩块的行数,即一次处理质量分数数据的行数,N为压缩块的列数,即质量分数的长度,N≤150;
(1b)分别通过第一编码压缩块P1和第二编码压缩块P2提取存放在FASTQ文件中的质量分数数据和碱基数据;
(2)计算第一编码压缩块P1所提取FASTQ文件中每行质量分数的均值并进行量化,得到M×1的行均值矩阵F;
(3)统计编码字符的上下文信息、碱基信息和行均值信息并进行统一量化,计算最终的编码模型:
(3a)对当前编码字符q建立模型:统计前四个字符q1,q2,q3和q4,取第二编码压缩块P2中当前字符和前一个字符对应的碱基信息记做j1和j2,取行均值矩阵F中字符q所在行的均值记做f,该f为已经量化后的结果;对于缺少上文信息的边缘字符,其q1,q2,q3和q4取相同符号或令其等于零;
(3b)通过量化整体模型的方式减少模型代价,即取前两个字符q1和q2中的较大值记做A,后两个字符q3和q4中的较大值记做B,创建两个不同的标识符C和D,计算当前编码符号的最终编码模型:
Pnow=A·B·C·D·j1·j2·f
其中,当q1=q2时标识符C=1,否则C=0;当q3=q4时D=1,否则D=0;Pnow为当前编码符号的概率估计;
(4)利用设计的最终编码模型驱动自适应算数编码器,采用蛇形编码顺序沿相关性最强的方向对第一编码压缩块P1进行遍历压缩。
2.根据权利要求1所述的方法,其特征在于,(1a)中的DNA测序数据特征,是指DNA测序数据包含成千上万条read,每一条read有四行,第二行是质量分数数据,第四行是碱基数据,整体DNA测序质量分数数据编码形式为ASCII码,编码符号种类数=最大值-最小值+1的质量分数数据。
3.根据权利要求1所述的方法,其特征在于,(2)中对第一编码压缩块P1所提取每行质量分数的均值进行量化,其实现如下:
如果fi<(num-15),则fi=(num-15);
如果(num-15)≤fi<(num-13),则fi=(num-13);
如果(num-13)≤fi<(num-11),则fi=(num-11);
如果(num-11)≤fi<(num-9),则fi=(num-9);
如果(num-9)≤fi<(num-7),则fi=(num-7);
如果(num-7)≤fi,则fi=(num-6);
其中,fi是每行质量分数的均值,num是大小为40的编码符号总数,i取值为[1,M],量化各行fi得到M×1的行均值矩阵F。
4.根据权利要求1所述的方法,其特征在于,(4)中的利用设计的最终编码模型驱动自适应算数编码器,是指把对当前符号进行概率估计的Pnow作为最优预测结果送入自适应算术编码器。
5.根据权利要求1所述的方法,其特征在于,(4)中采用蛇形编码顺序沿相关性最强的方向对第一编码压缩块P1进行遍历压缩,是指遍历第一编码压缩块P1时按照由上往下逐列扫描,当扫描完一列后再由下往上反向遍历,依次往复直到遍历完整个压缩块。
CN202010446416.1A 2020-05-25 2020-05-25 基于自适应编码顺序的dna测序质量分数无损压缩方法 Active CN111640467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010446416.1A CN111640467B (zh) 2020-05-25 2020-05-25 基于自适应编码顺序的dna测序质量分数无损压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010446416.1A CN111640467B (zh) 2020-05-25 2020-05-25 基于自适应编码顺序的dna测序质量分数无损压缩方法

Publications (2)

Publication Number Publication Date
CN111640467A CN111640467A (zh) 2020-09-08
CN111640467B true CN111640467B (zh) 2023-03-24

Family

ID=72332834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010446416.1A Active CN111640467B (zh) 2020-05-25 2020-05-25 基于自适应编码顺序的dna测序质量分数无损压缩方法

Country Status (1)

Country Link
CN (1) CN111640467B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995988A (zh) * 2014-05-30 2014-08-20 周家锐 一种高通量dna测序质量分数无损压缩***及压缩方法
CN105391454A (zh) * 2015-12-14 2016-03-09 季检 一种dna测序质量分数无损压缩方法
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其***
WO2017214765A1 (zh) * 2016-06-12 2017-12-21 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其***
CN108306650A (zh) * 2018-01-16 2018-07-20 厦门极元科技有限公司 基因测序数据的压缩方法
WO2019144312A1 (zh) * 2018-01-24 2019-08-01 深圳大学 一种gpu加速的dna序列压缩方法及***
CN110111852A (zh) * 2018-01-11 2019-08-09 广州明领基因科技有限公司 一种海量dna测序数据无损快速压缩平台

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10090857B2 (en) * 2010-04-26 2018-10-02 Samsung Electronics Co., Ltd. Method and apparatus for compressing genetic data
US20180181706A1 (en) * 2015-06-16 2018-06-28 Gottfried Wilhelm Leibniz Universitaet Hannover Method for Compressing Genomic Data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995988A (zh) * 2014-05-30 2014-08-20 周家锐 一种高通量dna测序质量分数无损压缩***及压缩方法
WO2015180203A1 (zh) * 2014-05-30 2015-12-03 周家锐 一种高通量dna测序质量分数无损压缩***及压缩方法
CN105391454A (zh) * 2015-12-14 2016-03-09 季检 一种dna测序质量分数无损压缩方法
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其***
WO2017214765A1 (zh) * 2016-06-12 2017-12-21 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其***
CN110111852A (zh) * 2018-01-11 2019-08-09 广州明领基因科技有限公司 一种海量dna测序数据无损快速压缩平台
CN108306650A (zh) * 2018-01-16 2018-07-20 厦门极元科技有限公司 基因测序数据的压缩方法
WO2019144312A1 (zh) * 2018-01-24 2019-08-01 深圳大学 一种gpu加速的dna序列压缩方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于码书索引变换的高通量DNA序列数据压缩算法;谭丽等;《电子学报》;20150515(第05期);全文 *
基于高通量测序的短序列生物数据压缩研究;孟倩;《计算机应用与软件》;20170415(第04期);全文 *

Also Published As

Publication number Publication date
CN111640467A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN103814396B (zh) 编解码比特流的方法和装置
US9929746B2 (en) Methods and systems for data analysis and compression
CN103995988B (zh) 一种高通量dna测序质量分数无损压缩***及压缩方法
CN100553152C (zh) 基于cabac的编码方法和设备及解码方法和设备
CN110021369B (zh) 基因测序数据压缩解压方法、***及计算机可读介质
US20130031092A1 (en) Method and apparatus for compressing genetic data
EP3311318B1 (en) Method for compressing genomic data
CN103546160A (zh) 基于多参考序列的基因序列分级压缩方法
CN103067022A (zh) 一种整型数据无损压缩方法、解压缩方法及装置
KR20120137235A (ko) 유전자 데이터를 압축하는 방법 및 장치
CN107066837A (zh) 一种有参考dna序列压缩方法和***
CN109450452A (zh) 一种针对基因数据的取样字典树索引的压缩方法和***
CN110021368B (zh) 比对型基因测序数据压缩方法、***及计算机可读介质
CN115064216A (zh) 一种基于位置序列矩阵的蛋白质编码方法
CN111640467B (zh) 基于自适应编码顺序的dna测序质量分数无损压缩方法
CN109698703B (zh) 基因测序数据解压方法、***及计算机可读介质
CN110111851B (zh) 基因测序数据压缩方法、***及计算机可读介质
CN107633158A (zh) 对基因序列进行压缩和解压缩的方法和设备
CN109698702B (zh) 基因测序数据压缩预处理方法、***及计算机可读介质
CN110915140B (zh) 用于编码和解码数据结构的质量值的方法
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
CN109698704B (zh) 比对型基因测序数据解压方法、***及计算机可读介质
Voges Compression of DNA sequencing data
CN117577186A (zh) 基于MSB嵌入和Tile列上下文的META压缩方法
CN110168650A (zh) 用于编码和解码数据结构的质量值的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant