CN113268460B

CN113268460B - 基于多层次并行的基因数据无损压缩方法及装置

Info

Publication number: CN113268460B
Application number: CN202110632386.8A
Authority: CN
Inventors: 谭光明; 李叶文; 高睿昊; 臧大伟; 刘万奇; 康宁
Original assignee: Western Research Institute Of China Science And Technology Computing Technology
Current assignee: Western Research Institute Of China Science And Technology Computing Technology
Priority date: 2021-05-28
Filing date: 2021-06-07
Publication date: 2022-10-14
Anticipated expiration: 2041-06-07
Also published as: CN113268460A

Abstract

本发明涉及数据压缩技术领域，具体涉及一种基于多层次并行的基因数据无损压缩方法及装置,所述方法包括以下步骤：S1、将输入的原始基因数据分割为N个数据字段；S2、将每个数据字段分割为M个数据块，并分别为每个数据字段分配M条相同的压缩流水线；S3、对每个数据块分别匹配一条压缩流水线，并进行压缩；S4、获取压缩流水线的第一并行度和第N个数据字段的第二并行度；S5、根据每个数据字段的第二并行度，分析最后完成压缩的数据字段；S6、在每个数据字段均完成压缩后，先对各数据字段中每个数据块的压缩结果进行合并，再对各数据字段的压缩结果进行合并，获得原始基因数据的压缩数据。本发明能够更加高性能、低成本的对基因数据进行压缩处理。

Description

基于多层次并行的基因数据无损压缩方法及装置

技术领域

本发明涉及数据压缩技术领域，具体涉及一种基于多层次并行的基因数据无损压缩方法及装置。

背景技术

基因测序技术作为探索生命奥秘的重要手段，已经成为了生物信息学研究的重要分支，在物种鉴别、基因检测、疾病诊断等方面有着广泛的应用，基因测序技术的飞速发展为精准医疗奠定了坚实的基础。

二代测序成本的不断下降，导致基因测序数据***式增长，这种趋势在未来会更加明显。与此同时，相应的基因分析软件运行过程中也会产生海量的中间数据。面对如此海量的基因测序数据和中间数据，使用数据压缩技术来缓解上述数据对硬盘存储空间、网络带宽、以及计算带来的巨大压力，就成为了一个自然的选择。为了保存完整的基因数据信息，通常采用的是无损压缩。无损压缩是指能够在100％保存源文件的所有数据的前提下，将文件的容量空间压缩得更小，再将压缩后的文件还原后，可完全恢复源文件的所有数据而不引起任何失真。

当前广泛采用的方式是在计算机CPU上运行压缩软件程序，并将其嵌入到基因分析的软件流程中。这样的方式有三个缺点：一，这会加重计算机CPU的负担，影响整个基因分析流程的性能；二，软件压缩的性能不足，难以满足日益增长的海量基因数据对计算机***的要求；三，在CPU***和存储硬盘之间会产生不必要的I/O开销。此外，当前基因分析流程中使用的多为对通用数据进行处理的压缩软件，在压缩率方面存在不足，这也制约了数据压缩对于缓解海量基因数据能够起到的作用。综上所述，人类需要更加高性能、低成本的基因数据压缩处理方式。

发明内容

本发明的目的之一在于提供一种基于多层次并行的基因数据无损压缩方法，能够更加高性能对基因数据进行压缩处理。

为了达到上述目的，提供了一种基于多层次并行的基因数据无损压缩方法，包括以下步骤：

S1、将输入的原始基因数据分割为N个数据字段；

S2、将每个数据字段分割为M个数据块，并分别为每个数据字段分配M条相同的压缩流水线；

S3、对每个数据块分别匹配一条压缩流水线，并通过压缩流水线对数据块进行压缩；

S4、获取第N个数据字段所分配的压缩流水线由若干压缩算子组合后，所得到的第一并行度K_N；并根据第一并行度K_N获取第N个数据字段的第二并行度M*K_N；

S5、根据每个数据字段的第二并行度M*K_N，分析最后完成压缩的数据字段；

S6、在每个数据字段均完成压缩后，先对各数据字段中每个数据块的压缩结果进行合并，再对各数据字段的压缩结果进行合并，获得原始基因数据的压缩数据。

原理及优点：

1.由于基因数据的测序文件少则几G，多则几十G到上百G，即使将基因数据分割为多个数据字段，但多个数据字段的大小可能仍然很大。本方案通过分为N个数据字段，在字段层次进行了一级并行处理，并行度为N，一定程度提高了压缩效率。再将每个数据字段分割为M个数据块，并为数据字段中每个数据块分配一条相同的压缩流水线，在字段算法层次上进行了二级并行处理，并行度为M，相同时间内处理压缩的能力更强，进一步提高了压缩效率。由于压缩算法由压缩算子组成，在硬件算子层次上进行了三级并行处理，并行度为K_N，又进一步地提高了压缩效率。

2.在得到K_N后，可以得到第N个数据字段的第二并行度M*K_N，通过第二并行度M*K_N，就能了解到各数据字段压缩效率，从而了解各数据字段的压缩快慢，进而可以方便通过各数据字段的压缩快慢来了解基因数据的压缩性能。

进一步，所述步骤S3中，压缩流水线包括若干压缩算法，所述压缩算法由若干压缩算子组合而成，所述压缩算子根据各数据字段的数据特点以及实际压缩需求选择。

首先根据各数据字段的数据特点来选择一个或多个压缩算子而组合而成压缩算法，以兼顾压缩率和压缩效率，而压缩算法可以得到多种，可得到压缩算法集。再通过实际压缩需求来对压缩算法集中的压缩算法进行筛选，以最终筛选出的压缩算法为最优压缩算法，并以最优压缩算法来对各数据字段进行压缩，从而达到最符合要求且兼顾压缩率和压缩效率的效果。

进一步，所述步骤S4中，还包括以下步骤：

S401、根据每个数据字段的第二并行度M*K_N，分析每个数据字段完成压缩的完成时间，并记录完成的同步率；

S402、判断同步率是否符合设定值，符合不符合，则调整压缩流水线中的压缩算子或压缩算法的组合，获取压缩流水线的第一并行度K_N’和每个数据字段的第二并行度M*K_N’；

S403、重复执行步骤S401和步骤S402，直至同步率符合设定值。

可通过第二并行度M*K_N了解压缩效率，从而分析每个数据字段完成压缩的完成时间，以及完成的先后顺序。其中K_N越小表示压缩流水线中压缩算子的压缩效率越差，需要花费的时间也就越长，从而影响整个基因数据的压缩效率。若每个K_N都相同，且值越大，说明N个字段数据的压缩都可以同步完成，同步率就高，反之若每个K_N都不相同，且值相差大，说明N个字段数据的压缩不会同步完成，完成有快有慢，完成快的需要等待完成慢的，然后才能合并，因此同步率就低，本方案通过调整第一并行度K_N’，使每个K_N都尽可能相同，且值越大，达到设定值即可，就能让N个字段数据的压缩同步完成，从而提高压缩性能。

进一步，所述步骤S5还包括：

S501、根据第一并行度K_N，获取Min(K_N)；

S502、根据每个数据字段的第二并行度M*K_N，获取原始基因数据的第三并行度M*N*Min(K_N)；

S503、根据第三并行度M*N*Min(K_N)分析原始基因数据的压缩性能。

K_N也为N个，其中有大有小，其中K_N越小表示压缩流水线中压缩算子的压缩效率越差，需要花费的时间也就越长，从而影响整个基因数据的压缩效率。因此通过获取Min(K_N)得到第三并行度M*N*Min(K_N)，就能方便的分析基因数据的压缩性能。

进一步，所述步骤S6中，各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件的文件头中以存储顺序标明各个数据字段所选择的压缩算法中所包含的压缩算子的组合。

将各数据字段压缩结果以特定的格式存储在同一文件中，方便存储；而在文件头中标明各个数据字段所选择的压缩算法所包含的压缩算子组合，则方便在解压时，能够准确地找到对应的压缩算法进行解压还原数据，充分保证数据的可还原性。

进一步，所述压缩算子包括数据转换类、熵编码类以及一般编码类，所述压缩流水线中的压缩算子为并行设置。

三种类型压缩算子中的每个算子都有其自身的特点和适用的场景，从而使得多个压缩算子组成的压缩算法、压缩流水线能够各种压缩需求，以适应多种情况。也方便调整压缩流水线的第一并行度K_N，方便让各个字段数据中压缩流水线的第一并行度K_N保持较小的差距，从而提高整体的压缩性能。

本发明的目的之二在于提供一种基于多层次并行的基因数据无损压缩装置，包括存储内数据压缩引擎和闪存，所述存储内数据压缩引擎采用上述方法，从闪存中获取原始基因数据，并将原始基因数据的压缩数据存储到闪存中

原理及优点：

所述装置中的基因压缩执行单元采用了上述方法设计而成，同样具备并行度为N、M和K_N的三级并行设置，相同时间内处理基因数据压缩的能力更强，极大地提高了压缩性能。而且本方案的存储内数据压缩引擎一个存储内计算的架构，独立于传统计算机外部，可以整体看成一块硬盘。但不需要传统架构中处理器与硬盘之间的I/O操作，而且减少了I/O的开销，进一步地提升了压缩性能。

进一步，所述存储内数据压缩引擎包括闪存转换单元、闪存控制器、配置调度单元和基因压缩执行单元，所述配置调度单元用于接收压缩算子的配置信息和并行度信息，通过分析给出闪存访问策略，并将配置信息传入基因压缩执行单元，以及将闪存访问策略传入闪存转换单元；所述闪存转换单元用于根据闪存访问策略生成闪存的调度信息；闪存控制器用于向基因压缩执行单元输入原始基因数据，基因压缩执行单元用于根据配置信息对原始基因数据进行压缩，闪存控制器根据调度信息压缩完成的数据写入闪存。

本方案的存储内数据压缩引擎一个存储内计算的架构，包括闪存转换单元、闪存控制器、配置调度单元和基因压缩执行单元，每个都是独立于计算机CPU外的硬件，在压缩基因数据时，不会占用计算机CPU的资源，因此在CPU***和存储硬盘之间会产生不必要的I/O开销，这样也就不会加重计算机CPU的负担，从而不影响整个基因分析流程的性能。

进一步，所述配置调度单元包括配置器和调度器，所述配置器用于接收压缩算子的配置信息，调度器用于接收并行度信息，通过分析给出闪存访问策略；闪存转换单元包括地址转换器和闪存调度器，所述地址转换器用于处理逻辑地址和物理地址的转换，所述闪存调度器用于根据闪存访问策略生成闪存的调度信息。

各元器件的分工协作，可以极大的提高压缩的工作效率，而且不占用计算机CPU的计算资源，在CPU***和存储硬盘之间会产生不必要的I/O开销。成本更低。

附图说明

图1为本发明实施例的一个示例的层次化并行结构框图。

图2为根据本发明的一个示例的存储内计算的结构图；

图3为基因压缩执行单元设计为集成电路的整体结构框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例

一种基于多层次并行的基因数据无损压缩方法，基本如附图1所示：包括以下步骤：

S1、将输入的原始基因数据分割为N个数据字段；所述N的大小根据原始基因数据的复杂度和丰富程度选取；

S2、将每个数据字段分割为M个数据块，并分别为每个数据字段分配M条相同的压缩流水线；所述M的大小根据硬件资源和压缩效果选取。压缩流水线包括若干压缩算法，所述压缩算法由若干压缩算子组合而成，所述压缩算子根据各数据字段的数据特点以及实际压缩需求选择。

所述步骤S4中，还包括以下步骤：

S403、重复执行步骤S401和步骤S402，直至同步率符合设定值。

所述步骤S5还包括：

S501、根据第一并行度K_N，获取Min(K_N)；

S6、在每个数据字段均完成压缩后，先对各数据字段中每个数据块的压缩结果进行合并，再对各数据字段的压缩结果进行合并，获得原始基因数据的压缩数据。所述步骤S6中，各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件的文件头中以存储顺序标明各个数据字段所选择的压缩算法中所包含的压缩算子的组合。

一种基于多层次并行的基因数据无损压缩装置，如图2所示，是一个存储内计算的架构。所述存储指的是闪存(flash)，所谓的存储内指的是计算和存储不需要传统架构中处理器与硬盘之间的I/O操作，这样做可以减少I/O的开销，提升性能和能效。包括存储内数据压缩引擎和闪存，所述存储内数据压缩引擎包括配置调度单元、基因压缩执行单元、闪存转换单元和闪存控制器。

所述基因压缩执行单元根据上述方法获取；其中闪存控制器和闪存转换单元都是访问闪存的重要组成部件，闪存控制器控制对闪存的读写。闪存转换单元用于处理逻辑地址和物理地址的转换，以及处理闪存访问的调度信息，同时还有垃圾回收和磨损均衡的功能。

所述配置调度单元用于接收压缩算子的配置信息和并行度信息，经过分析给出闪存访问策略，并将配置信息和调度信息传入基因压缩执行单元；本实施例中，配置调度单元具体包括配置器和调度器，配置器接收压缩算子的配置信息，调度器接收并行度信息，经过分析给出合适的闪存访问策略，并将配置信息传入基因压缩执行单元，以及将闪存访问策略传入闪存转换单元。

闪存控制器用于向基因压缩执行单元输入原始基因数据，基因压缩执行单元用于根据配置信息来对原始基因数据进行压缩，闪存控制器根据调度信息将压缩完成的数据写入闪存。

如图3所示，基因压缩执行单元，包括模块化硬件设置的：字段分离器、算子池、算子选择器、算子组合器和字段合并器；

字段分离器：用于将输入的基因数据分割为若干数据字段；同时将数据字段划分为若干相同大小的数据块；

算子池：用于存储多种类型的压缩算子；所述算子池中的压缩算子均为可配置的硬件库的形式。

算子选择器：用于接收各数据字段和对应各个字段的实际压缩需求，并根据各数据字段的数据特点以及实际压缩需求从算子池选择压缩算子；也可根据压缩算子的配置信息从算子池选择压缩算子；

算子组合器：将选择的压缩算子组合为压缩算法；压缩算法对应压缩流水线；

字段合并器：将各数据字段根据对应组合好的压缩算法进行压缩处理，并将各数据字段的压缩结果进行合并。各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件头中标明各个数据字段所选择的压缩算法所包含的压缩算子组合。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于多层次并行的基因数据无损压缩方法，其特征在于，包括以下步骤：

S1、将输入的原始基因数据分割为N个数据字段；

S3、对每个数据块分别匹配一条压缩流水线，并通过压缩流水线对数据块进行压缩；所述步骤S3中，压缩流水线包括若干压缩算法，所述压缩算法由若干压缩算子组合而成，所述压缩算子根据各数据字段的数据特点以及实际压缩需求选择；

S4、获取第N个数据字段所分配的压缩流水线由若干压缩算子组合后，所得到的第一并行度K_N；并根据第一并行度K_N获取第N个数据字段的第二并行度M*K_N；所述步骤S4中，还包括以下步骤：

S403、重复执行步骤S401和步骤S402，直至同步率符合设定值；

2.根据权利要求1所述的基于多层次并行的基因数据无损压缩方法，其特征在于：所述N的大小根据原始基因数据的复杂度和丰富程度选取；所述M的大小根据硬件资源和压缩效果选取。

3.根据权利要求1所述的基于多层次并行的基因数据无损压缩方法，其特征在于：所述步骤S5还包括：

S501、根据第一并行度K_N，获取Min（K_N）；

S502、根据每个数据字段的第二并行度M*K_N，获取原始基因数据的第三并行度M*N*Min（K_N）；

S503、根据第三并行度M*N*Min（K_N）分析原始基因数据的压缩性能。

4.根据权利要求1所述的基于多层次并行的基因数据无损压缩方法，其特征在于：所述步骤S6中，各数据字段压缩结果的合并方式为：将各数据字段压缩结果以特定的格式存储在同一文件中，并在文件的文件头中以存储顺序标明各个数据字段所选择的压缩算法中所包含的压缩算子的组合。

5.根据权利要求1所述的基于多层次并行的基因数据无损压缩方法，其特征在于：所述压缩算子包括数据转换类、熵编码类以及一般编码类，所述压缩流水线中的压缩算子为并行设置。

6.基于多层次并行的基因数据无损压缩装置，其特征在于：包括存储内数据压缩引擎和闪存，所述存储内数据压缩引擎用于执行权利要求1-5任一所述的方法，从闪存中获取原始基因数据，并将原始基因数据的压缩数据存储到闪存中。

7.根据权利要求6所述的基于多层次并行的基因数据无损压缩装置，其特征在于：所述存储内数据压缩引擎包括闪存转换单元、闪存控制器、配置调度单元和基因压缩执行单元，所述配置调度单元用于接收压缩算子的配置信息和并行度信息，通过分析给出闪存访问策略，并将配置信息传入基因压缩执行单元，以及将闪存访问策略传入闪存转换单元；所述闪存转换单元用于根据闪存访问策略生成闪存的调度信息；闪存控制器用于向基因压缩执行单元输入原始基因数据，基因压缩执行单元用于根据配置信息对原始基因数据进行压缩，闪存控制器根据调度信息压缩完成的数据写入闪存。

8.根据权利要求7所述的基于多层次并行的基因数据无损压缩装置，其特征在于：所述配置调度单元包括配置器和调度器，所述配置器用于接收压缩算子的配置信息，调度器用于接收并行度信息，通过分析给出闪存访问策略；闪存转换单元包括地址转换器和闪存调度器，所述地址转换器用于处理逻辑地址和物理地址的转换，所述闪存调度器用于根据闪存访问策略生成闪存的调度信息。