WO2015067128A1

WO2015067128A1 - 一种堆叠式重复数据删除文件***

Info

Publication number: WO2015067128A1
Application number: PCT/CN2014/089303
Authority: WO
Inventors: 王恩东; 文中领; 张立强; 孟圣智
Original assignee: 浪潮(北京)电子信息产业有限公司
Priority date: 2013-11-05
Filing date: 2014-10-23
Publication date: 2015-05-14
Also published as: CN103617177A

Abstract

提出一种堆叠式重复数据删除文件***，包括文件***服务模块，对于正常的数据，采用直接接口转换的方式将底层文件***的数据导入本文件***中；对于进行了重复数据删除的数据，读取相应的数据属性标识，进行IO流程的重定向，实现重删后数据的透明无缝访问；重删服务模块，读取文件***服务模块导出的文件***日志数据，解析日志内容后进行数据签名的计算、重复数据的检测和删除，完成重删后对数据进行标识。所述***能够充分利用已有存储***的存储能力，无需升级硬件最大限度地节省投资，通过堆叠式的软件设计，在已有的文件***上提供重复数据删除功能，优化数据存储结构，降低存储***的空间占用。

Description

一种堆叠式重复数据删除文件***

技术领域

本发明涉及计算机存储领域，具体涉及一种基于堆叠式文件***技术实现的重复数据删除文件***。

背景技术

在大型存储***中，数据急速增长与存储设备升级相对缓慢的矛盾较为尖锐，为了缓解存储***的空间增长问题，缩减数据占用的空间，降低成本，最大化利用已有资源，重复数据删除技术已经成为大型***中必不可少的关键技术。

通过使用重复数据删除技术，用户可以获得明显的数据缩减效果，可以大大降低存储***的带宽需求，降低运营成本和维护成本。通过数据缩减使得后端实际的存储容量大大缩减，由此带来了更简洁的存储管理，有效降低了管理成本。

然而目前流行的重复数据删除方案，多为面向近线存储和备份存储的重删方案，而且往往与备份***紧密结合，因而无法提供一股性的文件***服务。能够在在线***中直接提供重复数据删除功能的产品较少，且均需要使用专有的文件***格式，这些专有的文件***往往在性能、功能、可靠性、可扩展性方面均存在诸多限制，使得在大型在线存储***中直接应用存在一定困难。

已有的大型存储***往往基于成熟的文件***构建，如ext3、ext4、xfs、1ustre等，这类文件***本身并不具备重复数据删除的功能，而如果要使用重复数据删除功能，则面临着需要使用专有的文件***，忍受明显可感知的性能降低，并进行大规模的数据迁移，这带来极高的时间和空间成本，在已经有大量数据的存储***中，基本上没有可行性，成本过高。

针对这一现状，本发明设计了一种堆叠式重复数据删除文件***，能够基于已有的成熟的文件***提供重复数据删除功能，充分保持原有存储***的性能，同时几乎不需要进行任何数据迁移。

发明内容

有鉴于此，本发明的主要目的在于提供一种堆叠式重复数据删除文件***，能够充分利用已有存储***的存储能力，无需升级硬件最大限度地节省投资，通过堆叠式的软件设计，在已有的文件***上提供重复数据删除功能，优化数据存储结构，降低存储***的空间占用。

为达到上述目的，本发明提供一种堆叠式重复数据删除文件***，该***包括：

文件***服务模块，对于正常的数据，采用直接接口转换的方式将底层文件***的数据导入本文件***中；对于进行了重复数据删除的数据，读取相应的数据属性标识，进行IO流程的重定向，实现重删后数据的透明无缝访问；

重删服务模块，读取文件***服务模块导出的文件***日志数据，解析日志内容后进行数据签名的计算、重复数据的检测和删除，完成重删后对数据进行标识。

本发明的有益效果是：基于堆叠式文件***的设计可以充分利用现有的存储***，仅通过安装本专利描述的软件***即可使已有的文件***支持重复数据删除功能以节省存储空间，无需迁移数据，同时保持了原有存储***的IO性能，实现充分的设备利旧和投资保护。

附图说明

附图1为本发明所提出的堆叠式重复数据删除文件***的架构示意图。

具体实施方式

下面参照附图1，并结合一具体实例来描述本发明实现这一体系结构的过程。

正如发明内容中所描述的，本发明堆叠式重复数据删除文件***主要包括：文件***服务模块、重删服务模块。

文件***服务模块实现了一个完整支持POSIX协议的文件***，其采用了堆叠式文件***的设计策略，通过在文件***接口层的映射和重写，将底层文件***的服务完整实现。对于正常的数据，本模块采用直接接口转换的方式将底层文件***的数据导入本文件***中，实现了正常数据的无缝访问。对于进行了重复数据删除的数据，本模块根据本发明所描述的文件***的约定，读取相应的数据属性标识，进行IO流程的重定向，实现重删后数据的透明无缝访问。

重删服务模块在带外独立运行，其采用多线程设计，充分利用多核***的并行计算能力，提供超高速的重复数据删除功能。本模块读取文件***服务模块导出的文件***日志数据，解析日志内容后进行数据签名的计算、重复数据的检测和删除，完成重删后对数据进行标识。本模块可与文件***服务模块同时运行，通过文件***服务模块内设计的细粒度锁，保证数据处理的原子性，提供可靠的并行数据处理能力。

在一个典型的配置环境里，文件***服务模块、重删服务模块可作为一股应用软件安装到主机***中。在进行了相关的软件配置后，可启动文件***服务模块、重删服务模块，此时已经能够在主机上挂载本发明描述的文件***，并能够进行数据访问。在一段时间的文件***IO完成后，重删服务模块能够自动地进行数据签名的计算，并根据配置参数进行重复数据的检测和删除，并完成重删后数据的标记。

至此，已经完整实现了整个堆叠式重复数据删除文件***，实现了在已有文件***上提供高性能重复数据删除服务的功能，极大的提高了存储***的空间利用率，有效保护了客户投资。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

一种堆叠式重复数据删除文件***，其特征在于，包括：

文件***服务模块，对于正常的数据，采用直接接口转换的方式将底层文件***的数据导入本文件***中；对于进行了重复数据删除的数据，读取相应的数据属性标识，进行IO流程的重定向，实现重删后数据的透明无缝访问；

重删服务模块，读取文件***服务模块导出的文件***日志数据，解析日志内容后进行数据签名的计算、重复数据的检测和删除，完成重删后对数据进行标识。