CN103617177A - 一种堆叠式重复数据删除文件*** - Google Patents

一种堆叠式重复数据删除文件*** Download PDF

Info

Publication number
CN103617177A
CN103617177A CN201310541623.5A CN201310541623A CN103617177A CN 103617177 A CN103617177 A CN 103617177A CN 201310541623 A CN201310541623 A CN 201310541623A CN 103617177 A CN103617177 A CN 103617177A
Authority
CN
China
Prior art keywords
data
file system
repeating
deletion
service module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310541623.5A
Other languages
English (en)
Inventor
王恩东
文中领
张立强
孟圣智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201310541623.5A priority Critical patent/CN103617177A/zh
Publication of CN103617177A publication Critical patent/CN103617177A/zh
Priority to PCT/CN2014/089303 priority patent/WO2015067128A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

提出一种堆叠式重复数据删除文件***,包括文件***服务模块,对于正常的数据,采用直接接口转换的方式将底层文件***的数据导入本文件***中;对于进行了重复数据删除的数据,读取相应的数据属性标识,进行IO流程的重定向,实现重删后数据的透明无缝访问;重删服务模块,读取文件***服务模块导出的文件***日志数据,解析日志内容后进行数据签名的计算、重复数据的检测和删除,完成重删后对数据进行标识。所述***能够充分利用已有存储***的存储能力,无需升级硬件最大限度地节省投资,通过堆叠式的软件设计,在已有的文件***上提供重复数据删除功能,优化数据存储结构,降低存储***的空间占用。

Description

一种堆叠式重复数据删除文件***
技术领域
本发明涉及计算机存储领域,具体涉及一种基于堆叠式文件***技术实现的重复数据删除文件***。
背景技术
在大型存储***中,数据急速增长与存储设备升级相对缓慢的矛盾较为尖锐,为了缓解存储***的空间增长问题,缩减数据占用的空间,降低成本,最大化利用已有资源,重复数据删除技术已经成为大型***中必不可少的关键技术。
通过使用重复数据删除技术,用户可以获得明显的数据缩减效果,可以大大降低存储***的带宽需求,降低运营成本和维护成本。通过数据缩减使得后端实际的存储容量大大缩减,由此带来了更简洁的存储管理,有效降低了管理成本。
然而目前流行的重复数据删除方案,多为面向近线存储和备份存储的重删方案,而且往往与备份***紧密结合,因而无法提供一般性的文件***服务。能够在在线***中直接提供重复数据删除功能的产品较少,且均需要使用专有的文件***格式,这些专有的文件***往往在性能、功能、可靠性、可扩展性方面均存在诸多限制,使得在大型在线存储***中直接应用存在一定困难。
已有的大型存储***往往基于成熟的文件***构建,如ext3、ext4、xfs、lustre等,这类文件***本身并不具备重复数据删除的功能,而如果要使用重复数据删除功能,则面临着需要使用专有的文件***,忍受明显可感知的性能降低,并进行大规模的数据迁移,这带来极高的时间和空间成本,在已经有大量数据的存储***中,基本上没有可行性,成本过高。
针对这一现状,本发明设计了一种堆叠式重复数据删除文件***,能够基于已有的成熟的文件***提供重复数据删除功能,充分保持原有存储***的性能,同时几乎不需要进行任何数据迁移。
发明内容
本发明设计并实现了一种堆叠式重复数据删除文件***,能够充分利用已有存储***的存储能力,无需升级硬件最大限度地节省投资,通过堆叠式的软件设计,在已有的文件***上提供重复数据删除功能,优化数据存储结构,降低存储***的空间占用。
所述***包括:
文件***服务模块,对于正常的数据,采用直接接口转换的方式将底层文件***的数据导入本文件***中;对于进行了重复数据删除的数据,读取相应的数据属性标识,进行IO流程的重定向,实现重删后数据的透明无缝访问;
重删服务模块,读取文件***服务模块导出的文件***日志数据,解析日志内容后进行数据签名的计算、重复数据的检测和删除,完成重删后对数据进行标识。
本发明的有益效果是:基于堆叠式文件***的设计可以充分利用现有的存储***,仅通过安装本专利描述的软件***即可使已有的文件***支持重复数据删除功能以节省存储空间,无需迁移数据,同时保持了原有存储***的IO性能,实现充分的设备利旧和投资保护。
附图说明
附图1为本专利所提出的堆叠式重复数据删除文件***的架构示意图。
具体实施方式
下面参照附图1,对本发明的内容以一个具体实例来描述实现这一体系结构的过程。
正如发明内容中所描述的,本发明体系结构主要包括:文件***服务模块、重删服务模块。
文件***服务模块实现了一个完整支持POSIX协议的文件***,其采用了堆叠式文件***的设计策略,通过在文件***接口层的映射和重写,将底层文件***的服务完整实现。对于正常的数据,本模块采用直接接口转换的方式将底层文件***的数据导入本文件***中,实现了正常数据的无缝访问。对于进行了重复数据删除的数据,本模块根据本发明所描述的文件***的约定,读取相应的数据属性标识,进行IO流程的重定向,实现重删后数据的透明无缝访问。
重删服务模块在带外独立运行,其采用多线程设计,充分利用多核***的并行计算能力,提供超高速的重复数据删除功能。本模块读取文件***服务模块导出的文件***日志数据,解析日志内容后进行数据签名的计算、重复数据的检测和删除,完成重删后对数据进行标识。本模块可与文件***服务模块同时运行,通过文件***服务模块内设计的细粒度锁,保证数据处理的原子性,提供可靠的并行数据处理能力。
在一个典型的配置环境里,文件***服务模块、重删服务模块可作为一般应用软件安装到主机***中。在进行了相关的软件配置后,可启动文件***服务模块、重删服务模块,此时已经能够在主机上挂载本发明描述的文件***,并能够进行数据访问。在一段时间的文件***IO完成后,重删服务模块能够自动地进行数据签名的计算,并根据配置参数进行重复数据的检测和删除,并完成重删后数据的标记。
至此,已经完整实现了整个堆叠式重复数据删除文件***,实现了在已有文件***上提供高性能重复数据删除服务的功能,极大的提高了存储***的空间利用率,有效保护了客户投资。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (1)

1.一种堆叠式重复数据删除文件***,其特征在于包括:
文件***服务模块,对于正常的数据,采用直接接口转换的方式将底层文件***的数据导入本文件***中;对于进行了重复数据删除的数据,读取相应的数据属性标识,进行IO流程的重定向,实现重删后数据的透明无缝访问;
重删服务模块,读取文件***服务模块导出的文件***日志数据,解析日志内容后进行数据签名的计算、重复数据的检测和删除,完成重删后对数据进行标识。
CN201310541623.5A 2013-11-05 2013-11-05 一种堆叠式重复数据删除文件*** Pending CN103617177A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310541623.5A CN103617177A (zh) 2013-11-05 2013-11-05 一种堆叠式重复数据删除文件***
PCT/CN2014/089303 WO2015067128A1 (zh) 2013-11-05 2014-10-23 一种堆叠式重复数据删除文件***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310541623.5A CN103617177A (zh) 2013-11-05 2013-11-05 一种堆叠式重复数据删除文件***

Publications (1)

Publication Number Publication Date
CN103617177A true CN103617177A (zh) 2014-03-05

Family

ID=50167880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310541623.5A Pending CN103617177A (zh) 2013-11-05 2013-11-05 一种堆叠式重复数据删除文件***

Country Status (2)

Country Link
CN (1) CN103617177A (zh)
WO (1) WO2015067128A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133888A (zh) * 2014-07-30 2014-11-05 宇龙计算机通信科技(深圳)有限公司 一种多***数据处理方法、装置及终端
CN104391915A (zh) * 2014-11-19 2015-03-04 湖南国科微电子有限公司 一种数据重删方法
WO2015067128A1 (zh) * 2013-11-05 2015-05-14 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件***
CN105205094A (zh) * 2015-08-12 2015-12-30 浪潮(北京)电子信息产业有限公司 一种多控共享存储***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082700A1 (en) * 2008-09-22 2010-04-01 Riverbed Technology, Inc. Storage system for data virtualization and deduplication
US20100082547A1 (en) * 2008-09-22 2010-04-01 Riverbed Technology, Inc. Log Structured Content Addressable Deduplicating Storage
CN101908073A (zh) * 2010-08-13 2010-12-08 清华大学 一种文件***中实时删除重复数据的方法
CN103051671A (zh) * 2012-11-22 2013-04-17 浪潮电子信息产业股份有限公司 一种集群文件***重复数据删除方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0104227D0 (en) * 2001-02-21 2001-04-11 Ibm Information component based data storage and management
CN103279502B (zh) * 2013-05-06 2016-01-20 北京赛思信安技术有限公司 一种具有与并行文件***结合的重复数据删除文件***的架构及方法
CN103617177A (zh) * 2013-11-05 2014-03-05 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082700A1 (en) * 2008-09-22 2010-04-01 Riverbed Technology, Inc. Storage system for data virtualization and deduplication
US20100082547A1 (en) * 2008-09-22 2010-04-01 Riverbed Technology, Inc. Log Structured Content Addressable Deduplicating Storage
CN101908073A (zh) * 2010-08-13 2010-12-08 清华大学 一种文件***中实时删除重复数据的方法
CN103051671A (zh) * 2012-11-22 2013-04-17 浪潮电子信息产业股份有限公司 一种集群文件***重复数据删除方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015067128A1 (zh) * 2013-11-05 2015-05-14 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件***
CN104133888A (zh) * 2014-07-30 2014-11-05 宇龙计算机通信科技(深圳)有限公司 一种多***数据处理方法、装置及终端
CN104133888B (zh) * 2014-07-30 2019-08-02 宇龙计算机通信科技(深圳)有限公司 一种多***数据处理方法、装置及终端
CN104391915A (zh) * 2014-11-19 2015-03-04 湖南国科微电子有限公司 一种数据重删方法
CN104391915B (zh) * 2014-11-19 2016-02-24 湖南国科微电子股份有限公司 一种数据重删方法
CN105205094A (zh) * 2015-08-12 2015-12-30 浪潮(北京)电子信息产业有限公司 一种多控共享存储***

Also Published As

Publication number Publication date
WO2015067128A1 (zh) 2015-05-14

Similar Documents

Publication Publication Date Title
US9852055B2 (en) Multi-level memory compression
US8417912B2 (en) Management of low-paging space conditions in an operating system
CN101866359B (zh) 一种机群文件***中的小文件存储和访问方法
US8345489B2 (en) Caching scheme synergy for extent migration between tiers of a storage system
CN101398823B (zh) 利用虚拟文件***技术实现远程存储的方法及***
CN102158349A (zh) 一种日志管理装置及方法
CN102982182B (zh) 一种数据存储规划方法及装置
CN103051671A (zh) 一种集群文件***重复数据删除方法
CN103067480A (zh) 一种网盘的同步方法及***
CN103617177A (zh) 一种堆叠式重复数据删除文件***
CN103595799A (zh) 一种实现分布式共享数据库的方法
CN103744618A (zh) 实现团队共享存储的方法及***
CN106250571A (zh) 一种etl数据处理的方法及***
CN103942301A (zh) 一种面向多数据类型访问应用的分布式文件***
CN103116475A (zh) 一种自动精简配置扩容的方法
CN103546506B (zh) 无线存储管理***
US8965855B1 (en) Systems and methods for hotspot mitigation in object-based file systems
CN205263797U (zh) 一种采用固态硬盘ssd作为二级缓存的存储器
CN112506490A (zh) 一种接口生成方法、装置、电子设备及存储介质
KR20150128714A (ko) 최적화된 파일 조작을 위한 파일 그룹화 기법
CN202309769U (zh) 一种基于云计算的数据存储***
CN102495902B (zh) 一种同时实现空间数据和属性数据etl过程的方法及***
CN102663140B (zh) 基于tb级全景图像数据快速访问方法
CN105117282A (zh) 一种对输入输出请求进行拆分的方法及装置
CN105138565A (zh) 一种文件处理方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140305