CN105389387B - 一种基于压缩的重复数据删除性能及重删率提升的方法和*** - Google Patents

一种基于压缩的重复数据删除性能及重删率提升的方法和*** Download PDF

Info

Publication number
CN105389387B
CN105389387B CN201510918539.XA CN201510918539A CN105389387B CN 105389387 B CN105389387 B CN 105389387B CN 201510918539 A CN201510918539 A CN 201510918539A CN 105389387 B CN105389387 B CN 105389387B
Authority
CN
China
Prior art keywords
data
duplication
length
compressed
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510918539.XA
Other languages
English (en)
Other versions
CN105389387A (zh
Inventor
吴植民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN201510918539.XA priority Critical patent/CN105389387B/zh
Publication of CN105389387A publication Critical patent/CN105389387A/zh
Application granted granted Critical
Publication of CN105389387B publication Critical patent/CN105389387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于压缩的重复数据删除性能及重删率提升的方法,包括步骤:S1、获取即将发送的重复数据删除后的数据及长度;S2、对所述重复数据删除后的数据进行压缩;S3、将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;S4、将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;S5、将对比后的差值加入计算重删比的数值中。能够提升重复数据删除的重删比及性能,从而更好的缩减数据存储空间占用、网络带宽占用、数据保护窗口时间。

Description

一种基于压缩的重复数据删除性能及重删率提升的方法和 ***
技术领域
本发明涉及重复数据删除领域,特别是涉及一种基于压缩的重复数据删除性能及重删率提升的方法和***。
背景技术
随着计算机的不断发展,计算机中存在的有效数据越来越多。大量数据的累积给数据保护带来了极大的挑战,为了解决这个难题,很多厂商提出了重复数据删除的解决方案。
重复数据删除能通过比对现有数据和已有数据的指纹去除重复的数据,从而减少存储空间占用、减少网络带宽占用、缩短数据保护的窗口时间等。虽然各个厂商实现重复数据删除的技术都很类似,但达到的效果则存在很大的差异。其中重删比、性能则是检测重复数据删除优劣的两个关键点。如果重删比低下则会导致存储空间占用、网络带宽占用、数据保护窗口时间的减少效果不明显,从而达不到重复数据删除想到达到的效果。如果重复数据删除性能低下则将导致数据保护窗口时间变长,从而无法及时的保护数据,也对大数据量的数据保护带来新的挑战。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于压缩的重复数据删除性能及重删率提升的方法和***,用于解决现有技术中重删比低下则会导致存储空间占用、网络带宽占用、数据保护窗口时间的减少效果不明显,从而达不到重复数据删除想到达到的效果;重复数据删除性能低下则将导致数据保护窗口时间变长,从而无法及时的保护数据的问题。
为实现上述目的及其他相关目的,本发明提供一种基于压缩的重复数据删除性能及重删率提升的方法,包括步骤:S1、获取即将发送的重复数据删除后的数据及长度;S2、对所述重复数据删除后的数据进行压缩;S3、将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;S4、将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;S5、将对比后的差值加入计算重删比的数值中。
于本发明的一实施例中,所述步骤S2还包括步骤:
S21、根据所述重复数据删除后的数据长度获取最大压缩后长度;
S22、根据所述最大压缩后长度分配内存空间用于存储压缩后的数据;
S23、根据所述重复数据删除后的数据长度对所述重复数据删除后的数据进行压缩并得到所述压缩后的数据及压缩后的数据长度;
S24、将所述压缩后的数据拷贝到所述内存空间。
于本发明的一实施例中,所述步骤S1之前还包括步骤:对即将存储的数据中的重复数据进行删除并在删除后进行发送和存储。
于本发明的一实施例中,所述步骤S5之后还包括步骤:重复执行步骤S1至S5,直至需要存储的数据中的重复数据全部删除并完成存储后停止。
本发明还提供了一种基于压缩的重复数据删除性能及重删率提升的***,包括:数据获取模块,用于获取即将发送的重复数据删除后的数据及长度;数据压缩模块,用于对所述重复数据删除后的数据进行压缩;数据替换模块,用于将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;数据对比模块,用于将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;并将对比后的差值加入计算重删比的数值中。
于本发明的一实施例中,所述数据压缩模块包括:长度获取单元,用于根据所述重复数据删除后的数据长度获取最大压缩后长度;内存分配单元,用于根据所述最大压缩后长度分配内存空间用于存储压缩后的数据;数据压缩单元,用于根据所述重复数据删除后的数据长度对所述重复数据删除后的数据进行压缩并得到所述压缩后的数据及压缩后的数据长度;数据拷贝单元,用于将所述压缩后的数据拷贝到所述内存空间。
于本发明的一实施例中,所述基于压缩的重复数据删除性能及重删率提升的***还包括:数据处理模块,用于对即将存储的数据中的重复数据进行删除并在删除后进行发送和存储。
如上所述,本发明的基于压缩的重复数据删除性能及重删率提升的方法和***,具有以下有益效果:能够提升重复数据删除的重删比及性能,从而更好的缩减数据存储空间占用、网络带宽占用、数据保护窗口时间。
附图说明
图1显示为本发明基于压缩的重复数据删除性能及重删率提升的方法的一实施例中的流程方框示意图。
图2显示为本发明基于压缩的重复数据删除性能及重删率提升的***的一实施例中的***方框示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1至2。如图1所示,图1显示为本发明基于压缩的重复数据删除性能及重删率提升的方法的一实施例中的流程方框示意图。本发明提供了一种基于压缩的重复数据删除性能及重删率提升的方法,包括步骤:
S1、获取即将发送的重复数据删除后的数据及长度;
S2、对所述重复数据删除后的数据进行压缩;进一步地,所述步骤S2还包括步骤:S21、根据所述重复数据删除后的数据长度获取最大压缩后长度;S22、根据所述最大压缩后长度分配内存空间用于存储压缩后的数据;S23、根据所述重复数据删除后的数据长度对所述重复数据删除后的数据进行压缩并得到所述压缩后的数据及压缩后的数据长度;S24、将所述压缩后的数据拷贝到所述内存空间。
S3、将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;
S4、将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;
S5、将对比后的差值加入计算重删比的数值中。
进一步地,所述步骤S1之前还包括步骤:对即将存储的数据中的重复数据进行删除并在删除后进行发送和存储。
进一步地,所述步骤S5之后还包括步骤:重复执行步骤S1至S5,直至需要存储的数据中的重复数据全部删除并完成存储后停止。
以下以一个具体的实施方式为例进行说明。本实施例中,采用的重复数据删除***为AnyBackup 6.0重复数据删除***,操作***使用RedHat Enterprise Linux 5;将需要保护的数据为命名为test的文件,设定其数据量为100GB。基于压缩的重复数据删除性能及重删率提升的方法的步骤包括:
1、通过AnyBackup 6.0重复数据删除***对需要保护的数据test进行保护。
2、获取步骤1即将发送的重复数据删除后的数据及其长度。
3、对步骤2中获取的重复数据删除后的数据进行压缩。压缩的步骤如下:
3.1、根据步骤2中获取的重复数据删除后的数据长度获取最大压缩后长度。
3.2、根据步骤3.1中获取的最大压缩后长度分配内存空间用于存储压缩后的数据。
3.3、根据步骤2中获取的重复数据删除后的数据长度对步骤2中获取的重复数据删除后的数据进行压缩并得到压缩后的数据及压缩后的数据长度。
3.4、将步骤3.3中得到的压缩后的数据拷贝到步骤3.1中分配的内存空间。
4、将步骤3.4执行后的压缩后的数据及其长度替换步骤2中即将发送的重复数据删除后的数据及其长度。
5、将步骤2中即将发送的重复数据删除后的数据长度和步骤4执行后即将发送的压缩后的重复数据删除后的数据长度进行对比。
6、将步骤5对比后的差值加入计算重删比的数值中。
7、重复步骤1直至步骤6中需要保护的数据test完全保护完成。
由此可以看出,本发明的基于压缩的重复数据删除性能及重删率提升的方法,能够提升重复数据删除的重删比及性能,从而更好的缩减数据存储空间占用、网络带宽占用、数据保护窗口时间。
如图2所示,图2显示为本发明基于压缩的重复数据删除性能及重删率提升的***的一实施例中的***方框示意图。
本发明还提用了一种基于压缩的重复数据删除性能及重删率提升的***,包括:数据获取模块,用于获取即将发送的重复数据删除后的数据及长度;数据压缩模块,用于对所述重复数据删除后的数据进行压缩。数据替换模块,用于将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;数据对比模块,用于将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;并将对比后的差值加入计算重删比的数值中。在本发明的一优选实施例中,所述数据压缩模块包括:长度获取单元,用于根据所述重复数据删除后的数据长度获取最大压缩后长度;内存分配单元,用于根据所述最大压缩后长度分配内存空间用于存储压缩后的数据;数据压缩单元,用于根据所述重复数据删除后的数据长度对所述重复数据删除后的数据进行压缩并得到所述压缩后的数据及压缩后的数据长度;数据拷贝单元,用于将所述压缩后的数据拷贝到所述内存空间。
此外所述基于压缩的重复数据删除性能及重删率提升的***还包括:数据处理模块,用于对即将存储的数据中的重复数据进行删除并在删除后进行发送和存储。
综上所述,本发明的基于压缩的重复数据删除性能及重删率提升的方法和***,能够提升重复数据删除的重删比及性能,从而更好的缩减数据存储空间占用、网络带宽占用、数据保护窗口时间。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (5)

1.一种基于压缩的重复数据删除性能及重删率提升的方法,其特征在于,包括步骤:
S1、获取即将发送的重复数据删除后的数据及长度;
S2、对所述重复数据删除后的数据进行压缩;
S3、将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;
S4、将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;
S5、将对比后的差值加入计算重删比的数值中;
所述步骤S2还包括步骤:
S21、根据所述重复数据删除后的数据长度获取最大压缩后长度;
S22、根据所述最大压缩后长度分配内存空间用于存储压缩后的数据;
S23、根据所述重复数据删除后的数据长度对所述重复数据删除后的数据进行压缩并得到所述压缩后的数据及压缩后的数据长度;
S24、将所述压缩后的数据拷贝到所述内存空间。
2.根据权利要求1所述的基于压缩的重复数据删除性能及重删率提升的方法,其特征在于,所述步骤S1之前还包括步骤:对即将存储的数据中的重复数据进行删除并在删除后进行发送和存储。
3.根据权利要求1所述的基于压缩的重复数据删除性能及重删率提升的方法,其特征在于,所述步骤S5之后还包括步骤:重复执行步骤S1至S5,直至需要存储的数据中的重复数据全部删除并完成存储后停止。
4.一种基于压缩的重复数据删除性能及重删率提升的***,其特征在于,包括:
数据获取模块,用于获取即将发送的重复数据删除后的数据及长度;
数据压缩模块,用于对所述重复数据删除后的数据进行压缩;
数据替换模块,用于将压缩后的数据及其长度替换所述重复数据删除后的数据及其长度;
数据对比模块,用于将所述重复数据删除后的数据长度和所述压缩后的数据长度进行对比;并将对比后的差值加入计算重删比的数值中;
所述数据压缩模块包括:
长度获取单元,用于根据所述重复数据删除后的数据长度获取最大压缩后长度;
内存分配单元,用于根据所述最大压缩后长度分配内存空间用于存储压缩后的数据;
数据压缩单元,用于根据所述重复数据删除后的数据长度对所述重复数据删除后的数据进行压缩并得到所述压缩后的数据及压缩后的数据长度;
数据拷贝单元,用于将所述压缩后的数据拷贝到所述内存空间。
5.根据权利要求4所述的基于压缩的重复数据删除性能及重删率提升的***,其特征在于,所述基于压缩的重复数据删除性能及重删率提升的***还包括:
数据处理模块,用于对即将存储的数据中的重复数据进行删除并在删除后进行发送和存储。
CN201510918539.XA 2015-12-11 2015-12-11 一种基于压缩的重复数据删除性能及重删率提升的方法和*** Active CN105389387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510918539.XA CN105389387B (zh) 2015-12-11 2015-12-11 一种基于压缩的重复数据删除性能及重删率提升的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510918539.XA CN105389387B (zh) 2015-12-11 2015-12-11 一种基于压缩的重复数据删除性能及重删率提升的方法和***

Publications (2)

Publication Number Publication Date
CN105389387A CN105389387A (zh) 2016-03-09
CN105389387B true CN105389387B (zh) 2018-12-14

Family

ID=55421677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510918539.XA Active CN105389387B (zh) 2015-12-11 2015-12-11 一种基于压缩的重复数据删除性能及重删率提升的方法和***

Country Status (1)

Country Link
CN (1) CN105389387B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106648469B (zh) * 2016-12-29 2020-01-17 华为技术有限公司 一种缓存数据处理方法、装置和存储控制器
CN109116146A (zh) * 2018-07-27 2019-01-01 南京瑞贻电子科技有限公司 一种具有自动化删除无价值数据的录波分析仪
CN109408036A (zh) * 2018-09-07 2019-03-01 安徽恒科信息技术有限公司 一种敏捷开发平台
EP4357900A1 (en) * 2021-07-08 2024-04-24 Huawei Technologies Co., Ltd. Data processing method and apparatus

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937371B2 (en) * 2008-03-14 2011-05-03 International Business Machines Corporation Ordering compression and deduplication of data
CN102156703A (zh) * 2011-01-24 2011-08-17 南开大学 一种低功耗的高性能重复数据删除***
CN102831222A (zh) * 2012-08-24 2012-12-19 华中科技大学 一种基于重复数据删除的差量压缩方法
CN103020317A (zh) * 2013-01-10 2013-04-03 曙光信息产业(北京)有限公司 基于重复数据删除的数据压缩方法和装置
CN103152430A (zh) * 2013-03-21 2013-06-12 河海大学 一种缩减数据占用空间的云存储方法
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除***及其删除方法
CN105022788A (zh) * 2015-06-19 2015-11-04 江苏新通达电子科技股份有限公司 PNG图片格式的bin文件无损压缩算法及全液晶仪表显示***
CN105027122A (zh) * 2013-01-02 2015-11-04 甲骨文国际公司 压缩和重复数据删除分层驱动

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937371B2 (en) * 2008-03-14 2011-05-03 International Business Machines Corporation Ordering compression and deduplication of data
CN102156703A (zh) * 2011-01-24 2011-08-17 南开大学 一种低功耗的高性能重复数据删除***
CN102831222A (zh) * 2012-08-24 2012-12-19 华中科技大学 一种基于重复数据删除的差量压缩方法
CN105027122A (zh) * 2013-01-02 2015-11-04 甲骨文国际公司 压缩和重复数据删除分层驱动
CN103020317A (zh) * 2013-01-10 2013-04-03 曙光信息产业(北京)有限公司 基于重复数据删除的数据压缩方法和装置
CN103152430A (zh) * 2013-03-21 2013-06-12 河海大学 一种缩减数据占用空间的云存储方法
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除***及其删除方法
CN105022788A (zh) * 2015-06-19 2015-11-04 江苏新通达电子科技股份有限公司 PNG图片格式的bin文件无损压缩算法及全液晶仪表显示***

Also Published As

Publication number Publication date
CN105389387A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105389387B (zh) 一种基于压缩的重复数据删除性能及重删率提升的方法和***
Rashmi et al. Having your cake and eating it too: Jointly optimal erasure codes for {I/O}, storage, and network-bandwidth
US9477682B1 (en) Parallel compression of data chunks of a shared data object using a log-structured file system
CN104239493B (zh) 跨集群数据迁移方法和***
US9851917B2 (en) Method for de-duplicating data and apparatus therefor
US7937371B2 (en) Ordering compression and deduplication of data
CN103345423A (zh) 一种处理异步任务的方法和***
CN104239518A (zh) 重复数据删除方法和装置
CN104571955A (zh) 提高存储容量的方法和装置
CN104765693A (zh) 一种用于存储数据的方法、装置和***
CN103258030B (zh) 基于字典与游长编码的移动设备内存压缩方法
US9916319B2 (en) Effective method to compress tabular data export files for data movement
TW201423449A (zh) 壓縮包上傳去重系統及方法
CN109918018A (zh) 一种数据存储方法及存储设备
CN104574282A (zh) 点云噪声点去除***及方法
CN107850983B (zh) 计算机***、存储装置和数据的管理方法
CN104391727A (zh) 数据烧写方法、***、烧写设备以及目标设备
CN105824881A (zh) 一种基于负载均衡的重复数据删除数据放置方法器
CN108984207A (zh) 一种安装包无效资源文件检测的方法
CN102469142A (zh) 重复数据删除程序的数据传输方法
CN104461737A (zh) 一种内存管理方法和装置
CN104408126B (zh) 一种数据库的持久化写入方法、装置和***
CN103810297B (zh) 基于重删技术的写方法、读方法、写装置和读装置
CN104484132A (zh) 数据缩减的方法及装置
CN104063374A (zh) 一种对数据进行去重的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant