CN111159125A - 一种用于数据存储及数据灾备的块重删技术 - Google Patents

一种用于数据存储及数据灾备的块重删技术 Download PDF

Info

Publication number
CN111159125A
CN111159125A CN201911383032.3A CN201911383032A CN111159125A CN 111159125 A CN111159125 A CN 111159125A CN 201911383032 A CN201911383032 A CN 201911383032A CN 111159125 A CN111159125 A CN 111159125A
Authority
CN
China
Prior art keywords
data
storage
database
deduplication
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911383032.3A
Other languages
English (en)
Other versions
CN111159125B (zh
Inventor
龚立义
胡玉晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baike Data Technology Shenzhen Co ltd
Original Assignee
Baike Data Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baike Data Technology Shenzhen Co ltd filed Critical Baike Data Technology Shenzhen Co ltd
Priority to CN201911383032.3A priority Critical patent/CN111159125B/zh
Publication of CN111159125A publication Critical patent/CN111159125A/zh
Application granted granted Critical
Publication of CN111159125B publication Critical patent/CN111159125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据存储技术领域,且公开了一种用于数据存储及数据灾备的块重删技术,包括以下步骤:创建预存储数据库,将需要存储或者灾备备份数据输入到预存储数据库,预存储数据库在接收到数据之后对数据进行统筹,将数据进行排列存储。该用于数据存储及数据灾备的块重删技术,通过数据分空间存储,在数据重删的过程中能够更好的对象去重,不会错过任何一个数据,在进行数据重删的时候能够更好的去除相同数据,有效的提高了数据存储的效率,通过对比校验技术删除存储设备上重复的数据,只保留其中一份,从而消除冗余数据,优化存储设备的物理空间,从而满足日益增长的数据存储需求,优化了数据库的存储空间。

Description

一种用于数据存储及数据灾备的块重删技术
技术领域
本发明涉及数据存储技术领域,具体为一种用于数据存储及数据灾备的块重删技术。
背景技术
数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息,数据以某种格式记录在计算机内部或外部存储介质上,数据存储要命名,这种命名要反映信息特征的组成含义,数据流反映了***中流动的数据,表现出动态数据的特征,数据存储反映***中静止的数据,表现出静态数据的特征。
根据中国授权发明CN 201710037747.8提出的一种数据存储方法及***,其有益效果为通过标准规则对数据进行筛选,并通过验证规则进行验证,从而对待存储数据进行了合理性筛查,并最终只保存合理的数据,保证了数据的准确性,但是传统的数据存储和备份方式将会把数据存储于一个空间,这样就会出现严重的数据冗余现象,数据冗余将会导致数据库运行速度下降,并且增加了服务器的负担,而且在数据重删的时候会出现多条相同数据难以得到完全删除,故而提出一种用于数据存储及数据灾备的块重删技术。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于数据存储及数据灾备的块重删技术,具备提高数据存储效率和优化存储空间等优点,解决了统的数据存储和备份方式将会把数据存储于一个空间,这样就会出现严重的数据冗余现象,数据冗余将会导致数据库运行速度下降,并且增加了服务器的负担,而且在数据重删的时候会出现多条相同数据难以得到完全删除的问题。
(二)技术方案
为实现上述提高数据存储效率和优化存储空间目的,本发明提供如下技术方案:一种用于数据存储及数据灾备的块重删技术,包括以下步骤:
1)创建预存储数据库,将需要存储或者灾备备份数据输入到预存储数据库,预存储数据库在接收到数据之后对数据进行统筹,将数据进行排列存储;
2)采用数据读取分类软件对读取预存储数据库内部的排列的数据,在读取数据的过程中,对排列好的数据进行逐步读取,第一个读取的数据将会存储与第一个存储空间,第二个读取的数据将会与第一个存储空间内部的数据进行数据流对比,如果数据流与第一个数据存空间内部的数据相似将会跳过此条数据,并将此条数据删除;
3)重复步骤2)中的过程,让数据读取分类软件将预存储数据库内部每个数据进行逐步读取,读取每一条数据之后,提取数据读取分类软件的内部数据库的数据,此时所读取的数据便为去重后的数据;
4)在数据去重完成之后将数据进行存储,此时在数据读取分类软件将会残留数据归类存储数据流,之后输入的数据将会直接输送至数据读取分类软件的内部,对数据进行逐步读取,后将这些数据与先前输入的数据存储于不同的数据块;
5)处理完成之后的多组数据块将会存储有多个去重之后的数据,而这些数据块也会出现相通的数据,此时采用固定分块检测技术将数据块中的数据进行去重;
6)将去重完成之后的数据将会发生至服务器上的数据库内,在客户需要这些数据的时候,客户发送需求,远程服务器得到提取数据的请求,将去重之后的数据发生给客户端。
优选的,所述存储数据和灾备备份数据从客户端获取,由客户点传送给服务器,服务器将数据存储与存储数据库的内部,所述数据统筹将会在sq l数据库中完成。
优选的,所述数据存储空间预设为N+1个,且N为预存储数据库内部接收到的数据流数量,所述重复数据将会被删除并存储于相同数据存储数据库的内部进行备份。
优选的,所述数据读取分类软件采用CommVau lt Ga l axy和Symantec BackupExec等通用的备份应用技术,所述数据块的长度在一个规定的最小值和最大值之间,可变长度的数据块用一个滑动窗口来划分,当滑动窗口的hash值与一个基准值相匹配时就创建一个分块。
优选的,所述相同数据块将采用固定分块检测技术主要通过hash技术进行数据挖掘实现重复数据的查找与删除,所述数据在进行数据去重前应当对原始数据进行备份。
优选的,所述去重数据发生过程中应当将原始数据备份同时发出,所述数据库创建完成之后应对数据库进行初始化,完成一次数据去重之后需要重新创建数据库。
(三)有益效果
与现有技术相比,本发明提供了一种用于数据存储及数据灾备的块重删技术,具备以下有益效果:
1、该用于数据存储及数据灾备的块重删技术,通过数据分空间存储,在进行数据进行去重的时候,对排列好的数据进行逐步读取,第一个读取的数据将会存储与第一个存储空间,第二个读取的数据将会与第一个存储空间内部的数据进行数据流对比,如果数据流与第一个数据存空间内部的数据相似将会跳过此条数据,将多个数据进行逐步对比,从而找出相通的数据流,在数据重删的过程中能够更好的对象去重,不会错过任何一个数据,在进行数据重删的时候能够更好的去除相同数据,有效的提高了数据存储的效率。
2、该用于数据存储及数据灾备的块重删技术,通过数据块,采用固定分块的方法对数据进行重删,固定分块重复数据删除的主要优势在于占用较少的CPU资源,固定分块***不需要CPU开销来检查数据并判断数据块的边界,它们只要将数据分解成数据块,就像其他文件***那样,通过对比校验技术删除存储设备上重复的数据,只保留其中一份,从而消除冗余数据,优化存储设备的物理空间,从而满足日益增长的数据存储需求,优化了数据库的存储空间。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实验例:一种用于数据存储及数据灾备的块重删技术,包括以下步骤:
1)创建预存储数据库,将需要存储或者灾备备份数据输入到预存储数据库,预存储数据库在接收到数据之后对数据进行统筹,将数据进行排列存储,所述存储数据和灾备备份数据从客户端获取,由客户点传送给服务器,服务器将数据存储与存储数据库的内部,所述数据统筹将会在sq l数据库中完成;
2)采用数据读取分类软件对读取预存储数据库内部的排列的数据,在读取数据的过程中,对排列好的数据进行逐步读取,第一个读取的数据将会存储与第一个存储空间,第二个读取的数据将会与第一个存储空间内部的数据进行数据流对比,所述数据存储空间预设为N+1个,且N为预存储数据库内部接收到的数据流数量,所述重复数据将会被删除并存储于相同数据存储数据库的内部进行备份,如果数据流与第一个数据存空间内部的数据相似将会跳过此条数据,并将此条数据删除;
3)重复步骤2)中的过程,让数据读取分类软件将预存储数据库内部每个数据进行逐步读取,所述数据读取分类软件采用CommVau lt Ga l axy和Symantec Backup Exec等通用的备份应用技术,所述数据块的长度在一个规定的最小值和最大值之间,可变长度的数据块用一个滑动窗口来划分,当滑动窗口的hash值与一个基准值相匹配时就创建一个分块,读取每一条数据之后,提取数据读取分类软件的内部数据库的数据,此时所读取的数据便为去重后的数据;
4)在数据去重完成之后将数据进行存储,此时在数据读取分类软件将会残留数据归类存储数据流,之后输入的数据将会直接输送至数据读取分类软件的内部,对数据进行逐步读取,后将这些数据与先前输入的数据存储于不同的数据块,所述相同数据块将采用固定分块检测技术主要通过hash技术进行数据挖掘实现重复数据的查找与删除,所述数据在进行数据去重前应当对原始数据进行备份;
5)处理完成之后的多组数据块将会存储有多个去重之后的数据,而这些数据块也会出现相通的数据,此时采用固定分块检测技术将数据块中的数据进行去重;
6)将去重完成之后的数据将会发生至服务器上的数据库内,在客户需要这些数据的时候,客户发送需求,远程服务器得到提取数据的请求,将去重之后的数据发生给客户端,所述去重数据发生过程中应当将原始数据备份同时发出,所述数据库创建完成之后应对数据库进行初始化,完成一次数据去重之后需要重新创建数据库。
实验后证明,数据在经过重删之后,内部的重复数据将会被删除,解决了数据的冗余情况,减少了数据在存储过程中出现重复数据过多的情况,释放了数据库的空间,同时减少了服务器的负担,服务器在读取数据的时候能够快速的进行数据读取,不会重复读取多个相通的数据。
本发明的有益效果是:该用于数据存储及数据灾备的块重删技术,通过数据分空间存储,在进行数据进行去重的时候,对排列好的数据进行逐步读取,第一个读取的数据将会存储与第一个存储空间,第二个读取的数据将会与第一个存储空间内部的数据进行数据流对比,如果数据流与第一个数据存空间内部的数据相似将会跳过此条数据,将多个数据进行逐步对比,从而找出相通的数据流,在数据重删的过程中能够更好的对象去重,不会错过任何一个数据,在进行数据重删的时候能够更好的去除相同数据,有效的提高了数据存储的效率,而且,通过数据块,采用固定分块的方法对数据进行重删,固定分块重复数据删除的主要优势在于占用较少的CPU资源,固定分块***不需要CPU开销来检查数据并判断数据块的边界,它们只要将数据分解成数据块,就像其他文件***那样,通过对比校验技术删除存储设备上重复的数据,只保留其中一份,从而消除冗余数据,优化存储设备的物理空间,从而满足日益增长的数据存储需求,优化了数据库的存储空间,解决了统的数据存储和备份方式将会把数据存储于一个空间,这样就会出现严重的数据冗余现象,数据冗余将会导致数据库运行速度下降,并且增加了服务器的负担,而且在数据重删的时候会出现多条相同数据难以得到完全删除的问题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种用于数据存储及数据灾备的块重删技术,其特征在于,包括以下步骤:
1)创建预存储数据库,将需要存储或者灾备备份数据输入到预存储数据库,预存储数据库在接收到数据之后对数据进行统筹,将数据进行排列存储;
2)采用数据读取分类软件对读取预存储数据库内部的排列的数据,在读取数据的过程中,对排列好的数据进行逐步读取,第一个读取的数据将会存储与第一个存储空间,第二个读取的数据将会与第一个存储空间内部的数据进行数据流对比,如果数据流与第一个数据存空间内部的数据相似将会跳过此条数据,并将此条数据删除;
3)重复步骤2)中的过程,让数据读取分类软件将预存储数据库内部每个数据进行逐步读取,读取每一条数据之后,提取数据读取分类软件的内部数据库的数据,此时所读取的数据便为去重后的数据;
4)在数据去重完成之后将数据进行存储,此时在数据读取分类软件将会残留数据归类存储数据流,之后输入的数据将会直接输送至数据读取分类软件的内部,对数据进行逐步读取,后将这些数据与先前输入的数据存储于不同的数据块;
5)处理完成之后的多组数据块将会存储有多个去重之后的数据,而这些数据块也会出现相通的数据,此时采用固定分块检测技术将数据块中的数据进行去重;
6)将去重完成之后的数据将会发生至服务器上的数据库内,在客户需要这些数据的时候,客户发送需求,远程服务器得到提取数据的请求,将去重之后的数据发生给客户端。
2.根据权利要求1所述的一种用于数据存储及数据灾备的块重删技术,其特征在于:所述存储数据和灾备备份数据从客户端获取,由客户点传送给服务器,服务器将数据存储与存储数据库的内部,所述数据统筹将会在sql数据库中完成。
3.根据权利要求1所述的一种用于数据存储及数据灾备的块重删技术,其特征在于:所述数据存储空间预设为N+1个,且N为预存储数据库内部接收到的数据流数量,所述重复数据将会被删除并存储于相同数据存储数据库的内部进行备份。
4.根据权利要求1所述的一种用于数据存储及数据灾备的块重删技术,其特征在于:所述数据读取分类软件采用CommVault Galaxy和Symantec Backup Exec等通用的备份应用技术,所述数据块的长度在一个规定的最小值和最大值之间,可变长度的数据块用一个滑动窗口来划分,当滑动窗口的hash值与一个基准值相匹配时就创建一个分块。
5.根据权利要求1所述的一种用于数据存储及数据灾备的块重删技术,其特征在于:所述相同数据块将采用固定分块检测技术主要通过hash技术进行数据挖掘实现重复数据的查找与删除,所述数据在进行数据去重前应当对原始数据进行备份。
6.根据权利要求1所述的一种用于数据存储及数据灾备的块重删技术,其特征在于:所述去重数据发生过程中应当将原始数据备份同时发出,所述数据库创建完成之后应对数据库进行初始化,完成一次数据去重之后需要重新创建数据库。
CN201911383032.3A 2019-12-27 2019-12-27 一种用于数据存储及数据灾备的块重删技术 Active CN111159125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911383032.3A CN111159125B (zh) 2019-12-27 2019-12-27 一种用于数据存储及数据灾备的块重删技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911383032.3A CN111159125B (zh) 2019-12-27 2019-12-27 一种用于数据存储及数据灾备的块重删技术

Publications (2)

Publication Number Publication Date
CN111159125A true CN111159125A (zh) 2020-05-15
CN111159125B CN111159125B (zh) 2023-05-23

Family

ID=70558775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911383032.3A Active CN111159125B (zh) 2019-12-27 2019-12-27 一种用于数据存储及数据灾备的块重删技术

Country Status (1)

Country Link
CN (1) CN111159125B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN106843760A (zh) * 2017-01-17 2017-06-13 郑州云海信息技术有限公司 一种基于重删的异步远程复制***及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN106843760A (zh) * 2017-01-17 2017-06-13 郑州云海信息技术有限公司 一种基于重删的异步远程复制***及方法

Also Published As

Publication number Publication date
CN111159125B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
US10678435B2 (en) Deduplication and compression of data segments in a data storage system
US9430156B1 (en) Method to increase random I/O performance with low memory overheads
US9514146B1 (en) System and method for improving data compression of a storage system in an online manner
US20190171624A1 (en) System and method for balancing compression and read performance in a storage system
CN102246137B (zh) 身份副本删除之后的delta压缩
US9367557B1 (en) System and method for improving data compression
US9411815B1 (en) System and method for improving data compression in a deduplicated storage system
US9298726B1 (en) Techniques for using a bloom filter in a duplication operation
US8321384B2 (en) Storage device, and program and method for controlling storage device
US8799238B2 (en) Data deduplication
US8442942B2 (en) Combining hash-based duplication with sub-block differencing to deduplicate data
JP5732536B2 (ja) 重複排除に基づくストレージシステムにおけるスケーラブル参照管理のためのシステム、方法及び非一時的なコンピュータ可読ストレージ媒体
US8812738B2 (en) Method and apparatus for content-aware and adaptive deduplication
US8447740B1 (en) Stream locality delta compression
CN103020255B (zh) 分级存储方法和装置
CN106815326B (zh) 一种检测无主键数据表一致性的***及方法
WO2017096532A1 (zh) 一种数据保存方法和装置
US20120303595A1 (en) Data restoration method for data de-duplication
US10366072B2 (en) De-duplication data bank
CN102782643A (zh) 使用布隆过滤器的索引搜索
WO2012065408A1 (zh) 容灾数据备份的方法及***
CN112612576B (zh) 虚拟机备份方法、装置、电子设备及存储介质
CN104965835B (zh) 一种分布式文件***的文件读写方法及装置
CN106980680B (zh) 数据存储方法及存储设备
CN106990914B (zh) 数据删除方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No.3333 Liuxian Avenue, Fuguang community, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000

Applicant after: BAIKE DATA TECHNOLOGY (SHENZHEN) CO.,LTD.

Address before: Room 701-C, Floor 7, Bike Science and Technology Building, No. 9, Scientific Research Road, Middle District, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: BAIKE DATA TECHNOLOGY (SHENZHEN) CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant