CN103198119A - 一种快速查找具有相同重复数据删除标识的所有链接文件的方法 - Google Patents
一种快速查找具有相同重复数据删除标识的所有链接文件的方法 Download PDFInfo
- Publication number
- CN103198119A CN103198119A CN2013101121259A CN201310112125A CN103198119A CN 103198119 A CN103198119 A CN 103198119A CN 2013101121259 A CN2013101121259 A CN 2013101121259A CN 201310112125 A CN201310112125 A CN 201310112125A CN 103198119 A CN103198119 A CN 103198119A
- Authority
- CN
- China
- Prior art keywords
- module
- redundancy
- performance
- searching
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种快速查找具有相同重复数据删除标识的所有链接文件的方法,是以高性能高并发数据库为核心,通过整合遍历接口、内核钩子模块和冗余查找模块,使该查找方法达到比较高的效率,该方法的模块结构包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4)内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高***的整体性能。冗余查找模块提供了冗余配置,从而提高***的高可用性。很少需要遍历整个文件***目录树进行查找,极为高效。
Description
技术领域
本发明涉及计算机应用技术领域,具体涉及一种快速查找具有相同重复数据删除标识的所有链接文件的方法。
背景技术
进入21世纪以来,随着信息时代的加速,企业数据呈现出***性增长的趋势,特别是移动互联网、物联网和云计算的发展更加剧了数据的***式增长。IDC报告指出,全球数据量每年以60%的速度递增,2010年全球数据量达1.8ZB,2015年将达到8ZB,2020年将达到35ZB,标志着“大数据”时代的到来。数据增长带来如下巨大的问题:成本急剧增加、带宽压力大、耗能问题严重、设备空间占用巨大、靠增加设备无法彻底解决数据量激增的问题等问题,同时,世界所面临的能源问题日益严峻,在高科技的IT领域能源浪费和环保更加引人注目。互联网的广泛使用让大型企业、政府机关、金融机构的信息中心规模日益膨胀,数据交换增加,设备堆积成山,占地面积越来越多,耗电量屡创新高。为实现信息和管理优化,在构建企业信息架构时,更加呼吁绿色的节能技术。节约能源,减少电力消耗,降低***成本,急需研究面向新兴应用的新型绿色存储技术。在这个大趋势下,重复数据删除技术蕴育而生,重复数据删除技术能够有效地减少用户存储***中的重复数据,从而为用户节省了存储容量,降低存储成本和管理难度。
现有的查找具有同一重复数据删除标识的所有链接文件方法都必须逐次遍历整个文件***目录树,并对每一个查找到的文件,获取其标识并进行比较,对于十亿级别文件目录的遍历将耗费大量的时间和资源,在数据重删技术中,按照重删的方法可以分为:文件级重删和块级重删。在文件级的重删方案中,需要对内容重复的文件保存一个副本,并在重复文件所在的路径处建立到这个副本的链接(包含证明文件内容一致的重复数据删除标识,一般是文件内容的哈希值)。当需要快速恢复具有同一文件内容的多个路径下的文件时,如何快速查找到具有相同内容的所有文件链接路径的方法就极为重要。
发明内容
本发明的目的是提供一种快速查找具有相同重复数据删除标识的所有链接文件的方法。
现有的查找具有同一重复数据删除标识的所有链接文件方法都必须逐次遍历整个文件***目录树,并对每一个查找到的文件,获取其标识并进行比较,对于十亿级别文件目录的遍历将耗费大量的时间和资源。
本发明的目的是按以下方式实现的:
本发明的结构是高性能高并发数据库为中心的方法,该***体系结构包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4),内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高***的整体性能,其中:
高性能高并发数据库(1)是体系结构的核心,负责存放大量的硬链接信息,并支持多进程、多线程高并发访问;
内核钩子模块(2)主要负责建立链接文件时的信息收集及信息存放,支持多线程并发;
遍历接口模块(3)为上层应用程序遍历***提供调用接口;
冗余查找模块(4)的作用为在高性能高并发数据库(1)中没有所需要的信息时,遍历整个存储***,进行冗余查找,并将查找到的信息放入高性能高并发数据库(1)中。
本发明的有益效果是:内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高***的整体性能。冗余查找模块提供了冗余配置,从而提高***的高可用性。很少需要遍历整个文件***目录树进行查找,极为高效。
附图说明
图1是传统的查找具有同一标识的所有硬链接路径拓扑图;
图2是快速查找具有相同重复数据文件标识的所有链接文件流程示意图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
正如发明内容中所描述的,本发明体系结构主要包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4)。
我们提出的基于高性能高并发数据库的快速查找具有一种快速查找具有相同重复数据删除标识的所有链接文件方法以高性能高并发数据库为核心,其特征在于在方法中,内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高***的整体性能。内核钩子模块、遍历接口模块、冗余查找模块进行冗余配置,从而提高***的高可用性。如图2所示,本***体系结构主要包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4)。
高性能高并发数据库作为此方法的核心,起到信息存储和高速并发查找等作用。
内核钩子模块注册进内核,建立链接文件的函数转入内核执行时,使用内核钩子程序,将文件路径及重复数据删除标识等信息存放入高性能高并发数据库,并将重复数据删除标识写入链接文件。
遍历接口模块提供遍历调用的接口,是各种查找函数的入口,查找时,首先进入高性能高并发数据库进行查找,如果能够找到数据库键值与查找的标识匹配,则将该键值对应的内容返回给调用函数,否则进入冗余查找模块进行查找。
冗余查找模块将以深度遍历或广度遍历方法遍历整个文件***目录树,对每个文件获取其标识并和查找关键字对比,直到遍历完整个文件***目录树,将得到的结果返回。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (3)
1.一种快速查找具有相同重复数据删除标识的所有链接文件的方法,其特征在于,以高性能高并发数据库为核心,通过整合遍历接口、内核钩子模块和冗余查找模块,使该查找方法达到比较高的效率,该方法的模块结构包括:高性能高并发数据库(1),内核钩子模块(2)、遍历接口模块(3)、冗余查找模块(4)其中:
高性能高并发数据库(1)是结构的核心,负责存放大量的链接文件路径信息,并支持多进程、多线程高并发访问;
内核钩子模块(2)主要负责建立链接文件时的信息收集及信息存放,支持多线程并发;
遍历接口模块(3)为上层应用程序遍历***提供调用接口;
冗余查找模块(4)的作用为在高性能高并发数据库(1)中没有所需要的信息时,遍历整个存储***,进行冗余查找,并将查找到的信息放入高性能高并发数据库(1)中。
2.根据权利要求1所述的方法,其特征在于内核钩子模块、遍历接口模块、冗余查找模块支持高并发的多进程多线程操作,从而提高***的整体性能。
3.根据权利要求1所述的方法,其特征在于冗余查找模块提供了方法的冗余配置,从而提高***的高可用性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101121259A CN103198119A (zh) | 2013-04-02 | 2013-04-02 | 一种快速查找具有相同重复数据删除标识的所有链接文件的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101121259A CN103198119A (zh) | 2013-04-02 | 2013-04-02 | 一种快速查找具有相同重复数据删除标识的所有链接文件的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103198119A true CN103198119A (zh) | 2013-07-10 |
Family
ID=48720677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101121259A Pending CN103198119A (zh) | 2013-04-02 | 2013-04-02 | 一种快速查找具有相同重复数据删除标识的所有链接文件的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103198119A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024511A1 (en) * | 2013-08-21 | 2015-02-26 | International Business Machines Corporation | Adding cooperative file coloring in similarity based deduplication system |
CN106469167A (zh) * | 2015-08-18 | 2017-03-01 | 北大方正集团有限公司 | 文件状态的显示方法和文件状态的显示*** |
CN107239314A (zh) * | 2016-03-28 | 2017-10-10 | 苏州简约纳电子有限公司 | Asn.1编译过程中重复定义数据结构的去除方法 |
US9830229B2 (en) | 2013-08-21 | 2017-11-28 | International Business Machines Corporation | Adding cooperative file coloring protocols in a data deduplication system |
CN108009049A (zh) * | 2017-11-28 | 2018-05-08 | 厦门市美亚柏科信息股份有限公司 | Myisam存储引擎删除记录离线恢复方法、存储介质 |
WO2018113210A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市易特科信息技术有限公司 | 医疗信息化重复医疗文件删除***及方法 |
CN109308284A (zh) * | 2018-09-28 | 2019-02-05 | 中国平安财产保险股份有限公司 | 报表菜单生成方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007041456A2 (en) * | 2005-09-30 | 2007-04-12 | Neopath Networks, Inc. | Accumulating access frequency and file attributes for supporting policy based storage management |
CN101719936A (zh) * | 2009-12-09 | 2010-06-02 | 成都市华为赛门铁克科技有限公司 | 提供文件下载服务的方法、装置及缓存*** |
CN102289451A (zh) * | 2011-06-17 | 2011-12-21 | 奇智软件(北京)有限公司 | 文件或文件夹查找方法和装置 |
CN102609453A (zh) * | 2012-01-11 | 2012-07-25 | 中国农业大学 | 一种嵌入式文件搜索方法及*** |
-
2013
- 2013-04-02 CN CN2013101121259A patent/CN103198119A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007041456A2 (en) * | 2005-09-30 | 2007-04-12 | Neopath Networks, Inc. | Accumulating access frequency and file attributes for supporting policy based storage management |
CN101719936A (zh) * | 2009-12-09 | 2010-06-02 | 成都市华为赛门铁克科技有限公司 | 提供文件下载服务的方法、装置及缓存*** |
CN102289451A (zh) * | 2011-06-17 | 2011-12-21 | 奇智软件(北京)有限公司 | 文件或文件夹查找方法和装置 |
CN102609453A (zh) * | 2012-01-11 | 2012-07-25 | 中国农业大学 | 一种嵌入式文件搜索方法及*** |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024511A1 (en) * | 2013-08-21 | 2015-02-26 | International Business Machines Corporation | Adding cooperative file coloring in similarity based deduplication system |
US9542411B2 (en) | 2013-08-21 | 2017-01-10 | International Business Machines Corporation | Adding cooperative file coloring in a similarity based deduplication system |
US9830229B2 (en) | 2013-08-21 | 2017-11-28 | International Business Machines Corporation | Adding cooperative file coloring protocols in a data deduplication system |
US11048594B2 (en) | 2013-08-21 | 2021-06-29 | International Business Machines Corporation | Adding cooperative file coloring protocols in a data deduplication system |
CN106469167A (zh) * | 2015-08-18 | 2017-03-01 | 北大方正集团有限公司 | 文件状态的显示方法和文件状态的显示*** |
CN106469167B (zh) * | 2015-08-18 | 2019-06-28 | 北大方正集团有限公司 | 文件状态的显示方法和文件状态的显示*** |
CN107239314A (zh) * | 2016-03-28 | 2017-10-10 | 苏州简约纳电子有限公司 | Asn.1编译过程中重复定义数据结构的去除方法 |
CN107239314B (zh) * | 2016-03-28 | 2020-09-01 | 苏州简约纳电子有限公司 | Asn.1编译过程中重复定义数据结构的去除方法 |
WO2018113210A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳市易特科信息技术有限公司 | 医疗信息化重复医疗文件删除***及方法 |
CN108009049A (zh) * | 2017-11-28 | 2018-05-08 | 厦门市美亚柏科信息股份有限公司 | Myisam存储引擎删除记录离线恢复方法、存储介质 |
CN109308284A (zh) * | 2018-09-28 | 2019-02-05 | 中国平安财产保险股份有限公司 | 报表菜单生成方法、装置、计算机设备及存储介质 |
CN109308284B (zh) * | 2018-09-28 | 2023-09-19 | 中国平安财产保险股份有限公司 | 报表菜单生成方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102222085B (zh) | 一种基于相似性与局部性结合的重复数据删除方法 | |
CN103198119A (zh) | 一种快速查找具有相同重复数据删除标识的所有链接文件的方法 | |
Ji et al. | Big data processing in cloud computing environments | |
US11093466B2 (en) | Incremental out-of-place updates for index structures | |
Liao et al. | Multi-dimensional index on hadoop distributed file system | |
Ji et al. | Big data processing: Big challenges and opportunities | |
CN103106249B (zh) | 一种基于Cassandra的数据并行处理*** | |
CN103544261B (zh) | 一种海量结构化日志数据全局索引管理方法及装置 | |
CN103577123A (zh) | 一种基于hdfs的小文件优化存储方法 | |
CN104820714A (zh) | 基于hadoop的海量瓦片小文件存储管理方法 | |
US11080207B2 (en) | Caching framework for big-data engines in the cloud | |
CN109521959A (zh) | 一种基于ssd-smr磁盘混合键值存储***数据组织方法 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
Chatzimilioudis et al. | Distributed in-memory processing of all k nearest neighbor queries | |
CN103279502B (zh) | 一种具有与并行文件***结合的重复数据删除文件***的架构及方法 | |
WO2014110940A1 (en) | A method, apparatus and system for storing, reading the directory index | |
Li et al. | Efficient subspace skyline query based on user preference using MapReduce | |
CN104572505A (zh) | 一种保证海量数据缓存最终一致性的***及方法 | |
CN102779138A (zh) | 实时数据的硬盘存取方法 | |
CN104951464A (zh) | 数据存储方法及*** | |
Feng et al. | Lcindex: a local and clustering index on distributed ordered tables for flexible multi-dimensional range queries | |
CN102955808A (zh) | 一种数据获取方法和分布式文件*** | |
CN103761290A (zh) | 基于内容感知的数据管理方法和*** | |
Bao et al. | Query optimization of massive social network data based on hbase | |
Akdogan et al. | Cost-efficient partitioning of spatial data on cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130710 |
|
WD01 | Invention patent application deemed withdrawn after publication |