CN201804331U - 一种基于协处理器的重复数据删除*** - Google Patents

一种基于协处理器的重复数据删除*** Download PDF

Info

Publication number
CN201804331U
CN201804331U CN2010205370835U CN201020537083U CN201804331U CN 201804331 U CN201804331 U CN 201804331U CN 2010205370835 U CN2010205370835 U CN 2010205370835U CN 201020537083 U CN201020537083 U CN 201020537083U CN 201804331 U CN201804331 U CN 201804331U
Authority
CN
China
Prior art keywords
module
data
cpu
processor
dram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN2010205370835U
Other languages
English (en)
Inventor
刘靖宇
周泽湘
武志民
孙志卓
谭毓安
何广韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING TOYOU FEIJI ELECTRONICS Co Ltd
Original Assignee
BEIJING TOYOU FEIJI ELECTRONICS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TOYOU FEIJI ELECTRONICS Co Ltd filed Critical BEIJING TOYOU FEIJI ELECTRONICS Co Ltd
Priority to CN2010205370835U priority Critical patent/CN201804331U/zh
Application granted granted Critical
Publication of CN201804331U publication Critical patent/CN201804331U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本实用新型涉及一种基于协处理器的重复数据删除***,属于重复数据删除领域。本实用新型包括:CPU、协处理器模块、DRAM、存储设备;协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。本实用新型结构简单,采用廉价的协处理模块代替CPU进行大量重复性复杂计算,有效的提高了CPU的计算速度,从而满足***需求。

Description

一种基于协处理器的重复数据删除***
技术领域
本实用新型涉及一种基于协处理器的重复数据删除***,属于重复数据删除领域。
背景技术
随着信息技术的发展,数据已经成为各行业的基础和命脉,数据备份日益重要。在全量备份、增量备份和连续数据保护(CDP)等的数据备份过程中,产生的数据信息量呈***式增长,数据占用空间越来越大。在过去的几年里,许多行业提供的存储***容量从数十GB发展到数百TB,甚至达到PB级。随着数据量指数级的增长,管理保存数据的成本以及数据中心空间和能耗变得越来越严重。研究发现,在所保存的数据中,冗余部分高达60%,而且随着时间的推移,其所占比例越来越多。为了缓解存储***的空间增长问题,缩减数据占用空间,降低成本,最大程度地利用已有资源,重复数据删除技术已成为一个热门的研究课题。一方面,利用重复数据删除技术可以对存储空间的利用率进行优化,以消除分布在存储***中的相同文件或者数据块。另一方面,利用重复数据删除技术可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽。
由于CPU运行和I/O操作之间存在巨大的速度差异,为了追求更好的性能,传统的重复数据删除***将精力放在如何减少磁盘访问上。但是,随着新的存储介质的出现,如SSD,这将不再成为瓶颈。另外,随着网络技术的发展,数据传输带宽显著增加,CPU不得不在重复数据删除过程当中更多地进行像SHA-1和数据压缩这样的计算。这可能使CPU成为新的瓶颈。如果CPU用于太多的高复杂性的计算任务,也会影响到IO调度。对于这样的趋势,一般的解决办法有两个:通过增加计算节点来协同分担计算压力和用专门的计算芯片来释放CPU的计算压力。利用更多的计算单元能明显的提高CPU性能并且拥有很好的可扩展性。但是,如何保证各个计算单元的数据一致性成为一个难题。利用专门的计算芯片不会存在数据一致性问题,但是过高的成本和较长的开发周期让这种做法变得让人难以接受。
协处理器是一种与CPU协同工作、辅助其完成特定计算任务的专用处理芯片或器件。协处理器作为一个处理单元,与CPU一起并行使用并承担通常由CPU执行的运算任务。协处理器往往会拥有很好的特定计算性能。例如浮点运算协处理器,它在执行时可以大幅度地加快浮点数值计算速度,把CPU的计算任务放到性能优越的协处理器上,CPU主要负责IO处理以及程序调度工作,可以很好的解决目前的CPU瓶颈。而且协处理器价格更低、节省能耗并且计算性能更好。
本发明利用一种的协处理器,在重复数据删除***中来减少CPU的计算压力,提供重复数据删除***的工作效率,使***具有更好的计算性能,更低的能耗,以及更低廉的价格。
发明内容
本实用新型的目的是为了解决传统重复数据删除***的CPU用于太多的高复杂性的计算任务,会影响到IO调度等问题,而提供一种基于协处理器的重复数据删除***。
本实用新型的目的是通过以下技术方案实现的;
本实用新型的一种基于协处理器的重复数据删除***,包括:CPU、协处理器模块、动态随机存储器(DRAM)、存储设备;
协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
命令处理模块:主要用于缓存和解释由CPU发来的命令。
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块。
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定该数据是否为重复数据。
信息反馈模块:将查询模块的查找结果返回给CPU。
所述存储设备包括数据存储区和Hash库;Hash库内存储数据块的特征值表。
协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。
本实用新型的工作原理如下:
在进行重复数据删除时,首先CPU向协处理器模块的命令处理模块发出重复数据判定命令,命令处理模块将由CPU发来的命令翻译为协处理器指令并传给特征值计算模块;特征值计算模块根据指令,通过DRAM读入存储设备的数据存储区上的数据,然后对该数据进行特征值(Hash值)计算;特征值计算模块将计算结果传输给查找模块,查找模块根据相应算法将计算结果通过DRAM在存储设备的Hash库(特征值表)中进行查找,根据查找结果判断数据是否为重复数据;查找模块将判断结果传输给信息反馈模块;信息反馈模块再向CPU反馈判断结果。CPU根据判断结果做如下操作:如果是重复数据,则CPU通过DRAM在数据存储区中建立指针并删除该数据;如果不是重复数据,则保留该数据。
有益效果
由于采用协处理器模块代替CPU进行大量重复性复杂计算,使得CPU的性能大幅提高,由于协处理器模块相当于廉价,使得原有***在因为CPU的性能无法满足***需求而使***效率大幅降低时,可以通过极低的价格提升***性能,节约成本。
附图说明
图1为本实用新型的重复数据删除***结构示意图;
图2为本实用新型中协处理器模块内部功能模块结构图。
具体实施方式
以下结合附图实施例对本实用新型作进一步详细描述。
实施例
如图1所示,一种基于协处理器的重复数据删除***,包括:协处理器模块、DRAM、本地存储设备和网络存储设备;
协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
命令处理模块:主要用于缓存和解释由CPU发来的命令。
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块。
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定给数据是否为重复数据。
信息反馈模块:将查询模块的查找结果返回给CPU。
所述本地存储设备和网络存储设备各包括一个数据存储区和一个Hash库。
Hash库内存储相应数据存储区内数据块的特征值表。
如图2所示,协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM并联一个本地存储设备和一个网络存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。
本实用新型的工作原理如下:
对本地存储设备进行重复数据删除时,首先CPU向协处理器模块的命令处理模块发出重复数据判定命令,命令处理模块将由CPU发来的命令翻译为协处理器指令并传给特征值计算模块;特征值计算模块根据指令,通过DRAM读入存储设备的数据存储区上的数据,然后对该数据进行特征值(Hash值)计算;特征值计算模块将计算结果传输给查找模块,查找模块根据相应算法将计算结果通过DRAM在存储设备的Hash库(特征值表)中进行查找,根据查找结果判断数据是否为重复数据;查找模块将判断结果传输给信息反馈模块;信息反馈模块再向CPU反馈判断结果。CPU根据判断结果做如下操作:如果是重复数据,则CPU通过DRAM在数据存储区中建立指针并删除该数据;如果不是重复数据,则保留该数据。
网络存储设备与本地存储设备的重复数据删除过程相同。

Claims (1)

1.一种基于协处理器的重复数据删除***,其特征在于包括:CPU、协处理器模块、DRAM、存储设备;
所述存储设备包括数据存储区和Hash库;协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接;
命令处理模块:主要用于缓存和解释由CPU发来的命令;
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块;
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定该数据是否为重复数据;
信息反馈模块:将查询模块的查找结果返回给CPU;
Hash库内存储数据块的特征值表。
CN2010205370835U 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除*** Expired - Lifetime CN201804331U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010205370835U CN201804331U (zh) 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010205370835U CN201804331U (zh) 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除***

Publications (1)

Publication Number Publication Date
CN201804331U true CN201804331U (zh) 2011-04-20

Family

ID=43873833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010205370835U Expired - Lifetime CN201804331U (zh) 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除***

Country Status (1)

Country Link
CN (1) CN201804331U (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298633A (zh) * 2011-09-08 2011-12-28 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及***
WO2013149501A1 (en) * 2012-04-05 2013-10-10 International Business Machines Corporation Increased in-line deduplication efficiency
CN103547329A (zh) * 2012-12-12 2014-01-29 华为技术有限公司 集群***中数据处理方法及装置
CN104571946A (zh) * 2014-11-28 2015-04-29 中国科学院上海微***与信息技术研究所 一种支持逻辑电路快速查询的存储器装置及其访问方法
CN104662538A (zh) * 2012-10-02 2015-05-27 甲骨文国际公司 半连接加速

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298633A (zh) * 2011-09-08 2011-12-28 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及***
GB2513514A (en) * 2012-04-05 2014-10-29 Ibm Increased in-line deduplication efficiency
WO2013149501A1 (en) * 2012-04-05 2013-10-10 International Business Machines Corporation Increased in-line deduplication efficiency
US8682869B2 (en) 2012-04-05 2014-03-25 International Business Machines Corporation Increased in-line deduplication efficiency
CN104205066A (zh) * 2012-04-05 2014-12-10 国际商业机器公司 增加的联机去重复效率
CN104662538A (zh) * 2012-10-02 2015-05-27 甲骨文国际公司 半连接加速
CN104662538B (zh) * 2012-10-02 2018-05-18 甲骨文国际公司 半连接加速
US8892529B2 (en) 2012-12-12 2014-11-18 Huawei Technologies Co., Ltd. Data processing method and apparatus in cluster system
WO2014089767A1 (zh) * 2012-12-12 2014-06-19 华为技术有限公司 集群***中数据处理方法及装置
CN103547329A (zh) * 2012-12-12 2014-01-29 华为技术有限公司 集群***中数据处理方法及装置
CN103547329B (zh) * 2012-12-12 2016-11-02 华为技术有限公司 集群***中数据处理方法及装置
CN104571946A (zh) * 2014-11-28 2015-04-29 中国科学院上海微***与信息技术研究所 一种支持逻辑电路快速查询的存储器装置及其访问方法
CN104571946B (zh) * 2014-11-28 2017-06-27 中国科学院上海微***与信息技术研究所 一种支持逻辑电路快速查询的存储器装置及其访问方法

Similar Documents

Publication Publication Date Title
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN201804331U (zh) 一种基于协处理器的重复数据删除***
CN102385554B (zh) 重复数据删除***的优化方法
CN104023088A (zh) 一种应用于分布式文件***的存储服务器选择方法
CN103595780A (zh) 基于消重的云计算资源调度方法
CN102662639A (zh) 一种基于Mapreduce的多GPU协同计算方法
CN104572106A (zh) 一种基于小内存处理大规模数据的并行程序开发方法
CN109918450B (zh) 基于分析类场景下的分布式并行数据库及存储方法
CN102521419A (zh) 分级存储的实现方法和***
CN104317770A (zh) 用于众核处理***的数据存储结构及数据访问方法
CN104580503A (zh) 一种高效动态负载均衡的处理大规模数据的***及方法
CN104125293B (zh) 一种云服务器及其使用方法
CN105681052A (zh) 一种用于数据中心分布式文件存储的节能方法
Jing et al. An optimized method of HDFS for massive small files storage
CN101499017B (zh) 实现项目实时跟踪的方法
CN108984298A (zh) 一种云计算平台的资源调度方法和***
CN106156049A (zh) 一种数据读取的方法和***
Al-kahtani et al. An efficient distributed algorithm for big data processing
CN103019324B (zh) 内存能力增强的可重构微服务器
CN104299170B (zh) 间歇性能源海量数据处理方法
CN105930101A (zh) 一种基于闪存固态盘的弱指纹重复数据删除机制
CN110297836B (zh) 基于压缩位图方式的用户标签存储方法和检索方法
Yu et al. MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services
US10841374B2 (en) Dynamic sharding for state-based processing
CN108491167B (zh) 一种工业过程工况数据快速随机分布存储方法

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20110420

CX01 Expiry of patent term