CN105068875A - 一种智能数据处理方法及装置 - Google Patents

一种智能数据处理方法及装置 Download PDF

Info

Publication number
CN105068875A
CN105068875A CN201510493727.2A CN201510493727A CN105068875A CN 105068875 A CN105068875 A CN 105068875A CN 201510493727 A CN201510493727 A CN 201510493727A CN 105068875 A CN105068875 A CN 105068875A
Authority
CN
China
Prior art keywords
preset value
data
hardware
decompression
compressed card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510493727.2A
Other languages
English (en)
Other versions
CN105068875B (zh
Inventor
杨勇
亓开元
赵仁明
卢军佐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510493727.2A priority Critical patent/CN105068875B/zh
Publication of CN105068875A publication Critical patent/CN105068875A/zh
Application granted granted Critical
Publication of CN105068875B publication Critical patent/CN105068875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种智能数据处理方法及装置,上述方法包括以下步骤:获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理;采用独立的硬件压缩卡进行数据的解压缩处理,因此减轻了CPU的计算负担,使得CPU可以专注于处理运算相关的任务,提高大数据计算的执行效率。

Description

一种智能数据处理方法及装置
技术领域
本发明属于数据处理领域,尤其涉及一种智能数据处理方法及装置。
背景技术
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。
大数据虽然极具价值,但由于规模巨大,面临着持续可扩展问题。例如,数据仓库中常用的记录某个对象行为的历史状态数据,在大数据时代随着对象数量(如客户)的急速增加,以及每个处理对象行为(如客户交易)的迅速增加,规模成***式增长,给处理环境的CPU、存储、网络带来了巨大压力。其中,CPU通过水平扩展能够满足大数据处理需求,而磁盘读写IO和网络传输IO由于机械部件、工艺技术、物理介质等条件限制,成为制约大数据处理的主要瓶颈。为此,采用压缩方式进行大数据的存储和传输,以牺牲少量CPU时间进行压缩和解压,以换取IO时间,成为提高大数据处理性能的一个必然选择。
针对上述需求,当前的主流大数据处理***,如Hadoop、Hbase、Hive等,都支持在应用中Gzip、LZO、Snappy等压缩方式,但是无论采取何种方法,本质都是使用CPU运行时间进行数据的编码、压缩和解压,不可避免的要对CPU的运行效率产生影响。
针对上述问题,业界提出采用硬件压缩卡技术,使用硬件压缩卡上自带的计算机芯片独立进行数据的压缩和解压,但对于CPU和硬盘负载都较低的任务,使用硬件压缩卡相当于额外对数据进行了一道压缩和解压处理,产生的处理延迟时间往往还要高于节省下的IO时间。
因此,迫切需要一种综合考虑CPU压缩和硬件压缩卡压缩的解决方案,来提高大数据处理效率。
发明内容
本发明提供一种智能数据处理方法及装置,以解决上述问题。
本发明提供一种智能数据处理方法。上述方法包括以下步骤:
获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;
根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
本发明还提供一种智能数据处理装置,包括获取模块、比较模块、解压缩模块;其中,所述获取模块通过所述比较模块与所述解压缩模块相连;
所述获取模块,用于获取网络传输速率、磁盘读写速率、CPU利用率并将所述网络传输速率、磁盘读写速率、CPU利用率发送至所述比较模块;
所述比较模块,用于将网络传输速率、磁盘读写速率、CPU利用率分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果并将所述比较结果发送至所述解压缩模块;
所述解压缩模块,用于根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
通过以下方案:获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理;采用独立的硬件压缩卡进行数据的解压缩处理,因此减轻了CPU的计算负担,使得CPU可以专注于处理运算相关的任务,提高大数据计算的执行效率。
通过以下方案:所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若小于或等于所述第三预设值,则控制所述CPU对数据进行解压缩处理;此时,所述CPU利用率若小于或等于所述第三预设值,则说明CPU负载未满,则关闭硬件压缩卡,使用CPU进行压缩,避免数据多经过一道硬件压缩卡处理,产生不必要的处理延迟,最终提高大数据计算的运行效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的智能数据处理方法流程图;
图2所示为本发明实施例2的智能数据处理装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的智能数据处理方法流程图,包括以下步骤:
步骤101:获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;
其中,获取网络传输速率、磁盘读写速率、CPU利用率后,将所述网络传输速率与第一预设值进行比较;将所述磁盘读写速率与第二预设值进行比较;将CPU利用率与第三预设值进行比较。
其中,所述第一预设值、所述第二预设值、所述第三预设值可以根据实际情况进行灵活设定,在此不用于限定本实施例的保护范围。例如第一预设值为1Gbps;第二预设值为200MBps;第三预设值为50%。
进一步地,获取网络传输速率、磁盘读写速率、CPU利用率之前,还包括:
预先在各个节点服务器上设置硬件压缩卡并对所述硬件压缩卡的运行环境进行配置。
进一步地,预先在各个节点服务器上设置硬件压缩卡并对所述硬件压缩卡的运行环境进行配置的过程为:
预先在各个节点服务器插槽(PCI插槽)上设置硬件压缩卡;
通过配置文件将硬件压缩卡驱动包(jar包)配置到预设文件目录(classpath)下。
进一步地,任务运行时,通过将运行参数传输至硬件压缩卡驱动,触发所述硬件压缩卡对所述任务进行解压缩处理。
所述运行参数包括运行模式参数、启动状态参数;其中,运行模式参数包括自动运行模式参数、人工运行模式参数;所述任务是指mapreduce任务。
步骤102:根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
进一步地,根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理的过程为:
所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若大于所述第三预设值,则触发所述硬件压缩卡对文件数据进行解压缩处理。
其中,若所述网络传输速率小于第一预设值并且所述磁盘读写速率小于第二预设值,则进一步比较所述CPU利用率是否大于第三预设值,若大于所述第三预设值,则触发所述硬件压缩卡对文件数据进行解压缩处理。
上述方案特点在于使用独立的硬件压缩卡进行数据的解压缩处理,因此减轻了CPU的计算负担,使得CPU可以专注于处理运算相关的任务,提高大数据计算的执行效率。
进一步地,所述文件数据包括文件***中存储的数据、本地文件***外存储的中间数据。
其中,所述硬件压缩卡中的压缩编解码器在Hadoop进程中的MapReduce阶段压缩中间数据;基于PCIe的硬件压缩卡自动加速所有压缩操作,在卸载主CPU的同时最大化性能;应用程序透明文件***过滤位低于Hadoop分布式文件***(HDFS),从而使用HDFS压缩所有文件。
进一步地,所述硬件压缩卡进行解压缩处理的文件数据是指由内存向磁盘传输的文件数据。
进一步地,根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理的过程为:
所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若小于或等于所述第三预设值,则控制所述CPU对数据进行解压缩处理。
其中,若所述网络传输速率小于第一预设值并且所述磁盘读写速率小于第二预设值,则进一步比较所述CPU利用率是否大于第三预设值,若小于或等于所述第三预设值,则控制所述CPU对数据进行解压缩处理。
此时,所述CPU利用率若小于或等于所述第三预设值,则说明CPU负载未满,则关闭硬件压缩卡,使用CPU进行压缩,避免数据多经过一道硬件压缩卡处理,产生不必要的处理延迟,最终提高大数据计算的运行效率。
步骤103:数据解压缩处理完毕后,关闭所述硬件压缩卡。
进一步地,数据解压缩处理完毕后,关闭所述硬件压缩卡的过程为:数据解压缩处理完毕后,通过回调硬件压缩卡驱动,关闭所述硬件压缩卡。
当前大数据架构的存储处理过程要经历网络传输和磁盘读写两个串行IO阶段,设某大数据环境的全双工网络传输速度为n,磁盘读写速度为d,若数据不采用任何压缩方式,其读写延迟:t=1/n+1/d,其中,1/n表示1字节数据的网络传输延迟,1/d表示磁盘读写延迟;
设硬件压缩卡x压缩率为a(x),压缩速度为c(x),解压缩速度为u(x),则对于该压缩方式,其写数据延迟为:w(x)=1/c(x)+a(x)/n+a(x)/d;其数据的读延迟为:r(x)=a(x)/u(x)+a(x)/n+a(x)/d;其中,1/c(x)表示1字节数据的压缩延迟,a(x)/u(x)表示1字节数据的解压缩延迟,a(x)/n和a(x)/d分别表示压缩后网络传输和磁盘写入延迟。
由此可见,对于一份同样大小的数据,进行同样一种操作,使用硬件压缩卡和不使用硬件压缩卡的时间差值为:
c(x)=2t-w(x)-r(x)=2(1-a(x))/n+2(1-(a(x))/d-1/c(x)-a(x)/u(x);当c(x)越大时,说明使用硬件压缩卡的效果越好。
其中网络传输速度为n,磁盘读写速度为d在集群配置确定后基本可以认为是一个常数,压缩率a(x)、压缩速度为c(x),解压缩速度为u(x)对于确定类型和内容的数据来说,也可以通过对数据进行抽样测试提前得出。
因此通过上述方案可以大致判断出,使用硬件压缩卡带来的效率提升,并根据这个判断自动决定是否要使用硬件压缩卡进行数据压缩。
图2所示为本发明实施例2的智能数据处理装置结构图,包括获取模块、比较模块、解压缩模块;其中,所述获取模块通过所述比较模块与所述解压缩模块相连;
所述获取模块,用于获取网络传输速率、磁盘读写速率、CPU利用率并将所述网络传输速率、磁盘读写速率、CPU利用率发送至所述比较模块;
所述比较模块,用于将网络传输速率、磁盘读写速率、CPU利用率分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果并将所述比较结果发送至所述解压缩模块;
所述解压缩模块,用于根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
通过以下方案:获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理;采用独立的硬件压缩卡进行数据的解压缩处理,因此减轻了CPU的计算负担,使得CPU可以专注于处理运算相关的任务,提高大数据计算的执行效率。
通过以下方案:所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若小于或等于所述第三预设值,则控制所述CPU对数据进行解压缩处理;此时,所述CPU利用率若小于或等于所述第三预设值,则说明CPU负载未满,则关闭硬件压缩卡,使用CPU进行压缩,避免数据多经过一道硬件压缩卡处理,产生不必要的处理延迟,最终提高大数据计算的运行效率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种智能数据处理方法,其特征在于,包括以下步骤:
获取网络传输速率、磁盘读写速率、CPU利用率并分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果;
根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
2.根据权利要求1所述的方法,其特征在于,根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理的过程为:
所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若大于所述第三预设值,则触发所述硬件压缩卡对文件数据进行解压缩处理。
3.根据权利要求2所述的方法,其特征在于,所述文件数据包括文件***中存储的数据、本地文件***外存储的中间数据。
4.根据权利要求2或3所述的方法,其特征在于,所述硬件压缩卡进行解压缩处理的文件数据是指由内存向磁盘传输的文件数据。
5.根据权利要求1所述的方法,其特征在于,根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理的过程为:
所述网络传输速率、所述磁盘读写速率分别小于第一预设值、第二预设值时,进一步比较所述CPU利用率是否大于第三预设值,若小于或等于所述第三预设值,则控制所述CPU对数据进行解压缩处理。
6.根据权利要求1所述的方法,其特征在于,数据解压缩处理完毕后,关闭所述硬件压缩卡。
7.根据权利要求6所述的方法,其特征在于,数据解压缩处理完毕后,关闭所述硬件压缩卡的过程为:数据解压缩处理完毕后,通过回调硬件压缩卡驱动,关闭所述硬件压缩卡。
8.根据权利要求1所述的方法,其特征在于,进一步地,获取网络传输速率、磁盘读写速率、CPU利用率之前,还包括:
预先在各个节点服务器上设置硬件压缩卡并对所述硬件压缩卡的运行环境进行配置。
9.根据权利要求8所述的方法,其特征在于,预先在各个节点服务器上设置硬件压缩卡并对所述硬件压缩卡的运行环境进行配置的过程为:
预先在各个节点服务器插槽上设置硬件压缩卡;
通过配置文件将硬件压缩卡驱动包配置到预设文件目录下。
10.一种智能数据处理装置,其特征在于,包括获取模块、比较模块、解压缩模块;其中,所述获取模块通过所述比较模块与所述解压缩模块相连;
所述获取模块,用于获取网络传输速率、磁盘读写速率、CPU利用率并将所述网络传输速率、磁盘读写速率、CPU利用率发送至所述比较模块;
所述比较模块,用于将网络传输速率、磁盘读写速率、CPU利用率分别与第一预设值、第二预设值、第三预设值进行比较,获取比较结果并将所述比较结果发送至所述解压缩模块;
所述解压缩模块,用于根据比较结果,按照预设控制策略,控制所述硬件压缩卡对数据进行处理。
CN201510493727.2A 2015-08-12 2015-08-12 一种智能数据处理方法及装置 Active CN105068875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510493727.2A CN105068875B (zh) 2015-08-12 2015-08-12 一种智能数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510493727.2A CN105068875B (zh) 2015-08-12 2015-08-12 一种智能数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN105068875A true CN105068875A (zh) 2015-11-18
CN105068875B CN105068875B (zh) 2018-09-07

Family

ID=54498252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510493727.2A Active CN105068875B (zh) 2015-08-12 2015-08-12 一种智能数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN105068875B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899308A (zh) * 2017-01-19 2017-06-27 中国科学院信息工程研究所 一种软硬件结合的自适应实时gzip数据解压缩方法及***
CN107507636A (zh) * 2017-08-25 2017-12-22 郑州云海信息技术有限公司 一种磁盘的温度控制方法及装置
CN108599774A (zh) * 2018-04-26 2018-09-28 郑州云海信息技术有限公司 一种压缩方法、***、装置及计算机可读存储介质
WO2020174300A1 (en) * 2019-02-27 2020-09-03 International Business Machines Corporation Functional completion when retrying non-interruptible instruction in bi-modal execution environment
CN115002105A (zh) * 2022-04-20 2022-09-02 上海赛连信息科技有限公司 一种基于磁盘速率和网络速率的均衡分配方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477674A (zh) * 2008-01-04 2009-07-08 华硕电脑股份有限公司 利用显卡协助运算资料的方法
CN103020205A (zh) * 2012-12-05 2013-04-03 北京普泽天玑数据技术有限公司 一种分布式文件***上基于硬件加速卡的压缩解压缩方法
CN104008153A (zh) * 2014-05-21 2014-08-27 浪潮(北京)电子信息产业有限公司 一种面向大数据处理的数据处理方法和装置
CN104618371A (zh) * 2015-01-30 2015-05-13 乐视网信息技术(北京)股份有限公司 一种数据下载方法、装置及***
CN104737137A (zh) * 2013-10-18 2015-06-24 三星电子株式会社 电子设备的存储器压缩方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477674A (zh) * 2008-01-04 2009-07-08 华硕电脑股份有限公司 利用显卡协助运算资料的方法
CN103020205A (zh) * 2012-12-05 2013-04-03 北京普泽天玑数据技术有限公司 一种分布式文件***上基于硬件加速卡的压缩解压缩方法
CN104737137A (zh) * 2013-10-18 2015-06-24 三星电子株式会社 电子设备的存储器压缩方法及其装置
CN104008153A (zh) * 2014-05-21 2014-08-27 浪潮(北京)电子信息产业有限公司 一种面向大数据处理的数据处理方法和装置
CN104618371A (zh) * 2015-01-30 2015-05-13 乐视网信息技术(北京)股份有限公司 一种数据下载方法、装置及***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899308A (zh) * 2017-01-19 2017-06-27 中国科学院信息工程研究所 一种软硬件结合的自适应实时gzip数据解压缩方法及***
CN106899308B (zh) * 2017-01-19 2020-05-22 中国科学院信息工程研究所 一种软硬件结合的自适应实时gzip数据解压缩方法及***
CN107507636A (zh) * 2017-08-25 2017-12-22 郑州云海信息技术有限公司 一种磁盘的温度控制方法及装置
CN107507636B (zh) * 2017-08-25 2019-07-26 郑州云海信息技术有限公司 一种磁盘的温度控制方法及装置
CN108599774A (zh) * 2018-04-26 2018-09-28 郑州云海信息技术有限公司 一种压缩方法、***、装置及计算机可读存储介质
CN108599774B (zh) * 2018-04-26 2022-03-08 郑州云海信息技术有限公司 一种压缩方法、***、装置及计算机可读存储介质
WO2020174300A1 (en) * 2019-02-27 2020-09-03 International Business Machines Corporation Functional completion when retrying non-interruptible instruction in bi-modal execution environment
US11449367B2 (en) 2019-02-27 2022-09-20 International Business Machines Corporation Functional completion when retrying a non-interruptible instruction in a bi-modal execution environment
CN115002105A (zh) * 2022-04-20 2022-09-02 上海赛连信息科技有限公司 一种基于磁盘速率和网络速率的均衡分配方法和装置

Also Published As

Publication number Publication date
CN105068875B (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
US10459657B2 (en) Storage system with read cache-on-write buffer
US11748322B2 (en) Utilizing different data compression algorithms based on characteristics of a storage system
CN105068875A (zh) 一种智能数据处理方法及装置
US8498966B1 (en) Systems and methods for adaptively performing backup operations
US10055134B2 (en) Data compression method and storage system
US10678481B2 (en) Adaptive caching and dynamic delay scheduling for in-memory data analytics
US10116329B1 (en) Method and system for compression based tiering
US9766812B2 (en) Method and system for storing data in compliance with a compression handling instruction
US11500577B2 (en) Method, electronic device, and computer program product for data processing
US10394453B1 (en) Method and system for choosing an optimal compression algorithm considering resources
CN114201421A (zh) 一种数据流处理方法、存储控制节点及可读存储介质
US20170004086A1 (en) Cache management method for optimizing read performance of distributed file system
US9424269B1 (en) Systems and methods for deduplicating archive objects
CN106980618B (zh) 基于MongoDB分布式集群架构的文件存储方法和***
CN103235754B (zh) 分布式文件***中请求的处理方法和装置
US10579265B2 (en) Cloud-synchronized local storage management
CN108089930A (zh) 数据的发送方法及装置
US9342460B2 (en) I/O write request handling in a storage system
CN115878042A (zh) 一种数据存储***、数据处理方法及存储介质
US10673801B2 (en) Dynamic communication session management
US8984336B1 (en) Systems and methods for performing first failure data captures
CN114020218A (zh) 混合重复数据删除调度方法及***
US10049115B1 (en) Systems and methods for performing incremental database backups
US20200356297A1 (en) Method of storage control based on log data types
CN114063891B (zh) 管理数据传输的方法、设备和计算机程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant