CN103455556B - 存储单元数据裁剪方法 - Google Patents

存储单元数据裁剪方法 Download PDF

Info

Publication number
CN103455556B
CN103455556B CN201310342397.8A CN201310342397A CN103455556B CN 103455556 B CN103455556 B CN 103455556B CN 201310342397 A CN201310342397 A CN 201310342397A CN 103455556 B CN103455556 B CN 103455556B
Authority
CN
China
Prior art keywords
data
row
memory cell
node
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310342397.8A
Other languages
English (en)
Other versions
CN103455556A (zh
Inventor
况忠强
马正红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Valley Weiye Technology Co. Ltd.
Original Assignee
CHENGDU ONGOING INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU ONGOING INFORMATION TECHNOLOGY Co Ltd filed Critical CHENGDU ONGOING INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310342397.8A priority Critical patent/CN103455556B/zh
Publication of CN103455556A publication Critical patent/CN103455556A/zh
Application granted granted Critical
Publication of CN103455556B publication Critical patent/CN103455556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能存储单元数据裁剪方法,用于解决分布式数据库集群中跨节点查询,节点间数据传输量大,待处理的中间结果集无用数据多,网络资源有效利用率低下的问题。在数据库集群***中,用户请求进行分析查询,对数据进行读取时,从存储节点的智能单元读取裁剪过后的少量数据而不是先读取所有数据回来再做筛选,减少无用数据的读取,提升有效读取率。智能存储单元数据裁剪方法以特有的方式从数据结果集的行与列两个方面进行数据筛选与剪裁,极大的缩小了待处理的数据规模,节约了网络开销与存储,运算开销,提高了效率。

Description

存储单元数据裁剪方法
技术领域
本发明在分布式数据库集群中用于数据分析检索,属于计算机技术领域。
背景技术
数据库的数据检索一般的主流做法是先把数据从磁盘全部加载到内存,再根据限制条件选择其中的有用部分,如此做法限于磁盘的读性能会成为整个检索过程的瓶颈,尤其是数据量越大体现越明显。
针对这种情况,目前普遍的改良方法有:
列存数据库,数据按列存放,只读取相关列进内存,极大减少磁盘操作,提升性能明显,但有数据维护繁杂困难,对不同应用需设计不同的数据库底层组织方案的缺点,应用的普适性较差。
内存数据库,一开始就将数据加载入内存,在内存读写速度快,可极大提升性能,缺点是相较于硬盘,内存价格昂贵,针对海量数据内存会非常庞大,硬件成本会是一笔极大的开销。
发明内容
本发明的目的在于发明一种能解决数据库中数据检索读取速度慢,无用数据多影响传输与处理效率问题的方法。
本发明主要的功能模块有关系列映射筛选模块,条件过滤下压模块,存储单元按列映射筛选模块,存储单元根据条件按行选择模块。
在用户请求进行分析查询,对数据进行读取时,从存储节点的智能存储单元读取裁剪过后的少量数据而不是先读取所有数据回来再做筛选,提升有效读取率,减少无用数据的读取,提高效率缩短时间。
本发明的目的是通过下述技术方案实现的:
1,智能存储单元
是指存储数据的各单元自身具备选择与投影能力的smart单元。他的选择与投影能力是进行数据裁剪的基础。
2,智能存储单元的使用流程:
<1>客户端接收分析查询语句SQL
<2>WORK工作机接收请求定位涉及的存储节点
<3>存储节点发起IO请求
<4>智能存储单元进行ROWS,COLUMNS裁剪返回少量数据
<5>WORK工作机分析处理数据并返回客户端
<6>返回数据结果集
3,智能存储单元数据裁剪的工作原理
在2所经历的流程中步骤<2>会将筛选条件下压至各存储节点,在步骤<3>中存储节点在发起IO请求时是持有筛选条件的。使得在步骤<4>中通过选择减少不必要的行ROWS,和通过影射能力只读取需要的列COLUMNS,从数据行,数据列两个方面裁剪数据,再把裁剪后的数据送往WORK工作机处理。减小传输数据量同时也减少工作机的待处理数据。
本发明的目的技术方案实现核心有两点:
a1通过映射关系筛选列,减少不必要的列的读取;
a2通过过滤表达式等进行选择,筛选适当的行,减少不必要的行数据的读取。
智能单元经过这两方面的裁剪减少了中间结果集,减少了数据在网络间的传递,提升了效率。
本发明其优越性能体现在把筛选有用数据的筛选条件下压,交到了底层去各自完成,而不同于传统的方法先把所有的数据取回来,不管有无用处,都经过处理器运算比较筛选后留下有用数据。本发明减少了运算部分的负担,而现有的筛选技术,有基于列筛选的;比如列存数据库等,有基于行做筛选的,如条件表达式等,他们都是基于一个方面做筛选,且有其局限性:列存数据库可用于做专业的查询,但通用性不好,维护复杂。基于条件表达式的筛选,基于表分区的筛选有其自身局限性,查询需根据他们自身的分区特性为基础制定。
本发明中过滤表达式的过滤条件的下压,在存储节点剔除不必要的行,过虑条件的传递,尤其是常数过滤表达式条件的传递可极大的减少中间数据行的检索查询。
本发明中根据列映射的投影关系,可选择有用列,它包括:结果集输出目标列,条件中间列,关系传递列等。根据映射关系我们在进行查询时,只选择相关列,排除不涉及到的列,减少数据读取与传输。
有益效果
本发明具有如下有益效果:
1、根据筛选条件进行行选择,减少读取数据的行数;
2、根据列映射关系,剔除无用的列,减少待处理列数;
3、智能存储单元的数据裁剪工作在数据读取的底层完成,减少了待处理的中间数据集传输,减少网络传输开销;
4、智能存储单元裁剪后的数据,减少了运算处理单元的工作量与内存资源的使用提高了效率。
附图说明
图1为本发明的智能存储单元数据裁剪应用流程示意图。
具体实施方式
下面结合附图进一步说明本发明的技术方案,但本发明所保护的内容不局限于以下所述。
在数据库集群中,资源分布于不同的节点,在作查询计划时,根据目标数据分布于不同的节点,将同一节点数据请求打包发送,提升传输效率,而智能存储单元根据其目标以及下压的条件过滤表达式,以及列映射关系,筛选有用列,剔除无用列,根据条件选择需要的行数据,剔除不符合条件的行数据,将数据传递至工作节点,以备处理。
在计划中条件过滤表达式分解成可远程传输部分和不可远程传输部分,其不可远程传输部分只有在工作节点进行汇总时再进行条件选择。而可远程传输部分下发传递至各智能存储单元,智能存储单元根据下发的条件对做条件选择后传输至工作节点汇总。
结合图1所示,应用程序与客户端交互发送查询SQL语句。客户端收到请求后,生成任务请求,工作节点分析请求,规划SQL涉及的表,数据列,表之间的连接关系,查询条件,约束条件等,定位数据存储节点,规划查询计划,根据目标数据分布于不同的节点,将同一节点数据请求打包发送并将列映射关系以及下压的筛选条件一并发送。存储单元根据任务请求的要求从磁盘加载数据,smart存储单元,根据下压的筛选条件与列映射关系,选择需要涉及的列与符合选择条件的行,组成合适的数据集发送至工作节点以待进一步处理。工作节点根据从各存储单元返回的数据做运算处理,选择符合条件的行与列形成结果集,经客户端返回给应用程序。

Claims (1)

1.存储单元数据裁剪方法,是一种分布式数据库集群中用于查询时裁剪数据,提升数据有效利用率的数据剪裁筛选方法,属于计算机软件领域,其特征在于,数据智能裁剪在底层数据存储节点进行,减少了待处理数据与网络传输量,提升了效率,根据查询特点从行和列两个方面来进行数据裁剪,它包括查询过程中的过滤条件表达式的下压至各存储单元进行行选择,整个查询涉及列的映射筛选;
所述存储单元数据裁剪方法包括关系列映射筛选模块,条件过滤下压模块,存储单元按列映射筛选模块,存储单元根据条件按行选择模块;
所述存储单元数据裁剪方法具体的工作过程为:应用程序与客户端交互发送查询SQL语句,客户端收到请求后,生成任务请求,工作节点分析请求,规划SQL涉及的表、数据列、表之间的连接关系、查询条件和约束条件,定位数据存储节点,规划查询计划,根据目标数据分布于不同的节点,将同一节点数据请求打包,并将打包的同一节点的数据请求和列映射关系以及下压的筛选条件一并发送,存储单元根据任务请求的要求从磁盘加载数据,存储单元,根据下压的筛选条件与列映射关系,选择需要涉及的列与符合选择条件的行,组成合适的数据集发送至工作节点以待进一步处理,工作节点根据从各存储单元返回的数据做运算处理,选择符合条件的行与列形成结果集,经客户端返回给应用程序。
CN201310342397.8A 2013-08-08 2013-08-08 存储单元数据裁剪方法 Active CN103455556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310342397.8A CN103455556B (zh) 2013-08-08 2013-08-08 存储单元数据裁剪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310342397.8A CN103455556B (zh) 2013-08-08 2013-08-08 存储单元数据裁剪方法

Publications (2)

Publication Number Publication Date
CN103455556A CN103455556A (zh) 2013-12-18
CN103455556B true CN103455556B (zh) 2017-06-23

Family

ID=49737919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310342397.8A Active CN103455556B (zh) 2013-08-08 2013-08-08 存储单元数据裁剪方法

Country Status (1)

Country Link
CN (1) CN103455556B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227799B (zh) * 2016-07-21 2019-06-25 江和慧 一种基于分布式数据库的sql语句处理方法
CN106599095B (zh) * 2016-11-24 2020-07-14 上海交通大学 基于完整历史记录的减枝方法
CN109408413A (zh) * 2018-10-19 2019-03-01 珠海金山网络游戏科技有限公司 数据读取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635494A (zh) * 2003-12-27 2005-07-06 海信集团有限公司 实现类内存数据库存取和检索的方法
CN101751443A (zh) * 2008-12-10 2010-06-23 鸿富锦精密工业(深圳)有限公司 数据检索与处理***及方法
CN102665296A (zh) * 2012-05-10 2012-09-12 中国科学院计算技术研究所 一种无线传感器网络数据收集和发布装置及方法
CN103150370A (zh) * 2013-03-07 2013-06-12 黄晓惠 数据库***及其数据筛选方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001025918A2 (en) * 1999-10-01 2001-04-12 Accenture Llp Frameworks for methods and systems of providing netcentric computing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635494A (zh) * 2003-12-27 2005-07-06 海信集团有限公司 实现类内存数据库存取和检索的方法
CN101751443A (zh) * 2008-12-10 2010-06-23 鸿富锦精密工业(深圳)有限公司 数据检索与处理***及方法
CN102665296A (zh) * 2012-05-10 2012-09-12 中国科学院计算技术研究所 一种无线传感器网络数据收集和发布装置及方法
CN103150370A (zh) * 2013-03-07 2013-06-12 黄晓惠 数据库***及其数据筛选方法

Also Published As

Publication number Publication date
CN103455556A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
US11762882B2 (en) System and method for analysis and management of data distribution in a distributed database environment
CN103678665B (zh) 一种基于数据仓库的异构大数据整合方法和***
CN103631922B (zh) 基于Hadoop集群的大规模Web信息提取方法及***
CN107329982A (zh) 一种基于分布式列式存储的大数据并行计算方法及***
CN102799622A (zh) 基于MapReduce扩展框架的分布式SQL查询方法
CN106462578A (zh) 数据库条目查询和更新的方法
CN102663116A (zh) 面向列存储数据仓库的多维olap查询处理方法
CN103345514A (zh) 大数据环境下的流式数据处理方法
CN103366015A (zh) 一种基于Hadoop的OLAP数据存储与查询方法
CN108536692A (zh) 一种执行计划的生成方法、装置及数据库服务器
CN104090934A (zh) 一种标准服务平台分布式并行计算数据库及其检索方法
Caldarola et al. Big data: A survey-the new paradigms, methodologies and tools
CN102479217A (zh) 一种分布式数据仓库中实现计算均衡的方法及装置
Savitha et al. Mining of web server logs in a distributed cluster using big data technologies
CN106649687A (zh) 大数据联机分析处理方法及装置
Khan et al. Predictive performance comparison analysis of relational & NoSQL graph databases
CN103455556B (zh) 存储单元数据裁剪方法
Costa et al. A survey on data-driven performance tuning for big data analytics platforms
CN106649718A (zh) 一种用于pdm***的大数据采集与处理方法
Tan et al. Effectiveness assessment of solid-state drive used in big data services
Vrbić Data mining and cloud computing
CN115237937A (zh) 一种基于星际文件***的分布式协同查询处理***
CN104573074A (zh) 基于医院数据的高速计算分析方法
CN102819616B (zh) 云端线上即时多维度分析***与方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180404

Address after: 610218 Sichuan city of Chengdu province Tianfu Zheng Xing Shun Shing Street No. 172

Patentee after: Chengdu Valley Weiye Technology Co. Ltd.

Address before: No. 16 South four section of Xiaojiahe two ring road, Chengdu high new zone, Sichuan Province

Patentee before: Chengdu Ongoing Information Technology Co., Ltd.

TR01 Transfer of patent right