CN110222029A - 一种大数据多维分析计算效率提升方法及*** - Google Patents

一种大数据多维分析计算效率提升方法及*** Download PDF

Info

Publication number
CN110222029A
CN110222029A CN201910384295.XA CN201910384295A CN110222029A CN 110222029 A CN110222029 A CN 110222029A CN 201910384295 A CN201910384295 A CN 201910384295A CN 110222029 A CN110222029 A CN 110222029A
Authority
CN
China
Prior art keywords
cube
data
big data
different dimensions
computational efficiency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910384295.XA
Other languages
English (en)
Inventor
张琦
孙立华
刘士进
孟庆强
郑浩泉
杨志
刘铭
钱亚康
周洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Nari Information and Communication Technology Co
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Nari Information and Communication Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd, Nari Information and Communication Technology Co filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN201910384295.XA priority Critical patent/CN110222029A/zh
Publication of CN110222029A publication Critical patent/CN110222029A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据多维分析计算效率提升方法,包括以下过程:确定某一业务场景的事实表和维度表,以及不同维度下的统计指标类型;将事实表与维度表进行关联构建数据模型;根据数据模型设计数据立方体Cube;针对Cube计算获得不同维度的统计指标;将统计指标值存储至HBase;当查询此业务场景的不同维度下统计指标时,直接查询HBase中存储的统计指标值。本发明基于大数据平台的计算能力和存储能力,快速构建数据立方体Cube,并将数据立方体存储在Key‑value数据库HBase中,有效解决了大数据中OLAP延迟高的问题,提高了运行效率,提升了业务应用服务质量。

Description

一种大数据多维分析计算效率提升方法及***
技术领域
本发明属于大数据分析技术领域,具体涉及一种大数据多维分析计算效率提升方法及***。
背景技术
随着电网运行信息化、数字化推进,积累的数据量持续增长。对积累的海量数据进行多维度分析有迫切需求。但是传统的OLAP(联机分析处理)技术难以满足效率要求,需要基于大数据平台实现数十亿级别的数据的OLAP分析。
但是直接采用大数据Map/Reduce技术也是很难保证计算效率,如直接采用Hive数据仓库,存在延迟较高、计算资源占用高的缺点。尤其在集中生成月度、季度、年度报表的时候,需要运行非常多的用来产生报表的SQL脚本,此时对大数据平台的运行效率有较明显的影响,极有可能导致部分任务失败。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种大数据多维分析计算效率提升方法,解决了现有技术中查询效率低的技术问题。
为解决上述技术问题,本发明提供了一种大数据多维分析计算效率提升方法,其特征是,包括以下过程:
确定某一业务场景的事实表和维度表,以及不同维度下的统计指标类型;
将事实表与维度表进行关联构建数据模型;
根据数据模型设计数据立方体Cube;
根据确定的不同维度下统计指标,针对Cube计算获得不同维度的统计指标;
将统计指标值存储至HBase;
当查询此业务场景的不同维度下统计指标时,直接查询HBase中存储的统计指标值。
进一步的,事实表和维度表存储在Hive中。
进一步的,统计指标包括求和、平均、TopN、计数、最大和最小。
进一步的,通过MapReduce计算不同维度的统计指标值。
进一步的,通过MapReduce计算不同维度的统计指标值包括:
按Cube中维度数逐渐减少来计算;
通过MapReduce计算每个维度数层级的统计指标值。
进一步的,Cube中所有层级的MapReduce计算过程串行执行。
相应的,本发明还提供了一种大数据多维分析计算效率提升***,其特征是,包括场景数据确定模块、模型构建模块、数据立方体设计模块、计算模块、存储模块和查询模块;
场景数据确定模块,用于确定某一业务场景的事实表和维度表,以及不同维度下的统计指标;
模型构建模块,用于将事实表与维度表进行关联构建数据模型;
数据立方体设计模块,用于根据数据模型设计数据立方体Cube;
计算模块,用于根据确定的不同维度下统计指标,针对Cube计算获得不同维度的统计指标值;
存储模块,用于将统计指标值存储至HBase;
查询模块,用于当查询此业务场景的不同维度下统计指标时,直接查询HBase中存储的统计指标值。
进一步的,场景数据确定模块中,事实表和维度表存储在Hive中。
进一步的,场景数据确定模块中,统计指标包括求和、平均、TopN、计数、最大和最小。
本发明还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有一种大数据多维分析计算效率提升方法的程序,所述一种大数据多维分析计算效率提升方法的程序被至少一个处理器执行时实现前述一种大数据多维分析计算效率提升方法的步骤。
与现有技术相比,本发明所达到的有益效果是:本发明创新地采用了预计算策略,基于大数据平台的计算能力和存储能力,快速构建数据立方体(Cube),并将数据立方体存储在Key-value数据库HBase中,有效解决了大数据中OLAP延迟高的问题,提高了运行效率,提升了业务应用服务质量。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的一种大数据多维分析计算效率提升方法,该方法的实现是基于Hadoop大数据环境,主要需要Hive组件、Hbase组件、MapReduce计算组件。通过预计算思想,以空间换时间。即多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube并存储到HBase中,供查询时直接访问。把高复杂度的聚合运算,多表连接等操作转换成对预计算结果的查询,以提高查询效率。
其方法具体包括以下步骤:
S1,对某一业务场景进行分析,确定该场景下采用数据立方体(Cube)描述其场景事件所需的事实表和用来描述事实表中特定属性信息的维度表,并明确不同维度下的统计指标类型(例如:求和、平均、TopN、计数等)。事实表和维度表,它们是存储在Hive中的。
S2,根据S1中分析出的事实表和维度表,将其同步至本***cube中,为后续计算做准备。
S3,根据S2同步完成的事实表与维度表设计数据模型。
具体设计是将事实表与各个维度表的关联字段确定,然后统计不同的维度根据维度表中对应的字段进行确定。多个维度表关联完成,不同维度字段选择完成,模型就构建完成。
S4,根据S3设计完成的数据模型,开始设计数据立方体Cube。
具体设计方法是,首先根据需要统计的业务指标,选择S3模型中所需的字段,然后设置对应字段所需计算的统计度量类型(例如:求和、平均、TopN、计数等)。
S5,根据S1中确定的指标及S4中设计出的Cube,通过MapReduce框架进行计算。
一个N维的完全Cube,是由:1个N维子立方体,N个(N-1)维子立方体,N*(N-1)/2个(N-2)维子立方体…,N个1维子立方体,1个0维子立方体,总共2^N个子立方体组成的。
其具体计算是,通过逐层计算法,在“逐层算法”中,按维度数逐渐减少来计算,每个层级的计算(除了第一层,它是从原始数据聚合而来),是基于它上一层级的结果来计算的。此算法的Mapper和Reducer都比较简单。Mapper以上一层子立方体的结果(Key-Value对)作为输入。由于Key是由各维度值拼接在一起,从其中找出要聚合的维度,去掉它的值成新的Key,然后把新Key和Value输出,进而MapReduce对所有新Key进行排序、洗牌(shuffle)、再送到Reducer处;Reducer的输入会是一组有相同Key的Value集合,对这些Value做聚合计算,再结合Key输出就完成了一轮计算。每一轮的计算都是一个MapReduce任务,且串行执行;一个N维的Cube,至少需要N次MapReduce任务。
至此通过MapReduce任务,Cube的各个维度的不同统计指标值计算完成。
S6,通过S5的计算,Cube中各个维度的不同统计指标值计算完成,然后将统计指标值存储至HBase。
S7,通过S6中存储的数据立方体中的指标值,进行该业务场景数据指标的查询操作。例如上卷、下钻等查询操作。
实施例
现通过举例说明上述方法如下:
实施步骤包括:①启动引擎服务;②业务Cube配置。
1.基于大数据平台环境,启动本服务。配置JDK等环境变量,将大数据环境Hive、HBASE等环境变量配置完成,然后运行启动脚本即可启动引擎服务。
2.业务Cube配置包括以下步骤:
2.1新建一个项目
首先添加一个新的多维数据分析(OLAP)项目,填写项目描述信息并提交。
2.2同步Hive数据表
加载Hive表元数据,选择需要同步的表,进行同步,将源数据加入引擎管理。
2.3新建一个Cube
添加Cube,然后进行Cube设计,Cube设计主要包含以下步奏:
(1)填写Cube基本信息;
(2)建立事实表,即原始数据表;
(3)添加一个新的维度,可以选择不同类型的维度加入同一个Cube,通常从事实表或者维度表取维度;
(4)设置维度度量,添加一个新的度量,根据它的表达式共有若干种不同类型的度量:SUM(求和)、MAX(最大值)、MIN(最小值)、COUNT(计数)和TopN等。
2.4Cube创建完成后,进行Cube构建,主要基于大数据平台分布式计算框架生成Cube,生成的维度数据存储到Hbase中。
2.5更新Cube
配置定时任务将新增事实数据同步到事实表,执行Cube刷新操作,即重新计算各维度指标,并更新到Hbase中。
2.6访问Cube
通过Restful服务接口或JDBC接口执行SQL命令访问事实表、各维度数据,实现多维度关联、下钻等分析功能。
相应的,本发明还提供了一种大数据多维分析计算效率提升***,包括场景数据确定模块、模型构建模块、数据立方体设计模块、计算模块、存储模块和查询模块;
场景数据确定模块,用于确定某一业务场景的事实表和维度表,以及不同维度下的统计指标;
模型构建模块,用于将事实表与维度表进行关联构建数据模型;
数据立方体设计模块,用于根据数据模型设计数据立方体Cube;
计算模块,用于根据确定的不同维度下统计指标,针对Cube计算获得不同维度的统计指标值;
存储模块,用于将统计指标值存储至HBase;
查询模块,用于当查询此业务场景的不同维度下统计指标时,直接查询HBase中存储的统计指标值。
进一步的,场景数据确定模块中,事实表和维度表存储在Hive中。
进一步的,场景数据确定模块中,统计指标包括求和、平均、TopN、计数、最大和最小。
本发明还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有一种大数据多维分析计算效率提升方法的程序,所述一种大数据多维分析计算效率提升方法的程序被至少一个处理器执行时实现前述一种大数据多维分析计算效率提升方法的步骤。
本发明创新地采用了预计算策略,基于大数据平台的计算能力和存储能力,快速构建数据立方体(Cube),并将数据立方体存储在Key-value数据库HBase中,有效解决了大数据中OLAP延迟高的问题,提高了运行效率,提升了业务应用服务质量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种大数据多维分析计算效率提升方法,其特征是,包括以下过程:
确定某一业务场景的事实表和维度表,以及不同维度下的统计指标;
将事实表与维度表进行关联构建数据模型;
根据数据模型设计数据立方体Cube;
根据确定的不同维度下统计指标,针对Cube计算获得不同维度的统计指标值;
将统计指标值存储至HBase;
当查询此业务场景的不同维度下统计指标时,直接查询HBase中存储的统计指标值。
2.根据权利要求1所述的一种大数据多维分析计算效率提升方法,其特征是,事实表和维度表存储在Hive中。
3.根据权利要求1所述的一种大数据多维分析计算效率提升方法,其特征是,统计指标包括求和、平均、TopN、计数、最大和最小。
4.根据权利要求1所述的一种大数据多维分析计算效率提升方法,其特征是,计算获得不同维度的统计指标值的步骤包括:通过MapReduce计算不同维度的统计指标值。
5.根据权利要求4所述的一种大数据多维分析计算效率提升方法,其特征是,通过MapReduce计算不同维度的统计指标值包括:
按Cube中维度数逐渐减少来计算;
通过MapReduce计算每个维度数层级的统计指标值。
6.根据权利要求5所述的一种大数据多维分析计算效率提升方法,其特征是,Cube中所有层级的MapReduce计算过程串行执行。
7.一种大数据多维分析计算效率提升***,其特征是,包括场景数据确定模块、模型构建模块、数据立方体设计模块、计算模块、存储模块和查询模块;
场景数据确定模块,用于确定某一业务场景的事实表和维度表,以及不同维度下的统计指标;
模型构建模块,用于将事实表与维度表进行关联构建数据模型;
数据立方体设计模块,用于根据数据模型设计数据立方体Cube;
计算模块,用于根据确定的不同维度下统计指标,针对Cube计算获得不同维度的统计指标值;
存储模块,用于将统计指标值存储至HBase;
查询模块,用于当查询此业务场景的不同维度下统计指标时,直接查询HBase中存储的统计指标值。
8.根据权利要求7所述的一种大数据多维分析计算效率提升***,其特征是,场景数据确定模块中,事实表和维度表存储在Hive中。
9.根据权利要求7所述的一种大数据多维分析计算效率提升***,其特征是,场景数据确定模块中,统计指标包括求和、平均、TopN、计数、最大和最小。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一种大数据多维分析计算效率提升方法的程序,所述一种大数据多维分析计算效率提升方法的程序被至少一个处理器执行时实现权利要求1-6任一项所述一种大数据多维分析计算效率提升方法的步骤。
CN201910384295.XA 2019-05-09 2019-05-09 一种大数据多维分析计算效率提升方法及*** Pending CN110222029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910384295.XA CN110222029A (zh) 2019-05-09 2019-05-09 一种大数据多维分析计算效率提升方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910384295.XA CN110222029A (zh) 2019-05-09 2019-05-09 一种大数据多维分析计算效率提升方法及***

Publications (1)

Publication Number Publication Date
CN110222029A true CN110222029A (zh) 2019-09-10

Family

ID=67820696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910384295.XA Pending CN110222029A (zh) 2019-05-09 2019-05-09 一种大数据多维分析计算效率提升方法及***

Country Status (1)

Country Link
CN (1) CN110222029A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781252A (zh) * 2019-11-05 2020-02-11 安徽数据堂科技有限公司 一种基于大数据的数据智能分析可视化方法
CN111026817A (zh) * 2019-12-09 2020-04-17 北京中电普华信息技术有限公司 一种多维计算方法及装置
CN111125266A (zh) * 2019-12-24 2020-05-08 中国建设银行股份有限公司 数据处理方法、装置、设备及存储介质
CN111367980A (zh) * 2020-03-05 2020-07-03 苏宁云计算有限公司 一种根据电商指标管理上游任务的方法和***
CN112347098A (zh) * 2020-09-27 2021-02-09 武汉虹信科技发展有限责任公司 数据库表拆分方法、***、电子设备及存储介质
CN112508439A (zh) * 2020-12-18 2021-03-16 威海天鑫现代服务技术研究院有限公司 一种数据分析方法、***、计算机设备和存储介质
CN112597420A (zh) * 2020-12-25 2021-04-02 第四范式(北京)技术有限公司 实现统一的数据管理的方法及装置
CN112651618A (zh) * 2020-12-21 2021-04-13 国家电网有限公司大数据中心 用于计量数据在线审计的审计维度模型的构建方法
CN113094409A (zh) * 2021-04-08 2021-07-09 国网电子商务有限公司 业务数据的处理方法及装置、计算机存储介质
CN113656755A (zh) * 2021-08-20 2021-11-16 中国人寿保险股份有限公司广东省分公司 自定义指标计算公式的数据统计方法、装置及存储介质
CN113901004A (zh) * 2021-10-27 2022-01-07 江苏瑞中数据股份有限公司 一种数据中台化的大数据复杂实时计算的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法
CN108416047A (zh) * 2018-03-16 2018-08-17 北京工商大学 一种面向农药残留数据的多维交叉分析方法与***
US20180285439A1 (en) * 2017-03-28 2018-10-04 Shanghai Kyligence Information Technology Co., Ltd Olap pre-calculation model, automatic modeling method, and automatic modeling system
CN109241159A (zh) * 2018-08-07 2019-01-18 威富通科技有限公司 一种数据立方体的分区查询方法、***及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法
US20180285439A1 (en) * 2017-03-28 2018-10-04 Shanghai Kyligence Information Technology Co., Ltd Olap pre-calculation model, automatic modeling method, and automatic modeling system
CN108416047A (zh) * 2018-03-16 2018-08-17 北京工商大学 一种面向农药残留数据的多维交叉分析方法与***
CN109241159A (zh) * 2018-08-07 2019-01-18 威富通科技有限公司 一种数据立方体的分区查询方法、***及终端设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781252A (zh) * 2019-11-05 2020-02-11 安徽数据堂科技有限公司 一种基于大数据的数据智能分析可视化方法
CN111026817A (zh) * 2019-12-09 2020-04-17 北京中电普华信息技术有限公司 一种多维计算方法及装置
CN111026817B (zh) * 2019-12-09 2023-11-28 北京中电普华信息技术有限公司 一种多维计算方法及装置
CN111125266A (zh) * 2019-12-24 2020-05-08 中国建设银行股份有限公司 数据处理方法、装置、设备及存储介质
CN111125266B (zh) * 2019-12-24 2024-01-12 建信金融科技有限责任公司 数据处理方法、装置、设备及存储介质
CN111367980B (zh) * 2020-03-05 2022-11-11 苏宁云计算有限公司 一种根据电商指标管理上游任务的方法和***
CN111367980A (zh) * 2020-03-05 2020-07-03 苏宁云计算有限公司 一种根据电商指标管理上游任务的方法和***
CN112347098A (zh) * 2020-09-27 2021-02-09 武汉虹信科技发展有限责任公司 数据库表拆分方法、***、电子设备及存储介质
CN112508439A (zh) * 2020-12-18 2021-03-16 威海天鑫现代服务技术研究院有限公司 一种数据分析方法、***、计算机设备和存储介质
CN112651618A (zh) * 2020-12-21 2021-04-13 国家电网有限公司大数据中心 用于计量数据在线审计的审计维度模型的构建方法
CN112597420A (zh) * 2020-12-25 2021-04-02 第四范式(北京)技术有限公司 实现统一的数据管理的方法及装置
CN113094409A (zh) * 2021-04-08 2021-07-09 国网电子商务有限公司 业务数据的处理方法及装置、计算机存储介质
CN113656755A (zh) * 2021-08-20 2021-11-16 中国人寿保险股份有限公司广东省分公司 自定义指标计算公式的数据统计方法、装置及存储介质
CN113901004A (zh) * 2021-10-27 2022-01-07 江苏瑞中数据股份有限公司 一种数据中台化的大数据复杂实时计算的方法

Similar Documents

Publication Publication Date Title
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及***
CN110199273B (zh) 用于在多维数据库环境中的一次扫描中进行加载、聚合和批量计算的***和方法
CN103345514B (zh) 大数据环境下的流式数据处理方法
CN107423368B (zh) 一种非关系数据库中的时空数据索引方法
CN106897322B (zh) 一种数据库和文件***的访问方法和装置
Zheng et al. Real-time big data processing framework: challenges and solutions
US9235611B1 (en) Data growth balancing
CN106708917B (zh) 一种数据处理方法、装置以及olap***
US20150278306A1 (en) Bloom filter costing estimation
WO2015149885A1 (en) Method for querying and updating entries in a data base
CN106777093A (zh) 基于空间时序数据流应用的Skyline查询***
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及***
Giannakouris et al. MuSQLE: Distributed SQL query execution over multiple engine environments
CN104036029A (zh) 大数据一致性对比方法和***
US10726006B2 (en) Query optimization using propagated data distinctness
US9189489B1 (en) Inverse distribution function operations in a parallel relational database
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
Tang et al. An intermediate data partition algorithm for skew mitigation in spark computing environment
Han et al. Scatter-gather-merge: An efficient star-join query processing algorithm for data-parallel frameworks
CN104376109A (zh) 一种基于数据分布库的多维度数据分布方法
US10289723B1 (en) Distributed union all queries
Theeten et al. Chive: Bandwidth optimized continuous querying in distributed clouds
CN103365923A (zh) 用于评估数据库的分区方案的方法和装置
CN110795469A (zh) 基于Spark的高维序列数据相似性查询方法及***
CN108319604B (zh) 一种hive中大小表关联的优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination