CN106844415A - 一种SparkSQL***中的数据处理方法和装置 - Google Patents

一种SparkSQL***中的数据处理方法和装置 Download PDF

Info

Publication number
CN106844415A
CN106844415A CN201611016865.2A CN201611016865A CN106844415A CN 106844415 A CN106844415 A CN 106844415A CN 201611016865 A CN201611016865 A CN 201611016865A CN 106844415 A CN106844415 A CN 106844415A
Authority
CN
China
Prior art keywords
data
aggregate query
tables
sparksql
systems
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611016865.2A
Other languages
English (en)
Other versions
CN106844415B (zh
Inventor
李远策
李振炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201611016865.2A priority Critical patent/CN106844415B/zh
Publication of CN106844415A publication Critical patent/CN106844415A/zh
Application granted granted Critical
Publication of CN106844415B publication Critical patent/CN106844415B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种SparkSQL***中的数据处理方法和装置。其中所述方法包括:当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。该技术方案有效地利用了OLAP引擎毫秒级的多维度聚合分析能力,显著地提升了在SparkSQL***中进行聚合查询的速度。

Description

一种SparkSQL***中的数据处理方法和装置
技术领域
本发明涉及计算机技术领域,具体涉及一种SparkSQL***中的数据处理方法和装置。
背景技术
SparkSQL是一个使用SQL进行大数据分析的***,可以进行TB至PB级的数据统计。但是SparkSQL批处理的计算模型,限制了其进行SQL查询的速度。例如在进行“统计user表中同名人的平均年龄”这样的聚合查询时,SparkSQL会把该表中的所需要的数据集全部读取到内存中进行聚合计算,这样非常缓慢。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的SparkSQL***中的数据处理方法和装置。
依据本发明的一个方面,提供了一种SparkSQL***中的数据处理方法,包括:
当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;
如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;
如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
可选地,该方法还包括:
为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使所述OLAP引擎根据所述聚合查询预处理任务,获取所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
可选地,所述为SparkSQL***中的数据表的指定列建立聚合查询预处理任务包括:
当所述数据表的指定列的数据发生改变时,将增量数据以数据流方式推送至所述OLAP引擎,
和/或,
记录聚合查询预处理任务执行的时间点,在接收到所述OLAP引擎发送的数据获取请求时,将所述数据表的全部数据,或所述数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给所述OLAP引擎。
可选地,所述为SparkSQL***中的数据表的指定列建立聚合查询预处理任务包括:
选定所述OLAP引擎中的至少一种聚合查询方法,和/或自定义至少一种聚合查询方法。
可选地,所述判断该请求是否命中聚合查询预处理任务的列包括:
从所述查询请求中解析出待查询的表名和列名;
根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务,若存在则判断为命中,若不存在则判断为未命中。
可选地,所述从所述查询请求中解析出待查询的表名和列名包括:
从所述查询请求中解析出类型为聚合查询请求的子请求;
从所述子请求中解析出待查询的表名和列名。
可选地,所述为SparkSQL***中的数据表的指定列建立聚合查询预处理任务还包括:
在该数据表的表结构中标识聚合查询预处理任务的列;
所述根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务包括:
根据所述待查询的表名,从相应数据表的表结构中读取该数据表的聚合查询预处理任务的列,根据所述待查询的列名判断所述表结构中是否存在与该列名对应的聚合查询预处理任务。
依据本发明的另一方面,提供了一种SparkSQL***中的数据处理方法,包括:
接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;
根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果;
接收对SparkSQL***中的数据表的查询请求,根据该请求查找相应的聚合查询结果;
将查找到的聚合查询结果返回给所述请求的发送方。
可选地,所述根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果包括:
接收以数据流方式推送的,当所述数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的所述数据表的全部数据,或所述数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;
根据已接收到的所述数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
可选地,根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果包括:
根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
依据本发明的又一方面,提供了一种SparkSQL***中的数据处理装置,包括:
请求处理单元,适于当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
可选地,该装置还包括:
聚合查询预处理单元,适于为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使所述OLAP引擎根据所述聚合查询预处理任务,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
可选地,所述聚合查询预处理单元,适于当所述数据表的指定列的数据发生改变时,将增量数据以数据流方式推送至所述OLAP引擎,和/或,记录聚合查询预处理任务执行的时间点,在接收到所述OLAP引擎发送的数据获取请求时,将所述数据表的全部数据,或所述数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给所述OLAP引擎。
可选地,所述聚合查询预处理单元,适于选定所述OLAP引擎中的至少一种聚合查询方法,和/或自定义至少一种聚合查询方法。
可选地,所述请求处理单元,适于从所述查询请求中解析出待查询的表名和列名;根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务,若存在则判断为命中,若不存在则判断为未命中。
可选地,所述请求处理单元,适于从所述查询请求中解析出类型为聚合查询请求的子请求;从所述子请求中解析出待查询的表名和列名。
可选地,所述请求处理单元,还适于在该数据表的表结构中标识聚合查询预处理任务的列;所述根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务包括:根据所述待查询的表名,从相应数据表的表结构中读取该数据表的聚合查询预处理任务的列,根据所述待查询的列名判断所述表结构中是否存在与该列名对应的聚合查询预处理任务。
依据本发明的再一方面,提供了一种SparkSQL***中的数据处理装置,包括:
数据通信单元,适于接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;根据所述聚合查询预处理任务,获取所述数据表的数据;以及适于接收对SparkSQL***中的数据表的查询请求,将聚合查询单元查找到的相应的聚合查询结果返回给所述请求的发送方;
所述聚合查询单元,适于根据所述聚合查询预处理任务和所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果;以及适于根据对SparkSQL***中的数据表的查询请求,查找到相应的聚合查询结果。
可选地,所述数据通信单元,适于接收以数据流方式推送的,当所述数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的所述数据表的全部数据,或所述数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;
所述聚合查询单元,适于根据已接收到的所述数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
可选地,所述聚合查询单元,适于根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
由上述可知,本发明的技术方案,在接收到对数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列,如果命中,则将所述查询请求发送至所述OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL的SQL查询模块完成本次查询请求。该技术方案有效地利用OLAP引擎毫秒级的多维度聚合分析能力,显著地提升了在SparkSQL***中进行聚合查询的速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种SparkSQL***中的数据处理方法的流程示意图;
图2示出了根据本发明一个实施例的另一种SparkSQL***中的数据处理方法的流程示意图;
图3示出了根据本发明一个实施例的一种SparkSQL***中的数据处理装置的结构示意图;
图4示出了根据本发明一个实施例的另一种SparkSQL***中的数据处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种SparkSQL***中的数据处理方法的流程示意图,如图1所示,该方法包括:
步骤S110,当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列。
步骤S120,如果命中,则将查询请求发送至OLAP引擎,接收OLAP引擎返回的聚合查询结果。
步骤S130,如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
可见,图1所示的方法,在接收到对数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列,如果命中,则将查询请求发送至OLAP引擎,接收OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL的SQL查询模块完成本次查询请求。该技术方案有效地利用OLAP引擎毫秒级的多维度聚合分析能力,显著地提升了在SparkSQL***中进行聚合查询的速度。
在本发明的一个实施例中,图1所示的方法还包括:为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使OLAP引擎根据聚合查询预处理任务,对数据表的指定列进行聚合查询,得到聚合查询结果。
例如,在一个实施例中可以选择Kylin作为进行聚合查询计算的OLAP引擎。聚合查询预处理任务的建立可以在数据表建表时建立,也可以对已有的数据表进行建立。在聚合查询预处理任务中可以设定任务执行的时间点或时间频率等,OLAP引擎需要根据数据表中的数据才能进行聚合查询。下面给出了聚合预处理任务的示例:
在本发明的一个实施例中,图1所示的方法中,为SparkSQL***中的数据表的指定列建立聚合查询预处理任务包括:当数据表的指定列的数据发生改变时,将增量数据以数据流方式推送至OLAP引擎,和/或,记录聚合查询预处理任务执行的时间点,在接收到OLAP引擎发送的数据获取请求时,将数据表的全部数据,或数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给OLAP引擎。
例如,为user表中的age列建立了sum(求和)聚合查询预处理任务。那么在user表中新增了一行数据时,该行数据包含age列的列值,必然会影响该列的sum值,因此可以将增量数据以数据流方式推送至OLAP引擎,使得OLAP引擎根据增量数据重新对age列进行sum聚合查询,得到新的聚合查询结果并保存。在负载较重的情况下,也可以设置聚合查询预处理任务执行的时间点,在到达时间点时,由OLAP引擎主动发起数据获取请求,将数据包的全部数据(例如,新建的表还未完成过聚合查询预处理任务),或将数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给OLAP引擎。例如,对user表的age列建立了sum聚合查询预处理任务,而对该表中name列中任一项列值的修改并不会影响该任务对应的聚合查询结果,因此不需要向OLAP引擎发送数据。
在本发明的一个实施例中,图1所示的方法中,为SparkSQL***中的数据表的指定列建立聚合查询预处理任务包括:选定OLAP引擎中的至少一种聚合查询方法,和/或自定义至少一种聚合查询方法。
OLAP引擎一般会预置一种或多种聚合查询方法,例如avg(求均值),sum(求和)等,也有一些OLAP引擎支持用户自定义的聚合查询方法。因此在本实施例中,在建立聚合查询预处理任务时,需要至少确定一种聚合查询方法,既可以是从OLAP引擎提供的聚合查询方法中选择,也可以自己进行定义,更能满足用户需求。
在本发明的一个实施例中,图1所示的方法中,判断该请求是否命中聚合查询预处理任务的列包括:从查询请求中解析出待查询的表名和列名;根据待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务,若存在则判断为命中,若不存在则判断为未命中。
由于SparkSQL使用类似SQL的查询语句,因此也会对查询语句进行解析。例如查询请求为:select name,avg(age)from user,即对user表中表中同名人的平均年龄进行聚合查询,首先对查询请求进行AST(abstract syntax tree,抽象语法树)解析,得到查询请求的树形结构的表现形式,其中每一个节点为一个查询请求中的一个单词,而树的结构体现了查询请求的语法。进一步地,根据树形结构生成逻辑查询计划,可以对查询请求进行一些优化,再进一步生成物理查询计划。在这个过程中,就可以根据解析出的待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务。根据出的表名user和解析出的列名name和age,可以判断请求是否命中为这两列建立的聚合查询预处理任务。
可以看出,聚合查询预处理任务的指定列可以是一个或多个列。而查询请求为类似SQL的查询语句,也就表明该请求可以是多层嵌套请求,可能而其中的一个或多个子请求为聚合查询请求。因此在本发明的一个实施例中,上述方法中,从查询请求中解析出待查询的表名和列名包括:从查询请求中解析出类型为聚合查询请求的子请求;从子请求中解析出待查询的表名和列名。该步骤可以在AST解析时进行完成。
在本发明的一个实施例中,上述方法中,为SparkSQL***中的数据表的指定列建立聚合查询预处理任务还包括:在该数据表的表结构中标识聚合查询预处理任务的列;根据待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务包括:根据待查询的表名,从相应数据表的表结构中读取该数据表的聚合查询预处理任务的列,根据待查询的列名判断表结构中是否存在与该列名对应的聚合查询预处理任务。
在SparkSQL***中,数据表的实数据是存储在HDFS中的,也就是用于建立聚合查询预处理任务的数据;而元数据中记录表结构,对该表结构进行修改,可以标识聚合查询预处理任务的列。这样在解析请求得到待查询的表名和列名后,查询与表名对应的表结构,就可以判断是否已经为待查询的列名建立了聚合查询预处理任务。
图2示出了根据本发明一个实施例的另一种SparkSQL***中的数据处理方法的流程示意图,如图2所示,该方法包括:
步骤S210,接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务。
步骤S220,根据聚合查询预处理任务,获取数据表的数据并对数据表的指定列进行聚合查询,得到聚合查询结果。
步骤S230,接收对SparkSQL***中的数据表的查询请求,根据该请求查找相应的聚合查询结果。
步骤S240,将查找到的聚合查询结果返回给请求的发送方。
该方法可以应用于对OLAP引擎的更改,使其适用于SparkSQL***。并且仅利用了OLAP引擎擅长聚合查询的特点,并不影响SparkSQL***的其他功能,二者是松耦合的关系,便于配置。
在本发明的一个实施例中,图2所示的方法中,根据聚合查询预处理任务,获取数据表的数据并对数据表的指定列进行聚合查询,得到聚合查询结果包括:接收以数据流方式推送的,当数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的数据表的全部数据,或数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;根据已接收到的数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
数据表通常不是一成不变的。那么如果数据表中的数据在更新后,用户又需要对该数据表的某些指定列进行聚合查询,而这时OLAP引擎还未对这些列的聚合查询结果进行更新,就满足不了用户的需求。因此一种方式是,OLAP引擎接收数据表主动推送的增量数据,这样就保证了实时性。但是在数据表更新的数据量较大的情况下,这种流数据的方式就不是很合适了,因此也可以定期地由OLAP引擎发送数据获取请求。
在本发明的一个实施例中,图2所示的方法中,根据聚合查询预处理任务,获取数据表的数据并对数据表的指定列进行聚合查询,得到聚合查询结果包括:根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的数据表的数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
前述实施例中已经介绍过,OLAP引擎包含多种常用的聚合查询方法,在本实施例中也支持用户自定义的方法,在此不做赘述。
图3示出了根据本发明一个实施例的一种SparkSQL***中的数据处理装置的结构示意图,如图3所示,SparkSQL***中的数据处理装置300包括:
请求处理单元310,适于当接收到对数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;如果命中,则将查询请求发送至OLAP引擎,接收OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
可见,图3所示的装置,在接收到对数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列,如果命中,则将查询请求发送至OLAP引擎,接收OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL的SQL查询模块完成本次查询请求。该技术方案通有效地利用OLAP引擎毫秒级的多维度聚合分析能力,显著地提升了在SparkSQL***中进行聚合查询的速度。
在本发明的一个实施例中,图3所示的装置还包括:聚合查询预处理单元320,适于为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使OLAP引擎根据聚合查询预处理任务,对数据表的指定列进行聚合查询,得到聚合查询结果。
在本发明的一个实施例中,上述装置中,聚合查询预处理单元320,适于当数据表的指定列的数据发生改变时,将增量数据以数据流方式推送至OLAP引擎,和/或,记录聚合查询预处理任务执行的时间点,在接收到OLAP引擎发送的数据获取请求时,将数据表的全部数据,或数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给OLAP引擎。
在本发明的一个实施例中,上述装置中,聚合查询预处理单元320,适于选定OLAP引擎中的至少一种聚合查询方法,和/或自定义至少一种聚合查询方法。
在本发明的一个实施例中,图3所示的装置中,请求处理单元310,适于从查询请求中解析出待查询的表名和列名;根据待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务,若存在则判断为命中,若不存在则判断为未命中。
在本发明的一个实施例中,上述装置中,请求处理单元310,适于从查询请求中解析出类型为聚合查询请求的子请求;从子请求中解析出待查询的表名和列名。
在本发明的一个实施例中,上述装置中,请求处理单元310,还适于在该数据表的表结构中标识聚合查询预处理任务的列;根据待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务包括:根据待查询的表名,从相应数据表的表结构中读取该数据表的聚合查询预处理任务的列,根据待查询的列名判断表结构中是否存在与该列名对应的聚合查询预处理任务。
图4示出了根据本发明一个实施例的另一种SparkSQL***中的数据处理装置的结构示意图,如图4所示,SparkSQL***中的数据处理装置400包括:
数据通信单元410,适于接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;根据聚合查询预处理任务,获取数据表的数据;以及适于接收对SparkSQL***中的数据表的查询请求,将聚合查询单元查找到的相应的聚合查询结果返回给请求的发送方。
聚合查询单元420,适于根据聚合查询预处理任务和数据表的数据,对数据表的指定列进行聚合查询,得到聚合查询结果;以及适于根据对SparkSQL***中的数据表的查询请求,查找到相应的聚合查询结果。
在本发明的一个实施例中,图4所示的装置中,数据通信单元410,适于接收以数据流方式推送的,当数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的数据表的全部数据,或数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;聚合查询单元420,适于根据已接收到的数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
在本发明的一个实施例中,图4所示的装置中,聚合查询单元420,适于根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的数据表的数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。
综上所述,本发明的技术方案,在接收到对数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列,如果命中,则将查询请求发送至OLAP引擎,接收OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL的SQL查询模块完成本次查询请求。该技术方案有效地利用OLAP引擎毫秒级的多维度聚合分析能力,显著地提升了在SparkSQL***中进行聚合查询的速度。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的SparkSQL***中的数据处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明的实施例公开了A1、一种SparkSQL***中的数据处理方法,其中,该方法包括:
当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;
如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;
如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
A2、如A1的方法,其中,该方法还包括:
为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使所述OLAP引擎根据所述聚合查询预处理任务,获取所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
A3、如A2所述的方法,其中,所述为SparkSQL***中的数据表的指定列建立聚合查询预处理任务包括:
当所述数据表的指定列的数据发生改变时,将增量数据以数据流方式推送至所述OLAP引擎,
和/或,
记录聚合查询预处理任务执行的时间点,在接收到所述OLAP引擎发送的数据获取请求时,将所述数据表的全部数据,或所述数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给所述OLAP引擎。
A4、如A2所述的方法,其中,所述为SparkSQL***中的数据表的指定列建立聚合查询预处理任务包括:
选定所述OLAP引擎中的至少一种聚合查询方法,和/或自定义至少一种聚合查询方法。
A5、如A1所述的方法,其中,所述判断该请求是否命中聚合查询预处理任务的列包括:
从所述查询请求中解析出待查询的表名和列名;
根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务,若存在则判断为命中,若不存在则判断为未命中。
A6、如A5所述的方法,其中,所述从所述查询请求中解析出待查询的表名和列名包括:
从所述查询请求中解析出类型为聚合查询请求的子请求;
从所述子请求中解析出待查询的表名和列名。
A7、如A5所述的方法,其中,所述为SparkSQL***中的数据表的指定列建立聚合查询预处理任务还包括:
在该数据表的表结构中标识聚合查询预处理任务的列;
所述根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务包括:
根据所述待查询的表名,从相应数据表的表结构中读取该数据表的聚合查询预处理任务的列,根据所述待查询的列名判断所述表结构中是否存在与该列名对应的聚合查询预处理任务。
本发明的实施例还公开了B8、一种SparkSQL***中的数据处理方法,其中,该方法包括:
接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;
根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果;
接收对SparkSQL***中的数据表的查询请求,根据该请求查找相应的聚合查询结果;
将查找到的聚合查询结果返回给所述请求的发送方。
B9、如B8所述的方法,其中,所述根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果包括:
接收以数据流方式推送的,当所述数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的所述数据表的全部数据,或所述数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;
根据已接收到的所述数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
B10、如B8所述的方法,其中,根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果包括:
根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
本发明的实施例还公开了C11、一种SparkSQL***中的数据处理装置,其中,该装置包括:
请求处理单元,适于当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
C12、如C11所述的装置,其中,该装置还包括:
聚合查询预处理单元,适于为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使所述OLAP引擎根据所述聚合查询预处理任务,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
C13、如C12所述的装置,其中,
所述聚合查询预处理单元,适于当所述数据表的指定列的数据发生改变时,将增量数据以数据流方式推送至所述OLAP引擎,和/或,记录聚合查询预处理任务执行的时间点,在接收到所述OLAP引擎发送的数据获取请求时,将所述数据表的全部数据,或所述数据表自上一记录的时间点开始,因指定列的数据改变产生的增量数据返回给所述OLAP引擎。
C14、如C12所述的装置,其中,
所述聚合查询预处理单元,适于选定所述OLAP引擎中的至少一种聚合查询方法,和/或自定义至少一种聚合查询方法。
C15、如C11所述的装置,其中,
所述请求处理单元,适于从所述查询请求中解析出待查询的表名和列名;根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务,若存在则判断为命中,若不存在则判断为未命中。
C16、如C11所述的装置,其中,
所述请求处理单元,适于从所述查询请求中解析出类型为聚合查询请求的子请求;从所述子请求中解析出待查询的表名和列名。
C17、如C11所述的装置,其中,
所述请求处理单元,还适于在该数据表的表结构中标识聚合查询预处理任务的列;所述根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的聚合查询预处理任务包括:根据所述待查询的表名,从相应数据表的表结构中读取该数据表的聚合查询预处理任务的列,根据所述待查询的列名判断所述表结构中是否存在与该列名对应的聚合查询预处理任务。
本发明的实施例还公开了D18、一种SparkSQL***中的数据处理装置,其中,该装置包括:
数据通信单元,适于接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;根据所述聚合查询预处理任务,获取所述数据表的数据;以及适于接收对SparkSQL***中的数据表的查询请求,将聚合查询单元查找到的相应的聚合查询结果返回给所述请求的发送方;
所述聚合查询单元,适于根据所述聚合查询预处理任务和所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果;以及适于根据对SparkSQL***中的数据表的查询请求,查找到相应的聚合查询结果。
D19、如D18所述的装置,其中,
所述数据通信单元,适于接收以数据流方式推送的,当所述数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的所述数据表的全部数据,或所述数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;
所述聚合查询单元,适于根据已接收到的所述数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
D20、如D18所述的装置,其中,
所述聚合查询单元,适于根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。

Claims (10)

1.一种SparkSQL***中的数据处理方法,其中,该方法包括:
当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;
如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;
如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
2.如权利要求1的方法,其中,该方法还包括:
为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使所述OLAP引擎根据所述聚合查询预处理任务,获取所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
3.一种SparkSQL***中的数据处理方法,其中,该方法包括:
接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;
根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果;
接收对SparkSQL***中的数据表的查询请求,根据该请求查找相应的聚合查询结果;
将查找到的聚合查询结果返回给所述请求的发送方。
4.如权利要求3所述的方法,其中,所述根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果包括:
接收以数据流方式推送的,当所述数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的所述数据表的全部数据,或所述数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;
根据已接收到的所述数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
5.如权利要求3所述的方法,其中,根据所述聚合查询预处理任务,获取所述数据表的数据并对所述数据表的指定列进行聚合查询,得到聚合查询结果包括:
根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
6.一种SparkSQL***中的数据处理装置,其中,该装置包括:
请求处理单元,适于当接收到对SparkSQL***中的数据表的查询请求时,判断该请求是否命中聚合查询预处理任务的列;如果命中,则将所述查询请求发送至联机分析处理OLAP引擎,接收所述OLAP引擎返回的聚合查询结果;如果未命中,则调用SparkSQL***的SQL查询模块完成本次查询请求。
7.如权利要求6所述的装置,其中,该装置还包括:
聚合查询预处理单元,适于为SparkSQL***中的数据表的指定列建立聚合查询预处理任务,以使所述OLAP引擎根据所述聚合查询预处理任务,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
8.一种SparkSQL***中的数据处理装置,其中,该装置包括:
数据通信单元,适于接收为SparkSQL***中的数据表的指定列建立的聚合查询预处理任务;根据所述聚合查询预处理任务,获取所述数据表的数据;以及适于接收对SparkSQL***中的数据表的查询请求,将聚合查询单元查找到的相应的聚合查询结果返回给所述请求的发送方;
所述聚合查询单元,适于根据所述聚合查询预处理任务和所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果;以及适于根据对SparkSQL***中的数据表的查询请求,查找到相应的聚合查询结果。
9.如权利要求8所述的装置,其中,
所述数据通信单元,适于接收以数据流方式推送的,当所述数据表的指定列的数据发生改变时产生的增量数据,和/或,在聚合查询预处理任务执行的时间点发送数据获取请求,接收返回的所述数据表的全部数据,或所述数据表自上一次任务执行的时间点开始,因指定列的数据改变产生的增量数据;
所述聚合查询单元,适于根据已接收到的所述数据表的最新数据,对数据表的指定列进行聚合查询,得到聚合查询结果。
10.如权利要求8所述的装置,其中,
所述聚合查询单元,适于根据选定的至少一种聚合查询方法,和/或自定义的至少一种聚合查询方法,利用获取的所述数据表的数据,对所述数据表的指定列进行聚合查询,得到聚合查询结果。
CN201611016865.2A 2016-11-18 2016-11-18 一种SparkSQL***中的数据处理方法和装置 Expired - Fee Related CN106844415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611016865.2A CN106844415B (zh) 2016-11-18 2016-11-18 一种SparkSQL***中的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611016865.2A CN106844415B (zh) 2016-11-18 2016-11-18 一种SparkSQL***中的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106844415A true CN106844415A (zh) 2017-06-13
CN106844415B CN106844415B (zh) 2021-08-20

Family

ID=59145622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611016865.2A Expired - Fee Related CN106844415B (zh) 2016-11-18 2016-11-18 一种SparkSQL***中的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106844415B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480260A (zh) * 2017-08-16 2017-12-15 北京奇虎科技有限公司 大数据实时分析方法、装置、计算设备及计算机存储介质
CN112434056A (zh) * 2020-10-12 2021-03-02 南京江北新区生物医药公共服务平台有限公司 一种详情数据的查询方法及装置
CN113407587A (zh) * 2021-07-19 2021-09-17 北京百度网讯科技有限公司 用于联机分析处理引擎的数据处理方法、装置、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055149A1 (en) * 2009-09-02 2011-03-03 International Business Machines Corporation Generating query predicates for olap processing
CN104504154A (zh) * 2015-01-14 2015-04-08 曙光信息产业(北京)有限公司 一种数据聚合查询的方法及装置
CN105183917A (zh) * 2015-10-15 2015-12-23 国家电网公司 一种用于多级存储数据的多维分析方法
CN105574093A (zh) * 2015-12-10 2016-05-11 深圳市华讯方舟软件技术有限公司 一种在基于HDFS的spark-sql大数据处理***上建立索引的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055149A1 (en) * 2009-09-02 2011-03-03 International Business Machines Corporation Generating query predicates for olap processing
CN104504154A (zh) * 2015-01-14 2015-04-08 曙光信息产业(北京)有限公司 一种数据聚合查询的方法及装置
CN105183917A (zh) * 2015-10-15 2015-12-23 国家电网公司 一种用于多级存储数据的多维分析方法
CN105574093A (zh) * 2015-12-10 2016-05-11 深圳市华讯方舟软件技术有限公司 一种在基于HDFS的spark-sql大数据处理***上建立索引的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
副主编MENGYIDAN1988: "Kylin正式发布:面向大数据的终极OLAP引擎方案", 《ITEYE网站,HTTPS://WWW.ITEYE.COM/NEWS/29650》 *
田晓旭: "Apache Kylin大数据分析平台的演进", 《IT168网站,HTTP://BIGDATA.IT168.COM/A2016/0628/2747/000002747856.SHTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480260A (zh) * 2017-08-16 2017-12-15 北京奇虎科技有限公司 大数据实时分析方法、装置、计算设备及计算机存储介质
CN112434056A (zh) * 2020-10-12 2021-03-02 南京江北新区生物医药公共服务平台有限公司 一种详情数据的查询方法及装置
CN113407587A (zh) * 2021-07-19 2021-09-17 北京百度网讯科技有限公司 用于联机分析处理引擎的数据处理方法、装置、设备
CN113407587B (zh) * 2021-07-19 2023-10-27 北京百度网讯科技有限公司 用于联机分析处理引擎的数据处理方法、装置、设备

Also Published As

Publication number Publication date
CN106844415B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
US11580168B2 (en) Method and system for providing context based query suggestions
CN106844405B (zh) 数据查询方法和装置
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
CN110290186A (zh) 一种适用于多超算中心文件传输的***及方法
CN103685603B (zh) 域名***解析方法及设备
CN103391312B (zh) 资源离线下载方法及装置
AU2005239366A1 (en) Partial query caching
CN108664613A (zh) 数据查询方法、装置、计算机设备及存储介质
CN103559300B (zh) 数据的查询方法和查询装置
CN102393858A (zh) 一种基于客户端实时聚合的元搜索引擎***
CN107016019B (zh) 数据库索引创建方法及装置
WO2018035799A1 (zh) 数据查询方法、应用和数据库服务器、中间件及***
CN107861981A (zh) 一种数据处理方法及装置
CN106168963B (zh) 实时流数据的处理方法、装置及服务器
CN104965918B (zh) 一种基于查询关键词的搜索方法和装置
CN106844415A (zh) 一种SparkSQL***中的数据处理方法和装置
CN107480260B (zh) 大数据实时分析方法、装置、计算设备及计算机存储介质
CN111930770A (zh) 数据查询方法、装置及电子设备
CN107480268A (zh) 数据查询方法及装置
CN108509453B (zh) 一种信息处理方法及装置
CN107766378A (zh) 请求信息的发送方法及装置、分布式数据库***
CN107491463B (zh) 数据查询的优化方法和***
CN108280227A (zh) 基于缓存的数据信息处理方法及装置
CN105117383A (zh) 一种提供搜索结果的方法与装置
CN108762846B (zh) 插件化实时推荐方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210820

CF01 Termination of patent right due to non-payment of annual fee