CN107748766A

CN107748766A - 一种基于Presto和Elasticsearch的大数据快速查询方法

Info

Publication number: CN107748766A
Application number: CN201710900970.0A
Authority: CN
Inventors: 洪灿榕; 吴晓梅; 李明溪; 蔡炜榕
Original assignee: Linewell Software Co Ltd
Current assignee: Linewell Software Co Ltd
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-03-02
Anticipated expiration: 2037-09-28
Also published as: CN107748766B

Abstract

本发明涉及一种基于Presto和Elasticsearch的大数据快速查询方法，其将所有被查询数据包含时间字段并按日分索引的方式保存在Elasticsearch集群中，然后通过Presto集群接收并解析SQL请求生成相应的查询计划，获取满足查询计划的数据在Elasticsearch集群中的索引范围；通过逐步统计和计算，定位出所要查询的目标页数据所在的索引和时间区间；将时间区间加入原SQL语句的查询条件中从Elasticsearch集群中读取目标页的数据信息。本发明快速定位了目标页数据所在位置，大幅减少多余数据的读取，以提高随机跳页查询的性能。

Description

一种基于Presto和Elasticsearch的大数据快速查询方法

技术领域

本发明涉及大数据的快速查询方法，特别提供了一种基于Presto和Elasticsearch的大数据快速查询方法。

背景技术

Elasticsearch是一个建立在全文搜索引擎Apache Lucene^TM基础上的实时分析的分布式搜索引擎，它使用Lucene作为核心来实现所有索引和搜索的功能，使得每个文档的内容都可以被索引、搜索、排序、过滤。同时，提供了丰富的聚合功能，可以对数据进行多维度分析。但elasticsearch缺乏传统的SQL语法支持，开发人员使用较难，以关系型数据库为基础的***其数据迁移、对接工作也不易进行，尤其在用户进行查询和翻页时，复杂的查询和随机的、大范围的翻页使elasticsearch服务器长时间处于高负载的状态下,同时为了翻过大量的页数，读取了非常多并不会被使用的数据。而presto可为elasticsearch提供基本的SQL语法支持，但其基于内存的查询机制也需要把大量的目标数据预读到集群内存中，消耗大量的服务器资源和时间，也未能从根本上解决该问题。

发明内容

本发明的目的在于提供一种基于Presto和Elasticsearch的大数据快速查询方法，其使用presto集群进行SQL的接收和解析，结合elasticsearch的Date HistogramAggregation聚合统计功能，逐步定位目标页数据，实现数据的快速查询。

为实现上述目的，本发明采用的技术方案是：

一种基于Presto和Elasticsearch的大数据快速查询方法，其将所有被查询数据包含时间字段并按日分索引的方式保存在Elasticsearch集群中，然后通过Presto集群接收并解析SQL请求生成相应的查询计划，获取满足查询计划的数据在Elasticsearch集群中的索引范围；通过逐步统计和计算，定位出所要查询的目标页数据所在的索引和时间区间；将时间区间加入原SQL语句的查询条件中从Elasticsearch集群中读取目标页的数据信息。

所述大数据快速查询方法具体包括以下步骤：

步骤1、Presto集群接收并解析SQL请求并生成相应的查询计划，得到满足查询条件的数据在elasticsearch集群中的索引范围以及满足查询条件的数据总条数；

步骤2、根据用户提交的SQL中数据偏移量OFFSET和索引范围中的各索引的数据条数得到目标数据页位于哪个或哪几个索引中，跳过的索引的数据条数从OFFSET中直接扣除，得出新的数据偏移量OFFSET_1；

步骤3、通过Elasticsearch的Date Histogram Aggregation接口，对步骤2得到的目标数据页所在的索引进行按时间的分段统计，得到各个时间段中满足条件的数据条数，具体如下：

步骤3.1、按小时为单位对步骤2得到的目标数据页所在的索引进行统计，结合步骤2中得出的数据偏移量OFFSET_1，计算出所要查询的数据位于哪个小时时间段中，跳过的小时时间段的数据条数从OFFSET_1中直接扣除，得出新的数据偏移量OFFSET_2，将OFFSET_2与***预设的阈值M作比较；

如果小于等于M，则将该小时时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_2+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果；如果OFFSET_2大于M，则进入下一步；

步骤3.2、按分钟为单位对步骤3.1得出的小时区间的数据进行统计，结合数据偏移量OFFSET_2，计算出所要查询的数据位于哪个分钟时间段中，跳过的时间段的数据条数从OFFSET_2中直接扣除，得出新的数据偏移量OFFSET_3，将OFFSET_3与***预设的阈值M作比较；

如果小于等于M，则将该分钟时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_3+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果；如果OFFSET_3大于M，则进入下一步；

步骤3.3、按秒为单位对步骤3.2中得到的分钟区间的数据进行统计，结合数据偏移量OFFSET_3，计算出所要查询的数据位于哪个秒时间段中，跳过的时间段数据条数从OFFSET_3中直接扣除，得出新的数据偏移量OFFSET_4，将该秒时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_4+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果；所述COUNT为每一页的数据条数。

本发明通过通过Presto集群接收并解析SQL请求生成相应的查询计划，获取满足查询计划的数据在Elasticsearch集群中的索引范围；通过逐步统计和计算，定位出所要查询的目标页数据所在的索引和时间区间；将时间区间加入原SQL语句的查询条件中从Elasticsearch集群中读取目标页的数据信息，从而快速定位目标页数据所在位置，大幅减少多余数据的读取，以提高随机跳页查询的性能。

附图说明

图1为本发明***框架图；

图2为本发明目标页数据定位流程图。

具体实施方式

如图1所示，如图1和图2所示，本发明揭示了一种基于Presto和Elasticsearch的大数据快速查询方法，其包括以下步骤：

步骤1、被查询的数据至少包含一个timestamp类型的字段，并按天分布的方式保存在elasticsearch的各个索引中；例2017-01-01 08:00:00的数据就保存在名为2017-01-01的索引中；

步骤2、用户提交SQL查询到presto服务器，该SQL满足以下形式：

SELECT COLUMN1,COLUMN2...FROM TABLE[WHERE COLLECTTIME>、<、＝‘yyyy-MM-dd HH：mm：ss’AND COLUMN1＝’XXX’]ORDER BY COLLECTTIME[,COLUMN3,COLUMN4...][LIMIT OFFSET,LIMIT]

服务器将SQL解析并生成相应的查询计划，从而得知用户需要查询的数据保存在elasticsearch的哪些索引中，得到目标数据的索引范围；

步骤3、根据步骤2得到的索引范围，以该SQL中提交的查询条件，分别查询各个索引中符合该条件的数据总条数；

步骤4、根据步骤3得出的各索引数据条数，结合用户提交的SQL中数据偏移量OFFSET和每一页的数据条数COUNT得到目标数据页位于哪个或哪几个索引中，跳过的索引的数据条数从OFFSET中直接扣除，得出新的偏移量OFFSET_1；

步骤5、通过Elasticsearch的Date Histogram Aggregation接口，对步骤4得到的目标数据页所在的索引进行按时间的分段统计，得到各个时间段中满足条件的数据条数，具体如下：

步骤5.1、按小时为单位进行统计，由于一个索引中只包含一天的数据，因此可得出一天当中的24个时间段的数据条数；结合步骤4中得出的OFFSET_1，可计算出所要查询的数据位于哪个时间段中，跳过的时间段数据条数就可以从OFFSET_1中直接扣除，得出新的OFFSET_2，将OFFSET_2与***预设的阈值M作比较；

如果小于等于M，则将该时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_4+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果；如果OFFSET_2大于M，则进入下一步；

步骤5.2、将上一步的得出的小时区间作为查询条件，对该区间的数据按分钟为单位进行统计，由于1小时有60分钟，因此可以得出该小时中每分钟符合条件的数据条数；结合步骤5.1中得出的OFFSET_2，可计算出所要查询的数据位于哪个分钟时间段中，跳过的时间段数据条数就可以从OFFSET_2中直接扣除，得出新的OFFSET_3，将OFFSET_3与***预设的阈值M作比较；

如果小于等于M，则将该时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_4+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果；如果OFFSET_3大于M，则进入下一步；

步骤5.3、将上一步的得出的分钟区间作为查询条件，对该区间的数据按秒为单位进行统计，由于1分钟有60秒，因此可以得出该分中每秒符合条件的数据条数；结合步骤5.2中得出的OFFSET_3，可计算出所要查询的数据位于哪个时间段中，跳过的时间段数据条数就可以从OFFSET_3中直接扣除，得出新的OFFSET_4，将该时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_4+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果。

本发明将所有被查询数据包含时间字段并按日分索引的方式保存在Elasticsearch集群中，然后通过Presto集群接收并解析SQL请求生成相应的查询计划，获取满足查询计划的数据在Elasticsearch集群中的索引范围；通过逐步统计和计算，定位出所要查询的目标页数据所在的索引和时间区间；将时间区间加入原SQL语句的查询条件中从Elasticsearch集群中读取目标页的数据信息。本发明快速定位了目标页数据所在位置，大幅减少多余数据的读取，以提高随机跳页查询的性能。

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于Presto和Elasticsearch的大数据快速查询方法，其特征在于：其将所有被查询数据包含时间字段并按日分索引的方式保存在Elasticsearch集群中，然后通过Presto集群接收并解析SQL请求生成相应的查询计划，获取满足查询计划的数据在Elasticsearch集群中的索引范围；通过逐步统计和计算，定位出所要查询的目标页数据所在的索引和时间区间；将时间区间加入原SQL语句的查询条件中从Elasticsearch集群中读取目标页的数据信息。

2.根据权利要求1所述的一种基于Presto和Elasticsearch的大数据快速查询方法，其特征在于：所述大数据快速查询方法具体包括以下步骤：

步骤3、通过Elasticsearch的DateHistogramAggregation接口，对步骤2得到的目标数据页所在的索引进行按时间的分段统计，得到各个时间段中满足条件的数据条数，具体如下：

步骤3.1、按小时为单位对步骤2得到的目标数据页所在的索引进行统计，结合数据偏移量OFFSET_1，计算出所要查询的数据位于哪个小时时间段中，跳过的小时时间段的数据条数从OFFSET_1中直接扣除，得出新的数据偏移量OFFSET_2，将OFFSET_2与***预设的阈值M作比较；

步骤3.3、按秒为单位对步骤3.2中得到的分钟区间的数据进行统计，结合数据偏移量OFFSET_3，计算出所要查询的数据位于哪个秒时间段中，跳过的时间段数据条数从OFFSET_3中直接扣除，得出新的数据偏移量OFFSET_4，将该秒时间段的时间范围加入原SQL语句的查询条件中，从Elasticsearch集群中读取数量为OFFSET_4+COUNT的数量，在Presto集群中截取尾部COUNT条数据，得到最终查询结果；

所述COUNT为每一页的数据条数。