CN113297270A

CN113297270A - 数据查询方法、装置、电子设备及存储介质

Info

Publication number: CN113297270A
Application number: CN202110380490.2A
Authority: CN
Inventors: 李福宜; 赵彦林; 李周; 王平; 陈宏伟; 何建锋
Original assignee: Xi'an Jiaotong University Jump Network Technology Co ltd
Current assignee: Xi'an Jiaotong University Jump Network Technology Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-08-24

Abstract

本发明公开一种数据实时查询方法、装置、设备及存储介质，ES与ClickHouse同时从同一源数据消费数据并分别存储，根据不同查询请求指向的目标数据量，采用不同的引擎进行数据响应，既克服Es在数据去重与计数上的明显劣势，又充分利用其在聚合嵌套上的灵活性，实现对规模巨大的数据进行快速聚合分析并返回结果，达到近似实时的效果，提高数据查询结果的价值和意义。

Description

数据查询方法、装置、电子设备及存储介质

技术领域

本发明属于数据分析技术领域，尤其是涉及一种大规模数据量下的数据实时查询方法、装置、电子设备及存储介质。

背景技术

随着大数据时代的到来，一方面由于数据量的***式增长，另一方面由于数据类型的增加，传统的数据分析方法面临巨大的挑战。高效的请求响应，对大数据业务的有效实现至关重要。为了能够满足对一些特定查询、数据挖掘应用的快速处理，数据库需要按照各种维度或多种维度组合，对一些数据字段进行统计分析，如对数据进行分组的求和，求数，最大值，最小值，或者其它的自定义的统计功能，聚合得到特定的一些数据概览。例如实际应用中，用户输入一个关键词（如“手机”）进行搜索时，对该关键词进行相关数据的统计分析，得到相关数据的聚合结果（如“5G”，“无线充电”，“曲面屏”等主题的商品），通过这些主题能够过滤得到相关数据集，以便快速实现搜索目的。

Elasticsearch（简称ES）是一种基于Lucene底层技术的分布式全文搜索引擎，通过提高数据入库与过滤性能的机制，能够在一定程度上实现快速查询，但是ES在大规模数据统计和数据去重上存在明显短板，面对大规模数据量下根据不同业务对数据进行搜索、过滤和聚合分析，将会消耗更多的资源，因此，为了保证业务正常进行，需要对整个聚合分析进行优化，达到更优的查询服务。

发明内容

鉴于上述技术背景，本发明旨在提供一种数据实时查询方法、装置、设备及存储介质，提高数据查询的处理速度，加快查询请求的响应。

第一方面，提供一种数据实时查询方法，，所述方法包括获取实时数据的查询请求：若所述查询请求指向的目标数据量小于第一阈值，从ElasticSearch或ClickHouse获取查询内容；若所述查询请求指向的目标数据量大于第一阈值，由ClickHouse去重统计出总数据量，取出数据，逐条输入ElasticSearch进行过滤与子聚合，汇总聚合结果并返回。

作为较佳的，若所述查询请求指向的目标数据量大于第二阈值：以所述第一阈值为单位，ClickHouse对所述目标数据量分批统计；将每批数据逐条输入ElasticSearch进行过滤与子聚合，汇总得到该批数据的聚合结果；汇总每批数据的聚合结果后返回。

以及，所述判断查询请求指向的目标数据所处的数量级之前，该方法还包括：将实时采集的目标数据按照数据类型分流存储到Kafka的Topic，ClickHouse与ElasticSearch从同一Topic消费数据并分别存储，其中ClickHouse只存储参与聚合分析的字段数据。

作为较佳的，若所述查询请求指向的目标数据量大于第一阈值，先由ClickHouse进行计数去重与多维去重，统计得到数据总记录数与每页参与聚合的数据，然后逐页取数据并逐条输入ElasticSearch进行处理。

进一步的，上述各步骤中，ElasticSearch采用filter查询对输入的数据进行过滤。

第二方面，提供一种数据查询装置，，包括：

查询接收模块，获取对数据发起的实时查询请求，解析得到聚合分析维度；

查询判断模块，用于判断所述查询请求指向的目标数据量是否大于预设的第一阈值；

查询处理模块，用于根据查询请求指向的目标数据量，发起相应的数据聚合分析，并将聚合结果返回。

作为较佳的，所述查询处理模块，用于：

若所述查询请求指向的目标数据量小于第一阈值，从ElasticSearch或ClickHouse获取查询内容；

若所述查询请求指向的目标数据量大于第一阈值，由ClickHouse去重统计出总数据量，取出数据，逐条输入ElasticSearch进行过滤与子聚合，汇总聚合结果并返回；

若所述查询请求指向的目标数据量大于第二阈值：以所述第一阈值为单位，ClickHouse对所述目标数据量分批统计；将每批数据逐条输入ElasticSearch进行过滤与子聚合，汇总得到该批数据的聚合结果；汇总每批数据的聚合结果后返回。

进一步的，所述装置还包括：

数据存储模块，用于将实时采集的目标数据按照数据类型分流存储到Kafka的Topic，ClickHouse与ElasticSearch从同一Topic消费数据并分别存储，其中ClickHouse只存储参与聚合分析的字段数据。

第三方面，提供一种数据查询设备，所述设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据查询程序，所述数据查询程序被所述处理器执行时实现如上所述的数据查询方法的步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上数据查询程序，所述数据查询程序被处理器执行时，实现如上所述的数据查询方法的步骤。

采用以上所述的技术内容，本发明实施例提供的数据实时查询方法、装置、电子设备及计算机刻度存储介质，具有以下有益效果：ES与ClickHouse同时从同一源数据消费数据并分别存储，根据不同查询请求指向的目标数据量，采用不同的引擎进行数据响应，既克服Es在数据去重与计数上的明显劣势，又充分利用其在聚合嵌套上的灵活性，实现对规模巨大的数据进行快速聚合分析并返回结果，达到近似实时的效果，提高数据查询结果的价值和意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，对本发明实施例中所需要使用的附图作简单地介绍，以下所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。需要说明的是，附图中的任何元素均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

图1为本申请实施例一，数据实时查询方法工作流程示意图；

图2为本申请实施例二，实时查询的数据流示意图；

图3为本申请实施例三，数据实时查询装置的模块组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

首先对数据分析相关内容作简单介绍，以便更好的理解本申请实施例的技术方案。

数据处理大致可以分成两大类：联机事务处理OLTP（on-line transactionprocessing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库***的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

不同于事务处理（OLTP）的场景，如电商场景中加购物车、下单、支付等需要在原地进行大量insert、update、delete操作，数据分析（OLAP）场景通常是将数据批量导入后，进行任意维度的灵活探索、BI工具洞察、报表制作等。数据一次性写入后，需要尝试从各个角度对数据做挖掘、分析，直到发现其中的商业价值、业务变化趋势等信息。这是一个需要反复试错、不断调整、持续优化的过程，其中数据的读取次数远多于写入次数。这就要求底层数据库为这个特点做专门设计。

实施例一

如图1所示，一种数据实时查询方法，所述方法包括

获取实时数据的查询请求，并判断查询目标数据规模；

若所述查询请求指向的目标数据量小于第一阈值，从ElasticSearch（为便于叙述，以下简称ES）或ClickHouse获取查询内容；

若所述查询请求指向的目标数据量大于第一阈值，由ClickHouse去重统计出总数据量，取出数据，逐条输入ES进行过滤与子聚合，汇总聚合结果并返回。

嵌套聚合，是依次进行多个字段的数据聚合，例如先对“性别”字段进行聚合，再对“年龄”字段进行嵌套聚合（子聚合），也就是一个聚合嵌套于另一个聚合之中。

ES中的聚合是通过桶（Buckets，满足特定条件的文档的集合）与指标（Metrics，对桶内的文档进行统计计算）组成的，聚合可能只有一个桶，可能只有一个指标，或者可能两个都有，也有可能有一些桶嵌套在其他桶里面。由于桶可以被嵌套，ES可以实现非常多并且非常复杂的聚合。由于ES实现过滤与聚合的具体技术细节不在本申请限制的范围，在此不做赘述。

ClickHouse引擎是一种开源的面向联机分析处理（OLAP）的列式存储数据库管理***。列式存储在分析场景中有着许多优良的特性，通过使用列存，在特定分析场景下，能够获得更高的加速效应，包括：

在行存模式下，数据按行连续存储，所有列的数据都存储在一个block中，不参与计算的列在IO时也要全部读出，读取操作被严重放大。而列存模式下，只需要读取参与计算的列即可，极大的减低了IO cost，加速了查询。

同一列中的数据属于同一类型，压缩效果显著。列存往往有着高达十倍甚至更高的压缩比，节省了大量的存储空间，降低了存储成本；更高的压缩比意味着更小的datasize，从磁盘中读取相应数据耗时更短；高压缩比也意味着同等大小的内存能够存放更多数据，***cache效果更好；不同列的数据具有不同的数据类型，适用的压缩算法也就不尽相同，可以针对不同列类型，选择最合适的压缩算法。

因此，相比于行式存储，ClickHouse在提供数据查询服务时，受数据规模的影响较小，提供大数据量查询服务的性能较好，能够提高查询效率。在此同样需要说明，ClickHouse数据库的具体技术细节不在本发明限制的范围，在此不做赘述。

如上所述的技术方案，根据不同查询请求指向的目标数据量，采用不同的引擎进行数据响应，既利用ClickHouse克服ES在数据去重与计数上的明显劣势，又充分利用ES在聚合嵌套上的灵活性，实现对规模巨大的数据进行快速聚合分析并返回查询结果，达到近似实时的效果，提高数据的价值和意义。

实施例二

如图2所示，在实施例一所述的获取查询请求之前，将实时采集的目标数据按照数据类型分流存储到Kafka不同的Topic。Topic是Kafka数据写入操作的基本单元，生产者（如各个网络安全设备）可以将数据（例如安全事件日志）发布到所选择的Topic（主题）中，发布到Topic中的每条记录被分配给订阅消费组中的各个消费者实例，其中消费者实例可以分布在多个进程中或者多个机器上。ClickHouse与ES作为本实施例中的数据消费者，通过Flink数据流处理引擎，分别从同一Topic消费数据并分别存储，其中ClickHouse只存储参与聚合分析的字段数据。

Kafka是一个分布式、支持分区的、多副本的分布式消息***，它的最大的特性就是可以实时的处理大量数据，具有高吞吐量、低延迟，可扩展性，持久性、可靠性，容错性，高并发的优点，以满足各种需求场景：日志收集，用户活动跟踪，流式处理等。Flink是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。Kafka与Flink的具体技术细节不属于本申请技术方案所要限定，在此不做赘述。

作为一个较佳的实施方式，如果所述生产者是网络安全设备产生，则将设备产生的日志按照安全检测日志、网络流量日志、协议审计日志以及第三方设备输入日志分别写入对应的Topic中，ClickHouse与ES依次从同一个Topic消费所述日志数据并分别存储，但是ClickHouse只存储参与聚合分析的安全检测日志与网络流量日志，因此当查询请求的目标数据为该类型时，ClickHouse才参与进行统计计算，生成分页的列表数据输入ES。并且，所述输入ES为分页逐条输入。

如果所述查询请求指向的并不是参与聚合分析的安全检测日志或网络流量日志，而是不参与聚合分析的协议审计日志，则仍然通过ES处理处理并响应查询请求。

如果所述查询请求指向的为参与聚合分析的安全检测日志或网络流量日志，则进一步判断指向的日志数据规模：

若所述查询请求指向的目标数据量小于10亿，该数量级下，ES和ClickHouse在数据聚合分析统计上差别不是很大，因此从ElasticSearch或ClickHouse获取查询内容；

若所述查询请求指向的目标数据量大于10亿，由ClickHouse去重统计出总数据量，由于ES在聚合分析上支持灵活的聚合嵌套是ClickHouse SQL语法所难以企及的，因此取出数据，逐条输入ES进行过滤与子聚合，汇总聚合结果并返回。

作为较佳的，若所述查询请求指向的目标数据量大于100亿：以10亿为单位，ClickHouse对所述目标数据量分批统计（例如目标数量有100亿则至少将数据分为10批进行处理），包括进行计数去重与多维去重；将每批数据进行分页，先将第一页数据逐条输入ES进行过滤与子聚合并继续取第二页直至该批数据全部处理完毕，汇总得到该批数据的聚合结果；继续依次处理各批数据，汇总每批数据的聚合结果后返回。

作为较佳的实施方式，上述各步骤中，ES采用filter查询对输入的数据进行过滤。ES提供query与filter两种查询方式，其中query 查询出来的数据基础上再进行过滤的filter查询。这两类查询的区别是：query方法会计算查询条件与待查询数据之间的相关性，计算结果写入一个score字段，类似于搜索引擎。而filter仅仅做字符串匹配，不会计算相关性，类似于一般的数据查询，并且filter查询出来的数据会自动被缓存，而query不能，所以filter得查询速度比query快。

上述的数据查询方法，根据不同查询请求指向的目标数据量（十亿级和百亿级），采用不同的引擎进行数据响应，既利用ClickHouse克服ES在数据去重与计数上的明显劣势，又充分利用ES在聚合嵌套上的灵活性，实现对规模巨大的数据进行快速聚合分析并返回查询结果，达到近似实时的效果，提高数据的价值和意义。

实施例三

如图3所示，提供一种数据查询装置，包括：

作为较佳的，所述查询处理模块，用于：

进一步的，所述装置还包括：

上述的数据查询装置，根据不同查询请求指向的目标数据量（十亿级和百亿级），采用不同的引擎进行数据响应，既利用ClickHouse克服ES在数据去重与计数上的明显劣势，又充分利用ES在聚合嵌套上的灵活性，实现对规模巨大的数据进行快速聚合分析并返回查询结果，达到近似实时的效果，提高数据的价值和意义。

实施例四

一种数据查询设备，所述设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据查询程序，所述数据查询程序被所述处理器执行时实现如上述的数据查询方法的步骤。

基于上述数据查询方法，提供一种计算机可读存储介质，所述计算机可读存储介质上数据查询程序，所述数据查询程序被处理器执行时，实现所述的数据查询方法的步骤。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据实时查询方法，其特征在于，所述方法包括获取实时数据的查询请求：若所述查询请求指向的目标数据量小于第一阈值，从ElasticSearch或ClickHouse获取查询内容；若所述查询请求指向的目标数据量大于第一阈值，由ClickHouse去重统计出总数据量，取出数据，逐条输入ElasticSearch进行过滤与子聚合，汇总聚合结果并返回。

2.根据权利要求1所述的查询方法，其特征在于，若所述查询请求指向的目标数据量大于第二阈值：以所述第一阈值为单位，ClickHouse对所述目标数据量分批统计；将每批数据逐条输入ElasticSearch进行过滤与子聚合，汇总得到该批数据的聚合结果；汇总每批数据的聚合结果后返回。

3.根据权利要求1所述的查询方法，其特征在于，所述判断查询请求指向的目标数据所处的数量级之前，所述方法还包括：将实时采集的目标数据按照数据类型分流存储到Kafka的Topic，ClickHouse与ElasticSearch从同一Topic消费数据并分别存储，其中ClickHouse只存储参与聚合分析的字段数据。

4.根据权利要求1所述的查询方法，其特征在于，若所述查询请求指向的目标数据量大于第一阈值，先由ClickHouse进行计数去重与多维去重，统计得到数据总记录数与每页参与聚合的数据，然后逐页取数据并逐条输入ElasticSearch进行处理。

5.根据权利要求1-4任一所述的查询方法，其特征在于，所述ElasticSearch采用filter查询对输入的数据进行过滤。

6.一种数据查询装置，其特征在于，包括：

7.根据权利要求6所述的数据查询装置，其特征在于，所述查询处理模块，用于：

8.根据权利要求6或7所述的数据查询装置，其特征在于，所述装置还包括：

9.一种数据查询设备，其特征在于，所述设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据查询程序，所述数据查询程序被所述处理器执行时实现如权利要求1-5中任一项所述的数据查询方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上数据查询程序，所述数据查询程序被处理器执行时，实现如权利要求1-5中任一项所述的数据查询方法的步骤。