CN110019298B

CN110019298B - 数据处理方法和装置

Info

Publication number: CN110019298B
Application number: CN201711053329.4A
Authority: CN
Inventors: 黄鹏波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-07-30
Anticipated expiration: 2037-10-31
Also published as: CN110019298A

Abstract

本发明公开了一种数据处理方法和装置。该方法包括：读取结构化查询语句包含的查询特征；将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据预测结果确定结构化查询语句执行时所需的资源数量；将结构化查询语句存入与资源数量对应的资源池中运行。通过本发明，达到了对数据库的资源估计数量更准确的效果。

Description

数据处理方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据处理方法和装置。

背景技术

Impala是一个基于分布式文件***(Hadoop Distribute File System，简称为HDFS)或HBase存储***的分布式、交互式数据库。因为impala的资源估计方式误差太大，为了集群能够稳定的运行，只能通过默认的设置控制每个sql(Structured Query Language，结构化查询语句)的资源数量，当sql实际需要的资源大于impala估计的资源数量时，sql将会被自动取消。若同一个资源池并行执行的某个sql实际所需资源特别大，这也会影响该资源池中其它sql的执行。

现有的资源估计方法存在这样的问题：资源数量估计误差太大，不能合理的调度sql到合适的资源池内运行。

针对相关技术中数据库的资源估计数量误差大导致集群不稳定的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种数据处理方法和装置，以解决数据库的资源估计数量误差大导致集群不稳定的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种数据处理方法，该方法包括：读取结构化查询语句包含的查询特征；将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；将所述结构化查询语句存入与所述资源数量对应的资源池中运行。

进一步地，在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，所述方法还包括：获取历史数据，其中，所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量；根据所述历史数据建立所述内存预测模型。

进一步地，所述资源数量对应于多个等级，将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果包括：将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。

进一步地，读取结构化查询语句包含的查询特征包括：在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取所述结构化查询语句包含的查询特征，其中，所述查询特征包括join特征和select特征。

为了实现上述目的，根据本发明的另一方面，还提供了一种数据处理装置，该装置包括：读取单元，用于读取结构化查询语句包含的查询特征；输入单元，用于将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；确定单元，用于根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；运行单元，用于将所述结构化查询语句存入与所述资源数量对应的资源池中运行。

进一步地，所述装置还包括：获取单元，用于在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，获取历史数据，其中，所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量；建立单元，用于根据所述历史数据建立所述内存预测模型。

进一步地，所述资源数量对应于多个等级，所述输入单元用于：将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。

进一步地，所述读取单元用于：在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取所述结构化查询语句包含的查询特征，其中，所述查询特征包括join特征和select特征。

为了实现上述目的，根据本发明的另一方面，还提供了一种存储介质，包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行本发明所述的数据处理方法。

为了实现上述目的，根据本发明的另一方面，还提供了一种处理器，用于运行程序，其中，所述程序运行时执行本发明所述的数据处理方法。

本发明通过读取结构化查询语句包含的查询特征；将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据预测结果确定结构化查询语句执行时所需的资源数量；将结构化查询语句存入与资源数量对应的资源池中运行，解决了数据库的资源估计数量误差大导致集群不稳定的问题，进而达到了对数据库的资源估计数量更准确的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据处理方法的流程图；

图2是根据本发明实施例的数据处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的几个术语进行说明：

Impala是一个基于HDFS或HBase存储***的分布式、交互式数据库。

特征提取是指根据样本提取出描述样本的相关属性。

本发明实施例提供了一种数据处理方法。

图1是根据本发明实施例的数据处理方法的流程图，如图1所示，该方法包括以下步骤：

步骤S102：读取结构化查询语句包含的查询特征；

步骤S104：将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；

步骤S106：根据预测结果确定结构化查询语句执行时所需的资源数量；

步骤S108：将结构化查询语句存入与资源数量对应的资源池中运行。

该实施例采用读取结构化查询语句包含的查询特征；将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据预测结果确定结构化查询语句执行时所需的资源数量；将结构化查询语句存入与资源数量对应的资源池中运行，解决了数据库的资源估计数量误差大导致集群不稳定的问题，进而达到了对数据库的资源估计数量更准确的效果。

本发明实施例的技术方案可以应用到impala数据库中，作为一种优化impala执行查询时集群稳定性的方法。结构化查询语句(Structured Query Language，简称为sql)中包含有多种查询特征，例如，可以包含有join、select等特征，读取特征之后可以将特征输入到预先建立好的模型中进行模型运算，得到预测结果，然后根据预测的结果确定执行该sql所需要的资源数量，这样可以将sql存入到相应的资源池中运行，由于通过模型预测能够得到更精准的预测结果，因而可以将sql存入到最合适的资源池中运行，可以防止出现sql实际需要的资源大于impala数量导致被取消的问题，提升impala的资源估计数量，合理的调度sql到合适的资源池执行，可以使impala集群的运行更加稳定。

在将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，获取历史数据，其中，历史数据包括多组结构化查询语句的查询特征与多组结构化查询语句所需的资源数量；根据历史数据建立内存预测模型。

模型建立需要通过多组历史数据建立，每组历史数据包括sql的查询特征、sql执行时所需扫描的特征参数和对应的内存资源的数量，在获取到历史数据之后，对历史数据进行分类和整理，可以基于历史数据建立内存预测模型。特征参数可以是sql执行所需扫描的文件数、表的分区数、总分区数、hash数、agg数等特征。

可选地，资源数量对应于多个等级，将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果包括：将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。资源数量可以划分为多个等级，得到预测的资源数量可以是得到预测的资源数量的等级，可以无需得到资源数量而直接得到等级，这样可以简化模型。

本发明实施例的技术方案中，在将结构化查询语句存入与资源数量对应的资源池中运行之前，已经将impala集群内存划分成多个等级的内存池，例如200G、400G等不同等级的内存池，在通过模型得到某个sql语句需要的内存资源数量之后，可以在内存中确定出等级合适的资源池用于该sql运行，然后将sql放入到相应的资源池中运行。

可选地，读取结构化查询语句包含的查询特征包括：在接收到客户端通过JDBC方式提交的结构化查询语句时，读取结构化查询语句包含的查询特征，其中，查询特征包括join特征和select特征。

作为一种可选实施方式，可以由客户端通过JDBC(Java DataBase Connectivity,java，数据库连接)的方式提交sql，在接收到之后，可以读取sql包含的查询特征。

本发明实施例还提供了一种优选实施方式，该优选方式包括以下部分：

1.通过explain语句提取sql执行所需扫描的文件数、表的分区数、总分区数、hash数、agg数等特征，解析sql自身包含的join、select等特征。

2.根据一定的sql历史数据建立内存预测模型，根据测试样本调优模型或参数。此处最好选择分类算法，将内存的预测划分为多个等级。

3.客户端通过JDBC等方式提交sql时，先提取特征，然后根据预测模型预测得到的结果将sql放入到相应的资源池，设置sql执行所需的资源，最后执行sql。

这样处理之后，针对impala集群来说主要有两方面的好处。一是集群的稳定性将得到加强，客户端可以根据预测模型得到的预测结果将sql放到资源充足的资源池内执行，既可以提高sql的执行成功率，也可以减少大sql对其它并发sql的影响。二是运维同事可以根据预测模型的历史数据决策集群规模的增减，节约集群的软、硬件成本。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种数据处理装置，该装置可以用于执行本发明实施例的数据处理方法。

图2是根据本发明实施例的数据处理装置的示意图，如图2所示，该装置包括：

读取单元10，用于读取结构化查询语句包含的查询特征；

输入单元20，用于将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；

确定单元30，用于根据预测结果确定结构化查询语句执行时所需的资源数量；

运行单元40，用于将结构化查询语句存入与资源数量对应的资源池中运行。

该实施例采用读取单元10，用于读取结构化查询语句包含的查询特征；输入单元20，用于将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；确定单元30，用于根据预测结果确定结构化查询语句执行时所需的资源数量；运行单元40，用于将结构化查询语句存入与资源数量对应的资源池中运行，解决了数据库的资源估计数量误差大导致集群不稳定的问题，进而达到了对数据库的资源估计数量更准确的效果。

可选地，该装置还包括：获取单元，用于在将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，获取历史数据，其中，历史数据包括多组结构化查询语句的查询特征与多组结构化查询语句所需的资源数量；建立单元，用于根据历史数据建立内存预测模型。

可选地，资源数量对应于多个等级，输入单元20用于将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。

可选地，读取单元10用于：在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取结构化查询语句包含的查询特征，其中，查询特征包括join特征和select特征。

所述数据处理装置包括处理器和存储器，上述读取单元、输入单元、确定单元、运行单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对数据库的资源估计数量更准确。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述数据处理方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述数据处理方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：读取结构化查询语句包含的查询特征；将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据预测结果确定结构化查询语句执行时所需的资源数量；将结构化查询语句存入与资源数量对应的资源池中运行。

获取历史数据，其中，历史数据包括多组结构化查询语句的查询特征与多组结构化查询语句所需的资源数量；根据历史数据建立内存预测模型。

将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。

读取结构化查询语句包含的查询特征包括：在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取结构化查询语句包含的查询特征。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：读取结构化查询语句包含的查询特征；将结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，内存预测模型是根据历史数据训练得到的，历史数据包括结构化查询语句包含的查询特征和结构化查询语句所需的资源数量；根据预测结果确定结构化查询语句执行时所需的资源数量；将结构化查询语句存入与资源数量对应的资源池中运行。

读取结构化查询语句包含的查询特征包括：在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取结构化查询语句包含的查询特征。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

读取结构化查询语句包含的查询特征；

将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，所述内存预测模型是根据历史数据训练得到的，所述历史数据包括结构化查询语句包含的查询特征和所述结构化查询语句所需的资源数量；

根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；

将所述结构化查询语句存入与所述资源数量对应的资源池中运行；

其中，在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，所述方法还包括：

获取历史数据，其中，所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量；

根据所述历史数据建立所述内存预测模型。

2.根据权利要求1所述的方法，其特征在于，所述资源数量对应于多个等级，将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果包括：

将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测的资源数量的等级。

3.根据权利要求1所述的方法，其特征在于，读取结构化查询语句包含的查询特征包括：

在接收到客户端通过Java数据库连接JDBC方式提交的结构化查询语句时，读取所述结构化查询语句包含的查询特征，其中，所述查询特征包括join特征和select特征。

4.一种数据处理装置，其特征在于，包括：

读取单元，用于读取结构化查询语句包含的查询特征；

输入单元，用于将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中，得到预测结果，其中，所述内存预测模型是根据历史数据训练得到的，所述历史数据包括结构化查询语句包含的查询特征和所述结构化查询语句所需的资源数量；

确定单元，用于根据所述预测结果确定所述结构化查询语句执行时所需的资源数量；

运行单元，用于将所述结构化查询语句存入与所述资源数量对应的资源池中运行；

其中，所述装置还包括：

获取单元，用于在将所述结构化查询语句包含的查询特征输入到预先建立的内存预测模型中之前，获取历史数据，其中，所述历史数据包括多组结构化查询语句的查询特征与所述多组结构化查询语句所需的资源数量；

建立单元，用于根据所述历史数据建立所述内存预测模型。

5.根据权利要求4所述的装置，其特征在于，所述资源数量对应于多个等级，所述输入单元用于：

6.根据权利要求4所述的装置，其特征在于，所述读取单元用于：

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至3中任意一项所述的数据处理方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至3中任意一项所述的数据处理方法。