CN116244333A

CN116244333A - 一种基于代价因子校准的数据库查询性能预测方法及***

Info

Publication number: CN116244333A
Application number: CN202310124785.2A
Authority: CN
Inventors: 彭朝晖; 王一博; 张甲康; 陈倩
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-09

Abstract

本发明属于数据处理技术领域，提供了一种基于代价因子校准的数据库查询性能预测方法及***，包括：对于数据库查询优化器模块中代价因子采用统计回归的方式进行校准；对于优化器中执行过的历史执行计划，采用字典编码的方式抽取执行计划节点类别特征；对执行计划节点的类别特征通过特征处理神经网络生成得到嵌入特征；根据原始执行计划的执行结构，将嵌入特征拼接为嵌入特征树，并对嵌入特征树进行二叉树化；根据嵌入特征树对卷积神经网络进行训练，对待处理执行计划采用训练后的树形卷积神经网络得到查询性能。实现更准确、更有效的查询性能预测效果。

Description

一种基于代价因子校准的数据库查询性能预测方法及***

技术领域

本发明属于数据处理技术领域，尤其涉及一种基于代价因子校准的数据库查询性能预测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，许多的研究工作集中在优化数据库的传统代价模型和使用神经网络来学习并替换传统代价模型两个方面。对于前者而言，可以有效提升数据库传统代价模型的计算能力，推动数据库优化器的迭代更新，但是代价计算公式总是不能面面俱到，许多复杂的场景下现有公式并不能对查询性能进行准确的预测，而且现有代价公式的关注点大多是执行计划之间代价的相对大小数值，没有具体的价值单位，而且对于不同的硬件和执行环境，使用计算单位之间默认的相对比值，代价计算结果通常不能很好的反应查询的执行性能。对于后者而言，神经网络可以有效拟合查询的执行性能，但是在特征构造方面往往是低密度和信息稀疏的，因此，网络模型输入的特征不能很好的提取执行计划中节点之间的关联和结构信息，同时现有的机器学习方法往往忽略了数据库中现有成本模型的知识，查询性能预测精度还有很大的提升空间。

对于目前两种查询性能预测方式，共同的优势在于使用的技术本身都较为成熟，但是彼此之间缺乏融合，在查询性能预测方面还存在着以下三个问题没有解决：第一，由于代价模型的关注点在比较计划代价的相对值大小，因此在查询性能预测方面缺乏精准度，需要设计面向查询性能方面的代价公式进行补充或修正。第二，许多神经网络在构造特征时会忽略执行计划中的偏序关系，对执行节点得到的编码信息稀疏，不能很好地捕捉执行节点互相的关联性和执行计划的树形结构信息。第三，现有的神经网络没有结合数据库的代价模型知识来进行学习，未能有效地融合数据库代价模型的领域知识。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种基于代价因子校准的数据库查询性能预测方法及***，其有效融合了数据库查询优化器中代价模型的领域知识，并建立了特征处理神经网络和面向执行计划的树形卷积神经网络，有效地捕捉执行节点互相的关联性和执行计划的树形结构信息，有效提升了查询性能预测结果的精确度。该方法可以解决查询优化、查询调度中的关键问题。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于代价因子校准的数据库查询性能预测方法，包括如下步骤：

获取回归查询语句相对应执行计划的历史数据；

根据回归查询语句相对应执行计划的历史数据，采用统计回归校准的方法，拟合代价公式中代价因子的数值，得到数据库查询优化器代价模型；

获取原始训练数据集，基于原始训练数据集获取训练数据特征集和训练数据标签集；基于训练数据特征集和训练数据标签集，对树形深度卷积神经网络模型训练，得到深度校准模型；

针对待预测的执行计划，结合深度校准模型，得到预测的误差时间偏移量，基于数据库查询优化器代价模型得到成本时间，将预测的误差时间偏移量和成本时间求和得到查询待预测执行计划的执行时间。

本发明的第二个方面提供一种基于代价因子校准的数据库查询性能预测***，包括：

数据获取模块，用于获取回归查询语句相对应执行计划的历史数据；

代价模型构建模块，用于根据回归查询语句相对应执行计划的历史数据，采用统计回归校准的方法，拟合代价公式中代价因子的数值，得到数据库查询优化器代价模型；

深度校准模型构建模块，用于获取原始训练数据集，基于原始训练数据集获取训练数据特征集和训练数据标签集；基于训练数据特征集和训练数据标签集，对树形深度卷积神经网络模型训练，得到深度校准模型；

查询性能预测模块，用于针对待预测的执行计划，结合深度校准模型，得到预测的误差时间偏移量，基于数据库查询优化器代价模型得到成本时间，将预测的误差时间偏移量和成本时间求和得到查询待预测执行计划的执行时间。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于代价因子校准的数据库查询性能预测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于代价因子校准的数据库查询性能预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明使用的神经网络预测方案有效融合了数据库查询优化器中代价模型的领域知识，可以有效提升预测结果的准确度。

2、本发明通过统计回归的方式进行代价因子的校准，将每个代价因子调整为适配当前硬件环境的数值，该数值代表代价因子真实的执行时间，因此通过代价公式计算的结果更加具有参照性。

3、本发明对于执行计划节点的编码采用的是特征处理神经网络，把信息稀疏的特征向量转换成信息稠密的嵌入向量，有效的丰富了执行节点的特征信息。

4、本发明对于执行计划的性能预测模型，建立了面向执行计划的树形卷积神经网络，有效地捕捉执行节点互相的关联性和执行计划的树形结构信息，使用模型预测误差时间偏移量，联合数据库代价公式的结果共同预测的查询性能更加准确。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一数据库查询性能预测方法的整体预测流程图；

图2为本发明实施例一方法实施的整体框架流程图；

图3为本发明实施例一特征处理神经网络结构示意图；

图4为本发明实施例一查询执行计划二叉树化示意图；

图5为本发明实施例一树形卷积神经网络结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1-图2所示，本实施例提供一种基于代价因子校准的数据库查询性能预测方法，包括如下步骤：

S1：获取回归查询语句相对应执行计划的历史数据；

S2：根据回归查询语句相对应执行计划的历史数据，采用统计回归校准的方法，拟合代价公式中代价因子的数值，得到数据库查询优化器代价模型；

S3：获取原始训练数据集，基于原始训练数据集获取训练数据特征集和训练数据标签集；基于训练数据特征集和训练数据标签集，对树形深度卷积神经网络模型训练，得到深度校准模型；

S4：针对待预测的执行计划，结合深度校准模型，得到预测的误差时间偏移量，基于数据库查询优化器代价模型得到成本时间，将预测的误差时间偏移量和成本时间求和得到查询待预测执行计划的执行时间。

S1中获取回归查询语句相对应执行计划的历史数据包括：

向数据库输入并运行一组回归查询语句，得到并存储回归查询语句相对应执行计划的历史数据，包括基数、扫描块数、执行时间等信息。

本实施例中，回归查询包括以下五条查询Q1至Q5，其中R、T是数据库内存在的关系表，A、B是R关系表上的索引列。

Q1：SELECT*FROM R

Q2：SELECT*FROM T

Q3：SELECT COUNT(*)FROM R

Q4：SELECT*FROM R where R.A<a

Q5：SELECT*FROM R where R.B<b

所述回归查询语句相对应执行计划的历史数据包括：Q1-Q5对应的真实执行时间t1-t5，R表基数n_R，R表所占数据页面数p_R，T表基数n_T，T表所占数据页面数p_T，COUNT函数处理行数n_F，R.A索引处理的行数n_RA，R.A索引所占数据页面数p_RA，R.A<a过滤操作所处理的行数n_FA，R.B索引处理的行数n_RB，R.B索引所占数据页面数p_RB，R.B<b过滤操作所处理的行数n_FB。

根据回归查询语句的真实执行时间，校准数据库查询优化器代价模型。采用统计回归校准的方法，拟合代价公式中代价因子的数值，赋予代价因子实际的表示含义——以执行时间为度量单位。

回归查询Q1至Q5所对应的代价公式如下：

Q1：Cost＝p_R·c_s+n_R·c_t

Q2：Cost＝p_T·c_s+n_T·c_t

Q3：Cost＝p_R·c_s+n_R·c_t+n_F·co

Q4：Cost＝p_RA·c_r+n_RA·c_t+n_RA·c_i+n_FA·c_o

Q5：Cost＝p_RB·c_r+n_RB·c_t+n_RB·c_i+n_FB·c_o

其中，统计回归校准的代价因子包括：顺序扫描一个数据页面的I/O代价因子c_s、随机扫描一个数据页面的I/O代价因子c_r、处理一行数据的CPU代价因子c_t、处理一个索引项的CPU代价因子c_i、处理每个函数或操作符的CPU代价因子c_o。

一组回归查询中每条查询所涉及的代价计算公式包含不同类型代价因子，按照此方式设计确保足够数量的回归查询，执行并收集每条查询的真实执行时间和每种代价因子的操作数量，作为代价计算公式的真值结果和系数，通过不同的查询组合来统计回归得到不同代价因子的数值；

通过获得的执行计划历史数据，包括基数、扫描块数、执行时间等信息，带入Q1-Q5代价公式联立求得代价因子的数值。

S3中，所述原始训练数据集的获取方法为：

向数据库***中输入并运行一组SQL查询工作负载，数据库***会为每条SQL生成对应的执行计划，每一个执行计划包含多个操作和执行时间，在每个SQL执行后，存储所获得的执行计划作为原始训练数据集。

S3中，对于原始训练数据集的执行计划进行特征编码处理，如图3-图4所示。

首先，对于执行计划节点抽取类别特征，提取数据库***表数据并生成字典表，按照字典表对执行计划节点进行字典编码；

字典中所包含的类别特征包括节点类型、连接方式、扫描方向、关系表名称、关系表别名、索引名称、聚合策略等类别特征；

其中，节点类型包括：扫描节点类型、控制节点类型、物化节点类型、连接节点类型，扫描节点类型有Seq Scan、Index Scan、Bitmap Index/Heap Scan等，控制节点类型有append等，物化节点类型有Materialize、Sort、Group、Aggregation等，连接节点类型有Nested Loop Join、Hash Join、Merge Join等。

其次，根据提取的元数据信息即数据库***表数据构造字典表格数据，字典中每一项的数值为one-hot编码，例如，若从执行计划中抽取节点的节点类型信息是Seq Scan，则Seq Scan对应位置上数值为1，节点类型的其余位置上数值为0。

基于原始训练数据集，按照后续遍历的方式依次抽取每个执行计划中节点的信息，按照字典表中的类别特征信息对节点进行编码得到字典编码特征，并将节点的运行时间作为该特征所对应的标签；

基于字典编码特征和所对应的标签对特征处理神经网络进行训练得到训练后的特征处理神经网络；

所述特征神经网络的结构为第一层是输入层，中间6层是隐层，最后一层是输出层，前两层隐层均为RNN层，第三层隐层为展平层，后三层隐层为全连接层，隐层及输出层所用的激活函数均为Relu，前两层RNN隐层均输出35个节点，每个结点维度为128，展平层输出的节点个数为4480，后三层全连接层的节点个数依次为256、128、64，损失函数是均方差代价函数；得到的嵌入向量为特征处理神经网络的末端隐层，输出层为执行计划节点运行真实时间。

基于原始训练数据集和训练后的特征处理神经网络得到原始训练数据集执行计划每个节点的嵌入向量。

所述基于原始训练数据集获取训练数据特征集和训练数据标签集包括：

基于原始训练数据集执行计划每个节点的嵌入向量，将嵌入向量按执行计划的树形结构组合，并将嵌入向量树进行二叉树化，生成每个计划的特征向量二叉树，得到训练数据特征集；

将原始训练数据集每个执行计划真实执行时间与通过代价因子计算出的成本时间做差，获得误差时间偏移量，得到训练数据标签集。

S3中，所述基于训练数据特征集和训练数据标签集，对树形深度卷积神经网络模型训练，得到深度校准模型；

深度校准模型的模型结构如图5所示，第一层是输入层，中间7层是隐层，最后一层是输出层，前三层隐层为卷积层，第四层隐层为池化层，后三层隐层为全连接层，隐层及输出层所用的激活函数均为Relu，前三层卷积层的结点个数依次为512、256、128，隐层池化层输出的结点个数为128，后三层全连接层的节点个数依次为128、64、32，损失函数是均方差代价函数；得到的输出层为执行计划节点的误差时间偏移量。

实施例二

本实施例提供了一种基于代价因子校准的数据库查询性能预测***，包括：

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于代价因子校准的数据库查询性能预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于代价因子校准的数据库查询性能预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于代价因子校准的数据库查询性能预测方法，其特征在于，包括如下步骤：

获取回归查询语句相对应执行计划的历史数据；

2.如权利要求1所述的一种基于代价因子校准的数据库查询性能预测方法，其特征在于，所述根据回归查询语句相对应执行计划的历史数据，采用统计回归校准的方法，拟合代价公式中代价因子的数值包括：

基于历史数据获取所有回归查询语句所对应代价公式中的已知量；

将已知量代入相应的代价公式，联立所有代价公式求解得到代价因子的数值。

3.如权利要求1所述的一种基于代价因子校准的数据库查询性能预测方法，其特征在于，所述代价公式中代价因子包括顺序扫描一个数据页面的I/O代价因子、随机扫描一个数据页面的I/O代价因子、处理一行数据的CPU代价因子、处理一个索引项的CPU代价因子、处理每个函数或操作符的CPU代价因子。

4.如权利要求1所述的一种基于代价因子校准的数据库查询性能预测方法，其特征在于，回归查询中每条查询所涉及的代价计算公式包含不同类型的代价因子，执行并收集每条查询的真实执行时间和每种代价因子的操作数量，作为代价计算公式的真值结果和系数，通过不同的查询组合来统计回归得到不同代价因子的数值。

5.如权利要求1所述的一种基于代价因子校准的数据库查询性能预测方法，其特征在于，所述基于原始训练数据集获取训练数据特征集和训练数据标签集包括：

6.如权利要求5所述的一种基于代价因子校准的数据库查询性能预测方法，其特征在于，所述原始训练数据集执行计划每个节点的嵌入向量的生成方法为：

基于原始训练数据集，按照后续遍历的方式依次抽取每个执行计划中节点的信息，按照字典表中的类别特征信息对节点进行编码得到字典编码特征，并将节点的运行时间作为该特征所对应的标签；基于字典编码特征和所对应的标签对特征处理神经网络进行训练得到训练后的特征处理神经网络；

7.如权利要求4所述的一种基于代价因子校准的数据库查询性能预测方法，其特征在于，所述回归查询语句相对应执行计划的历史数据包括：基数、扫描块数和执行时间。

8.一种基于代价因子校准的数据库查询性能预测***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于代价因子校准的数据库查询性能预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于代价因子校准的数据库查询性能预测方法中的步骤。