CN117435594A

CN117435594A - 一种分布式数据库分布键的优选方法

Info

Publication number: CN117435594A
Application number: CN202311735374.3A
Authority: CN
Inventors: 丁明峰; 吴明远
Original assignee: Tianjin Nankai University General Data Technologies Co ltd
Current assignee: Tianjin Nankai University General Data Technologies Co ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-01-23
Anticipated expiration: 2043-12-18
Also published as: CN117435594B

Abstract

本发明提供了一种分布式数据库分布键的优选方法，包括：收集分布式数据库在运行期间执行的SQL语句和每条SQL的运行信息；记录分布式数据库中每张表的重分布代价以及非重分布代价，并记录与每张表相关联的候选键；根据收集的运行信息，对每条SQL的运行信息进行处理，计算出每张表中每个相关联的候选键的代价；对所有代价进行汇总，得出运行期间每张表各个候选键的总代价；选择每张表总代价最高的候选键作为最优分布键，并将最优分布键应用到分布式数据库中。本发明有益效果：解决了传统上依赖人工选择分布键的诸多弊端，大幅度提升了执行效率，解决了分布键不合理导致的性能问题。

Description

一种分布式数据库分布键的优选方法

技术领域

本发明属于计算机技术领域，尤其是涉及一种分布式数据库分布键的优选方法。

背景技术

在分布式数据库中，当两张表做关联查询时，只要其中一张表的关联字段不是分布字段，就会引发数据库的重分布操作，节点之间需要搬运数据，使之满足关联条件，这就是数据的重分布，简称“重分布”。

重分布会导致节点之间的网络负荷增加，并降低***的整体效率。虽然重分布本身很难避免，但可以尽量减少：通过给每张数据表设置合理的分布键，使关联查询尽可能在节点内完成，减少重分布操作，就可以大幅度改善***效率。

现有技术中，给每张表选择合适的分布键，由资深DBA人工完成，DBA需要查看所有数据表的定义，并分析应用***的所有SQL，据此为每张表选择合适的分布键，这个过程，由于很难精确衡量每一种分布键设置带来的影响，当数据表的数量达到几千上万，甚至更多时，人工选择的弊端越发明显，选择的分布键也通常不是最优设置，只能是局部较优，导致***性能低下。

如果通过计算机穷举每张表所有可能的分布键设置，再计算每种分布键设置下的***性能，由于计算量太大，不具有实用性（考虑1000张表，每张表10个字段，则所有可能的分布键设置数量为10^1000），这就是分布式数据库目前只有人工选择分布键这一种手段的原因。

发明内容

有鉴于此，本发明旨在提出一种分布式数据库分布键的优选方法，以期解决分布式数据库中选择分布键的难点，通过自动化的方式，选出最优分布键，提高分布键选择效率，避免人工选择的缺陷，减少节点之间的重分布操作，提升***整体效率。

为达到上述目的，本发明的技术方案是这样实现的：

本发明第一方面提供了一种分布式数据库分布键的优选方法，包括：

收集分布式数据库在运行期间执行的SQL语句和每条SQL的运行信息；

记录分布式数据库中每张表的重分布代价以及非重分布代价，并记录与每张表相关联的候选键；

根据收集的运行信息，对每条SQL的运行信息进行处理，计算出每张表中每个相关联的候选键的代价；

对所有代价进行汇总，得出运行期间每张表各个候选键的总代价；

选择每张表总代价最高的候选键作为最优分布键，并将最优分布键应用到分布式数据库中。

进一步的，收集分布式数据库在运行期间每条SQL的运行信息的过程包括：

在分布式数据库中修改优化器，根据分布式数据库的统计信息生成对SQL的运行信息的估计值；

在分布式数据库中修改执行器，根据SQL的执行过程统计SQL的运行信息。

进一步的，在分布式数据库中修改分布式数据库的优化器或执行器，收集SQL的运行信息的过程包括：

将运行信息的收集过程中涉及SQL查询的关联条件字段，作为分布列的候选键；

在收集过程中，保存收集的运行信息，在收集结束后进行汇总统计。

进一步的，选择每张表总代价最高的候选键作为最优分布键的过程中，若非重分布代价最大，则不更改表的分布键；

若重分布代价最大，则将表的最优分布键更改为对应的候选键。

进一步的，当收集到满足计算每张表的代价的SQL运行信息后，调用停止函数停止数据收集，在停止函数中遍历收集到的信息，开始计算每张表的代价。

进一步的，计算出每张表中每个相关联的候选键的代价并选出最优分布键的过程包括：

计算非重分布代价H_Tm，对于每张表Tm，计算所有SQL查询中当前表的非重分布代价之和，其公式为：；

计算重分布代价H_Tm-Fn，对于表Tm中的每个候选键Fn，计算所有SQL查询中的重分布代价之和，其公式为：；

选择最优分布键，对于每张表Tm，比较非重分布代价和所有候选键的重分布代价，并找出集合{H_Tm,H_Tm-F1,H_Tm-F2,…,H_Tm-FN}中的最大值；

若最大值为H_Tm，则当前的分布键是最优的；

若最大值为H_Tm-Fn，则将最优分布键更换为Fn。

本发明第二方面提供了一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，其特征在于：所述处理器用于执行上述第一方面任一所述的一种分布式数据库分布键的优选方法。

本发明第三方面提供了一种服务器，其特征在于：包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行如第一方面任一所述的一种分布式数据库分布键的优选方法。

本发明第四方面提供了一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现第一方面任一项所述的一种分布式数据库分布键的优选方法。

相对于现有技术，本发明所述的一种分布式数据库分布键的优选方法具有以下有益效果：

本发明通过自动推荐分布键，无需人工干预的方式，解决了传统上依赖人工选择分布键的诸多弊端，解放了人力，在收集运行信息之后，能够迅速选出最优分布键，大幅度提升了执行效率。

本发明通过重分布代价与非重分布代价对比校验，实现了选择的分布键是最优分布键，能够大幅提升分布式数据库的性能，解决了分布键不合理导致的性能问题。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种分布式数据库分布键的优选方法的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

实施例一：

一种分布式数据库分布键的优选方法，包括：

S1、收集分布式数据库在运行期间执行的SQL语句和每条SQL的运行信息，运行信息包括执行代价；

S2、记录分布式数据库中每张表的重分布代价以及非重分布代价，并记录与每张表相关联的候选键，候选键为SQL查询条件中出现的关联字段；

S3、根据收集的运行信息，对每条SQL的运行信息进行处理，计算出每张表中每个相关联的候选键的代价；

S4、对所有代价进行汇总，得出运行期间每张表各个候选键的总代价；

S5、选择每张表总代价最高的候选键作为最优分布键，并将最优分布键应用到分布式数据库中。

步骤S1中收集分布式数据库在运行期间每条SQL的运行信息的过程包括：

在分布式数据库中添加插件，使用插件修改分布式数据库的优化器，收集SQL的运行信息；

并根据收集到的SQL的运行信息在分布式数据库的优化器及执行器中执行相应的操作，具体为：

在优化器中，根据分布式数据库的统计信息生成对SQL的运行信息的估计值；

在执行器中，根据SQL的执行过程统计SQL的运行信息。

在分布式数据库中添加插件，使用插件修改分布式数据库的优化器，收集SQL的运行信息的过程包括：

在优化器中设置钩子函数并在钩子函数中创建收集运行信息的函数；

在收集过程中，将收集的数据存储在内存中，并使用链表等数据结构进行保存。

在分布式数据库执行语义分析和查询重写后生成查询树链表，并通过遍历查询树链表来调用钩子函数中创建的收集运行信息的函数；

查询树链表中的每个元素对应一个查询树，查询树包括范围表、目标列、连接树、约束条件。

步骤S5选择每张表总代价最高的候选键作为最优分布键的过程中，若非重分布代价最大，则不更改表的分布键；

步骤S1中，当收集到满足计算每张表的代价的SQL运行信息后，调用停止函数停止数据收集，在停止函数中遍历收集到的信息并完成数据的入库操作，随后开始计算每张表的代价。

步骤S3-S5中计算出每张表中每个相关联的候选键的代价并选出最优分布键的过程包括：

若最大值为H_Tm，则当前的分布键是最优的；

若最大值为H_Tm-Fn，则将最优分布键更换为Fn。

实施例二：

一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，其特征在于：所述处理器用于执行上述实施例一任一所述的一种分布式数据库分布键的优选方法。

实施例三：

一种服务器，其特征在于：包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行如实施例一任一所述的一种分布式数据库分布键的优选方法。

实施例四：

一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现实施例一任一项所述的一种分布式数据库分布键的优选方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和***，可以通过其它的方式实现。例如，以上所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。上述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式数据库分布键的优选方法，其特征在于，包括：

2.根据权利要求1所述的一种分布式数据库分布键的优选方法，其特征在于：

收集分布式数据库在运行期间每条SQL的运行信息的过程包括：

3.根据权利要求2所述的一种分布式数据库分布键的优选方法，其特征在于：

在分布式数据库中修改分布式数据库的优化器或执行器，收集SQL的运行信息的过程包括：

4.根据权利要求1所述的一种分布式数据库分布键的优选方法，其特征在于：

选择每张表总代价最高的候选键作为最优分布键的过程中，若非重分布代价最大，则不更改表的分布键；

5.根据权利要求1所述的一种分布式数据库分布键的优选方法，其特征在于：

当收集到满足计算每张表的代价的SQL运行信息后，调用停止函数停止数据收集，在停止函数中遍历收集到的信息，开始计算每张表的代价。

6.根据权利要求1所述的一种分布式数据库分布键的优选方法，其特征在于：

计算出每张表中每个相关联的候选键的代价并选出最优分布键的过程包括：

若最大值为H_Tm，则当前的分布键是最优的；

若最大值为H_Tm-Fn，则将最优分布键更换为Fn。

7.一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，其特征在于：所述处理器用于执行上述权利要求1-6任一所述的一种分布式数据库分布键的优选方法。

8.一种服务器，其特征在于：包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行如权利要求1-6任一所述的一种分布式数据库分布键的优选方法。

9.一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-6任一项所述的一种分布式数据库分布键的优选方法。