CN116860789A

CN116860789A - 一种数据分布优化方法及分布式数据库***

Info

Publication number: CN116860789A
Application number: CN202310910653.2A
Authority: CN
Inventors: 邹仁利; 万祥宾; 高雪玉; 苗健; 吕新杰
Original assignee: Highgo Base Software Co ltd
Current assignee: Highgo Base Software Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-10

Abstract

本申请公开了一种数据分布优化方法及分布式数据库***，包括：获取分布式数据库***各节点的数据分布、查询计划和临时数据重分布情况；利用预设优化算法计算最优分布键；以及，基于所述查询计划、修正相关表的分布列选取，以优化查询性能；获取查询请求，并利用所述最优分布键以及修正后的分布列选取，对关联的查询进行优化，以将相关的查询任务调度到合适的数据节点；基于查询任务调度的调度结果以及所述最优分布键，完成数据重分布，以将具有亲和性的数据迁移至同一数据节点。本申请通过计算最优的分布键和动态调整分布列选取，本发明能够优化查询计划和操作，提高查询效率。

Description

一种数据分布优化方法及分布式数据库***

技术领域

本申请涉及数据库技术领域，尤其涉及一种数据分布优化方法及分布式数据库***。

背景技术

在现代分布式数据库***中，数据节点存储着实际的数据，并通过某种哈希算法进行分片分布。分布式***通常提供方法来治理物理倾斜，以确保数据在每个节点上均匀分布。然而，在查询执行过程中，经常需要进行关联查询操作，这就要求相关数据具有一定的亲和性，即分布在同一节点上。仅仅关注物理倾斜并不能避免频繁的跨节点查询，从而影响查询效率。

目前，一些分布式数据库***支持临时数据重分布的功能。这意味着根据查询计划和优化策略，***可以在需要时将具有亲和性的数据临时迁移至同一节点，以减少跨节点查询的次数，提高查询效率。然而，现有***缺乏智能处理数据分布的能力，无法根据查询计划、临时数据重分布情况以及表列关联情况进行动态修正和优化，从而无法达到最优的查询性能。

发明内容

本申请实施例提供一种数据分布优化方法及分布式数据库***，用以优化查询计划和操作，提高查询效率。

本申请实施例提供一种数据分布优化方法，包括：

获取分布式数据库***各节点的数据分布、查询计划和临时数据重分布情况；

基于所述数据分布、查询计划和临时数据重分布情况，利用预设优化算法计算最优分布键；以及，

基于所述查询计划、修正相关表的分布列选取，以优化查询性能；

获取查询请求，并利用所述最优分布键以及修正后的分布列选取，对关联的查询进行优化，以将相关的查询任务调度到合适的数据节点；

基于查询任务调度的调度结果以及所述最优分布键，完成数据重分布，以将具有亲和性的数据迁移至同一数据节点。

可选的，还包括接收经过优化处理的查询任务，并在相应的数据节点上执行查询操作，将结果返回查询请求方。

可选的，基于所述数据分布、查询计划和临时数据重分布情况，利用预设优化算法计算最优分布键包括：

获取所述分布式数据库***中所述查询计划命中的相关键值指标，并基于所述相关键值指标进行离散，以获得相关键值指标的命中概率；以及，

统计所述分布式数据库***中临时数据重分布情况，记录统计结果；

基于相关键值指标的命中概率、所述统计结果按照预设比例的权重计算获得所述最优分布键。

可选的，基于相关键值指标的命中概率、所述统计结果按照预设比例的权重计算获得所述最优分布键满足：

分布键排行分＝α*相关键值指标+β*临时数据重分布状态指标+γ*表列关联情况指标

其中，α、β、γ为对应的权重因子，所述相关键值指标包括关键字的命中次数、查询中使用的索引、查询的过滤条件；临时数据重分布状态指标包括临时表的创建和使用情况、数据的分布均匀性；表列关联情况指标包括表之间的关联类型、关联字段的使用频率。

可选的，基于所述查询计划、修正相关表的分布列选取，以优化查询性能包括：

在所述分布键排行分中引入查询执行时间指标和数据传输量指标。

可选的，在数据分布和查询模式改变的情况下，重新评估和修正最优分布键。

本申请实施例还提出一种分布式数据库***，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的数据分布优化方法的步骤。

本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的数据分布优化方法的步骤。

本申请实施例通过处理数据分布和动态修正分布列选取，能够根据查询计划和表列关联情况进行优化处理。通过计算最优的分布键和动态调整分布列选取，本发明能够优化查询计划和操作，提高查询效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例数据分布优化方法的应用架构示例；

图2为本申请实施例数据分布优化方法的流程示例；

图3为本申请实施例数据分布优化方法的数据分布优化执行效果示例。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请提供一种智能化的查询优化方法和***，用于处理数据分布和跨节点查询的问题。该***框架如图1所示，本申请方法通过埋点收集、分析临时重分布的数据，并结合查询计划、临时重分布情况和表列关联情况，计算最优的分布键并动态修正相关表的分布列选取，以达到查询优化和提高查询效率的目的。具体的本申请实施例提供一种数据分布优化方法，如图2所示，包括如下步骤：

在步骤S201中，获取分布式数据库***各节点的数据分布、查询计划和临时数据重分布情况。

在步骤S202中，基于所述数据分布、查询计划和临时数据重分布情况，利用预设优化算法计算最优分布键；以及，

在步骤S203中，基于所述查询计划、修正相关表的分布列选取，以优化查询性能。

在步骤S204中，获取查询请求，并利用所述最优分布键以及修正后的分布列选取，对关联的查询进行优化，以将相关的查询任务调度到合适的数据节点。

在步骤S205中，基于查询任务调度的调度结果以及所述最优分布键，完成数据重分布，以将具有亲和性的数据迁移至同一数据节点，减少跨节点查询的需求。

在一些实施例中，还包括接收经过优化处理的查询任务，并在相应的数据节点上执行查询操作，将结果返回查询请求方。

在一些实施例中，基于所述数据分布、查询计划和临时数据重分布情况，利用预设优化算法计算最优分布键包括：

获取所述分布式数据库***中所述查询计划命中的相关键值指标，并基于所述相关键值指标进行离散，以获得相关键值指标的命中概率，记录结果集作为最终分布键最优推荐的权重考虑项。以及，统计所述分布式数据库***中临时数据重分布情况，记录统计结果，记录结果集作为最终分布键最优推荐的权重考虑项。

根据***目前表列关系现状，以查询计划、临时重分布记录结果一定比例权重进行最优分布键排行分计算，选取最优数据分布键。在一些实施例中，基于相关键值指标的命中概率、所述统计结果按照预设比例的权重计算获得所述最优分布键满足：

本申请实施例中，查询计划相关键值指标可以包括关键字的命中次数、查询中使用的索引、查询的过滤条件等因素；临时数据重分布状态指标可以包括临时表的创建和使用情况、数据的分布均匀性等因素；表列关联情况指标可以包括表之间的关联类型、关联字段的使用频率等因素；权重因子(α、β、γ)可以根据具体需求进行调整，以反映不同因素对最优分布键的重要程度。

在监控***阶段，可以考虑额外的因素，如访问频次、***负载等，以确定是否需要动态修正***的分布键并触发重分布流程。在这个公式中，我们考虑了三个因素：查询计划相关键值指标、临时数据重分布状态指标和表列关联情况指标。通过乘以对应的权重因子(α、β、γ)，将它们综合计算得出最终的分布键排行分。

***根据实时计算的最优分布键的结果，考虑访问频次、***默认参数等诸多因素后，例如设置动态分布执行阈值，设置当访问量达到***设置值a，且现分布键与最优分布键差值达到***设置阈值b时，则触发***重分布流程。

待动态修正***分布键完成后，***进行新一轮的数据收集、计算，并记录已有化策略生效结果，作为下一轮动态修正***分布键的权重考虑项。

本申请实施例还提出一些改进措施，包括如下内容：

统计方法和算法改进，在收集和统计查询计划中命中相关键值指标、临时数据重分布状态和表列关联情况时，可以使用更精确的统计方法和算法来进行离散计算。确保计算结果更准确地反映出关联键值的命中概率事件和其他指标。具体的例如可以采用如下统计方法：

回归分析：回归分析可以用于建立关联键值的命中概率事件与其他指标之间的关系模型。在这种情况下，可以将关联键值的命中与其他指标之间的因果关系进行建模，然后使用回归模型来预测和推断命中概率事件。回归分析可以帮助了解不同因素之间的相互作用，并预测在给定条件下关联键值命中的概率。

方差分析：方差分析用于比较不同组别之间的均值差异是否显著。在这种情况下，可以将查询计划的不同设置或条件划分成若干组，然后使用方差分析来判断各组之间关联键值命中概率事件和其他指标是否存在显著差异。方差分析可以帮助确定哪些因素对关联键值命中概率事件和其他指标有显著影响。

非参数统计方法：非参数统计方法不依赖于总体分布的假设，适用于数据非正态分布或样本较小的情况。在这种情况下，可以使用非参数统计方法来比较关联键值的命中概率事件和其他指标在不同条件下的分布情况，例如使用Wilcoxon秩和检验或Mann-Whitney U检验。非参数方法在样本较小或数据不满足正态性假设时，更能保证计算结果的准确性。

动态调整权重因子：根据实际情况，可以考虑在运行时动态调整权重因子(α、β、γ)。例如，根据***性能和资源利用率的变化，设置请求量阈值，当达到阶梯请求量阈值c后，权重因子也会根据阈值进行调整。当***存储达到设置阈值后，权重因子也会根据阈值进行调整，以优化分布键选取的准确性和性能。

细化指标和数据收集：在确定查询计划相关键值指标、临时数据重分布状态指标和表列关联情况指标时，可以进一步细化和拓展指标的范围。例如，在查询计划相关键值指标中，可以考虑不同类型的查询(如范围查询、连接查询)对最优分布键的影响。同时，确保数据收集的全面性和准确性，以获得更可靠的计算结果。

在一些实施例中，基于所述查询计划、修正相关表的分布列选取，以优化查询性能包括：在所述分布键排行分中引入查询执行时间指标和数据传输量指标。具体示例中，除了考虑查询计划和表列关联情况等因素外，还可以引入性能评估指标来综合评估不同分布键的性能。例如，考虑查询执行时间、数据传输量等指标，以选择既能满足数据分布均匀性要求又能提高查询性能的最优分布键。

定期评估和优化：定期评估分布键选取技术的效果，并根据实际情况进行优化和改进。通过分析实际数据和性能指标，调整权重因子和其他参数，以适应不同场景和需求的变化。

在一些实施例中，在数据分布和查询模式改变的情况下，重新评估和修正最优分布键。考虑数据变化和演化：在动态修正***分布键后，应该持续监控数据的变化和演化趋势。如果数据分布以及查询计划发生变化，统计计算相关信息，达到阈值，触发修正分布键流程。当此过程阶段结束后，持续监控数据的变化和演化趋势，当再次捕获变化后，触发上一流程，实现动态优化流程，以保持***的高效性和可扩展性。

传统的分布式数据库***中，由于数据分布在不同节点上，执行关联查询操作时需要频繁进行跨节点查询，导致查询效率低下。本申请实施例通过智能处理数据分布和动态修正分布列选取，解决了现有技术中跨节点查询频繁的问题。通过临时重分布数据，使具有亲和性的数据集中在同一节点上，减少了跨节点查询的操作。由此，查询时可以直接在本地节点进行操作，避免了跨节点查询带来的延迟和资源消耗。因此，本申请的方法能够显著提高查询效率，使得分布式数据库***具备更高的性能。

本申请的方法通过智能处理数据分布和动态修正分布列选取，解决了现有技术中查询效率不高的问题。现有技术方案缺乏智能化的查询优化能力，无法根据查询计划、临时数据重分布情况和表列关联情况进行动态修正和优化。而本发明通过计算最优的分布键和动态调整分布列选取，能够根据查询计划和表列关联情况进行优化处理。通过智能的数据分布和列选取策略，本发明能够提高查询计划的效率，并减少冗余的查询操作。因此，本发明在查询过程中能够更好地利用资源，优化查询计划和操作，从而提高查询效率。

一些具体示例中，参见如图1所示的架构，本申请的分布式数据库***包括如下功能模块：

数据收集与分析模块：

通过埋点技术，在分布式数据库***中的各个节点上收集数据分布、查询计划和临时数据重分布情况等信息。

将收集到的数据传输到数据分析模块进行处理。

数据分析与计算模块：

接收并处理数据收集与分析模块传输的数据，包括数据分布、查询计划和临时数据重分布情况。

基于这些数据，利用算法和计算模型计算最优的分布键。

结合查询计划和表列关联情况，动态修正相关表的分布列选取，以优化查询性能。

查询优化模块：

接收查询请求和查询计划。

利用最优的分布键和修正后的分布列选取，对查询进行优化处理。

根据查询计划中的相关信息，调度查询任务到合适的数据节点上进行执行。

数据重分布模块：

根据查询优化模块的调度结果和最优分布键，实现数据重分布。

将具有亲和性的数据迁移至同一节点上，以减少跨节点查询的需求。图3示出了数据分布优化执行效果。

查询执行模块：

接收经过优化处理的查询任务。

在指定的数据节点上执行查询操作，并将结果返回给查询请求方。

本申请的***能够显著提高分布式数据库***的性能和效率。通过智能处理数据分布和动态修正分布列选取，本申请***在查询过程中减少了跨节点查询的需求，优化了查询计划和操作，从而降低了查询延迟和资源消耗。本申请在提高分布式数据库***的查询性能和效率方面具有显著的优势。

需要说明的是，在本申各实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本申请的保护之内。

Claims

1.一种数据分布优化方法，其特征在于，包括：

2.如权利要求1所述的数据分布优化方法，其特征在于，还包括接收经过优化处理的查询任务，并在相应的数据节点上执行查询操作，将结果返回查询请求方。

3.如权利要求1所述的数据分布优化方法，其特征在于，基于所述数据分布、查询计划和临时数据重分布情况，利用预设优化算法计算最优分布键包括：

4.如权利要求3所述的数据分布优化方法，其特征在于，基于相关键值指标的命中概率、所述统计结果按照预设比例的权重计算获得所述最优分布键满足：

5.如权利要求4所述的数据分布优化方法，其特征在于，基于所述查询计划、修正相关表的分布列选取，以优化查询性能包括：

6.如权利要求1所述的数据分布优化方法，其特征在于，在数据分布和查询模式改变的情况下，重新评估和修正最优分布键。

7.一种分布式数据库***，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据分布优化方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据分布优化方法的步骤。