CN117971832A

CN117971832A - 一种索引管理方法及装置

Info

Publication number: CN117971832A
Application number: CN202410158442.2A
Authority: CN
Inventors: 高朔; 张岩; 刘振; 张昉; 宋洁; 王元文
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-05-03

Abstract

本申请公开了一种索引管理方法及装置，针对索引类型为热索引的待处理索引，获取该待处理索引对应的相关数据，该相关数据包含了与管理生命周期有关的数据。例如，包括索引访问频率、索引写入频率、索引所占空间等。将相关数据输入预先训练的预测模型中，获取该预测模型输出的针对待处理索引的管理策略。该管理策略用于指示是否将待处理索引的索引类型由热索引转换为冷索引。若管理策略指示将待处理索引的索引类型由热索引转换为冷索引，则确定待处理索引的索引类型为冷索引。即，通过本申请提供的技术方案，通过预测模型可以对索引的索引类型实现自动划分，使得索引生命周期的管理具有灵活性和可靠性。

Description

一种索引管理方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种索引管理方法及装置。

背景技术

随着互联网普及和数字化转型的推进，一些行业积累了大量的数据资源，例如银行。同时，随着存储技术的不断进步和成本的下降，能够更加轻松地存储和处理海量资源，大数据技术快速发展也为数据管理提供了更多的数据分析和洞察能力。在以上背景下，索引搜索引擎已经被广泛地应用于不同行业的各类大数据搜索场景。索引搜索引擎具有海量数据执行近实时的能力，包括全文检索、结构化检索、数据分析。它对数据备份、数据迁移、故障恢复具有高效的支持能力。但是随着接入索引搜索引擎的数据越来越多，给索引搜索引擎查询的性能带来了压力，索引搜索引擎的存储容量面临着不小的挑战，如何更加有效地利用索引搜索引擎，是当前索引管理技术的重要方向。

索引搜索引擎中索引生命周期管理是一种索引管理策略，可以根据索引文档数量、大小、文档的保留需求等要求自定义索引生命周期管理策略。例如，根据索引的访问热度和存储成本，手动为索引分配不同的生命周期。该种方法分配策略比较固定和单一，使得索引生命周期的配置不具有灵活性和智能性。

发明内容

有鉴于此，本申请实施例提供一种索引管理方法及装置，以实现对索引的生命周期进行自动管理，提高管理的灵活性和可靠性。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请第一方面，提供了一种索引管理方法，该方法包括：

获取待处理索引对应的相关数据，所述相关数据包括索引访问频率、索引写入频率、索引所占空间，所述待处理索引的索引类型为热索引；

将所述相关数据输入预测模型，获取所述预测模型输出的针对所述待处理索引的管理策略，所述管理策略用于指示是否将所述待处理索引的索引类型由所述热索引转换为冷索引，所述预测模型为预先训练的、用于确定索引管理策略的模型；

若所述管理策略指示将所述待处理索引的索引类型由所述热索引转换为冷索引，确定所述待处理索引的索引类型为冷索引。

在本申请第二方面，提供了一种索引管理装置，该装置包括：

第一获取单元，用于获取待处理索引对应相关数据，所述相关数据包括索引访问频率、索引写入频率、索引所占空间，所述待处理索引的索引类型为热索引；

第二获取单元，用于将所述相关数据输入预测模型，获取所述预测模型输出的针对所述待处理索引的管理策略，所述管理策略用于指示是否将所述待处理索引的索引类型由所述热索引转换为冷索引，所述预测模型为预先训练的、用于确定索引管理策略的模型；

处理单元，用于若所述管理策略指示将所述待处理索引的索引类型由所述热索引转换为冷索引，确定所述待处理索引的索引类型为冷索引。

在本申请实施例第三方面，提供了一种电子设备，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述电子设备实现第一方面所述的索引管理方法。

在本申请第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在设备上运行时，使得所述设备执行第一方面所述的索引管理方法。

在本申请第五方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行第一方面所述的索引管理方法。

由此可见，本申请实施例具有如下有益效果：

本申请中，针对索引类型为热索引的待处理索引，获取该待处理索引对应的相关数据，该相关数据包含了与管理生命周期有关的数据。例如，包括索引访问频率、索引写入频率、索引所占空间等。将相关数据输入预先训练的预测模型中，获取该预测模型输出的针对待处理索引的管理策略。该管理策略用于指示是否将待处理索引的索引类型由热索引转换为冷索引。若管理策略指示将待处理索引的索引类型由热索引转换为冷索引，则确定待处理索引的索引类型为冷索引。即，通过本申请提供的技术方案，通过预测模型可以对索引的索引类型实现自动划分，使得索引生命周期的管理具有灵活性和可靠性。

附图说明

图1为本申请实施例提供的一种预测模型训练方法流程图；

图2为本申请实施例提供的一种预测模型训练框架图；

图3为本申请实施例提供的一种索引管理方法流程图；

图4为本申请实施例提供的一种索引管理设备结构图；

图5为本申请实施例提供的一种索引管理装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请实施例的技术方案，下面将先对本申请实施例涉及的背景技术和技术名词进行说明。

目前，针对索引生命周期的管理主要是静态配置，当索引的访问模式或者需求发生改变时，需要手动更改索引生命周期管理策略。当遇到需要频繁调整索引生命周期的管理策略时，该种方法不够灵活和高效。而且，索引生命周期管理策略的配置涉及多项内容，需要理解和设置不同的阶段、触发条件、时间间隔等，需要一定的学习和实践才能够熟练的配置。

随着机器学习、人工智能等技术的发展，各行业在以上技术的加持下可以从大数据中挖掘出有价值的信息，进行风险评估、个性化营销等应用，各种机器学习算法和优化算法逐渐应用于各个领域中，并取得了较好的效果。例如，XGBoost算法是一种集成机器学习算法，在处理大规模索引基础特征数据时，具有更高效、快速的特点，而且面对数据缺失情况还具有一定的鲁棒性。同时在模型构建、模型优化方面可以减少主观因素。

基于此，本申请提出了一种索引管理方法，在配置索引生命周期时，通过预测模型实现对索引生命周期管理的自动配置，实现了管理的灵活性和高效性。

下面对本申请所涉及的技术名词进行解释。

索引，是一种能提高数据库查询效率的数据结构，它可以比作一本字典的目录，可以帮助用户快速找到对应的记录。索引一般存储在磁盘的文件中，它是占用物理空间的。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新以及删除操作。

索引生命周期管理(Index Lifecycle Management，ILM)，可自动化处理索引的创建、切换和删除，管理员可以根据性能、索引文档数量、大小等弹性要求，自定义索引生命周期管理策略。通过索引生命周期管理，可以自动执行数据备份和恢复操作，以及优化索引以提高性能和节省存储空间。

XGBoost：它是一种梯度提升树的机器学习算法，该算法结合了梯度提升和正则化技术，以此来提高模型的准确性和泛化能力。它通过不断地迭代训练多个决策树来逐步减少损失函数。每个决策树都是基于前一棵树的残差进行训练，以便逐步减少预测误差。

贝叶斯优化：它是一种用于优化黑盒函数的算法，用于机器学习模型的超参数调优。它通过不断地探索和利用已观测到的结果来迭代地改进参数设置，以找到最优的参数组合。

信赖域：它是一种优化算法的概念，用于限制参数更新的范围，并在该范围内进行模型参数的优化。

超参数：机器学习算法中调优参数，需要人为设定，例如正则化系数γ，学习率、决策树模型中树的深度等。

退火算法：是一种优化算法，用于训练神经网络中的参数，逐步降低学习率来改善模型的性能。

K折交叉验证：将数据集随机划分为K个大小相似的子集，每个子集被称为一个折。对于每一轮交叉验证，选择其中的一个作为验证集，其余的K-1折作为训练集。使用训练集进行模型训练，使用训练好的模型在验证集上进行预测，并计算评价指标来评估指标。重复上述过程K次，每次选用不同的验证集，对模型进行验证，最后对K次交叉验证的结果进行汇总，取平均值作为模型的性能评估指标。

为便于理解本申请实施例提供的技术方案，下面将结合附图进行说明。需要说明的是，下面将先介绍预测模型的训练过程。

参见图1，该图为本申请实施例提供的一种预测模型训练方法流程图，如图1所示，该方法包括：

S101：获取训练样本。

其中，训练样本包括索引对应的相关数据，该相关数据能够反映索引的访问特征。具体地，相关数据可以包括索引访问频率、索引写入频率、索引所占空间、索引的创建时间等数据。需要说明的是，训练样本中包括热索引的相关数据，也包括冷索引的相关数据。

在本实施例中，在获取相关数据时，为便于后续预测模型从相关数据中提取特征，可以先对该相关数据进行预处理，该预处理可以包括数据填充、数据类型统一化等。

S102：将训练样本输入预测模型，获得预测模型输出的针对训练样本的管理策略。

在获取训练样本后，将训练样本输出待训练的预测模型，该预测模型获取训练样本后，从该训练样本中提取所需的特征，进而根据该特征进行预测，输出针对训练样本的管理策略。其中，管理策略用于指示是否将训练样本的索引类型转换为冷索引。

S103：基于管理策略以及训练样本的标签，获取评估指标。

S104：若评估指标不满足预设条件，对预测模型的参数进行优化，重新训练，直至评估指标满足预设条件。

获取管理策略后，基于管理策略以及训练样本的标签，获取评估预测准确性的指标，即评估指标。该评估指标用于衡量预测模型的预测性能，可以包括准确率、精准度、召回率和F1分数等。判断该评估指标是否满足预设条件，如果不满足，对预测模型进行优化和调整，经过多次迭代，获得最优的预测模型。

其中，训练样本的标签是指该索引对应的决策结果，该决策结果用于指示控制热索引进入下一阶段，即转换为冷索引。

在本实施例中，将索引的类型划分为热索引和冷索引。其中，热索引，用于实时索引、写入和查询操作。针对热索引所关联的数据，可以执行各种聚合操作，如求和、平均值、最大值、最小值。冷索引，用于存储访问频率较低或长时间不再访问的数据，这些数据通常是存储在相对较慢或成本较低的存储介质上，如低性能的硬盘驱动器。冷索引存储的是非常冷门的数据，如果索引达到期限，则对该索引所关联的数据进行删除。

在本实施例中，可以使用XGBoost算法或TuRBO算法对预测模型的参数进行优化。具体地，XGBoost采用级联的方法构建模型，首先使用一个简单的弱学习器进行训练和预测，然后训练一个新的弱学习器来纠正当前模型的残差，新的弱学习器是减少损失函数，是模型更加接近于实际标签。不断重复上述过程，不断地构建新的弱学习器并将其加权添加到模型中，逐渐地提高模型的预测能力。

其中，TuRBO优化算法结合了贝叶斯优化和信赖域优化算法。首先从目标函数中随机选取一组初始采样点，对其进行评估，得到对应的目标函数值，然后使用已有的采样点拟合一个高斯过程模型，作为对目标函数的估计。这个模型将目标函数视为随机过程，可以给出目标函数值的概率分布。在当前的采样点集合和高斯过程模型的基础上，使用信赖域方法选择下一个采样点。信赖域方法将在一个局部区域内搜索潜在的最优解，并在当前的模型评估和信赖域限制调整采样点的位置。在新的采样点对目标函数进行评估，得到目标函数值。将新的采样点和对应的目标函数添加到原有的采样点集合中，利用这些数据更新高斯过程模型。TuRBO算法会逐步优化采样点的选择和高斯过程模型的拟合，来逼近目标函数的最优解。该算法通过在信赖域内搜索潜在的最优解，并根据当前模型的估计进行模型更新，使得优化过程更加高效。

为便于理解本申请针对预测模型的训练过程，参见图2所示的训练框架图，如图2所示，将采集的数据集划分为训练集数据和测试集数据。

在训练开始前，可以预先设置迭代次数阈值和评估指标的变化步长。训练开始后，利用训练集数据对预测模型进行训练，然后利用测试集数据对训练后的预测模型进行测试，获得评估指标。判断该评估指标是否满足预设条件，如果不满足，判断迭代次数是否达到预设迭代次数阈值，如果是，则结束训练；否则，对预测模型的参数进行优化，重新训练。

如果评估指标满足预设条件，存储预测模型的参数。同时，判断，迭代次数是否达到预设迭代次数阈值，如果是，则结束训练；否则，继续对预测模型的参数进行优化，重新训练。若再次训练的评估指标满足预设条件，则更新所存储的预测模型的参数。

经过上述训练后，可以利用训练完成的预测模型对索引进行管理。下面将结合附图进行说明。

参见图3，该图为本申请实施例提供的一种索引管理方法流程图，如图3所示，该方法包括：

S301：获取待处理索引对应的相关数据。

其中，相关数据可以标识待处理索引的访问特点，包括索引访问频率、索引写入频率、索引所占空间等。其中，待处理索引的索引类型为热索引。即，本实施例主要判断热索引是否需要转换为冷索引。

S302：将相关数据输入预测模型，获取该预测模型输出的针对待处理索引的管理策略。

其中，管理策略用于指示是否将待处理索引的索引类型由热索引转换为冷索引。其中，预测模型通过利用图1所示方法预先训练的、用于确定索引管理策略的模型。关于预测模型的训练具体可以参见图1所示实施例中的相关描述，本实施例在此不再赘述。

S303：若所管理策略指示将待处理索引的索引类型由热索引转换为冷索引，确定待处理索引的索引类型为冷索引。

即，通过预测模型可以对索引的生命周期进行划分，以确定待处理索引是否从热索引阶段进入到冷索引阶段。

若存在新增的索引，将该索引的索引类型确定为热索引。针对热索引，可以按照定时任务，获取其对应的相关数据，进而利用预测模型判断其是否进入冷索引阶段。

针对冷索引，可以根据预设的定时删除任务，删除冷索引所关联的数据，从而减少对存储空间的占用，提高其他索引的查询速率。

当有新数据需要写入时，获取待写入数据，将该待写入数据写入热索引下。由于新数据的访问频率比较高，为提高其查询速度，将其写入热索引所关联的存储空间中。

本实施例中，可以利用索引类型实现数据的自动划分，将热索引所关联的数据确定为热数据；将冷索引所关联的数据确定为冷数据。

可见，通过本申请，针对索引类型为热索引的待处理索引，获取该待处理索引对应的相关数据，该相关数据包含了与管理生命周期有关的数据。例如，包括索引访问频率、索引写入频率、索引所占空间等。将相关数据输入预先训练的预测模型中，获取该预测模型输出的针对待处理索引的管理策略。该管理策略用于指示是否将待处理索引的索引类型由热索引转换为冷索引。若管理策略指示将待处理索引的索引类型由热索引转换为冷索引，则确定待处理索引的索引类型为冷索引。即，通过本申请提供的技术方案，通过预测模型可以对索引的索引类型实现自动划分，使得索引生命周期的管理具有灵活性和可靠性。

为便于理解本申请的整体处理流程，参见图4所示的框架图，如图4所示，索引处理设备400可以包括：数据读取器401、模型训练器402、模型决策器403。

其中，数据读取器401，用于读取索引对应的相关数据和该索引进入到下一阶段的决策结果，将其作为模型训练的数据集。读取数据后，数据读取器首先对数据进行清洗，例如缺失值、异常格式处理。然后，对数据进行编码，将文本数据编码为数值型数据，并将数据集随机的划分为训练集和测试集。

模型训练器402，使用数据读取器处理后的数据训练模型。具体地，可以使用XGBoost算法或使用K折交叉验证、TuRBO算法进行模型训练和优化。

模型决策器403，用于对训练阶段的模型使用测试集进行判断，根据模型在测试集上的评估指标，例如准确率、精准度、召回率和F1分数等，对其进行评估。然后，根据指标对模型进行优化和调整，经过多次的迭代，确定最优的预测模型。该预测模型用于预测是否将热索引转换为冷索引，实现索引生命周期管理。

基于上述方法实例，本申请实施例提供了一种索引管理装置，下面将结合附图对该装置进行说明。

参见图5，该图为本申请实施例提供的一种索引管理装置结构图，如图5所示，该装置500可以包括：

第一获取单元501，用于获取待处理索引对应相关数据，所述相关数据用于描述所述待处理索引的特征，包括索引访问频率、索引写入频率、索引所占空间，所述待处理索引的索引类型为热索引；

第二获取单元502，用于将所述相关数据输入预测模型，获取所述预测模型输出的针对所述待处理索引的管理策略，所述管理策略用于指示是否将所述待处理索引的索引类型由所述热索引转换为冷索引，所述预测模型为预先训练的、用于确定索引管理策略的模型；

处理单元503，用于若所述管理策略指示将所述待处理索引的索引类型由所述热索引转换为冷索引，确定所述待处理索引的索引类型为冷索引。

在一种可能的实现方式中，所述处理单元503，还用于若存在新增的索引，将所述索引的索引类型确定为热索引。

在一种可能的实现方式中，所述处理单元503，还用于根据预设的定时删除任务，删除冷索引所关联的数据。

在一种可能的实现方式中，所述处理单元503，还用于获取待写入数据，将所述待写入数据写入热索引下。

在一种可能的实现方式中，所述处理单元503，还用于将所述热索引所关联的数据确定为热数据；将所述冷索引所关联的数据确定为冷数据。

在一种可能的实现方式中，所述预测模型的训练过程包括：

获取训练样本，所述训练样本包括索引对应的相关数据；

将所述训练样本输入预测模型，获得所述预测模型输出的针对所述训练样本的管理策略；

基于所述管理策略以及所述训练样本的标签，获取评估指标；

若所述评估指标不满足预设条件，对所述预测模型的参数进行优化，重新训练，直至评估指标满足所述预设条件。

在一种可能的实现方式中，所述对所述预测模型的参数进行优化，包括：

利用XGBoost算法或TuRBO算法对所述预测模型的参数进行优化。

在一种可能的实现方式中，所述评估指标包括：准确率、精准度、召回率和F1分数中的一种或多种。

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例中的相关描述，本实施例在此不再赘述。

另外，本申请实施例提供了一种电子设备，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述设备实现所述的索引管理方法。

本申请实施例提供了一种计算机可读存储介质，包括指令或计算机程序，当其在计算机上运行时，使得计算机执行以上所述的索引管理方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种索引管理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若存在新增的索引，将所述索引的索引类型确定为热索引。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据预设的定时删除任务，删除冷索引所关联的数据。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待写入数据，将所述待写入数据写入热索引下。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述热索引所关联的数据确定为热数据；

将所述冷索引所关联的数据确定为冷数据。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预测模型的训练过程包括：

获取训练样本，所述训练样本包括索引对应的相关数据；

7.根据权利要求6所述的方法，其特征在于，所述对所述预测模型的参数进行优化，包括：

利用XGBoost算法或TuRBO算法对所述预测模型的参数进行优化。

8.根据权利要求6或7所述的方法，其特征在于，所述评估指标包括：准确率、精准度、召回率和F1分数中的一种或多种。

9.一种索引管理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述电子设备实现权利要求1-8任一项所述的索引管理方法。