WO2023108486A1

WO2023108486A1 - 一种准确快速确定大数据分析***的配置参数值域的方法

Info

Publication number: WO2023108486A1
Application number: PCT/CN2021/138361
Authority: WO
Inventors: 辛锦瀚; 喻之斌; 陈超; 黄世鑫; 王峥; 杨永魁; 郭伟钰
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2023-06-22

Abstract

本发明涉及一种准确快速确定大数据分析***的配置参数值域的方法，用于快速确定配置参数的值域。首先，根据大数据分析程序所赖于运行的硬件***的配置确定这些程序配置参数取值的大致范围；第二，从参数的缺省值开始，以较大的步长游走，直至程序出错，记录出错前一次游走的配置参数值。第三，从前面记录的配置参数取值开始，以缩小的步长游走，直至程序出错，记录出错前一次游走的配置参数值。第四，再缩小步长，重复上一步的操作。直到步长小于设定的门槛值。将出错的前一次的配置参数值作为该配置参数的边界。

Description

一种准确快速确定大数据分析***的配置参数值域的方法

技术领域

本公开涉及大数据处理领域，具体涉及一种准确快速确定大数据分析***的配置参数值域的方法。

背景技术

大数据分析***中有许多的数值型配置参数，有的参数配置程序运行所能使用的内存大小，有的参数配置一个任务所能使用的CPU核的个数，以及其他一些方面。例如，内存大数据分析引擎Apache Spark的配置参数spark.executor.memory规定每个执行器(executor)所能使用的内存的大小。

目前广泛使用的大数据分析引擎如Spark和Flink等都提供了配置参数的缺省值，例如上述参数的缺省值为1024MB，但没有提供这些参数的值域(即参数值可以配置的上限与下限)，值域的未知会为参数合理设定造成困难，不利于对配置优化，甚至会导致大数据分析程序的运行错误。

发明内容

本发明的目的在于解决下述问题：大数据分析引擎只为数值型配置参数提供了缺省值，而没有提供值域。本发明提供一种准确快速确定大数据分析***的配置参数值域的方法，能够快速搜索到配置参数的边界。所述方法包括以下步骤：

S100、获取要确定值域范围的配置参数以及所述配置参数的缺省值，将缺省值作为配置参数的当前值；

S200、以配置参数的当前值为起点，判断是否停止搜索值域边界值；若不停止搜索值域边界值，执行步骤S300；否则，执行步骤S600；

S300、用步长当前值更新配置参数的当前值，使***在每一个配置参数的当前值下运行，直至找到使***出错的配置参数值；

S400、记录***出错的前一次的配置参数值为配置参数的当前值；

S500、将步长当前值乘以一个大于0小于1的数，将其结果作为新的步长当前值，返回步骤S200；

S600、将配置参数的当前值作为值域的一个边界。

优选地，在所述方法中，所述S300包括下述步骤：

S301、将配置参数的当前值加上步长当前值，将其结果作为新的配置参数的当前值；

S302、将配置参数的当前值写入并运行***；

S303、判断***是否能正常运行，若能运行正常，返回步骤S301；否则，执行步骤S400。

优选地，在所述方法中，所述S200通过下述方法来判断是否停止搜索值域边界值：

若步长当前值小于设定的步长最小值，则停止搜索值域边界值。

优选地，在所述方法中，所述方法还包括下述步骤：

S700、判断是否已完成值域范围的边界搜索；如果没有完成，则将步长初始值取相反数后赋值给步长参数，将缺省值作为配置参数的当前值；返回步骤S200。

优选地，在所述方法中，所述步长初始值通过下述步骤确定：

S101、根据硬件***的配置，确定大数据分析***的配置参数值的大致范围；

S102、根据所述大致范围，设定步长初始值。

与现有技术相比：

本公开方法以默认值为中心，在确定大致配置参数值域范围的情况下，先以较大的步长粗略地找到出错的点，再次搜索时以出错的点的前一次为起点，缩小步长，逐渐逼近出错的点，如此反复，以实现准确快速地搜索到配置参数值域范围的上确界和下确界。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一个方法流程示意图；

图2是本发明实施例中的一种搜索示意图；

图3是本发明实施例中的另一种搜索示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或设备的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或设备，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或设备。

为使本申请的目的、技术方案和优点更加清楚，下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在一个实施例中，大数据分析引擎只为数值型配置参数提供了缺省值，而没有提供值域。为了快速确定配置参数的值域，采用如图1所示的方法流程图，具体实施步骤如下：

S600、将配置参数的当前值作为值域的一个边界。

上述方法将搜索配置参数值域的问题视为从一个给定位置开始，快速搜索到边界的问题。在该方法中，将缺省值作为给定位置。根据大数据分析程序所赖于运行的硬件***的配置确定这些程序配置参数取值的大致范围。根据大致范围确定步长初始值。接下来，从配置参数的缺省值开始，以步长初始值作为步长当前值，将配置参数的当前值加上步长当前值，将其结果作为新的配置参数的当前值，将配置参数的当前值写入***，让大数据分析程序在配置参数的当前值下运行，直至程序出错，记录出错前一次的配置参数值。然后，从记录的配置参数值开始，将步长缩小后，重复上一步操作，直至程序出错，记录出错前一次的配置参数值。如此反复一定的次数，直到步长小于设定的步长最小值，则停止搜索值域边界值，并将最后一次出错的前一次配置参数值作为该配置参数的一个边界。

对于值域的另一个边界，可以将缺省值重新作为配置参数的当前值，将步长初始值取相反数后赋值给步长参数，执行上述搜索过程。对于确定为边界的配置参数值，若其大于所述缺省值，则将其作为配置参数值域集合的上确界；否则，则将其作为配置参数值域集合的下确界。

在上述过程中，步长缩小，可以通过乘以一个大于0小于1的数实现，该数优选为三分之一，也可以采用其它值。通过这种方式，可以将搜索空间尽可能低的成本进行覆盖，缩短搜索时间，降低搜索成本，并且实现更准确的搜索。

图2和图3是搜索配置参数值域的两种情况。

在图2的示意图中，第一轮迭代搜索时碰到了一个使***出错或故障的配置参数值，该值刚好是使***出现故障的上确界，即小于该配置参数值的值均能使***正常运行。在第二轮迭代搜索时，从该配置参数值的前一次配置参数值为起点，步长为初始步长的三分之一，进行逐步使***运行，直至配置参数值达到出错的配置参数值。接下来，重复第二轮迭代搜索操作。通过示意图可以看出，记录的配置参数值在逐步逼近出错的配置参数值，直至停止搜索，将最后一次记录的配置参数值作为该配置参数的一个边界。

在图3的示意图中，一轮迭代搜索时碰到了一个使***出错或故障的配置参数值，该值是使***出现故障的一个上界。在第二轮迭代搜索时，从该配置参数值的前一次配置参数值为起点，步长为初始步长的三分之一，进行逐步使***运行，直至配置参数值达到出错的配置参数值。此时，会获得一个新的使***故障的配置参数值。接下来，重复第二轮迭代搜索操作。通过示意图可以看出，记录的配置参数值在逐步逼近出错的配置参数值边界，每次迭代使***出错的配置参数值也在逐步逼近出错的配置参数值边界，两者之间的距离越来越短。

虽然上述两种情况不同，但是不影响确定配置参数值域的边界的准确性。并且，采用上述方式，总是以出错前一次的配置参数值为起点，缩短步长的方式进行搜索，相对现有技术能够明显缩短搜索时间，降低成本。

本发明不仅可以应用在大数据分析***中，在大数据存储、大数据资源调度等***中也可以使用，进行配置参数值域范围的确定。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本公开方法可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

一种准确快速确定大数据分析***的配置参数值域的方法，其特征在于，所述方法包括以下步骤：

S100、获取要确定值域范围的配置参数以及所述配置参数的缺省值，将缺省值作为配置参数的当前值；

S200、以配置参数的当前值为起点，判断是否停止搜索值域边界值；若不停止搜索值域边界值，执行步骤S300；否则，执行步骤S600；

S300、用步长当前值更新配置参数的当前值，使***在每一个配置参数的当前值下运行，直至找到使***出错的配置参数值；

S400、记录***出错的前一次的配置参数值为配置参数的当前值；

S500、将步长当前值乘以一个大于0小于1的数，将其结果作为新的步长当前值，返回步骤S200；

S600、将配置参数的当前值作为值域的一个边界。
根据权利要求1所述的方法，其特征在于，所述S300包括下述步骤：

S301、将配置参数的当前值加上步长当前值，将其结果作为新的配置参数的当前值；

S302、将配置参数的当前值写入并运行***；

S303、判断***是否能正常运行，若能运行正常，返回步骤S301；否则，执行步骤S400。
根据权利要求1所述的方法，其特征在于，所述S200通过下述方法来判断是否停止搜索值域边界值：

若步长当前值小于设定的步长最小值，则停止搜索值域边界值。
根据权利要求1所述的方法，其特征在于，所述方法还包括下述步骤：

S700、判断是否已完成值域范围的边界搜索；如果没有完成值域范围的边界搜索，则将步长初始值取相反数后赋值给步长参数，将缺省值作为配置参数的当前值；执行S200。
根据权利要求1所述的方法，其特征在于，所述步长初始值通过下述步骤确定：

S101、根据硬件***的配置，确定大数据分析***的配置参数值的大致范围；

S102、根据所述大致范围，设定步长初始值。