WO2023108486A1 - 一种准确快速确定大数据分析***的配置参数值域的方法 - Google Patents

一种准确快速确定大数据分析***的配置参数值域的方法 Download PDF

Info

Publication number
WO2023108486A1
WO2023108486A1 PCT/CN2021/138361 CN2021138361W WO2023108486A1 WO 2023108486 A1 WO2023108486 A1 WO 2023108486A1 CN 2021138361 W CN2021138361 W CN 2021138361W WO 2023108486 A1 WO2023108486 A1 WO 2023108486A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
configuration parameter
current value
range
step size
Prior art date
Application number
PCT/CN2021/138361
Other languages
English (en)
French (fr)
Inventor
辛锦瀚
喻之斌
陈超
黄世鑫
王峥
杨永魁
郭伟钰
Original Assignee
中国科学院深圳先进技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院深圳先进技术研究院 filed Critical 中国科学院深圳先进技术研究院
Priority to PCT/CN2021/138361 priority Critical patent/WO2023108486A1/zh
Publication of WO2023108486A1 publication Critical patent/WO2023108486A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Definitions

  • the present disclosure relates to the field of big data processing, in particular to a method for accurately and quickly determining the value range of configuration parameters of a big data analysis system.
  • configuration parameters configure the memory size that can be used by the program to run, and some parameters configure the number of CPU cores that can be used by a task, and other aspects.
  • the configuration parameter spark.executor.memory of Apache Spark an in-memory big data analysis engine, specifies the size of memory that each executor can use.
  • the default value of the above parameters is 1024MB, but the value range of these parameters is not provided (that is, the upper limit of the parameter value and the The lower limit), the unknown value range will cause difficulties for the reasonable setting of parameters, which is not conducive to the optimization of the configuration, and may even lead to errors in the operation of the big data analysis program.
  • the purpose of the present invention is to solve the following problem: the big data analysis engine only provides default values for numerical configuration parameters, but does not provide value ranges.
  • the present invention provides a method for accurately and quickly determining the value range of configuration parameters of a big data analysis system, which can quickly search for the boundaries of configuration parameters. The method comprises the steps of:
  • the previous configuration parameter value of the recording system error is the current value of the configuration parameter
  • step S500 Multiply the current value of the step size by a number greater than 0 and less than 1, use the result as a new current value of the step size, and return to step S200;
  • the S300 includes the following steps:
  • step S303 Determine whether the system can run normally, if it can run normally, return to step S301; otherwise, execute step S400.
  • the S200 judges whether to stop searching for the boundary value of the range by the following method:
  • the method further comprises the steps of:
  • step S700 Determine whether the boundary search of the value range has been completed; if not, assign the inverse of the initial value of the step size to the step size parameter, and use the default value as the current value of the configuration parameter; return to step S200.
  • the initial value of the step size is determined by the following steps:
  • the disclosed method is centered on the default value.
  • the error point is roughly found with a larger step size. long, gradually approaching the point of error, and so on repeatedly, so as to realize the accurate and fast search for the supremum and infimum of the configuration parameter value range.
  • Fig. 1 is a schematic flow chart of a method in an embodiment of the present invention
  • FIG. 2 is a schematic diagram of a search in an embodiment of the present invention
  • Fig. 3 is another schematic diagram of searching in the embodiment of the present invention.
  • the big data analysis engine only provides default values for numerical configuration parameters, but does not provide value ranges.
  • the method flow chart shown in Figure 1 is adopted, and the specific implementation steps are as follows:
  • the previous configuration parameter value of the recording system error is the current value of the configuration parameter
  • step S500 Multiply the current value of the step size by a number greater than 0 and less than 1, use the result as a new current value of the step size, and return to step S200;
  • the above method regards the problem of searching the range of configuration parameters as a problem of starting from a given position and quickly searching to the boundary.
  • the default value is given as the position.
  • the approximate range of values for these program configuration parameters is determined according to the configuration of the hardware system on which the big data analysis program depends. Determine the initial value of the step size based on the approximate range.
  • the default value can be used as the current value of the configuration parameter again, and the initial value of the step size is reversed and then assigned to the step size parameter to execute the above search process.
  • the configuration parameter value determined as the boundary if it is greater than the default value, it is used as the supremum of the configuration parameter value range set; otherwise, it is used as the infimum of the configuration parameter value range set.
  • the step size reduction can be realized by multiplying a number greater than 0 and less than 1, the number is preferably one-third, and other values can also be used.
  • the search space can be covered at the lowest possible cost, the search time can be shortened, the search cost can be reduced, and more accurate search can be achieved.
  • Figure 2 and Figure 3 are two cases of searching configuration parameter value ranges.
  • a configuration parameter value that causes system errors or failures is encountered during the first round of iterative search.
  • the system is functioning normally.
  • the step size is one-third of the initial step size, and the system is operated step by step until the configuration parameter value reaches the wrong configuration parameter value .
  • the recorded configuration parameter value is gradually approaching the wrong configuration parameter value until the search is stopped, and the last recorded configuration parameter value is taken as a boundary of the configuration parameter.
  • a configuration parameter value that causes the system to fail or fail is encountered during a round of iterative search, and this value is an upper bound that causes the system to fail.
  • the step size is one-third of the initial step size, and the system is operated step by step until the configuration parameter value reaches the wrong configuration parameter value .
  • a new configuration parameter value is obtained that causes the system to fail.
  • the search is always performed with the configuration parameter value before the error as the starting point and the step size is shortened, which can obviously shorten the search time and reduce the cost compared with the prior art.
  • the present invention can be applied not only in big data analysis systems, but also in big data storage, big data resource scheduling and other systems to determine the range of configuration parameter values.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种准确快速确定大数据分析***的配置参数值域的方法,用于快速确定配置参数的值域。首先,根据大数据分析程序所赖于运行的硬件***的配置确定这些程序配置参数取值的大致范围;第二,从参数的缺省值开始,以较大的步长游走,直至程序出错,记录出错前一次游走的配置参数值。第三,从前面记录的配置参数取值开始,以缩小的步长游走,直至程序出错,记录出错前一次游走的配置参数值。第四,再缩小步长,重复上一步的操作。直到步长小于设定的门槛值。将出错的前一次的配置参数值作为该配置参数的边界。

Description

一种准确快速确定大数据分析***的配置参数值域的方法 技术领域
本公开涉及大数据处理领域,具体涉及一种准确快速确定大数据分析***的配置参数值域的方法。
背景技术
大数据分析***中有许多的数值型配置参数,有的参数配置程序运行所能使用的内存大小,有的参数配置一个任务所能使用的CPU核的个数,以及其他一些方面。例如,内存大数据分析引擎Apache Spark的配置参数spark.executor.memory规定每个执行器(executor)所能使用的内存的大小。
目前广泛使用的大数据分析引擎如Spark和Flink等都提供了配置参数的缺省值,例如上述参数的缺省值为1024MB,但没有提供这些参数的值域(即参数值可以配置的上限与下限),值域的未知会为参数合理设定造成困难,不利于对配置优化,甚至会导致大数据分析程序的运行错误。
发明内容
本发明的目的在于解决下述问题:大数据分析引擎只为数值型配置参数提供了缺省值,而没有提供值域。本发明提供一种准确快速确定大数据分析***的配置参数值域的方法,能够快速搜索到配置参数的边界。所述方法包括以下步骤:
S100、获取要确定值域范围的配置参数以及所述配置参数的缺省值,将缺省值作为配置参数的当前值;
S200、以配置参数的当前值为起点,判断是否停止搜索值域边界值;若不停止搜索值域边界值,执行步骤S300;否则,执行步骤S600;
S300、用步长当前值更新配置参数的当前值,使***在每一个配置参数的当前值下运行,直至找到使***出错的配置参数值;
S400、记录***出错的前一次的配置参数值为配置参数的当前值;
S500、将步长当前值乘以一个大于0小于1的数,将其结果作为新的步长当前值,返回步骤S200;
S600、将配置参数的当前值作为值域的一个边界。
优选地,在所述方法中,所述S300包括下述步骤:
S301、将配置参数的当前值加上步长当前值,将其结果作为新的配置参数的当前值;
S302、将配置参数的当前值写入并运行***;
S303、判断***是否能正常运行,若能运行正常,返回步骤S301;否则,执行步骤S400。
优选地,在所述方法中,所述S200通过下述方法来判断是否停止搜索值域边界值:
若步长当前值小于设定的步长最小值,则停止搜索值域边界值。
优选地,在所述方法中,所述方法还包括下述步骤:
S700、判断是否已完成值域范围的边界搜索;如果没有完成,则将步长初始值取相反数后赋值给步长参数,将缺省值作为配置参数的当前值;返回步骤S200。
优选地,在所述方法中,所述步长初始值通过下述步骤确定:
S101、根据硬件***的配置,确定大数据分析***的配置参数值的大致范围;
S102、根据所述大致范围,设定步长初始值。
与现有技术相比:
本公开方法以默认值为中心,在确定大致配置参数值域范围的情况下,先以较大的步长粗略地找到出错的点,再次搜索时以出错的点的前一次为起点,缩小步长,逐渐逼近出错的点,如此反复,以实现准确快速地搜索到配置参数值域范围的上确界和下确界。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一个方法流程示意图;
图2是本发明实施例中的一种搜索示意图;
图3是本发明实施例中的另一种搜索示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书的术语“包括”和“具有”以及 他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或设备的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或设备,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或设备。
为使本申请的目的、技术方案和优点更加清楚,下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
在一个实施例中,大数据分析引擎只为数值型配置参数提供了缺省值,而没有提供值域。为了快速确定配置参数的值域,采用如图1所示的方法流程图,具体实施步骤如下:
S100、获取要确定值域范围的配置参数以及所述配置参数的缺省值,将缺省值作为配置参数的当前值;
S200、以配置参数的当前值为起点,判断是否停止搜索值域边界值;若不停止搜索值域边界值,执行步骤S300;否则,执行步骤S600;
S300、用步长当前值更新配置参数的当前值,使***在每一个配置参数的当前值下运行,直至找到使***出错的配置参数值;
S400、记录***出错的前一次的配置参数值为配置参数的当前值;
S500、将步长当前值乘以一个大于0小于1的数,将其结果作为新的步长当前值,返回步骤S200;
S600、将配置参数的当前值作为值域的一个边界。
上述方法将搜索配置参数值域的问题视为从一个给定位置开始,快速搜索到边界的问题。在该方法中,将缺省值作为给定位置。根据 大数据分析程序所赖于运行的硬件***的配置确定这些程序配置参数取值的大致范围。根据大致范围确定步长初始值。接下来,从配置参数的缺省值开始,以步长初始值作为步长当前值,将配置参数的当前值加上步长当前值,将其结果作为新的配置参数的当前值,将配置参数的当前值写入***,让大数据分析程序在配置参数的当前值下运行,直至程序出错,记录出错前一次的配置参数值。然后,从记录的配置参数值开始,将步长缩小后,重复上一步操作,直至程序出错,记录出错前一次的配置参数值。如此反复一定的次数,直到步长小于设定的步长最小值,则停止搜索值域边界值,并将最后一次出错的前一次配置参数值作为该配置参数的一个边界。
对于值域的另一个边界,可以将缺省值重新作为配置参数的当前值,将步长初始值取相反数后赋值给步长参数,执行上述搜索过程。对于确定为边界的配置参数值,若其大于所述缺省值,则将其作为配置参数值域集合的上确界;否则,则将其作为配置参数值域集合的下确界。
在上述过程中,步长缩小,可以通过乘以一个大于0小于1的数实现,该数优选为三分之一,也可以采用其它值。通过这种方式,可以将搜索空间尽可能低的成本进行覆盖,缩短搜索时间,降低搜索成本,并且实现更准确的搜索。
图2和图3是搜索配置参数值域的两种情况。
在图2的示意图中,第一轮迭代搜索时碰到了一个使***出错或故障的配置参数值,该值刚好是使***出现故障的上确界,即小于该 配置参数值的值均能使***正常运行。在第二轮迭代搜索时,从该配置参数值的前一次配置参数值为起点,步长为初始步长的三分之一,进行逐步使***运行,直至配置参数值达到出错的配置参数值。接下来,重复第二轮迭代搜索操作。通过示意图可以看出,记录的配置参数值在逐步逼近出错的配置参数值,直至停止搜索,将最后一次记录的配置参数值作为该配置参数的一个边界。
在图3的示意图中,一轮迭代搜索时碰到了一个使***出错或故障的配置参数值,该值是使***出现故障的一个上界。在第二轮迭代搜索时,从该配置参数值的前一次配置参数值为起点,步长为初始步长的三分之一,进行逐步使***运行,直至配置参数值达到出错的配置参数值。此时,会获得一个新的使***故障的配置参数值。接下来,重复第二轮迭代搜索操作。通过示意图可以看出,记录的配置参数值在逐步逼近出错的配置参数值边界,每次迭代使***出错的配置参数值也在逐步逼近出错的配置参数值边界,两者之间的距离越来越短。
虽然上述两种情况不同,但是不影响确定配置参数值域的边界的准确性。并且,采用上述方式,总是以出错前一次的配置参数值为起点,缩短步长的方式进行搜索,相对现有技术能够明显缩短搜索时间,降低成本。
本发明不仅可以应用在大数据分析***中,在大数据存储、大数据资源调度等***中也可以使用,进行配置参数值域范围的确定。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本公开方法可借助软件加必需的通用硬件的方式来实现,当然也 可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本公开而言更多情况下,软件程序实现是更佳的实施方式。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (5)

  1. 一种准确快速确定大数据分析***的配置参数值域的方法,其特征在于,所述方法包括以下步骤:
    S100、获取要确定值域范围的配置参数以及所述配置参数的缺省值,将缺省值作为配置参数的当前值;
    S200、以配置参数的当前值为起点,判断是否停止搜索值域边界值;若不停止搜索值域边界值,执行步骤S300;否则,执行步骤S600;
    S300、用步长当前值更新配置参数的当前值,使***在每一个配置参数的当前值下运行,直至找到使***出错的配置参数值;
    S400、记录***出错的前一次的配置参数值为配置参数的当前值;
    S500、将步长当前值乘以一个大于0小于1的数,将其结果作为新的步长当前值,返回步骤S200;
    S600、将配置参数的当前值作为值域的一个边界。
  2. 根据权利要求1所述的方法,其特征在于,所述S300包括下述步骤:
    S301、将配置参数的当前值加上步长当前值,将其结果作为新的配置参数的当前值;
    S302、将配置参数的当前值写入并运行***;
    S303、判断***是否能正常运行,若能运行正常,返回步骤S301;否则,执行步骤S400。
  3. 根据权利要求1所述的方法,其特征在于,所述S200通过下述方法来判断是否停止搜索值域边界值:
    若步长当前值小于设定的步长最小值,则停止搜索值域边界值。
  4. 根据权利要求1所述的方法,其特征在于,所述方法还包括下述步骤:
    S700、判断是否已完成值域范围的边界搜索;如果没有完成值域范围的边界搜索,则将步长初始值取相反数后赋值给步长参数,将缺省值作为配置参数的当前值;执行S200。
  5. 根据权利要求1所述的方法,其特征在于,所述步长初始值通过下述步骤确定:
    S101、根据硬件***的配置,确定大数据分析***的配置参数值的大致范围;
    S102、根据所述大致范围,设定步长初始值。
PCT/CN2021/138361 2021-12-15 2021-12-15 一种准确快速确定大数据分析***的配置参数值域的方法 WO2023108486A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/138361 WO2023108486A1 (zh) 2021-12-15 2021-12-15 一种准确快速确定大数据分析***的配置参数值域的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/138361 WO2023108486A1 (zh) 2021-12-15 2021-12-15 一种准确快速确定大数据分析***的配置参数值域的方法

Publications (1)

Publication Number Publication Date
WO2023108486A1 true WO2023108486A1 (zh) 2023-06-22

Family

ID=86775019

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/138361 WO2023108486A1 (zh) 2021-12-15 2021-12-15 一种准确快速确定大数据分析***的配置参数值域的方法

Country Status (1)

Country Link
WO (1) WO2023108486A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080123208A1 (en) * 2006-11-27 2008-05-29 Hon Hai Precision Industry Co., Ltd. Method for optimizing parameter of information storage apparatus
CN101355404A (zh) * 2008-09-04 2009-01-28 中兴通讯股份有限公司 一种优化调整发射机参数的装置和方法
CN102819651A (zh) * 2012-08-20 2012-12-12 西北工业大学 基于仿真的单晶涡轮叶片精铸工艺参数优化方法
CN102957399A (zh) * 2011-08-24 2013-03-06 上海山景集成电路技术有限公司 参数均衡器的自动参数优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080123208A1 (en) * 2006-11-27 2008-05-29 Hon Hai Precision Industry Co., Ltd. Method for optimizing parameter of information storage apparatus
CN101355404A (zh) * 2008-09-04 2009-01-28 中兴通讯股份有限公司 一种优化调整发射机参数的装置和方法
CN102957399A (zh) * 2011-08-24 2013-03-06 上海山景集成电路技术有限公司 参数均衡器的自动参数优化方法
CN102819651A (zh) * 2012-08-20 2012-12-12 西北工业大学 基于仿真的单晶涡轮叶片精铸工艺参数优化方法

Similar Documents

Publication Publication Date Title
US20220050949A1 (en) Layout method of a chip and electronic equipment
WO2017124713A1 (zh) 一种数据模型的确定方法及装置
WO2021169473A1 (zh) 模型性能优化方法、装置、设备及存储介质
CN109815141B (zh) 一种测试方法和装置
EP3605366A1 (en) Method and apparatus thereof used in engineering for checking deduction of components in bim modeling
WO2020006878A1 (zh) 语音识别测试方法、装置、计算机设备及存储介质
WO2020237508A1 (zh) 一种断言验证代码绑定方法及装置
WO2018120720A1 (zh) 客户端程序的测试错误定位方法、电子装置及存储介质
CN113536611B (zh) 基于离散仿真的自主式交通***架构正确性的检查方法
WO2021169844A1 (zh) 神经网络模型的转换方法、模型精度定位方法及装置
WO2020233065A1 (zh) 网络环境测试方法、装置及终端设备
WO2023108486A1 (zh) 一种准确快速确定大数据分析***的配置参数值域的方法
CN109660393B (zh) 一种云主机规格的更新方法及其装置
JP2019091144A (ja) シミュレーション装置、シミュレーションシステム、シミュレーション方法及びシミュレーションプログラム
CN115587545A (zh) 一种用于光刻胶的参数优化方法、装置、设备及存储介质
JP6649731B2 (ja) Fpgaからリードバックするための信号の特定
CN111177014B (zh) 软件自动测试方法、***及存储介质
KR102216281B1 (ko) 딥 러닝 칩을 검출하는 방법, 장치, 전자 기기 및 컴퓨터 저장 매체
US11023357B1 (en) Method and system for sequential equivalence checking
CN114416193A (zh) 一种准确快速确定大数据分析***的配置参数值域的方法
CN115658242B (zh) 逻辑***设计的任务处理方法及电子设备
US8732535B2 (en) Method of detection of erroneous memory usage
CN114116291B (zh) 日志检测方法、日志检测装置、计算机设备及存储介质
CN114253618B (zh) 基于不同厂商的bios修改方法、装置、计算机设备及存储介质
CN113626494B (zh) 基于自适应控制的数据多维维度分析的方法及***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21967623

Country of ref document: EP

Kind code of ref document: A1