CN106648654A - 一种数据感知的Spark配置参数自动优化方法 - Google Patents

一种数据感知的Spark配置参数自动优化方法 Download PDF

Info

Publication number
CN106648654A
CN106648654A CN201611182310.5A CN201611182310A CN106648654A CN 106648654 A CN106648654 A CN 106648654A CN 201611182310 A CN201611182310 A CN 201611182310A CN 106648654 A CN106648654 A CN 106648654A
Authority
CN
China
Prior art keywords
parameter
spark
data
configuration
configuration parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611182310.5A
Other languages
English (en)
Inventor
罗妮
喻之斌
贝振东
姜春涛
须成忠
熊文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201611182310.5A priority Critical patent/CN106648654A/zh
Publication of CN106648654A publication Critical patent/CN106648654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于电子信息、大数据、云计算等技术领域,特别涉及本一种数据感知的Spark配置参数自动优化方法,通过事先确定Spark应用程序以及影响Spark性能的参数,随机配置参数得到训练集,将训练集通过随机森林算法构建性能模型,通过遗传算法搜索出最优配置参数。本发明不要求用户理解Spark运行机制、参数意义作用和取值范围,以及应用程序特点和输入集的情况下,能为用户找到运行在特定集群环境下特定应用程序的最优配置参数,较之以前的参数配置方法更简单快捷本发明使用的随机森林算法结合了机器学习和统计推理的长处,能够使用较少训练集,达到较高精度。

Description

一种数据感知的Spark配置参数自动优化方法
技术领域
本发明属于电子信息、大数据、云计算等技术领域,特别涉及一种数据感知的Spark配置参数自动优化方法。
背景技术
Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce通用并行框架。它发展迅速,仅用了短短五年时间,就成为Apache基金的顶级项目。由于Spark具有将中间结果存储在内存中的特点,Spark运行迭代和交互式程序比传统的磁盘计算框架Hadoop提高了10倍。由于Spark在大数据分析领域具有重要地位,根据Typesafe公司的调查,2015年已有超过500家企业使用Spark。
配置参数优化一直是大数据***的研究热点之一,由于配置参数众多(多于100个),性能受配置参数影响很大,应用程序具有不同特点。因此使用默认配置远未达到最佳性能。Spark是一种新兴的大数据内存计算框架,由于Spark具有“内存计算”的特性,集群中的所有资源:CPU、网络带宽、内存,都会成为制约Spark程序的瓶颈。而不同的Spark应用程序又具有不同特点,比如Kmeans指令局部性好但数据局部性差,PageRank的shuffle和迭代选择都比KMeans多,WordCount不包含迭代等等。本发明要解决的问题是对特定的集群环境、输入数据集和应用程序,为自动Spark找到最优的配置参数。
基于随机森林的Hadoop参数自动优化方法RFHOC(A Random-Forest Approach toAuto-Tuning Hadoop’s Configuration,简称RFHOC)是一种针对运行在一个给定集群上的应用程序的配置参数优化方法,主要分为三个步骤:
1.性能测试
2.构建性能模型
3.迭代搜索最优配置
当用户第一次运行一个Hadoop应用程序时,RFHOC workload profiler收集运行时Hadoop的配置参数和MapReduce阶段的执行时间。随后,不同阶段的执行时间和对应的配置参数将作为随机森林算法的输入用于构建性能预测模型。RFHOC为map和reduce阶段分别构建回归模型用于预测各个阶段的性能。首先每个阶段要产生一个训练集S,S的每一行为向量vj,vj包含了每次执行时间和对应的Hadoop配置参数值。建好性能模型后,RFHOC运用遗传算法搜索Hadoop最优参数。遗传算法使用随机森林模型预测的性能和对应的配置作为输入做全局搜索。Map和reduce阶段的执行时间相加为程序运行的总时间,也是遗传算法的适应值。
现有技术是手动配置参数和自动配置参数。手动配置参数方法弊端在于太耗时,而且要求用户对Spark的运行机制、参数的意义,作用和取值范围具有较深的了解。用户需要手动增大或减少Spark参数值,然后配置Spark,运行应用程序,找到使执行时间最短的参数值。由于不同集群环境、不同应用程序、和不同输入数据集的最优配置参数不同,手动配置参数方法是一个耗时、枯燥的工作。
现有的自动配置参数方法缺点在于性能模型精度低、建模成本高。有些方法用人工神经网络(Artificial Neural Network)、支持向量机(Support Vector Machine)建模,但是若要达到较高精度(10%以内),需要使用很庞大的训练集。
发明内容
基于上述情况,有必要提供了一种数据感知的Spark配置参数自动优化方法。
一种数据感知的Spark配置参数自动优化方法,包括如下步骤:
收集数据;所述收集数据具体包括:选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;所述数据包括但不限于:Spark运行时间、输入数据集、配置参数值;
构建性能模型;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;
搜索最优配置参数;使用构建好的性能模型,通过遗传算法搜索最优配置参数。
进一步的,在所述搜索最优配置参数步骤之后还包括一验证步骤,所述验证步骤为将搜索到的最优配置参数进行配置Spark,并运行验证执行时间是否为最短。
更进一步的,在收集数据步骤中所述随机生成参数为:假设参数s取值范围是[a,b],在该取值范围内统一、均匀、随机地取值c,a≦c≦b,则产生一条记录“s/tc”(/t是一个制表符),按照这个方法,生成其他配置参数。
作为一种改进,所述通过随机森林算法对上述训练集进行建模具体包括如下步骤:
随机森林算法从给定的训练集通过多次随机的可重复的采样得到多个bootstrap数据集;
对每个bootstrap数据集构造一棵决策树,构造是通过迭代的将数据点分到左右两个子集中实现的,这个分割过程是一个搜索分割函数的参数空间以寻求最大信息增量意义下最佳参数的过程;
在每个叶节点处通过统计训练集中达到此叶节点的分类标签的直方图经验的估计此叶节点上的类分布;
迭代训练过程一直执行到用户设定的最大树深度或者直到不能通过继续分割获取更大的信息增益为止;
在随机森林算法中,执行时间作为因变量,输入集和配置参数作为自变量,还需要确定ntree和mtry值,ntree值是随机森林中建立的决策树数量,mtry值是决策树在每一个***节点处样本预测器的个数。
作为进一步改进,所述通过遗传算法搜索最优配置参数具体为:
把一组向量{c1,…,cm}设为初始配置参数值输入性能模型,模型输出执行时间t1,再变化初始值,输入性能模型,模型输出执行时间t2,t2与t1做比较,时间较短所对应的配置参数作为最优配置,再重复以上步骤,直至找到执行时间最短的配置。
具体的,所述随机森林算法如下所示:
输入:训练集S,引导函数F,整数ntree(bootstrap样本数)
1.for i=1to ntree{
2.S’=从S中抽取bootstrap样本(独立同分布样本,有放回抽取)
3.Ci=F(S’)
4.}
5.
输出:聚合C*。
本发明提供了一种数据感知的Spark配置参数自动优化方法,通过事先确定Spark应用程序以及影响Spark性能的参数,随机配置参数得到训练集,将训练集通过随机森林算法构建性能模型,通过遗传算法搜索出最优配置参数。本发明不要求用户理解Spark运行机制、参数意义作用和取值范围,以及应用程序特点和输入集的情况下,能为用户找到运行在特定集群环境下特定应用程序的最优配置参数,较之以前的参数配置方法更简单快捷本发明使用的随机森林算法结合了机器学习和统计推理的长处,能够使用较少训练集,达到较高精度。
附图说明
图1为本发明一种数据感知的Spark配置参数自动优化方法整体流程示意图;
图2为本发明一种数据感知的Spark配置参数自动优化方法中遗传算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1-2所示,一种数据感知的Spark配置参数自动优化方法,包括如下三大步骤:
1)收集数据;所述收集数据包括四个小步骤,如下所示:
(1)从Spark所有参数中找到影响性能的参数;
(2)确定参数的取值范围;
(3)选择应用程序的输入集;
(4)在确定的取值范围内随机变化参数,配置Spark,运行不同输入数据集的应用程序,收集到的数据作为训练集;
在收集数据(Collecting)阶段,上述四小步骤具体可以表述为:选定实验用的Spark应用程序,比较常用的是HiBench基准测试程序,HiBench包含了图计算、机器学习、非迭代式应用程序,从中选取若干代表性的程序,如KMeans、Bayesian、PageRank、WordCount、TeraSort,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,每个应用程序选择若干输入集,Conf Generator是配置参数生成器,使用Conf Generator来产生配置文件,配置文件包含随机生成的参数,配置后运行应用程序并收集数据;所述数据包括但不限于:Spark运行时间、输入数据集、配置参数值。
在收集数据步骤中所述随机生成参数具体通过如下方式产生:假设参数s取值范围是[a,b],在该取值范围内统一、均匀、随机地取值c,a≦c≦b,则产生一条记录“s/tc”(/t是一个制表符),按照这个方法,生成其他配置参数。
2)构建性能模型;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模。
具体的,随机森林算法对上述训练集进行建模具体包括从给定的训练集通过多次随机的可重复的采样得到多个bootstrap数据集;对每个bootstrap数据集构造一棵决策树,构造是通过迭代的将数据点分到左右两个子集中实现的,这个分割过程是一个搜索分割函数的参数空间以寻求最大信息增量意义下最佳参数的过程;在每个叶节点处通过统计训练集中达到此叶节点的分类标签的直方图经验的估计此叶节点上的类分布;迭代训练过程一直执行到用户设定的最大树深度或者直到不能通过继续分割获取更大的信息增益为止;在随机森林算法中,执行时间作为因变量,输入集和配置参数作为自变量,还需要确定ntree和mtry值,ntree值是随机森林中建立的决策树数量,mtry值是决策树在每一个***节点处样本预测器的个数。
其中,所述随机森林算法具体如下所示:
输入:训练集S,引导函数F,整数ntree(bootstrap样本数)
1.for i=1to ntree{
2.S’=从S中抽取bootstrap样本(独立同分布样本,有放回抽取)
3.Ci=F(S’)
4.}
5.
输出:聚合C*。
本发明用机器学习中的集成算法——随机森林建模;机器学习相较于传统的统计学习方法,具有能够组织和拟合参数,能够处理更大的数据集的优势;随机森林相比于其他机器算法,能解决过拟合问题,处理特征较多(高维)情况等等效果。
3)搜索最优配置参数;使用构建好的性能模型,通过遗传算法搜索最优配置参数。具体的做法是把一组向量{c1,…,cm}设为初始配置参数值输入性能模型,模型输出执行时间t1,再变化初始值,输入性能模型,模型输出执行时间t2,t2与t1做比较,时间较短所对应的配置参数作为最优配置,再重复以上步骤,直至找到执行时间最短的配置。
遗传算法相比于其他优化算法,如穷举法、贪心法、模拟退火算法、蚁群算法,具有良好的全局搜索能力,可以快速地将解空间中的全体解搜索出,而不会陷入局部最优解的快速下降陷阱;搜索从群体出发,具有潜在的并行性,可以进行多个个体的比较;搜索过程简单,使用评价函数启发;使用概率机制进行迭代,具有随机性等优点。
最后,作为一种优选方式,在所述搜索最优配置参数步骤之后还包括一验证步骤,所述验证步骤为将搜索到的最优配置参数进行配置Spark,并运行验证执行时间是否为最短。
本发明提供了一种数据感知的Spark配置参数自动优化方法,通过事先确定Spark应用程序以及影响Spark性能的参数,随机配置参数得到训练集,将训练集通过随机森林算法构建性能模型,通过遗传算法搜索出最优配置参数。本发明不要求用户理解Spark运行机制、参数意义作用和取值范围,以及应用程序特点和输入集的情况下,能为用户找到运行在特定集群环境下特定应用程序的最优配置参数,较之以前的参数配置方法更简单快捷本发明使用的随机森林算法结合了机器学习和统计推理的长处,能够使用较少训练集,达到较高精度。本发明可以为任意输入数据集寻找最优配置参数,由于在实际情况下用户在运行应用程序时,输入集是任意变化的,考虑到了实际应用情况。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种数据感知的Spark配置参数自动优化方法,其特征在于,包括如下步骤:
收集数据;所述收集数据具体包括:选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;所述数据包括但不限于:Spark运行时间、输入数据集、配置参数值;
构建性能模型;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;
搜索最优配置参数;使用构建好的性能模型,通过遗传算法搜索最优配置参数。
2.如权利要求1所述的数据感知的Spark配置参数自动优化方法,其特征在于,在所述搜索最优配置参数步骤之后还包括一验证步骤,所述验证步骤为将搜索到的最优配置参数进行配置Spark,并运行验证执行时间是否为最短。
3.如权利要求2所述的数据感知的Spark配置参数自动优化方法,其特征在于,在收集数据中所述随机生成参数步骤为:假设参数s取值范围是[a,b],在该取值范围内统一、均匀、随机地取值c,a≦c≦b,则产生一条记录“s/tc”(/t是一个制表符),按照这个方法,生成其他配置参数。
4.如权利要求3所述的数据感知的Spark配置参数自动优化方法,其特征在于,所述通过随机森林算法对上述训练集进行建模具体包括如下步骤:
随机森林算法从给定的训练集通过多次随机的可重复的采样得到多个bootstrap数据集;
对每个bootstrap数据集构造一棵决策树,构造是通过迭代的将数据点分到左右两个子集中实现的,分割过程是一个搜索分割函数的参数空间以寻求最大信息增量意义下最佳参数的过程;
在每个叶节点处通过统计训练集中达到此叶节点的分类标签的直方图经验的估计此叶节点上的类分布;迭代训练过程一直执行到用户设定的最大树深度或者直到不能通过继续分割获取更大的信息增益为止;
在随机森林算法中,执行时间作为因变量,输入集和配置参数作为自变量,还需要确定ntree和mtry值,ntree值是随机森林中建立的决策树数量,mtry值是决策树在每一个***节点处样本预测器的个数。
5.如权利要求4所述的数据感知的Spark配置参数自动优化方法,其特征在于,所述通过遗传算法搜索最优配置参数具体为:
把一组向量{c1,…,cm}设为初始配置参数值输入性能模型,模型输出执行时间t1,再变化初始值,输入性能模型,模型输出执行时间t2,t2与t1做比较,时间较短所对应的配置参数作为最优配置,再重复以上步骤,直至找到执行时间最短的配置。
6.如权利要求4所述的数据感知的Spark配置参数自动优化方法,其特征在于,所述随机森林算法具体如下所示:
输入:训练集S,引导函数F,整数ntree(bootstrap样本数)
for i=1 to ntree{
S’=从S中抽取bootstrap样本(独立同分布样本,有放回抽取)
Ci=F(S’)
}
C * ( x ) = arg y ∈ Y Σ i = 1 n t r e e C i ( x ) / n t r e e
输出:聚合C*。
CN201611182310.5A 2016-12-20 2016-12-20 一种数据感知的Spark配置参数自动优化方法 Pending CN106648654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611182310.5A CN106648654A (zh) 2016-12-20 2016-12-20 一种数据感知的Spark配置参数自动优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611182310.5A CN106648654A (zh) 2016-12-20 2016-12-20 一种数据感知的Spark配置参数自动优化方法

Publications (1)

Publication Number Publication Date
CN106648654A true CN106648654A (zh) 2017-05-10

Family

ID=58833824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611182310.5A Pending CN106648654A (zh) 2016-12-20 2016-12-20 一种数据感知的Spark配置参数自动优化方法

Country Status (1)

Country Link
CN (1) CN106648654A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229693A (zh) * 2017-05-22 2017-10-03 哈工大大数据产业有限公司 基于深度学习的大数据***配置参数调优的方法和***
CN107390754A (zh) * 2017-08-29 2017-11-24 贵州省岚林阳环保能源科技有限责任公司 基于物联网云平台的智能植物生长环境调节***与方法
CN107390753A (zh) * 2017-08-29 2017-11-24 贵州省岚林阳环保能源科技有限责任公司 基于物联网云平台的智能植物生长环境调节装置与方法
CN108255689A (zh) * 2018-01-11 2018-07-06 哈尔滨工业大学 一种基于历史任务分析的Apache Spark应用自动化调优方法
CN108491226A (zh) * 2018-02-05 2018-09-04 西安电子科技大学 基于集群缩放的Spark配置参数自动调优方法
CN109035178A (zh) * 2018-08-31 2018-12-18 杭州电子科技大学 一种应用于图像去噪的多参数取值调优方法
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
WO2019061187A1 (zh) * 2017-09-28 2019-04-04 深圳乐信软件技术有限公司 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
CN109634924A (zh) * 2018-11-02 2019-04-16 华南师范大学 基于机器学习的文件***参数自动调优方法及***
CN109947745A (zh) * 2019-03-28 2019-06-28 浪潮商用机器有限公司 一种数据库优化方法及装置
CN110059842A (zh) * 2018-01-19 2019-07-26 武汉十傅科技有限公司 一种考虑熔炉和砂型大小的铸造车间生产计划优化方法
CN110413313A (zh) * 2019-07-19 2019-11-05 苏州浪潮智能科技有限公司 一种Spark应用的参数优选方法及装置
CN110427263A (zh) * 2018-04-28 2019-11-08 深圳先进技术研究院 一种面向Docker容器的Spark大数据应用程序性能建模方法、设备及存储设备
CN110427356A (zh) * 2018-04-26 2019-11-08 中移(苏州)软件技术有限公司 一种参数配置方法和设备
CN110727506A (zh) * 2019-10-18 2020-01-24 北京航空航天大学 一种基于成本模型的spark参数自动调优方法
CN110798314A (zh) * 2019-11-01 2020-02-14 南京邮电大学 一种基于随机森林算法的量子密钥分发参数优化方法
CN111176832A (zh) * 2019-12-06 2020-05-19 重庆邮电大学 基于内存计算框架Spark的性能优化和参数配置方法
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及***
CN111461286A (zh) * 2020-01-15 2020-07-28 华中科技大学 基于进化神经网络的Spark参数自动优化***和方法
CN111629048A (zh) * 2020-05-22 2020-09-04 浪潮电子信息产业股份有限公司 spark集群最优配置参数确定方法、装置及设备
CN112433853A (zh) * 2020-11-30 2021-03-02 西安交通大学 一种面向超级计算机数据并行应用的异构感知数据划分方法
CN112445746A (zh) * 2019-09-04 2021-03-05 中国科学院深圳先进技术研究院 一种基于机器学习的集群配置自动优化方法和***
CN112488319A (zh) * 2019-09-12 2021-03-12 中国科学院深圳先进技术研究院 一种具有自适应配置生成器的调参方法和***
CN113032033A (zh) * 2019-12-05 2021-06-25 中国科学院深圳先进技术研究院 一种大数据处理平台配置的自动优化方法
CN113157538A (zh) * 2021-02-02 2021-07-23 西安天和防务技术股份有限公司 Spark运行参数的确定方法、装置、设备和存储介质
CN113204539A (zh) * 2021-05-12 2021-08-03 南京大学 一种融合***语义的大数据***参数自动优化方法
CN113574475A (zh) * 2019-03-15 2021-10-29 3M创新有限公司 确定用于控制环境的因果模型
CN113743425A (zh) * 2020-05-27 2021-12-03 北京沃东天骏信息技术有限公司 一种生成分类模型的方法和装置
CN114416193A (zh) * 2021-12-15 2022-04-29 中国科学院深圳先进技术研究院 一种准确快速确定大数据分析***的配置参数值域的方法
CN114489574A (zh) * 2020-11-12 2022-05-13 深圳先进技术研究院 一种基于svm的流处理框架的自动调优方法
CN114565001A (zh) * 2020-11-27 2022-05-31 深圳先进技术研究院 一种基于随机森林的图数据处理框架自动调优方法
CN114880108A (zh) * 2021-12-15 2022-08-09 中国科学院深圳先进技术研究院 基于cpu-gpu异构架构的性能分析方法、设备以及存储介质
CN116089022A (zh) * 2023-04-11 2023-05-09 广州嘉为科技有限公司 一种日志搜索引擎的参数配置调整方法、***及存储介质
CN116401451A (zh) * 2023-03-31 2023-07-07 厦门海晟融创信息技术有限公司 一种融合多维度策略体系构建的流程分析方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389585A (zh) * 2015-10-20 2016-03-09 深圳大学 一种基于张量分解的随机森林优化方法及***
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105868019A (zh) * 2016-02-01 2016-08-17 中国科学院大学 一种Spark平台性能自动优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389585A (zh) * 2015-10-20 2016-03-09 深圳大学 一种基于张量分解的随机森林优化方法及***
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105868019A (zh) * 2016-02-01 2016-08-17 中国科学院大学 一种Spark平台性能自动优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾霞霞 等: ""一种基于随机森林的头部位姿估计算法"", 《福建师范大学学报(自然科学版)》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229693A (zh) * 2017-05-22 2017-10-03 哈工大大数据产业有限公司 基于深度学习的大数据***配置参数调优的方法和***
CN107229693B (zh) * 2017-05-22 2018-05-01 哈工大大数据产业有限公司 基于深度学习的大数据***配置参数调优的方法和***
CN107390754A (zh) * 2017-08-29 2017-11-24 贵州省岚林阳环保能源科技有限责任公司 基于物联网云平台的智能植物生长环境调节***与方法
CN107390753A (zh) * 2017-08-29 2017-11-24 贵州省岚林阳环保能源科技有限责任公司 基于物联网云平台的智能植物生长环境调节装置与方法
CN107390754B (zh) * 2017-08-29 2019-07-30 贵州省岚林阳环保能源科技有限责任公司 基于物联网云平台的智能植物生长环境调节***与方法
WO2019061187A1 (zh) * 2017-09-28 2019-04-04 深圳乐信软件技术有限公司 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
CN108255689A (zh) * 2018-01-11 2018-07-06 哈尔滨工业大学 一种基于历史任务分析的Apache Spark应用自动化调优方法
CN108255689B (zh) * 2018-01-11 2021-02-12 哈尔滨工业大学 一种基于历史任务分析的Apache Spark应用自动化调优方法
CN110059842A (zh) * 2018-01-19 2019-07-26 武汉十傅科技有限公司 一种考虑熔炉和砂型大小的铸造车间生产计划优化方法
CN108491226A (zh) * 2018-02-05 2018-09-04 西安电子科技大学 基于集群缩放的Spark配置参数自动调优方法
CN108491226B (zh) * 2018-02-05 2021-03-23 西安电子科技大学 基于集群缩放的Spark配置参数自动调优方法
CN110427356A (zh) * 2018-04-26 2019-11-08 中移(苏州)软件技术有限公司 一种参数配置方法和设备
CN110427356B (zh) * 2018-04-26 2021-08-13 中移(苏州)软件技术有限公司 一种参数配置方法和设备
CN110427263A (zh) * 2018-04-28 2019-11-08 深圳先进技术研究院 一种面向Docker容器的Spark大数据应用程序性能建模方法、设备及存储设备
CN110427263B (zh) * 2018-04-28 2024-03-19 深圳先进技术研究院 一种面向Docker容器的Spark大数据应用程序性能建模方法、设备及存储设备
CN109035178A (zh) * 2018-08-31 2018-12-18 杭州电子科技大学 一种应用于图像去噪的多参数取值调优方法
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109634924A (zh) * 2018-11-02 2019-04-16 华南师范大学 基于机器学习的文件***参数自动调优方法及***
CN109634924B (zh) * 2018-11-02 2022-12-20 华南师范大学 基于机器学习的文件***参数自动调优方法及***
CN113574475A (zh) * 2019-03-15 2021-10-29 3M创新有限公司 确定用于控制环境的因果模型
CN109947745A (zh) * 2019-03-28 2019-06-28 浪潮商用机器有限公司 一种数据库优化方法及装置
CN110413313A (zh) * 2019-07-19 2019-11-05 苏州浪潮智能科技有限公司 一种Spark应用的参数优选方法及装置
CN110413313B (zh) * 2019-07-19 2023-05-23 苏州浪潮智能科技有限公司 一种Spark应用的参数优选方法及装置
CN112445746B (zh) * 2019-09-04 2024-06-04 中国科学院深圳先进技术研究院 一种基于机器学习的集群配置自动优化方法和***
CN112445746A (zh) * 2019-09-04 2021-03-05 中国科学院深圳先进技术研究院 一种基于机器学习的集群配置自动优化方法和***
CN112488319B (zh) * 2019-09-12 2024-04-19 中国科学院深圳先进技术研究院 一种具有自适应配置生成器的调参方法和***
CN112488319A (zh) * 2019-09-12 2021-03-12 中国科学院深圳先进技术研究院 一种具有自适应配置生成器的调参方法和***
CN110727506B (zh) * 2019-10-18 2022-07-01 北京航空航天大学 一种基于成本模型的spark参数自动调优方法
CN110727506A (zh) * 2019-10-18 2020-01-24 北京航空航天大学 一种基于成本模型的spark参数自动调优方法
CN110798314A (zh) * 2019-11-01 2020-02-14 南京邮电大学 一种基于随机森林算法的量子密钥分发参数优化方法
CN110798314B (zh) * 2019-11-01 2023-02-24 南京邮电大学 一种基于随机森林算法的量子密钥分发参数优化方法
CN113032033B (zh) * 2019-12-05 2024-05-17 中国科学院深圳先进技术研究院 一种大数据处理平台配置的自动优化方法
CN113032033A (zh) * 2019-12-05 2021-06-25 中国科学院深圳先进技术研究院 一种大数据处理平台配置的自动优化方法
CN111176832A (zh) * 2019-12-06 2020-05-19 重庆邮电大学 基于内存计算框架Spark的性能优化和参数配置方法
CN111176832B (zh) * 2019-12-06 2022-07-01 重庆邮电大学 基于内存计算框架Spark的性能优化和参数配置方法
CN111259933B (zh) * 2020-01-09 2023-06-13 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及***
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及***
CN111461286B (zh) * 2020-01-15 2022-03-29 华中科技大学 基于进化神经网络的Spark参数自动优化***和方法
CN111461286A (zh) * 2020-01-15 2020-07-28 华中科技大学 基于进化神经网络的Spark参数自动优化***和方法
CN111629048A (zh) * 2020-05-22 2020-09-04 浪潮电子信息产业股份有限公司 spark集群最优配置参数确定方法、装置及设备
CN111629048B (zh) * 2020-05-22 2023-04-07 浪潮电子信息产业股份有限公司 spark集群最优配置参数确定方法、装置及设备
CN113743425A (zh) * 2020-05-27 2021-12-03 北京沃东天骏信息技术有限公司 一种生成分类模型的方法和装置
CN114489574B (zh) * 2020-11-12 2022-10-14 深圳先进技术研究院 一种基于svm的流处理框架的自动调优方法
WO2022100370A1 (zh) * 2020-11-12 2022-05-19 深圳先进技术研究院 一种基于svm的流处理框架的自动调优方法
CN114489574A (zh) * 2020-11-12 2022-05-13 深圳先进技术研究院 一种基于svm的流处理框架的自动调优方法
WO2022111125A1 (zh) * 2020-11-27 2022-06-02 深圳先进技术研究院 一种基于随机森林的图数据处理框架自动调优方法
CN114565001A (zh) * 2020-11-27 2022-05-31 深圳先进技术研究院 一种基于随机森林的图数据处理框架自动调优方法
CN112433853B (zh) * 2020-11-30 2023-04-28 西安交通大学 一种面向超级计算机数据并行应用的异构感知数据划分方法
CN112433853A (zh) * 2020-11-30 2021-03-02 西安交通大学 一种面向超级计算机数据并行应用的异构感知数据划分方法
CN113157538A (zh) * 2021-02-02 2021-07-23 西安天和防务技术股份有限公司 Spark运行参数的确定方法、装置、设备和存储介质
CN113204539B (zh) * 2021-05-12 2023-08-22 南京大学 一种融合***语义的大数据***参数自动优化方法
CN113204539A (zh) * 2021-05-12 2021-08-03 南京大学 一种融合***语义的大数据***参数自动优化方法
CN114880108A (zh) * 2021-12-15 2022-08-09 中国科学院深圳先进技术研究院 基于cpu-gpu异构架构的性能分析方法、设备以及存储介质
CN114416193A (zh) * 2021-12-15 2022-04-29 中国科学院深圳先进技术研究院 一种准确快速确定大数据分析***的配置参数值域的方法
CN116401451A (zh) * 2023-03-31 2023-07-07 厦门海晟融创信息技术有限公司 一种融合多维度策略体系构建的流程分析方法及***
CN116401451B (zh) * 2023-03-31 2024-07-02 厦门海晟融创信息技术有限公司 一种融合多维度策略体系构建的流程分析方法及***
CN116089022A (zh) * 2023-04-11 2023-05-09 广州嘉为科技有限公司 一种日志搜索引擎的参数配置调整方法、***及存储介质

Similar Documents

Publication Publication Date Title
CN106648654A (zh) 一种数据感知的Spark配置参数自动优化方法
Triguero et al. Evolutionary undersampling for extremely imbalanced big data classification under apache spark
CN106096727B (zh) 一种基于机器学习的网络模型构造方法及装置
CN103679132B (zh) 一种敏感图像识别方法及***
US20180097822A1 (en) Technologies for analyzing uniform resource locators
CN108280236B (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN108491226B (zh) 基于集群缩放的Spark配置参数自动调优方法
CN115563610B (zh) 入侵检测模型的训练方法、识别方法和装置
Nallathambi et al. Prediction of electricity consumption based on DT and RF: An application on USA country power consumption
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及***
An et al. Classification method of teaching resources based on improved KNN algorithm
Graham et al. Finding and visualizing graph clusters using pagerank optimization
CN116245019A (zh) 一种基于Bagging抽样及改进随机森林算法的负荷预测方法、***、装置及存储介质
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
CN102779241A (zh) 基于人工蜂群繁殖机制的ppi网络聚类方法
CN109977977A (zh) 一种识别***的方法及对应装置
CN104468276A (zh) 基于随机抽样多分类器的网络流量识别方法
Ntoutsi et al. A general framework for estimating similarity of datasets and decision trees: exploring semantic similarity of decision trees
CN111461324A (zh) 基于层恢复敏感度的分级剪枝方法
Rothe et al. Topics and trends in cognitive science (2000-2017)
Wu et al. Link prediction based on random forest in signed social networks
Sultana Towards machine learning-based self-tuning of hadoop-spark system
Vuyyala et al. Crop Recommender System Based on Ensemble Classifiers
He et al. An improved method for nonlinear parameter estimation: a case study of the Rössler model
She et al. Text Classification Research Based on Improved SoftMax Regression Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication