CN110889450B

CN110889450B - 超参数调优、模型构建方法和装置

Info

Publication number: CN110889450B
Application number: CN201911179159.3A
Authority: CN
Inventors: 欧阳显斌; 周飞虎; 王洋子豪; 魏杰乾; 赵秀峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-08-11
Anticipated expiration: 2039-11-27
Also published as: CN110889450A

Abstract

本申请涉及一种超参数调优、模型构建方法和装置，所述方法包括：获取对初始神经网络模型进行训练后得到的第一神经网络模型；对所述第一神经网络模型进行训练，得到第二神经网络模型；根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型；根据所述成长潜力模型中的超参数，得到优选超参数。本申请可以避免将具有成长潜力的超参数淘汰。

Description

超参数调优、模型构建方法和装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种超参数调优方法和装置、一种模型构建方法和装置、一种计算机可读存储介质和计算机设备。

背景技术

目前，主要是通过人工的方式搭建神经网络模型。例如，由人工设计出超参数和普通参数，利用超参数和普通参数，构建出用于控制游戏角色在游戏环境中进行操作的神经网络模型，将该神经网络模型应用在游戏中，使得游戏角色可以模拟真实玩家的操作，实现了具备人工智能(AI，Artificial Intelligence)游戏角色。

神经网络模型中的如权重值、偏置值等的普通参数，可以通过迭代训练进行调优。如卷积层的数量、卷积核的通道数等的超参数，则无法通过迭代训练进行自动调优，而需要在迭代训练之前，预先根据研发人员的经验进行设计出初始的超参数，利用该超参数构建出初始的神经网络模型并训练，然后，根据该神经网络模型的表现，对初始的超参数进行调优，直至得到表现理想的神经网络模型。针对于此，出现了超参数的自动调优方法，如目前较为常见的AutoML(一种超参数调优工具)。由于超参数的调优方法经常需要进行上百次的搜索，才能得到较为理想的超参数，调优过程需要耗费大量的计算资源，因此，在调优过程中需要不断淘汰表现不理想的超参数。

然而，相关技术的调优过程经常会将当前表现不理想、但实际上在不断的训练后表现会更理想的超参数淘汰，由此，由于淘汰了优选的超参数，最终构建出的神经网络模型的表现并不符合用户需求。

因此，相关技术的超参数调优方法存在着将有潜力的超参数淘汰而无法构建出符合用户需求的神经网络模型的问题。

发明内容

基于此，有必要针对相关技术的超参数调优方法存在着将有潜力的超参数淘汰而无法构建出符合用户需求的神经网络模型的问题，提供一种超参数调优方法和装置、一种模型构建方法和装置、一种计算机可读存储介质和计算机设备。

一种超参数调优方法，包括：

获取对初始神经网络模型进行训练后得到的第一神经网络模型；所述第一神经网络包括超参数和第一被训练参数；所述第一神经网络具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；

对所述第一神经网络模型进行训练，得到第二神经网络模型；所述第二神经网络包括所述超参数和第二被训练参数；所述第二神经网络具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；

根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型；

根据所述成长潜力模型中的超参数，得到优选超参数。

一种模型构建方法，包括：

根据所述成长潜力模型中的超参数，得到优选超参数；

采用所述优选超参数，构建游戏角色控制模型；所述游戏角色控制模型用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作中的至少一种操作。

一种超参数调优装置，包括：

获取模块，用于获取对初始神经网络模型进行训练后得到的第一神经网络模型；所述第一神经网络包括超参数和第一被训练参数；所述第一神经网络具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；

训练模型，用于对所述第一神经网络模型进行训练，得到第二神经网络模型；所述第二神经网络包括所述超参数和第二被训练参数；所述第二神经网络具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；

成长度确定模块，用于根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

筛选模块，用于根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型；

选优模块，用于根据所述成长潜力模型中的超参数，得到优选超参数。

一种模型构建装置，包括：

选优模块，用于根据所述成长潜力模型中的超参数，得到优选超参数；

模型构建模块，用于采用所述优选超参数，构建游戏角色控制模型；所述游戏角色控制模型用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作中的至少一种操作。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

根据所述成长潜力模型中的超参数，得到优选超参数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

根据所述成长潜力模型中的超参数，得到优选超参数。

上述一种超参数调优方法和装置、一种模型构建方法和装置、一种计算机可读存储介质和计算机设备，通过获取对初始神经网络模型进行训练后得到的第一神经网络模型，对第一神经网络模型进行训练，得到第二神经网络模型，根据第一神经网络模型的第一模型能力评估值与第二神经网络模型的第二模型能力之间的差异，得到经过训练之后第二神经网络模型相对于第一神经网络模型的模型成长度，根据该模型成长度在多个第二神经网络模型中筛选出成长潜力模型，利用成长潜力模型中的超参数得到优选超参数，由于模型成长度可以反映出神经网络模型在经过迭代训练后其模型能力评估值符合用户需求的潜力，因此，基于模型成长度进行第二神经网络模型的筛选，避免了在超参数调优过程中将经过后续的多轮训练之后其模型能力评估值可能符合用户需求的神经网络模型淘汰，也即是说，避免了将具有成长潜力的超参数淘汰，从而，保留了具有成长潜力的神经网络模型及其超参数继续进行训练，以最终得到优选的超参数并构建出符合用户需求的神经网络模型。

附图说明

图1为一个实施例中的超参数调优方法的应用环境图；

图2为一个实施例中的超参数调优方法的流程示意图；

图3为另一个实施例中的超参数调优方法的流程示意图；

图4为一个实施例中的模型构建方法的流程示意图；

图5为一个实施例中的模型构建流程的示意图；

图6为一个实施例中的超参数调优装置的结构框图；

图7为一个实施例中的模型构建装置的结构框图；

图8为一个实施例中的计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中超参数调优方法的应用环境图。参照图1，该超参数调优方法应用于模型训练***。该模型训练***至少包括训练服务器110和评估服务器120。训练服务器110和评估服务器120通过网络连接。训练服务器110和评估服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

其中，训练服务器110主要用于对基于超参数构建的神经网络模型进行迭代训练。评估服务器120主要用于对训练处的神经网络模型进行量化评估。

需要说明的是，本申请的超参数调优方法可以应用于生成神经网络模型的场景中。上述的神经网络模型可以应用于，例如，即时通讯场景、多媒体播放场景、内容推荐场景、直播场景、社区社交场景、游戏场景、购物场景、页面浏览场景、金融服务场景等。例如，将神经网络模型应用于游戏场景时，可以利用神经网络模型控制游戏角色在游戏环境中进行移动、决策、协作等的操作，以模仿真实玩家的操作，使得游戏角色具有人工智能的能力，因此，该利用神经网络模型控制游戏角色的功能也称为游戏AI。又例如，将神经网络模型应用于内容推荐场景时，可以利用神经网络模型对某个视频内容的内容类型进行分类，并根据分类的结果向用户推荐视频内容，从而实现了智能化的视频推荐。

将本申请的超参数调优方法应用在上述的应用场景中，可以在超参数调优过程中避免将有潜力的超参数淘汰而导致无法构建出符合用户需求的神经网络模型的问题。

如图2所示，在一个实施例中，提供了一种超参数调优方法。本实施例主要以该方法应用于上述图1中的训练服务器110来举例说明。参照图2，该超参数调优方法具体包括如下步骤：

S202，获取对初始神经网络模型进行训练后得到的第一神经网络模型；所述第一神经网络包括超参数和第一被训练参数；所述第一神经网络具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值。

其中，初始神经网络模型可以为根据超参数所构建的未经训练的神经网络模型。

其中，第一神经网络模型可以为对初始神经网络模型进行训练后得到的神经网络模型。

其中，超参数可以为用于构建神经网络模型的基础框架的、在训练之前人工预置的参数。例如，对于神经网络的卷积层，超参数可以为卷积核的数量，卷积核的通道数，高度、宽度、水平/垂直方向的步长；对于神经网络中的全连接层，超参数可以为神经元的数量；对于神经网络中的激活层，超参数可以为激活函数的类型、激活函数的内部函数参数等。

其中，被训练参数可以为用于构建神经网络、通过训练调优的参数，通常也称为普通参数。例如，神经网络模型中的权重值、偏置值等参数。

其中，模型能力评估值可以为对神经网络模型的模型能力进行量化评估的数值。模型能力可以反映出神经网络模型在实际应用时的综合表现。例如，将神经网络模型应用于图像分类时，模型能力评估值可以为对图像分类的分类准确率；又例如，对于游戏场景中的模型能力评估值，可以具体为通过该神经网络模型控制游戏角色进行游戏时的胜负比率。

具体实现中，训练服务器110可以首先生成多组超参数和初始被训练参数，每一组超参数和初始被训练参数可以构建出对应的初始神经网络模型。针对多组超参数，则可以构建出对应的多个初始神经网络模型。

然后，对多个初始神经网络模型分别进行迭代训练。在迭代训练的过程中，初始神经网络模型中的初始被训练参数会被训练会第一被训练参数。例如，输入样本数据至初始神经网络模型，基于初始神经网络模型输出的结果计算损失值，根据该损失值进行反向传播，以不断调整初始神经网络模型中的初始被训练参数，得到新的训练参数，作为上述的第一被训练参数。

需要说明的是，迭代训练过程并不会调整初始神经网络模型中的超参数，因此，对初始神经网络模型进行训练得到的第一神经网络模型中，超参数并不会因训练而改变，而初始被训练参数则会被调整为第一被训练参数。

得到第一神经网络模型之后，可以由评估服务器120对该第一神经网络模型的表现进行量化评估，得到第一神经网络模型的模型能力评估值。

神经网络模型的模型能力用于反映该神经网络模型在实际应用中的综合表现，例如，在游戏场景中是否可以准确地移动、决策、协作等各方面的表现。为了可以准确比较不同神经网络模型的模型能力之间的差异，可以对模型能力进行量化评估。

例如，可以将该第一神经网络模型应用至具体的游戏应用中，以得到神经网络模型的模型能力评估值，更具体地，可以由神经网络模型控制游戏角色进行移动、决策或协作等的操作，并记录该游戏角色的胜负率，基于该胜负率对该神经网络模型的模型能力进行量化评估。

又例如，可以将该第一神经网络模型应用至图像识别应用中，以得到神经网络模型的模型能力评估值，更具体地，可以通过第一神经网络模型对不同的图像进行分类识别，基于分类识别的准确率作为上述的模型能力评估值，以实现对神经网络模型的模型能力的量化评估。

需要进一步说明的是，神经网络模型中的超参数和被训练参数确定了神经网络模型中所输出的结果，该输出的结果影响神经网络模型的综合能力，因此，第一神经网络模型的模型能力评估值，是根据超参数和第一被训练参数所得到。

例如，在游戏场景中，游戏角色均是根据神经网络模型基于输入的游戏数据所输出的结果，确定如何在游戏环境中进行移动、决策、协作等的操作，而神经网络模型是通过超参数和被训练参数计算出所输出的结果。又例如，在视频推荐场景中，神经网络模型是通过超参数和被训练参数计算出用户与视频之间的相关性，基于该相关性进行视频推荐。

为了区分说明，上述的第一神经网络模型的模型能力评估值命名为第一模型能力评估值。

得到第一神经网络模型的第一模型能力评估值之后，可以基于该第一模型能力评估值确定基于某组超参数所构建的神经网络模型在训练过程中的成长度。

S204，对所述第一神经网络模型进行训练，得到第二神经网络模型；所述第二神经网络包括所述超参数和第二被训练参数；所述第二神经网络具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值。

其中，第二神经网络模型可以为对第一神经网络模型进行训练后得到的神经网络模型。

需要说明的是，训练过程通常是经过多轮的迭代训练，通过对神经网络模型的迭代训练，不断优化神经网络模型，在迭代训练的过程中，每一轮训练可以淘汰表现不理想的神经网络模型，保留部分神经网络模型进入下一轮的训练。

具体实现中，训练服务器110可以对第一神经网络模型进行下一轮的训练，得到第二神经网络模型。对第一神经网络模型进行训练得到的第二神经网络模型中，超参数并不会因训练而改变，而第一被训练参数则会调整为第二被训练参数。

得到第二神经网络模型之后，可以由评估服务器120对该第二神经网络模型的模型能力进行量化评估，得到第二神经网络模型的模型能力评估值。

为了区分说明，上述的第二神经网络模型的模型能力评估值命名为第二模型能力评估值。

得到第二神经网络模型的第二模型能力评估值之后，可以基于第一模型能力评估值和第二模型能力评估值确定基于某组超参数所构建的神经网络模型在训练过程中的成长度。

S206，根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度。

其中，模型成长度用于反映神经网络模型在经过迭代训练后其模型能力评估值符合用户需求的潜力。

具体实现中，训练服务器110可以首先确定第二模型能力评估值与第一模型能力评估值之间的差异，并利用该差异，确定第二神经网络模型相对于第一神经网络模型而言，经过训练之后所得到的模型成长度。

例如，可以通过第二模型能力评估值与第一模型能力评估值之间的差值，量化评估上述的模型成长度，或者，还可以通过第二模型能力评估值与第一模型能力评估值之间的比值，量化评估上述的模型成长度，又或者，还可以通过第二模型能力评估值与第一模型能力评估值之间方差，量化评估上述的模型成长度。

当然，上述示例仅用于举例说明确定模型成长度的方式，实际应用中，本领域技术人员还可以采用多种方式基于第二模型能力评估值与第一模型能力评估值之间的差异评估上述的模型成长度，例如，还可以首先计算第二模型能力评估值与第一模型能力评估值之间的差值，作为评估值差值，然后结合第二模型能力评估值和评估值差值，量化评估上述的模型成长度。

由于模型成长度可以反映出基于某组超参数构建出的神经网络模型经过迭代训练后的模型能力评估值的成长潜力，因此可以理解，经过越多轮次的迭代训练，基于该组超参数构建出的神经网络模型的模型能力评估值会越理想。因此，在得到各个第二神经网络模型的模型成长度之后，可以基于模型成长度对第二神经网络模型进行淘汰和保留。

S208，根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型。

其中，成长潜力模型可以为模型成长度符合设定条件的第二神经网络模型。

具体实现中，训练服务器110可以按照各个第二神经网络模型的模型成长度，对各个第二神经网络模型进行排序，将模型成长度不符合预设的保留条件的第二神经网络模型淘汰，保留下模型成长度不符合预设的保留条件的第二神经网络模型，作为上述的成长潜力模型。保留下的成长潜力模型则可以进行下一轮的训练。

例如，预先设定淘汰/保留比例为1:1，对于100个第二神经网络模型，按照模型成长度进行降序排序，排序后50个第二神经网络模型为模型成长度不符合设定条件，淘汰排序后50个第二神经网络模型，保留排序前50个第二神经网络模型，得到了50个成长潜力模型，该50个成长潜力模型进入下一轮的训练。

又例如，预先设定模型成长度阈值，将各个第二神经网络模型的模型成长度分别与预设的模型成长度阈值进行比较，将模型成长度大于模型成长度阈值的第二神经网络模型作为上述的成长潜力模型。

当然，本领域技术人员可以采用其他方式，根据模型成长度对多个第二神经网络模型进行淘汰和保留，以筛选出具有成长潜力的第二神经网络模型。

S210，根据所述成长潜力模型中的超参数，得到优选超参数。

其中，优选超参数可以为在多组超参数中优选的、用于构建最终的神经网络模型的超参数。

具体实现中，在得到成长潜力模型之后，训练服务器110可以利用成长潜力模型中的超参数，确定出用于构建最终的神经网络模型的超参数，作为上述的优选超参数。从而，在生成的多组超参数中筛选出优选的超参数，并可以基于优选的超参数构建出适用于各种应用场景的神经网络模型。

例如，可以预先设定进行迭代训练的迭代训练总轮数R，当经过R轮的迭代训练之后，得到的一个或多个成长潜力模型，可以作为优选模型，优先模型中的超参数，即为上述的优选超参数。

上述的超参数调优方法中，通过获取对初始神经网络模型进行训练后得到的第一神经网络模型，对第一神经网络模型进行训练，得到第二神经网络模型，根据第一神经网络模型的第一模型能力评估值与第二神经网络模型的第二模型能力之间的差异，得到经过训练之后第二神经网络模型相对于第一神经网络模型的模型成长度，根据该模型成长度在多个第二神经网络模型中筛选出成长潜力模型，利用成长潜力模型中的超参数得到优选超参数，由于模型成长度可以反映出神经网络模型在经过迭代训练后其模型能力评估值符合用户需求的潜力，因此，基于模型成长度进行第二神经网络模型的筛选，避免了在超参数调优过程中将经过后续的多轮训练之后其模型能力评估值可能符合用户需求的神经网络模型淘汰，也即是说，避免了将具有成长潜力的超参数淘汰，从而，保留了具有成长潜力的神经网络模型及其超参数继续进行训练，以最终得到优选的超参数并构建出符合用户需求的神经网络模型。

在一个实施例中，上述步骤S206可以具体包括：

计算所述第二模型能力评估值和所述第一模型能力评估值的评估值差值；根据所述评估值差值和所述第二神经网络模型的第二模型能力评估值，计算所述模型成长度。

其中，评估值差值可以为两个模型能力评估值之间的差值。

具体实现中，训练服务器110可以计算第二模型能力评估值和所述第一模型能力评估值之间的差值，作为上述的评估值差值。然后，结合评估值差值和第二神经网络模型的第二模型能力评估值，计算出上述的模型成长度。

例如，将评估值差值和第二模型能力评估值相加，将相加之和作为上述的模型成长度。

又如，分别对评估值差值和第二模型能力评估值赋予不同的权重并进行加权，得到评估值差值和第二模型能力评估值各自的加权值，然后将两个加权值相加，将相加之和作为上述的模型成长度。

上述的超参数调优方法中，评估值差值可以反映出经过后续的迭代训练后第二神经网络模型的模型能力评估值符合用户需求的潜力，而第二模型能力评估值可以反映出经过训练的第二神经网络模型当前的模型能力评估值，通过结合评估值差值和第二模型能力评估值计算模型成长度，使得模型成长度可以综合地反映出神经网络模型当前的模型能力和成长潜力，从而可以更全面地量化评估神经网络模型，因此，可以更准确地对第二神经网络模型进行筛选。

在一个实施例中，所述根据所述评估值差值和所述第二神经网络模型的第二模型能力评估值，计算所述模型成长度，包括：

获取成长权重；根据所述成长权重，得到能力评估值权重；计算所述评估值差值与所述成长权重的乘积，得到加权成长值；计算所述第二模型能力评估值与所述能力评估值权重的乘积，得到加权能力值；计算所述加权成长值与所述加权能力值之和，得到所述模型成长度。

其中，成长权重可以为用于计算评估值差值在模型成长度中所占比例的权重。

其中，能力评估值权重可以为用于计算模型能力评估值在模型成长度中所占比例的权重。

具体实现中，训练服务器110可以设定成长权重及其相应的能力评估值权重。例如，可以设定成长权重α，相应地，能力评估值权重为(1-α)。

然后，计算评估值差值与所述成长权重的乘积，作为上述的加权成长值；计算第二模型能力评估值与能力评估值权重的乘积，作为上述的加权能力值；计算加权成长值与加权能力值之和，得到上述的模型成长度。

例如，确定成长权重α和能力评估值权重为(1-α)，第二神经网络模型经过第j轮迭代训练后，具有第二模型能力评估值w_j，第一神经网络模型经过第j-1轮迭代训练后，具有第一模型能力评估值w_j-1，评估值差值f(w_j，w_j-1)＝w_j-w_j-1，模型成长度zw_j＝α*f(w_j，w_j-1)+(1-α)w_j。

上述超参数调优方法中，通过对评估值差值和第二模型能力评估值分别赋予相应的权重，利用各自的权重进行加权求和以得到模型成长度，从而可以根据不同的用户需求调整评估值差值和第二模型能力评估值在模型成长度中的所占比例，提升了超参数调优的灵活性。

在一个实施例中，所述第二神经网络模型具有n个，n≥2，上述的步骤S208可以具体包括：

按照所述模型成长度，对n个所述第二神经网络模型进行降序排序；根据预设的模型保留比例，在n个所述第二神经网络模型中，保留排序前m个所述第二神经网络模型，得到m个所述成长潜力模型；其中，n＞m≥1。

具体实现中，训练服务器110可以按照模型成长度，对n个第二神经网络模型进行降序排序，即按照模型成长度从高到低进行排序。

根据预先设定的模型保留比例，在n个第二神经网络模型中，淘汰部分第二神经网络模型，保留下排序前m个第二神经网络模型，作为上述的成长潜力模型。

例如，预设的模型保留比例为1：1，即，淘汰一半的神经网络模型。对于100个第二神经网络模型，淘汰模型成长度排序后50个第二神经网络模型，保留模型成长度排序后50个第二神经网络模型，由此，得到了50个成长潜力模型。

在一个实施例中，上述的步骤S210可以具体包括：

确定对所述第一神经网络模型进行训练的当前训练轮数j；j≥1；

当所述当前训练轮数j达到预设的迭代训练总轮数R时，按照所述第二模型能力评估值，对m个所述成长潜力模型进行降序排序；R≥j≥1；

提取出排序前p个所述成长潜力模型，作为优选模型；其中，m≥p≥1

将所述优选模型中的超参数，作为所述优选超参数。

其中，当前训练轮数可以为对第一神经网络模型进行训练的轮数。

其中，迭代训练总轮数可以为预先设定的需要进行迭代训练的总轮数。

具体实现中，训练服务器110可以预先设定对神经网络模型进行迭代训练的总轮数，作为上述迭代训练总轮数R。

每次对神经网络模型进行一轮训练之后，则更新当前训练轮数j。例如，第一轮训练，j更新为1，第二轮训练，j更新为2。

然后，判断当前训练轮数j是否达到了预设的迭代训练总轮数R，若否，则代表迭代训练未完成，开始下一轮的训练；若是，则代表迭代训练完成。

迭代训练完成之后，可以按照第二模型能力评估值，对m个成长潜力模型进行降序排序，即按照第二模型能力评估值从高到低进行排序，将排序前p个成长潜力模型，作为上述的优选模型。优先模型中的超参数，则可以作为优选超参数。

上述超参数调优方法中，若当前训练轮数达到预设的迭代训练总轮数时，可以按照第二模型能力评估值对成长潜力模型进行降序排序，并将排序靠前的成长潜力模型提取作为优选模型，由此得到优选模型中的超参数作为优选超参数。由于对神经网络模型的训练已完成，因此无须再考虑模型成长度，而直接采用第二模型能力评估值确定优选模型，在保证得到优选超参数的前提下减少了计算量，提升了超参数调优的效率。

在一个实施例中，当所述当前训练轮数j未达到所述迭代训练总轮数R时，上述的步骤S210可以还包括：

将m个所述成长潜力模型作为更新后的所述第一神经网络模型，并返回至所述对所述第一神经网络模型进行训练，得到第二神经网络模型的步骤，以进行下一轮的训练，直至所述当前训练轮数j达到所述迭代训练总轮数R。

具体实现中，当前训练轮数j未达到迭代训练总轮数R时，即需要进行下一轮的迭代训练，可以将m个成长潜力模型作为更新的第一神经网络模型，返回至上述的步骤S204，对更新的第一神经网络模型进行训练，直至当前训练轮数j达到迭代训练总轮数R，即，直至到迭代训练结束、得到优选模型为止。

在一个实施例中，在上述的步骤S204之后，可以还包括以下步骤：

判断n个所述第二神经网络模型是否符合预设的同时训练模型数量b；

若是，则将所述第二神经网络模型作为所述成长潜力模型，并执行所述根据所述成长潜力模型中的超参数，得到优选超参数的步骤；

若否，则执行所述根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度的步骤。

其中，同时训练模型数量可以为训练服务器110的计算资源可支持的同时进行训练的神经网络模型的数量。

具体实现中，可以首先确定训练服务器110用于进行迭代训练的计算资源，根据该计算资源，确定训练服务器110可以同时训练b个神经网络模型，由此，确定出同时训练模型数量b。

在得到n个第二神经网络模型之后，可以判断n个第二神经网络模型是否小于同时训练模型数量b。

当第二神经网络模型的数量n小于或者等于同时训练模型数量b，即，n个第二神经网络模型符合预设的同时训练模型数量b，表明当前的训练服务器110的计算资源可以支持同时对n个第二神经网络模型进行训练，此时无须对n个第二神经网络模型进行淘汰，可以将全部n个第二神经网络模型作为成长潜力模型，并执行上述的步骤S210，即，执行根据成长潜力模型中的超参数，得到优选超参数的步骤。

当第二神经网络模型的数量n大于同时训练模型数量b，即，n个第二神经网络模型不符合预设的同时训练模型数量b，表明当前的训练服务器110的计算资源无法支持同时对n个第二神经网络模型进行训练，因而需要进行淘汰，因此，可以执行上述的步骤S206，即，执行根据第二模型能力评估值与第一模型能力评估值之间的差异，得到第二神经网络模型相对于第一神经网络模型的模型成长度的步骤，并根据模型成长度对n个第二神经网络模型进行淘汰，筛选出m个成长潜力模型。

需要说明的是，当第二神经网络模型的数量n小于或等于同时训练模型数量b时，训练服务器110的计算资源可以支持同时对n个第二神经网络模型进行训练，而无须等待b个第二神经网络模型训练完毕后再进行下一批的第二神经网络模型的训练，因此，无论是否对n个第二神经网络模型进行淘汰，均不会产生等待的时间。

上述的超参数调优方法中，在n个第二神经网络模型符合预设的同时训练模型数量b时，将n个第二神经网络模型作为成长潜力模型，并直接执行根据成长潜力模型中的超参数得到优选超参数的步骤，无须再淘汰第二神经网络模型，由于训练过程中可以同时进行n个第二神经网络模型的训练，不存在等待训练的时间，因此，可以在保证训练效率的同时，避免将具有成长潜力的超参数淘汰。

如图3所示，在一个实施例中，提供了一种超参数调优方法，参考图3，在上述的步骤S202之前，还包括：

S302，根据所述同时训练模型数量b、所述迭代训练总轮数R和所述模型保留比例，得到超参数组数N；N≥n≥2。

具体实现中，训练服务器110可以根据同时训练模型数量b、迭代训练总轮数R和模型保留比例，计算出超参数组数N。

例如，假设模型保留比例为1：1，则可以通过N＝2^R-2*b该公式计算得到超参数组数N。假设要进行5轮的迭代训练，即迭代训练总轮数R＝5，训练服务器110的计算资源无法支持同时对5个第二神经网络模型进行训练，即同时训练模型数量b＝5，由此，N＝2^R-2*b＝2⁵ ^-2*5＝40，即，需要生成40组超参数。

S304，生成N组所述超参数和N组初始被训练参数。

具体实现中，训练服务器110可以生成N组超参数和相应的N组被训练参数。更具体地，当前需要生成一个包含有k1个超参数和k2个被训练参数的神经网络模型，每一组超参数则由k1个超参数组成，每一组被训练参数由k2个被训练参数组成。

实际应用中，每个超参数c的取值范围可以为[-1.0，1.0]，因此，可以在[-1.0，1.0]的范围内随机取值，以随机生成多个超参数c，形成一组超参数。

S306，采用N组所述超参数和所述N组所述初始被训练参数，构建N个所述初始神经网络模型。

具体实现中，可以分别采用N组超参数和N组初始被训练参数，构建出N个神经网络模型，作为上述的初始神经网络模型。

例如，假设k1＝2时，可以得到N组超参数和相应的N个初始神经网络模型，分别为[c_{i_1},c_{i_2}],init_checkpoint_i，i＝1，2…N。

S308，对N个所述初始神经网络模型进行训练，得到N个所述第一神经网络模型。

具体实现中，分别对N个初始神经网络模型进行训练，得到了N个上述的第一神经网络模型。

在一个实施例中，上述的步骤S204可以具体包括：

确定所述当前训练轮数j对应的模型训练步数；所述模型训练步数与所述当前训练轮数j之间为正相关关系；根据所述模型训练步数对所述第一神经网络模型进行训练，得到所述第二神经网络模型。

其中，模型训练步数可以为对神经网络模型进行训练的训练步数。训练步数通常也称为批尺寸(Batch Size)，用于确定训练过程中计算梯度所需的样本的数量。

具体实现中，训练服务器110可以预先确定最优的模型训练总步数，根据迭代训练总轮数R，针对每一轮的训练分配模型训练步数，使得每一轮训练的模型训练步数之和等于模型训练总步数，并且使得每一轮的训练所分配的模型训练步数与训练轮数形成正相关关系。

例如，最优的模型训练总步数StepMax＝93w(万)，迭代训练总轮数R＝5，假设第一轮的模型训练步数为3w，通过公式StepMax/(2^R+1-1)，由此可以得到各轮训练的训练步数分别为[3w，2*3w，2²*3w，2³*3w，2⁴*3w]。

在进行每一轮的迭代训练时，可以首先确定当前训练轮数j所对应的模型训练步数，然后，按照当前训练轮数j所对应的模型训练步数，对第一神经网络模型进行训练，得到第二神经网络模型。

例如，在第3轮迭代训练时，对应的模型训练步数为12w，因此，按照12w该模型训练步数对第一神经网络进行训练。在第4轮迭代训练时，对应的模型训练步数为24w，因此，按照24w该模型训练步数对第一神经网络进行训练。

需要说明的是，在对神经网络模型进行训练时，训练步数越大，需要占用的计算资源越大，同时，训练质量越理想。由于在每一轮训练之后会淘汰部分的神经网络模型，因此，随着训练轮数j的增加，保留下的神经网络模型越少，所需的计算资源也越少，因此，可以相应地采用较大的训练步数进行训练，保证训练质量。

上述的超参数调优方法中，通过确定与当前训练轮数存在正相关关系的模型训练步数，根据该模型训练步数对第一神经网络模型进行训练以得到第二神经网络模型，从而，在避免增加计算资源需求的前提下，保证了对神经网络模型的训练质量，避免了由于神经网络模型的训练质量不理想而无法得到优选的超参数的问题。

如图4所示，在一个实施例中，提供了一种模型构建方法。参照图4，该模型构建方法可以包括如下步骤：

S402，获取对初始神经网络模型进行训练后得到的第一神经网络模型；所述第一神经网络包括超参数和第一被训练参数；所述第一神经网络具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；

S404，对所述第一神经网络模型进行训练，得到第二神经网络模型；所述第二神经网络包括所述超参数和第二被训练参数；所述第二神经网络具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；

S406，根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

S408，根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型；

S410，根据所述成长潜力模型中的超参数，得到优选超参数；

S412，采用所述优选超参数，构建游戏角色控制模型；所述游戏角色控制模型用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作中的至少一种操作。

其中，游戏角色控制模型可以为用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作的神经网络模型。

由于步骤S402至S410已经在上述实施例中有详细说明，在此不再赘述。对于步骤S412，在得到优选超参数之后，可以采用该优选超参数构建游戏角色控制模型。该游戏角色控制模型应用在游戏应用时，可以控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作等的操作。例如，控制游戏角色进行前进、后退的移动操作，控制游戏角色进行进攻、防守等的决策操作，控制游戏角色配合其他游戏角色前进、后退等的协作操作。

上述的模型构建方法中，通过获取对初始神经网络模型进行训练后得到的第一神经网络模型，对第一神经网络模型进行训练，得到第二神经网络模型，根据第一神经网络模型的第一模型能力评估值与第二神经网络模型的第二模型能力之间的差异，得到经过训练之后第二神经网络模型相对于第一神经网络模型的模型成长度，根据该模型成长度在多个第二神经网络模型中筛选出成长潜力模型，利用成长潜力模型中的超参数得到优选超参数，由于模型成长度可以反映出神经网络模型在经过迭代训练后其模型能力评估值符合用户需求的潜力，因此，基于模型成长度进行第二神经网络模型的筛选，避免了在超参数调优过程中将经过后续的多轮训练之后其模型能力评估值可能符合用户需求的神经网络模型淘汰，也即是说，避免了将具有成长潜力的超参数淘汰，从而，保留了具有成长潜力的神经网络模型及其超参数继续进行训练，以最终得到优选的超参数，基于优选的超参数构建出的游戏角色控制模型，可以更准确地控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作等操作，从而，得到了符合用户需求的游戏角色控制模型。

为了便于本领域技术人员深入理解本申请，以下将结合图5的具体示例进行说明。图5为一个实施例中一种模型构建流程的示意图，该模型构建流程可以包括以下步骤：

S502，确定同时训练模型数量b、迭代训练总轮数R和模型保留比例；

S504，根据同时训练模型数量b、迭代训练总轮数R和模型保留比例，确定超参数组数N；

S506，生成N组超参数，并根据N组超参数分别构建N个初始神经网络模型；

S508，对N个初始神经网络模型进行训练，得到N个第一神经网络模型；对N个第一神经网络模型的模型能力进行量化评估，得到N个第一模型能力评估值；

S510，分别对N个第一神经网络模型进行训练，得到N个第二神经网络模型；对N个第二神经网络模型的模型能力进行量化评估，得到N个第二模型能力评估值；

S512，判断当前的第二神经网络模型的数量n是否小于同时训练模型数量b；若否，则执行S514；若是，则将当前的第二神经网络模型确定为成长潜力模型，并执行S518；

S514，计算第二模型能力评估值和第一模型能力评估值的评估值差值，并根据评估值差值和第二模型能力评估值，计算模型成长度；

S516，按照模型成长度，在N个第二神经网络模型中，保留排序靠前的第二神经网络模型，得到n个成长潜力模型；

S518，确定当前训练轮数j，判断当前训练轮数j是否达到迭代训练总轮数R，若否，则执行S520；若是，则执行S522；

S520，将n个成长潜力模型作为更新的第一神经网络模型，并返回至S510；

S522，按照第二模型能力评估值，在n个成长潜力模型中确定优选模型，并将优选模型中的超参数作为优选超参数；

S524，根据优选超参数构建目标神经网络模型。

应该理解的是，虽然图2、图4和图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4和图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图6所示，在一个实施例中，提供了一种超参数调优装置600，包括：

获取模块602，用于获取对初始神经网络模型进行训练后得到的第一神经网络模型；所述第一神经网络包括超参数和第一被训练参数；所述第一神经网络具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；

训练模型604，用于对所述第一神经网络模型进行训练，得到第二神经网络模型；所述第二神经网络包括所述超参数和第二被训练参数；所述第二神经网络具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；

成长度确定模块606，用于根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

筛选模块608，用于根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型；

选优模块610，用于根据所述成长潜力模型中的超参数，得到优选超参数。

在一个实施例中，所述成长度确定模块606，具体用于：

计算所述第二模型能力评估值和所述第一模型能力评估值的评估值差值；

根据所述评估值差值和所述第二神经网络模型的第二模型能力评估值，计算所述模型成长度。

在一个实施例中，所述成长度确定模块606，具体用于：

在一个实施例中，所述第二神经网络模型具有n个，n≥2，所述筛选模块608，具体用于：

在一个实施例中，所述选优模块610，具体用于：

确定对所述第一神经网络模型进行训练的当前训练轮数j；j≥1；当所述当前训练轮数j达到预设的迭代训练总轮数R时，按照所述第二模型能力评估值，对m个所述成长潜力模型进行降序排序；R≥j≥1；提取出排序前p个所述成长潜力模型，作为优选模型；其中，m≥p≥1将所述优选模型中的超参数，作为所述优选超参数。

在一个实施例中，当所述当前训练轮数j未达到所述迭代训练总轮数R时，所述选优模块610，还具体用于：

在一个实施例中，所述装置还具体用于：

判断n个所述第二神经网络模型是否符合预设的同时训练模型数量b；若是，则将所述第二神经网络模型作为所述成长潜力模型，并执行所述根据所述成长潜力模型中的超参数，得到优选超参数的步骤；若否，则执行所述根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度的步骤。

在一个实施例中，还包括：

组数确定模块，用于根据所述同时训练模型数量b、所述迭代训练总轮数R和所述模型保留比例，得到超参数组数N；N≥n≥2；

参数生成模块，用于生成N组所述超参数和N组初始被训练参数；

初始模型构建模块，用于采用N组所述超参数和所述N组所述初始被训练参数，构建N个所述初始神经网络模型；

所述训练模块604，还用于对N个所述初始神经网络模型进行训练，得到N个所述第一神经网络模型。

在一个实施例中，所述训练模块604，具体用于：

如图7所示，在一个实施例中，提供了一种模型构建装置700，包括：

获取模块702，用于获取对初始神经网络模型进行训练后得到的第一神经网络模型；所述第一神经网络包括超参数和第一被训练参数；所述第一神经网络具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；

训练模型704，用于对所述第一神经网络模型进行训练，得到第二神经网络模型；所述第二神经网络包括所述超参数和第二被训练参数；所述第二神经网络具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；

成长度确定模块706，用于根据所述第二模型能力评估值与所述第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

筛选模块708，用于根据所述模型成长度，在所述第二神经网络模型中筛选出成长潜力模型；

选优模块710，用于根据所述成长潜力模型中的超参数，得到优选超参数；

模型构建模块712，用于采用所述优选超参数，构建游戏角色控制模型；所述游戏角色控制模型用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作中的至少一种操作。

关于上述的超参数调优、模型构建装置的具体限定可以参见上文中对于超参数调优、模型构建方法的限定，在此不再赘述。上述超参数调优、模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

上述提供的超参数调优、模型构建装置可用于执行上述任意实施例提供的超参数调优、模型构建方法，具备相应的功能和有益效果。

需要补充说明的是，上述实施例中涉及的人工智能(Artificial Intelligence,AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：通过机器学习的方式对第一神经网络模型进行训练，得到第二神经网络模型。

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的训练服务器110。如图8所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现超参数调优、模型构建方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行超参数调优、模型构建方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的超参数调优、模型构建装置可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成该超参数调优、模型构建装置的各个程序模块，比如，图6所示的训练模型604。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的超参数调优、模型构建方法中的步骤。

例如，图8所示的计算机设备可以通过如图6所示的超参数调优装置中的训练模型604执行对所述第一神经网络模型进行训练，得到第二神经网络模型。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述超参数调优、模型构建方法的步骤。此处超参数调优、模型构建方法的步骤可以是上述各个实施例的超参数调优、模型构建方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述超参数调优、模型构建方法的步骤。此处超参数调优、模型构建方法的步骤可以是上述各个实施例的超参数调优、模型构建方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种超参数调优方法，其特征在于，包括：

获取对多个初始神经网络模型分别进行训练后得到的多个第一神经网络模型；每一所述初始神经网络模型基于一组超参数和一组初始被训练参数构建得到；所述多个初始神经网络模型对应多组超参数；所述第一神经网络模型包括超参数和第一被训练参数；所述第一神经网络模型具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；所述第一模型能力评估值，用于反映游戏场景中所述第一神经网络模型控制游戏角色进行游戏的表现，为通过所述第一神经网络模型控制游戏角色进行游戏时的胜负比例；在通过所述第一神经网络模型控制游戏角色进行游戏的过程中，所述第一神经网络模型基于输入的游戏数据所输出的结果，用于确定所述游戏角色在游戏环境中所执行的操作；

对多个所述第一神经网络模型分别进行训练，得到多个第二神经网络模型；所述第二神经网络模型包括所述超参数和第二被训练参数；所述第二神经网络模型具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；所述第二模型能力评估值，用于反映所述游戏场景中所述第二神经网络模型控制游戏角色进行游戏的表现，为通过所述第二神经网络模型控制游戏角色进行游戏时的胜负比例；在通过所述第二神经网络模型控制游戏角色进行游戏的过程中，所述第二神经网络模型基于输入的游戏数据所输出的结果，用于确定所述游戏角色在游戏环境中所执行的操作；

针对每一所述第二神经网络模型，根据所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

根据多个所述第二神经网络模型各自的模型成长度，在多个所述第二神经网络模型中筛选出成长潜力模型；

根据所述成长潜力模型中的超参数，得到优选超参数；所述优选超参数用于构建游戏角色控制模型；所述游戏角色控制模型用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作中的至少一种操作。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度，包括：

计算所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值的评估值差值；

根据所述评估值差值和所述第二神经网络模型的第二模型能力评估值，计算所述第二神经网络模型相对于所述第一神经网络模型的模型成长度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述评估值差值和所述第二神经网络模型的第二模型能力评估值，计算所述第二神经网络模型相对于所述第一神经网络模型的模型成长度，包括：

获取成长权重；

根据所述成长权重，得到能力评估值权重；

计算所述评估值差值与所述成长权重的乘积，得到加权成长值；

计算所述第二神经网络模型的第二模型能力评估值与所述能力评估值权重的乘积，得到加权能力值；

计算所述加权成长值与所述加权能力值之和，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度。

4.根据权利要求1所述的方法，其特征在于，所述第二神经网络模型具有n个，n≥2，所述根据多个所述第二神经网络模型各自的模型成长度，在多个所述第二神经网络模型中筛选出成长潜力模型，包括：

按照多个所述第二神经网络模型各自的模型成长度，对n个所述第二神经网络模型进行降序排序；

根据预设的模型保留比例，在n个所述第二神经网络模型中，保留排序前m个所述第二神经网络模型，得到m个成长潜力模型；其中，n＞m≥1。

5.根据权利要求4所述的方法，其特征在于，所述根据所述成长潜力模型中的超参数，得到优选超参数，包括：

提取出排序前p个所述成长潜力模型，作为优选模型；其中，m≥p≥1；

将所述优选模型中的超参数，作为所述优选超参数。

6.根据权利要求5所述的方法，其特征在于，当所述当前训练轮数j未达到所述迭代训练总轮数R时，还包括：

将m个所述成长潜力模型作为更新后的多个第一神经网络模型，并返回至所述对多个所述第一神经网络模型分别进行训练，得到多个第二神经网络模型的步骤，以进行下一轮的训练，直至所述当前训练轮数j达到所述迭代训练总轮数R。

7.根据权利要求5所述的方法，其特征在于，在所述对多个所述第一神经网络模型分别进行训练，得到多个第二神经网络模型之后，还包括：

若否，则执行所述根据所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度的步骤。

8.根据权利要求7所述的方法，其特征在于，在所述获取对多个初始神经网络模型分别进行训练后得到的多个第一神经网络模型之前，还包括：

根据所述同时训练模型数量b、所述迭代训练总轮数R和所述模型保留比例，得到超参数组数N；N≥n≥2；

生成N组所述超参数和N组初始被训练参数；

采用N组所述超参数和所述N组所述初始被训练参数，构建N个所述初始神经网络模型；

对N个所述初始神经网络模型进行训练，得到N个所述第一神经网络模型。

9.根据权利要求5所述的方法，其特征在于，对所述第一神经网络模型进行训练，得到第二神经网络模型的过程，包括：

确定所述当前训练轮数j对应的模型训练步数；所述模型训练步数与所述当前训练轮数j之间为正相关关系；

根据所述模型训练步数对所述第一神经网络模型进行训练，得到所述第二神经网络模型。

10.一种模型构建方法，其特征在于，包括：

根据所述成长潜力模型中的超参数，得到优选超参数；

11.一种超参数调优装置，其特征在于，包括：

获取模块，用于获取对多个初始神经网络模型分别进行训练后得到的多个第一神经网络模型；每一所述初始神经网络模型基于一组超参数和一组初始被训练参数构建得到；所述多个初始神经网络模型对应多组超参数；所述第一神经网络模型包括超参数和第一被训练参数；所述第一神经网络模型具有根据所述超参数和所述第一被训练参数得到的第一模型能力评估值；所述第一模型能力评估值，用于反映游戏场景中所述第一神经网络模型控制游戏角色进行游戏的表现，为通过所述第一神经网络模型控制游戏角色进行游戏时的胜负比例；在通过所述第一神经网络模型控制游戏角色进行游戏的过程中，所述第一神经网络模型基于输入的游戏数据所输出的结果，用于确定所述游戏角色在游戏环境中所执行的操作；

训练模块，用于对多个所述第一神经网络模型分别进行训练，得到多个第二神经网络模型；所述第二神经网络模型包括所述超参数和第二被训练参数；所述第二神经网络模型具有根据所述超参数和所述第二被训练参数得到的第二模型能力评估值；所述第二模型能力评估值，用于反映所述游戏场景中所述第二神经网络模型控制游戏角色进行游戏的表现，为通过所述第二神经网络模型控制游戏角色进行游戏时的胜负比例；在通过所述第二神经网络模型控制游戏角色进行游戏的过程中，所述第二神经网络模型基于输入的游戏数据所输出的结果，用于确定所述游戏角色在游戏环境中所执行的操作；

成长度确定模块，用于针对每一所述第二神经网络模型，根据所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度；

筛选模块，用于根据多个所述第二神经网络模型各自的模型成长度，在多个所述第二神经网络模型中筛选出成长潜力模型；

选优模块，用于根据所述成长潜力模型中的超参数，得到优选超参数；所述优选超参数用于构建游戏角色控制模型；所述游戏角色控制模型用于控制游戏角色在游戏环境中执行移动操作、决策操作、协作操作中的至少一种操作。

12.根据权利要求11所述的装置，其特征在于，所述成长度确定模块，具体用于：

计算所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值的评估值差值；根据所述评估值差值和所述第二神经网络模型的第二模型能力评估值，计算所述第二神经网络模型相对于所述第一神经网络模型的模型成长度。

13.根据权利要求12所述的装置，其特征在于，所述成长度确定模块，具体用于：

获取成长权重；根据所述成长权重，得到能力评估值权重；计算所述评估值差值与所述成长权重的乘积，得到加权成长值；计算所述第二神经网络模型的第二模型能力评估值与所述能力评估值权重的乘积，得到加权能力值；计算所述加权成长值与所述加权能力值之和，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度。

14.根据权利要求11所述的装置，其特征在于，所述第二神经网络模型具有n个，n≥2；所述筛选模块具体用于：

按照多个所述第二神经网络模型各自的模型成长度，对n个所述第二神经网络模型进行降序排序；根据预设的模型保留比例，在n个所述第二神经网络模型中，保留排序前m个所述第二神经网络模型，得到m个成长潜力模型；其中，n＞m≥1。

15.根据权利要求14所述的装置，其特征在于，所述选优模块，具体用于：

确定对所述第一神经网络模型进行训练的当前训练轮数j；j≥1；当所述当前训练轮数j达到预设的迭代训练总轮数R时，按照所述第二模型能力评估值，对m个所述成长潜力模型进行降序排序；R≥j≥1；提取出排序前p个所述成长潜力模型，作为优选模型；其中，m≥p≥1；将所述优选模型中的超参数，作为所述优选超参数。

16.根据权利要求15所述的装置，其特征在于，当所述当前训练轮数j未达到所述迭代训练总轮数R时，所述选优模块，还用于：

17.根据权利要求15所述的装置，其特征在于，所述装置还用于：

判断n个所述第二神经网络模型是否符合预设的同时训练模型数量b；若是，则将所述第二神经网络模型作为所述成长潜力模型，并执行所述根据所述成长潜力模型中的超参数，得到优选超参数的步骤；若否，则执行所述根据所述第二神经网络模型的第二模型能力评估值、与所述第二神经网络模型对应的第一模型能力评估值之间的差异，得到所述第二神经网络模型相对于所述第一神经网络模型的模型成长度的步骤。

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

所述训练模块，还用于对N个所述初始神经网络模型进行训练，得到N个所述第一神经网络模型。

19.根据权利要求15所述的装置，其特征在于，所述训练模块，具体用于：

20.一种模型构建装置，其特征在于，包括：

21.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

22.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。