CN114385876A

CN114385876A - 一种模型搜索空间生成方法、装置及***

Info

Publication number: CN114385876A
Application number: CN202210037063.9A
Authority: CN
Inventors: 吴海峰; 杨建�; 方磊
Original assignee: Beijing Zetyun Tech Co ltd
Current assignee: Beijing Zetyun Tech Co ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22
Anticipated expiration: 2042-01-13
Also published as: CN114385876B

Abstract

本发明实施例提供一种模型搜索空间生成方法、装置及***。所述方法包括：获取建模任务信息，所述建模任务信息包括目标数据集信息；使用预先训练的用于推荐模型训练方法的推荐模型对所述数据集的特征信息进行处理，得到推荐结果；根据所述推荐结果生成模型搜索空间；其中，所述推荐结果包括特征工程策略和模型训练算法，所述模型搜索空间包括：算子模块空间和算子参数空间。本发明实施例由于根据推荐结果生成的模型搜索空间具有收敛性，无需对模型搜索空间进行海量计算，从而减少了用于模型训练的计算机的资源消耗。另外，由于模型搜索空间具有收敛性，建模工具从模型搜索空间选取特征处理策略、模型算法以及对应的超参数的时间大大减少，从而提高了模型训练过程的参数搜索效率。

Description

一种模型搜索空间生成方法、装置及***

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型搜索空间生成方法、装置及***。

背景技术

随着社会信息化和智能化水平提高，使用建模工具训练业务模型，并使用训练好的业务模型实现大数据业务智能化处理也逐渐成为大数据行业的通用手段。

现有模型训练过程中，通常是定义了一个巨大的搜索空间，该搜索空间通常包括多种处理特征策略、模型算法以及对应的超参数。建模工具从搜索空间搜索特征处理策略、模型算法以及对应的超参数进行模型训练。而由于搜索空间非常大，导致建模工具从搜索空间选取特征处理策略、模型算法以及对应的超参数的过程十分耗时，从而导致用于模型训练的计算机需要消耗较大的资源。

发明内容

本发明实施例提供一种模型搜索空间生成方法、装置及***，可以解决现有建模工具从搜索空间选取特征处理策略、模型算法以及对应的超参数的过程十分耗时的问题，从而导致用于模型训练的计算机需要消耗较大的资源。

为解决上述技术问题，本发明提供一种模型搜索空间生成方法，所述方法包括：

获取建模任务信息，所述建模任务信息包括目标数据集信息；

使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果；

根据所述推荐结果生成模型搜索空间；

其中，所述推荐结果包括特征工程策略和模型训练算法，所述模型搜索空间包括：算子模块空间和算子参数空间。

可选的，上述方法中，所述使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果的步骤之前，所述方法还包括：

获取建模数据宽表，得到用于训练所述推荐模型的样本数据；

根据所述样本数据进行模型训练，生成所述推荐模型。

可选的，上述方法中，所述获取建模数据宽表，得到用于训练所述推荐模型的样本数据的步骤包括：

响应于第一模型训练完成消息，获取用于训练所述第一模型的数据集信息以及所述第一模型的训练信息；

根据所述第一模型对应的数据集信息和训练信息，得到建模数据宽表。

可选的，上述方法中，所述训练信息包括：算子模块信息以及各算子对应的算子参数，所述算子模块包括特征工程策略模块和模型训练模块；

所述根据所述第一模型对应的数据集信息和训练信息，得到建模数据宽表的步骤包括：

将所述数据集信息以及所述算子模块信息以及各算子对应的算子参数合并为一条训练记录；

根据所述训练记录，生成所述建模数据宽表。

可选的，上述方法中，所述根据所述推荐结果生成模型搜索空间的步骤之后，所述方法还包括：

基于所述目标数据集信息在所述模型搜索空间进行搜索，得到第一搜索结果；

基于所述第一搜索结果创建业务模型。

可选的，上述方法中，所述建模任务信息中还包括：搜索参数和/或建模场景，所述根据所述推荐结果生成模型搜索空间的步骤之后，所述方法还包括：

基于所述目标数据集信息，以及，所述搜索参数和/或建模场景在所述搜索空间搜索，得到第二搜索结果；

基于所述第二搜索结果创建业务模型。

可选的，所述方法还包括：

完成所述业务模型后，获取所述业务模型得到的目标模型训练信息；

根据所述目标数据集信息以及所述目标模型训练信息，更新所述建模数据宽表；

根据更新后的建模数据宽表，调整所述推荐模型。

可选的，上述方法中，所述根据所述推荐结果生成模型搜索空间的步骤包括：

根据所述推荐结果中算子参数的数据类型对所述推荐结果进行筛选，得到筛选结果；

基于所述筛选结果生成所述模型搜索空间。

本发明实施例还提供了一种模型搜索空间生成装置，所述装置包括：

第一获取模块，用于获取建模任务信息，所述建模任务信息包括目标数据集信息；

处理模块，用于使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果；

第一生成模块，用于根据所述推荐结果生成模型搜索空间；

可选的，所述装置还包括：

第二获取模块，用于获取建模数据宽表，得到用于训练所述推荐模型的样本数据；

第二生成模块，用于根据所述样本数据进行模型训练，生成所述推荐模型。

可选的，上述装置中，所述第二获取模块包括：

获取子模块，用于响应于第一模型训练完成消息，获取用于训练所述第一模型的数据集信息以及所述第一模型的训练信息；

处理子模块，用于根据所述第一模型对应的数据集信息和训练信息，得到建模数据宽表。

可选的，上述装置中，所述训练信息包括：算子模块信息以及各算子对应的算子参数，所述算子模块包括特征工程策略模块和模型训练模块；

所述处理子模块包括：

合并单元，用于将所述数据集信息以及所述算子模块信息以及各算子对应的算子参数合并为一条训练记录；

生成单元，用于根据所述训练记录，生成所述建模数据宽表。

可选的，所述装置还包括：

第一搜索模块，用于基于所述目标数据集信息在所述模型搜索空间进行搜索，得到第一搜索结果；

第一创建模块，用于基于所述第一搜索结果创建业务模型。

可选的，上述装置中，所述建模任务信息中还包括：搜索参数和/或建模场景，所述装置还包括：

第二搜索模块，用于基于所述目标数据集信息，以及，所述搜索参数和/或建模场景在所述搜索空间搜索，得到第二搜索结果；

第二创建模块，用于基于所述第二搜索结果创建业务模型。

可选的，所述装置还包括：

第三获取模块，用完成所述业务模型后，获取所述业务模型任务得到的目标模型训练信息；

更新模块，用于根据所述目标数据集信息以及所述目标模型训练信息，更新所述建模数据宽表；

调整模块，用于根据更新后的建模数据宽表，调整所述推荐模型。

可选的，上述装置中，所述第一生成模块包括：

筛选子模块，用于根据所述推荐结果中算子参数的数据类型对所述推荐结果进行筛选，得到筛选结果；

生成子模块，用于基于所述筛选结果生成所述模型搜索空间。

本发明实施例还提供了一种模型搜索空间生成***，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的模型搜索空间生成方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的模型搜索空间生成方法的步骤。

本发明实施例使用预先训练的用于推荐模型训练方法的推荐模型对目标数据集信息进行处理，得到推荐结果；根据所述推荐结果生成模型搜索空间，由于根据推荐结果生成的模型搜索空间具有收敛性，无需对模型搜索空间进行海量计算，从而减少了用于模型训练的计算机的资源消耗。另外，由于模型搜索空间具有收敛性，建模工具从模型搜索空间选取特征处理策略、模型算法以及对应的超参数的时间大大减少，从而提高了模型训练过程的参数搜索效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的一种模型搜索空间生成方法的流程图；

图2是本发明实施例提供的一种模型搜索空间生成装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的模型搜索空间生成方法的流程图，如图1所示，模型搜索空间生成方法包括以下步骤：

步骤101，获取建模任务信息，所述建模任务信息包括目标数据集信息。

这里，建模任务信息可以包括用户输入用于推荐模型进行预测的目标数据集，通过分析该目标数据集进而获取目标数据集信息。其中，所述目标数据集信息包括但不限于下述至少之一：该数据集的特征信息、该数据集对应的场景。所述目标数据集的特征信息包括以下至少之一：任务类型、总行数、总列数、类别特征列数、连续特征列数、日期特征列数、文本特征列数、类别特征列平均缺失值率、连续特征列平均缺失值率、日期特征列平均缺失值率、文本特征列平均缺失值率、类别特征不同值总个数、最大类别特征不同值个数、数据集文件大小等特征信息。另外，目标数据集包括但不限于图像数据集，文本数据集，语音数据集。

步骤102，使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果。

其中，利用预先训练的用于推荐模型训练方法的推荐模型对目标数据集信息进行预测分析，得到所述推荐模型的推荐结果，其中，该推荐结果包括：特征工程策略、模型训练算法和算法对应的参数。可选的，所述使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果的步骤102之前，所述方法还包括：

根据所述样本数据进行模型训练，生成所述推荐模型。

其中，该建模数据宽表中包含历史建模数据，具体包括：训练模型使用的数据集信息、训练模型使用的算子模块、各个算子模型对应的算子参数等。基于这些建模数据进行模型训练，得到用于推荐模型训练方法的推荐模型。其中，推荐模型可以包括多分类模型、回归模型或神经网络模型，本发明对此不作具体限定。

示例性的推荐模型的训练过程如下：宽表格中的一条数据记录包括两部分，即数据集信息和训练模型使用的算子模块、各个算子模型对应的算子参数等模型训练信息，其中，算子模块包括但不限于：预处理模块、特征工程策略模块、模型训练模块。将数据集信息作为推荐模型训练样本的特征列X，将训练模型使用的算子模块、各个算子模块对应的算子参数等模型训练信息作为推荐模型训练样本的目标列Y，将该训练样本输入到机器学习模型中进行训练，得到最终的推荐模型。

可选的，所述获取建模数据宽表，得到用于训练所述推荐模型的样本数据的步骤包括：

其中，所述训练信息包括：算子模块信息以及各算子对应的算子参数，

根据所述训练记录，生成所述建模数据宽表。

其中，在进行第一模型训练之前，分析用于训练第一模型的数据集的特征，例如，对于一个表格数据集在清除掉id列、常量列这些无效列后，至少统计出以下信息之一：任务类型、总行数、总列数、类别特征列数、连续特征列数、日期特征列数、文本特征列数、类别特征列平均缺失值率、连续特征列平均缺失值率、日期特征列平均缺失值率、文本特征列平均缺失值率、类别特征不同值总个数、最大类别特征不同值个数、数据集文件大小等特征，得到该数据集的特征信息，从而得到该数据集信息。另外，还可以通过分析该数据集，确定该第一模型对应的场景，获得场景信息，得到该数据集信息。

在得到用于模型训练的数据集和/或用户场景后，根据数据集的特征信息和/或用户场景在预先设置的搜索空间中搜索，得到特征处理策略、模型训练算法以及算法参数。将特征处理策略、模型训练算法以及算法参数进行组合，然后基于组合得到的第一模型训练任务，使用第一模型训练任务运行该数据集，当模型训练完成后，获取第一模型训练任务完成后对应的训练信息(即模型训练信息)，其中模型训练信息包括但不限于：特征处理策略、模型训练算法，以及对应的算法参数。将特征处理策略、模型训练算法，以及对应的算法参数和用于训练的数据集信息(包括：数据集的特征信息和/或场景信息)记录合并为一条训练记录；根据所述训练记录，生成所述建模数据宽表。

示例性的，数据集的特征信息称为“数据集特征列”，这些数据可以在训练模型之前对数据集进行分析得到并存储。在建模结束后统计建模任务最终选择的特征工程策略、算法以及它们的参数。假如在默认的搜索空间(可以理解是数据处理***内预设置的特征工程策略模块、算子和对应参数配置)内定义的有下列特征工程策略、算法以及对应的超参数如下：

·缺失值填充

■strategy(填充策略)

●标准化

●LightGBM算法

■boosting_type(提升算法类型)

■n_estimators(子分类器个数)

·XGBoost算法

■booster(提升算法类型)

■max_depth(最大树深度)

记录在模型训练过程中使用的模块以及其对应的超参数，记录成以下字段：

·是否使用缺失值填充

·是否使用标准化

·是否使用LightGBM算法

·是否使用XGBoost算法

·缺失值填充模块的strategy

·LightGBM算法的boosting_type

●LightGBM算法的n_estimators

·XGBoost算法的booster

·XGBoost算法的max_depth

将以上数据列称为“搜索空间数据列”，这些数据可以在建模任务结束后得到并存储。将“搜索空间数据列”和“数据集特征列”组成一条记录(数据为样例)：

表1

当模型训练任务足够多的时候，就可以用这张表格中的数据训练模型来生成搜索空间。搜索空间的组成部分：算子模块空间和算子参数空间。其中，算子模块空间包括搜索空间中的模块例如特征工程策略模块、算子模块等，算子参数空间包括算子模块对应的参数。

步骤103，根据所述推荐结果生成模型搜索空间。

其中，所述模型搜索空间包括：算子模块空间和算子参数空间。

可选的，所述根据所述推荐结果生成模型搜索空间的步骤103包括：

根据所述推荐结果中参数的数据类型对所述推荐结果进行筛选；

基于所述筛选后的所述推荐结果生成所述模型搜索空间。

具体的，为了进一步提升生成的模型搜索空间的收敛性，在降低搜索时间的同时保证搜索的准确性，本发明提供一种可行的方式，具体的，若算子参数的数据类型为整数型，则按照预设方式选择排序前预设位的参数；若算子参数的数据类型为布尔型或浮点型，则选择算子参数值上下浮动至指定预设范围内的结果最为筛选后的推荐结果。其中，预设位或者预设范围可以是预先设置的数值，还可以是用户自行设置的。

示例性的，对于一次模型训练任务，决定其搜索空间中是否要加入某个模块，可以以“数据集特征列”为特征，以“搜索空间数据列”中的“是否使用这个模块”为目标列，训练一个模型。需要说明的是，不需要对每个模型训练任务训练，定期训练即可。对新的模型训练的数据集计算得到“数据集特征列”作为X输入到这个模型来预测，并根据预测结果决定是否要使用该模块，可选的，可以适当调低模型的置信率以便搜索空间内有足够多的模块。

以搜索空间是否需要加入“标准化”模块为例，以“数据集特征列”为特征，以“搜索空间数据列”中的“是否使用标准化”为目标列使用LigthGBM训练一个模型，然后提取当前数据集的“数据集特征列”数据送入推荐模型预测，根据预测结果决定是否要加入“标准化”模块。

当确定完搜索空间中的模块后，就要为该模块选择参数空间了，类似于选取模块的过程，以“数据集特征列”为特征，以“搜索空间数据列”中的“这个参数”列为目标列训练一个模型。需要说明的是，不需要对每个建模任务训练，定期训练即可。举例说明：假设在搜索空间已经选取了“LightGBM算法”，现在要选取boosting_type的参数空间，它有4个取值：gbdt、rf、dart、goss。以“数据集特征列”为特征，以“搜索空间数据列”中的“LightGBM算法模块的boosting_type”为目标列，训练一个多分类模型。然后将当前任务的数据集提取出的“数据集特征列”数据作为X使用模型预测，比如预测结果为gbdt、rf、dart、goss的概率分别为0.1，0.2，0.5，0.3，可以取预测结果中概率最高的2个值也就是dart和goss加入到搜索空间作为“LightGBM算法模块的boosting_type”的待选参数，还可以根据用户能接受的运行时间和资源决定生成参数的数量。例如用户如果可以接受较多的时间，则可以按概率从高到低排序选择75％的参数作为待选参数，也就是选择dart,goss,rf这3个参数加入到搜索空间，如果希望使用较少的资源和时间可以取概率排序结果的前25％或者50％作为待选参数。

类似的，如果需要选择的参数是连续型的，可以训练一个回归模型。假设在搜索空间已经选取了“LightGBM算法”，现在要选取“n_estimators”的参数空间，以“数据集特征列”为特征，以“搜索空间数据列”中的“LightGBM算法模块的n_estimators”为目标列训练一个回归模型。该模型预测的结果为连续类型的值，可以将结果向上偏移50％，向下偏移50％最终得到，其中，50％是可以根据用户可以接受搜索空间的大小进行调整，比如预测结果是100，那么可以在搜索空间中给n_estimators设置3个参数：[50,100,150]。

可选的，所述根据所述推荐结果生成模型搜索空间的步骤之后，所述方法还包括：

基于所述目标数据集的信息在所述模型搜索空间进行搜索，得到第一搜索结果；

基于所述搜索结果创建业务模型。

具体的，在生成模型搜索空间之后，基于在步骤101中用户输入的目标数据集的信息在搜索空间进行搜索，得到搜索结果，所述搜索结果包括算子模块以及对应的参数。基于在搜索空间得到的算子模块以及对应的参数创建业务模型。

可选的，所述根据所述推荐结果生成模型搜索空间的步骤101之后，所述建模任务信息中还包括：搜索参数和/或建模场景，所述根据所述推荐结果生成模型搜索空间的步骤之后，所述方法还包括：

基于所述第二搜索结果创建业务模型。

具体的，所述搜索参数包括、搜索次数、场景、搜索时间等信息。根据目标数据集信息以及搜索参数在在搜索空间进行搜索，得到搜索结果，所述搜索结果包括算子模块以及对应的参数。基于在搜索空间得到的算子模块以及对应的参数创建业务模型。

可选的，所述方法还包括：

根据更新后的建模数据宽表，调整所述推荐模型。

具体的，使用业务模型进行建模训练时，获取所述业务模型得到的目标模型训练信息。基于目标模型训练任务对应的目标数据集信息和目标模型训练信息更新建模数据宽表。在更新建模数据宽表后，训练推荐模型的样本数据得到更新，进而基于更新的样本数据重新训练推荐模型。

本发明实施例由于根据推荐结果生成的模型搜索空间具有收敛性，无需对模型搜索空间进行海量计算，从而减少了用于模型训练的计算机的资源消耗。另外，由于模型搜索空间具有收敛性，建模工具从模型搜索空间选取特征处理策略、模型算法以及对应的超参数的时间大大减少，从而提高了模型训练过程的参数搜索效率。

基于以上实施例提供的模型搜索空间生成方法，本发明实施例还提供了实施上述方法的模型搜索空间生成装置，请参照图2，本发明实施例提供的模型搜索空间生成装置200包括：

第一获取模块201，用于获取建模任务信息，所述建模任务信息包括目标数据集信息；

处理模块202，用于使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果；

第一生成模块203，用于根据所述推荐结果生成模型搜索空间；

可选的，所述装置还包括：

可选的，上述装置中，所述第二获取模块包括：

所述处理子模块包括：

可选的，所述装置还包括：

第一搜索模块，用于基于所述目标数据集的信息在所述模型搜索空间进行搜索，得到第一搜索结果；

第一创建模块，用于基于所述第一搜索结果创建业务模型。

第二创建模块，用于基于所述第二搜索结果创建业务模型。

可选的，所述装置还包括：

第三获取模块，用完成所述业务模型后，获取所述业务模型得到的目标模型训练信息；

可选的，上述装置中，所述第一生成模块包括：

本发明实施例还提供一种可读存储介质，可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述模型搜索空间生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型搜索空间生成方法，其特征在于，所述方法包括：

根据所述推荐结果生成模型搜索空间；

2.根据权利要求1所述的模型搜索空间生成方法，其特征在于，所述使用预先训练的用于推荐模型训练方法的推荐模型对所述目标数据集信息进行处理，得到推荐结果的步骤之前，所述方法还包括：

根据所述样本数据进行模型训练，生成所述推荐模型。

3.根据权利要求2所述的模型搜索空间生成方法，其特征在于，所述获取建模数据宽表，得到用于训练所述推荐模型的样本数据的步骤包括：

4.根据权利要求3所述的模型搜索空间生成方法，其特征在于，所述训练信息包括：算子模块信息以及各算子对应的算子参数，所述算子模块包括特征工程策略模块和模型训练模块；

根据所述训练记录，生成所述建模数据宽表。

5.根据权利要求1或2所述的模型搜索空间生成方法，其特征在于，所述根据所述推荐结果生成模型搜索空间的步骤之后，所述方法还包括：

基于所述第一搜索结果创建业务模型。

6.根据权利要求2所述的模型搜索空间生成方法，其特征在于，所述建模任务信息中还包括：搜索参数和/或建模场景，所述根据所述推荐结果生成模型搜索空间的步骤之后，所述方法还包括：

基于所述第二搜索结果创建业务模型。

7.根据权利要求5或6所述的模型搜索空间生成方法，其特征在于，所述方法还包括：

根据更新后的建模数据宽表，调整所述推荐模型。

8.根据权利要求1所述的模型搜索空间生成方法，其特征在于，所述根据所述推荐结果生成模型搜索空间的步骤包括：

基于所述筛选结果生成所述模型搜索空间。

9.一种模型搜索空间生成装置，其特征在于，所述装置包括：

第一生成模块，用于根据所述推荐结果生成模型搜索空间；

10.一种模型搜索空间生成***，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8任一项所述的模型搜索空间生成方法的步骤。