CN114764603A

CN114764603A - 针对用户分类模型、业务预测模型确定特征的方法及装置

Info

Publication number: CN114764603A
Application number: CN202210493240.4A
Authority: CN
Inventors: 李国良; 娄寅; 刘佳斌; 柴成亮; 骆昱宇; 冯建华; 汤南
Original assignee: Tsinghua University; Alipay Hangzhou Information Technology Co Ltd
Current assignee: Tsinghua University; Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-07-19
Anticipated expiration: 2042-05-07

Abstract

本说明书实施例提供一种针对用户分类模型、业务预测模型确定特征的方法及装置，在针对用户分类模型确定特征的方法中，基于各候选表各自的累积分数，从各候选表中选取目标候选表，并从目标候选表中，选取若干目标用户特征。将各目标用户特征添加到第k‑1轮基础表，得到中间基础表。基于中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型。对训练后的用户分类模型进行性能评估，并至少基于得到的第一性能指标值，确定目标候选表的第k轮分数。根据第k轮分数，确定目标候选表的更新的累积分数，以及确定第k轮基础表，以用于下一轮迭代；在多轮迭代后，将最后一轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。

Description

针对用户分类模型、业务预测模型确定特征的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种针对用户分类模型、业务预测模型确定特征的方法及装置。

背景技术

为了提升机器学习模型的预测精度，不仅需要使用优质的训练样本，还需要该训练样本涵盖多个维度的有用特征(也称重要特征)。多数情况下，会基于领域来收集训练样本，然而基于领域所收集的训练样本只能涵盖部分特征。例如，要训练一个用于识别用户是否欺诈用户的用户分类模型，预先收集的训练样本可能只包括用户的画像数据(如，爱好和职业等)以及交易数据等特征。而事实上，用户的信用数据以及基于位置的服务(LocationBased Services，LBS)数据，对于识别用户是否为欺诈用户也很重要。因此，为机器学习模型尽可能地确定出多个维度的有用特征就成为要解决的问题。

发明内容

本说明书一个或多个实施例描述了一种针对用户分类模型、业务预测模型确定特征的方法及装置，可以为用户分类模型、业务预测模型确定出更全面、更有效的特征。

第一方面，提供了一种针对用户分类模型确定特征的方法，包括：

基于所述各候选表各自的累积分数，从所述各候选表中选取目标候选表，并从所述目标候选表中，选取若干目标用户特征；

将各目标用户特征添加到第k-1轮基础表，得到中间基础表；

基于所述中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型；

对训练后的用户分类模型进行性能评估，并至少基于得到的第一性能指标值，确定所述目标候选表的第k轮分数；

根据所述第k轮分数，确定所述目标候选表的更新的累积分数，以及确定第k轮基础表，以用于下一轮迭代；

在所述多轮迭代后，将最后一轮基础表中的用户特征，作为针对所述用户分类模型确定的最终用户特征。

第二方面，提供了一种针对业务预测模型确定特征的方法，包括：

基于所述各候选表各自的累积分数，从所述各候选表中选取目标候选表，并从所述目标候选表中，选取若干目标特征；

将各目标特征添加到第k-1轮基础表，得到中间基础表；

基于所述中间基础表中的特征和业务标签，训练当前的业务预测模型；

对训练后的业务预测模型进行性能评估，并至少基于得到的第一性能指标值，确定所述目标候选表的第k轮分数；

在所述多轮迭代后，将最后一轮基础表中的特征，作为针对所述业务预测模型确定的最终特征。

第三方面，提供了一种针对用户分类模型确定特征的方法，包括：

确定强化学习模型的当前环境状态，其中至少指示第k-1轮基础表；

将所述当前环境状态输入所述强化学习模型，所述强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作；所述目标动作包括，针对所述各候选表中目标候选表的添加/删除，或针对目标用户特征的添加/删除；

基于所述目标动作，更新所述第k-1轮基础表，得到中间基础表；

根据所述目标动作，确定第k轮基础表，以用于下一轮迭代；

第四方面，提供了一种针对业务预测模型确定特征的方法，包括：

将所述当前环境状态输入所述强化学习模型，所述强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作；所述目标动作包括，针对所述各候选表中目标候选表的添加/删除，或针对目标特征的添加/删除；

根据所述目标动作，确定第k轮基础表，以用于下一轮迭代；

第五方面，提供了一种针对用户分类模型确定特征的装置，包括：

选取单元，用于基于所述各候选表各自的累积分数，从所述各候选表中选取目标候选表，并从所述目标候选表中，选取若干目标用户特征；

添加单元，用于将各目标用户特征添加到第k-1轮基础表，得到中间基础表；

训练单元，用于基于所述中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型；

评估单元，用于对训练后的用户分类模型进行性能评估，并至少基于得到的第一性能指标值，确定所述目标候选表的第k轮分数；

确定单元，用于根据所述第k轮分数，确定所述目标候选表的更新的累积分数，以及确定第k轮基础表，以用于下一轮迭代；

所述确定单元，还用于在所述多轮迭代后，将最后一轮基础表中的用户特征，作为针对所述用户分类模型确定的最终用户特征。

第六方面，提供了一种针对业务预测模型确定特征的装置，包括：

选取单元，用于基于所述各候选表各自的累积分数，从所述各候选表中选取目标候选表，并从所述目标候选表中，选取若干目标特征；

添加单元，用于将各目标特征添加到第k-1轮基础表，得到中间基础表；

训练单元，用于基于所述中间基础表中的特征和业务标签，训练当前的业务预测模型；

评估单元，用于对训练后的业务预测模型进行性能评估，并至少基于得到的第一性能指标值，确定所述目标候选表的第k轮分数；

所述确定单元，还用于在所述多轮迭代后，将最后一轮基础表中的特征，作为针对所述业务预测模型确定的最终特征。

第七方面，提供了一种针对用户分类模型确定特征的装置，包括：

确定单元，用于确定强化学习模型的当前环境状态，其中至少指示第k-1轮基础表；

输入单元，用于将所述当前环境状态输入所述强化学习模型，所述强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作；所述目标动作包括，针对所述各候选表中目标候选表的添加/删除，或针对目标用户特征的添加/删除；

更新单元，用于基于所述目标动作，更新所述第k-1轮基础表，得到中间基础表；

所述确定单元，还用于根据所述目标动作，确定第k轮基础表，以用于下一轮迭代；

第八方面，提供了一种针对业务预测模型确定特征的装置，包括：

输入单元，用于将所述当前环境状态输入所述强化学习模型，所述强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作；所述目标动作包括，针对所述各候选表中目标候选表的添加/删除，或针对目标特征的添加/删除；

第九方面，提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一、第二、第三或第四方面的方法。

第十方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一、第二、第三或第四方面的方法。

本说明书一个或多个实施例提供的针对用户分类模型确定特征的方法及装置，包括多轮迭代，其中在每一轮迭代中，先选取目标用户特征，并将该目标用户特征临时添加到基础表中。之后，基于临时添加的用户特征、已存在的用户特征和用户类别标签，训练上一轮训练后的用户分类模型，并进行性能评估。最后，基于性能评估结果，确定是否将目标用户特征真正添加到基础表中。在多轮迭代后，将最后得到的基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。可见在本方案中，可以结合用户分类模型的性能评估结果，来确定所添加的用户特征。换句话说，本方案通过考虑用户特征和用户分类模型的关系，来针对用户分类模型确定特征，由此可以提升针对用户分类模型所确定特征的准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出在一个例子中基础表和候选表的示意图；

图3示出根据一个实施例的针对用户分类模型确定特征的方法流程图；

图4示出在一个例子中确定用户分类模型的特征的方法示意图；

图5示出根据一个实施例的针对业务预测模型确定特征的方法流程图；

图6示出在一个实施例中强化学习模型的结构示意图；

图7示出在一个实施例中训练强化学习模型的方法流程图；

图8示出根据另一个实施例的针对用户分类模型确定特征的方法流程图；

图9示出在另一个例子中确定用户分类模型的特征的方法示意图；

图10示出根据另一个实施例的针对业务预测模型确定特征的方法流程图；

图11示出根据一个实施例的针对用户分类模型确定特征的装置示意图；

图12示出根据另一个实施例的针对用户分类模型确定特征的装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

本说明书实施例提供的方案适用于在基于关系表记录业务对象的特征的情况下，针对业务预测模型确定特征的场景。

需要说明，在上述场景下的特征确定方法主要包括如下两个步骤：第一，确定哪些关系表可以连接，以提供更多的特征。第二，从确定的关系表中，选择哪些特征添加到训练样本集。

关于上述第一个步骤，可以由用户或者专家来指定待连接的关系表以及对应的连接方式，或者可以利用现有的数据发现方式确定可以连接的关系表。值得注意的是，该步骤通常需要人机结合的操作。

关于上述第二个步骤，主要面临两个挑战，其一是特征的有效性，即如何选取若干有效特征添加到训练样本集，使得模型的提升效果最大。其二是效率，连接操作是耗时的，尤其在候选的关系表(简称候选表)个数比较多的情况下。因此如何加速该过程是一个重要挑战。

传统技术大多采用启发式的方法去选取特征，而不去考虑特征与业务预测模型之间的关系。或者支持的业务预测模型以及连接方式有限，不足以泛化到一般场景。

鉴于此，本申请的发明人提出了一种结合业务预测模型的性能评估结果，来确定所添加的特征的方案。具体实现方法有两种。

一种是基于多臂***的特征确定方法。多臂***(Multi-armedbandit,MAB)是一种典型的的多步决策框架。MAB考虑N个待选择的动作，每个动作可以看做***的一个手臂，每摇动一个***的手臂就可以产生一份奖励。它建模了一个智能体获取新知识(exploration)的同时对较优的解法进行深度挖掘(exploitation)的过程，其目的是在一段时间内获得通过摇动不同***的手臂最大的奖励。基于多臂***的特征确定方法具体可以如下：将若干候选表分别作为多臂***中的若干个手臂，在每次摇手臂的过程中，会选择一个候选表进行连接，然后选择一些特征加到训练样本集中进行模型的训练以及测试。基于模型测试的结果用来指导摇臂的策略。

另一种是基于强化学习的特征确定方法，其核心思想是利用深度神经网络，建模数据特征，并将选择关系表和特征统一到一个框架内。以下进行详细说明。

以下先对第一种特征确定方法(即基于多臂***的特征确定方法)进行说明，该方法的总体思路如下：

在第k轮迭代时，执行一个动作，该一个动作表示选择了一个候选表和其中的若干特征(也称特征子集)，即a_k＝T_i[F]，其中，T_i为候选表集合中的一张候选表，F是本轮迭代中选择的特征子集。T_i[F*]表示添加全部特征。显然，如果T_i是第一次被选取，为了评估其中的特征，必须进行连接操作，将T_i与基础表连接在一起。否则，连接结果应该预先存储。这样，我们就可以从T_i中选择更多的特征。下文中使用T_k来表示动作a_k被执行后的基础表，T_k将作为模型的训练样本。更具体地说，

其中，T₀＝a₀＝T_b[*]。

每个动作可以分为两个步骤，即选择一个候选表和该候选表的一个特征子集。第一步，考虑候选表的累积分数(后续说明)。第二步，如何选择给定候选表的特征。具体来说，一旦候选表T_i在某轮迭代k中被选取，我们就有

然后，基于XGBoost等特征排序模型来计算T_i中特征的重要性，对这些特征进行排名并选择top-l的特征进行添加。如果在随后的迭代中，表T_i再次被选择，我们选后续l个特征来添加而不用再次进行连接。然后将T_k-1连同添加的特征一起输入模型进行训练和测试，返回的性能将用于更新候选表T_i的累积分数。

候选表的分数。直观上，如果一个候选表中的特征被选取，在模型测试后，根据性能的改变，每轮迭代需要为其分配一个分数。如果模型性能提升，则分配一个正分数作为奖励，如果模型性能下降，则分配一个负分数作为惩罚。

以下对上述第一种特征确定方法进行详细说明。

图1为本说明书披露的一个实施例的实施场景示意图。图1中，基础表T_b至少记录多个业务对象的业务标签。这里的业务对象可以包括以下中的任一种：用户、图片以及文本等。对应的业务标签可以为：用户类别标签、图片类别标签以及文本类别标签等。此外，基础表还记录各业务对象的初始特征，从而基础表中的一行可以对应于一个训练样本。候选表T₁-T₃分别记录多个业务对象的若干特征(也称候选特征)。

图1中，首先可以基于基础表中的初始特征和业务标签，训练初始的业务预测模型，并利用对应于基础表的验证集T_val(与基础表具有相同的模式)对其进行性能评估，得到初始的性能评估值。接着，基于预定义的表选取策略，从候选表T₁-T₃中选取某一候选表，假设为T₁。建立基础表T_b与候选表T₁的连接，并从候选表T₁中选取若干目标特征添加到基础表T_b，得到中间基础表。之后，基于中间基础表中的特征和业务标签，训练当前的业务预测模型，并利用更新的验证集(针对初始的验证集添加目标特征后的验证集)对其进行性能评估，得到当前的性能评估值。之后根据当前的性能评估值与初始的性能评估值的差值，选择将基础表T_b还是中间基础表作为更新的基础表。

基于更新的基础表，执行下一轮的特征选取，直至达到迭代结束条件(业务预测模型收敛或者迭代次数达到预设的阈值次数等)。

在迭代结束后，可以将最后一轮迭代更新的基础表中的特征，作为针对业务预测模型确定的特征。这里的业务预测模型例如可以为用户分类模型、图片分类模型或者文本分类模型等分类模型，也可以为回归模型。在一个示例中，这里的业务预测模型可以基于SVM算法、随机森林算法、深度学习算法等实现。在另一个示例中，上述业务预测模型可以基于线性回归算法实现。

应理解，图1只是一种示例性说明。在实际应用中，在训练初始的业务预测模型之前，可以先对基础表T_b中的训练样本进行采样(比如，分层抽样)，得到采样的基础表T'_b，之后基于采样的基础表T'_b，在每一轮选取待添加的特征。

需要说明，由于候选表的数据量通常比较大，因此本方案通过先对基础表进行采样，然后基于采样后的基础表，针对业务预测模型确定特征的方法，可以降低连接操作的复杂度，进而可以提升特征确定效率。

以下以业务预测模型为用户分类模型为例，对针对该用户分类模型确定特征的方法进行说明。

在描述针对用户分类模型的特征确定方法之前，先对基础表和候选表等概念进行说明。

首先，本说明书所述的基础表至少记录多个用户的用户类别标签。此外，还可以记录各用户的初始特征。在还记录初始特征的情况下，基础表中的一行可以对应于一个用户样本。需要说明，基础表中的用户样本通常是基于单一领域收集的，其中包括的初始特征的数目通常是少量的，因此基于基础表中的用户样本，所训练的用户分类模型的预测精度往往不能满足要求，因此，需要向基础表中添加特征，或者说，需要增强基础表中的特征，以提升模型预测精度。

此外，本说明书所述的各候选表从外部数据源(如，数据库或数据仓库)获取得到，其中分别记录多个用户的若干用户特征(也称候选特征)。候选表中的用户特征通常是从上述单一领域的相关领域收集的，可以被添加到基础表，以得到更优质的训练样本。

图2示出在一个例子中基础表和候选表的示意图。图2中，示出1个基础表T_b(也称初始的基础表)和4个候选表T₁-T₄，其中，基础表T_b中记录有4个初始特征和1个用户类别标签，其中的4个初始特征分别表示为：f_b,1、f_b,2、f_b,3以及f_b,4，以及其中的1个用户类别标签表示为：L。此外，候选表T₁中记录有4个用户特征：f_1,1、f_1,2、f_1,3以及f_1,4，候选表T₂中记录有6个用户特征：f_2,1、f_2,2、f_2,3、f_2,4、f_2,5以及f_2,6。候选表T₃中记录有8个用户特征：f_3,1、f_3,2、f_3,3、f_3,4、f_3,5、f_3,6、f_3,7以及f_3,8。候选表T₄中记录有6个用户特征：f_4,1、f_4,2、f_4,3、f_4,4、f_4,5以及f_4,6。

图3示出根据一个实施例的针对用户分类模型确定特征的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。需要说明，该方法包括多轮迭代，图3示出其中第k(k为正整数)轮迭代包括的方法步骤。可以理解，通过重复执行其中示出的步骤，可以实现对基础表的多轮迭代更新，进而将最后一轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。如图3所示，该方法可以包括如下步骤：

步骤302，基于各候选表各自的累积分数，从各候选表中选取目标候选表，并从目标候选表中，选取若干目标用户特征。

需要说明，在上述第k轮迭代为首轮迭代时，在从各候选表中选取目标候选表之前，可以先利用基础表中的初始特征和业务标签，训练初始的用户分类模型，得到当前的用户分类模型。之后，还可以利用对应于基础表的验证集，对当前的用户分类模型进行评估，得到初始的性能评估指标值，以用于下一轮迭代。

这里的用户分类模型可以二分类模型，也可以为多分类模型，其具体可以实现为SVM模型、树结构模型或者深度学习模型等。其中的树结构模型可以包括但不限于LightGBM、XGBoost或者随机森林(Randomforest)等。

步骤302中，以各候选表中任意的第一候选表为例来说，该第一候选表的累积分数，为前k-1轮迭代针对该第一候选表确定的若干分数的综合分数，或者基于该综合分数和前k-1轮迭代中第一候选表的选取次数而确定。具体的确定方法后续说明。

在一个示例中，上述从各候选表中选取目标候选表可以包括，从各候选表中，选取对应累积分数最大的候选表作为目标候选表。

在另一个示例中，也可以结合各候选表的优先级，从各候选表中选取目标候选表。

此外，在一个示例中，可以基于目标候选表中各用户特征各自的重要度选取目标用户特征。其中，各用户特征各自的重要度可以基于如下方法确定：

建立第k-1轮基础表与目标候选表的连接，得到临时数据表。利用临时数据表中的用户特征和用户类别标签，训练特征排序模型。通过经过训练的特征排序模型，得到目标候选表中的各用户特征各自的重要度。

这里的特征排序模型可以为上述树结构模型，也可以为其它具有特征排序功能的模型。

需要说明，在实际应用中，如果用户分类模型本身具有特征排序功能，那么也可以不用单独训练特征排序模型，而是基于用户分类模型，来获取目标候选表中的各用户特征各自的重要度。

上述第k-1轮基础表可以是基于初始的基础表，以及前k-1轮迭代分别添加的用户特征而确定。换句话说，第k-1轮基础表中的用户特征可以包括：初始特征以及前k-1轮迭代分别添加的用户特征。应理解，第k-1轮基础表中的一行也对应于一个用户样本。

此外，上述连接可以包括但不限于左连接(可以保留基础表的所有信息)，主外键连接或者自然连接等。具体可以通过数据定义语言(Data Define Language,DDL)来指定。

当然，在实际应用中，也可以根据经验知识，预先设定各用户特征各自的重要度，本说明书对此不作限定。

关于目标用户特征的选取，在一种具体实现方式中，可以从目标候选表中的各用户特征中，选取对应重要度排序靠前的预定数目个未选取过的用户特征，作为若干目标用户特征。

步骤304，将各目标用户特征添加到第k-1轮基础表，得到中间基础表。

具体地，可以将各目标用户特征添加到第k-1轮基础表，并根据目标候选表中，各目标用户特征的特征值，对应添加第k-1轮基础表中各目标用户特征的特征值。

比如，可以将目标候选表中某一用户的目标用户特征的特征值，作为第k-1轮基础表中该用户的新添加的目标用户特征的特征值。

步骤306，基于中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型。

应理解，上述中间基础表中的一行可以对应于一个更新的用户样本。之后可以基于更新的各用户样本训练当前的用户分类模型。

此外，在训练当前的用户分类模型之后，将本轮训练后的用户分类模型更新为当前的用户分类模型，以用于下一轮迭代。

步骤308，对训练后的用户分类模型进行性能评估，并至少基于得到的第一性能指标值，确定目标候选表的第k轮分数。

上述性能评估具体可以包括，将目标用户特征添加到第k-1轮验证集，得到第k轮验证集。利用第k轮验证集，对训练后的用户分类模型进行性能评估，得到第一性能评估值。

这里的第k-1轮验证集，可以是基于基础表对应的验证集，以及前k-1轮迭代分别添加的用户特征而确定。

当然，在实际应用中，也可以直接将基础表对应的验证集作为第k-1轮验证集，本说明书对此不作限定。

此外，在一个示例中，上述确定目标候选表的第k轮分数可以包括，将第一性能指标值减去第二性能指标值的差值，确定为第k轮分数。这里的第二性能指标值是通过对上一轮训练后的用户分类模型进行性能评估得到的。

在另一个示例中，也可以将上述差值与预定系数的乘积，确定为第k轮分数。

关于上述第一、第二性能指标值，其例如可以为准确率、精确率、召回率或者接收者操作特征(Receiver Operating Characteristic，简称ROC)曲线下的面积(Area underCurve，简称AUC)值等等。

需要说明，上述第k轮分数可以为正数，也可以为负数。具体地，如果第k轮分数为正数，则可以将其看作是奖励，否则可以看作是惩罚。

步骤310，根据第k轮分数，确定目标候选表的更新的累积分数，以及确定第k轮基础表，以用于下一轮迭代。

其中，在一个示例中，上述确定目标候选表的更新的累积分数可以包括，基于k轮迭代中目标候选表的选取次数，以及针对每次选取分别对目标候选表确定的若干分数，确定综合分数，作为更新的累积分数。

在一个例子中，可以根据如下公式确定更新的累积分数：

其中，

为候选表T_i的累积分数，k为迭代次数，

为k轮迭代中候选表T_i的选取次数，

为在每一轮迭代中针对候选表T_i确定的分数(包括第1轮分数、第2轮分数、…、第k轮分数)。应理解，在任一轮迭代中，若候选表T_i未被选取，那么针对其确定的分数为0。

在另一个示例中，上述确定目标候选表的更新的累积分数可以包括，基于k轮迭代中目标候选表的选取次数，以及针对每次选取分别确定的若干分数，确定综合分数。基于综合分数，以及选取次数，确定更新的累积分数。其中，更新的累积分数正相关于综合分数，负相关于选取次数。

在一个例子中，可以根据如下公式确定更新的累积分数：

其中，

为候选表T_i的累积分数，k为迭代次数，

为综合分数，其基于k轮迭代中候选表T_i的选取次数，以及针对每次选取分别确定的若干分数而确定(参见公式1)。

为k轮迭代中候选表T_i的选取次数。

需要说明，本说明书实施例中，通过结合候选表的选取次数，确定候选表的累积分数的方法，实际上借鉴了exploration-exploitation的策略。即在持续开发(exploitation)较优关系表的同时，亦探索(exploration)那些很少被选择的关系表。由此可以避免，持续选择能为模型带来较大提升的关系表中的特征，而失去探索其他关系表的机会，或者专注于探索不同的关系表，而不能在较优的关系表上深入挖掘的问题。

此外，上述确定第k轮基础表具体可以包括，判断第k轮分数是否小于预设的阈值分数(比如，0)。在小于预设的阈值分数的情况下，将第k-1轮基础表确定为第k轮基础表。在不小于预设的阈值分数的情况下，将中间基础表确定为第k轮基础表。

需要说明，上述确定第k轮基础表也可以理解为，在当前添加的目标用户特征，对用户分类模型的性能提升没有帮助或者作用不大的情况下，则移除该目标用户特征。可见，本方案通过考虑特征与用户分类模型的关系，来确定最终用户特征。

步骤312，在多轮迭代后，将最后一轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。

应理解，在该实施例中，迭代结束条件例如可以为，用户分类模型收敛或者迭代次数达到预设的迭代次数。

需要说明，在多轮迭代后，可以直接将在最后一轮训练后的用户分类模型作为最终使用的模型，也可以基于确定的最终用户特征，再次训练在最后一轮训练后的用户分类模型，得到最终使用的模型。

以下结合图2示出的基础表和候选表，对针对用户分类模型确定特征的方法进行举例说明。

图4示出在一个例子中确定用户分类模型的特征的方法示意图。图4中，假设该方法包括4轮迭代，即k＝4，每次选取的目标用户特征的数目为2，以及γ＝0.02，那么在第1轮迭代开始前，可以先初始化U₀ ⁱ＝0，R₀ ⁱ＝0，其中i∈[1,4]。

首先，在第1轮迭代中，由于U₀ ⁱ＝0，i∈[1,4]，从候选表T₁-T₄中随机选取一张候选表，假设选取候选表T₄。可以建立基础表T_b与候选表T₄的连接，得到临时数据表。之后，可以利用其中的用户特征和用户类别标签，训练XGBoost模型，通过经过训练的XGBoost模型，对候选表T₄中的用户特征进行排序，假设排序结果如下：f_4,4、f_4,3、f_4,5、f_4,6、f_4,1以及f_4,2，那么可以从中选取用户特征f_4,4和f_4,3作为目标用户特征，添加到基础表T_b，得到第1轮的中间基础表。利用其中的用户特征和用户类别标签，训练用户分类M，并利用验证集T_val对M进行性能评估，得到第1轮分数r₁ ⁴＝0.01。然后，可以得到R₁ ⁴＝0.01。之后基于R₁ ⁴，可以得到

此外，还可以得到

由于r₁ ⁴>0，所以可以将用户特征f_4,4和f_4,3保留在基础表T_b中，即将第1轮的中间基础表作为第2轮使用的基础表T_b。

接着，在第2轮迭代中，由于U₁ ⁴最大，再次选取候选表T₄。由于在第1轮迭代中已经对候选表T₄中的用户特征进行了排序，从而可以直接选取用户特征f_4,5和f_4,6作为目标用户特征，添加到基础表T_b，得到第2轮的中间基础表。在利用其中的用户特征和用户类别标签，重新对M进行训练并评估之后，可以得到第2轮分数r₂ ⁴＝0.02和

之后基于R₂ ⁴，可以得到

此外，还可以得到

由于r₂ ⁴>0，所以可以将用户特征f_4,5和f_4,6保留在基础表T_b中，即将第2轮的中间基础表作为第3轮使用的基础表T_b。

之后，在第3轮迭代，由于

所以从候选表T₁-T₃中选取一张候选表，假设选取候选表T₂，且假设候选表T₂中的各用户特征中，排序靠前的两个用户特征分别为：f_2,2和f_2,5，从而可以将该两个用户特征作为目标用户特征，添加到基础表T_b，得到第3轮的中间基础表。在利用其中的用户特征和用户类别标签，重新对M进行训练并评估之后，可以得到第3轮分数r₃ ²＝0.01，以及R₃ ²＝0.01。之后可以得到

以及可以得到

由于r₃ ²>0，所以可以将用户特征f_2,2和f_2,5保留在基础表T_b中，即将第3轮的中间基础表作为第4轮使用的基础表T_b。

最后，在第4轮迭代中，由于

所以从候选表T₁和T₃中选取一张候选表，假设选取候选表T₁，可以建立基础表T_b与候选表T₁的连接，得到临时数据表。之后，可以利用其中的用户特征和用户类别标签，训练XGBoost模型，通过经过训练的XGBoost模型，对候选表T₃中的用户特征进行排序，假设排序靠前的两个用户特征分别为：f_1,2和f_1,3，从而可以将该两个用户特征作为目标用户特征，添加到基础表T_b，得到第4轮的中间基础表。在利用其中的用户特征和用户类别标签，重新对M进行训练并评估之后，可以得到第4轮分数r₄ ¹＝-0.01，以及R₄ ¹＝-0.01。由于r₄ ¹<0，所以可以丢弃用户特征f_1,2和f_1,3，即将第4轮使用的基础表T_b作为最终的基础表T。

从而最终的基础表

基于该最终的基础表T，就可以得到针对用户分类模型确定的最终用户特征。

综合以上，本说明书实施例提供的方案，通过考虑用户特征和用户分类模型的关系，来针对用户分类模型确定特征，由此可以提升针对用户分类模型所确定特征的准确性。

以上是对针对用户分类模型确定特征的方法的说明，类似地，还可以针对图片分类模型/文本分类模型确定出对应的最终图片特征/最终文本特征。需要说明，在确定最终图片特征时，基础表至少记录多张图片的图片类别标签。此外，还可以记录各图片的初始特征。在还记录初始特征的情况下，基础表中的一行可以对应于一个图片样本。各候选表分别记录多个图片的若干图片特征。以及，在最终文本特征时，基础表至少记录多个文本的文本类别标签。此外，还可以记录各文本的初始特征。在还记录初始特征的情况下，基础表中的一行可以对应于一个文本样本。各候选表分别记录多个文本的若干文本特征。

此外，参照步骤302-步骤312，还可以针对其它分类模型(如，音频分类模型等)或者回归模型确定最终特征。

以下对针对业务预测模型确定特征的方法进行说明。

图5示出根据一个实施例的针对业务预测模型确定特征的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。需要说明，该方法包括多轮迭代，图5示出其中第k(k为正整数)轮迭代包括的方法步骤。可以理解，通过重复执行其中示出的步骤，可以实现对基础表的多轮迭代更新，进而将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

需要说明，针对业务预测模型确定特征的方法同样是基于基础表和若干候选表执行，该基础表和各候选表的定义可以参照上文所述，在此不复赘述。

如图5所示，该方法可以包括如下步骤：

步骤502，基于各候选表各自的累积分数，从各候选表中选取目标候选表，并从目标候选表中，选取若干目标特征。

可选地，在从各候选表中选取目标候选表之前，可以先利用基础表中的初始特征和业务标签，训练初始的业务预测模型，得到当前的业务预测模型。

在一个示例中，上述从各候选表中选取目标候选表，包括：

从各候选表中，选取对应累积分数最大的候选表作为目标候选表。

在一个示例中，上述选取若干目标特征，包括：

基于目标候选表中的各项特征各自的重要度，从各项特征中，选取对应重要度排序靠前的预定数目个未选取过的特征，作为所述若干目标特征。

上述各项特征各自的重要度可以通过以下步骤获得：

建立第k-1轮基础表与目标候选表的连接，得到临时数据表；

利用所述临时数据表中的特征和业务标签，训练特征排序模型；

通过经过训练的特征排序模型，得到所述目标候选表中的各项特征各自的重要度。

步骤504，将各目标特征添加到第k-1轮基础表，得到中间基础表。

具体地，可以将各目标特征添加到第k-1轮基础表，并根据目标候选表中，各目标特征的特征值，对应添加第k-1轮基础表中各目标特征的特征值。

步骤506，基于中间基础表中的特征和业务标签，训练当前的业务预测模型。

步骤508，对训练后的业务预测模型进行性能评估，并至少基于得到的第一性能指标值，确定目标候选表的第k轮分数。

在一个示例中，上述确定目标候选表的第k轮分数可以包括，将第一性能指标值减去第二性能指标值的差值，确定为第k轮分数。其中的第二性能指标值是通过对上一轮训练后的业务预测模型进行性能评估得到的。

步骤510，根据第k轮分数，确定目标候选表的更新的累积分数，以及确定第k轮基础表，以用于下一轮迭代。

其中，在一个示例中，确定目标候选表的更新的累积分数，包括：

基于k轮迭代中目标候选表的选取次数，以及针对每次选取分别确定的若干分数，确定综合分数；

基于综合分数，以及选取次数，确定更新的累积分数；其中，更新的累积分数正相关于综合分数，负相关于选取次数。

在另一个示例中，确定目标候选表的更新的累积分数，包括：

基于k轮迭代中目标候选表的选取次数，以及针对每次选取分别确定的若干分数，确定综合分数，作为更新的累积分数。

在一个示例中，上述确定第k轮基础表具体可以包括：

判断第k轮分数是否小于预设的阈值分数；

在小于预设的阈值分数的情况下，将第k-1轮基础表确定为第k轮基础表；

在不小于预设的阈值分数的情况下，将中间基础表确定为第k轮基础表。

步骤512，在多轮迭代后，将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

综合以上，本说明书实施例提供的方案，能够从外部数据源中确定针对业务预测模型的有用特征。此外，通过考虑特征和业务预测模型的关系，来针对业务预测模型确定特征，由此可以提升针对业务预测模型所确定特征的准确性。

需要说明，在多轮迭代后，可以直接将在最后一轮训练后的业务预测模型作为最终使用的模型，也可以基于确定的最终特征，再次训练在最后一轮训练后的业务预测模型，得到最终使用的模型。

以上是对第一种特征确定方法的说明，以下对第二种特征确定方法(即基于强化学习的特征确定方法)进行说明。

该第二种特征确定方法的总体思路如下：

首先，关于强化学习的要素的使用。

通过1)状态表征第k轮迭代的训练样本集(即下述的第k轮基础表)。基于该状态，可以确定当前选取的候选表以及特征。此外，还可以确定特征的统计信息。这些统计信息包括方差、互信息等。

通过2)动作表征在第k轮迭代选取的候选表或者特征，是强化学习模型的输出。总体来说，有两种类型的动作，即“候选表选取”和“特征选取”，它们属于不同的动作空间。对于每种动作，又分为两种操作类型，即添加或删除。具体地，将“候选表选取”的动作表示为：

其中，a_k＝a_T ⁱ表示在第k轮迭代中，添加候选表T_i；a_k＝a_T ^m+i表示在第k轮迭代中，删除候选表T_i。相似地，将“特征选取”的动作表示为：

其中，D_F的计算公式参见下文所述。

通过3)奖励(即每轮分数)表征执行两个动作之间模型性能的变化，通过其来指导强化学习模型的训练。

通过4)环境编码训练样本，添加特征以及计算奖励。

通过5)智能体将状态作为输入，基于Q值(包括估计Q值或预测Q值)，输出动作。

其次，关于强化学习的模型结构。

将状态的向量输入强化学习模型后，通过公共表示层学习两种动作的通用信息。然后，将两种不同的动作的表示分布在两个动作分支上，即表表示层和特征表示层。两个Q值计算层以一定程度的独立性估计每个动作的Q值，并将它们发送到聚合层。最后，将两种类型的动作结合起来产生分布式动作值的估计，并选择具有最大Q值的动作。在反向传播阶段，两个分支相对独立地更新策略，公共表示层可以使用来自两个分支的信息来更新公共策略，两个分支可以使用彼此的信息基于公共表示层做出决策。

以下对强化学习的模型结构(即强化学习模型的结构)及其训练过程进行详细说明。

图6示出在一个实施例中强化学习模型的结构示意图。图6中，该强化学习模型可以包括，第一估值层、第二估值层以及聚合层。此外可以包括，编码层和公共表示层。上述第一估值层可以进一步包括表表示层和Q值计算层。上述第二估值层可以进一步包括特征表示层和Q值计算层。

首先，编码层用于确定对应于强化学习模型的环境状态的初始向量。这里的环境状态指示已被选取的候选表及特征，此外，还可以指示特征的统计信息。

具体地，假设有m个候选表，那么用具有m个维度的向量ψ_k表示被选取的候选表。具体而言，向量ψ_k中的任一元素ψ_k ⁱ要么为0要么为1，其中，ψ_k ⁱ＝1，表示对应的候选表T_i被选取。

此外，假设每个候选表T_i有d_i个特征，那么用具有d_i个维度的向量φ_k ⁱ表示候选表T_i中被选取的特征，向量φ_k ⁱ中的每个元素地应于一个特征，且在其中的某个元素值为1时，表示对应的特征被选取，为0时，表示对应的特征未被选取。应理解，这里的向量φ_k ⁱ的数目为m个，也即φ_k的维度为

需要说明，本说明书所述的特征可以具有对应的统计信息，以示出该特征的重要性。这里的统计信息可以包括方差(Variance，VAR)、皮尔逊相关系数(Pearsoncorrelation coefficient，PCC)以及互信息(Mutual information，MI)。对于每项特征的统计信息，可以用三元组(VAR，PCC，MI)进行表示，从而各项特征的统计信息可以表示为3*D_F维度的向量Ω_F。

应理解，在特征确定的过程中，同时需要考虑基础表T_b中的初始特征，从而，针对上述向量应分别增加相应的维度，比如，将向量ψ_k的维度增加为m+1，将向量φ_k的维度增加为D_F+d_b以及将向量Ω_F的维度增加为3(D_F+d_b)，其中，为基础表T_b的特征维度，也即初始特征的数目。

应理解，在编码层最终确定的初始向量即为：(ψ_k,φ_k,Ω_F)。

上述公共表示层用于从初始向量中提取高维特征，以降低向量维度，从而得到目标向量。

上述第一估值层中的表表示层用于从目标向量中，提取与候选表相关的第一向量，以及其中的Q值计算层用于基于该第一向量，确定各第一类动作各自的第一估计Q值。这里的各第一类动作包括针对各候选表的添加/删除。

上述第二估值层的特征表示层用于从目标向量中，提取与特征相关的第二向量，以及其中的Q值计算层用于基于该第二向量，确定各第二类动作各自的第二估计Q值。这里的各第二类动作包括针对各候选表中各项特征的添加/删除。

上述聚合层用于基于各第一估计Q值和各第二估计Q值，从各第一类动作和各第二类动作中，选取目标动作。

在一个示例中，强化学习模型中的各层均可以实现为神经网络，其中，该神经网络包括至少一层全连接层。

应理解，图6只是一种示例性说明，在实际应用中，该强化学习模型还可以包括归一化层等。此外，本说明书所述的强化学习模型也可以基于深度神经网络来实现等，本说明书对此不作限定。

以上是对强化学习模型结构的说明，以下以针对用户分类模型确定特征为例，对强化学习模型的训练方法进行说明。

图7示出在一个实施例中训练强化学***台、设备集群来执行。需要说明，该方法包括若干个回合的训练，其中每个回合的训练包括多轮迭代。图7示出某个回合的训练包括的多轮迭代中，第t(t为正整数)轮迭代包括的方法步骤。可以理解，通过重复执行其中示出的步骤，可以实现对强化学习模型的多轮迭代更新。应理解，本方案将最后一个回合的训练中最后一轮迭代更新后得到的强化学习模型，作为用于针对用户分类模型确定特征的最终使用模型。如图7所示，该方法可以包括如下步骤：

步骤702，确定强化学习模型的环境样本状态，其中至少指示第t-1轮样本基础表。

该第t-1轮样本基础表可以基于初始的样本基础表，以及前t-1轮迭代分别预测的动作(后续说明)而确定。这里的初始的样本基础表至少记录多个用户样本的样本标签，此外，还可以记录各用户样本的初始特征。在还记录初始特征的情况下，样本基础表中的一行可以对应于一个训练样本。

步骤704，将环境样本状态输入初始的强化学习模型，该强化学习模型根据样本动作空间中各样本动作的预测Q值(参见估计Q值的确定方法)，确定在该环境样本状态下，执行的目标样本动作。这里的目标样本动作包括，针对各样本候选表中目标样本候选表的添加/删除，或针对某样本候选表中的目标样本特征的添加/删除。

上述各样本候选表分别记录多个用户样本的若干样本特征(也称候选特征)。

步骤706，基于目标样本动作，更新第t-1轮样本基础表。

可以参照步骤806执行。

步骤708，基于更新的第t-1轮样本基础表中的样本特征和样本标签，训练当前的分类模型。

这里的分类模型可以二分类模型，也可以为多分类模型，其具体可以实现为SVM模型、树结构模型或者深度学习模型等。其中的树结构模型可以包括但不限于LightGBM、XGBoost或者随机森林(Randomforest)等。

步骤710，对训练后的分类模型进行性能评估，并至少基于得到的性能评估结果，确定第t轮分数。

在一个示例中，可以将上述性能评估结果与上一轮(即第t-1轮)迭代针对分类模型的性能评估结果的差值，确定为第t轮分数。

步骤712，基于目标样本动作对应的预测Q值和第t轮分数，确定预测误差。

在一个例子中，可以利用均方差(Mean Square Error,MSE)损失函数，基于目标样本动作对应的预测Q值和第k轮分数(也称实际Q值)，确定预测误差。

应理解，上述将第k轮分数作为实际Q值，确定预测误差，也可以理解为是，将分类模型的性能变化作为指导来训练强化学习模型。

在其它例子中，也可以将MSE损失函数替换为交叉熵损失函数等。

步骤714，以减小预测误差为目标，更新强化学习模型的模型参数。

举例来说，可以利用反向传播法，先计算出各层网络(包括第一、第二估值层等)的网络参数对应的更新梯度，再基于该更新梯度更新各层网络的网络参数，得到更新的强化学习模型。

应理解，在上述一个回合的训练结束后，可以基于其它样本基础表以及其它样本候选表执行其它回合的训练，直至达到迭代结束条件(比如，强化学习模型收敛等)。

应理解，在训练得到强化学习模型后，就可以基于该强化学习模型，执行针对用户分类模型确定特征的方法，也即可以执行第二种确定特征的方法。该方法也基于基础表和若干候选表执行，其中的基础表和候选表的定义参见上文所述，在此不复赘述。

图8示出根据另一个实施例的针对用户分类模型确定特征的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。需要说明，该方法包括多轮迭代，图8示出其中第k(k为正整数)轮迭代包括的方法步骤。可以理解，通过重复执行其中示出的步骤，可以实现对基础表的多轮迭代更新，进而将最后一轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。如图8所示，该方法可以包括如下步骤：

步骤802，确定预先训练的强化学习模型的当前环境状态，其中至少指示第k-1轮基础表。

该第k-1轮基础表可以基于初始的基础表，以及前k-1轮迭代分别预测的动作而确定。

此外，当前环境状态还可以指示，第k-1轮基础表中各用户特征各自的统计信息。其中，该统计信息包括以下中的若干项：方差、皮尔逊相关系数以及用户特征与用户类别标签之间的互信息等。

步骤804，将当前环境状态输入强化学习模型，该强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作。

这里的目标动作包括，针对各候选表中目标候选表的添加/删除，或针对某候选表中的目标用户特征的添加/删除。

如前所述，强化学习模型可以包括，第一估值层、第二估值层和聚合层，此外还可以包括，编码层和公共表示层，从而上述将当前环境状态输入强化学习模型可以包括：

在编码层，确定当前环境状态对应的初始向量。

在公共表示层，从初始向量中提取高维特征，得到目标向量。

在第一估值层，从目标向量中，提取与候选表的表示相关的第一向量，并基于该第一向量，确定各第一类动作各自的第一估计Q值，得到各第一估值Q值。这里的各第一类动作包括针对各候选表的添加/删除。

在第二估值层，从目标向量中，提取与用户特征的表示相关的第二向量，并基于该第二向量，确定各第二类动作各自的第二估计Q值，得到各第二估计Q值。这里的各第二类动作包括针对各候选表中各用户特征的添加/删除。

在聚合层，基于各第一估计Q值和各第二估计Q值，从各第一类动作和各第二类动作中，选取目标动作。

在一个示例中，上述选取目标动作具体可以包括，将各第一类动作和各第二类动作为各候选动作，并将各第一估计Q值和各第二估计Q值作为各候选Q值。之后，从各候选动作中，选取对应的候选Q值最大的候选动作作为目标动作。

当然，在实际应用中，也可以结合其它经验知识，来选取目标动作，本说明书对此不作限定。

步骤806，基于目标动作，更新第k-1轮基础表，得到中间基础表。

上述更新第k-1轮基础表可以包括，在目标动作为针对目标用户特征/目标候选表的添加的情况下，将目标用户特征/目标候选表中的全部用户特征，添加到第k-1轮基础表。并根据目标用户特征所属候选表中，目标用户特征的特征值，对应添加第k-1轮基础表中，目标用户特征的特征值；或者，根据目标候选表中，全部用户特征的特征值，对应添加第k-1轮基础表中，归属于目标候选表的各用户特征的特征值，得到中间基础表；

在目标动作为针对目标用户特征/目标候选表的删除的情况下，从第k-1轮基础表中，删除目标用户特征/归属于目标候选表的各用户特征，得到中间基础表。

步骤808，基于中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型。

步骤810，根据目标动作，确定第k轮基础表，以用于下一轮迭代。

上述确定第k轮基础表具体可以包括，在目标动作为针对目标候选表的添加/删除的情况下，将第k-1轮基础表确定为第k轮基础表；

在目标动作为针对目标用户特征的添加/删除的情况下，将中间基础表确定为第k轮基础表。

步骤812，在多轮迭代后，将最后一轮基础表中的用户特征，作为针对业用户分类模型确定的最终用户特征。

图9示出在另一个例子中确定用户分类模型的特征的方法示意图。图9中，对应于第k轮迭代的环境状态s_k指示出，在前k-1轮迭代，候选表T₃被选取，从而ψ_k ³的元素值为1。此外，用户特征f_3,3被选取，从而向量φ_k ³中对应于该用户特征的元素值为1。也就是说，第k-1轮基础表中的特征包括，初始特征f_b,1、f_b,2、f_b,3、f_b,4和用户特征f_3,3。此外，由于候选表T₃被选取，从而还可以得到向量Ω_F中对应于用户特征f_3,3的三元组。

在将对应于环境状态s_k的初始向量(ψ_k,φ_k,Ω_F)输入强化学习模型后，模型输出动作a_k＝a_T ¹，即选取了一个新的候选表T₁。之后，可以将候选表T₁与已连接表

连接起来，然后构建第k+1轮迭代的环境状态s_k+1，并将其输入强化学习模型，得到新的动作a_k+1＝a_F ²，这意味着从候选表T₁中选取并添加用户特征f_1,2来训练用户分类模型。

需要说明，在第k轮迭代中，由于模型输出的动作是选取候选表，从而直接将第k-1轮基础表，作为第k轮基础表。之后，由于在第k+1轮迭代中，模型输出的动作是选取用户特征，从而可以将用户特征f_1,2添加到第k轮基础表，作为第k+1轮基础表。也就是说，第k+1轮基础表中的特征包括，初始特征f_b,1、f_b,2、f_b,3、f_b,4以及用户特征f_3,3和f_1,2。

应理解，若在第k+1轮迭代结束后，达到了迭代结束条件，那么就可以将第k+1轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。

综合以上，本说明书实施例提供的方案，通过考虑用户特征和用户分类模型的关系，来针对用户分类模型确定特征，由此可以提升针对用户分类模型所确定特征的准确性。此外，本方案将候选表的添加/删除和用户特征的添加/删除共同作为强化学习的动作，可以使得候选表的选取和用户特征的选取不区分先后顺序，由此可以进一步提升针对用户分类模型所确定用户特征的准确性。

以上是对针对用户分类模型确定特征的方法的说明，类似地，还可以基于预先训练的强化学习模型，针对图片分类模型/文本分类模型确定出对应的最终图片特征/最终文本特征。

此外，参照步骤802-步骤812，还可以针对其它分类模型(如，音频分类模型等)或者回归模型确定最终特征。

以下对基于预先训练的强化学习模型，针对业务预测模型确定特征的方法进行说明。

图10示出根据另一个实施例的针对业务预测模型确定特征的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。需要说明，该方法包括多轮迭代，图10示出其中第k(k为正整数)轮迭代包括的方法步骤。可以理解，通过重复执行其中示出的步骤，可以实现对基础表的多轮迭代更新，进而将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

如图10所示，该方法可以包括如下步骤：

步骤1002，确定强化学习模型的当前环境状态，其中至少指示第k-1轮基础表。

上述当前环境状态还指示，第k-1轮基础表中各项特征各自的统计信息；其中，该统计信息包括以下中的若干项：方差、皮尔逊相关系数以及特征与业务标签之间的互信息等。

步骤1004，将当前环境状态输入强化学习模型，该强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作；该目标动作包括，针对各候选表中目标候选表的添加/删除，或针对某候选表中的目标特征的添加/删除。

在一个示例中，上述强化学习模型包括，第一估值层、第二估值层和聚合层；上述将当前环境状态输入强化学习模型，包括：

在第一估值层，从对应于当前环境状态的目标向量中，提取与候选表相关的第一向量，并基于该第一向量，确定各第一类动作各自的第一估计Q值；

在第二估值层，从目标向量中，提取与特征相关的第二向量，并基于该第二向量，确定各第二类动作各自的第二估计Q值；

在聚合层，基于各第一估计Q值和各第二估计Q值，从各第一类动作和各第二类动作中，选取目标动作；

其中，各第一类动作包括针对各候选表的添加/删除，各第二类动作包括针对各候选表中各项特征的添加/删除。

上述选取目标动作可以包括：

将各第一类动作和各第二类动作为各候选动作，并从各候选动作中，选取对应的第一或第二估计Q值最大的候选动作作为目标动作。

步骤1006，基于目标动作，更新第k-1轮基础表，得到中间基础表。

其中，更新第k-1轮基础表可以包括，在目标动作为针对目标特征/目标候选表的添加的情况下，将目标特征/目标候选表中的全部特征，添加到第k-1轮基础表，并对应添加第k-1轮基础表中，目标特征/目标候选表中的全部特征的特征值，得到中间基础表；

在目标动作为针对目标特征/目标候选表的删除的情况下，从第k-1轮基础表中，删除目标特征/归属于目标候选表的各项特征，得到中间基础表。

步骤1008，基于中间基础表中的特征和业务标签，训练当前的业务预测模型。

步骤1010，根据目标动作，确定第k轮基础表，以用于下一轮迭代。

其中，确定第k轮基础表可以包括，在目标动作为针对目标候选表的添加/删除的情况下，将第k-1轮基础表确定为第k轮基础表；

在目标动作为针对目标特征的添加/删除的情况下，将中间基础表确定为第k轮基础表。

步骤1012，在多轮迭代后，将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

综合以上，本说明书实施例提供的方案，通过考虑特征和业务预测模型的关系，来针对业务预测模型确定特征，由此可以提升针对业务预测模型所确定特征的准确性。此外，本方案将候选表的添加/删除和特征的添加/删除共同作为强化学习的动作，可以使得候选表的选取和特征的选取不区分先后顺序，由此可以进一步提升针对业务预测模型所确定特征的准确性。

与上述针对用户分类模型确定特征的方法对应地，本说明书一个实施例还提供的一种针对用户分类模型确定特征的装置，基于基础表和若干候选表执行，各候选表分别记录多个用户的若干用户特征，该基础表至少记录各用户的用户类别标签。如图11所示，该装置通过其包括的以下单元执行多轮迭代中的第k轮迭代：

选取单元1102，用于基于各候选表各自的累积分数，从各候选表中选取目标候选表，并从目标候选表中，选取若干目标用户特征。

选取单元1102具体用于：

选取单元1102还具体用于：

基于目标候选表中的各用户特征各自的重要度，从各用户特征中，选取对应重要度排序靠前的预定数目个未选取过的用户特征，作为若干目标用户特征。

其中，各用户特征各自的重要度通过以下步骤获得：

建立第k-1轮基础表与目标候选表的连接，得到临时数据表；

利用临时数据表中的用户特征和用户类别标签，训练特征排序模型；

通过经过训练的特征排序模型，得到目标候选表中的各用户特征各自的重要度。

添加单元1104，用于将各目标用户特征添加到第k-1轮基础表，得到中间基础表。

添加单元1104具体用于：

将各目标用户特征添加到第k-1轮基础表，并根据目标候选表中，各目标用户特征的特征值，对应添加第k-1轮基础表中各目标用户特征的特征值。

训练单元1106，用于基于中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型。

评估单元1108，用于对训练后的用户分类模型进行性能评估，并至少基于得到的第一性能指标值，确定目标候选表的第k轮分数。

其中，确定第k轮基础表包括：

判断第k轮分数是否小于预设的阈值分数；

确定单元1110，用于根据第k轮分数，确定目标候选表的更新的累积分数，以及确定第k轮基础表，以用于下一轮迭代。

确定单元1110具体用于：

确定单元1110还具体用于：

判断第k轮分数是否小于预设的阈值分数；

确定单元1110，还用于在多轮迭代后，将最后一轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。

可选地，在第k轮迭代为首轮迭代，第k-1轮基础表为初始的基础表的情况下，训练单元1106还用于在从各候选表中选取目标候选表之前，利用基础表中的初始特征和用户类别标签，训练初始的用户分类模型，得到当前的用户分类模型。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的针对用户分类模型确定特征的装置，可以为用户分类模型确定出更全面、更有效的特征。

需要说明，图11示出的针对用户分类模型确定特征的装置，同样适用于针对业务预测模型确定特征的装置。所不同的是，针对业务预测模型确定特征的装置中的各功能模块的功能如下：

选取单元1102，用于基于各候选表各自的累积分数，从各候选表中选取目标候选表，并从目标候选表中，选取若干目标特征。

添加单元1104，用于将各目标特征添加到第k-1轮基础表，得到中间基础表。

训练单元1106，用于基于中间基础表中的特征和业务标签，训练当前的业务预测模型。

评估单元1108，用于对训练后的业务预测模型进行性能评估，并至少基于得到的第一性能指标值，确定目标候选表的第k轮分数。

确定单元1110，还用于在多轮迭代后，将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

应理解，业务预测模型确定特征的装置中的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，对该装置的具体工作过程，在此不复赘述。

与上述针对用户分类模型确定特征的方法对应地，本说明书一个实施例还提供的一种针对用户分类模型确定特征的装置，基于基础表和若干候选表执行，各候选表分别记录多个用户的若干用户特征，该基础表至少记录各用户的用户类别标签。如图12所示，该装置通过其包括的以下单元执行多轮迭代中的第k轮迭代:

确定单元1202，用于确定强化学习模型的当前环境状态，其中至少指示第k-1轮基础表。

其中，当前环境状态还指示，第k-1轮基础表中各用户特征各自的统计信息；其中，统计信息包括以下中的若干项：方差、皮尔逊相关系数以及用户特征与用户类别标签之间的互信息。

输入单元1204，用于将当前环境状态输入强化学习模型，该强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作。该目标动作包括，针对各候选表中目标候选表的添加/删除，或针对目标用户特征的添加/删除。

其中，强化学习模型包括第一估值层、第二估值层和聚合层；

输入单元1204具体用于：

在第二估值层，从目标向量中，提取与用户特征相关的第二向量，并基于该第二向量，确定各第二类动作各自的第二估计Q值；

其中，各第一类动作包括针对各候选表的添加/删除，各第二类动作包括针对各用户特征的添加/删除。

其中，选取目标动作具体包括：

更新单元1206，用于基于目标动作，更新第k-1轮基础表，得到中间基础表。

更新单元1206具体用于：

在目标动作为针对目标用户特征/目标候选表的添加的情况下，将目标用户特征/目标候选表中的全部用户特征，添加到第k-1轮基础表，并对应添加第k-1轮基础表中，目标用户特征/目标候选表中的全部用户特征的特征值，得到中间基础表；

训练单元1208，用于基于中间基础表中的用户特征和用户类别标签，训练当前的用户分类模型。

确定单元1202，还用于根据目标动作，确定第k轮基础表，以用于下一轮迭代。

确定单元1202具体用于：

在目标动作为针对目标候选表的添加/删除的情况下，将第k-1轮基础表确定为第k轮基础表；

确定单元1202，还用于在多轮迭代后，将最后一轮基础表中的用户特征，作为针对用户分类模型确定的最终用户特征。

可选地，训练单元1208还具体用于：

确定强化学习模型的环境样本状态，其中至少指示第t-1轮样本基础表；

将环境样本状态输入强化学习模型，该强化学习模型根据样本动作空间中各样本动作的预测Q值，确定在环境样本状态下，执行的目标样本动作；该目标样本动作包括，针对各样本候选表中目标样本候选表的添加/删除，或针对目标样本特征的添加/删除；

基于目标样本动作，更新第t-1轮样本基础表；

基于更新的第t-1轮样本基础表中的样本特征和样本标签，训练当前的分类模型；

对训练后的分类模型进行性能评估，并至少基于得到的性能评估结果，确定第t轮分数；

基于目标样本动作对应的预测Q值和第t轮分数，确定预测误差；

以减小预测误差为目标，更新强化学习模型的模型参数。

需要说明，图12示出的针对用户分类模型确定特征的装置，同样适用于针对业务预测模型确定特征的装置。所不同的是，针对业务预测模型确定特征的装置中的各功能模块的功能如下：

输入单元1204，用于将当前环境状态输入强化学习模型，该强化学习模型根据动作空间中各动作的估计Q值，确定在当前环境状态下，执行的目标动作；目标动作包括，针对各候选表中目标候选表的添加/删除，或针对目标特征的添加/删除。

训练单元1208，用于基于中间基础表中的特征和业务标签，训练当前的业务预测模型。

确定单元1202，还用于在多轮迭代后，将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3-图5以及图7-图10中任一幅图所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3-图5以及图7-图10中任一幅图所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种针对用户分类模型确定特征的方法，基于基础表和若干候选表执行，各候选表分别记录多个用户的若干用户特征，所述基础表至少记录各用户的用户类别标签；所述方法包括多轮迭代，其中任意的第k轮迭代包括：

将各目标用户特征添加到第k-1轮基础表，得到中间基础表；

2.根据权利要求1所述的方法，其中，所述确定所述目标候选表的更新的累积分数，包括：

基于k轮迭代中所述目标候选表的选取次数，以及针对每次选取分别确定的若干分数，确定综合分数；

基于所述综合分数，以及所述选取次数，确定所述更新的累积分数；其中，所述更新的累积分数正相关于所述综合分数，负相关于所述选取次数。

3.根据权利要求1所述的方法，其中，所述确定所述目标候选表的更新的累积分数，包括：

基于k轮迭代中所述目标候选表的选取次数，以及针对每次选取分别确定的若干分数，确定综合分数，作为所述更新的累积分数。

4.根据权利要求1所述的方法，其中，所述将各目标用户特征添加到第k-1轮基础表，包括：

将各目标用户特征添加到第k-1轮基础表，并根据所述目标候选表中，各目标用户特征的特征值，对应添加第k-1轮基础表中各目标用户特征的特征值。

5.根据权利要求1所述的方法，其中，所述确定第k轮基础表包括：

判断所述第k轮分数是否小于预设的阈值分数；

在小于预设的阈值分数的情况下，将所述第k-1轮基础表确定为所述第k轮基础表；

在不小于预设的阈值分数的情况下，将所述中间基础表确定为所述第k轮基础表。

6.根据权利要求1所述的方法，其中，所述确定所述目标候选表的第k轮分数，包括:

将所述第一性能指标值减去第二性能指标值的差值，确定为所述第k轮分数；所述第二性能指标值是通过对上一轮训练后的用户分类模型进行性能评估得到的。

7.根据权利要求1所述的方法，其中，所述第k轮迭代为首轮迭代，所述第k-1轮基础表为所述基础表；所述基础表还记录所述各用户的初始特征；

在所述从各候选表中选取目标候选表之前，还包括：

利用所述基础表中的初始特征和用户类别标签，训练初始的用户分类模型，得到所述当前的用户分类模型。

8.根据权利要求1所述的方法，其中，所述选取若干目标用户特征，包括：

基于所述目标候选表中的各用户特征各自的重要度，从所述各用户特征中，选取对应重要度排序靠前的预定数目个未选取过的用户特征，作为所述若干目标用户特征。

9.根据权利要求8所述的方法，其中，所述各用户特征各自的重要度通过以下步骤获得：

建立所述第k-1轮基础表与所述目标候选表的连接，得到临时数据表；

利用所述临时数据表中的用户特征和用户类别标签，训练特征排序模型；

通过经过训练的特征排序模型，得到所述目标候选表中的各用户特征各自的重要度。

10.根据权利要求1所述的方法，其中，所述从各候选表中选取目标候选表，包括：

从所述各候选表中，选取对应累积分数最大的候选表作为所述目标候选表。

11.一种针对业务预测模型确定特征的方法，基于基础表和若干候选表执行，各候选表分别记录多个业务对象的若干特征，所述基础表至少记录各业务对象的业务标签；所述方法包括多轮迭代，其中任意的第k轮迭代包括：

将各目标特征添加到第k-1轮基础表，得到中间基础表；

12.一种针对用户分类模型确定特征的方法，基于基础表和若干候选表执行，各候选表分别记录多个用户的若干用户特征，所述基础表至少记录各用户的用户类别标签；所述方法包括多轮迭代，其中任意的第k轮迭代包括:

根据所述目标动作，确定第k轮基础表，以用于下一轮迭代；

13.根据权利要求12所述的方法，其中，所述强化学习模型包括第一估值层、第二估值层和聚合层；

所述将所述当前环境状态输入所述强化学习模型，包括：

在所述第一估值层，从对应于所述当前环境状态的目标向量中，提取与候选表相关的第一向量，并基于该第一向量，确定各第一类动作各自的第一估计Q值；

在所述第二估值层，从所述目标向量中，提取与用户特征相关的第二向量，并基于该第二向量，确定各第二类动作各自的第二估计Q值；

在所述聚合层，基于各第一估计Q值和各第二估计Q值，从所述各第一类动作和各第二类动作中，选取所述目标动作；

其中，所述各第一类动作包括针对所述各候选表的添加/删除，所述各第二类动作包括针对各用户特征的添加/删除。

14.根据权利要求13所述的方法，其中，所述选取所述目标动作，包括：

将所述各第一类动作和各第二类动作为各候选动作，并从所述各候选动作中，选取对应的第一或第二估计Q值最大的候选动作作为所述目标动作。

15.根据权利要求12所述的方法，其中，所述当前环境状态还指示，所述第k-1轮基础表中各用户特征各自的统计信息；其中，所述统计信息包括以下中的若干项：方差、皮尔逊相关系数以及用户特征与用户类别标签之间的互信息。

16.根据权利要求12所述的方法，其中，所述更新所述第k-1轮基础表，包括：

在所述目标动作为针对目标用户特征/目标候选表的添加的情况下，将所述目标用户特征/目标候选表中的全部用户特征，添加到所述第k-1轮基础表，并对应添加所述第k-1轮基础表中，所述目标用户特征/目标候选表中的全部用户特征的特征值，得到所述中间基础表；

在所述目标动作为针对目标用户特征/目标候选表的删除的情况下，从所述第k-1轮基础表中，删除目标用户特征/归属于所述目标候选表的各用户特征，得到所述中间基础表。

17.根据权利要求12所述的方法，其中，所述确定第k轮基础表包括：

在所述目标动作为针对目标候选表的添加/删除的情况下，将所述第k-1轮基础表确定为所述第k轮基础表；

在所述目标动作为针对目标用户特征的添加/删除的情况下，将所述中间基础表确定为所述第k轮基础表。

18.根据权利要求12所述的方法，其中，所述强化学习模型基于样本基础表和若干样本候选表训练得到；各样本候选表分别记录多个用户样本的若干样本特征，所述样本基础表至少记录各用户样本的样本标签；

所述强化学习模型的训练方法包括多轮迭代，其中任意的第t轮迭代包括:

将所述环境样本状态输入所述强化学习模型，所述强化学习模型根据样本动作空间中各样本动作的预测Q值，确定在所述环境样本状态下，执行的目标样本动作；所述目标样本动作包括，针对所述各样本候选表中目标样本候选表的添加/删除，或针对目标样本特征的添加/删除；

基于所述目标样本动作，更新所述第t-1轮样本基础表；

基于所述目标样本动作对应的预测Q值和所述第t轮分数，确定预测误差；

以减小所述预测误差为目标，更新所述强化学习模型的模型参数。

19.一种针对业务预测模型确定特征的方法，基于基础表和若干候选表执行，各候选表分别记录多个业务对象的若干特征，所述基础表至少记录各业务对象的业务标签；所述方法包括多轮迭代，其中任意的第k轮迭代包括:

根据所述目标动作，确定第k轮基础表，以用于下一轮迭代；

20.一种针对用户分类模型确定特征的装置，基于基础表和若干候选表执行，各候选表分别记录多个用户的若干用户特征，所述基础表至少记录各用户的用户类别标签；所述装置通过其包括的以下单元执行多轮迭代中的第k轮迭代：

21.一种针对业务预测模型确定特征的装置，基于基础表和若干候选表执行，各候选表分别记录多个业务对象的若干特征，所述基础表至少记录各业务对象的业务标签；所述装置通过其包括的以下单元执行多轮迭代中的第k轮迭代：

22.一种针对用户分类模型确定特征的装置，基于基础表和若干候选表执行，各候选表分别记录多个用户的若干用户特征，所述基础表至少记录各用户的用户类别标签；所述装置通过其包括的以下单元执行多轮迭代中的第k轮迭代:

23.一种针对业务预测模型确定特征的装置，基于基础表和若干候选表执行，各候选表分别记录多个业务对象的若干特征，所述基础表至少记录各业务对象的业务标签；所述装置通过其包括的以下单元执行多轮迭代中的第k轮迭代：

所述确定单元，还用于在所述多轮迭代后，将最后一轮基础表中的特征，作为针对业务预测模型确定的最终特征。

24.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-19中任一项所述的方法。

25.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-19中任一项所述的方法。