CN114692972A

CN114692972A - 行为预测***的训练方法及装置

Info

Publication number: CN114692972A
Application number: CN202210335212.XA
Authority: CN
Inventors: 张长浩; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-01

Abstract

本说明书实施例提供一种行为预测***的训练方法，包括：获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；利用所述行为预测结果和行为标签，训练所述行为预测***。

Description

行为预测***的训练方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种行为预测***的训练方法及装置。

背景技术

当今，人们越来越频繁地使用服务平台向用户提供的多种多样的服务，相应地，为了提高用户的服务体验，服务平台可以利用机器学***台可以通过预测某用户对各类视频的点击概率，确定向该用户推送视频流的类别和排序。又例如，购物网站可以通过预测某用户针对某一商品的喜好程度，确定是否向该用户推荐该商品。

显然，希望针对用户行为的预测结果越准确越好。然而，目前预测用户行为的方式较为单一，得到的预测结果准确度也十分有限。因此，需要提出一种方案，可以有效提高用户行为预测结果的准确性。

发明内容

本说明书一个或多个实施例描述行为预测***的训练方法及装置，可以更好地学习用户兴趣，从而提升针对用户行为的预测结果准确度。

根据第一方面，提供一种行为预测***的训练方法。该方法包括：获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；利用所述行为预测结果和行为标签，训练所述行为预测***。

在一个实施例中，所述目标对象和多个历史对象为商品或用户。

在一个实施例中，所述编码器包括多个编码层；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵，包括：各个编码层分别基于本层中的键变换矩阵和值变换矩阵，处理由上一编码层输出的针对所述多个历史对象的对象表征矩阵，得到该编码层对应的键结果矩阵和值结果矩阵；基于所述多个编码层对应的多个键结果矩阵和多个值结果矩阵，确定所述键输出矩阵和值输出矩阵。

在一个实施例中，所述解码器基于所述键输出矩阵和值输出矩阵，确定针对所述第一用户针对所述目标对象的兴趣向量，包括：所述解码器利用其查询变换矩阵处理所述目标对象的嵌入向量，得到查询输出向量，并且，基于所述查询输出向量、键输出矩阵和值输出矩阵的乘积确定所述兴趣向量。

根据第二方面，提供一种行为预测***的训练方法，包括：获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器确定针对所述目标对象的查询输出向量；所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果；利用所述行为预测结果和行为标签，训练所述行为预测***。

在一个实施例中，所述解码器确定针对所述目标对象的查询输出向量，包括：所述解码器利用其查询变换矩阵处理目标对象的嵌入向量，得到所述查询输出向量。

在一个实施例中，所述解码器确定针对所述目标对象的查询输出向量，包括：所述解码器利用第一查询变换矩阵处理目标对象的嵌入向量，得到第一查询输出向量，并基于所述查询输出向量、键输出矩阵和值输出矩阵的乘积确定针对所述目标对象的表征向量，再利用第二查询变换矩阵处理所述表征向量，第二查询输出向量，作为所述查询输出向量。

在一个实施例中，所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果，包括：所述预测层基于所述查询输出向量、键输出矩阵和值输出矩阵计算乘积结果，对所述乘积结果进行线性变换和/或非线性变换处理，得到变换结果，基于所述变换结果确定所述行为预测结果。

根据第三方面，提供一种行为预测***的训练装置，包括：样本获取单元，配置为获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；预测单元，配置为将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；训练单元，配置为利用所述行为预测结果和行为标签，训练所述行为预测***。

根据第四方面，提供一种行为预测***的训练装置，包括：样本获取单元，配置为获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；预测单元，配置为将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器确定针对所述目标对象的查询输出向量；所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果；训练单元，配置为利用所述行为预测结果和行为标签，训练所述行为预测***。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，该处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

采用本说明书实施例提供的方法和装置，引入基于TF机制的编码器和解码器，并且，将体现用户兴趣的历史对象序列作为编码器的输入，得到键输出向量和值输出向量，再将该键输出向量和值输出向量，以及目标对象的特征作为解码器的输入，得到表征用户对目标对象兴趣倾向的兴趣向量，从而利用预测层根据该兴趣向量确定用户对目标对象的行为预测结果，进而根据此行为预测结果和行为标签更新行为预测***中的模型参数。如此，可以训练出预测精准、性能优良的行为预测***。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的行为预测***的训练架构示意图；

图2示出根据一个实施例的行为预测***的训练方法流程示意图；

图3示出Transformer机制中任意的第i个编码层的结构示意图；

图4示出Transformer机制中任意的第j个解码层的结构示意图；

图5示出根据另一个实施例的行为预测***的训练架构示意图；

图6示出根据另一个实施例的行为预测***的训练方法流程示意图；

图7示出根据一个实施例的行为预测***的训练装置结构示意图；

图8示出根据另一个实施例的行为预测***的训练装置结构示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

承前所述，需要一种方案，可以有效提高用户行为预测结果的准确性。由此，本说明书实施例披露一种行为预测***的训练方法，在行为预测***的构建中引入Transformer(或简称TF)，将TF的编码器(encoder)和解码器(decoder)作为范式，嵌套不同主体的不同序列，从而更好地学习用户兴趣，提升用户行为的预测准确度。

图1示出根据一个实施例的行为预测***的训练架构示意图，如图1所示，行为预测***100中包括基于TF机制的编码器110和解码器120，另外还设置预测层130。基于此，将训练样本中体现用户兴趣的历史对象序列作为编码器110的输入，进而将编码器110的输出和目标对象作为解码器120，得到学习到的用户针对目标对象的兴趣向量，进而利用预测层130处理兴趣向量，得到指示用户对目标对象做出特定行为概率的预测结果。如此，可以得到精准的行为预测结果。

下面结合具体的实施例，描述上述方案的实施步骤。图2示出根据一个实施例的行为预测***的训练方法流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的装置、服务器或设备集群。如图2所示，所述方法包括以下步骤：

步骤S210，获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出特定行为的行为标签；步骤S220，将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；步骤S230，利用所述行为预测结果和行为标签，训练所述行为预测***。

对以上步骤的展开描述如下：

首先，在步骤S210，获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出特定行为的行为标签。

需理解，文中将训练样本集中任意的一个训练样本称为第一训练样本。在一个实施例中，针对某个用户，获取其在某个历史时刻之前已做出特定行为的多个历史对象，形成对象序列，以及，获取在该某个历史时刻之后向其推送的目标对象，并根据采集到的该用户针对该目标对象是否做出特定行为的行为数据确定行为标签，进而，根据该多个历史对象和目标对象的对象特征，以及行为标签构建对应的训练样本。

上述多个历史对象和目标对象通常属于同一类业务对象，例如，商品或用户；业务对象的载体可以是文本、图片、视频或音频等。上述特定行为与业务对象相适应，例如，假定业务对象为广告，相应，特定行为可以为是否点击，又例如，假定业务对象是视频，相应，特定行为可以是播放时长是否达到总时长的预设百分比，再例如，假定业务对象为APP，相应，特定行为可以为是否注册。

在一个实施例中，训练样本中所涉及各个对象的对象特征可以包括对象ID。进一步，在一个例子中，训练样本涉及的业务对象是视频广告，相应，历史视频对象的特征可以包括视频简介和用户行为特征，目标视频对象的特征可以包括视频简介。示例性地，视频简介可以包括视频ID、视频类目信息(如出行、汽车等)、视频时长、视频作者等；用户行为特征可以包括用户ID、观看时长、视频评论、是否点赞、是否转发等。在一个实施例中，上述行为标签可以为1(指示做出特定行为)或0(指示未做出特定行为)。

另一方面，在一个实施例中，在构建训练样本的过程中，可以先对采集到的对象特征的多个特征项进行筛选，再将经过筛选被保留的特征项归入训练样本。在一个具体的实施例中，可以采用批标准化(Batch Normalization，简称BN)确定各个特征项的重要性，从而保留重要程度达到预定标准的特征项。在另一个具体的实施例中，可以采用自动特征交叉筛选(Automatic Feature Interaction Selection，简称AutoFIS)算法，进行特征筛选。具体，给每一个特征项设置一个可训练的参数，通过训练后该参数的大小来判断特征重要性，该参数通过一个专门的稀疏优化器进行优化，从而得到稀疏解。从而，可以根据该重要性参数进行特征项的筛选。在还一个具体的实施例中，可以采用打乱重排(shuffle)的方式，确定特征重要性。具体，通过采集到的训练数据，训练出一个模型，并且，在验证集上得到基准评估指标的指标值auc_0，在计算某一个特征a的特征重要性时，通过训练好的模型来评估验证集，在评估过程中，在每一个批次的训练数据中对特征a的取值进行打乱重排，从而得到指标值auc_a，进而根据auc_0和auc_a之间的差距确定特征a的重要程度，进一步，在该重要程度符合预设标准的情况下，保留该特征a，某则进行舍弃。如此，可以筛选出关键特征，构建训练样本，从而避免冗余特征带来的计算量和对训练的负面影响，使得构建出的训练样本具有更高的可用性。

由上，对获取到的第一训练样本进行介绍。然后，在步骤S220，将该第一训练样本输入行为预测***，参见图1，行为预测***100包括组件：编码器110、解码器120和预测层130。下面，对行为预测***利用这三个组件处理第一训练样本的过程依次进行介绍。

编码器110中包括一个或多个编码层，图3示出Transformer机制中任意的第i个编码层的结构示意图。如图3所示，第i个编码层中包括顺序连接的注意力层、残差模块1、前馈层和残差模块2，其中注意力层获取输入当前编码层的针对上述多个历史对象的表征矩阵Z⁽ⁱ⁾。需说明，若当前编码层为第1个编码层，此时，表征矩阵Z⁽¹⁾由多个历史对象对应的多个对象嵌入向量堆叠而成，其中，各个对象嵌入向量是根据对应历史对象的对象特征进行嵌入处理而得到；否则，表征矩阵Z⁽ⁱ⁾为上一编码层(即第i-1个编码层)输出的表征矩阵。

上述注意力层先利用查询变换矩阵W_q、键变换矩阵W_k和值变换矩阵W_v，将输入当前编码层的表征矩阵Z⁽ⁱ⁾分别投射到查询(query)空间、键(key)空间和值(value)空间，得到查询结果矩阵Q_i、键结果矩阵K_i和值结果矩阵V_i，然后，基于注意力机制，利用查询结果矩阵Q_i和键结果矩阵K_i确定注意力，再利用该注意力对值输出矩阵V_i进行变换，并将变换结果作为注意力层的输出，残差模块1对该输出和矩阵Z⁽ⁱ⁾进行加和处理，再进行标准化(Normalization)处理，前馈层对残差模块1的输出进行线性变换和非线性变换，其输出交由残差模块2继续进行处理，并得到当前编码层的输出矩阵Z⁽ⁱ⁺¹⁾。

如此，将训练样本中的多个历史对象作为编码器110的输入，可以得到任意的第i个编码层中确定出的键结果矩阵K_i和值结果矩阵V_i。进一步，在一个实施例中，可以从编码器的所有编码层产生的若干(指代一个或多个)键结果矩阵和若干值结果矩阵中，选取任意一组键、值结果矩阵，用作输入到解码器120中的键输出矩阵K和值输出矩阵V。在另一个实施例中，可以直接选取最后一个编码层产生的键、值结果矩阵。在还一个实施例中，可以分别确定若干键输出矩阵和若干值输出矩阵的均值矩阵，作为键输出矩阵K和值输出矩阵V。

于是，解码器120基于从编码器110获取的、基于多个历史对象而确定的键输出矩阵K和值输出矩阵V，确定第一用户针对目标对象的兴趣向量。解码器120中包括一个或多个解码层，需理解，解码层和编码层的结构具有一定程度的相似性。图4示出Transformer机制中任意的第j个解码层的结构示意图。如图4所示，第j个解码层中包括顺序连接的注意力层、残差模块3、前馈层和残差模块4，其中注意力层获取输入当前解码层的针对第一用户对目标商品兴趣的表征向量z^(j)。需说明，若当前解码层为第1个解码层，此时，表征向量z⁽¹⁾为目标对象对应的嵌入向量；否则，表征向量z^(j)为上一解码层(即第j-1个解码层)输出的表征向量。

在第1个解码层中，注意力层利用查询变换矩阵W_q对表征向量z⁽¹⁾进行线性变换，得到查询结果向量q₁，并且，基于注意力机制，利用查询结果向量q₁和从编码器接收的键输出矩阵K确定注意力，再利用此注意力对从编码器接收的值输出矩阵V进行变换，并将变换结果作为注意力层的输出，残差模块3对该输出和表征向量z⁽¹⁾进行加和处理，再进行标准化处理，前馈层对残差模块3的输出进行线性变换和非线性变换，其输出交由残差模块4继续进行处理，并得到当前编码层的输出向量z⁽²⁾。

在第j(≥2)个解码层中，注意力层先利用查询变换矩阵W_q、键变换矩阵W_k和值变换矩阵W_v，对输入当前解码层的表征向量z^(j)分别进行线性变换，得到查询结果向量q_j、键结果向量k_j和值结果向量v_j，然后，基于注意力机制，利用查询结果向量q_j和键结果向量k_j确定注意力，再利用该注意力对值结果向量v_j进行变换，并将变换结果作为注意力层的输出，残差模块3对该输出和向量z^(j)进行加和处理，再进行标准化处理，前馈层对残差模块3的输出进行线性变换和非线性变换，其输出交由残差模块4继续进行处理，并得到当前解码层的输出向量z^(j+1)。

由上，可以得到解码器中所有解码层的输出向量z。进一步，在一个实施例中，可以将最后一个解码层的输出向量直接确定为上述兴趣向量。在另一个实施例中，可以将多个解码层的多个输出向量的平均向量，确定为上述兴趣向量。

之后，预测层130可以基于由解码器输出的兴趣向量，确定第一用户针对目标对象的行为预测结果。在一个实施例中，预测层130中包括若干全连接层和sigmoid层，通过若干全连接层对兴趣向量进行线性变换处理并降低至1维，然后，利用sigmoid层将1维数值映射到0至1的概率区间，将映射后的概率值确定为行为预测结果。

以上，将第一训练样本输入引入TF实现的行为预测***，可以得到更为准确度的行为预测结果。接着，在步骤S230，利用该行为预测结果和行为标签，训练行为预测***。

具体，可以基于行为预测结果和行为标签，确定训练损失，再基于训练损失计算梯度，从而根据反向传播法更新行为预测***中各组件的模型参数。示例性地，其中训练损失的确定可以采用交叉熵损失函数或铰链损失函数。

通过重复执行上述步骤S210至步骤S230，可以实现对行为预测***的多次迭代更新。并且，在迭代达到预设收敛标准后，例如，达到预定迭代次数或迭代后模型的评价指标达到预定阈值，结束迭代，并将最后一次迭代后得到的行为预测***作为最终实际使用的行为预测***。

综上，采用本说明书实施例披露的行为预测***的训练方法，引入基于TF机制的编码器和解码器，并且，将体现用户兴趣的历史对象序列作为编码器的输入，得到键输出向量和值输出向量，再将该键输出向量和值输出向量，以及目标对象的特征作为解码器的输入，得到表征用户对目标对象兴趣倾向的兴趣向量，从而利用预测层根据该兴趣向量确定用户对目标对象的行为预测结果，进而根据此行为预测结果和行为标签更新行为预测***中的模型参数。如此，可以训练出预测精准、性能优良的行为预测***。

本说明书实施例还披露另一种行为预测***的训练方法，该行为预测***包括图5中示出的基于TF机制的编码器510和解码器520，以及预测层530。图6示出根据另一个实施例的行为预测***的训练方法流程示意图，所述方法的执行主体可以为任何具有计算、处理能力的装置、服务器或设备集群。如图6所示，所述方法包括以下步骤：

步骤S610，获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出特定行为的行为标签；步骤S620，将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器确定针对所述目标对象的查询输出向量；所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果；步骤S630，利用所述行为预测结果和行为标签，训练所述行为预测***。

对以上步骤的展开描述如下：

首先，在步骤S610，获取第一训练样本。需说明，对步骤S610的描述，可以参见对步骤S210的介绍，在此不作赘述。

步骤S620，将第一训练样本输入行为预测***。参见图5，行为预测***500中包括编码器510、解码器520和预测层530。下面，对利用行为预测***500中的三个组件处理第一训练样本的过程依次进行介绍。

编码器510中包括一个或多个编码层。对编码器510的介绍，可以参见上述对编码器110的相关介绍。由此，将第一训练样本中的多个历史对象作为编码器510的输入，可以得到键输出矩阵K和值输出矩阵V，用作解码器520和预测层530的部分输入。需理解，用作解码器520输入的键、值输出矩阵和用作预测层530输入的键、值输出矩阵可以相同，也可以不同。

解码器520基于从编码器510获取的键输出矩阵K和值输出矩阵V，以及目标对象的特征，在其包含的若干解码层中，确定若干查询结果向量。进一步，可以基于此若干查询结果向量确定查询输出向量，用作预测层530的部分输入。在一个实施例中，可以将最后一个解码层输出的查询结果向量作为查询输出向量q。在另一个实施例中，可以将多个解码层输出的查询结果向量的平均向量作为查询输出向量。需说明，对解码器520的介绍还可以参见前述对解码器130的相关描述。

预测层530基于从编码器510获取的键输出矩阵K和值输出矩阵V，以及从解码器520获取的查询输出向量q，确定行为预测结果。具体，在预测层530中，先基于键输出矩阵K、值输出矩阵V和查询输出向量，计算第一用户针对目标对象的兴趣向量，再基于兴趣向量确定行为预测结果。在一个实施例中，可以计算查询输出向q与键输出矩阵K的乘积，得到注意力向量，再将注意力向量与值输出矩阵V的乘积向量，确定为兴趣向量。在另一个实施例中，预测层530可以设计为包括若干预测子层，其中各个预测子层具有与解码层具有相同的网络结构，由此，可以基于若干预测子层输出的若干表征向量确定上述兴趣向量。另一方面，在一个实施例中，预测层530还可以设计为包括若干全连接层和sigmoid层，用于基于兴趣向量确定第一用户对目标对象做出特定行为的概率，作为行为预测结果。

以上，将第一训练样本输入引入TF实现的行为预测***，可以得到更为准确度的行为预测结果。

步骤S630，利用所述行为预测结果和行为标签，训练所述行为预测***。具体，可以基于行为预测结果和行为标签，确定训练损失，再基于训练损失计算梯度，从而根据反向传播法更新行为预测***中各组件的模型参数。示例性地，其中训练损失的确定可以采用交叉熵损失函数或铰链损失函数。

通过重复执行上述步骤S610至步骤S630，可以实现对行为预测***的多次迭代更新。并且，在迭代达到预设收敛标准后，例如，达到预定迭代次数或迭代后模型的评价指标达到预定阈值，结束迭代，并将最后一次迭代后得到的行为预测***作为最终实际使用的行为预测***。

综上，采用本说明书实施例披露的行为预测***的训练方法，引入基于TF机制的编码器和解码器，并且，将体现用户兴趣的历史对象序列作为编码器的输入，得到键输出向量和值输出向量，再将该键输出向量和值输出向量，以及目标对象的特征作为解码器的输入，得到查询输出向量，从而利用预测层根据编码器输出的键输出向量和值输出向量以及解码器输出的查询输出向量确定行为预测结果，进而根据此行为预测结果和行为标签更新行为预测***中的模型参数。如此，可以训练出预测精准、性能优良的行为预测***。

与上述训练方法相对应的，本说明书实施例还披露训练装置。图7示出根据一个实施例的行为预测***的训练装置结构示意图，所述装置可以集成于任何具有计算、处理能力的服务器或设备集群等。如图7所示，所述装置700包括以下组成单元：

样本获取单元710，配置为获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签。预测单元720，配置为将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；训练单元730，配置为利用所述行为预测结果和行为标签，训练所述行为预测***。

在一个实施例中，所述编码器包括多个编码层；所述预测单元720配置为利用所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵，具体包括：各个编码层分别基于本层中的键变换矩阵和值变换矩阵，处理由上一编码层输出的针对所述多个历史对象的对象表征矩阵，得到该编码层对应的键结果矩阵和值结果矩阵；基于所述多个编码层对应的多个键结果矩阵和多个值结果矩阵，确定所述键输出矩阵和值输出矩阵。

在一个实施例中，所述预测单元720配置为利用所述解码器基于所述键输出矩阵和值输出矩阵，确定针对所述第一用户针对所述目标对象的兴趣向量，具体包括：所述解码器利用其查询变换矩阵处理所述目标对象的嵌入向量，得到查询输出向量，并且，基于所述查询输出向量、键输出矩阵和值输出矩阵的乘积确定所述兴趣向量。

综上，采用本说明书实施例披露的行为预测***的训练装置，引入基于TF机制的编码器和解码器，并且，将体现用户兴趣的历史对象序列作为编码器的输入，得到键输出向量和值输出向量，再将该键输出向量和值输出向量，以及目标对象的特征作为解码器的输入，得到表征用户对目标对象兴趣倾向的兴趣向量，从而利用预测层根据该兴趣向量确定用户对目标对象的行为预测结果，进而根据此行为预测结果和行为标签更新行为预测***中的模型参数。如此，可以训练出预测精准、性能优良的行为预测***。

图8示出根据另一个实施例的行为预测***的训练装置结构示意图，所述装置800可以集成于任何具有计算、处理能力的服务器或设备集群等。如图8所示，所述装置800包括以下组成单元：

样本获取单元810，配置为获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签。预测单元820，配置为将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器确定针对所述目标对象的查询输出向量；所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果；训练单元830，配置为利用所述行为预测结果和行为标签，训练所述行为预测***。

在一个实施例中，预测单元820配置为利用所述解码器确定针对所述目标对象的查询输出向量，具体包括：所述解码器利用其查询变换矩阵处理目标对象的嵌入向量，得到所述查询输出向量。

在一个实施例中，预测单元820配置为利用所述解码器确定针对所述目标对象的查询输出向量，具体包括：所述解码器利用第一查询变换矩阵处理目标对象的嵌入向量，得到第一查询输出向量，并基于所述查询输出向量、键输出矩阵和值输出矩阵的乘积确定针对所述目标对象的表征向量，再利用第二查询变换矩阵处理所述表征向量，第二查询输出向量，作为所述查询输出向量。

在一个实施例中，预测单元820配置为利用所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果，包括：所述预测层基于所述查询输出向量、键输出矩阵和值输出矩阵计算乘积结果，对所述乘积结果进行线性变换和/或非线性变换处理，得到变换结果，基于所述变换结果确定所述行为预测结果。

综上，采用本说明书实施例披露的行为预测***的训练装置，引入基于TF机制的编码器和解码器，并且，将体现用户兴趣的历史对象序列作为编码器的输入，得到键输出向量和值输出向量，再将该键输出向量和值输出向量，以及目标对象的特征作为解码器的输入，得到查询输出向量，从而利用预测层根据编码器输出的键输出向量和值输出向量以及解码器输出的查询输出向量确定行为预测结果，进而根据此行为预测结果和行为标签更新行为预测***中的模型参数。如此，可以训练出预测精准、性能优良的行为预测***。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图6所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图6所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种行为预测***的训练方法，包括：

获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；

将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；

利用所述行为预测结果和行为标签，训练所述行为预测***。

2.根据权利要求1所述的方法，其中，所述目标对象和多个历史对象为商品或用户。

3.根据权利要求1所述的方法，其中，所述编码器包括多个编码层；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵，包括：

各个编码层分别基于本层中的键变换矩阵和值变换矩阵，处理由上一编码层输出的针对所述多个历史对象的对象表征矩阵，得到该编码层对应的键结果矩阵和值结果矩阵；

基于所述多个编码层对应的多个键结果矩阵和多个值结果矩阵，确定所述键输出矩阵和值输出矩阵。

4.根据权利要求1所述的方法，其中，所述解码器基于所述键输出矩阵和值输出矩阵，确定针对所述第一用户针对所述目标对象的兴趣向量，包括：

所述解码器利用其查询变换矩阵处理所述目标对象的嵌入向量，得到查询输出向量，并且，基于所述查询输出向量、键输出矩阵和值输出矩阵的乘积确定所述兴趣向量。

5.一种行为预测***的训练方法，包括：

将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器确定针对所述目标对象的查询输出向量；所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果；

利用所述行为预测结果和行为标签，训练所述行为预测***。

6.根据权利要求5所述的方法，其中，所述解码器确定针对所述目标对象的查询输出向量，包括：

所述解码器利用其查询变换矩阵处理目标对象的嵌入向量，得到所述查询输出向量。

7.根据权利要求5所述的方法，其中，所述解码器确定针对所述目标对象的查询输出向量，包括：

所述解码器利用第一查询变换矩阵处理目标对象的嵌入向量，得到第一查询输出向量，并基于所述查询输出向量、键输出矩阵和值输出矩阵的乘积确定针对所述目标对象的表征向量，再利用第二查询变换矩阵处理所述表征向量，第二查询输出向量，作为所述查询输出向量。

8.根据权利要求5所述的方法，其中，所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果，包括：

所述预测层基于所述查询输出向量、键输出矩阵和值输出矩阵计算乘积结果，对所述乘积结果进行线性变换和/或非线性变换处理，得到变换结果，基于所述变换结果确定所述行为预测结果。

9.一种行为预测***的训练装置，包括：

样本获取单元，配置为获取第一训练样本，其中包括目标对象，第一用户已做出特定行为的多个历史对象，以及指示第一用户是否对所述目标对象做出所述特定行为的行为标签；

预测单元，配置为将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器基于所述键输出矩阵和值输出矩阵，确定所述第一用户针对所述目标对象的兴趣向量；所述预测层基于所述兴趣向量得到行为预测结果；

训练单元，配置为利用所述行为预测结果和行为标签，训练所述行为预测***。

10.一种行为预测***的训练装置，包括：

预测单元，配置为将所述第一训练样本输入所述行为预测***，该行为预测***包括预测层，以及基于Transformer机制的编码器和解码器；其中，所述编码器确定针对所述多个历史对象的键输出矩阵和值输出矩阵；所述解码器确定针对所述目标对象的查询输出向量；所述预测层基于所述键输出矩阵、值输出矩阵和查询输出向量，确定行为预测结果；

11.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项所述的方法。

12.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。