CN118035566A

CN118035566A - 交互行为预测模型的训练方法、交互行为预测方法及装置

Info

Publication number: CN118035566A
Application number: CN202410431496.1A
Authority: CN
Inventors: 连德富; 唐兴元; 陈恩红; 刘奇; 靳浩然; 王哲; 程佳; 雷军
Original assignee: University of Science and Technology of China USTC; Hanhai Information Technology Shanghai Co Ltd
Current assignee: University of Science and Technology of China USTC; Hanhai Information Technology Shanghai Co Ltd
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-05-14
Anticipated expiration: 2044-04-11
Also published as: CN118035566B

Abstract

本发明提供了一种交互行为预测模型的训练方法、交互行为预测方法及装置，可以应用于机器学习领域和数据挖掘领域。该训练方法包括：对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，第二历史时间段表征的时长比第一历史时间段表征的时长短；将第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；根据第二资源相关特征和第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；根据训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型。

Description

交互行为预测模型的训练方法、交互行为预测方法及装置

技术领域

本发明涉及机器学习领域和数据挖掘领域，更具体地涉及一种交互行为预测模型的训练方法、交互行为预测方法及装置。

背景技术

工业推荐***通常融合了自然内容和广告，向不同用户展示商品，以提高用户参与度和在线收入。在曝光的项目中，想要推广产品的卖家可能会投资广告以获得更多印象。传统模型在源域数据上训练会花费大量时间，不能随时适应用户兴趣的变化。而对近期数据的关注会导致模型只能捕捉到用户与商品之间的近期个性化特征，而丢失长期特征。

发明内容

鉴于上述问题，本发明提供了一种交互行为预测模型的训练方法、交互行为预测方法及装置。

根据本发明的第一个方面，提供了一种交互行为预测模型的训练方法，包括：对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，上述历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，上述第二历史时间段表征的时长比上述第一历史时间段表征的时长短；

将上述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；

根据上述第二资源相关特征和上述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；

根据上述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，上述历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，上述历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

根据本发明的实施例，上述第一资源相关特征包括N个，N大于1；

其中，上述将上述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征包括：

基于自注意力网络算法处理N个上述第一资源相关特征，得到M个中间特征向量，M＜N。

将上述中间特征向量输入池化层，得到上述第一融合特征。

根据本发明的实施例，上述根据上述第二资源相关特征和上述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型包括：

将上述第二资源相关特征输入上述第一交互行为预测模型，输出第二资源预测概率；

根据损失函数处理上述第二资源预测概率和与上述第二历史非推荐资源相关数据相关联的标签数据，得到损失值；

基于上述损失值迭代地调整上述第一交互行为预测模型，得到训练后的上述第一交互行为预测模型。

根据本发明的实施例，上述根据上述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型包括：

根据上述训练后的第一交互行为预测模型的模型参数，更新上述第二交互行为预测模型的模型参数，得到中间第二交互行为预测模型；

将上述历史推荐资源相关数据和上述第一融合特征输入上述中间第二交互行为预测模型，输出历史推荐资源预测概率；

根据上述历史推荐资源预测概率和与上述历史推荐资源相关数据相关联的标签，训练上述中间第二交互行为预测模型，得到上述训练后的第二交互行为预测模型。

根据本发明的实施例，上述历史非推荐资源相关数据包括以下至少一项：项目名称类型数据、类别名称类型数据、项目属性类型数据。

本发明的第二方面提供了一种交互行为预测方法，包括：

对资源推荐相关数据进行特征提取，得到资源推荐相关特征；

将上述资源推荐相关特征输入训练后的第二交互行为预测模型，输出资源推荐预测概率。

本发明的第三方面提供了一种交互行为预测模型的训练装置，包括：

特征提取模块，用于对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，上述历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，上述第二历史时间段表征的时长比上述第一历史时间段表征的时长短；

融合特征模块，用于将上述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；

初始第一训练模块，用于根据上述第二资源相关特征和上述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；

初始第二训练模块，用于根据上述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，上述历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，上述历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

本发明的第四方面提供了一种交互行为预测装置，包括：

推荐特征模块，用于对资源推荐相关数据进行特征提取，得到资源推荐相关特征；

推荐预测模块，用于将上述资源推荐相关特征输入训练后的第二交互行为预测模型，输出资源推荐预测概率。

本发明的第五方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本发明的第六方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本发明的第七方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

根据本发明提供的一种交互行为预测模型的训练方法、交互行为预测方法及装置，通过对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征；将第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；根据第二资源相关特征和第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；根据训练后的第一交互行为预测模型的模型参数以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型。该方法是由三步法组成的异步结构，通过使用第一特征融合模型对历史非推荐资源相关数据进行特征提取，由此，提供长期个性化信息，解决了滑动窗口式更新造成的遗忘问题。但是在工业推荐***中，历史非推荐资源相关数据的数量更大，点击更密集。采用知识转移的方法可以将第一交互行为预测模型中的模型参数转移到第二交互行为预测模型，从而缓解数据稀疏性带来的训练收敛难题。此外，在第二交互模型上使用历史推荐资源相关数据进行微调，使得只需要较少的额外线上推理成本，大大提升了推荐***点击率预估的准确性，很好地契合工业推荐***对线上推理时延和存储的要求。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了根据本发明实施例的交互行为预测模型的训练方法和预测方法的应用场景图；

图2示出了根据本发明实施例的交互行为预测模型的训练方法的流程图；

图3示出了根据本发明实施例的交互行为预测方法的流程图；

图4示出了根据本发明实施例的交互行为预测模型的结构图；

图5示出了根据本发明实施例的交互行为预测模型的训练装置的结构框图；

图6示出了根据本发明实施例的交互行为预测装置的结构框图；以及

图7示出了根据本发明实施例的适于实现交互行为预测模型的训练方法和预测方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等）。

在本发明的技术方案中，所涉及的用户信息（包括但不限于用户个人信息、用户图像信息、用户设备信息，例如位置信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、存储、使用、加工、传输、提供、发明和应用等处理，均遵守相关法律法规和标准，采取了必要保密措施，不违背公序良俗，并提供有相应的操作入口，供用户选择授权或者拒绝。

工业推荐***通常融合了自然内容和广告，向不同用户展示商品，以提高用户参与度和在线收入。在曝光的项目中，想要推广产品的卖家可能会投资广告以获得更多印象。自然内容和广告共存于工业推荐***中。虽然这些项目和用户占据了同一个屏幕，但它们之间的数据分布却有很大不同，包括用户反馈量、用户行为类型和项目分布，所以应该将它们视为两种不同的场景。这里将自然内容作为源域，广告内容作为目标域，源域经过大量用户反馈的充实，成为广告目标域的宝贵知识库，目的是缓解数据稀疏的问题。

发明人发现推荐方法可以利用多任务学***衡，导致目标领域的学习效果不佳，用户反馈更为稀少。第二种经常采用预训练和微调范式，以适应知识迁移框架，即在大规模源域上训练预训练模型，然后在目标域上进行微调以提高模型性能。值得注意的是，在这种模式下，目标域的微调过程完全依赖于目标域的数据，与最初的大规模源域训练无关。将这两个阶段分开有助于实现高效实用的部署策略。此外，微调模型的目标是根据目标域的具体特征精心定制的，因此与利用跨域混合数据的联合训练方法相比，微调模型的性能更为出色。

然而，将源域数据从大规模自然内容转移到目标广告数据的预训练和微调范式仍面临以下问题：(1) 源域的数据主要由自然内容构成，其数据量巨大，这同时也给模型训练的效率带来了挑战。大量的自然内容虽然对增强模型的能力很有价值，但却需要花费大量时间进行训练。如果利用六个月的数据进行训练，训练过程将需要两天时间。考虑到在线推荐***中的模型需要随时适应用户兴趣的变化，时间成本的延长是一个重大问题。(2) 模型每日更新的数据以滑动窗口的方式变化，以便在训练效率和捕捉数据分布变化之间取得平衡。具体来说，每日更新模型使用最近几十天的数据进行训练，这就会产生灾难性遗忘问题。遗憾的是，这种对近期数据的关注导致模型只能捕捉到用户与物品之间的近期个性化特征，而丢失了长期特征。这种现象带来了巨大的挑战，因为它破坏了对用户偏好的全面、持久的理解，而这种理解对于提供准确的推荐至关重要。

有鉴于此，本发明提供了一种交互行为预测模型的训练方法、交互行为预测方法及装置，该训练方法包括：对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，第二历史时间段表征的时长比第一历史时间段表征的时长短；将第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；根据第二资源相关特征和第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；根据训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

需要说明的是，本发明提供的交互行为预测模型的训练方法和交互行为预测方法可用于数据挖掘领域，例如工业推荐，也可用于除数据挖掘领域之外的任意领域，例如机器学习等领域，本发明提供的交互行为预测模型的训练方法和交互行为预测方法的应用领域不做限定。

图1示出了根据本发明实施例的交互行为预测模型的训练方法和预测方法的应用场景图。

如图1所示，根据该实施例的应用场景可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104、服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等（仅为示例）。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

需要说明的是，本发明实施例所提供的交互行为预测模型的训练方法或交互行为预测方法一般可以由服务器105执行。相应地，本发明实施例所提供的交互行为预测模型的训练装置或交互行为预测装置一般可以设置于服务器105中。本发明实施例所提供的交互行为预测模型的训练方法或交互行为预测方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本发明实施例所提供的交互行为预测模型的训练装置或交互行为预测装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2~图4对发明实施例的交互行为预测模型的训练方法和预测方法进行详细描述。

图2示出了根据本发明实施例的交互行为预测模型的训练方法的流程图。

如图2所示，该实施例的交互行为预测模型的训练方法包括操作S210~操作S240。

在操作S210，对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，第二历史时间段表征的时长比第一历史时间段表征的时长短。

在操作S220，将第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征。

在操作S230，根据第二资源相关特征和第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型。

在操作S240，根据训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

根据本发明的实施例，历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，例如，在某购物网站上，有广告标识的商品。历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

根据本发明的实施例，历史非推荐资源相关数据可以包括上下文信息、项目属性等，其中，上下文信息表征察觉并能够影响场景和图像中的对象的一些信息或者是全部信息，项目属性表征项目本身所固有的性质。但不仅限于此，本发明的实施例对历史非推荐资源相关数据的具体数据不做限定。

根据本发明的实施例，第一资源相关特征与第一历史非推荐资源相关数据相对应，第二资源相关特征与第二历史非推荐资源相关数据相对应。

根据本发明的实施例，第一资源相关特征可以包括少数的关键特征，例如用户属性、项目属性等，但不仅限于此，本发明的实施例对关键特征的具体类型不做限定。其中，所涉及的用户信息和数据，均遵守相关法律法规，采取了必要保密措施，不违背公序良俗。

根据本发明的实施例，第二资源相关特征可以包括完整的特征，例如用户行为序列和上下文信息等，但不仅限于此，本发明的实施例对特征的具体类型不做限定。其中，所涉及的用户信息和数据，均遵守相关法律法规，采取了必要保密措施，不违背公序良俗。

根据本发明的实施例，预训练的第一特征融合模型可以采用轻量级架构，由嵌入层和浅层多层感知机（Multilayer Perceptron，MLP）组成。第一特征融合模型可以在每个月的第一天使用过去半年的数据进行更新，为当月的模型训练生成用户或项目嵌入。但不仅限于此，本发明对数据的具体使用时长以及更新时间不做限定。

根据本发明的实施例，第一融合特征是基于训练数据所得到的，其包含大量的信息。第一融合特征使得下游模型（即第一交互行为预测模型和第二交互行为预测模型）可以随时获取这些特征。

根据本发明的实施例，无论是访问原始数据还是训练第一交互行为预测模型得到模型参数，都需使用第一融合特征。针对得到第一融合特征所带来的需要大量存储成本以及训练效率低的问题，可以将第一融合特征分为有关用户的第一融合特征和有关项目的第一融合特征，将其分别存储，从而提高了第一融合特征的使用效率。拆分进行单独存储使得在检索特定用户或项目的第一融合特征时可以有效地用作下游模型的特征输入。

根据本发明的实施例，第一交互行为预测模型可以包括行为序列模型、特征交互模型和更大的MLP层。

根据本发明的实施例，第二交互行为预测模型具有与第一交互行为预测模型一致的网络结构。在第一交互行为预测模型完成对自然数据的训练后，可以将其参数转移到第二交互行为预测模型，目的是为加速第二交互行为预测模型的收敛提供良好的初始化。

根据本发明的实施例，通过对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征；将第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；根据第二资源相关特征和第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；根据训练后的第一交互行为预测模型的模型参数以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型。该方法是由三步法组成的异步结构，通过使用第一特征融合模型对历史非推荐资源相关数据进行特征提取，由此，提供长期个性化信息，解决了滑动窗口式更新造成的遗忘问题。但是在工业推荐***中，历史非推荐资源相关数据的数量更大，点击更密集。采用知识转移的方法可以将第一交互行为预测模型中的模型参数转移到第二交互行为预测模型，从而缓解数据稀疏性带来的训练收敛难题。此外，在第二交互模型上使用历史推荐资源相关数据进行微调，使得只需要较少的额外线上推理成本，大大提升了推荐***点击率预估的准确性，很好地契合工业推荐***对线上推理时延和存储的要求。

根据本发明的实施例，第一资源相关特征包括N个，N大于1；其中将第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征包括：基于自注意力网络算法处理N个第一资源相关特征，得到M个中间特征向量，M＜N；将中间特征向量输入池化层，得到第一融合特征。

根据本发明的实施例，当第二交互行为预测模型在训练过程中使用某个样本的特征时，可以根据历史非推荐资源相关数据检索到相应的多个用户或项目的相关信息。

根据本发明的实施例，可以将检索到的用户/项目进行嵌入连接，如公式（1）所示：

（1）

其中，d为嵌入维度，emb_j代表最近第j个月的用户/项目嵌入。在作为第一交互行为预测模型的输入之前，e将进行自注意力计算，以进一步提取协同过滤信号的上下文信息，如公式（2）所示，并通过均值池化操作压缩为单一输入特征，如公式（3）所示。

（2）

（3）。

因此，输入后续模型的嵌入表（第一融合特征）也分为用户侧和项目侧。

根据本发明的实施例，多个嵌入表会大大增加在线推理过程中的内存和延迟成本。通过使用自注意来聚合多个嵌入表，在第二交互行为预测模型的参数固定后，可以使用合并后的嵌入表，从而降低内存和延迟成本。

根据本发明的实施例，根据第二资源相关特征和第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型包括：将第二资源相关特征输入第一交互行为预测模型，输出第二资源预测概率；根据损失函数处理第二资源预测概率和与第二历史非推荐资源相关数据相关联的标签数据，得到损失值；基于损失值迭代地调整第一交互行为预测模型，得到训练后的第一交互行为预测模型。

根据本发明的实施例，第一交互行为预测模型使用第一特征融合模型在过去三个月中生成的用户/项目嵌入信息来补充其输入。第一特征融合模型和第一交互行为预测模型之间以不重叠的方式访问这些嵌入式数据，这意味着第一特征融合模型生成嵌入式数据的月份与用于训练第一交互行为预测模型的自然数据的月份是不重叠的。这种错位可以减少样本再训练问题，从而提高性能。

根据本发明的实施例，第一交互行为预测模型的更新频率相比第一特征融合模型会更高。

根据本发明的实施例，可以将第二资源相关特征和第一融合特征输入第一交互行为预测模型，输出第二资源预测概率；根据损失函数处理第二资源预测概率和与第二历史非推荐资源相关数据相关联的标签数据，得到损失值，其中，损失函数可以使用二元交叉熵函数，但不仅限于此，本发明的实施例对损失函数的具体类型不做限定。基于损失值迭代地调整第一交互行为预测模型，得到训练后的第一交互行为预测模型。

根据本发明的实施例，例如，在广告数据上训练的模型普遍存在数据稀疏的问题，这意味着正样本只占总样本的一小部分。但在工业推荐***中，自然数据的数量更大，点击更密集。一个直观的想法是通过知识转移将自然领域的交互信息转移到目标广告领域，从而缓解数据稀疏性带来的训练收敛难题。然而，大量自然数据的训练成本通常是不可接受的。为了进一步提高数据利用率，可以采用了预训练和微调范式，以更好地适应知识转移。

根据本发明的实施例，根据训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型包括：根据训练后的第一交互行为预测模型的模型参数，更新第二交互行为预测模型的模型参数，得到中间第二交互行为预测模型；将历史推荐资源相关数据和第一融合特征输入中间第二交互行为预测模型，输出历史推荐资源预测概率；根据历史推荐资源预测概率和与历史推荐资源相关数据相关联的标签，训练中间第二交互行为预测模型，得到训练后的第二交互行为预测模型。

根据本发明的实施例，可以根据训练后的第一交互行为预测模型的模型参数，更新第二交互行为预测模型的模型参数，其中，批归一化中的参数需要重新初始化。由于自然数据和广告数据的数据分布存在差异。深度神经网络中与数据分布相关的参数主要封装在批归一化中。重新初始化这些参数有助于刷新中间第二交互行为预测模型，进一步提高性能。

根据本发明的实施例，中间第二交互行为预测模型可以每天从第一交互行为预测模型的最新模型检查点加载参数进行初始化，然后利用第一特征融合模型的历史嵌入对上个月的广告数据进行微调。微调过程只依赖目标广告域的数据，而不依赖自然源域的数据。两个阶段的分离大大提高了部署策略的效率和实用性。中间第二交互行为预测模型使用二元交叉熵损失函数进行微调。

根据本发明的实施例，历史非推荐资源相关数据包括以下至少一项：项目名称类型数据、类别名称类型数据、项目属性类型数据。

根据本发明的实施例，历史非推荐资源相关数据还可以包括用户名称类型、用户属性类型等等。其中，所涉及的用户信息和数据，均遵守相关法律法规，采取了必要保密措施，不违背公序良俗。

根据本发明的实施例，类别名称类型数据例如烤肉、烧烤等等，项目属性类型数据例如均价、等等，项目名称类型数据可以是属于该类别名称的店名，例如“XX烤肉”等等，但不仅限于此，本发明的实施例对具体类型数据不做限定。其中，所涉及的用户信息和数据，均遵守相关法律法规，采取了必要保密措施，不违背公序良俗。

图3示出了根据本发明实施例的交互行为预测方法的流程图。

如图3所示，该实施例的交互行为预测方法包括操作S310~操作S320。

在操作S310，对资源推荐相关数据进行特征提取，得到资源推荐相关特征。

在操作S320，将资源推荐相关特征输入第二交互行为预测模型，输出资源推荐预测概率。

根据本发明的实施例，第二交互行为预测模型是根据上述实施例中提供的训练方法训练得到的。

根据本发明的实施例，考虑到模型效果和部署效率，可以以不同的训练数据周期更新三种点击率模型（第一特征融合模型、第一交互行为预测模型和第二交互行为预测模型）。例如，由于用户/物品的长期特征在一个月内保持稳定，因此可以在每月第一天更新第一特征融合模型。更新时，可以收集近半年的自然数据，按逐月顺序训练微小预训练模型（即第一交互行为预测模型），并在每月末存储用户/项目嵌入表。收集最近半年的数据，可以利用最近三个月的数据为模型训练预热，而且只存储最近三个月的用户/项目嵌入表。在获得新生成的嵌入表后，会丢弃旧的嵌入表，以节省存储空间。第一交互行为预测模型在每周星期一使用上个月的自然数据进行更新。预先训练的参数将被保存，上周的模型参数将被放弃。每天，第二交互行为预测模型将从第一交互行为预测模型中加载最新的模型参数初始化，但放弃 BN（批归一化参数）中的参数。然后，第二交互行为预测模型会使用上个月的广告数据进行自我微调。在线服务阶段，只有第二交互行为预测模型和过去三个月的用户/项目嵌入信息会参与推理计算。由于使用自注意力算法来聚合用户/项目嵌入，并且自注意力算法的参数在微调后是固定的，因此可以使用固定的自注意力算法将三个用户/项目嵌入合并为一个用户/项目嵌入表。这种合并操作可以减少在线推理过程的存储量和延迟。在此，对于收集数据的具体时长以及选择使用的几个月的数据不做限定，可以根据实际情况进行选择。

根据本发明的实施例，本发明实施例提供的交互行为预测方法适用于实际工业场景，如搜索广告。在真实的大规模线上工业***中，该方法带来了点击率2.9%的提升和2.1%的每千次点击收益提升。

需要说明的是，本发明任意实施例中涉及的数据的获取，包括但不限于历史推荐资源相关数据、历史非推荐资源相关数据，均是在取得相关用户的授权的条件下获取到的，且，针对获取到的用户信息和数据，采取了数据加密、数据脱敏等必要的保密措施，均遵守相关法律法规，且不违背公序良俗。

根据本发明的实施例，第二历史时间段表征的时长比第一历史时间段表征的时长短。

图4示出了根据本发明实施例的交互行为预测模型的训练方法的原理图。

如图4所示，该实施例的交互行为预测模型的训练方法的原理图包括第一特征融合模型410、第一交互行为预测模型420和第二交互行为预测模型430。其中，第一特征融合模型410包括第一嵌入层411、多层感知机层412、自注意力层413和池化层414。第一交互行为预测模型420包括第二嵌入层421、第一特征交互层422、第一多层感知机层423。第二交互行为预测模型430包括第三嵌入层431、第二特征交互层432和第二多层感知机层433。

历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据401，以及与第二历史时间段对应的第二历史非推荐资源相关数据402。将第一历史非推荐资源相关数据401输入至第一嵌入层411得到第一资源相关特征，将第一资源相关特征输入至多层感知机层412，可以输出与第一资源相关特征对应的点击率。将从第一嵌入层411得到第一资源相关特征输入至自注意力层413进行自注意力计算，以进一步提取第一融合特征的上下文信息，并通过池化层414进行均值池化操作，将多个第一资源相关特征压缩为单一特征415（即第一融合特征）。将第二历史非推荐资源相关数据402输入至第二嵌入层421得到第二资源相关特征，将第二资源相关特征输入至第一特征交互层422，其中，第一融合特征415将作为补充特征一起输入至第一特征交互层422，将得到的特征数据再一起输入至第一多层感知机层423，得到第二历史非推荐资源相关数据点击率424。将第二历史非推荐资源相关数据点击率424和与第二历史非推荐资源相关数据对应的标签数据输入至损失函数，输出损失值，基于损失值迭代地调整第一交互行为预测模型420中的模型参数，得到经训练好的第一交互行为预测模型。将训练完的第一交互行为预测模型420中的第二嵌入层421、第一特征交互层422和第一多层感知机层423的模型参数对应的更新第三嵌入层431、第二特征交互层432和第二多层感知机层433的模型参数，其中，将更新的批归一化的参数进行初始化，得到第二交互行为预测模型430。将历史推荐资源相关数据403输入至第三嵌入层431得到历史推荐相关特征，将历史推荐相关特征输入至第二特征交互层432，其中，第一融合特征415将作为补充特征一起输入至第二特征交互层432，将得到的特征数据再一起输入至第二多层感知机层433，得到历史推荐资源相关数据点击率434。将历史推荐资源相关数据点击率434和与历史推荐资源相关数据对应的标签数据输入至损失函数，输出损失值，基于损失值迭代地调整第二交互行为预测模型430中的模型参数，得到经训练好的第二交互行为预测模型。

基于上述交互行为预测模型的训练方法，本发明还提供了一种交互行为预测模型的训练装置。以下将结合图5对该装置进行详细描述。

图5示出了根据本发明实施例的交互行为预测模型的训练装置的结构框图。

如图5所示，该实施例的交互行为预测模型的训练装置500包括特征提取模块510、融合特征模块520、初始第一训练模块530和初始第二训练模块540。

特征提取模块510，用于对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，所述历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，所述第二历史时间段表征的时长比所述第一历史时间段表征的时长短。在一实施例中，特征提取模块510可以用于执行前文描述的操作S210，在此不再赘述。

融合特征模块520，用于将所述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征。在一实施例中，融合特征模块520可以用于执行前文描述的操作S220，在此不再赘述。

初始第一训练模块530，用于根据所述第二资源相关特征和所述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型。在一实施例中，初始第一训练模块530可以用于执行前文描述的操作S230，在此不再赘述。

初始第二训练模块540，用于根据所述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，所述历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，所述历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。在一实施例中，初始第二训练模块540可以用于执行前文描述的操作S240，在此不再赘述。

根据本发明的实施例，第一资源相关特征包括N个，N大于1。

根据本发明的实施例，融合特征模块包括：中间特征向量单元和第一融合特征单元。

中间特征向量单元，用于基于自注意力网络算法处理N个第一资源相关特征，得到M个中间特征向量，M＜N。

第一融合特征单元，用于将中间特征向量输入池化层，得到第一融合特征。

根据本发明的实施例，初始第一训练模块包括：第二资源预测单元、损失值得到单元和第一预测模型单元。

第二资源预测单元，用于将第二资源相关特征输入第一交互行为预测模型，输出第二资源预测概率。

损失值得到单元，用于根据损失函数处理第二资源预测概率和与第二历史非推荐资源相关数据相关联的标签数据，得到损失值。

第一预测模型单元，用于基于损失值迭代地调整第一交互行为预测模型，得到训练后的第一交互行为预测模型。

根据本发明的实施例，初始第二训练模块包括：中间预测模型单元、推荐资源预测单元和第二预测模型单元。

中间预测模型单元，用于根据训练后的第一交互行为预测模型的模型参数，更新第二交互行为预测模型的模型参数，得到中间第二交互行为预测模型。

推荐资源预测单元，用于将历史推荐资源相关数据和第一融合特征输入中间第二交互行为预测模型，输出历史推荐资源预测概率。

第二预测模型单元，用于根据历史推荐资源预测概率和与历史推荐资源相关数据相关联的标签，训练中间第二交互行为预测模型，得到训练后的第二交互行为预测模型。

根据本发明的实施例，历史非推荐资源相关数据包括一下至少一项：项目名称类型数据、类别名称类型数据、项目属性类型数据。

根据本发明的实施例，特征提取模块510、融合特征模块520、初始第一训练模块530和初始第二训练模块540中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，特征提取模块510、融合特征模块520、初始第一训练模块530和初始第二训练模块540中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上***、基板上的***、封装上的***、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，特征提取模块510、融合特征模块520、初始第一训练模块530和初始第二训练模块540中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图6示出了根据本发明实施例的交互行为预测装置的结构框图。

如图6所示，该实施例的交互行为预测装置600包括推荐特征模块610和推荐预测模块620。

推荐特征模块610，用于对资源推荐相关数据进行特征提取，得到资源推荐相关特征。在一实施例中，推荐特征模块610可以用于执行前文描述的操作S310，在此不再赘述。

推荐预测模块620，用于将所述资源推荐相关特征输入第二交互行为预测模型，输出资源推荐预测概率。在一实施例中，推荐预测模块610可以用于执行前文描述的操作S320，在此不再赘述。

图7示出了根据本发明实施例的适于实现交互行为预测模型的训练方法和交互行为预测方法的电子设备的方框图。

如图7所示，根据本发明实施例的电子设备包括处理器701，其可以根据存储在只读存储器（ROM）702中的程序或者从存储部分708加载到随机访问存储器（RAM）703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有电子设备操作所需的各种程序和数据。处理器 701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备还可以包括输入/输出（I/O）接口705，输入/输出（I/O）接口705也连接至总线704。电子设备还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时，该程序代码用于使计算机***实现本发明实施例所提供的交互行为预测模型的训练方法和交互行为预测方法。

在该计算机程序被处理器701执行时执行本发明实施例的***/装置中限定的上述功能。根据本发明的实施例，上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分709被下载和安装，和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本发明实施例的***中限定的上述功能。根据本发明的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本发明的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种交互行为预测模型的训练方法，其特征在于，包括：

对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，所述历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，所述第二历史时间段表征的时长比所述第一历史时间段表征的时长短；

将所述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；

根据所述第二资源相关特征和所述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；

根据所述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，所述历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，所述历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

2.根据权利要求1所述的方法，其特征在于，所述第一资源相关特征包括N个，N大于1；

其中，所述将所述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征包括：

基于自注意力网络算法处理N个所述第一资源相关特征，得到M个中间特征向量，M＜N；

将所述中间特征向量输入池化层，得到所述第一融合特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二资源相关特征和所述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型包括：

将所述第二资源相关特征输入所述第一交互行为预测模型，输出第二资源预测概率；

根据损失函数处理所述第二资源预测概率和与所述第二历史非推荐资源相关数据相关联的标签数据，得到损失值；

基于所述损失值迭代地调整所述第一交互行为预测模型，得到训练后的所述第一交互行为预测模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型包括：

根据所述训练后的第一交互行为预测模型的模型参数，更新所述第二交互行为预测模型的模型参数，得到中间第二交互行为预测模型；

将所述历史推荐资源相关数据和所述第一融合特征输入所述中间第二交互行为预测模型，输出历史推荐资源预测概率；

根据所述历史推荐资源预测概率和与所述历史推荐资源相关数据相关联的标签，训练所述中间第二交互行为预测模型，得到所述训练后的第二交互行为预测模型。

5.根据权利要求1所述的方法，其特征在于，所述历史非推荐资源相关数据包括以下至少一项：

项目名称类型数据、类别名称类型数据、项目属性类型数据。

6.一种交互行为预测方法，其特征在于，包括：

将所述资源推荐相关特征输入训练后的第二交互行为预测模型，输出资源推荐预测概率；

其中，所述训练后的第二交互行为预测模型是根据权利要求1至5中任一项所述的方法训练得到的。

7.一种交互行为预测模型的训练装置，其特征在于，包括：

特征提取模块，用于对历史非推荐资源相关数据进行特征提取，得到第一资源相关特征和第二资源相关特征，其中，所述历史非推荐资源相关数据包括与第一历史时间段相对应的第一历史非推荐资源相关数据，以及与第二历史时间段对应的第二历史非推荐资源相关数据，所述第二历史时间段表征的时长比所述第一历史时间段表征的时长短；

融合特征模块，用于将所述第一资源相关特征输入至预训练的第一特征融合模型，生成第一融合特征；

初始第一训练模块，用于根据所述第二资源相关特征和所述第一融合特征训练第一交互行为预测模型，得到训练后的第一交互行为预测模型；

初始第二训练模块，用于根据所述训练后的第一交互行为预测模型的模型参数，以及获取到的历史推荐资源相关数据训练第二交互行为预测模型，得到训练后的第二交互行为预测模型，其中，所述历史推荐资源相关数据是基于被标注推荐标识的推荐资源确定的，所述历史非推荐资源相关数据是基于没有被标注推荐标识的非推荐资源确定的。

8.一种交互行为预测装置，其特征在于，包括：

推荐预测模块，用于将所述资源推荐相关特征输入训练后的第二交互行为预测模型，输出资源推荐预测概率；

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序，

其特征在于，所述一个或多个处理器执行所述一个或多个计算机程序以实现根据权利要求1~5中任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1~5中任一项所述方法的步骤。