CN111090756B

CN111090756B - 基于人工智能的多目标推荐模型的训练方法及装置

Info

Publication number: CN111090756B
Application number: CN202010214210.6A
Authority: CN
Inventors: 刘剑; 刘鸿; 陈凯; 夏锋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-17
Anticipated expiration: 2040-03-24
Also published as: CN111090756A

Abstract

本发明提供了一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质；方法包括：获取多目标推荐模型的训练样本，该训练样本标注有与交互特征相对应的至少两个标签；该交互特征包括第一交互特征及至少一个第二交互特征，第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口；将训练样本分别输入至少一个教师模型；通过至少一个教师模型，分别对训练样本进行第二交互特征预测，得到相应的预测结果；基于得到的预测结果，更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；基于更新至少一个标签后的训练样本，训练多目标推荐模型；通过本发明，能够提高多目标推荐模型的预测精度。

Description

基于人工智能的多目标推荐模型的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质。

背景技术

人工智能（AI，Artificial Intelligence）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

推荐***是人工智能的重要应用分支，在当前的信息流个性化推荐场景中，多目标推荐模型得到了广泛应用。而多目标推荐模型所针对的多个目标往往存在不同的窗口期，使得基于相同采用窗口所采集的训练样本的准确性降低，从而进一步导致基于此类样本训练得到的多目标推荐模型的预测精度低。

发明内容

本发明实施例提供一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质，能够提高多目标推荐模型的预测精度，进而提高基于多目标推荐模型的预测结果进行媒体对象推荐的准确性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的多目标推荐模型的训练方法，包括：

获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；

其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；

将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；

通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；

基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；

基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，

使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。

本发明实施例还提供一种基于人工智能的多目标推荐模型的训练装置，包括：

获取模块，用于获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；

输入模块，用于将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；

预测模块，用于通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；

更新模块，用于基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；

训练模块，用于基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。

上述方案中，所述获取模块，还用于基于所述第一交互特征的采样时间窗口，采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据；并

基于采集的数据构造所述多目标推荐模型的训练样本。

上述方案中，所述更新模块，还用于分别将各所述教师模型的预测结果，作为训练样本中相应的第二交互特征的标签进行标注，以更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

上述方案中，所述装置还包括：

教师模型训练模块，用于获取所述至少一个教师模型的训练样本；

其中，各所述教师模型的训练样本基于相应的所述第二交互特征的采样时间窗口采样得到，且至少标注有相应的所述第二交互特征对应的标签；

基于各所述教师模型的训练样本，分别对相应的教师模型进行训练，以使得所述教师模型能够基于输入的媒体对象，对相应的所述第二交互特征进行预测。

上述方案中，所述教师模型训练模块，还用于分别将各所述教师模型的训练样本，输入至相应的教师模型，并通过相应的教师模型进行所述第二交互特征的预测，得到相应的预测结果；

基于得到的预测结果、及各所述教师模型的训练样本所标注的标签，确定各所述教师模型的损失函数的值；

基于各所述教师模型的损失函数的值，更新相应的教师模型的模型参数。

上述方案中，所述训练模块，还用于通过所述多目标推荐模型，对所述更新至少一个标签后的训练样本，进行所述交互特征的预测，得到特征预测结果；

获取各所述交互特征的特征预测结果、与相应交互特征对应的标签之间的差异；

基于各所述交互特征对应的差异，确定所述多目标推荐模型中相应交互特征对应的损失函数的值；

基于所述多目标推荐模型中各交互特征对应的损失函数的值，更新所述多目标推荐模型的模型参数。

上述方案中，所述训练模块，还用于当各所述交互特征对应的损失函数的值超出相应损失阈值时，基于各所述交互特征对应的损失函数，确定相应交互特征的误差信号；

将各所述误差信号在所述多目标推荐模型中反向传播，并在传播的过程中更新各个层的模型参数。

上述方案中，所述多目标推荐模型包括共享层、特征提取层、特征拼接层和预测层，所述训练模块，还用于将所述第一交互特征的误差信号，依次传播至所述预测层、特征拼接层、特征提取层以及共享层，以实现所述第一交互特征的误差信号在所述多目标推荐模型中的反向传播；

将所述第二交互特征的误差信号，依次传播至所述预测层、特征拼接层以及特征提取层；并

对所述第二交互特征的误差信号进行阻断，使得所述第二交互特征的误差信号无法传播至所述共享层；

在所述第一交互特征的误差信号及所述第二交互特征的误差信号反向传播的过程中，更新所述多目标推荐模型中各个层的模型参数。

上述方案中，所述多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层，所述装置还包括：

推荐模块，用于获取待推荐媒体对象的用户数据和内容数据；

通过所述特征映射层，分别对所述用户数据和内容数据进行映射处理，得到对应所述用户数据和内容数据的特征向量；

通过所述特征提取层，对得到的所述特征向量进行特征提取，得到所述待推荐媒体对象的特征向量；

通过所述特征拼接层，对所述待推荐媒体对象的特征向量进行拼接，得到拼接向量；

基于所述拼接向量，通过所述预测层进行交互特征的预测，得到对应所述待推荐媒体对象的特征预测结果；

基于所述特征预测结果对所述待推荐媒体对象进行推荐。

上述方案中，所述推荐模块，还用于确定媒体信息流页面对应的登录用户；

获取所述登录用户的用户数据、及待推荐媒体对象的内容数据；

基于获取的所述用户数据及所述内容数据，通过所述多目标推荐模型进行交互特征的预测，得到对应所述第一交互特征、以及所述至少一个第二交互特征的特征预测结果；

基于得到的所述特征预测结果，在所述待推荐媒体对象中确定至少一个目标媒体对象；

将所述目标媒体对象推荐给所述登录用户，以在所述媒体信息流页面呈现所述目标媒体对象。

本发明实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的多目标推荐模型的训练方法。

本发明实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本发明实施例提供的基于人工智能的多目标推荐模型的训练方法。

本发明实施例具有以下有益效果：

由于获取的多目标推荐模型的训练样本中标注有第一交互特征和第二交互特征的标签，且第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口，即两个交互特征的采样时间窗口不同步，将导致训练样本的准确性降低，基于此，获取能够对第二交互特征进行预测的至少一个教师模型，将多目标推荐模型的训练样本输入该至少一个教师模型中，通过该至少一个教师模型对训练样本进行相应的第二交互特征的预测，基于得到的预测结果，更新训练样本中相应第二交互特征的标签，以得到更新至少一个标签后的训练样本，从而基于该更新至少一个标签后的训练样本对多目标推荐模型进行训练；

如此，通过训练完成的至少一个教师模型对训练样本进行第二交互特征的预测，并基于预测结果更新训练样本中对应第二交互特征的标签，以实现教师模型预测能力的迁移，然后采用更新标签后的训练样本训练多目标推荐模型，提高多目标推荐模型对于不同采样时间窗口的交互特征的预测精度；从而在结合第一交互特征和第二交互特征的预测结果进行媒体对象推荐时，相应提高了媒体对象推荐的准确性。

附图说明

图1是本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的实施场景示意图；

图2是本发明实施例提供的电子设备的结构示意图；

图3是本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的流程示意图；

图4是本发明实施例提供的多目标推荐模型的结构示意图一；

图5是本发明实施例提供的多目标推荐模型的结构示意图二；

图6是本发明实施例提供的第二交互特征的误差信号的反向传播阻断示意图；

图7是本发明实施例提供的基于多目标推荐模型进行媒体对象推荐的数据流走向图；

图8是本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的流程示意图；

图9是本发明实施例提供的多目标推荐模型的训练方法的架构示意图；

图10是本发明实施例提供的媒体信息流页面的示意图；

图11是本发明实施例提供的基于人工智能的多目标推荐模型的训练装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）媒体对象，适用于在互联网进行传播的各种类型的信息，比如新闻、资讯、短视频等；

2）内容数据，与媒体对象相关的数据，比如媒体对象的标识、内容标签、发布来源、相关文本等；

3）用户数据，比如用户标识、历史行为（搜索记录、浏览记录等）、用户环境（地理位置、网络状态等）；

4）交互特征，主要指用户与媒体对象的交互特征，比如，对于个性化视频流推荐时，交互特征是用户针对视频进行播放、分享、或者其他用户对分享内容进行播放等；

5）多目标推荐模型，能够基于输入的待推荐媒体对象，进行多个目标（即多个交互特征）的预测，比如可同时预测某一待推荐媒体对象的分享率、播放率等。

基于上述对本发明实施例中涉及的名词和术语的解释，下面说明本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的实施场景，参见图1，图1是本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的实施场景示意图，为实现支撑一个示例性应用，终端（包括终端200-1和终端200-2）上设置有应用客户端，比如即时通讯客户端、视频播放客户端等；其中，终端200-1位于媒体对象的发布侧，终端200-2位于媒体对象的接收侧，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

服务器100，用于获取用于媒体对象推荐的多目标推荐模型的训练样本；将训练样本分别输入至少一个教师模型；通过至少一个教师模型，分别对训练样本进行第二交互特征预测，得到相应的预测结果；基于得到的至少一个教师模型的预测结果，更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；基于更新至少一个标签后的训练样本，训练多目标推荐模型；如此，实现对多目标推荐模型的训练。

媒体对象发布者打开终端200-1的客户端，发布待推荐媒体对象，如终端200-1用于生成并发送携带待推荐媒体对象的交互特征预测请求给服务器100；

服务器100，用于获取待推荐媒体对象的内容数据、及媒体信息流页面对应的登录用户的用户数据；基于获取的用户数据及内容数据，通过多目标推荐模型进行交互特征的预测，得到对应第一交互特征、以及至少一个第二交互特征的特征预测结果；基于得到的特征预测结果，在待推荐媒体对象中确定至少一个目标媒体对象；将目标媒体对象推荐给登录用户，即返回给终端200-2；

终端200-2，用于在媒体信息流页面呈现目标媒体对象。

在实际应用中，服务器100既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；终端（如终端200-1）可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理（PDA）、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

下面对本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的电子设备的硬件结构做详细说明，电子设备包括但不限于服务器或终端。参见图2，图2是本发明实施例提供的电子设备的结构示意图，图2所示的电子设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。电子设备200中的各个组件通过总线***240耦合在一起。可理解，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器 210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个（有线或无线）网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作***设备和显示内容和信息的用户接口）；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的基于人工智能的多目标推荐模型的训练装置可以采用软件方式实现，图2示出了存储在存储器250中的基于人工智能的多目标推荐模型的训练装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、输入模块2552、预测模块2553、更新模块2554和训练模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的基于人工智能的多目标推荐模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的基于人工智能的多目标推荐模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的多目标推荐模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application SpecificIntegrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

在当前的信息流个性化推荐场景中，多目标推荐模型得到了广泛应用。为了提高推荐模型对用户当前需求的追踪能力，多目标预测目标针对的时间采样不同，导致预测准确模型的训练样本通常需要进行小时级更新甚至是实时级更新，然而对于采样时间窗口大于小时级的目标，小时级的窗口不足以支持行为发生。例如在电商购物网站中，针对同一商品的点击行为和购买行为之间可能存在着几个小时甚至几天的时间窗口，此时如果基于小时级时间窗口制作样本，很容易将可能几个小时后才发生购买行为的样本作为没有购买行为的样本生成，基于此样本训练得到的多目标推荐模型的预测准确度低。这是多目标间采样时间窗口不同步所导致的。

相关技术中，为解决多目标推荐模型中各目标间采样时间窗口不同步导致训练样本精确度低的问题，通常将所有目标的采样时间窗口均调整为所有目标中对应的最大采样时间窗口。比如目标A的采样时间窗口为小时级，目标B的采样时间窗口为天级，则将目标A的样本采样时间窗口也调整为天级。如此，虽然解决了多目标间样本采样时间窗口更新不同步的问题，但是，将所有目标的采样时间窗口均调整为窗口期最大的，也降低了多目标推荐模型对用户当前需求的追踪能力，从而降低了多目标推荐模型的预测精度，影响用户体验。基于此，本发明实施例提供一种基于人工智能的多目标推荐模型的训练方法，以至少解决上述问题，接下来详细说明。

结合上述对本发明实施例的基于人工智能的多目标推荐模型的训练方法的实施场景及电子设备的说明，下面说明本发明实施例提供的基于人工智能的多目标推荐模型的训练方法。参见图3，图3是本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的流程示意图；在一些实施例中，该基于人工智能的多目标推荐模型的训练方法可由服务器或终端单独实施，或由服务器及终端协同实施，以服务器实施为例，本发明实施例提供的基于人工智能的多目标推荐模型的训练方法包括：

步骤301：服务器获取用于媒体对象推荐的多目标推荐模型的训练样本。

这里，该训练样本标注有与交互特征相对应的至少两个标签，该交互特征包括：第一交互特征及至少一个第二交互特征，第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口。

在一些实施例中，服务器在训练用于媒体对象推荐的多目标推荐模型时，需要先获取用于训练的训练样本。由于该推荐模型为多目标推荐模型，能够针对输入的待推荐媒体对象进行多个目标（即多个交互特征）的预测，因此这里获取的训练样本标注有与交互特征相对应的至少两个标签。

在实际应用中，媒体对象可以是视频、商品等。比如在个性化短视频的推荐中，媒体对象即为短视频，那么上述交互特征可以是“播放”、“分享”以及“分享回流”等；或者比如在电商购物平台上，媒体对象即为商品，那么上述交互特征可以是“点击”、“收藏”“购买”等。如此，不同的交互特征对于时间的敏感性是不同的，那么将导致不同的交互特征，对应的最佳时间采样窗口也是不同的。示例性地，以电商购物平台为例，交互特征“点击查看某个商品”和交互特征“购买某个商品”之间可能存在几个小时甚至几天的时间窗口。“点击”行为的发生时间较短，一小时之内可能会发生大量“点击”行为，那么针对交互特征“点击”，则可基于较短的时间窗口（比如小时级别）进行采样；而“购买”行为发生的时间则较长，几个小时甚至几天才可能发生，那么针对交互特征“购买”，则需要基于更长的时间窗口（比如天级别）来进行采样。

而为了实现多目标推荐模型能够同时对多个交互特征的预测，需要获取标注有各交互特征对应的标签的训练样本，而一个训练样本仅能基于同一种采样时间窗口得到，如此则会导致另外一种采样时间窗口的交互特征的样本数据不够真实。基于此在本发明实施例中，将交互特征划分为第一交互特征和第二交互特征，其中，第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口。这里，该第一交互特征和第二交互特征均可以为一个，也可以为多个。该获取的多目标推荐模型的训练样本标注有第一交互特征对应的标签、以及第二交互特征对应的标签。

在一些实施例中，服务器可通过如下方式获取多目标推荐模型的训练样本：基于第一交互特征的采样时间窗口，采集媒体对象对应第一交互特征的数据及对应至少一个第二交互特征的数据，并基于采集的数据构造多目标推荐模型的训练样本。

在实际应用中，为了提高多目标推荐模型对媒体对象的实时推荐能力，针对模型获取的训练样本需要进行小时级甚至是实时级更新，以实现对多目标推荐模型的实时训练、更新模型参数。因此，在采集多目标推荐模型的训练样本时，可以根据采样时间窗口最小的第一交互特征的采样时间窗口，进行训练样本的采集与构建。具体地，基于第一交互特征的采样时间窗口，采集媒体对象对应第一交互特征的数据以及对应至少一个第二交互特征的数据，基于采集得到的数据构造多目标推荐模型的训练样本。比如，第一交互特征的采样时间窗口可以是一小时，那么在构建训练样本时，则可以每经过一个小时，将过去一个小时时间窗口内的、对应第一交互特征和第二交互特征的数据进行采集和综合，以此构建这一小时的训练样本，将该小时级的样本用作多目标推荐模型的训练样本。

应用上述实施例，基于第一交互特征的采样时间窗口构建多目标推荐模型的训练样本，由于第一交互特征的采样时间窗口小于第二交互特征的采样时间窗口，因此保证了第一交互特征的样本标签的实时性，基于此训练样本训练多目标推荐模型，则提高了多目标推荐模型对用户当前需求的追踪能力，进一步提高多目标推荐模型的预测准确性；从而在结合第一交互特征和第二交互特征的预测结果进行媒体对象推荐时，相应提高了媒体对象推荐的实时性。

步骤302：将训练样本分别输入至少一个教师模型，每个教师模型用于对一个第二交互特征进行预测。

由于多目标推荐模型的训练样本是基于第一交互特征的采样时间窗口构建的，而第一交互特征的采样时间窗口小于第二交互特征的采样时间窗口，那么该多目标推荐模型的训练样本中，可能针对第二交互特征的数据并不准确。举例来说，如果第一交互特征为“点击商品”，第二交互特征为“购买商品”，由于“购买”和“点击”之间可能相差几个小时甚至几天，所以相应的第一交互特征的采样时间窗口可以为小时级别，第二交互特征的采样时间窗口可以为天级别。当基于第一交互特征的采样时间窗口（小时级）构建多目标推荐模型的训练样本时，由于第二交互特征很可能在几个小时后才发生，那么该训练样本中针对第二交互特征的样本标签则会出现错误（即将几个小时之后发生的“购买行为”作为“没有购买”处理），导致该训练样本的真实性降低，从而影响多目标推荐模型的训练。

因此，在得到多目标推荐模型的训练样本后，需要对该训练样本中对应第二交互特征的标签进行更新调整。在本发明实施例中，采用了构建用于预测第二交互特征的教师模型的方式，通过构建且训练好的教师模型预测产生的结果，来指导多目标推荐模型（即学生模型）的训练样本的更新，进而指导多目标推荐模型的训练。在一些实施例中，服务器可通过如下方式训练得到教师模型：获取至少一个教师模型的训练样本；基于各教师模型的训练样本，分别对相应的教师模型进行训练，以使得教师模型能够基于输入的媒体对象，对相应的第二交互特征进行预测。

由于多目标推荐模型的训练样本中，对应第二交互特征的标签并不真实准确，如果直接用于训练多目标推荐模型的训练，则会导致基于此训练完成的多目标推荐模型对于第二交互特征的预测精度降低。因此，需要训练得到能够用于第二交互特征预测的教师模型。

首先，获取用于训练教师模型的训练样本。为保证该教师模型的训练样本针对第二交互特征的标签的准确性，则基于第二交互特征的采样时间窗口进行采集并构建教师模型的训练样本，该训练样本中至少标注有相应的第二交互特征对应的标签。在实际应用中，由于第一交互特征和第二交互特征之间是存在关联关系的，该教师模型的训练样本中还可以标注有第一交互特征对应的标签。即在训练教师模型时，将训练样本输入教师模型中，同时进行多个交互特征的预测，并基于此更新教师模型的模型参数；如此，由于多个交互特征共同学习，有参数共享和信息共享，比只训练一个交互特征所得到的教师模型的效果更好。

在一些实施例中，服务器可通过如下方式进行教师模型的训练：分别将各教师模型的训练样本，输入至相应的教师模型，并通过相应的教师模型进行第二交互特征的预测，得到相应的预测结果；基于得到的预测结果、及各教师模型的训练样本所标注的标签，确定各教师模型的损失函数的值；基于各教师模型的损失函数的值，更新相应的教师模型的模型参数。

在实际应用中，针对每个教师模型均可以采用如下的方式进行训练：将该教师模型的训练样本输入至该教师模型中，通过该教师模型进行第二交互特征的预测，得到该教师模型的预测结果；基于该预测结果、及该教师模型的训练样本所标注的标签，确定该教师模型的损失函数的值；从而基于该教师模型的损失函数的值，更新该教师模型的参数。

具体地，可以获取该预测结果与该教师模型的训练样本的标签的差异，基于该差异，确定该教师模型的损失函数的值；当确定该损失函数的值超过设定的损失阈值时，则基于该损失函数的值，确定教师模型的误差信号；将该误差信号在教师模型中反向传播，从而在误差信号反向传播的过程中，更新教师模型中各个层的模型参数。如此，完成对教师模型的训练。

在得到训练完成的至少一个教师模型后，将多目标推荐模型的训练样本分别输入至少一个教师模型中。

步骤303：通过至少一个教师模型，分别对训练样本进行第二交互特征预测，得到相应的预测结果。

将多目标推荐模型的训练样本分别输入至少一个教师模型中后，通过该至少一个教师模型，分别对多目标推荐模型的训练样本进行第二交互特征的预测，得到相应的预测结果。

步骤304：基于得到的至少一个教师模型的预测结果，更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

从而基于至少一个教师模型的预测结果，更新多目标推荐模型的训练样本中对应第二交互特征的标签。

在一些实施例中，服务器可通过如下方式更新训练样本中相应第二交互特征的标签：分别将各教师模型的预测结果，作为训练样本中相应的第二交互特征的标签进行标注，以更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

在得到各教师模型针对多目标推荐模型训练样本的第二交互特征的预测结果后，将对应各第二交互特征的预测结果，作为训练样本中该第二交互特征的标签进行标注，基于此对训练样本中该第二交互特征的标签进行更新，从而得到更新至少一个标签后的训练样本。

步骤305：基于更新至少一个标签后的训练样本，训练多目标推荐模型。

这里，该多目标推荐模型能够基于输入的媒体对象，进行对应第一交互特征及至少一个第二交互特征的特征预测，以基于特征预测结果对媒体对象进行推荐。

在对多目标推荐模型的训练过程进行说明之前，首先说明本发明实施例提供的多目标推荐模型的模型结构。在实际应用中，多目标推荐模型中针对不同的预测目标（即交互特征），均设置了对应的特定模型，即不同预测目标对应的模型是不同的，各预测目标对应的模型之间可以是模型参数不同、模型结构相同，也可以模型结构和参数均不同。参见图4，图4是本发明实施例提供的多目标推荐模型的结构示意图一，这里，多目标推荐模型能够同时进行三个交互特征的预测，即交互特征1、交互特征2和交互特征3；每个交互特征均对应各自的特定模型，同时各交互特征之间还存在共享层。

具体地可参见图5，图5是本发明实施例提供的多目标推荐模型的结构示意图二，这里，在多目标推荐模型中，每个交互特征（交互特征1、交互特征2…）均对应各自的特定模型，包括特征提取层、特征拼接层和预测层，此外，特征映射层作为各交互特征对应的共享层存在；其中，特征提取层由Wide层、DNN（Deep Neural Network，深度神经网络）层和共享NFM（Neural Factorization Machine，神经因式分解机）层构成，特征拼接层由全连接层构成，预测层由MLP（Multi-layer Perceptron，多层感知机）模型构成。

在一些实施例中，服务器可通过如下方式训练多目标推荐模型：通过多目标推荐模型，对更新至少一个标签后的训练样本，进行交互特征的预测，得到特征预测结果；获取各交互特征的特征预测结果、与相应交互特征对应的标签之间的差异；基于各交互特征对应的差异，确定多目标推荐模型中相应交互特征对应的损失函数的值；基于多目标推荐模型中各交互特征对应的损失函数的值，更新多目标推荐模型的模型参数。

将更新至少一个标签后的训练样本输入到多目标推荐模型中，通过多目标推荐模型进行各交互特征的预测，得到特征预测结果；获取各交互特征的特征预测结果、与相应交互特征对应的标签之间的差异，从而得到各交互特征对应的差异；基于各交互特征对应的差异，确定多目标推荐模型中各交互特征对应的损失函数的值，这里损失函数可以是对数损失函数、平方差损失函数等，具体采用何种损失函数，可根据需要自行确定；从而基于各交互特征对应的损失函数的值，更新多目标推荐模型的模型参数。

在一些实施例中，服务器可通过如下方式更新多目标推荐模型的模型参数：当各交互特征对应的损失函数的值超出相应损失阈值时，基于各交互特征对应的损失函数，确定相应交互特征的误差信号；将各误差信号在多目标推荐模型中反向传播，并在传播的过程中更新各个层的模型参数。

在实际应用中，可以预先针对各交互特征设置对应的损失阈值。当确定各交互特征对应的损失函数的值超出相应损失阈值时，根据各交互特征对应的损失函数，确定相应交互特征的误差信号；从而将各误差信号在多目标推荐模型中反向传播，以在传播的过程中，更新各个层的模型参数。

在一些实施例中，服务器可通过如下方式，更新多目标推荐模型中各个层的模型参数：将第一交互特征的误差信号，依次传播至预测层、特征拼接层、特征提取层以及共享层，以实现第一交互特征的误差信号在多目标推荐模型中的反向传播；将第二交互特征的误差信号，依次传播至预测层、特征拼接层以及特征提取层；并对第二交互特征的误差信号进行阻断，使得第二交互特征的误差信号无法传播至共享层；在第一交互特征的误差信号及第二交互特征的误差信号反向传播的过程中，更新多目标推荐模型中各个层的模型参数。

由于第二交互特征的标签是基于教师模型的预测结果进行更新得到的，为避免第二交互特征的误差信号在反向传播过程中影响第一交互特征对应的模型参数，在本发明实施例中，针对第二交互特征的误差信号设置了对应的阻断机制，即GradientBlock机制。参见图6，图6是本发明实施例提供的第二交互特征的误差信号的反向传播阻断示意图。这里，在第二交互特征对应的特定模型与共享层之间设置了阻断机制，以使第二交互特征的误差信号无法传播至共享层，如此，保证了第一交互特征对应的模型参数不被干扰以至于预测效果衰退。

具体地，将第一交互特征的误差信号，依次传播至第一交互特征对应的预测层、特征拼接层和特征提取层，以及各交互特征的共享层（特征映射层），以实现第一交互特征的误差信号在多目标推荐模型中的反向传播；从而在第一交互特征的误差信号的反向传播的过程中，更新第一交互特征对应的各个层的模型参数和共享层的模型参数。

将第二交互特征的误差信号，依次传播至第二交互特征对应的预测层、特征拼接层和特征提取层，以实现第二交互特征的误差信号在多目标推荐模型中的反向传播；从而在第二交互特征的误差信号的反向传播过程中，更新第二交互特征对应的各个层的模型参数。

在一些实施例中，由于多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层，服务器可通过如下方式，基于多目标推荐模型对待推荐媒体对象进行推荐：获取待推荐媒体对象的用户数据和内容数据；通过特征映射层，分别对用户数据和内容数据进行映射处理，得到对应用户数据和内容数据的特征向量；通过特征提取层，对得到的特征向量进行特征提取，得到待推荐媒体对象的特征向量；通过特征拼接层，对待推荐媒体对象的特征向量进行拼接，得到拼接向量；基于拼接向量，通过预测层进行交互特征的预测，得到对应待推荐媒体对象的特征预测结果；基于特征预测结果对待推荐媒体对象进行推荐。

这里，下面结合图5和图7说明如何基于训练完成的多目标推荐模型进行媒体对象推荐。参见图7，图7是本发明实施例提供的基于多目标推荐模型进行媒体对象推荐的数据流走向图，继续参见图5可知，多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层。在实际应用中，当基于多目标推荐模型进行媒体对象推荐时，服务器获取待推荐媒体对象的用户数据和内容数据，进而将用户数据和内容数据输入到多目标推荐模型中。

多目标推荐模型通过特征映射层，分别对用户数据和内容数据进行特征映射处理，得到对应用户数据和内容数据的特征向量。具体地，比如可以通过独热编码的映射处理方式、或者通过预先训练好的特征映射模型等。

在得到对应用户数据和内容数据的特征向量后，通过特征提取层，对得到的特征向量进行特征提取，得到待推荐媒体对象的特征向量。具体地，特征提取层由wide层、DNN层和共享NFM层构成，因此可通过DNN层对用户数据和内容数据的特征向量进行隐式特征交叉，提取高阶特征向量；通过NFM层对用户数据和内容数据的特征向量进行显示特征交叉，并求和，得到一个多维特征向量；通过wide层对用户数据和内容数据的特征向量基于权重进行线性加和，输出维数降低的特征向量等。

在得到待推荐媒体对象的特征向量之后，通过特征拼接层进行向量拼接，得到拼接向量。从而基于拼接向量，通过预测层进行交互特征的预测，得到对应待推荐媒体对象的特征预测结果。具体地，这里预测层可以为一个人工神经网络模型，通过调用激活函数进行交互特征的预测，得到特征预测结果；这里该预测层可以属于回归预测，还可以属于分类预测。当该预测层为回归预测时，通过调用第一激活函数（比如回归函数）进行回归处理，预测得到各交互特征的特征预测结果；当该预测层为分类预测时，通过调用第二激活函数（比如softmax分类函数）进行分类处理，预测得到各交互特征的特征预测结果。

从而基于多目标推荐模型输出的特征预测结果，对待推荐媒体对象进行推荐。具体地，该特征预测结果可以是预估点击率，如此则可以基于预估点击率的大小，对待推荐媒体对象进行推荐。

在一些实施例中，服务器还可通过如下方式，基于多目标推荐模型对待推荐媒体对象进行推荐：确定媒体信息流页面对应的登录用户；获取登录用户的用户数据、及待推荐媒体对象的内容数据；基于获取的用户数据及内容数据，通过多目标推荐模型进行交互特征的预测，得到对应第一交互特征、以及至少一个第二交互特征的特征预测结果；基于得到的特征预测结果，在待推荐媒体对象中确定至少一个目标媒体对象；将目标媒体对象推荐给登录用户，以在媒体信息流页面呈现目标媒体对象。

当检测到用户打开或者浏览媒体信息流页面时，获取媒体信息流页面对应的登录用户，进而获取该登录用户的用户数据；然后获取待推荐媒体对象的内容数据。将获取的用户数据和内容数据输入多目标推荐模型中，通过多目标推荐模型进行交互特征的预测，从而得到对应第一交互特征、以及至少一个第二交互特征的特征预测结果；根据该特征预测结果，在待推荐媒体对象中确定至少一个目标媒体对象，从而将目标媒体对象推荐给登录用户，以使得在用户打开的媒体信息流页面呈现该目标媒体对象。

应用本发明上述实施例，由于获取的多目标推荐模型的训练样本中标注有第一交互特征和第二交互特征的标签，且第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口，即两个交互特征的采样时间窗口不同步，将导致训练样本的准确性降低，基于此，获取能够对第二交互特征进行预测的至少一个教师模型，将多目标推荐模型的训练样本输入该至少一个教师模型中，通过该至少一个教师模型对训练样本进行相应的第二交互特征的预测，基于得到的预测结果，更新训练样本中相应第二交互特征的标签，以得到更新至少一个标签后的训练样本，从而基于该更新至少一个标签后的训练样本对多目标推荐模型进行训练；

下面将说明本发明实施例在一个实际的应用场景中的示例性应用。

在多目标推荐模型的训练过程中，由于不同的交互特征（即目标）对于时间窗口的敏感度不同，导致不同的交互特征对应的最佳时间采样窗口也是不同的。示例性地，以电商购物平台为例，交互特征“点击查看某个商品”和交互特征“购买某个商品”之间可能存在几个小时甚至几天的时间窗口。“点击”行为的发生时间较短，一小时之内可能会发生大量“点击”行为，那么针对交互特征“点击”，则可基于较短的时间窗口（比如小时级别）进行采样；而“购买”行为发生的时间则较长，几个小时甚至几天才可能发生，那么针对交互特征“购买”，则需要基于更长的时间窗口（比如天级别）来进行采样。当基于较短采样时间窗口（小时级）构建训练样本时，由于交互特征“购买”行为很可能在几个小时后才发生，那么该训练样本中针对该交互特征的样本标签则会出现错误（即将几个小时之后发生的“购买行为”作为“没有购买”处理），导致该训练样本的真实性降低，从而影响多目标推荐模型的训练，这是多目标推荐模型中各交互特征间样本数据更新不同步所导致的问题。

相关技术中为了解决上述存在的问题，通常基于采样时间窗口最大的交互特征所对应的采样时间窗口，进行多目标推荐模型的训练样本的采集与构建。该方案虽然解决了样本数据更新不同步的问题，但是同时降低了模型的实时推荐能力，即降低了多目标推荐模型对用户当前需求的实时追踪能力。

基于此，本发明实施例提供一种基于人工智能的多目标推荐模型的训练方法，以至少解决上述问题。参见图8和图9，图8为本发明实施例提供的基于人工智能的多目标推荐模型的训练方法的流程示意图，图9是本发明实施例提供的多目标推荐模型的训练方法的架构示意图，本发明实施例提供的基于人工智能的多目标推荐模型的训练方法包括：

步骤801：服务器获取用于媒体对象推荐的多目标推荐模型的训练样本。

这里，为了实现多目标推荐模型能够同时对多个交互特征的预测，需要获取标注有各交互特征对应的标签的训练样本，而一个训练样本仅能基于一种采样时间窗口得到，如此则会导致另外一种采样时间窗口的交互特征的采样数据不够真实。因此在本发明实施例中，将交互特征划分为第一交互特征和第二交互特征，其中，第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口。这里，该第一交互特征和第二交互特征均可以为一个，也可以为多个。该获取的多目标推荐模型的训练样本标注有第一交互特征对应的标签、以及第二交互特征对应的标签。示例性地，以媒体对象为短视频，该第一交互特征可以是“播放”和“分享”，该第二交互特征可以是“分享回流”；或者以媒体对象为电商购物平台的商品，该第一交互特征为“点击”，第二交互特征为“收藏”和“购买”。

在实际应用中，为了提高多目标推荐模型对媒体对象的实时推荐能力，针对模型获取的训练样本需要进行小时级甚至是实时级更新，以实现对多目标推荐模型的实时训练、更新模型参数。因此，在采集多目标推荐模型的训练样本时，可以根据采样时间窗口最小的第一交互特征的采样时间窗口，进行多目标推荐模型的训练样本的采集与构建。比如，第一交互特征的采样时间窗口为一小时，那么在构建训练样本时，则可以每经过一个小时，将过去一个小时时间窗口内的、对应第一交互特征和第二交互特征的数据进行采集和综合，以此构建这一小时的训练样本，将该小时级的样本用作多目标推荐模型的训练样本。示例性地，短视频对应的交互特征“播放”和“分享”的采样时间窗口为小时级，“分享回流”的采样时间窗口为天级别，此时在获取针对媒体对象“短视频”的训练样本时，可以基于小时级时间窗口进行构建。

步骤802：获取至少一个教师模型的训练样本。

这里，由于多目标推荐模型的训练样本是基于第一交互特征的采样时间窗口构建得到，导致第二交互特征的样本标签的准确性降低。因此，在得到多目标推荐模型的训练样本后，需要对该训练样本中对应第二交互特征的标签进行更新调整。

在本发明实施例中，采用了构建用于预测第二交互特征的教师模型的方式，通过构建且训练好的教师模型预测产生的结果，来指导多目标推荐模型（即学生模型）的训练样本的更新，进而指导多目标推荐模型的训练。参见图9，通过天级别样本训练的教师模型，对多目标推荐模型的训练样本进行第二交互特征的预测，从而基于预测结果，指导学生模型（即多目标推荐模型）在第二交互特征上的训练，即将教师模型对应第二交互特征的预测结果，作为多目标推荐模型的训练样本中第二交互特征对应的标签。

这里，服务器可通过如下方式训练得到至少一个教师模型：获取用于训练教师模型的训练样本。为保证该教师模型的训练样本针对第二交互特征的标签的准确性，则基于第二交互特征的采样时间窗口进行采集并构建教师模型的训练样本，该训练样本中至少标注有相应的第二交互特征对应的标签。在实际应用中，由于第一交互特征和第二交互特征之间是存在关联关系的，该教师模型的训练样本中还可以标注有第一交互特征对应的标签。即在训练教师模型时，将训练样本输入教师模型中，同时进行多个交互特征的预测，并基于此更新教师模型的模型参数；如此，由于多个交互特征共同学习，有参数共享和信息共享，比只训练一个交互特征所得到的教师模型的效果更好。

在本发明实施例中，教师模型的结构与学生模型（即多目标推荐模型）的结构相同，具体可参见上述图4和图5。

步骤803：基于各教师模型的训练样本，分别对相应的教师模型进行训练，以使得教师模型能够基于输入的媒体对象，对相应的第二交互特征进行预测。

针对每个教师模型均可以采用如下的方式进行训练：将该教师模型的训练样本输入至该教师模型中，通过该教师模型进行第二交互特征的预测，得到该教师模型的预测结果；基于该预测结果、及该教师模型的训练样本所标注的标签，确定该教师模型的损失函数的值；从而基于该教师模型的损失函数的值，更新该教师模型的参数。如此，完成对教师模型的训练。

步骤804：通过至少一个教师模型，分别对训练样本进行第二交互特征预测，得到相应的预测结果。

将多目标推荐模型的训练样本分别输入至少一个教师模型中后，通过该至少一个教师模型，分别对多目标推荐模型的训练样本进行相应第二交互特征的预测，得到相应的预测结果。

步骤805：基于得到的至少一个教师模型的预测结果，更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

步骤806：通过多目标推荐模型，对更新至少一个标签后的训练样本，进行交互特征的预测，得到特征预测结果；

在实际应用中，多目标推荐模型中针对不同的预测目标（即交互特征），均设置了对应的特定模型，即不同预测目标对应的模型是不同的，各预测目标对应的模型之间可以是模型参数不同、模型结构相同，也可以模型结构和参数均不同。参见图4，这里，多目标推荐模型能够同时进行三个交互特征的预测，即交互特征1、交互特征2和交互特征3；每个交互特征均对应各自的特定模型，同时各交互特征之间还存在共享层。具体地可参见图5，这里，在多目标推荐模型中，每个交互特征对应的特定模型均包括特征提取层、特征拼接层和预测层，此外，特征映射层作为各交互特征对应的共享层存在。

将更新至少一个标签后的训练样本输入到多目标推荐模型中，通过多目标推荐模型进行各交互特征的预测，得到相应交互特征对应的特征预测结果。

步骤807：基于各交互特征的特征预测结果、与相应交互特征对应的标签，确定多目标推荐模型中相应交互特征对应的损失函数的值。

获取各交互特征的特征预测结果、与相应交互特征对应的标签之间的差异，从而得到各交互特征对应的差异；基于各交互特征对应的差异，确定多目标推荐模型中各交互特征对应的损失函数的值，这里损失函数可以是对数损失函数、平方差损失函数等，具体采用何种损失函数，可根据需要自行确定。

步骤808：当各交互特征对应的损失函数的值超出相应损失阈值时，基于各交互特征对应的损失函数，确定相应交互特征的误差信号。

步骤809：将各误差信号在多目标推荐模型中反向传播，并在传播的过程中更新各个层的模型参数。

在实际应用中，由于第二交互特征的标签是基于教师模型的预测结果进行更新得到的，为避免第二交互特征的误差信号在反向传播过程中影响第一交互特征对应的模型参数，在本发明实施例中，针对第二交互特征的误差信号设置了对应的阻断机制，即GradientBlock机制。参见图6，这里，在第二交互特征对应的特定模型与共享层之间设置了阻断机制，以使第二交互特征的误差信号无法传播至共享层，如此，保证了第一交互特征对应的模型参数不被干扰以至于预测效果衰退。

步骤810：终端响应于用户针对媒体信息流页面的打开操作，发送针对媒体对象的获取请求。

这里，终端响应于用户针对媒体信息流页面的打开操作，向服务器发送媒体对象的获取请求，以获取服务器推荐的目标媒体对象，从而向用户呈现媒体对象以供用户观看。

步骤811：服务器接收到获取请求，确定媒体信息流页面对应的登录用户。

这里，服务器接收到获取请求后，为进行媒体对象的推荐，首先确定打开该媒体信息流页面的登录用户。

步骤812：获取登录用户的用户数据、及待推荐媒体对象的内容数据。

这里，确定登录用户后，获取该登录用户的用户数据，比如用户标识、历史行为（搜索记录、浏览记录等）、用户环境（地理位置、网络状态等）。然后获取待推荐媒体对象的内容数据，比如待推荐媒体对象的标识、内容标签、发布来源、相关文本等。

步骤813：基于获取的用户数据及内容数据，通过多目标推荐模型进行交互特征的预测，得到对应第一交互特征、以及至少一个第二交互特征的特征预测结果。

步骤814：基于得到的特征预测结果，在待推荐媒体对象中确定至少一个目标媒体对象，将目标媒体对象推荐给登录用户的终端。

示例性地，当媒体对象为短视频时，该对应的交互特征可以包括“播放”、“分享”和“分享回流”，相应的，该特征预测结果可以是预测播放概率、预测分享概率等。当得到对应各交互特征的特征预测结果后，基于特征预测结果，在待推荐媒体对象中选择至少一个目标媒体对象，以供推荐。

步骤815：终端接收目标媒体对象，在媒体信息流页面呈现目标媒体对象。

终端呈现包括目标媒体对象的媒体信息流页面。参见图10，图10是本发明实施例提供的媒体信息流页面的示意图，这里，媒体对象为短视频，在“推荐”一栏中，呈现有服务器推荐的短视频（比如“恼人的秋风”原版视频等），以供用户观看。

下面继续说明本发明实施例提供的基于人工智能的多目标推荐模型的训练装置255，在一些实施例中，基于人工智能的多目标推荐模型的训练装置可采用软件模块的方式实现。参见图11，图11是本发明实施例提供的基于人工智能的多目标推荐模型的训练装置255的结构示意图，本发明实施例提供的基于人工智能的多目标推荐模型的训练装置255包括：

获取模块2551，用于获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；

输入模块2552，用于将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；

预测模块2553，用于通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；

更新模块2554，用于基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；

训练模块2555，用于基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。

在一些实施例中，所述获取模块2551，还用于基于所述第一交互特征的采样时间窗口，采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据；并基于采集的数据构造所述多目标推荐模型的训练样本。

在一些实施例中，所述更新模块2554，还用于分别将各所述教师模型的预测结果，作为训练样本中相应的第二交互特征的标签进行标注，以更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

在一些实施例中，所述装置还包括：

在一些实施例中，所述教师模型训练模块，还用于分别将各所述教师模型的训练样本，输入至相应的教师模型，并通过相应的教师模型进行所述第二交互特征的预测，得到相应的预测结果；

在一些实施例中，所述训练模块2555，还用于通过所述多目标推荐模型，对所述更新至少一个标签后的训练样本，进行所述交互特征的预测，得到特征预测结果；

在一些实施例中，所述训练模块2555，还用于当各所述交互特征对应的损失函数的值超出相应损失阈值时，基于各所述交互特征对应的损失函数，确定相应交互特征的误差信号；

在一些实施例中，所述多目标推荐模型包括共享层、特征提取层、特征拼接层和预测层，所述训练模块2555，还用于将所述第一交互特征的误差信号，依次传播至所述预测层、特征拼接层、特征提取层以及共享层，以实现所述第一交互特征的误差信号在所述多目标推荐模型中的反向传播；

在一些实施例中，所述多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层，所述装置还包括：

基于所述特征预测结果对所述待推荐媒体对象进行推荐。

在一些实施例中，所述推荐模块，还用于确定媒体信息流页面对应的登录用户；

本发明实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的多目标推荐模型的训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取用于媒体对象推荐的多目标推荐模型的训练样本，包括：

基于所述第一交互特征的采样时间窗口，采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据；并

基于采集的数据构造所述多目标推荐模型的训练样本。

3.如权利要求1所述的方法，其特征在于，所述基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本，包括：

分别将各所述教师模型的预测结果，作为训练样本中相应的第二交互特征的标签进行标注，以更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

4.如权利要求1所述的方法，其特征在于，所述将所述训练样本分别输入至少一个教师模型之前，所述方法还包括：

获取所述至少一个教师模型的训练样本；

5.如权利要求4所述的方法，其特征在于，所述基于各所述教师模型的训练样本，分别对相应的教师模型进行训练，包括：

分别将各所述教师模型的训练样本，输入至相应的教师模型，并通过相应的教师模型进行所述第二交互特征的预测，得到相应的预测结果；

6.如权利要求1所述的方法，其特征在于，所述基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，包括：

通过所述多目标推荐模型，对所述更新至少一个标签后的训练样本，进行所述交互特征的预测，得到特征预测结果；

获取各所述交互特征的特征预测结果与相应交互特征对应的标签之间的差异；

7.如权利要求6所述的方法，其特征在于，所述基于所述多目标推荐模型中各交互特征对应的损失函数的值，更新所述多目标推荐模型的模型参数，包括：

当各所述交互特征对应的损失函数的值超出相应损失阈值时，基于各所述交互特征对应的损失函数，确定相应交互特征的误差信号；

将各所述误差信号在所述多目标推荐模型中反向传播，并在传播的过程中更新所述多目标推荐模型中各个神经网络层的模型参数。

8.如权利要求7所述的方法，其特征在于，所述多目标推荐模型包括共享层、特征提取层、特征拼接层和预测层，所述将各所述误差信号在所述多目标推荐模型中反向传播，并在传播的过程中更新各个层的模型参数，包括：

将所述第一交互特征的误差信号，依次传播至所述预测层、特征拼接层、特征提取层以及共享层，以实现所述第一交互特征的误差信号在所述多目标推荐模型中的反向传播；

9.如权利要求1所述的方法，其特征在于，所述多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层，所述方法还包括：

获取待推荐媒体对象的用户数据和内容数据；

基于所述拼接向量，通过所述预测层进行所述交互特征的预测，得到对应所述待推荐媒体对象的特征预测结果；

基于所述特征预测结果对所述待推荐媒体对象进行推荐。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定媒体信息流页面对应的登录用户；

基于获取的所述用户数据及所述内容数据，通过所述多目标推荐模型进行所述交互特征的预测，得到对应所述第一交互特征、以及所述至少一个第二交互特征的特征预测结果；

11.一种基于人工智能的多目标推荐模型的训练装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如权利要求1至10任一项所述的基于人工智能的多目标推荐模型的训练方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至10任一项所述的基于人工智能的多目标推荐模型的训练方法。