CN115687794A

CN115687794A - 用于推荐物品的学生模型训练方法、装置、设备及介质

Info

Publication number: CN115687794A
Application number: CN202211703705.0A
Authority: CN
Inventors: 何向南; 陈钢; 陈佳伟; 冯福利
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-02-03

Abstract

本申请提供了一种用于推荐物品的学生模型训练方法、装置、设备及介质，可以应用于知识蒸馏的技术领域。该方法包括：根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，其中，每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值；通过老师模型输出每个已推荐物品的兴趣值，其中，兴趣值表征已推荐物品***作的概率；对每组已推荐物品集中的已推荐物品进行采样，生成至少一个样本对；基于兴趣值确定样本对中的样本物品的正负关系；将正负关系输入学生模型的蒸馏损失函数中，输出蒸馏损失值；基于蒸馏损失值对学生模型进行训练。

Description

用于推荐物品的学生模型训练方法、装置、设备及介质

技术领域

本申请涉及知识蒸馏的技术领域，更具体地，涉及一种用于推荐物品的学生模型训练方法、装置、设备及介质。

背景技术

随着互联网技术的不断发展，互联网上产生的数据越来越多，为用户提供较为精准的个性化推荐服务变得越来越重要，因此推荐***应运而生。在一种实现方式中，推荐***在对用户偏好学习的过程中，先从训练集中训练一个老师模型，然后在老师模型的监督下学习一个学生模型，以使得学生模型理解用户的偏好。

在实现本申请构思的过程中，发明人发现相关技术中至少存在如下问题：学生模型在学习训练时会存在理解偏差，导致学生模型用于物品推荐时的推荐准确率较低。

发明内容

有鉴于此，本申请实施例提供了一种用于推荐物品的学生模型训练方法、装置、设备及介质。

本申请实施例的一个方面提供了一种用于推荐物品的学生模型训练方法，包括：根据多个已推荐物品的流行度对多个上述已推荐物品进行分组，得到多组已推荐物品集，其中，每组上述已推荐物品集中的上述已推荐物品的流行度之间的差值小于或等于第一预设值；通过老师模型输出每个上述已推荐物品的兴趣值，其中，上述兴趣值表征上述已推荐物品***作的概率；对每组上述已推荐物品集中的上述已推荐物品进行采样，生成至少一个样本对；基于上述兴趣值确定上述样本对中的样本物品的正负关系；将上述正负关系输入上述学生模型的蒸馏损失函数中，输出蒸馏损失值；基于上述蒸馏损失值对上述学生模型进行训练。

根据本申请的实施例，上述根据多个已推荐物品的流行度对多个上述已推荐物品进行分组，得到多组已推荐物品集，包括：根据第一预设排序规则对上述已推荐物品的流行度进行排序，生成第一序列；基于预设组数和上述第一序列对上述已推荐物品进行分组，得到多组上述已推荐物品集，每组上述已推荐物品集中的上述已推荐物品的流行度总和之间的差值小于或等于第二预设值。

根据本申请的实施例，上述对每组上述已推荐物品集中的上述已推荐物品进行采样，生成至少一个样本对，包括：根据第二预设排序规则对上述已推荐物品集中上述已推荐物品的兴趣值进行排序，生成第二序列；将上述已推荐物品在上述第二序列中的排名位置输入排名感知概率分布函数中，输出上述已推荐物品的采样概率；基于上述采样概率在上述已推荐物品集中确定第一样本和第二样本，并生成样本对。

根据本申请的实施例，上述排名感知概率分布函数如下：

其中，

表示其中一个已推荐物品，

为已推荐物品

的采样概率，

表示已推荐物品

在第二序列中的排名位置，

表示超参数。

根据本申请的实施例，上述基于上述兴趣值确定上述样本对中的样本物品的正负关系，包括：根据预设比较规则对上述第一样本的兴趣值和上述第二样本的兴趣值进行比较，以确定上述样本对中上述样本物品的正负关系。

根据本申请的实施例，上述正负关系为上述第一样本和上述第二样本基于上述兴趣值所确定的正样本与负样本之间的关系，上述蒸馏损失函数如下所示：

其中，

表示已推荐物品集的蒸馏损失值；

表示已推荐物品集对应的用户集合；

表示集合的大小，即用户的数量；

表示集合中的一个用户；

表示分组的集合，

表示其中一个分组；

表示样本对集合，

表示用户

在

组中的所有样本对，

分别表示样本对中的正样本和负样本的赋值；

表示对数函数；

表示激活函数，

表示用户

或者已推荐物品

的向量表示，

是

的转置。

本申请实施例的另一个方面提供了一种物品推荐方法，包括：获取数据集，上述数据集中包括多个用户数据和每个用户对应的物品数据；将上述数据集输入利用上述学生模型训练方法训练得到的学生模型中，输出每个物品的推荐值；基于上述推荐值向用户推荐目标物品。

本申请实施例的另一个方面提供了一种用于推荐物品的学生模型训练装置，包括：物品分组模块，用于根据多个已推荐物品的流行度对多个上述已推荐物品进行分组，得到多组已推荐物品集，其中，每组上述已推荐物品集中的上述已推荐物品的流行度之间的差值小于或等于第一预设值；兴趣输出模块，用于通过老师模型输出每个上述已推荐物品的兴趣值，其中，上述兴趣值表征上述已推荐物品***作的概率；采样模块，用于对每组上述已推荐物品集中的上述已推荐物品进行采样，生成至少一个样本对；关系确定模块，用于基于上述兴趣值确定上述样本对中的样本物品的正负关系；损失输出模块，用于将上述正负关系输入上述学生模型的蒸馏损失函数中，输出蒸馏损失值；以及模型训练模块，用于基于上述蒸馏损失值对上述学生模型进行训练。

本申请实施例的另一个方面提供了一种物品推荐装置，包括：获取模块，用于获取数据集，上述数据集中包括多个用户数据和每个用户对应的物品数据；推荐输出模块，用于将上述数据集输入利用上述学生模型训练方法训练得到的学生模型中，输出每个物品的推荐值；推荐模块，用于基于上述推荐值向用户推荐目标物品。

本申请实施例的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上上述的方法。

本申请实施例的另一个方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现如上上述的方法。

本申请实施例的另一个方面提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述指令在被执行时用于实现如上上述的方法。

根据本申请的实施例，根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值，因此，每组物品集中已推荐物品的流行度相似。将流行度相似的已推荐物品分为一组，使得学生模型训练过程中在对已推荐物品采样学习时，采样地更加精细，有效减少了流行度对模型学习的干扰。通过老师模型输出每个已推荐物品的兴趣值，进而确定样本对中样本物品的正负关系，由于正负关系对用户的偏好显示更加直观，学生模型在老师模型的监督下学习时，能够对用户偏好学习地更加准确且公正，有效提高了学生模型用于物品推荐时的推荐准确率。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了根据本申请实施例的用于推荐物品的学生模型训练方法的示例性***架构；

图2示出了根据本申请实施例的用于推荐物品的学生模型训练方法的流程图；

图3示出了根据本申请实施例的用于推荐物品的学生模型训练方法的训练框图；

图4示出了根据本申请实施例的物品推荐方法的流程图；

图5示出了根据本申请实施例的用于推荐物品的学生模型训练装置的框图；

图6示出了根据本申请实施例的物品推荐装置的框图；

图7示出了根据本申请实施例的适用于推荐物品的学生模型训练方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本申请的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本申请实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等）。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等）。

随着在线个性化服务的普遍化，推荐***也变得越来越重要。在实时推荐***中，具有大量参数的大型模型具有很高的容量，因此被证明具有更好的准确性。然而，它的成功需要大量的计算和内存成本，这将在推理阶段产生不可接受的延迟。小模型由于结构简单、参数较少，所以只需要较少的计算和内存成本，也更容易部署到一些计算资源较少的场景（如移动终端）。但是也正因为如此，小模型的学习能力往往较差，难以满足实践需求。为了让小模型在保持较小的推理延迟的同时又能拥有更好的准确性，知识蒸馏这项技术应运而生。

知识蒸馏被应用于推荐***的目的是在保持模型性能的同时减小模型规模。知识蒸馏首先从训练集中训练一个大的结构复杂的老师模型，然后在老师模型的监督下学习一个小的学生模型。由于知识蒸馏对老师模型学习的知识进行了编码，因此与直接从训练数据中学习相比，学生模型可以从老师模型的监督学习下受益更多并获得更好的表现。尽管已有的蒸馏方法表现不错，但现有的蒸馏方法存在较为严重的偏差现象，导致蒸馏的结果严重偏向流行度高的物品。

在实现本申请的过程中发现，偏差可能产生的阶段有两个：一个是在老师模型的训练阶段产生，另一个在蒸馏阶段产生。所以一个直接的解决方案是干预老师模型的训练过程以生成无偏差的蒸馏数据，但经过研究发现这是不能实现真正的无偏蒸馏的。

有鉴于此，发明人发现，可以在蒸馏阶段学生模型训练的过程中减小偏差，首先根据已推荐物品的流行度将物品分成多个组，其中同一组中的已推荐物品具有相似的流行度。之后，利用老师模型对同一组中的已推荐物品进行排名，并使用每个分组中的知识来监督学生模型的学习。

具体地，本申请的实施例提供了一种用于推荐物品的学生模型训练方法、装置、设备及介质。一种用于推荐物品的学生模型训练方法，包括：根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，其中，每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值；通过老师模型输出每个已推荐物品的兴趣值，其中，兴趣值表征已推荐物品***作的概率；对每组已推荐物品集中的已推荐物品进行采样，生成至少一个样本对；基于兴趣值确定样本对中的样本物品的正负关系；将正负关系输入学生模型的蒸馏损失函数中，输出蒸馏损失值；基于蒸馏损失值对学生模型进行训练。

在本申请的技术方案中，所涉及的数据（例如，包括但不限于用户信息）的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示出了根据本申请实施例的可以应用一种用于推荐物品的学生模型训练方法的示例性***架构100。需要注意的是，图1所示仅为可以应用本申请实施例的***架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、***、环境或场景。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送用户数据和每个用户对应的物品数据等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等（仅为示例）。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

需要说明的是，本申请实施例所提供的一种用于推荐物品的学生模型训练方法一般可以由服务器105执行。相应地，本申请实施例所提供的一种用于推荐物品的学生模型训练装置一般可以设置于服务器105中。本申请实施例所提供的一种用于推荐物品的学生模型训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本申请实施例所提供的一种用于推荐物品的学生模型训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者，本申请实施例所提供的一种用于推荐物品的学生模型训练方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本申请实施例所提供的一种用于推荐物品的学生模型训练装置也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

需要注意的是，以下方法中各个操作的序号仅作为该操作的表征以便描述，而不应被看作表征该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示出了根据本申请实施例的用于推荐物品的学生模型训练方法流程图。

如图2所示，该方法包括操作S201~S206。

在操作S201，根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，其中，每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值。

在操作S202，通过老师模型输出每个已推荐物品的兴趣值，其中，兴趣值表征已推荐物品***作的概率。

在操作S203，对每组已推荐物品集中的已推荐物品进行采样，生成至少一个样本对。

在操作S204，基于兴趣值确定样本对中的样本物品的正负关系。

在操作S205，将正负关系输入学生模型的蒸馏损失函数中，输出蒸馏损失值。

在操作S206，基于蒸馏损失值对学生模型进行训练。

根据本申请的实施例，已推荐物品是指向用户发送或展示过的物品。例如，已推荐物品包括用户点击和浏览过的物品，也包括用户未点击但浏览过的物品。已推荐物品的流行度可以从数据库中或者云服务器中直接获取。其中，流行度可以是基于用户的操作次数确定的，对已推荐物品操作次数越高，流行度越高；流行度也可以是基于该已推荐物品被搜索时生成的搜索结果的数量确定的，搜索结果的数量越大，流行度越高。其中，流行度可以通过百分比的方式进行表示，也可以通过固定范围对其限定，例如流行度的范围为1到10。

根据本申请的实施例，每组已推荐物品集中已推荐物品的数量可以相同，也可以不同，在此不做限定。每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值，以保证具有相似流行度的已推荐物品被分配到同一组中。其中，第一预设值是基于训练精度自行设置的，第一预设值越小训练精度更高。例如，第一预设值可以设为2。将流行度相似的已推荐物品分为一组，使得在样本抽取过程中更精细，有效减少了流行度对模型学习的干扰。

根据本申请的实施例，每个学生模型在学习的过程中都有老师模型进行监督。将大量的用户数据和每个用户对应的物品数据输入老师模型中，老师模型会输出每个物品的兴趣值。其中，用户数据中包括用户的ID或者IP地址等，物品数据可以是电影和音乐等。兴趣值可以代表该物品被购买的概率，或者该物品被点击的概率。其中，兴趣值的范围可以为0到1。通过老师模型输出兴趣值，进而让学生模型对该兴趣值进行学习，使得学生模型能够直观学习到用户的偏好。

根据本申请的实施例，对每组已推荐物品集中的已推荐物品进行采样，生成至少一个样本对。样本对可以表示两个样本物品，也可以表示多个样本物品，在此不做限定。通过采样生成样本对，且样本对之间的流行度相似，使得学生模型在学习每个样本物品之间的偏好关系时更加地精细。

根据本申请的实施例，基于兴趣值确定样本对的样本物品的正负关系，使得学生模型在学习正负关系时更加地准确且公正。将样本对中兴趣值高的样本物品确定正样本，将样本对中兴趣值低的样本物品确定负样本，正负关系指正样本与负样本之间的关系。其中，可以对正样本和负样本进行赋值，例如，将正样本赋为1，负样本赋为-1，则正负关系代指1和-1之间的关系。正负关系直观地体现了用户对该样本对中样本物品的偏好关系。

根据本申请实施例，根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值，因此，每组物品集中已推荐物品的流行度相似。将流行度相似的已推荐物品分为一组，使得学生模型训练过程中在对已推荐物品采样学习时，采样地更加精细，有效减少了流行度对模型学习的干扰。通过老师模型输出每个已推荐物品的兴趣值，进而确定样本对中样本物品的正负关系，由于正负关系对用户的偏好显示更加直观，学生模型在老师模型的监督下学习时，能够对用户偏好学习地更加准确且公正，有效提高了学生模型用于物品推荐时的推荐准确率。

根据本申请的实施例，根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，可以包括如下操作。

根据第一预设排序规则对已推荐物品的流行度进行排序，生成第一序列；基于预设组数和第一序列对已推荐物品进行分组，得到多组已推荐物品集，每组已推荐物品集中的已推荐物品的流行度总和之间的差值小于或等于第二预设值。

根据本申请的实施例，第一预设排序规则可以为降序排序，也可以是升序排序，在此不做限定。本实施例中的预设组数是平衡无偏性和信息性之间权衡的重要超参数，可以基于训练需求自行设置。其中，较大的预设组数表示更细粒度的分区，并且每组中的已推荐物品在流行度上会具有更高的相似性，这意味着更可能保持公正性。例如，预设组数可以设置为100组。然而，较大的预设组数会减少每组中的已推荐物品数量，并减少有关物品排名关系的知识，较小的预设组数可以带来更多信息，但会牺牲公正性。例如，预设组数可以设置为50组。

根据本申请的实施例，基于预设组数和第一序列对已推荐物品进行分组，得到多组已推荐物品集。每组已推荐物品集中的已推荐物品的流行度总和之间的差值小于或等于第二预设值。其中，第二预设值是基于训练精度自行设置的，第二预设值越小训练精度更高。例如，第二预设值可以为2。流行度分组的时候每一组的流行度总和不一定完全相同，因为可能存在不可分的情况，所以保持每一组的流行度总和近似即可。通过对已推荐物品的流行度降序排序，按照流行度分层排序知识来训练学生模型，避免了可怕的流行度效应的干扰。

图3示出了根据本申请实施例的用于推荐物品的学生模型训练方法的训练框图。

根据本申请的实施例，对每组已推荐物品集中的已推荐物品进行采样，生成至少一个样本对，可以包括如下操作。

根据第二预设排序规则对已推荐物品集中已推荐物品的兴趣值进行排序，生成第二序列；将已推荐物品在第二序列中的排名位置输入排名感知概率分布函数中，输出已推荐物品的采样概率；基于采样概率在已推荐物品集中确定第一样本和第二样本，并生成样本对。

根据本申请的实施例，如图3所示，用户数据和每个用户对应的物品数据先输入老师模型中训练，老师模型输出每个物品的兴趣值，进而基于兴趣值对已推荐物品进行排名。在排名过程中，根据第二预设排序规则对已推荐物品集中已推荐物品的兴趣值进行排序，生成第二序列。其中，第二预设排序规则可以是降序排序，也可以是升序排序，在此不做限定。

根据本申请的实施例，对已推荐物品集中已推荐物品进行排序后，对其进行分组采样。分组采样过程中，将已推荐物品在第二序列中的排名位置输入排名感知概率分布函数中，输出已推荐物品的采样概率。本申请实施例中，排名位置越靠前，采样概率越大。基于采样概率在已推荐物品集中确定第一样本和第二样本，并生成样本对。采样概率越大则被抽中的可能性越大，尽可能抽取兴趣值高的样本物品进行学习，有效地提高了学生模型的学习效率，优先学习用户可能操作的物品。

根据本申请的实施例，排名感知概率分布函数如下：

其中，

表示其中一个已推荐物品，

为已推荐物品

的采样概率，

表示已推荐物品

在第二序列中的排名位置，

表示超参数。

根据本申请的实施例，基于兴趣值确定样本对中的样本物品的正负关系，可以包括如下操作。

根据预设比较规则对第一样本的兴趣值和第二样本的兴趣值进行比较，以确定样本对中样本物品的正负关系。

根据本申请的实施例，预设比较规则可以是对二者的数值直接进行比较，还可以对其进行排序，对排名位置进行比较，在此不做限定。对第一样本的兴趣值和第二样本的兴趣值进行比较，兴趣值高的确定为正样本，兴趣值低的确定为负样本，并为正样本和负样本进行赋值，以使得学生模型在学习样本物品的正负关系时更加地直接。例如，将正样本赋为1，负样本赋为-1。

根据本申请的实施例，正负关系为第一样本和第二样本基于兴趣值所确定的正样本与负样本之间的关系，蒸馏损失函数如下所示：

其中，

表示已推荐物品集的蒸馏损失值；

表示已推荐物品集对应的用户集合；

表示集合的大小，即用户的数量；

表示集合中的一个用户；

表示分组的集合，

表示其中一个分组；

表示样本对集合，

表示用户

在

组中的所有样本对，

分别表示样本对中的正样本和负样本的赋值；表示对数函数；

表示激活函数，

表示用户

或者已推荐物品

的向量表示，

是

的转置。

根据本申请的实施例，例如对学校中一个教室的学生进行偏好学习。将学生数据和每个学生对应的物品数据输入老师模型中，得到本班学生对于每个物品的兴趣值，并基于兴趣值生成正负关系。学生模型再对正负关系进行学习，在学习过程中通过计算蒸馏损失值不断减小该学生模型的偏差，以使得学生模型对该班级学生的偏好掌握的更精准。学生模型对该班级学生的偏好学习后，根据学生的喜好能够更准确地将物品推荐给该班级的学生。

根据本申请的实施例，蒸馏损失函数中利用正样本赋值生成的向量表示减去负样本赋值的向量表示，有效地放大了样本物品之间的正负关系，使得学生模型在学习过程中对用户偏好学习地更精准。

根据本申请的实施例，基于蒸馏损失值对学生模型进行训练，可以包括如下操作。

根据蒸馏损失值和学生模型的原始监督损失值确定学生模型的最终损失值；基于最终损失值训练学生模型。

根据本申请的实施例，蒸馏损失通常伴随着来自训练数据的原始监督损失，将蒸馏损失值和原始监督损失输入目标函数中，输出最终损失值。目标函数如下所示：

其中，

表示已推荐物品集的蒸馏损失值；

表示学生模型的原始监督损失值，

表示超参数。

根据本申请的实施例，最终损失值越小越好，最终损失值越小则说明模型训练效果越好，最终损失值理想情况下接近于0。当最终损失值不够小的时候，基于最终损失值继续训练学生模型。在基于最终损失值继续训练学生模型过程中，需要去更新学生模型的参数𝑤。

根据本申请的实施例，先使用

对

求导，即

。因为

是从学生模型得到的，所以

。得到的

用于更新

，更新公式为

,

是预先自己设置的学习率。不断重复上述两步，直到

不再发生变化，或者变化幅度可以忽略的时候停止，此时完成对学生模型的训练。

根据本申请实施例，学生模型训练完成后，将测试数据输入该学生模型中对其进行检测。如表1所示，测试数据包括多个用户数据和每个用户对应的物品数据，以及用户与物品的交互数据和测试数据的稀疏度。

表1测试数据

根据本申请实施例，将本实施例中对学生模型的蒸馏方法与现有的蒸馏方法进行比对，以确定该学生模型的推荐精确度是否提高，进而确定本实施例中的蒸馏方法去偏效果是否显著。如表2所示，计算所有已推荐物品整体的召回率，然后将这些被推荐的物品根据流行度分为流行组和不流行组，进而计算每个组的召回率。流行组和不流行组之间存在预设阈值，大于该预设阈值的分到流行组，不大于的分到不流行组。其中，预设阈值可以根据物品的实际流行情况进行设置。例如，预设阈值可以设为流行度为5。召回率是指被正确识别出来的正样本个数与测试集中所有正样本的个数的比值。其中，召回率越高，学生模型对物品的推荐更精准。

现有的蒸馏方法包括排名蒸馏（Ranking Distillation，简称RD）、协同蒸馏（Collaborative Distillation，简称CD）、蒸馏专家和松弛排名蒸馏（DistillationExperts and Relaxed Ranking Distillation，简称DERRD）、拓扑蒸馏（TopologyDistillation，简称HTD）。本实施例中对学生模型的蒸馏方法为去偏知识蒸馏（DebiasedKnowledge Distillation，简称DKD）。

根据本申请实施例，将测试数据输入MF（Matrix Factorization矩阵分解）模型和LightGCN（Light Graph Convolution Network轻量级图卷积神经网络）模型中，分别输出测试数据的实验结果。

基于实验结果可得，现有的蒸馏方法的整体改进主要在于流行组，而不流行组的表现显著下降。如表2所示，本实施例中对学生模型的蒸馏方法DKD显著地提高了整体以及不流行组上的准确率。以下实验结果证明本实施例中对学生模型的蒸馏方法DKD能够有效缓解知识蒸馏中的偏差问题，从而使得学生模型产生更准确和公平的推荐。

表2各种蒸馏方法在全体数据集和不流行组上的召回率对比

图4示出了根据本申请实施例的物品推荐方法的流程图。

如图4所示，该方法包括操作S401~S403。

在操作S401，获取数据集，数据集中包括多个用户数据和每个用户对应的物品数据。

在操作S402，将数据集输入经过训练的学生模型中，输出每个物品的推荐值。

在操作S403，基于推荐值向用户推荐目标物品。

根据本申请的实施例，可以从数据库中获取数据集，也可以从云服务器中获取数据集，在此不做限定。用户数据中包括用户的ID或者IP地址等，物品可以是电影和音乐等。将获取的数据集输入经过训练的学生模型中，该学生模型是基于操作S201~S206所训练得到的学生模型。输入学生模型后，学生模型对所有的物品进行打分生成推荐值，然后选取推荐值最高的前10个物品推荐给用户。其中，推荐值的范围可以为0到1。

图5示出了根据本申请实施例的用于推荐物品的学生模型训练装置的框图。

如图5所示，用于推荐物品的学生模型训练装置500可以包括物品分组模块501、兴趣输出模块502、采样模块503、关系确定模块504、损失输出模块505以及模型训练模块506。

物品分组模块501，用于根据多个已推荐物品的流行度对多个已推荐物品进行分组，得到多组已推荐物品集，其中，每组已推荐物品集中的已推荐物品的流行度之间的差值小于或等于第一预设值；

兴趣输出模块502，用于通过老师模型输出每个已推荐物品的兴趣值，其中，兴趣值表征已推荐物品***作的概率；

采样模块503，用于对每组已推荐物品集中的已推荐物品进行采样，生成至少一个样本对；

关系确定模块504，用于基于兴趣值确定样本对中的样本物品的正负关系；

损失输出模块505，用于将正负关系输入学生模型的蒸馏损失函数中，输出蒸馏损失值；以及

模型训练模块506，用于基于蒸馏损失值对学生模型进行训练。

根据本申请实施例，物品分组模块501包括第一序列生成单元和序列分组单元。

第一序列生成单元，用于根据第一预设排序规则对已推荐物品的流行度进行排序，生成第一序列。

序列分组单元，用于基于预设组数和第一序列对已推荐物品进行分组，得到多组已推荐物品集，每组已推荐物品集中的已推荐物品的流行度总和之间的差值小于或等于第二预设值。

根据本申请实施例，采样模块503包括第二序列生成单元、概率确定单元以及样本对生成单元。

第二序列生成单元，用于根据第二预设排序规则对已推荐物品集中已推荐物品的兴趣值进行排序，生成第二序列。

概率确定单元，用于将已推荐物品在第二序列中的排名位置输入排名感知概率分布函数中，输出已推荐物品的采样概率。

样本对生成单元，用于基于采样概率在已推荐物品集中确定第一样本和第二样本，并生成样本对。

根据本申请实施例，关系确定模块504包括兴趣比较单元。

兴趣比较单元，用于根据预设比较规则对第一样本的兴趣值和第二样本的兴趣值进行比较，以确定样本对中样本物品的正负关系。

根据本申请实施例，正负关系为第一样本和第二样本基于兴趣值所确定的正样本与负样本之间的关系。

根据本申请实施例，模型训练模块506包括损失确定单元和损失训练单元。

损失确定单元，用于根据蒸馏损失值和学生模型的原始监督损失值确定学生模型的最终损失值。

损失训练单元，用于基于最终损失值训练学生模型。

图6示出了根据本申请实施例的物品推荐装置的框图。

如图6所示，物品推荐装置600可以包括获取模块601、推荐输出模块602以及推荐模块603。

获取模块601，用于获取数据集，数据集中包括多个用户数据和每个用户对应的物品数据；

推荐输出模块602，用于将数据集输入利用学生模型训练方法训练得到的学生模型中，输出每个物品的推荐值；

推荐模块603，用于基于推荐值向用户推荐目标物品。

根据本申请的实施例的模块和单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块和单元中的任意一个或多个可以被拆分成多个模块来实现。根据本申请实施例的模块和单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（Field Programmable Gate Array ，FPGA）、可编程逻辑阵列（Programmable Logic Arrays ，PLA）、片上***、基板上的***、封装上的***、专用集成电路（Application Specific Integrated Circuit ，ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本申请实施例的模块和单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，物品分组模块501、兴趣输出模块502、采样模块503、关系确定模块504、损失输出模块505以及模型训练模块506，获取模块601、推荐输出模块602以及推荐模块603中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本申请的实施例，物品分组模块501、兴趣输出模块502、采样模块503、关系确定模块504、损失输出模块505以及模型训练模块506，获取模块601、推荐输出模块602以及推荐模块603中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上***、基板上的***、封装上的***、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，物品分组模块501、兴趣输出模块502、采样模块503、关系确定模块504、损失输出模块505以及模型训练模块506，获取模块601、推荐输出模块602以及推荐模块603中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本申请的实施例中用于推荐物品的学生模型训练装置部分与本申请的实施例中用于推荐物品的学生模型训练方法部分是相对应的，用于推荐物品的学生模型训练装置部分的描述具体参考用于推荐物品的学生模型训练方法部分，在此不再赘述。

图7示出了根据本申请实施例的适于实现上文描述的方法的电子设备的框图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，根据本申请实施例的电子设备700包括处理器701，其可以根据存储在只读存储器（Read-Only Memory，ROM）702中的程序或者从存储部分708加载到随机访问存储器（Random Access Memory，RAM）703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC）），等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有电子设备700操作所需的各种程序和数据。处理器 701、ROM702以及RAM703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本申请实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在一个或多个存储器中的程序来执行根据本申请实施例的方法流程的各种操作。

根据本申请的实施例，电子设备700还可以包括输入/输出（I/O）接口705，输入/输出（I/O）接口705也连接至总线704。电子设备700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管（CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本申请的实施例，根据本申请实施例的方法流程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本申请实施例的***中限定的上述功能。根据本申请的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM（Erasable Programmable Read Only Memory，EPROM）或闪存）、便携式紧凑磁盘只读存储器（Computer Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

例如，根据本申请的实施例，计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。

本申请的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本申请实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本申请实施例所提供的一种用于推荐物品的学生模型训练方法。

在该计算机程序被处理器701执行时，执行本申请实施例的***/装置中限定的上述功能。根据本申请的实施例，上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分709被下载和安装，和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本申请的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

以上对本申请的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本申请的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本申请的范围由所附权利要求及其等同物限定。不脱离本申请的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本申请的范围之内。