CN117688204A

CN117688204A - 视频推荐模型的训练方法、装置、电子设备和存储介质

Info

Publication number: CN117688204A
Application number: CN202211020873.XA
Authority: CN
Inventors: 陈昊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2024-03-12

Abstract

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频推荐模型的训练方法、装置、电子设备和存储介质。方法包括：将选取的各训练样本输入待训练的视频推荐模型；基于视频推荐模型对选取的各训练样本分别进行特征提取，获得相应的提取结果，分别将各训练样本包含的样本视频对应的内容特征进行特征映射，获得相应的第二交互特征；分别基于各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果；基于各预测结果与对应样本标签之间的差异，以及各预测结果之间的差异，对视频推荐模型进行参数调整。由于本申请在模型训练时通过第二交互特征模拟交互信息，减弱冷启动视频表现劣势，提高视频推荐的准确性。

Description

视频推荐模型的训练方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频推荐模型的训练方法、装置、电子设备和存储介质。

背景技术

在视频推荐场景中，通常对象交互过的视频(下称非冷启动视频)能够被捕获一些交互信息，从而被推荐到与该视频交互信息匹配的对象的推荐列表中。但是在视频平台中，也会有新发布的视频加入平台，这些新加入平台的视频(下称冷启动视频)，它们没有任何交互记录，相比于一般视频较难挖掘出视频的交互特性。所以如何将冷启动视频更准确的加入对象的推荐列表中，成为视频推荐中的重要问题。

在相关技术中，由于冷启动视频没有对应的交互记录，因而常采用全零向量来替代冷启动视频的交互表示，而对于非冷启动视频，则基于相应的交互记录正常表示，这种差异的出现，导致即使冷启动视频内容上更符合对象偏好，也可能因为这种差异导致冷启动视频不被推荐，从而影响推荐***的推荐质量。

综上，如何提高冷启动视频推荐的准确性是亟待解决的。

发明内容

本申请实施例提供一种视频推荐模型的训练方法、装置、电子设备和存储介质，用以提高视频推荐的准确性。

本申请实施例提供的一种视频推荐模型的训练方法，包括：

将选取的各训练样本输入待训练的视频推荐模型，每个训练样本包含样本对象、样本视频和样本标签，所述样本标签表征：相应样本对象是否对相应样本视频产生交互；

基于所述视频推荐模型对选取的各训练样本分别进行特征提取，获得相应的提取结果，其中，每个提取结果包含：相应样本视频的内容特征和第一交互特征，以及相应样本对象的对象特征；以及，分别将所述各训练样本包含的样本视频对应的内容特征进行特征映射，获得相应的第二交互特征；

分别基于所述各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果；

基于各预测结果与对应样本标签之间的差异，以及所述各预测结果之间的差异，对所述视频推荐模型进行参数调整。

本申请实施例提供的一种视频推荐模型的训练装置，包括：

输入单元，用于将选取的各训练样本输入待训练的视频推荐模型，每个训练样本包含样本对象、样本视频和样本标签，所述样本标签表征：相应样本对象是否对相应样本视频产生交互；

第一获取单元，用于基于所述视频推荐模型对选取的各训练样本分别进行特征提取，获得相应的提取结果，其中，每个提取结果包含：相应样本视频的内容特征和第一交互特征，以及相应样本对象的对象特征；以及，分别将所述各训练样本包含的样本视频对应的内容特征进行特征映射，获得相应的第二交互特征；

第二获取单元，用于分别基于所述各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果；

调整单元，用于基于各预测结果与对应样本标签之间的差异，以及所述各预测结果之间的差异，对所述视频推荐模型进行参数调整。

可选的，对于一个样本视频，若所述样本视频为非冷启动视频，则所述一个样本视频的第一交互特征是基于与相应样本对象的交互信息提取到的；若所述样本视频为冷启动视频，则所述一个样本视频的第一交互特征是基于对应的内容特征进行特征映射得到的。

可选的，所述第二获取单元具体用于：

分别将所述各训练样本各自对应的内容特征和第一交互特征进行组合，获得相应的第一视频特征，及分别将所述各训练样本各自对应的内容特征和第二交互特征进行组合，获得相应的第二视频特征；

分别基于所述各训练样本各自对应的第一视频特征和对象特征进行推荐预测，获得相应的第一预测子结果；

分别基于所述各训练样本各自对应的第二视频特征和对象特征进行推荐预测，获得相应的第二预测子结果；

分别基于所述各训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得相应的第三预测子结果；

分别基于各训练样本各自对应的第一预测子结果、第二预测子结果和第三预测子结果，获得相应的预测结果。

可选的，所述调整单元具体用于：

基于所述各训练样本的第三预测子结果与对应样本标签之间的差异，构建元损失函数；

基于所述各训练样本的第一预测子结果与第二预测子结果之间的差异，构建成对损失函数；

基于所述元损失函数和所述成对损失函数构建目标损失函数，并基于所述目标损失函数对所述视频推荐模型进行参数调整。

可选的，所述装置还包括：

映射单元，用于在所述第二获取单元分别基于所述各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果之前，基于预配置的视频映射矩阵，分别对各训练样本对应的第一视频特征和第二视频特征进行映射；

基于预配置的对象映射矩阵，分别对各训练样本对应的对象特征进行映射；

所述调整单元具体用于：

基于所述元损失函数和所述成对损失函数，以及所述视频映射矩阵、所述对象映射矩阵和用于提取内容特征的嵌入因子，构建所述目标损失函数。

可选的，训练样本集由包含不同样本对象的训练样本子集组成，每个训练样本子集中对应同一样本对象；

所述输入单元还用于通过如下方式选取各训练样本：

从所述训练样本集中选取一个训练样本子集，并从所述训练样本子集中选取主训练样本组和辅助训练样本组，所述主训练样本组和所述辅助训练样本组包含的训练样本的数量相同；

所述输入单元具体用于：

分别将所述主训练样本组和所述辅助训练样本组中的训练样本，输入所述视频推荐模型。

可选的，所述第二获取单元具体用于：

基于所述主训练样本组中，各主训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得所述各主训练样本各自对应的第三预测子结果；

基于获得的各第三预测子结果和相应的样本标签之间的差异，对所述视频推荐模型中的交互表示网络进行梯度更新，所述交互表示网络用于将所述样本视频对应的内容特征进行特征映射，获得相应的第二交互特征；

基于所述辅助训练样本组中，各辅助训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得所述各辅助训练样本各自对应的第三预测子结果。

可选的，所述调整单元具体用于：

基于所述主训练样本组中，各主训练样本各自对应的第三预测子结果和相应的样本标签之间的差异，构建主损失函数；

基于所述辅助训练样本组中，各辅助训练样本各自对应的第三预测子结果和相应的样本标签之间的差异，构建辅助损失函数；

将所述主损失函数和所述辅助损失函数进行加权求和，获得所述元损失函数。

可选的，所述成对损失函数包括：所述主训练样本组和所述辅助训练样本组各自对应的成对损失函数；每个训练样本组包括：至少一个样本标签表征交互的正样本，和至少一个样本标签表征未交互的负样本；

所述调整单元具体用于通过如下方式构建每个训练样本组对应的成对损失函数：

对于一个训练样本组，基于所述一个训练样本组中，正样本的第一预测子结果和负样本的第一预测子结果之间的差异，构建第一损失函数；

基于所述一个训练样本组中，正样本的第二预测子结果和负样本的第一预测子结果之间的差异，构建第二损失函数；

基于所述第一损失函数和所述第二损失函数，确定所述成对损失函数。

可选的，所述调整单元具体用于：

基于所述一个训练样本组中，正样本的第一预测子结果和负样本的第二预测子结果之间的差异，以及正样本的第二预测子结果和负样本的第二预测子结果之间的差异，构建第三损失函数；

基于所述第一损失函数，所述第二损失函数，和所述第三损失函数进行加权求和，确定所述成对损失函数。

可选的，所述装置还包括：

预测单元，用于将待检测视频和待检测对象输入已训练的视频推荐模型；

基于所述已训练的视频推荐模型，分别对所述待检测视频和所述待检测对象进行特征提取，获得所述待检测视频对应的目标内容特征和目标交互特征，以及所述待检测对象对应的目标对象特征；

将所述待检测视频的目标内容特征和目标交互特征进行组合，获得相应的目标视频特征；

基于所述目标视频特征和所述目标对象特征进行推荐预测，获得相应的目标预测结果，所述目标预测结果用于表征将所述待检测视频，推荐给所述待检测对象的概率。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一种视频推荐模型的训练方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任意一种视频推荐模型的训练方法的步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行上述任意一种视频推荐模型的训练方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频推荐模型的训练方法、装置、电子设备和存储介质，由于本申请提出了基于视频的内容特征学习生成第二交互特征，以第二交互特征模拟冷启动视频的交互信息，以使在进行视频推荐模型训练时，冷启动视频的交互特征不会为全0，缓解冷启动视频在训练过程中因没有交互信息而产生的劣势问题。同时，本申请提供了通过各训练样本各自对应的第一交互特征、第二交互特征和内容特征，以及对象特征来预测样式对象是否会对样本视频产生交互，进而，结合各预测结果与对应样本标签之间的差异，以及，各预测结果之间的差异，对视频推荐模型进行参数调整。其中，结合各预测结果与对应样本标签之间的差异调整模型参数，可以有效提高第二交互特征学习的准确性，而结合各预测结果之间的差异调整模型参数，可以进一步缩小非冷启动视频和冷启动视频的表示差异，最终能够基于预测结果改善冷启动视频在测试阶段预测时的劣势问题，有效提高视频推荐的准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一种视频推荐模型训练方法的应用场景示意图；

图2为本申请实施例中的一种视频推荐模型训练方法的整体流程图；

图3为本申请实施例中的一种训练样本集的划分结构示意图；

图4为本申请实施例中的一种确定第三预测子结果的逻辑示意图；

图5A为本申请实施例的一种确定主训练样本组的第一预测子结果与第二预测子结果的逻辑示意图；

图5B为本申请实施例的一种确定辅助训练样本组的第一预测子结果与第二预测子结果的逻辑示意图；

图6为本申请实施例的一种确定元损失函数的逻辑示意图；

图7为本申请实施例的一种确定主训练样本组的成对损失函数的逻辑示意图；

图8为本申请实施例中的一个模块表示图；

图9为本申请实施例中的另一个视频推荐模型训练方法的整体流程图；

图10为本申请实施例中的一种检测分割模型的应用过程的实施流程图；

图11为本申请实施例中的一个视频推荐模型实际应用时的流程图；

图12为本申请实施例中的一种视频推荐模型训练装置的组成结构示意图；

图13为本申请实施例中的一种电子设备的一个硬件组成结构示意图；

图14为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

训练样本集：用于对模型进行训练学习的样本集，针对不同的训练目标，样本集内容也不同；本申请中，训练目标即预测将某一视频推荐给对象时，对象是否会对该视频产生交互，因而训练样本集中的训练样本包括：样本对象、样本视频，及用于表征相应的样本对象是否对相应样本视频产生交互的样本标签。进一步地，根据样本对象不同，训练样本集还可分为多个训练样本子集；每个训练样本子集中的训练样本，所包含的样本对象相同，基于此，在进行模型训练时，还可从训练样本子集小批量的训练样本组成训练样本组，如本申请中的主训练样本组和辅助训练样本组。

冷启动视频：指由于刚投放不久等原因导致的，与对象之间还没有产生交互的视频，如新发布的视频，这类视频也没有对应的交互信息，与非冷启动视频对应，非冷启动视频是指与一个或多个对象产生交互，有一定的交互信息的视频。

内容特征：用于表述视频包含的内容，可以为视频内容的种类，视频的内容风格、剪辑风格，视频作者或者视频中具体包含的事物等，是通过模型对视频的内容进行特征提取得到的。在本申请实施例中，内容特征可以是向量的形式，因而还可称作内容特征向量。

第一交互特征：若视频为非冷启动视频，则该视频的第一交互特征是模型基于与相应对象的交互信息提取到的；若视频为冷启动视频，则该视频的第一交互特征是基于对应的内容特征进行特征映射得到的；反映了视频与对象的交互情况，交互信息可以包括对象在视频中的停留时间，是否在视频中发送互动信息(评论、弹幕等)，是否喜欢该视频(点赞、收藏等)等中的一种或多种。

第二交互特征：基于视频对应的内容特征进行特征映射得到的，主要用于模拟冷启动视频与对象的交互信息；冷启动视频的第一交互特征与第二交互特征相同。而对于非冷启动视频，这类视频已经与对象有过交互，是有交互信息的，因而，非冷启动视频的第一交互特征与第二交互特征的确定方式不同。

视频特征：用于视频的表示方式，本申请中视频特征分为第一视频特征和第二视频特征，其中，第一视频特征对应正常表示方式，是由各训练样本各自对应的内容特征和第一交互特征进行组合获得的；第二视频特征对应冷启动表示方式，是由各训练样本各自对应的内容特征和第二交互特征进行组合获得的。由于冷启动视频的第一交互特征和第二交互特征相同，因而，对于冷启动视频而言，第一视频特征与第二视频特征也相同。

预测结果：表示视频推荐模型预测的对象对视频的喜好分数，也可以表征视频被推荐给对象的概率等；本申请中预测结果包含第一预测子结果、第二预测子结果和第三预测子结果，其中，第一预测子结果是由各训练样本各自对应的第一视频特征和对象特征进行推荐预测获得的；第二预测子结果是由各训练样本各自对应的第二视频特征和对象特征进行推荐预测获得的；第三预测子结果是由各训练样本各自对应的第二交互特征和对象特征进行推荐预测获得的。

目标损失函数：基于元损失函数与成对损失函数构建的，表征模型的预测结果与实际情况之间的差异；其中，元损失函数是基于各个样本视频的第三预测子结果，与对应样本标签之间的差异得到的，该过程通过使用第二交互特征模拟冷启动视频的交互信息，使冷启动视频的交互特征不会为全0，以此得到元损失函数对视频推荐模型进行参数调整，可以缓解冷启动视频交互特征表示为全零时导致的劣势问题；成对损失函数是基于各样本视频的第一预测子结果，与第二预测子结果之间的差异得到的，通过成对损失函数调整模型参数，能够结合各预测结果之间的差异，进一步缩小非冷启动视频和冷启动视频的表示差异，有效提高视频推荐的准确性。

本申请实施例涉及人工智能(Artificial Intelligence，AI)和机器学习技术(Machine Learning，ML)，基于人工智能中的深度学习而设计。

人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例中的视频推荐模型的训练方法可应用到智能客服、虚拟助理、智能音箱、机器人等领域，将人工智能与这些领域中的推荐服务、喜好预测相结合，可以高效准确地的为不同对象推荐合适的目标。

此外，本申请实施例中的视频推荐模型就是采用机器学习或深度学习技术训练得到的。基于上述技术训练得到视频推荐模型后，即可应用该视频推荐模型为拥有不同喜好的对象推荐合适的视频内容。

下面对本申请实施例的设计思想进行简要说明：

随着人们业余生活的不断丰富，各种娱乐应用程序(APP，Application)越来越多；其中，视频APP也顺势而生，已经成为人们生活中的重要组成部分。为了能够让对象长久使用自己的视频应用，视频APP中通常带有涉及视频推荐技术的***。

在相关技术中，对于有对象交互过的视频(即非冷启动视频)，视频推荐***可以在其中捕获一些交互信息，基于交互信息进一步判断可能会对该视频感兴趣的对象，并将视频推荐到与该视频交互信息匹配的对象的推荐列表中。但对于没有任何交互记录的新发布的视频(即冷启动视频)相比于一般视频较难挖掘出视频的交互特性，因此通常对冷启动视频采取获取其内容特征的方式，缓解其特性表示问题。但如此冷启动视频也仅是有内容信息，依旧没有交互信息，而对于非冷启动视频，既有交互信息，又包含内容信息，这种差异会导致冷启动视频在被推荐时，相比非冷启动视频将处于劣势，即使冷启动视频内容上更符合对象偏好，也可能因为这种差异导致冷启动视频不被推荐。

同样，在训练视频推荐模型时，由于在训练集中没有冷启动的交互数据，所以在训练的过程中，冷启动视频的交互表示一直处在全零向量的初始化状态，只能单独用内容特征来表示冷启动视频。最终导致冷启动视频在测试阶段中的预测分数时相比非冷启动视频将会处于劣势，进一步导致冷启动视频处于被推荐的劣势。

此外还有技术将视觉信息加入到预测对象对于视频的偏好程度得过程中，同时考虑对象与视频的交互关系对于喜好程度预测的影响，一定程度上能够缓解冷启动视频的推荐效果。但依旧存在冷启动视频的交互表示一直处在初始化状态问题，导致在测试阶段冷启动视频相比于非冷启动视频预测时处于劣势。

有鉴于此，本申请实施例提供了一种视频推荐模型的训练方法、装置、电子设备和存储介质。本申请基于视频的内容特征学习生成第二交互特征，以使用第二交互特征模拟冷启动视频的交互信息，以使在进行视频推荐模型训练时，冷启动视频的交互特征不会为全0，缓解冷启动视频交互特征表示为全零时导致的劣势问题。同时，本申请提供了通过各训练样本各自对应的第一交互特征、第二交互特征和内容特征，以及对象特征来预测样式对象是否会对样本视频产生交互，进而，结合各预测结果与对应样本标签之间的差异，以及，各预测结果之间的差异，对视频推荐模型进行参数调整。其中，结合各预测结果与对应样本标签之间的差异调整模型参数，可以有效提高第二交互特征学习的准确性，而结合各预测结果之间的差异调整模型参数，可以进一步缩小非冷启动视频和冷启动视频的表示差异，最终能够基于预测结果改善冷启动视频在测试阶段预测时的劣势问题，有效提高视频推荐的准确性。以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。

在本申请实施例中，终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有视频推荐模型训练相关的客户端，该客户端可以是软件(例如浏览器、视频推荐软件等)，也可以是网页、小程序等，服务器120则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行视频推荐模型训练的服务器，本申请不做具体限定。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请各实施例中的视频推荐模型的训练方法可以由电子设备执行，该电子设备可以为终端设备110或者服务器120，即，该方法可以由终端设备110或者服务器120单独执行，也可以由终端设备110和服务器120共同执行。比如由服务器120单独执行时，假设现某短视频APP需要对视频推荐模型进行训练。服务器120将预置的训练样本集的训练样本输入视频推荐模型，获得样本视频的内容特征、对象特征、第一交互特征以及第二交互特征。

之后，服务器120分别将各训练样本各自对应的内容特征和第一交互特征进行组合，获得相应的第一视频特征；将各训练样本各自对应的内容特征和第二交互特征进行组合，获得相应的第二视频特征。进一步，服务器120基于各训练样本各自对应的第一视频特征和对象特征，获得相应的第一预测子结果，基于各训练样本各自对应的第二视频特征和对象特征，获得相应的第二预测子结果；并基于第一预测子结果和第二预测子结果获得成对损失函数。

此外，服务器120基于每个训练样本各自对应的第二交互特征和对象特征，获得各训练样本各自对应的第三预测子结果；并基于获得的各第三预测子结果和相应的样本标签之间的差异，构建元损失函数；

最终，服务器120基于元损失函数与成对损失函数构建目标损失函数，以通过目标损失函数调整模型参数，使视频推荐模型的准确率更高。

在模型应用阶段，通过终端设备110获取待检测对象的对象特征，并将对象特征发送给服务器120，服务器接收到对象特征后，对视频库中的待检测视频获取目标内容特征和目标交互特征，并将待检测视频的目标内容特征和目标交互特征组合，获取目标视频特征；之后，服务器120基于目标视频特征和目标对象特征进行推荐预测，获得待检测视频的目标预测结果，预测结果可以为一个数字，该数字表征模型预测的，待检测对象对该待检测视频的感兴趣程度。最终，服务器120根据待检测视频的预测结果，选出目标对象可能感兴趣的视频，具体地，可以预置一个兴趣阈值，对于超过兴趣阈值的视频，服务器120将其中的一个或多个传至客户端110展示，或者对这些视频的预测结果进行排序，按一定顺序推荐一定数量的视频，并将视频的筛选结果传回客户端110，由客户端110向目标对象展示推荐，本文不做具体限定。

在一种可选的实施方式中，终端设备110与服务器120之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

本申请实施例中，当服务器的数量为多个时，多个服务器可组成为一区块链，而服务器为区块链上的节点；如本申请实施例所公开的视频推荐模型训练方法，其中所涉及的模型训练数据可保存于区块链上，例如，待检测视频的内容特征、对象特征、第一交互特征、第二交互特征，用于提取内容特征的嵌入因子等。

此外，本申请实施例可应用于各种场景，不仅包括视频推荐场景，还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的视频推荐模型的训练方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图2所示，为本申请实施例提供的一种视频推荐模型的训练方法的实施流程图，该方法的具体实施流程如下S201-S204：

S201：将选取的各训练样本输入待训练的视频推荐模型。

其中，每个训练样本包含样本对象、样本视频和样本标签，样本标签表征相应的样本对象是否对相应样本视频产生交互。

在本申请实施例中，样本对象(如用户)对样本视频的交互包括但不限于下列的部分或全部：样本对象点击样本视频进行观看、在样本视频中的停留时间、是否在样本视频中发送互动信息、是否点击喜欢该样本视频等。本文是以样本对象点击样本视频进行观看为例进行举例说明的。

在本申请实施例中，进行视频推荐模型的训练时，需要基于训练样本集对待训练的视频推荐模型进行多轮迭代训练，其中，在每轮迭代训练中，都可执行以下S201-S204中的步骤，以对视频推荐模型的参数进行调整。

其中，训练样本集中的样本视频包括冷启动视频、非冷启动视频。在每轮迭代过程中，都需要从训练样本集中批量选取训练样本。

一种可选的实施方式为，训练样本集是由包含不同样本对象的训练样本子集组成。每个训练样本子集中对应同一样本对象；各训练样本通过如下方式选取：从训练样本集中选取一个训练样本子集，并从训练样本子集中选取两个训练样本组，也即两小批训练样本，根据训练样本组的输入顺序，分别命名为：主训练样本组和辅助训练样本组。其中，主训练样本组和辅助训练样本组包含的训练样本的数量相同。

综上，将选取的各训练样本输入待训练的视频推荐模型，即为分别将主训练样本组和辅助训练样本组中的训练样本，输入视频推荐模型。具体地，首先将主训练样本组中的训练样本，输入视频推荐模型；之后将辅助训练样本组中的训练样本，输入视频推荐模型。

以具体场景为例，假设现对一个视频推荐模型进行训练，如图3所示，为本申请实施例中的一种训练样本集的划分结构示意图，服务器基于样本对象的不同，将训练样本集D划分成若干个任务，也即多个训练样本子集D₁、D₂、D_i……。以D_i为例，训练样本子集D_i是由根据样本对象i组成的任务，训练样本子集D_i中有N_i个训练样本；进一步，训练样本子集D_i中包含有多个训练样本组，可从其中选取两个不相交的训练样本组，即主训练样本组和辅助训练样本组/>同理，训练样本子集D₁也包含多个训练样本组，可从其中选取两个不相交的训练样本组，即主训练样本组/>和辅助训练样本组/>训练样本子集D₂也包含多个训练样本组，可从其中选取两个不相交的训练样本组，即主训练样本组/>和辅助训练样本组/>

在本申请实施例中，每个训练样本子集可包含多个训练样本组，每个训练样本组包含有K个样本，且K＜＜N_i/2，在一轮迭代过程中，可从这多个训练样本组中，选取一个作为主训练样本组选取一个作为辅助训练样本组/>进而，服务器分别将主训练样本组/>和辅助训练样本组/>中的训练样本，输入视频推荐模型进行模型训练。

需要说明的是，上述所列举的训练样本的选取方式只是举例说明，任意一种选取方式都适用于本申请实施例，在此不做具体限定。

S202：基于视频推荐模型对选取的各训练样本分别进行特征提取，获得相应的提取结果，以及分别将各训练样本包含的样本视频对应的内容特征进行特征映射，获得相应的第二交互特征。

其中，每个提取结果包含：相应样本视频的内容特征和第一交互特征，以及相应样本对象的对象特征。且对于一个样本视频，若样本视频为非冷启动视频，则该样本视频的第一交互特征是基于与相应样本对象的交互信息提取到的；若样本视频为冷启动视频，则该样本视频的第一交互特征是基于对应的内容特征进行特征映射得到的，也即冷启动视频的第一交互特征与第二交互特征相同。

依旧以S201中的假设场景为例，对于一个样本视频j，首先将该样本视频的内容表示为独热(one-hot)向量t_j，进而将one-hot向量t_j转换为嵌入(embedding)向量c_j，即内容特征表示为c_j，有c_j＝W×t_j，其中，W为映射矩阵，第一交互特征表示为e_j；对于一个样本对象i，其对象特征表示为u_i。其中，视频推荐模型中，用于获取内容特征与对象特征的部分的模型参数是经过大量数据预训练好的，不需再更新。

其中，第二交互特征是由本申请的视频推荐模型中的交互表示网络，通过对样本视频对应的内容特征c_j进行特征映射得到的，表示为且/>其中，w为交互表示网络的参数，该交互表示网络可由全连接层组成，即w为全连接层参数。

S203：分别基于各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果。

其中，预测结果表示表示视频推荐模型预测的对象对视频的喜好分数，也可以表征视频被推荐给对象的概率等，下文以各个对象对视频的喜好分数为例。

在本申请实施例中，服务器可以先分别基于各训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得相应的第三预测子结果。

具体地，如图4所示，为本申请实施例的一种确定第三预测子结果的逻辑示意图；服务器对于每一个训练样本子集，服务器先基于其中的一个主训练样本组(包含K个训练样本，如K＝10时，包括训练样本1-10)，对视频推荐模型进行训练，基于主训练样本组中，各个样本视频的第二交互特征与样本对象的对象特征，获得相应的第三预测子结果，并基于获得的各第三预测子结果和相应的样本标签之间的差异，对视频推荐模型中，负责获得第二交互特征的交互表示网络进行梯度更新；在此基础上，服务器再基于训练样本子集中的辅助训练样本组(包含K个训练样本，如K＝10时，包括训练样本11-20)，对进行过梯度更新的视频推荐模型再次训练，基于一个辅助训练样本组中，样本对象的对象特征，和在梯度更新后获取的各个样本视频的第二交互特征，获得各辅助训练样本各自对应的第三预测子结果。

之后，服务器分别将各训练样本各自对应的内容特征和第一交互特征进行组合，获得相应的第一视频特征，及分别将各训练样本各自对应的内容特征和第二交互特征进行组合，获得相应的第二视频特征。

上述中，服务器为每个视频提供第一视频特征、第二视频特征两种特征表示，以解决视频在训练阶段和测试阶段特征表示存在巨大差异带来的问题。其中，非冷启动视频采用第一视频特征进行特征表示，冷启动视频采用第二视频特征进行特征表示，第二视频特征可以对测试集中的冷启动场景进行模拟。

可选的，服务器基于预配置的视频映射矩阵，分别对各训练样本对应的第一视频特征和第二视频特征进行映射，并基于预配置的对象映射矩阵，分别对各训练样本对应的对象特征进行映射，以使第一视频特征、第二视频特征和对象特征有相同维度。可以将第一视频特征、第二视频特征和对象特征的维度，都调整为三者之一的维度，也可以将三者调整到某一指定维度等，具体调整方法可以通过实验获得，本文不做具体限定。

上述中的各映射矩阵中的参数同样可调。

此外，对于每一个训练样本子集中，每个训练样本组都包括至少一个样本标签表征交互的正样本，和至少一个样本标签表征未交互的负样本，基于正负样本，以及本文所提出的两种视频表示方式(正常表示方式、冷启动表示方式)，可进行成对学习，其中，冷启动视频采用冷启动表示，非冷启动视频采用正常表示，具体过程如下：

根据上述，可根据每个训练样本为正样本还是负样本，每个训练样本包含的样本视频为正常表示方式还是冷启动表示方式，将样本视频划分为如下四类：

冷启动表示的正样本、正常表示的正样本、冷启动表示的负样本、正常表示的负样本。

如图5A所示，为本申请实施例的一种，确定主训练样本组的第一预测子结果与第二预测子结果的逻辑示意图。服务器先基于其中的主训练样本组中，各个采用正常表示的正样本视频，对应的第一视频特征和对象特征进行推荐预测，获得对应各个非冷启动视频的正样本的第一预测子结果；基于主训练样本组中，各个采用冷启动表示的正样本视频，对应的第二视频特征和对象特征进行推荐预测，获得对应各个冷启动视频的正样本的第二预测子结果；基于主训练样本组中，各个采用正常表示的负样本视频，对应的第一视频特征和对象特征进行推荐预测，获得对应各个非冷启动视频的负样本的第一预测子结果；以及基于主训练样本组中，各个采用冷启动表示的负样本视频，对应的第二视频特征和对象特征进行推荐预测，获得对应各个冷启动视频的负样本的第二预测子结果。

之后，如图5B所示，为本申请实施例的一种，确定辅助训练样本组的第一预测子结果与第二预测子结果的逻辑示意图。服务器基于对交互表示网络进行过梯度更新的视频推荐模型，再对训练样本子集中的辅助训练样本组进行上述过程，以获得各个采用正常表示的正样本视频的第一预测子结果、各个采用冷启动表示的正样本视频的第二预测子结果，以及各个采用正常表示的负样本视频的第一预测子结果、各个采用冷启动表示的负样本视频的第二预测子结果。

也即，上述中，辅助训练样本组中，训练样本的第二交互特征是基于进行过梯度更新的交互表示网络得到的，分别将辅助训练样本组中，各训练样本各自对应的内容特征，和基于进行过梯度更新的交互表示网络得到的第二交互特征进行组合，获得辅助训练样本组中，训练样本对应的第二视频特征。

最后服务器将基于各训练样本各自对应的第一预测子结果、第二预测子结果和第三预测子结果组合，作为S203中的预测结果。

需要说明的是，上述中对于获得第一预测子结果、第二预测子结果和第三预测子结果的过程可以并行进行，也可以先后进行，本申请不做具体限定。

继续S202中的假设场景，对于每一个训练样本子集D_i，N_i表示训练样本子集D_i中有N_i个训练样本，向量v_j由内容特征c_j和第一交互特征e_j组成，v_j＝δ(e_j,c_j)，δ(·)表示为组合函数，一般实现方式为连接δ(e_i,c_i)＝e_i||c_i；/>表示视频推荐模型预测的对象对视频的喜好分数，有/>其中F(·)表示交互函数。

服务器对每一个训练样本子集D_i中的主训练样本组中，每个样本视频执行以下过程：对样本视频j1，基于j1的第二交互特征/>与样本对象i的对象特征u_i，获得对应样本视频j1的第三预测子结果/>aj1表示/>中的第j1个样本视频，其中θ为预测模型参数，是预训练好的，不需再更新。之后，服务器基于获得的各第三预测子结果和相应的样本标签之间的差异，对视频推荐模型中，负责获得第二交互特征的交互表示网络进行梯度更新；在此基础上，服务器再基于训练样本子集中的辅助训练样本组对进行过梯度更新的视频推荐模型再次训练，对辅助训练样本组/>中，每个样本视频执行以下过程：基于样本对象i的对象特征u_i，和在梯度更新后获取的样本视频j2的第二交互特征/>获得辅助训练样本j2对应的第三预测子结果/> bj2表示/>中的第j2个样本视频。

之后，服务器对各个训练样本分别将各训练样本各自对应的内容特征c_j和第一交互特征e_j进行组合，获得相应的第一视频特征 δ(·)表示为组合函数；及分别将各训练样本各自对应的内容特征c_j和第二交互特征/>进行组合，获得相应的第二视频特征/>

可选的，服务器还可基于预配置的视频映射矩阵W^v，分别对各训练样本对应的第一视频特征和第二视频特征进行映射，将和/>映射到共同的空间，有/>和/>并基于预配置的对象映射矩阵W^u，分别对各训练样本对应的对象特征进行映射，将对象特征映射到共同空间，有/>以使第一视频特征、第二视频特征和对象特征有相同维度。

上述中，用于非冷启动视频的视频特征表示。/>用于冷启动视频的视频特征表示，也即非冷启动视频使用第一视频特征表示，冷启动视频使用第二视频特征表示，从而在训练过程中通过优化能够弥补冷启动视频的表示劣势，进一步将冷启动视频和非冷启动视频在测试集中预测时的劣势和差异缩小。

此外，对于每一个训练样本子集D_i中，假设g表示为正样本，k为负样本，以表示采用正常表示的正样本视频对应的第一视频特征，/>表示采用冷启动表示的正样本视频对应的第二视频特征，/>表示采用正常表示的负样本视频对应的第一视频特征，/>表示采用冷启动表示的负样本视频对应的第二视频特征，/>为映射后的对象特征。服务器先对主训练样本组/>中，各个采用正常表示的视频中的正样本，对应的第一视频特征/>和对象特征/>进行推荐预测，获得对应各个采用正常表示的视频中，正样本的第一预测子结果基于主训练样本组/>中，各个采用冷启动表示的视频中的正样本，对应的第二视频特征/>和对象特征/>进行推荐预测，获得对应各个采用冷启动表示的视频中，正样本的第二预测子结果/>基于主训练样本组/>中，各个采用正常表示的视频中的负样本，对应的第一视频特征/>和对象特征/>进行推荐预测，获得对应各个采用正常表示的视频中，负样本的第一预测子结果/>以及基于主训练样本组/>中，各个采用冷启动表示的视频中的负样本，对应的第二视频特征/>和对象特征/>进行推荐预测，获得对应各个用冷启动表示的视频中，负样本的第二预测子结果

之后，服务器基于对交互表示网络进行过梯度更新的视频推荐模型，再对训练样本子集中的辅助训练样本组进行上述相同的过程，以获得各个采用正常表示的视频中正样本的第一预测子结果各个采用冷启动表示的视频中正样本的第二预测子结果/>以及各个采用正常表示的视频中负样本的第一预测子结果/>各个采用冷启动表示的视频中负样本的第二预测子结果/>

此外，针对训练样本集中的全部训练样本，样本对象对其的点击记录可以表示为S＝{(v_j1，u_i1)，(v_j2，u_i2)，……，(v_jNs，u_iNs)}，其中Ns为点击记录总数。可以使用矩阵表示对象与视频间的交互行为，M表示对象数量，N表示视频数量，R中的第i行第j列表示为r_ij。当r_ij＝1时，表示对象i与视频j有交互，反之则没有交互。使用R＝{(i，j)│r_ij＝1}来表示交互数据集。可以采用贝叶斯个性化排名(以下简称BPR)来优化预测函数，采用三元数据集进行训练，训练样本集/>其中i表示对象i，该对象有交互的正样本视频g和该对象没有交互的负样本视频k。

可以理解的是，在本申请的具体实施方式中，涉及到样本对象对样本视频的点击记录信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可选的，上述映射过程可以基于一个包含模拟模块的***来实施。

S204：基于各预测结果与对应样本标签之间的差异，以及各预测结果之间的差异，对视频推荐模型进行参数调整。

具体地，以一对主训练样本组和辅助训练样本组为例，如图6所示，为本申请实施例的一种确定元损失函数的逻辑示意图。服务器基于主训练样本组(包含K个训练样本，如K＝10时，包括训练样本1-10)中，各主训练样本各自对应的第三预测子结果，和相应的样本标签之间的差异，构建该主训练样本组的主损失函数；基于辅助训练样本组(包含K个训练样本，如K＝10时，包括训练样本11-20)中，各辅助训练样本各自对应的第三预测子结果和相应的样本标签之间的差异，构建该辅助训练样本组的辅助损失函数；将主损失函数和辅助损失函数进行加权求和，获得元损失函数。

之后，服务器基于各训练样本的第一预测子结果与第二预测子结果之间的差异，构建成对损失函数；成对损失函数进一步可以分为：主训练样本组和辅助训练样本组各自对应的成对损失函数；具体主训练样本组和辅助训练样本组中，每个训练样本组对应的成对损失函数是通过如下方式构建的：

如图7所示，为本申请实施例的一种确定主训练样本组的成对损失函数的逻辑示意图，对于主训练样本组，服务器通过正样本的第一预测子结果和负样本的第一预测子结果之间的差异，构建第一损失函数；通过正样本的第二预测子结果和负样本的第一预测子结果之间的差异，构建第二损失函数；之后基于第一损失函数和第二损失函数，确定成对损失函数。此外还可以通过正样本的第一预测子结果和负样本的第二预测子结果之间的差异，以及正样本的第二预测子结果和负样本的第二预测子结果之间的差异，构建第三损失函数，之后基于第一损失函数，第二损失函数，和第三损失函数进行加权求和，确定主训练样本组中各个训练样本组成对损失函数。

辅助训练样本组对应的成对损失函数的确定方法，与主训练样本组相同，但需要注意的是，辅助训练样本组中，训练样本的第二交互特征是基于对交互表示网络进行过梯度更新的视频推荐模型得到的；训练样本对应的第二视频特征是将其内容特征，和基于对交互表示网络进行过梯度更新的视频推荐模型得到的第二交互特征进行组合得到的；因此，其第二预测子结果也是通过对上述中，进行过梯度更新后得到的第二视频特征，和对象特征进行推荐预测得到的。

最后，服务器基于元损失函数和成对损失函数，以及视频映射矩阵、对象映射矩阵和用于提取内容特征的嵌入因子，构建目标损失函数。并基于目标损失函数对视频推荐模型进行参数调整。

继续S203中的假设场景，对于一个主训练样本组，其主损失函数为：

其中，为主训练样本j1对应的第三预测子结果，其数值在0和1之间，y_aj1为样本标签，表示实际上样本对象对样本视频是否存在在交互，如存在则为1，否则为0。/>

此外，S202与S203中的梯度更新具体为：计算l_a对的梯度，对交互表示网络进行梯度更新，更新后，对于一个辅助训练样本j2，其第二交互特征更新为其中，h为学习率。

同理，对于一个辅助训练样本组，其辅助损失函数为：

将主损失函数和辅助损失函数进行加权求和，获得元损失函数l_meta＝αl_a+(1-α)l_b。

其中，α为主损失函数和辅助损失函数的相关系数。通过梯度下降方法计算l_meta对于全连接层参数w的梯度，进而优化参数w。

上述中第二交互特征的学习，及元损失函数的获取可以基于一个包含元学习嵌入(meta-embedding)模块的***来实施。

之后，服务器基于各训练样本的第一预测子结果与第二预测子结果之间的差异，构建成对损失函数：

对一个主训练样本组通过正样本g的第一预测子结果和负样本k的第一预测子结果之间的差异，构建第一损失函数/>其中σ(·)为sigmoid函数，L₁(i,g,k)的作用为非冷启动视频排名任务的学习。

通过正样本g的第二预测子结果和负样本k的第一预测子结果之间的差异，构建第二损失函数L₂(i,j,k)的作用为：使正样本冷启动视频的表示相比于负样本非冷启动视频的表示更有优势，是缩小冷启动视频劣势的关键。

之后，基于第一损失函数和第二损失函数，确定成对损失函数。

如，样本对象i对应的一个正样本g与负样本k之间的成对损失函数为：L(i,g,k)＝L₁(i,g,k)+L₂(i,g,k)。

此外还可以通过正样本的第一预测子结果和负样本的第二预测子结果之间的差异，以及正样本的第二预测子结果和负样本的第二预测子结果之间的差异，构建第三损失函数L₃(i,g,k)表示冷启动视频的正样本表示和非冷启动视频的正样本表示，整体上应该优于冷启动视频的负样本表示，但由于冷启动视频成为负样本的原因可能来自没有交互数据导致的劣势，因此冷启动视频的负样本表示不应该被影响太大，所以通过设置权重的方式来缩小L₃对于总体损失函数的影响，则样本对象i对应的一个正样本g与负样本k之间的成对损失函数为：

L(i,g,k)＝β(L₁(i,g,k)+L₂(i,g,k))+(1-β)L₃(i,g,k)；其中，β为相关系数，且设置β>0.5。

同理，对于一个辅助训练样本组其第一损失函数/>/>第二损失函数/>第三损失函数进一步，成对损失函数/>

上述中，成对损失函数的获取可以基于一个包含成对学习模块的***来实施。成对学习模块的目标函数为：为训练样本集D中所有训练样本的成对损失函数之和。

具体地，由于在一轮迭代过程中，并非基于整个训练样本集D来进行训练，而是基于从训练样本集D中选取的一个主训练样本组和一个辅助训练样本组。因而，在一轮迭代更新的过程中，对于每对主训练样本组和辅助训练样本组，服务器基于元损失函数和成对损失函数，以及视频映射矩阵Θ_q、对象映射矩阵Θ_w和用于提取内容特征的嵌入因子Θ_e，构建目标损失函数，并基于目标损失函数对视频推荐模型进行参数调整。

以主训练样本组和辅助训练样本组/>为例，其目标损失函数为：

其中，表示为主训练样本组/>中所有训练样本的成对损失函数的平均值；/>表示为辅助训练样本组/>中所有训练样本的成对损失函数的平均值。

可选的，上述过程可以基于一个包含训练模块的***来实施。训练模块负责对meta-embedding模块和成对学习模块框架中的参数，一起进行训练和参数更新，每次以一对主训练样本组和辅助训练样本组进行训练，不断迭代。

需要注意的是，在视频推荐模型的测试阶段，对样本获取预测结果时，无论冷启动视频还是非冷启动视频，都是利用第一视频特征进行预测，因为冷启动视频的第一视频特征和第二视频特征表示相同，非冷启动物品在预测时直接使用由其真实的交互数据获得的第一视频特征即可。

综上，本申请描述的方法可以由一个包含meta-embedding模块、模拟模块、成对学习模块和训练模块的***实现，如图8所示，为本申请实施例中的一个模块表示图，获取到训练样本的内容特征、第一交互特征、对象特征、第二交互特征后，meta-embedding模块负责计算训练样本的元损失函数，模拟模块负责映射，成对学习模块负责计算训练样本的成对损失函数，训练模块负责结合meta-embedding模块和成对损失模块的结果，获得最终的目标损失函数，以基于目标损失函数，对视频推荐模型进行参数更新，即对meta-embedding模块和成对学习模块里的参数一起训练更新。

此外，针对以上具体场景，以一对主训练样本组和辅助训练样本组为例，一种可选的实施方式为，可以按照如图9所示的流程图实施S201-S204，包括以下步骤：

步骤901：在训练样本子集D_i中，选取一对主训练样本组和辅助训练样本组。

步骤902：将主训练样本组和辅助训练样本组中的训练样本，输入视频推荐模型。

步骤903：获取训练样本的内容特征、对象特征、第一交互特征以及第二交互特征。

步骤904：基于主训练样本组中，各主训练样本各自对应的第二交互特征和对象特征，获得各主训练样本各自对应的第三预测子结果。

步骤905：基于获得的各第三预测子结果和相应的样本标签之间的差异，构建主损失函数。

步骤906：基于主损失函数，对视频推荐模型中的交互表示网络进行梯度更新。

步骤907：基于辅助训练样本组中，各辅助训练样本各自对应的对象特征和第二交互特征，获得各辅助训练样本各自对应的第三预测子结果。

其中，辅助训练样本的第二交互特征是在步骤906中，梯度更新后获取的。

步骤908：基于第三预测子结果和相应的样本标签之间的差异，构建辅助损失函数。

步骤909：基于主损失函数和辅助损失函数获得元损失函数。

步骤910：基于各训练样本各自对应的内容特征和第一交互特征进行组合，获得相应的第一视频特征，及基于各训练样本各自对应的内容特征和第二交互特征进行组合，获得相应的第二视频特征。

步骤911：对各训练样本的第一视频特征、第二视频特征进行映射和对对象特征进行映射。

步骤912：基于各训练样本各自对应的第一视频特征和对象特征，获得相应的第一预测子结果，及基于各训练样本各自对应的第二视频特征和对象特征，获得相应的第二预测子结果。

步骤913：基于主训练样本组中，正样本的第一预测子结果和负样本的第一预测子结果之间的差异，构建主训练样本组的第一损失函数；基于正样本的第二预测子结果和负样本的第一预测子结果之间的差异，构建主训练样本组的第二损失函数；基于正样本的第一预测子结果和负样本的第二预测子结果之间的差异，以及正样本的第二预测子结果和负样本的第二预测子结果之间的差异，构建主训练样本组的第三损失函数。

步骤914：基于辅助训练样本组中，正样本的第一预测子结果和负样本的第一预测子结果之间的差异，构建辅助训练样本组的第一损失函数；基于正样本的第二预测子结果和负样本的第一预测子结果之间的差异，构建辅助训练样本组的第二损失函数；基于正样本的第一预测子结果和负样本的第二预测子结果之间的差异，以及正样本的第二预测子结果和负样本的第二预测子结果之间的差异，构建辅助训练样本组的第三损失函数。

需要注意的是，辅助训练样本的第二交互特征、第二视频特征、第二预测子结果均是在步骤906中，梯度更新后获取的。

步骤915：由第一损失函数，第二损失函数，和第三损失函数获得成对损失函数。

步骤916：基于元损失函数、成对损失函数、视频映射矩阵、对象映射矩阵和用于提取内容特征的嵌入因子，构建目标损失函数。

下面从模型应用的角度，对本申请实施例中的检测分割模型的训练方法进一步介绍：

参阅图10所示，为本申请实施例中的一种检测分割模型的应用过程的实施流程图，以服务器为执行主体为例，该方法的具体实施流程如下：

S1001：将待检测视频和待检测对象输入已训练的视频推荐模型。

S1002：基于已训练的视频推荐模型，分别对待检测视频和待检测对象进行特征提取，获得待检测视频对应的目标内容特征和目标交互特征，以及待检测对象对应的目标对象特征。

其中，目标内容特征用于表述待检测视频包含的内容，可以为视频内容的种类，视频的内容风格、剪辑风格，视频作者或者视频中具体包含的事物等，是通过模型对视频的内容进行特征提取得到的；目标交互特征分为第一交互特征与第二交互特征，对于第一交互特征，若视频为非冷启动视频，则该视频的第一交互特征是模型基于与相应对象的交互信息提取到的，若视频为冷启动视频，则该视频的第一交互特征是基于对应的内容特征进行特征映射得到的；第二交互特征是基于视频对应的内容特征进行特征映射得到的，主要用于模拟冷启动视频与对象的交互信息，冷启动视频的第一交互特征与第二交互特征相同。

S1003：将待检测视频的目标内容特征和目标交互特征进行组合，获得相应的目标视频特征。

其中，目标视频特征是待检测视频的第一视频特征，因为在测试阶段或应用阶段，冷启动视频的第一视频特征和第二视频特征表示相同，非冷启动物品直接使用由其真实的交互数据获得的第一视频特征进行预测即可。对象i对视频j的预测分数为：

S1004：基于目标视频特征和目标对象特征进行推荐预测，获得相应的目标预测结果。

其中，目标预测结果用于表征将待检测视频，推荐给待检测对象的概率。

训练好的视频推荐模型在经过测试部署后，能够根据不同对象更为准确的推荐可能感兴趣的视频，如图11所示，为本申请实施例中的一个视频推荐模型实际应用时的流程图，服务器获取到对象i的对象特征信息，并基于视频推荐模型，对视频库中的视频进行预测，服务器获取到视频的内容特征、第一交互特征和第二交互特征，以及对象特征，对视频进行喜好预测，得出预测结果，其中，A的预测结果为0.1，B的预测结果为0.2，C的预测结果为0.1，D为0.9，E为0.87……预测结果中的数字表征对象对相应视频的感兴趣程度，取值在0和1之间，0为不感兴趣，还可以预置一个兴趣阈值，对于超过兴趣阈值的视频，向对象i推荐一个或多个到客户端展示，或者对这些视频的预测结果进行排序，按一定顺序推荐一定数量的视频，本文不做具体限定。假设兴趣阈值为0.6，则服务器将视频D和视频E传至客户端，由客户端向对象i展示推荐。

基于相同的发明构思，本申请实施例还提供一种视频推荐模型的训练装置。如图12所示，其为视频推荐模型的训练装置1200的结构示意图，可以包括：

输入单元1201，用于将选取的各训练样本输入待训练的视频推荐模型，每个训练样本包含样本对象、样本视频和样本标签，样本标签表征：相应样本对象是否对相应样本视频产生交互；

第一获取单元1202，用于基于视频推荐模型对选取的各训练样本分别进行特征提取，获得相应的提取结果，其中，每个提取结果包含：相应样本视频的内容特征和第一交互特征，以及相应样本对象的对象特征；以及，分别将各训练样本包含的样本视频对应的内容特征进行特征映射，获得相应的第二交互特征；

第二获取单元1203，用于分别基于各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果；

调整单元1204，用于基于各预测结果与对应样本标签之间的差异，以及各预测结果之间的差异，对视频推荐模型进行参数调整。

可选的，对于一个样本视频，若样本视频为非冷启动视频，则一个样本视频的第一交互特征是基于与相应样本对象的交互信息提取到的；若样本视频为冷启动视频，则一个样本视频的第一交互特征是基于对应的内容特征进行特征映射得到的。

可选的，第二获取单元1203具体用于：

分别将各训练样本各自对应的内容特征和第一交互特征进行组合，获得相应的第一视频特征，及分别将各训练样本各自对应的内容特征和第二交互特征进行组合，获得相应的第二视频特征；

分别基于各训练样本各自对应的第一视频特征和对象特征进行推荐预测，获得相应的第一预测子结果；

分别基于各训练样本各自对应的第二视频特征和对象特征进行推荐预测，获得相应的第二预测子结果；

分别基于各训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得相应的第三预测子结果；

可选的，调整单元1204具体用于：

基于各训练样本的第三预测子结果与对应样本标签之间的差异，构建元损失函数；

基于各训练样本的第一预测子结果与第二预测子结果之间的差异，构建成对损失函数；

基于元损失函数和成对损失函数构建目标损失函数，并基于目标损失函数对视频推荐模型进行参数调整。

可选的，装置还包括：

映射单元1205，用于在分别基于各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果之前，基于预配置的视频映射矩阵，分别对各训练样本对应的第一视频特征和第二视频特征进行映射；

调整单元1204具体用于：

基于元损失函数和成对损失函数，以及视频映射矩阵、对象映射矩阵和用于提取内容特征的嵌入因子，构建目标损失函数。

输入单元还用于通过如下方式选取各训练样本：

从训练样本集中选取一个训练样本子集，并从训练样本子集中选取主训练样本组和辅助训练样本组，主训练样本组和辅助训练样本组包含的训练样本的数量相同；

输入单元1201具体用于：

分别将主训练样本组和辅助训练样本组中的训练样本，输入视频推荐模型。

可选的，第二获取单元1203具体用于：

基于主训练样本组中，各主训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得各主训练样本各自对应的第三预测子结果；

基于获得的各第三预测子结果和相应的样本标签之间的差异，对视频推荐模型中的交互表示网络进行梯度更新，交互表示网络用于将样本视频对应的内容特征进行特征映射，获得相应的第二交互特征；

基于辅助训练样本组中，各辅助训练样本各自对应的第二交互特征和对象特征进行推荐预测，获得各辅助训练样本各自对应的第三预测子结果。

可选的，调整单元1204具体用于：

基于主训练样本组中，各主训练样本各自对应的第三预测子结果和相应的样本标签之间的差异，构建主损失函数；

基于辅助训练样本组中，各辅助训练样本各自对应的第三预测子结果和相应的样本标签之间的差异，构建辅助损失函数；

将主损失函数和辅助损失函数进行加权求和，获得元损失函数。

可选的，成对损失函数包括：主训练样本组和辅助训练样本组各自对应的成对损失函数；每个训练样本组包括：至少一个样本标签表征交互的正样本，和至少一个样本标签表征未交互的负样本；

调整单元1204具体用于通过如下方式构建每个训练样本组对应的成对损失函数：

对于一个训练样本组，基于一个训练样本组中，正样本的第一预测子结果和负样本的第一预测子结果之间的差异，构建第一损失函数；

基于一个训练样本组中，正样本的第二预测子结果和负样本的第一预测子结果之间的差异，构建第二损失函数；

基于第一损失函数和第二损失函数，确定成对损失函数。

可选的，调整单元1204具体用于：

基于一个训练样本组中，正样本的第一预测子结果和负样本的第二预测子结果之间的差异，以及正样本的第二预测子结果和负样本的第二预测子结果之间的差异，构建第三损失函数；

基于第一损失函数，第二损失函数，和第三损失函数进行加权求和，确定成对损失函数。

可选的，装置还包括：

预测单元1206，用于将待检测视频和待检测对象输入已训练的视频推荐模型；

基于已训练的视频推荐模型，分别对待检测视频和待检测对象进行特征提取，获得待检测视频对应的目标内容特征和目标交互特征，以及待检测对象对应的目标对象特征；

将待检测视频的目标内容特征和目标交互特征进行组合，获得相应的目标视频特征；

基于目标视频特征和目标对象特征进行推荐预测，获得相应的目标预测结果，目标预测结果用于表征将待检测视频，推荐给待检测对象的概率。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的视频推荐模型的训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为***、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图1所示的服务器120。在该实施例中，电子设备的结构可以如图13所示，包括存储器1301，通讯模块1303以及一个或多个处理器1302。

存储器1301，用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1301可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1301也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1301可以是上述存储器的组合。

处理器1302，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1302，用于调用存储器1301中存储的计算机程序时实现上述视频推荐模型的训练方法。

通讯模块1303用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1301、通讯模块1303和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1304连接，总线1304在图13中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1304可以分为地址总线、数据总线、控制总线等。为便于描述，图13中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1301中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的视频推荐模型的训练方法。处理器1302用于执行上述的视频推荐模型的训练方法，如图2所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图1所示的终端设备110。在该实施例中，电子设备的结构可以如图14所示，包括：通信组件1410、存储器1420、显示单元1430、摄像头1440、传感器1450、音频电路1460、蓝牙模块1470、处理器1480等部件。

通信组件1410用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1420可用于存储软件程序及数据。处理器1480通过运行存储在存储器1420的软件程序或数据，从而执行终端设备110的各种功能以及数据处理。存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1420存储有使得终端设备110能运行的操作***。本申请中存储器1420可以存储操作***及各种应用程序，还可以存储执行本申请实施例视频推荐模型的训练方法的计算机程序。

显示单元1430还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元1430可以包括设置在终端设备110正面的显示屏1432。其中，显示屏1432可以采用液晶显示器、发光二极管等形式来配置。显示单元1430可以用于显示本申请实施例中的视频推荐对象界面等。

显示单元1430还可用于接收输入的数字或字符信息，产生与终端设备110的用户设置以及功能控制有关的信号输入，具体地，显示单元1430可以包括设置在终端设备110正面的触控屏1431，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触控屏1431可以覆盖在显示屏1432之上，也可以将触控屏1431与显示屏1432集成而实现终端设备110的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1430可以显示应用程序以及对应的操作步骤。

摄像头1440可用于捕获静态图像，用户可以将摄像头1440拍摄的图像通过应用发布。摄像头1440可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1480转换成数字图像信号。

终端设备还可以包括至少一种传感器1450，比如加速度传感器1451、距离传感器1452、指纹传感器1453、温度传感器1454。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1460、扬声器1461、传声器1462可提供用户与终端设备110之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出。终端设备110还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出至通信组件1410以发送给比如另一终端设备110，或者将音频数据输出至存储器1420以便进一步处理。

蓝牙模块1470用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1470与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1480是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1420内的软件程序，以及调用存储在存储器1420内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1480可包括一个或多个处理单元；处理器1480还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1480中。本申请中处理器1480可以运行操作***、应用程序、用户界面显示及触控响应，以及本申请实施例的视频推荐模型的训练方法。另外，处理器1480与显示单元1430耦接。

在一些可能的实施方式中，本申请提供的视频推荐模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频推荐模型的训练方法中的步骤，例如，电子设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频推荐模型的训练方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，对于一个样本视频，若所述样本视频为非冷启动视频，则所述一个样本视频的第一交互特征是基于与相应样本对象的交互信息提取到的；若所述样本视频为冷启动视频，则所述一个样本视频的第一交互特征是基于对应的内容特征进行特征映射得到的。

3.如权利要求1所述的方法，其特征在于，所述分别基于所述各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果，包括：

4.如权利要求3所述的方法，其特征在于，所述基于各预测结果与对应样本标签之间的差异，以及所述各预测结果之间的差异，对所述视频推荐模型进行参数调整，包括：

5.如权利要求4所述的方法，其特征在于，在分别基于所述各训练样本各自对应的提取结果和第二交互特征进行推荐预测，获得相应的预测结果之前，还包括：

基于预配置的视频映射矩阵，分别对各训练样本对应的第一视频特征和第二视频特征进行映射；

则所述基于所述元损失函数和所述成对损失函数构建目标损失函数，包括：

6.如权利要求4所述的方法，其特征在于，训练样本集由包含不同样本对象的训练样本子集组成，每个训练样本子集中对应同一样本对象；

所述各训练样本是通过如下方式选取的：

所述将选取的各训练样本输入待训练的视频推荐模型，包括：

7.如权利要求6所述的方法，其特征在于，所述分别基于所述各训练样本对应的第二交互特征和对象特征进行推荐预测，获得相应的第三预测子结果，包括：

8.如权利要求6所述的方法，其特征在于，所述基于所述第三预测子结果与对应样本标签之间的差异，构建元损失函数，包括：

9.如权利要求6所述的方法，其特征在于，所述成对损失函数包括：所述主训练样本组和所述辅助训练样本组各自对应的成对损失函数；每个训练样本组包括：至少一个样本标签表征交互的正样本，和至少一个样本标签表征未交互的负样本；每个训练样本组对应的成对损失函数是通过如下方式构建的：

10.如权利要求9所述的方法，其特征在于，所述基于所述第一损失函数和所述第二损失函数，确定所述成对损失函数，包括：

11.如权利要求1～10任一项所述的方法，其特征在于，所述方法还包括：

将待检测视频和待检测对象输入已训练的视频推荐模型；

12.一种视频推荐模型的训练装置，其特征在于，包括：

13.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～11中任一所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1～11中任一所述方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行权利要求1～11中任一所述方法的步骤。