CN117909542A

CN117909542A - 一种视频推荐方法、装置、设备及存储介质

Info

Publication number: CN117909542A
Application number: CN202410074373.7A
Authority: CN
Inventors: 李鸣; 肖云; 曾泽基; 郁延书
Original assignee: Future Tv Co ltd
Current assignee: Future Tv Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-19

Abstract

本申请提供了一种视频推荐方法、装置、设备及存储介质，涉及数据处理技术领域。该方法通过获取目标用户的用户信息；采用预设双塔模型中的用户塔网络，对用户信息进行特征提取，得到目标用户的用户特征向量；采用预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量；采用预设双塔模型中的召回网络，计算用户特征向量和多个候选视频的内容特征向量的相似度，得到多个候选视频与目标用户的特征相似度；根据多个候选视频与目标用户的特征相似度，生成针对目标用户的推荐视频。从而，实现了冷门、长尾、上新视频被推荐，提高了视频推荐效率，提高了视频推荐精准度。

Description

一种视频推荐方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种视频推荐方法、装置、设备及存储介质。

背景技术

作为一个内容平台，互联网电视平台每天都会有大量的新的长视频内容上线。同时，长视频内容与短视频、新闻、商品推荐又有着显著的不同，长视频的生命周期跨度极长，通常会以年为单位，有些内容可能在沉寂几个月、几年之后爆发，经典内容甚至可能经过十几年仍然有着极强的生命力。因此，对于互联网电视平台的推荐***来说，发掘冷门、长尾的优质内容，并把它们推荐给合适的用户，相比其他类目的推荐显得更加重要。

冷门、长尾、上新的内容由于缺乏用户交互数据，对于主要依赖行为数据的推荐***来说，想要做到精准分发是非常困难的。业界普遍的做法是基于内容的推荐，如标签召回，更多的依赖内容的标签，根据用户对标签的喜好记录，进行召回。但是基于内容的推荐方法虽然可以利用代表先验信息的内容本身特征，无需行为数据，但是对用户行为兴趣感知不足，推荐不精准，且如果视频的标签缺失更是难以分发。

发明内容

本发明的目的在于，针对上述现有技术中的不足，本申请提供了一种视频推荐方法、装置、设备及存储介质，以解决现有技术中视频推荐不精准无法推荐冷门视频等问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种视频推荐方法，所述方法包括：

获取目标用户的用户信息；

采用预设双塔模型中的用户塔网络，对所述用户信息进行特征提取，得到所述目标用户的用户特征向量；

采用所述预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量；

采用所述预设双塔模型中的召回网络，计算所述用户特征向量和所述多个候选视频的内容特征向量的相似度，得到所述多个候选视频与所述目标用户的特征相似度；

根据所述多个候选视频与所述目标用户的特征相似度，生成针对所述目标用户的推荐视频。

可选地，所述采用所述预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量，包括：

采用所述内容塔网络，从预设存储区域中获取所述多个候选视频的内容特征向量。

可选地，所述采用所述内容塔网络，从预设存储区域中获取所述多个候选视频的内容特征向量之前，所述方法还包括：

采用所述内容塔网络，对所述多个候选视频进行多模态特征提取，得到所述多个候选视频的多模态特征向量，每个候选视频的内容特征向量为多模态特征向量；

将所述多个候选视频的多模态特征向量存储至所述预设存储区域。

可选地，所述采用所述内容塔网络，对所述多个候选视频进行多模态特征提取，得到所述多个候选视频的多模态特征向量，包括：

采用所述内容塔网络中的文本特征提取模块，对所述多个候选视频的文本内容进行特征提取，得到所述多个候选视频的文本特征向量；

采用所述内容塔网络中的图片特征提取模块，对所述多个候选视频的图片内容进行特征提取，得到所述多个候选视频的图片特征向量；

采用所述内容塔网络中的特征融合模块，对所述每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到所述每个候选视频的多模态特征向量。

可选地，所述采用所述内容塔网络中的特征融合模块，对所述每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到所述每个候选视频的多模态特征向量，包括：

采用所述内容塔网络中的特征融合模块，以多头交叉注意力机制对所述每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到所述每个候选视频的多模态特征向量。

可选地，所述用户塔网络采用如下方式训练得到：

获取样本视频，并根据样本用户针对所述样本视频的操作反馈信息确定所述样本用户针对所述样本视频的真实偏好概率；

根据所述样本用户的用户信息，采用初始用户塔网络，生成所述样本用户的用户特征向量；

根据所述样本用户的用户特征向量以及样本视频的内容特征向量，确定所述样本用户针对所述样本视频的预测偏好概率；

根据所述样本用户的针对所述样本视频的预测偏好概率以及真实偏好概率，计算用户塔网络的损失函数；

根据所述用户塔网络的损失函数，调整所述初始用户塔网络，得到目标用户塔网络。

可选地，所述根据所述样本用户的用户特征向量以及样本视频的内容特征向量，确定所述样本用户针对所述样本视频的预测偏好概率，包括：

根据所述样本用户的用户特征向量以及样本视频的内容特征向量，计算所述用户特征向量与所述内容特征向量的相似度；

根据所述用户特征向量与所述内容特征向量的相似度，确定所述样本用户针对所述样本视频的预测偏好概率。

第二方面，本申请实施例提供一种视频推荐装置，所述装置包括：

第一获取模块，用于获取目标用户的用户信息；

提取模块，用于采用预设双塔模型中的用户塔网络，对所述用户信息进行特征提取，得到所述目标用户的用户特征向量；

第二获取模块，用于采用所述预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量；

计算模块，用于采用所述预设双塔模型中的召回网络，计算所述用户特征向量和所述多个候选视频的内容特征向量的相似度，得到所述多个候选视频与所述目标用户的特征相似度；

生成模块，用于根据所述多个候选视频与所述目标用户的特征相似度，生成针对所述目标用户的推荐视频。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储介质，所述处理器与所述存储介质之间通过总线通信连接，所述存储介质存储有所述处理器可执行的程序指令，所述处理器调用存储介质中存储的程序，以执行如第一方面任一所述的视频推荐方法的步骤。

第四方面，本申请实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一所述的视频推荐方法的步骤。

相对于现有技术而言，本申请具有以下有益效果：

本申请提供了一种视频推荐方法、装置、设备及存储介质。该方法通过获取目标用户的用户信息；采用预设双塔模型中的用户塔网络，对用户信息进行特征提取，得到目标用户的用户特征向量；采用预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量；采用预设双塔模型中的召回网络，计算用户特征向量和多个候选视频的内容特征向量的相似度，得到多个候选视频与目标用户的特征相似度；根据多个候选视频与目标用户的特征相似度，生成针对目标用户的推荐视频。从而，通过特征向量的形式表示目标用户的兴趣特征、候选视频的内容特征，进而通过特征向量的相似度生成推荐视频，即使用户从未与候选视频有过交互，该候选视频也有可能被推荐至目标用户，使得视频推荐更符合用户兴趣，实现了冷门、长尾、上新视频被推荐，提高了视频推荐效率，提高了视频推荐精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请提供的一种视频推荐方法的流程示意图；

图2为本申请实施例提供的一种预先生成存储内容特征向量的方法的流程示意图；

图3为本申请实施例提供的一种生成多模态特征向量的方法的流程示意图；

图4为本申请实施例提供的一种用户塔网络的训练方法的流程示意图；

图5为本申请实施例提供的一种确定样本用户针对样本视频的预测偏好概率的方法的流程示意图；

图6为本申请实施例提供的一种视频推荐装置的示意图；

图7为本申请实施例提供的一种电子设备的示意图。

图标：601-第一获取模块、602-提取模块、603-第二获取模块、604-计算模块、605-生成模块、701-处理器、702-存储介质。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：类似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

如下通过具体示例对本申请提供的一种视频推荐方法进行解释说明。图1为本申请提供的一种视频推荐方法的流程示意图，该方法的执行主体是电子设备，该电子设备具有计算处理功能。如图1所示，该方法包括：

S101、获取目标用户的用户信息。

为了精准地为目标用户推荐视频，需要获取目标用户的用户信息，以使得所推荐的视频更符合用户的偏好。

其中，目标用户的用户信息包括但不限于以下几种：用户身份信息，用户历史观看历史、用户的设备号、用户的地域和用户兴趣偏好信息。

S102、采用预设双塔模型中的用户塔网络，对用户信息进行特征提取，得到目标用户的用户特征向量。

示例地，预设双塔模型为DSSM双塔模型。

将用户身份信息，用户历史观看历史、用户的设备号、用户的地域和用户兴趣偏好信息等数据输入至用户塔网络。各特征分别经过Embedding映射之后再进行拼接，拼接后的向量经过3层全连接层(每层全连接层的激活函数为Relu，3层神经元的个数分别是512、128、64)，最终得到用户特征向量(64维)。

S103、采用预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量。

多个候选视频是指待推荐的所有视频，每个视频都有可能被推荐。候选视频包括目标用户经常点击播放的视频，也包括目标用户长期未点击的冷门视频。而随着目标用户的观看兴趣改变，长期未点击的冷门视频也有可能符合目标用户的观看兴趣，进而在本申请实施例中被推荐至目标用户。

S104、采用预设双塔模型中的召回网络，计算用户特征向量和多个候选视频的内容特征向量的相似度，得到多个候选视频与目标用户的特征相似度。

示例地，计算用户特征向量和内容特征向量的相似度时可以采用余弦相似度计算方式，也可以用欧几里得距离、皮尔逊相关系数、曼哈顿距离等表征相似度。

S105、根据多个候选视频与目标用户的特征相似度，生成针对目标用户的推荐视频。

示例地，根据多个候选视频与目标用户的特征相似度降序对多个候选视频进行排序，得到针对目标用户的推荐视频列表。进一步地，可以将推荐视频列表中的前预设数量的视频作为针对目标用户的推荐视频。

从而，通过特征向量的形式表示目标用户的兴趣特征、候选视频的内容特征，并通过预先训练的双塔模型的用户塔网络得到目标用户的兴趣特征，进而通过特征向量的相似度生成推荐视频，即使用户从未与候选视频有过交互，该候选视频也有可能被推荐至目标用户，充分利用视频内容的信息和用户行为数据，对新视频内容进行特征提取和表示，从而在一定程度上解决冷启动问题，且这种模态信息的融合可以更加全面地理解用户的需求和兴趣，缓解用户行为稀疏问题，使得视频推荐更符合用户兴趣，实现了冷门、长尾、上新视频被推荐，提高了视频推荐效率，提高了视频推荐精准度。

综上，在本实施中，获取目标用户的用户信息；采用预设双塔模型中的用户塔网络，对用户信息进行特征提取，得到目标用户的用户特征向量；采用预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量；采用预设双塔模型中的召回网络，计算用户特征向量和多个候选视频的内容特征向量的相似度，得到多个候选视频与目标用户的特征相似度；根据多个候选视频与目标用户的特征相似度，生成针对目标用户的推荐视频。从而，通过特征向量的形式表示目标用户的兴趣特征、候选视频的内容特征，进而通过特征向量的相似度生成推荐视频，即使用户从未与候选视频有过交互，该候选视频也有可能被推荐至目标用户，使得视频推荐更符合用户兴趣，实现了冷门、长尾、上新视频被推荐，提高了视频推荐效率，提高了视频推荐精准度。

在上述图1对应的实施例的基础上，在本申请另一实施例中，在S103中的采用预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量，包括：

采用内容塔网络，从预设存储区域中获取多个候选视频的内容特征向量。

为了提高视频推荐效率，预设存储区域中预先存储有多个候选视频的内容特征向量。

在使用候选视频的内容特征向量时，可直接在预设存储区域中获取。

综上，在本实施中，采用内容塔网络，从预设存储区域中获取多个候选视频的内容特征向量。从而，提高了视频推荐效率。

在上述实施例的基础上，本申请实施例还提供了一种预先生成存储内容特征向量的方法。图2为本申请实施例提供的一种预先生成存储内容特征向量的方法的流程示意图。如图2所述，采用内容塔网络，从预设存储区域中获取多个候选视频的内容特征向量之前，方法还包括：

S201、采用内容塔网络，对多个候选视频进行多模态特征提取，得到多个候选视频的多模态特征向量，每个候选视频的内容特征向量为多模态特征向量。

通过内容塔网络对多个候选视频进行多模态特征提取，使得视频多个模态的特征都被提取，最终得到的多模态特征向量能更加精准地表征候选视频的特征。

示例地，内容塔网络为CLIP模型，基于CLIP预训练模型作为特征提取器对视频的多模态信息分别进行特征提取，学习到不同模态数据的特征表示，将图像和文本表征分别映射到一个共享的特征空间中。跨模态内容理解技术同时利用多种不同的模态数据输入，聚合多源数据的信息，从多个角度对内容进行理解和分析，从而更加全面地理解内容，使得模型学习的表示更加完备，提高下游推荐任务的准确性。

S202、将多个候选视频的多模态特征向量存储至预设存储区域。

综上，在本实施中，采用内容塔网络，对多个候选视频进行多模态特征提取，得到多个候选视频的多模态特征向量，每个候选视频的内容特征向量为多模态特征向量；将多个候选视频的多模态特征向量存储至预设存储区域。从而，更加精准地表征了视频内容。

在上述图2对应的实施例的基础上，本申请实施例还提供了一种生成多模态特征向量的方法。图3为本申请实施例提供的一种生成多模态特征向量的方法的流程示意图。如图3所述，S201中的采用内容塔网络，对多个候选视频进行多模态特征提取，得到多个候选视频的多模态特征向量，包括：

S301、采用内容塔网络中的文本特征提取模块，对多个候选视频的文本内容进行特征提取，得到多个候选视频的文本特征向量。

示例地，文本内容包括：视频标题、视频描述、视频标签等文本信息。文本特征提取模块为Transformer模型。经过Transformer模型对文本内容进行特征提取，文本特征向量的维度为768维。

S302、采用内容塔网络中的图片特征提取模块，对多个候选视频的图片内容进行特征提取，得到多个候选视频的图片特征向量。

示例地，图片内容为视频海报图片。图片特征提取模块为ViT模型。经过ViT模型对图片内容进行特征提取，图片特征向量的维度为768维。

S303、采用内容塔网络中的特征融合模块，对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量。

文本特征向量和图片特征向量为不同模态的特征，通过多模态特征融合，得到每个候选视频的多模态特征向量。多模态特征向量从多个内容上表征了视频内容更多层面的信息，更加精准地表征了视频内容。其中，多模态特征向量的维度为64维。

综上，在本实施中，采用内容塔网络中的文本特征提取模块，对多个候选视频的文本内容进行特征提取，得到多个候选视频的文本特征向量；采用内容塔网络中的图片特征提取模块，对多个候选视频的图片内容进行特征提取，得到多个候选视频的图片特征向量；采用内容塔网络中的特征融合模块，对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量。从而，更加精准地表征了视频内容。

在上述图3对应的实施例的基础上，在本申请另一实施例中，在S303中的采用内容塔网络中的特征融合模块，对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量，包括：

采用内容塔网络中的特征融合模块，以多头交叉注意力机制(Multi-Head CrossAttention)对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量。

在cross-attention中使用multi-head的设计，使得模型从不同表示空间上获取关于视频内容更多层面的信息，提高模型的特征表达能力。具体的融合如下步骤所示：

(1)、多头处理：首先，将输入的Q、K和V分别通过不同的线性层进行变换，得到8个head的Q、K和V。每个head都有对应的权重，用于捕捉不同的特征。

(2)、交叉注意力：对于每一个head，计算Q和K的点积，然后应用softmax函数得到attention权重。接着，使用这些权重对V进行加权求和，得到该头的输出特征向量。使得输出的特征向量包含了Q、K和V的特征。

(3)、合并输出：将所有头的输出特征向量进行拼接，并通过一个线性层得到最终的输出特征向量，即多模态特征向量。

其中，Q为图片特征向量，K和V为文本特征向量。

综上，在本实施中，采用内容塔网络中的特征融合模块，以多头交叉注意力机制对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量。从而，更加精准地表征了视频内容。

在上述图1对应的实施例的基础上，本申请实施例还提供了一种用户塔网络的训练方法。图4为本申请实施例提供的一种用户塔网络的训练方法的流程示意图。如图4所述，用户塔网络采用如下方式训练得到：

S401、获取样本视频，并根据样本用户针对样本视频的操作反馈信息确定样本用户针对样本视频的真实偏好概率。

在训练模型时，将多个视频随机作为样本视频。若样本用户点击样本视频的次数越多，则样本视频的真实偏好概率越高；若样本用户点击样本视频的次数越少，则样本视频的真实偏好概率越低。

示例地，将曝光且点击的视频作为正样本视频，将曝光未点击的视频作为负样本视频。将正样本视频的真实偏好概率确定为1，将负样本视频的真实偏好概率确定为0。

示例地，根据样本用户针对样本视频的点击次数计算样本用户针对样本视频的真实偏好概率。具体地，以每个样本视频的点击次数为分子，以最大的点击次数为分母，计算得到样本用户针对样本视频的真实偏好概率。

S402、根据样本用户的用户信息，采用初始用户塔网络，生成样本用户的用户特征向量。

其中，样本用户的用户信息包括但不限于以下几种：用户身份信息，用户历史观看历史、用户的设备号、用户的地域和用户兴趣偏好信息。用户塔网络为DSSM双塔模型的用户塔网络。

将用户身份信息，用户历史观看历史、用户的设备号、用户的地域和用户兴趣偏好信息等数据输入至初始用户塔网络。各特征分别经过Embedding映射之后再进行拼接，拼接后的向量经过3层全连接层(每层全连接层的激活函数为Relu，3层神经元的个数分别是512、128、64)，最终得到用户特征向量(64维)。

S403、根据样本用户的用户特征向量以及样本视频的内容特征向量，确定样本用户针对样本视频的预测偏好概率。

用户特征向量与内容特征向量越接近，则样本用户针对样本视频的预测偏好概率越高；用户特征向量与内容特征向量差别越大，则样本用户针对样本视频的预测偏好概率越低。

S404、根据样本用户的针对样本视频的预测偏好概率以及真实偏好概率，计算用户塔网络的损失函数。

用户塔网络的损失函数的目的是使得预测偏好概率近似于真实偏好概率。

具体地，用户塔网络的损失函数如下公式(1)所示：

其中，y表示真实偏好概率，表示预测偏好概率。

S405、根据用户塔网络的损失函数，调整初始用户塔网络，得到目标用户塔网络。

示例地，使用Adam优化器来调整初始用户塔网络的参数，以最小化损失函数。例如，若用户塔网络的损失函数值小于或等于预设阈值，则将本轮的用户塔网络作为目标用户塔网络。

综上，在本实施中，获取样本视频，并根据样本用户针对样本视频的操作反馈信息确定样本用户针对样本视频的真实偏好概率；根据样本用户的用户信息，采用初始用户塔网络，生成样本用户的用户特征向量；根据样本用户的用户特征向量以及样本视频的内容特征向量，确定样本用户针对样本视频的预测偏好概率；根据样本用户的针对样本视频的预测偏好概率以及真实偏好概率，计算用户塔网络的损失函数；根据用户塔网络的损失函数，调整初始用户塔网络，得到目标用户塔网络。从而，通过预测偏好概率以及真实偏好概率，精准地训练得到目标用户塔网络。

在上述图4对应的实施例的基础上，本申请实施例还提供了一种确定样本用户针对样本视频的预测偏好概率的方法。图5为本申请实施例提供的一种确定样本用户针对样本视频的预测偏好概率的方法的流程示意图。如图5所述，在S403中的根据样本用户的用户特征向量以及样本视频的内容特征向量，确定样本用户针对样本视频的预测偏好概率，包括：

S501、根据样本用户的用户特征向量以及样本视频的内容特征向量，计算用户特征向量与内容特征向量的相似度。

示例地，计算用户特征向量和内容特征向量的相似度时可以采用余弦相似度计算方式。

S502、根据用户特征向量与内容特征向量的相似度，确定样本用户针对样本视频的预测偏好概率。

将用户特征向量与内容特征向量的相似度经Sigmoid激活函数进行归一化之后，将结果映射到(0,1)的区间，得到样本用户针对样本视频的预测偏好概率。

综上，在本实施中，根据样本用户的用户特征向量以及样本视频的内容特征向量，计算用户特征向量与内容特征向量的相似度；根据用户特征向量与内容特征向量的相似度，确定样本用户针对样本视频的预测偏好概率。从而，精准地得到预测偏好概率。

下述对用以执行的本申请所提供的一种视频推荐装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图6为本申请实施例提供的一种视频推荐装置的示意图，如图6所示，该装置包括：

第一获取模块601，用于获取目标用户的用户信息。

提取模块602，用于采用预设双塔模型中的用户塔网络，对用户信息进行特征提取，得到目标用户的用户特征向量。

第二获取模块603，用于采用预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量。

计算模块604，用于采用预设双塔模型中的召回网络，计算用户特征向量和多个候选视频的内容特征向量的相似度，得到多个候选视频与目标用户的特征相似度。

生成模块605，用于根据多个候选视频与目标用户的特征相似度，生成针对目标用户的推荐视频。

进一步地，第二获取模块603，具体用于采用内容塔网络，从预设存储区域中获取多个候选视频的内容特征向量。

进一步地，第二获取模块603，具体还用于采用内容塔网络，对多个候选视频进行多模态特征提取，得到多个候选视频的多模态特征向量，每个候选视频的内容特征向量为多模态特征向量；将多个候选视频的多模态特征向量存储至预设存储区域。

进一步地，第二获取模块603，具体还用于采用内容塔网络中的文本特征提取模块，对多个候选视频的文本内容进行特征提取，得到多个候选视频的文本特征向量；采用内容塔网络中的图片特征提取模块，对多个候选视频的图片内容进行特征提取，得到多个候选视频的图片特征向量；采用内容塔网络中的特征融合模块，对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量。

进一步地，第二获取模块603，具体还用于采用内容塔网络中的特征融合模块，以多头交叉注意力机制对每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到每个候选视频的多模态特征向量。

进一步地，第一获取模块601，还用于获取样本视频，并根据样本用户针对样本视频的操作反馈信息确定样本用户针对样本视频的真实偏好概率。

进一步地，提取模块602，还用于根据样本用户的用户信息，采用初始用户塔网络，生成样本用户的用户特征向量。

进一步地，计算模块604，还用于根据样本用户的用户特征向量以及样本视频的内容特征向量，确定样本用户针对样本视频的预测偏好概率。

进一步地，计算模块604，还用于根据样本用户的针对样本视频的预测偏好概率以及真实偏好概率，计算用户塔网络的损失函数。

进一步地，生成模块605，还用于根据用户塔网络的损失函数，调整初始用户塔网络，得到目标用户塔网络。

进一步地，计算模块604，具体还用于根据样本用户的用户特征向量以及样本视频的内容特征向量，计算用户特征向量与内容特征向量的相似度；

根据用户特征向量与内容特征向量的相似度，确定样本用户针对样本视频的预测偏好概率。

图7为本申请实施例提供的一种电子设备的示意图，该电子设备可以是具备计算处理功能的设备。

该电子设备包括：处理器701、存储介质702。处理器701和存储介质702通过总线连接。

存储介质702用于存储程序，处理器701调用存储介质702存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种视频推荐方法，其特征在于，所述方法包括：

获取目标用户的用户信息；

2.根据权利要求1所述的方法，其特征在于，所述采用所述预设双塔模型中的内容塔网络，获取多个候选视频的内容特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用所述内容塔网络，从预设存储区域中获取所述多个候选视频的内容特征向量之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述内容塔网络，对所述多个候选视频进行多模态特征提取，得到所述多个候选视频的多模态特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述采用所述内容塔网络中的特征融合模块，对所述每个候选视频的文本特征向量和图片特征向量进行多模态特征融合，得到所述每个候选视频的多模态特征向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述用户塔网络采用如下方法训练得到：

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本用户的用户特征向量以及样本视频的内容特征向量，确定所述样本用户针对所述样本视频的预测偏好概率，包括：

8.一种视频推荐装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标用户的用户信息；

9.一种电子设备，其特征在于，包括：处理器、存储介质，所述处理器与所述存储介质之间通过总线通信连接，所述存储介质存储有所述处理器可执行的程序指令，所述处理器调用存储介质中存储的程序，以执行如权利要求1至7任一所述的视频推荐方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的视频推荐方法的步骤。