CN110781321B

CN110781321B - 一种多媒体内容推荐方法及装置

Info

Publication number: CN110781321B
Application number: CN201910804665.0A
Authority: CN
Inventors: 刘鹏; 张伸正; 吴敬桐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-06-20
Anticipated expiration: 2039-08-28
Also published as: CN110781321A

Abstract

本申请提供一种多媒体内容推荐方法及装置，涉及机器学习技术领域。该方法包括：根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量，所述实时兴趣向量中的各个分量用于表示所述设定时间段内所述用户对多媒体内容的偏好程度；获得用户的用户特征向量；获得待推荐多媒体内容组成的第二多媒体内容集合中，各个待推荐多媒体内容的多媒体内容特征向量；通过已训练的多媒体内容推荐模型，确定所述用户特征向量和各个待推荐多媒体内容的多媒体内容特征向量的匹配度；推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容。

Description

一种多媒体内容推荐方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种多媒体内容推荐方法及装置。

背景技术

短视频播放应用为了满足用户的需求，会自动为用户推荐一些短视频。

目前推荐短视频的方式为：通过用户观看过的大量短视频的短视频标签，向用户推荐与这些短视频标签相似度较高的短视频。但是短视频标签通常是手动标注的，导致根据短视频标签确定出的推荐的短视频与用户的需求匹配程度不高，为用户推荐的短视频准确性低。其他多媒体内容的推荐也存在同样的问题。

发明内容

本申请实施例提供一种多媒体内容推荐方法及装置，用于提高推荐的多媒体内容的准确性。

第一方面，提供一种多媒体内容推荐方法，包括：

根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量，所述实时兴趣向量中的各个分量用于表示所述设定时间段内所述用户对多媒体内容的偏好程度；

获得用户的用户特征向量，所述用户特征向量包括所述实时兴趣向量和用户属性向量；

获得待推荐多媒体内容组成的第二多媒体内容集合中，各个待推荐多媒体内容的多媒体内容特征向量；

通过已训练的多媒体内容推荐模型，确定所述用户特征向量和各个待推荐多媒体内容的多媒体内容特征向量的匹配度；其中，所述多媒体内容推荐模型是根据多媒体内容训练样本集训练得到的；

推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容。

第二方面，提供一种多媒体内容推荐装置，包括：

获得模块，根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量，所述实时兴趣向量中的各个分量用于表示所述设定时间段内所述用户对多媒体内容的偏好程度；以及获得用户的用户特征向量，所述用户特征向量包括所述实时兴趣向量和用户属性向量，以及获得待推荐多媒体内容组成的第二多媒体内容集合中，各个待推荐多媒体内容的多媒体内容特征向量；

确定模块，用于通过已训练的多媒体内容推荐模型，确定所述用户特征向量和各个待推荐多媒体内容的多媒体内容特征向量的匹配度；其中，所述多媒体内容推荐模型是根据多媒体内容训练样本集训练得到的；

推荐模块，用于推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容。

在一种可能的实施方式中，所述获得模块具体用于：

对所述第一多媒体内容集合进行嵌入embedding学习，获得所述第一多媒体内容集合中每个多媒体内容的嵌入向量；

按照用户操作所述第一多媒体内容集合中各个多媒体内容的先后顺序，对根据所述第一多媒体内容集合中每个多媒体内容的嵌入向量与该多媒体内容的前一个多媒体内容的多媒体内容兴趣向量的相似度，以及该多媒体内容的播放完成度进行加权，获得该多媒体内容的多媒体内容兴趣向量，直到获得所述第一多媒体内容集合中最后一个多媒体内容的多媒体内容兴趣向量；

对在所述第一多媒体内容集合中每个多媒体内容的多媒体内容兴趣向量进行加权，获得用户的实时兴趣向量。

在一种可能的实施方式中，所述第一多媒体内容集合中每个多媒体内容离当前时间越近，该多媒体内容的多媒体内容兴趣向量的权重越大。

在一种可能的实施方式中，所述当前时间之前的设定时间段内操作过的第一多媒体内容集合，包括用户本次登录多媒体播放应用时间起到当前时间内操作过的各个多媒体内容。

在一种可能的实施方式中，所述装置还包括训练模块，所述训练模块具体用于：

获取多媒体内容训练样本集；其中，所述多媒体内容训练样本集中每个多媒体内容训练样本包括样本用户特征向量和曝光多媒体内容集合中各个多媒体内容特征向量，所述样本用户特征向量包括用户针对曝光多媒体内容集合的用户的实时兴趣向量、所述曝光多媒体内容集合中各个多媒体内容特的点击标签的取值，以及所述用户针对所述曝光多媒体内容集合中每个曝光多媒体内容的偏好权重；

根据所述多媒体内容训练样本集训练多媒体内容推荐模型，直到预设损失函数收敛，获得已训练的多媒体内容推荐模型。

在一种可能的实施方式中，所述预设损失函数是对交叉熵损失函数与正则化项进行加权得到的，所述交叉熵损失函数对应的权重为所述用户针对所述曝光多媒体内容集合中每个曝光多媒体内容的偏好权重。

在一种可能的实施方式中，所述用户针对每个多媒体内容的偏好权重是对针对该多媒体内容的多类互动标签的取值进行加权得到的。

第三方面，提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面及可能的实施方式中任一项所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及可能的实施方式中任一项所述的方法。

本申请实施例中，通过学习用于在设定时间段内操作过的多媒体内容，获得用户的实时兴趣向量，以及根据待推荐多媒体内容，确定各个多媒体内容的特征向量，基于用户特征向量和多媒体内容特征向量，确定用户和各个多媒体内容的匹配度，相较于现有技术仅根据多媒体内容标签确定推荐多媒体内容的方式，本申请实施例中考虑了用户的实时兴趣向量和多媒体内容特征向量，用户的实时兴趣向量会随着用户操作过的多媒体内容的过程不断发生变化，因此筛选出的多媒体内容更加符合用户的喜好变化，因此可以提高确定推荐多媒体内容的准确性，无需用户自己从海量多媒体内容中寻找自己喜欢的，相对能够提升用户查看多媒体内容的体验。

附图说明

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的图1所示的场景中各个设备的结构示意图；

图3为本申请实施例提供的服务器为用户推荐短视频的过程示意图；

图4为本申请实施例提供的推荐短视频方法的流程图；

图5为本申请实施例提供的一种用户进行拉取短视频操作的一种示意图；

图6为本申请实施例提供的一种获得用户的实时兴趣向量方法的流程图；

图7为本申请实施例提供的各个短视频的实时兴趣向量的权重分布示意图；

图8为本申请实施例提供的一种训练短视频推荐模型的过程示意图；

图9为本申请实施例提供的一种确定用户和短视频的匹配度的示例图；

图10为本申请实施例提供的一种多媒体内容推荐装置的结构示意图；

图11为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请中的技术方案，下面对本申请涉及的专业名词进行解释。

多媒体内容：是指包括短视频、音乐等可以在多媒体播放应用或者网页上播放的内容。

多媒体播放应用：是指能够提供多媒体播放的应用，例如一些新闻APP、视频播放APP、直播APP、音乐播放APP等。用户通常可以登陆多媒体播放应用并打开对其中的多媒体内容进行点击、分享、评论等操作。

短视频播放应用：多媒体播放应用的一种，短视频播放应用是指能够提供短视频播放的应用，例如一些新闻APP、视频播放APP，或者直播APP等。用户通常可以登陆短视频播放应用并打开对其中的短视频进行点击、分享、评论等操作。

用户本次登录多媒体播放应用时间起到当前时间内操作过的各个多媒体内容：可以理解为用户在当前一次连续访问过程中点击过的多媒体内容的多媒体内容所对应的信息，例如多媒体应用为新闻APP，用户本次登录多媒体播放应用时间起到当前时间内操作过的各个多媒体内容可以理解为用户打开新闻APP，从用户打开新闻APP开始到当前时间内操作过新闻APP的过程中所操作过的多媒体内容。

播放完成度：用于表示用户对一个多媒体内容的播放完成的情况，可以是以用户的播放时长除以多媒体内容的总时长来表示。如果用户连续多次播放该多媒体，那么该多媒体内容的总时长可以理解为单个该多媒体内容的播放总时长乘以播放次数，用户的播放时长为用户连续多次播放的累计时长。以短视频为例，播放完成度可以用户播放该短视频的时长除以该短视频的总时长来表示。

曝光多媒体内容集合：是指为在预设时间段内为用户推荐的所有多媒体内容，曝光多媒体内容集合中的多媒体内容包括推荐之后用户已经操作过的多媒体内容，和推荐之后用户没有操作过的多媒体内容。预设时间段可以根据实际需求设定。多媒体内容以短视频为例，曝光短视频集合可以理解为预设时间段内容为用户推荐的所有短视频。

操作行为：是指用户针对多媒体内容进行的操作，例如用户点击短视频、分享短视频、转发短视频等。

互动标签：是用户表示用户针对多媒体内容进行的具体操作行为类型的标签，一般是在用户针对多媒体内容进行操作行为之后产生的。互动标签包括很多类标签，例如包括用于表示用户是否点击该多媒体内容的点击标签，播放该多媒体内容的时长标签，用于表示用户是否分享该多媒体内容的分享标签，以及用于表示用户是否评论该多媒体内容的评论标签。

偏好权重：对用户针对每个多媒体内容对应的互动标签的取值进行加权得到的。互动标签的取值可以理解为量化用户针对多媒体内容的操作行为的结果，在某种程度上，可以体现用户与多媒体内容的互动程度。

点击通过率(Click-Through-Rate，CTR)：用于评价推荐多媒体内容的准确率的一项指标，是指用户的点击推荐多媒体内容的次数除以推荐多媒体内容的数量，CTR越高，表示推荐的准确率越高。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

多媒体内容推荐模型：根据多媒体内容训练样本集训练得到的多媒体内容推荐模型。多媒体内容训练样本集是根据用户之前的观看行为学习得到的。针对不同类型的多媒体内容，可以采用与该多媒体内容对应类别的多媒体内容训练样本训练得到多媒体内容推荐模型。

多媒体内容训练样本集：包括多个多媒体内容训练样本，每个多媒体内容训练样本包括样本用户特征向量和曝光多媒体内容频集合中各个多媒体内容特征向量，样本用户特征向量包括用户针对曝光多媒体内容集合的用户的实时兴趣向量、曝光多媒体内容集合中各个多媒体内容特的点击标签的取值，以及用户针对曝光多媒体内容集合中每个曝光多媒体内容的偏好权重。

基于深度网络的语义模型(Deep Structured Semantic Models，DSSM)：多媒体内容推荐模型的一种，包括输入层、表示层和输出层。根据用户特征向量和多媒体内容特征向量，确定用户和多媒体内容的匹配度。

多层感知机(MLP，Multilayer Perceptron)：又称人工神经网络(ArtificialNeural Network，ANN)，除了输入输出层，它中间可以有多个隐层，最简单的MLP只含一个隐层。MLP可以作为DSSN中的表示层部分。

基于内容的协同过滤(Item-based Collaborative Filtering，ICF)：多媒体内容推荐模型的一种策略，在推荐多媒体内容时，考虑多媒体内容的特征进行分析，为用户推荐与之前用户观看的多媒体内容相类似的多媒体内容。

基于用户的协同过滤(User-based Collaborative Filtering，UCF)：多媒体内容推荐模型的一种策略，在为该用户推荐时，确定与该用户兴趣相类似的用户，将相似用户观看的多媒体内容推荐给该用户。

用户特征向量：泛指与用户相关的特征分量所组成的特征向量，例如用户属性特征和用户的实时兴趣向量。用户属性特征用于表示用户自身一些可能影响视频推荐的信息，且相较于用户的实时兴趣向量更加稳定的信息，例如用户年龄、性别、用户画像等。用户画像根据用户之前的行为习惯得到的特征，例如用户长期喜欢的多媒体内容，包括短视频类目或者音乐类目等。

多媒体内容特征向量：多媒体内容特征向量包括用于表示基于多媒体内容学习到一些特征向量，例如通过学习多媒体内容类目、多媒体内容点击率、多媒体曝光率等获得的特征向量。

嵌入(embedding)学习，用于将输入数据转换成具有固定大小的向量。例如通过embedding学习算法对用户点击的短视频集合中每个短视频对进行训练，可以得到每个短视频对应的嵌入向量。

视频兴趣向量：根据用第一短视频集合的Embedding向量，采用某种指定计算方法得到的向量。例如视频兴趣向量可以基于该短视频和前一个短视频的短视频兴趣向量的相似度，以及该短视频的播放完成度进行加权得到的。第一短视频集合为第一多媒体内容集合的一种具体示例。

用户的实时兴趣向量：用于表示用户在设定时间段内对多媒体内容的偏好程度。例如用户针对短视频的实时兴趣向量，可以基于用户针对设定时间段内的各个短视频兴趣向量进行加权得到。

短视频特征向量：用于表示短视频本身的一些特征，例如短视频的短视频类目标签、短视频的曝光、播放次数和点击量等。

小批量梯度下降法(Mini-batch Gradient Descent，MBGD)：在每次训练时使用小批量的样本对参数进行更新，提高模型训练的速度和准确性。

下面以短视频为例，对本申请实施例的设计思想进行说明，本申请实施例的设计思想对于其他多媒体内容，也同样适用。

目前是基于大量用户已经观看过的短视频的短视频标签和已训练的短视频推荐模型，确定为用户推荐的短视频。

本申请发明人发现现有这种方式中短视频标签一般是提前手动标注的，短视频标签和短视频内容匹配度可能不高，这样一来，根据标注后的短视频标签为用户确定出的推荐的短视频可能与用户实际想要观看的内容匹配度不高，也就是说，推荐短视频的准确性较低。

鉴于此，本申请发明人设计一种短视频推荐方法，该方法通过将用户特征向量和各个短视频特征向量输入到已训练的短视频推荐模型中，获得用户和各个短视频之间的匹配度，再推荐多个匹配度满足预设条件的匹配度所对应的短视频。相较于现有技术直接利用短视频标签为用户推荐视频的方式，本申请实施例由于结合用户的实时兴趣向量以及短视频相关的信息进行推荐，用户的实时兴趣向量表示用户对短视频的偏好程度，因此能筛选出更加符合用户喜好的短视频，提高推荐短视频的准确性。

本申请发明人进一步考虑，在某些情况下，用户点击了某个短视频，但是用户可能是被短视频的名称等所吸引，但是对于短视频本身，用户并不感兴趣，因此，在确定用户针对每个短视频的实时兴趣向量时，本申请发明人不仅考虑了每个短视频本身的内容，还考虑了用户针对该短视频的操作行为数据，以及该短视频的内容与前一个短视频的实时兴趣向量相关度等。由于结合短视频与上一个短视频的实时兴趣向量的相关度，与短视频的操作行为数据，因此，可以获得相对更符合用户的偏好程度的用户的实时兴趣向量。

本申请发明人进一步考虑，在用户播放短视频的过程中，用户的实时兴趣向量会不断发生变化，因此用户在播放每个短视频之后，都有对应的视频兴趣向量。本身发明人发现如果将每个短视频对应的短视频兴趣向量输入到短视频推荐模型，容易造成维度灾难。因此，本申请发明人考虑可以先确定出用户针对每个短视频对应的短视频兴趣向量，对每个短视频的视频兴趣向量进行加权处理，获得用户的实时兴趣向量，这样一来，在获得用于表征用户偏好的用户的实时兴趣向量的同时，也可以避免短视频推荐模型的输入过多而造成维度灾难的情况。

本申请发明人进一步发现，用户随着时间的变化，对短视频的兴趣偏好可能会发生变化，在进行短视频推荐时，如果考虑用户当前的喜好，更能推荐出用户当前最需的短视频，因此，本申请发明人考虑在对每个视频兴趣向量进行加权的时候，可以将距离当前比较近的短视频所对应的视频兴趣向量的权重设置得更大，如此一来，可以使得加权得到的用户的实时兴趣向量更加满足用户当前的需求。

本申请发明人进一步考虑，用户在不同的阶段，针对短视频的兴趣偏好可能会发生变化，如果计算用户之前点击过的所有短视频的实时兴趣向量来计算用户的实时兴趣向量。一方面，参与计算的短视频较多，计算量较大；另一方面，参与计算的短视频越多，反而会忽略了用户当前的偏好，使得确定出的用户的实时兴趣向量反而无法表征出用户当前的偏好，因此，发明人进一步考虑可以将用户本次登录短视频播放应用时间起到当前时间内操作过的各个短视频作为第一视频集合，得到用户的实时兴趣向量，可以减少计算量，还能确定出更能表征用户当前喜好的用户的实时兴趣向量。

本申请发明人进一步考虑，在训练短视频推荐模型的时候，训练样本集不仅需要考虑到短视频特征向量、样本用户特征向量和点击标签，还可以考虑用户针对每个曝光短视频的偏好程度，可以进一步提高推荐短视频的准确性。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例中涉及的短视频推荐方法的应用场景进行说明。

请参照图1，该应用场景中包括终端设备110、安装在终端设备110中的客户端120、服务器130和数据库140。终端设备110例如手机、个人计算机等。客户端120可以理解为安装在终端设备110或嵌入在第三方应用中的软件模块，或者也可以是通过网页访问的网页版客户端，本申请实施例中的客户端120泛指用户可以观看多媒体内容的客户端120，例如新闻APP、直播APP等。服务器130可以是实体服务器，也可以是虚拟服务器。服务器130可以是单个服务器，也可以是服务器集群。数据库140可以是通过一个或多个存储设备实现，存储设备例如磁盘等。数据库140可以是独立存在的，也可以是服务器130中的一部分。图1中是以一个终端设备110为例，实际上不限制终端设备110的数量。

为方便理解，本申请定义了两个概念，第一短视频集合和第二短视频集合，其中，第一短视频集合是指用户操作过的所有短视频的短视频信息的集合。操作包括点击、评论、分享、点赞等。短视频信息用于表征短视频的特征，短视频信息例如短视频的唯一标识符、短视频总时长、用户是否评论过短视频、用户是否分享过短视频、用户是否点击过短视频、用户是否点赞过短视频、短视频标签和短视频类目等。第二短视频集合由待推荐的短视频组成，一般可以理解为用户没有观看过的短视频的短视频信息，但是也可以包括一些用户操作过的热门短视频。

具体的，短数据库140存储有大量的短视频，服务器130可以从短数据库140中获取用户没有观看过的第二短视频集合，服务器130用于从第二短视频集合确定为用户推荐的短视频，并将短视频发送给客户端120，以便于用户观看。当然，用户也可以通过访问网页浏览器，观看服务器130推荐的短视频。

服务器130为用户推荐短视频的过程主要包括三个部分：筛选出候选短视频、从候选短视频中筛选出精选短视频、以及将对精选短视频进行打散重排，获得为用户推荐的短视频。下面结合图2，对筛选出候选短视频的部分进行简要介绍。

用户在不断点击客户端120上的短视频的过程中，会生成该用户的日志，日志包括用户点击过的短视频的标识符、播放每个短视频的时长等信息，服务器130可以根据日志获得用户已经观看过的第一短视频集合，确定出用户的实时兴趣向量，并将用户的实时兴趣向量、用户画像等用户向量特征，以及短视频特征向量输入到短视频推荐模型中，短视频推荐模型从大量短视频中筛选出一些候选短视频。短视频推荐模型可以基于ICF和UCF策略等实现。

例如，服务器130在数据库140中筛选出1000-2000个与用户相关的短视频。

在筛选出候选的短视频之后，可以基于用户的日志训练短视频精推荐模型，并根据用户的实时兴趣向量等输入到短视频精推荐模型中，得到为用户精选的短视频，并可以计算服务器130所对应的CTR。

例如，1000-2000个与用户相关的短视频从候选短视频中筛选出10-20条精选短视频。

在获得为用户精选的短视频之后。再将精选出的短视频重排打散，显示在客户端120中。

图2是对服务器130确定推荐短视频进行示例说明，在一种可能的实施例中，服务器130可能不需执行从候选短视频中筛选出精选短视频和将精选短视频重新打散重排的过程。

图2中是以多媒体内容为短视频为例进行说明，但是实际上针对其它类型的多媒体内容同样适用，当针对其它种类的多媒体内容时，服务器130的处理过程相同，只是数据库140中存储的是该种多媒体内容所对应的内容。例如多媒体内容为音乐，那么数据库140中存储为大量的音乐。

在介绍完本申请实施例中的应用场景中各个设备的功能之后，下面介绍对各个设备的结构。

服务器130包括处理器321、存储器322和接口323。存储器322存储有程序指令，处理器321在执行存储器322中的程序指令时，实现前文论述的服务器130的功能，从数据库140中获得大量短视频，经过处理之后，获得为用户推荐的短视频，可以通过接口323将短视频发送给终端设备110中的客户端120。

终端设备110包括处理器311、存储器312、接口313和显示面板314。存储器312中存储有程序指令，处理器311执行程序指令时，实现前文论述的终端设备110的功能，终端设备110通过接口313与服务器130之间进行通信。终端设备110在接收推荐的短视频之后，通过显示面板314显示相应的短视频。

在介绍完本申请实施例涉及的各个设备之后，下面对本申请实施例中涉及的短视频推荐方法进行介绍。本申请实施例中的短视频推荐过程可以应用于前文论述服务器130筛选候选短视频的过程中。

请参照图4，该短视频推荐方法具体流程如下：

S410，根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量。

具体的，用户通过客户端120观看短视频的过程中，在播放完某个短视频之后，或者用户可能对当前短视频显示界面上的短视频并不感兴趣时，用户可以进行拉取短视频的操作，以请求更新当前界面所显示的短视频。拉取短视频的操作例如用户滑动短视频显示界面，或者用户拉动下滑框等。例如，请参照图5，图5为一种短视频显示界面的示意图，用户可以滑动短视频显示界面，也就相当于用户进行了滑动短视频的操作。

客户端120在接收用户的拉取短视频的操作之后，可以结合用户的标识信息，生成短视频拉取请求，并将短视频拉取请求发送给服务器130。服务器130在接收到短视频拉取请求之后，根据短视频拉取请求中用户的标识信息，获取用户的日志，根据用户的日志获取用户之前操作过的第一短视频集合。同样的，服务器130可以根据用户的日志，获得用户在设定时间段内的操作行为，例如用户在设定时间段内点击过的短视频，设定时间段内容分享过的短视频等。

S420，获得用户的用户特征向量，用户特征向量包括实时兴趣向量和用户属性向量。

具体的，服务器130在获取第一短视频集合之后，服务器130可以对第一短视频集合进行embedding学习得到各个短视频的嵌入向量，基于各个短视频的嵌入向量以及用户在设定时间段内的操作行为，得到用户的实时兴趣向量。服务器130可以对用户基本信息进行嵌入学习等，得到用户属性向量，用户属性向量可能相对较为固定，因此，可以提前学习到，在使用时直接获取该用户属性向量，从而服务器130获得用户特征向量。

用户特征向量中可能涉及一些连续特征和稀疏特征，连续特征例如用户年龄，稀疏特征例如短视频标签、短视频类目等。针对连续特征可以直接输入，也可以经过嵌入学习；针对稀疏特征，可以经过嵌入学习之后，再作为输入。

S430，获得待推荐短视频组成的第二短视频集合中，各个待推荐短视频的短视频特征向量。

具体的，服务器130可以从数据库140中获得第二视频集合，服务器130对第二短视频集合进行embedding学习得到第二短视频集合中各个短视频特征向量。获取各个短视频特征向量。作为一种实施例，短视频特征向量可以周期性进行更新计算，不需要进行实时计算。例如，每个小时计算更新一次。

应当说明的是，S430和S420的执行顺序可以是任意的，本文不做具体限制。

S440，通过已训练的短视频推荐模型，确定用户特征向量和第二短视频集合中各个短视频特征向量的匹配度。

具体的，服务器130在获得用户特征向量和各个短视频特征向量之后，将用户特征向量和各个短视频特征向量输入至已经训练好的短视频推荐模型，各个短视频特征向量可以以矩阵形式输入到短视频推荐模型中。通过短视频推荐模型确定出用户和第二短视频集合中各个短视频的匹配度，从而获得多个匹配度。

S450，推荐第二短视频集合中，匹配度满足预设条件的短视频。

具体的，服务器130在获得多个匹配度之后，服务器130可以从多个匹配度中确定满足预设条件的匹配度，并将满足预设条件的匹配度所对应的短视频确定为推荐的视频。预设条件例如满足大于或等于预设匹配度。

本申请实施例中，在确定推荐的短视频时，考虑了用户的实时兴趣向量和短视频特征向量，用户的实时兴趣向量可以表示用户对之前点击过的短视频的偏好，因此，基于实时兴趣向量确定的推荐短视频与用户的匹配度更高，进而提高短视频推荐的准确性。通过本申请实施例涉及的短视频推荐方法，服务器130所对应的CTR提高了3％左右。

在介绍完本申请实施例的总体思想之后，下面对本申请实施例中各个步骤进行详细介绍。

S420中，一种确定用户特征向量的方式为：

请参照图6，该方式包括S610，通过对第一短视频集合进行embedding学习，获得第一短视频集合中每个短视频的嵌入向量。

嵌入学习可以参照前文论述的内容，此处不再赘述。应当说明的是，在学系第一短视频集合中各个短视频的嵌入向量时，是考虑了用户对各个视频的操作行为数据的，因此学习得到的嵌入向量在一定程度上表征了用户对各个视频的偏好程度。

S620，按照用户操作第一短视频集合中各个短视频的先后顺序，对根据第一短视频集合中每个短视频的嵌入向量与该短视频的前一个短视频的短视频兴趣向量的相似度，以及该短视频的播放完成度进行加权，获得该短视频的短视频兴趣向量，直到获得第一短视频集合中最后一个短视频的短视频兴趣向量。

具体的，按照用户操作各个短视频的先后顺序，确定各个短视频的嵌入向量与该短视频的前一个短视频的短视频兴趣向量的相似度，以及该短视频的播放完成度进行加权，获得多个视频中每个视频的视频兴趣向量。该视频兴趣向量可以表示用户对各个短视频的偏好程度。

作为一种实施例，确定每个短视频的嵌入向量与该短视频的前一个短视频的短视频兴趣向量的相似度S_n+1的计算公式例如：

S_n+1＝cos(V_n，I_n+1) (1)

其中，I_n+1表示用户点击的第n+1个短视频的嵌入向量，V_n表示用户在点击播放第n个后对应的实短视频兴趣向量。

在获得每个短视频的嵌入向量与该短视频的前一个短视频的短视频兴趣向量的相似度，可以根据相似度和用户针对该短视频的播放完成度，获得实时兴趣向量。具体计算公式例如：

W_n+1＝r_n+1*(1-α)*(1-β*S_n+1) (2)

V_n+1＝V_n*(1-W_n+1)+W_n+1*I_n+1 (3)

其中，α为超参数，用于调整I_n+1的权重，β为超参数，用于调整相似度的权重。I_n用于表示用户点击的第n个短视频的嵌入向量。r_n+1表示用户点击第n+1个短视频的播放完成度。W_n+1表示第n+1个视频的嵌入向量的权重，α和β可以通过搜索的方法，选取合适的值。

S630，对在第一短视频集合中每个短视频的短视频兴趣向量进行加权，获得用户的实时兴趣向量。

具体的，用户在播放每个一个短视频之后，该短视频均有对应的一个短视频兴趣向量，对第一短视频集合中各个短视频的短视频兴趣向量，对各个实时兴趣向量加权，得到用户的实时兴趣向量。

本申请实施例中，在确定用户的实时兴趣向量时，考虑了短视频与之前的实时兴趣向量的相关度，以及该短视频的播放完成度，可以更加准确地描述出用户对该短视频的短视频兴趣向量，使得加权得到的用户的实时兴趣向量能更准确地描述用户兴趣，在用户兴趣快速变化的时候，可以调整用户的实时兴趣向量。

在一种可能的实施例中，S630中在对第一短视频集合中各个短视频的短视频兴趣向量进行加权时，每个短视频离当前时间越近，该短视频的短视频兴趣向量的权重越大。

具体的，用户点击过的短视频距离当前越近，越能表征用户当前的喜好，因此，在确定用户的实时兴趣向量的过程中，将距离当前时间越近的短视频所对应的实时兴趣向量的权重设置得更大，可以使得确定出的用户的实时兴趣向量更能反应用户当前的兴趣，进而提高后期确定推荐短视频的准确性。

例如，请继续参照图7，用户依次在用户本次登录短视频播放应用时间起到当前时间内操作过的点击短视频1、短视频2、短视频3和短视频4。四个短视频的实时兴趣向量依次为V1、V2、V3和V4，四个短视频的权重依次为w1、w2、w3和w4，在计算用户的实时兴趣向量时，由于短视频4距离当前时间最近，因此可以将短视频4对应的短视频兴趣向量的权重越大的权重w4取值最大。

在一种可能的实施例中，第一短视频集合为用户本次登录短视频播放应用时间起到当前时间内操作过的各个短视频。

具体的，第一短视频集合采用用户本次登录短视频播放应用时间起到当前时间内操作过的各个短视频，不仅可以减少服务器130的计算量，还可以使得求解出的用户的实时兴趣向量更加符合用户当前的兴趣。

在一种可能的实施例中，请参照图8，S430中的短视频推荐模型可以通过如下步骤训练得到的：

S810，获取短视频训练样本集。

具体的，短视频训练样本集可以参照前文论述的内容，此处不再赘述。服务器130可以根据为用户推荐的短视频，获得用户对应的曝光短视频。在获得曝光短视频之后，对曝光短视频进行嵌入学习，获得用户针对曝光短视频集合的用户的实时兴趣向量。根据用户的日志，确定用户是否点击标签，确定出用户针对曝光短视频集合中各个短视频的点击标签的取值。例如用户点击标签，那么该用户针对该短视频的点击标签的取值为1，用户不点击标签，用户针对该短视频的点击标签的取值为0。根据用户的日志，确定用户针对曝光短视频中各个短视频的互动标签的取值，对各个互动标签的取值进行加权，确定用户针对曝光短视频的偏好权重。

例如针对每个曝光短视频所对应的短视频训练样本的格式为：label，weight,feature1，feature2,…feature N，label表示用户针对该曝光短视频的点击标签，weight表示用户针对曝光短视频的偏好权重，feature1，feature2,…feature N表示用户和曝光短视频的之间的其它相关特征。

S820，调整短视频推荐模型的参数。

具体的，服务器130将短视频训练样本集输入短视频推荐模型，短视频推荐模型例如DSSN模型。在输入短视频推荐模型之后，可以得到训练结果，基于训练结果确定出预设损失函数的值。根据预设损失函数的值，调整短视频推荐模型的参数。

S830，直到预设损失函数收敛，获得已训练的短视频推荐模型。

具体的，当预设损失函数收敛时，确定模型训练完成，将预设损失函数收敛所对应的参数确定为短视频推荐模型的参数，获得已训练的短视频推荐模型。

在一种可能的实施例中，预设损失函数是对交叉熵损失函数和正则化项进行加权得到的，交叉熵损失函数对应的权重为用户针对曝光短视频中每个曝光短视频的偏好权重。

具体的，一种预设损失函数的公式具体如下：

其中，y表示样本标签，y′表示短视频推荐模型预测标签，W_label表示用户针对每个曝光短视频的偏好权重，

为L2正则化项，θ表示短视频推荐模型的参数。样本标签包括用户是否点击短视频的点击标签等。

本申请实施例中，在损失函数中增加曝光短视频的偏好权重，可以根据W_label修正损失函数，避免短视频推荐模型过拟合的情况。

在一种可能的实施例中，服务器130可以按照预设时间段更新短视频推荐模型的参数。

具体的，服务器130在使用短视频推荐模型时，如果实时更新短视频推荐模型，服务器130的处理量较大，因此为了相对减少服务器130的处理量，服务器130可以间隔预设时间段再更新短视频推荐模型的参数。预设时间段可以是服务器130预先设定的，例如一天或一小时等。

在一种可能的实施例中，在调整预设损失函数时，可以使用小批量梯度下降法(Mini-batch Gradient Descent，MBGD)调整短视频推荐模型的参数。

在一种可能的实施例中，用户针对每个短视频的偏好权重可以采用多类互动标签的取值进行加权得到的。

具体的，用户在观看短视频时，与短视频互动的方式有很多种，例如点赞、评论、分享等，用户与短视频进行互动，表示用于对该短视频更感兴趣，根据多类互动标签进行加权，可以更准确地表示用户对各个短视频的偏好权重。

例如，一种确定偏好权重的公式为：

W_label＝m*log(t_play)+n*(b_like+b_share+b_comment) (5)

其中，t_play表示用户的播放时长，b_like表示点赞标签的取值，b_share表示分享标签的取值，b_comment表示评论标签的取值，m和n表示超参数。m和n的取值可以通过搜索的方法获得。

由于用户在播放短视频时，可能用户点击之后，播放时用户不一定真的在观看，而对于点赞、评论和分享等需要用户实际进行操作的，因此，在一种可能的实施例中，m的取值小于n，这样一来，点赞标签、评论标签和分享标签的所占权重更大，使得获得的用户的偏好权重更符合用户真实的偏好，进而提高模型训练的准确性。

作为一种实施例，点赞标签的取值、分享标签的取值以及评论标签的取值均包括1和0两种，1表示用户有与该类互动标签对应的操作，0表示用户没有与该类互动标签对应的操作。

作为一种实施例，每类互动标签的取值可以根据用户执行该操作的次数确定。

具体的，用户点赞该视频的次数为n次，那么该视频所对应的点赞标签的取值则为n。用户评论该视频的次数为n次，那么该视频所对应的评论标签的取值则为n。用户分享该视频的次数为n次，那么该视频所对应的分享标签的取值则为n。本申请实施例中，可以以互动标签的取值衡量用户具体的操作次数，实现了对用户对视频的偏好数据的量化。

在获得短视频模型之后，可以根据短视频模型进行处理，下面S430中具体确定用户和短视频的匹配度的过程进行举例说明。

请参照图9，图9中的短视频推荐模型是基于MLP的DSSN短视频推荐模型，服务器130在经过嵌入学习之后，将用户特征向量和短视频特征向量输入至短视频推荐模型中。

其中，用户特征向量包括用户的实时兴趣向量、用户画像和短视频嵌入向量均值等，短视频嵌入向量是指第一短视频集合中各个短视频的嵌入向量的均值。短视频特征向量包括短视频类目、短视频标签和短视频点击量等。

经过MLP中relu函数处理之后，获得更高阶的用户特征和短视频特征，确定用户特征和短视频特征的余弦相似度。将获得的余弦相似度输入到激活函数中，获得用户和短视频的匹配度。

作为一种实施例，MLP可以采用三层结果，三层分别包括512，256和128个神经元，每个神经元采用relu作为激活函数。用户特征向量或短视频特征向量在经过MLP的交叉计算后，将分别得到一个长度64维的用户向量和64维短视频向量。

在服务器130获得推荐的视频之后，可以直接发送给客户端120，也可以经过再次筛选等，再发送给客户端120。

尽管本申请以实施例以短视频的推荐为例进行了详细说明，但是本领域技术人员根据上述公开的内容，可以将本申请实施例提供的设计思想用于其他多媒体内容的推荐中，对于任何一种多媒体内容，都可以根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合，获得用户的实时兴趣向量，实时兴趣向量中的各个分量用于表示用户对第一多媒体内容集合中的各个多媒体内容的偏好程度，进而获得用户的用户特征向量，用户特征向量包括实时兴趣向量和用户属性向量；并获得待推荐多媒体内容组成的第二多媒体内容集合中，各个待推荐多媒体内容的多媒体内容特征向量；然后通过已训练的多媒体内容推荐模型，确定用户特征向量和各个待推荐多媒体内容的多媒体内容特征向量的匹配度；其中，多媒体内容推荐模型是根据多媒体内容训练样本集训练得到的；并推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容。

基于同一发明构思，本申请实施例提供一种多媒体内容推荐装置，请参照图10，该装置1000包括：

获得模块1001，用于根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量，所述实时兴趣向量中的各个分量用于表示所述设定时间段内所述用户对多媒体内容的偏好程度，以及获得用户的用户特征向量，用户特征向量包括实时兴趣向量和用户属性向量，以及获得待推荐多媒体内容组成的第二多媒体内容集合中，各个待推荐多媒体内容的多媒体内容特征向量；

确定模块1002，用于通过已训练的多媒体内容推荐模型，确定用户特征向量和各个待推荐多媒体内容的多媒体内容特征向量的匹配度；其中，多媒体内容推荐模型是根据多媒体内容训练样本集训练得到的；

推荐模块1003，用于推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容。

在一种可能的实施例中，获得模块1001具体用于：

对第一多媒体内容集合进行嵌入embedding学习，获得第一多媒体内容集合中每个多媒体内容的嵌入向量；

按照用户操作第一多媒体内容集合中各个多媒体内容的先后顺序，对根据第一多媒体内容集合中每个多媒体内容的嵌入向量与该多媒体内容的前一个多媒体内容的多媒体内容兴趣向量的相似度，以及该多媒体内容的播放完成度进行加权，获得该多媒体内容的多媒体内容兴趣向量，直到获得第一多媒体内容集合中最后一个多媒体内容的多媒体内容兴趣向量；

对在第一多媒体内容集合中每个多媒体内容的多媒体内容兴趣向量进行加权，获得用户的实时兴趣向量。

在一种可能的实施例中，第一多媒体内容集合中每个多媒体内容离当前时间越近，该多媒体内容的多媒体内容兴趣向量的权重越大。

在一种可能的实施例中，当前时间之前的设定时间段内操作过的第一多媒体内容集合，包括用户本次登录多媒体播放应用时间起到当前时间内操作过的各个多媒体内容。

在一种可能的实施例中，装置还包括训练模块1004，训练模块1004具体用于：

获取多媒体内容训练样本集；其中，多媒体内容训练样本集中每个多媒体内容训练样本包括样本用户特征向量和曝光多媒体内容集合中各个多媒体内容特征向量，样本用户特征向量包括用户针对曝光多媒体内容集合的用户的实时兴趣向量、曝光多媒体内容集合中各个多媒体内容特的点击标签的取值，以及用户针对曝光多媒体内容集合中每个曝光多媒体内容的偏好权重；

根据多媒体内容训练样本集训练多媒体内容推荐模型，直到预设损失函数收敛，获得已训练的多媒体内容推荐模型。

在一种可能的实施例中，预设损失函数是对交叉熵损失函数与正则化项进行加权得到的，交叉熵损失函数对应的权重为用户针对曝光多媒体内容集合中每个曝光多媒体内容的偏好权重。

在一种可能的实施方式中，用户针对每个多媒体内容的偏好权重是对针对该多媒体内容的多类互动标签的取值进行加权得到的。

作为一种实施例，训练模块1004为可选的模块。

基于同一发明构思，本申请实施例提供一种计算机设备1100，请参照图11，该计算机设备1100包括处理器1101和存储器1102。

存储器1102，用于存储处理器1101执行的计算机程序。存储器1102可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。

处理器1102可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1102和处理器1101之间的具体连接介质。本申请实施例在图1中以存储器1102和处理器1101之间通过总线1103连接，总线1103在图11中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1103可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1102可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1102也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1102可以是上述存储器的组合。

处理器1101，用于调用存储器1102中存储的计算机程序时执行如图4～图9中所示的实施例中各设备涉及的方法。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行如如前文图4-图9论述的短视频推荐方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多媒体内容推荐方法，其特征在于，包括：

推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容；

其中，根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量，包括：

2.如权利要求1所述的方法，其特征在于，所述第一多媒体内容集合中每个多媒体内容离当前时间越近，该多媒体内容的多媒体内容兴趣向量的权重越大。

3.如权利要求1所述的方法，其特征在于，所述当前时间之前的设定时间段内操作过的第一多媒体内容集合，包括用户本次登录多媒体播放应用时间起到当前时间内操作过的各个多媒体内容。

4.如权利要求1所述的方法，其特征在于，所述已训练的多媒体内容推荐模型是通过如下步骤训练得到的：

获取多媒体内容训练样本集；其中，所述多媒体内容训练样本集中每个多媒体内容训练样本包括样本用户特征向量和曝光多媒体内容集合中各个多媒体内容特征向量，所述样本用户特征向量包括用户针对曝光多媒体内容集合的用户的实时兴趣向量、所述曝光多媒体内容集合中各个多媒体内容的点击标签的取值，以及所述用户针对所述曝光多媒体内容集合中每个曝光多媒体内容的偏好权重；

5.如权利要求4所述的方法，其特征在于，所述预设损失函数是对交叉熵损失函数与正则化项进行加权得到的，所述交叉熵损失函数对应的权重为所述用户针对所述曝光多媒体内容集合中每个曝光多媒体内容的偏好权重。

6.如权利要求4所述的方法，其特征在于，所述用户针对每个多媒体内容的偏好权重是对针对该多媒体内容的多类互动标签的取值进行加权得到的。

7.如权利要求1～6任一所述的方法，其特征在于，所述多媒体内容包括短视频。

8.一种多媒体内容推荐装置，其特征在于，包括：

获得模块，用于根据用户在当前时间之前的设定时间段内操作过的第一多媒体内容集合以及针对每个第一多媒体内容的操作行为，获得用户的实时兴趣向量，所述实时兴趣向量中的各个分量用于表示所述设定时间段内所述用户对多媒体内容的偏好程度，获得用户的用户特征向量，所述用户特征向量包括所述实时兴趣向量和用户属性向量，以及获得待推荐多媒体内容组成的第二多媒体内容集合中，各个待推荐多媒体内容的多媒体内容特征向量；

推荐模块，用于推荐第二多媒体内容集合中，匹配度满足预设条件的多媒体内容；

9.如权利要求8所述的装置，其特征在于，所述第一多媒体内容集合中每个多媒体内容离当前时间越近，该多媒体内容的多媒体内容兴趣向量的权重越大。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。