CN112149604A

CN112149604A - 视频特征提取模型的训练方法、视频推荐方法及装置

Info

Publication number: CN112149604A
Application number: CN202011064441.XA
Authority: CN
Inventors: 侯晓霞; 许盛辉; 潘照明
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-29

Abstract

本申请涉及视频处理技术领域，公开了一种视频特征提取模型的训练方法、视频推荐方法及装置，该视频特征提取模型的训练方法包括：基于多个用户针对视频的点击行为，确定出相关视频；基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与目标视频相关的第一视频、以及与目标视频不相关的第二视频；基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；针对每个三元组，基于每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定每个三元组对应的损失值；基于多个三元组分别对应的损失值，更新视频特征提取模型的参数。

Description

视频特征提取模型的训练方法、视频推荐方法及装置

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频特征提取模型的训练方法、视频推荐方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网的高速普及，用户每天在各大网络平台上发布大量的视频，为此网络平台需要利用视频特征提取模型对用户发布的视频进行特征提取，基于各个视频的特征表示确定出关联度较高的视频，即相关视频，进而根据各个用户的偏好将相关视频推荐给各个用户。目前通常由人工对视频内容的相似度进行判断，然后标注出相似的视频以获得训练数据，基于大量标注为相似视频的训练数据，对基于人工智能的视频特征提取模型进行训练，使得视频特征提取模型能够学习到相似视频中的隐式特征表示，进而识别出内容相似的视频，将内容相似的视频作为相关视频推送给用户。

发明内容

现有的基于人工智能的视频特征提取模型，需要依托于大量的训练数据才能获得。而人工对相关视频进行标注，训练数据的收集成本较高，且人工标注一般是基于内容相似度进行相关视频的标注，因此基于人工标注的训练数据训练得到的视频特征提取模型进行视频推荐，只能向用户推荐内容相似的视频，忽略了用户的潜在兴趣延伸，导致视频特征学习目标与实际应用场景不符。

针对上述技术问题，非常需要一种改进的方法，能够降低针对相关视频的标注成本，且使得视频特征学习目标能够与实际应用场景相契合，进而提高视频推荐的精准度。

第一方面，本申请一实施例提供了一种视频特征提取模型的训练方法，包括：

基于多个用户针对视频的点击行为，确定出相关视频；

基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与所述目标视频相关的第一视频、以及与所述目标视频不相关的第二视频；

基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；

针对每个三元组，基于所述每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定所述每个三元组对应的损失值；

基于所述多个三元组分别对应的损失值，更新所述视频特征提取模型的参数。

可选地，所述基于多个用户针对视频的点击行为，确定出相关视频，具体包括：

获取多个用户针对视频的历史点击行为数据，每个用户的历史点击行为数据包括点击的视频和对应的点击时刻；

基于所述多个用户的历史点击行为数据，确定出多个共现视频对，每个共现视频对包括：在同一用户的历史点击行为数据中出现的、点击时刻相邻的两个视频；

统计每个共现视频对在所述多个用户的历史点击行为数据中出现的次数；

将出现的次数大于次数阈值的共现视频对中的两个视频，确定为相关视频。

可选地，所述视频特征提取模型包括多个特征提取模块、特征拼接模块和全连接层，其中，每个特征提取模块对应一种内容信息；

所述基于视频特征提取模型，提取每个三元组中的每个视频的特征表示，具体包括：

针对任一三元组中的任一视频，从所述任一视频中获取多种内容信息；

针对任一内容信息，基于与所述任一内容信息对应的特征提取模块，提取所述任一内容信息对应的特征向量并输出；

基于所述特征拼接模块，对所述多个特征提取模块输出的特征向量进行拼接处理，以获得拼接特征向量并输出；

基于所述全连接层，将所述拼接特征向量转换为固定维度的向量，以获得所述任一视频对应的特征表示。

可选地，所述内容信息的类型包括以下至少两种：视频帧、音频帧和文本信息。

可选地，当所述任一内容信息为多个视频帧时，所述提取所述任一内容信息对应的特征向量，具体包括：

基于图像特征提取模型，分别从所述多个视频帧中提取对应的图像特征；

融合所述多个视频帧分别对应的图像特征，以获得一个视频帧特征向量。

可选地，当所述任一内容信息为多个音频帧时，所述提取所述任一内容信息对应的特征向量，具体包括：

基于音频特征提取模型，分别从所述多个音频帧中提取对应的音频特征；

融合所述多个音频帧分别对应的音频特征，以获得一个音频特征向量。

可选地，当所述任一内容信息为文本信息时，所述提取所述任一内容信息对应的特征向量，具体包括：

基于词向量模型，获得所述文本信息中各个词分别对应的词向量；

融合所述各个词分别对应的词向量，以获得一个文本特征向量。

第二方面，本申请一实施例提供了一种视频推荐方法，包括：

获取用户点击的第三视频；

基于视频特征提取模型分别提取所述第三视频和多个候选视频的特征表示，其中，所述视频特征提取模型是基于权利要求1至7中任一项所述方法训练得到的；

分别确定所述第三视频的特征表示和每个候选视频的特征表示之间的相似度；

基于所述多个候选视频对应的相似度，从所述多个候选视频中确定出推荐给所述用户的视频。

第三方面，本申请一实施例提供了一种视频特征提取模型的训练装置，包括：

相关视频确定单元，用于基于多个用户针对视频的历史点击行为数据，确定出相关视频；

训练数据构建模块，用于基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与所述目标视频相关的第一视频、以及与所述目标视频不相关的第二视频；

特征提取单元，用于基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；

损失计算单元，用于针对每个三元组，基于所述每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定所述每个三元组对应的损失值；

更新单元，用于基于所述多个三元组分别对应的损失值，更新所述视频特征提取模型的参数。

可选地，所述相关视频确定单元，具体用于：

所述特征提取单元，具体用于：

可选地，当所述任一内容信息为多个视频帧时，所述特征提取单元，具体用于：

可选地，当所述任一内容信息为多个音频帧时，所述特征提取单元，具体用于：

可选地，当所述任一内容信息为文本信息时，所述特征提取单元，具体用于：

第四方面，本申请一实施例提供了一种视频推荐装置，包括：

获取单元，用于获取用户点击的第三视频；

特征提取单元，用于基于视频特征提取模型分别提取所述第三视频和多个候选视频的特征表示，其中，所述视频特征提取模型是基于权利要求1至7中任一项所述方法训练得到的；

相似度计算单元，用于分别确定所述第三视频的特征表示和每个候选视频的特征表示之间的相似度；

推荐单元，用于基于所述多个候选视频对应的相似度，从所述多个候选视频中确定出推荐给所述用户的视频。

第五方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

第六方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

第七方面，本申请一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的视频特征提取模型的训练方法及装置、视频推荐方法及装置、电子设备及存储介质，基于用户针对视频的点击行为完成相关视频的标注，提高了训练数据的标注效率，降低了训练成本；此外基于用户点击行为构建的训练数据，使得模型能够学习到用户认为的相关视频之间的隐式特征表示，因而不会仅基于视频内容的相似度向用户推荐视频，使得视频特征学习目标能够与实际应用场景相契合，进而提高视频推荐的精准度。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1为本申请实施例提供的视频推荐方法的应用场景示意图；

图2为本申请一实施例提供的视频特征提取模型的训练方法的流程示意图；

图3为本申请一实施例提供的基于用户点击行为确定相关视的流程示意图；

图4为本申请一实施例提供的视频特征提取模型的结构示意图；

图5为本申请一实施例提供的基于视频特征提取模型获得视频的特征表示的流程示意图；

图6本申请一实施例提供的视频推荐方法的流程示意图；

图7为本申请一实施例提供的视频特征提取模型的训练装置的结构示意图；

图8为本申请一实施例提供的视频推荐装置的结构示意图；

图9为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

点击行为，在本申请中是指用户在客户端中点击观看视频的行为。客户端会记录用户点击的视频以及点击时刻并发送给服务器，服务器存储各个用户历史点击的视频和对应的点击时刻，并按点击时刻有序排列，以获得各个用户对应的历史点击行为数据。

共现视频对，是指在同一用户的历史点击行为数据中出现的、点击时刻相邻的两个视频。

相关视频，在本申请中是指具有一定关联性的视频，具体是指在频繁被用户连续点击的两个视频，如视频A和视频B，若用户点击观看视频A后有很大可能性会点击观看视频B，则视频A和视频B为相关视频，反之为非相关视频，具体可根据用户针对视频的历史点击行为数据确定，后续会详细描述这一过程。

多模态，在实际应用场景中视频本身携带的多个维度的内容信息，如标题、视频帧、音频等，这些内容信息组成了视频的不同模态，本申请中会分别学习这些模态的特征，通过融合这些模态的特征获得共同视频的特征表示。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

深度学习，深度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据，例如图像，声音和文本等。常用的深度学习模型包括：卷积神经网络(Convolutional NeuralNetworks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(LongShort-Term Memory，LSTM)、深度神经网络(Deep Neural Network，DNN)、深度置信网(DeepBelief Nets，DBNs)等神经网络。数据在神经网络中的传播有两种方式，一种是沿着输入到输出的路径，被称为前向传播(Forwardpropagation)，另一种是从输出返回到输入，被成为反向传播(Backpropagation)。在正向传播过程中，输入信息通过神经网络逐层处理并传向输出层，通过损失函数描述输出值与期望之间的误差，转入反向传播，逐层求出损失函数对各神经元的权重的偏导数，构成损失函数对权值向量的权重梯度数据，作为更新权重参数的依据，在不断更新权重参数的过程中完成神经网络的训练。

全连接层(fully connected layers，FC)：在整个卷积神经网络中起到“分类器”的作用，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。

损失函数(loss function)，是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如，在机器学习中，损失函数被用于模型的参数估计(parameteric estimation)，基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度。常见的损失函数有均方误差损失函数、SVM(Support Vector Machine，支持向量机)合页损失函数、交叉熵损失函数等。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

发明概述

为了解决上述问题，本申请提供了一种视频特征提取模型的训练方法，基于用户针对视频的点击行为确定出相关视频，基于确定出的相关视频构建训练模型用的三元组，使得视频特征学习目标与实际应用场景更加吻合，具体包括以下步骤：基于多个用户针对视频的点击行为，确定出相关视频；基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与目标视频相关的第一视频、以及与目标视频不相关的第二视频；基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；针对每个三元组，基于每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定每个三元组对应的损失值；基于多个三元组分别对应的损失值，更新视频特征提取模型的参数。本申请的视频特征提取模型的训练方法，基于用户针对视频的点击行为完成相关视频的标注，提高了训练数据的标注效率，降低了训练成本；此外基于用户点击行为构建的训练数据，使得模型能够学习到用户认为的相关视频之间的隐式特征表示，因而不会仅基于视频内容的相似度向用户推荐视频，使得视频特征学习目标能够与实际应用场景相契合，进而提高视频推荐的精准度。

在介绍了本申请的基本原理之后，下面具体介绍本申请的各种非限制性实施方式。

应用场景总览

参考图1，其为本申请实施例提供的视频推荐方法的应用场景示意图。在图1所示的应用场景中包括终端设备101和服务器102。其中，终端设备101和服务器102之间可通过无线通信网络或有线通信网络连接，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digital assistant，PDA)等电子设备。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器102用于提供视频服务，例如可以是视频直播、视频在线播放、视频下载、视频发布等服务。终端设备101中安装有视频客户端，用户可通过视频客户端获取服务器102提供的视频服务，或者用户也可以通过终端设备101内的浏览器访问视频网站，以获取服务器102提供的视频服务。例如，任一用户可通过视频客户端向视频播放平台对应的服务器102上传视频，以通过视频播放平台发布录制的视频，这样其他用户可观看到该用户发布的视频。服务器102对用户上传的视频进行分析和识别，并基于视频分析识别结果确定出相关视频，服务器102基于其他用户的历史观看视频，确定历史观看视频对应的相关视频，并从获得的相关视频中确定出推荐给用户的视频，并将这些视频发送到用户的终端设备。

下面结合图1的应用场景，来描述根据本申请示例性实施方式的视频特征提取模型的训练方法和视频推荐方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

示例性方法

参考图2，本申请实施例提供了一种视频特征提取模型的训练方法，可应用于服务器，具体包括以下步骤：

S201、基于多个用户针对视频的点击行为，确定出相关视频。

具体实施时，客户端会记录用户点击的视频以及对应的点击时刻，并发送给服务器，服务器存储各个用户历史点击的视频和对应的点击时刻，并按点击时刻有序排列，以获得各个用户对应的历史点击行为数据，并存储在服务器中。服务器可从各个用户对应的历史点击行为数据中获取各个用户针对视频的点击行为，基于获得的点击行为，从这多个用户点击的视频中确定出频繁被用户接连点击的两个视频，将这两个视频确定为相关视频。每个视频可以和一个或多个视频成为相关视频。

S202、基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与目标视频相关的第一视频、以及与目标视频不相关的第二视频。

具体实施时，基于历史点击行为数据中涉及的视频，可构建出多个三元组。以构建一个三元组为例，先从确定出的相关视频中任选出一个视频作为目标视频，再获取一个与该目标视频相关的视频作为第一视频，然后获取一个与该目标视频不相关的视频作为第二视频，即可构建出一个三元组。

三元组中的目标视频和第一视频被作为正样本，三元组中的目标视频和第二视频被作为负样本，旨在基于正样本和负样本学习视频的特征表示，以使相关视频之间的特征表示的距离接近而不相关视频之间的特征表示的距离远离。

S203、基于视频特征提取模型，提取每个三元组中的每个视频的特征表示。

具体地，将一个三元组中的目标视频a、第一视频p和第二视频n分别输入视频特征提取模型，获得目标视频a对应的特征表示

第一视频p对应的特征表示

和第二视频n对应的特征表示

S204、针对每个三元组，基于每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定每个三元组对应的损失值。

具体实施时，可采用欧式距、余弦相似度等计算方式，计算目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，本申请实施例不作限定。

具体实施时，可利用现有的损失函数确定每个三元组对应的损失值。以triploss损失函数为例，每个三元组对应的损失值可表示为：

S205、基于多个三元组分别对应的损失值，更新视频特征提取模型的参数。

视频特征提取模型可以是任意一种用于提取视频特征的神经网络，提取的视频特征是一个多维的向量，视频特征提取模型采用的神经网络包括但不限于：卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、深度神经网络(Deep NeuralNetwork，DNN)、深度置信网(Deep Belief Nets，DBNs)等。其中，更新视频特征提取模型的参数，即更新神经网络中各层网络中的权重参数。

本申请的视频特征提取模型的训练方法，基于用户针对视频的点击行为完成相关视频的标注，提高了训练数据的标注效率，降低了训练成本；此外基于用户点击行为构建的训练数据，使得模型能够学习到用户认为的相关视频之间的隐式特征表示，因而不会仅基于视频内容的相似度向用户推荐视频，使得视频特征学习目标能够与实际应用场景相契合，进而提高视频推荐的精准度。

具体实施时，参考图3，步骤S201具体包括以下步骤：

S301、获取多个用户针对视频的历史点击行为数据，其中，每个用户的历史点击行为数据包括点击的视频和对应的点击时刻。

S302、基于多个用户的历史点击行为数据，确定出多个共现视频对，其中，每个共现视频对包括：在同一用户的历史点击行为数据中出现的、点击时刻相邻的两个视频。

具体实施时，可按照每个视频对应的点击时刻的先后顺序，对每个用户的历史点击行为数据中的视频进行排序，以获得每个用户的历史点击序列，即历史点击序列中的数据是按照点击时刻的先后顺序进行排序的，然后可基于历史点击序列快速确定出共现视频对。

实际应用中，历史点击序列中会出现点击时刻相邻、但间隔时长较长的两个视频，这样的视频之间并不存在关联性，例如前一天点击的最后一个视频和今天点击的第一个视频显示不是相关视频，又如用户在上午10点观看了一个视频后，一直到下午5点才观看了其他视频。

为此，可设置一个时差阈值，以排除掉历史点击序列中点击时刻相邻、但间隔时长较长的两个视频。具体地，基于每个用户的历史点击行为数据，可获得对应的历史点击序列；针对历史点击序列中任意两个相邻的视频，判断这两个视频对应的点击时刻之差是否小于时差阈值，若小于，则将这两个视频确定为一个共现视频对，若不小于，则表示这两个视频不是共现视频对。在这种情况下，每个共现视频对包括：在同一用户的历史点击行为数据中点击时刻相邻、且点击时刻之差小于时差阈值的两个视频。其中，时差阈值可根据实际应用需求预先确定，例如，时差阈值可以是1小时、2小时等。或者，时差阈值可根据两个相邻视频中点击时刻在前的视频的播放时长动态调整，时差阈值可以是不小于该点击时刻在前的视频的播放时长的数值，或略大于该点击时刻在前的视频的播放时长的数值，例如两个相邻视频中点击时刻在前的视频的播放时长为10分钟，则时差阈值可以是10分钟、11分钟、15分钟。

或者，服务器还可以记录用户每一次登录视频客户端的第一时刻和关闭视频客户端的第二时刻，基于第一时刻和第二时刻，获得用户使用视频客户端的使用时段。若点击时刻相邻的两个视频属于同一使用时段，则将这两个视频确定为一个共现视频对；若点击时刻相邻的两个视频属于不同使用时段，则表示这两个视频不是共现视频对。

S303、统计每个共现视频对在多个用户的历史点击行为数据中出现的次数。

例如，视频A和视频B为共现视频对，这一共现视频对在用户1的历史点击行为数据中出现3次，在用户2、用户3、用户4的历史点击行为数据中分别出现1次，在其他用户的历史点击行为数据中未出现，则这一共现视频总共出现的次数为6次。

S304、将出现的次数大于次数阈值的共现视频对中的两个视频，确定为相关视频。

其中，次数阈值可根据实际应用需求预先确定，本申请实施例对次数阈值的具体取值不作限定。

或者，还可以根据多个用户的历史点击行为数据中包含的视频数量动态调整次数阈值，例如次数阈值与多个用户的历史点击行为数据中包含的视频数量正相关，即多个用户的历史点击行为数据中包含的视频数量越多，则次数阈值越大。具体地，可预先设定一个比例值，次数阈值等于视频总数乘以该比例值，视频总数为多个用户的历史点击行为数据中包含的视频数量。

图3所示的实施方式，基于用户针对视频的点击行为来定义了相关视频以及相关视频特征学习目标，即将频繁被用户连续观看的视频定义为相关视频，使得这一相关视频标注过程不需要人为干预，且能够挖掘出用户潜在兴趣的延伸，而非仅基于视频内容的相似度向用户推荐视频，使得视频特征学习目标能够与实际应用场景相契合，进而提高视频推荐的精准度。

以图4为例，视频特征提取模型包括多个特征提取模块、特征拼接模块和全连接层。其中，每个特征提取模块对应一种内容信息，每个特征提取模块用于从对应的内容信息中提取一种特征向量。

基于此，参考图5，步骤S203具体包括以下步骤：

S501、针对任一三元组中的任一视频，从任一视频中获取多种内容信息。

其中，内容信息的类型包括以下至少两种：视频帧、音频帧和文本信息。

具体地，可对视频进行音视频分离，进而获得音频部分和视频部分；然后按一定采样频率从音频部分抽取多个音频帧，按一定采样频率从视频部分抽取多个视频帧，并获取该视频对应的文本信息，文本信息包括但不限于：视频标题、视频简介等。

S502、针对任一内容信息，基于与任一内容信息对应的特征提取模块，提取任一内容信息对应的特征向量并输出。

当内容信息为多个视频帧时，基于图像特征提取模型，分别从多个视频帧中提取对应的图像特征，融合多个视频帧分别对应的图像特征，以获得一个视频帧特征向量。

具体地，图像特征提取模型可以是InceptionV3模型，InceptionV3模型是基于ImageNet训练集训练获得的。可采用NextVlad网络结构将多个视频帧分别对应的图像特征融合成一个视频帧特征向量，以降低视频特征的维度。

当内容信息为多个音频帧时，基于音频特征提取模型，分别从多个音频帧中提取对应的音频特征，并融合多个音频帧分别对应的音频特征，以获得一个音频特征向量。

具体地，可基于已训练的vggish网络提取每个音频帧对应的音频特征，并基于NextVlad网络结构，将多个音频帧分别对应的音频特征融合成一个音频特征向量，以降低音频特征的维度。

当内容信息为文本信息时，基于词向量模型，获得文本信息中各个词分别对应的词向量；融合各个词分别对应的词向量，以获得一个文本特征向量。

具体地，词向量模型可以是word2vec模型。可先用分词器(如JIEBA)对文本信息进行分词处理，获得文本信息中的各个词，然后用预训练好的word2vec模型抽取每个词的词向量，再基于NextVlad网络结构对各个词的词向量进行特征聚合，获得文本特征向量。

S503、基于特征拼接模块，对多个特征提取模块输出的特征向量进行拼接处理，以获得拼接特征向量并输出。

S504、基于全连接层，将拼接特征向量转换为固定维度的向量，以获得任一视频对应的特征表示。

上述实施方式中，视频的特征表示采用多模态特征端到端联合学习，最终每个视频的特征表示由多模态的特征聚合得到，融合多模态的特征具有信息互补优势，使得获得的视频特征表示更全面。

基于上述任一实施方式中的训练方法获得的视频特征提取模型，参考图6，本申请实施例还提供了一种视频推荐方法，具体包括以下步骤：

S601、获取用户点击的第三视频。

具体实施时，用户通过视频客户端浏览视频，当用户点击某一视频，即第三视频时，客户端向服务器发送获取第三视频的请求，服务器将第三视频发送给视频客户端，视频客户端播放第三视频。同时，服务器根据用户点击的第三视频，确定出推荐给用户的视频。

S602、基于视频特征提取模型分别提取第三视频和多个候选视频的特征表示。

其中，候选视频是等待推荐给用户的视频，可以包括新增的视频，也可以包括之前的视频。

其中，视频特征提取模型是上述任一实施方式中的训练方法获得的，具体过程不再赘述。

S603、分别确定第三视频的特征表示和每个候选视频的特征表示之间的相似度。

具体实施时，可采用欧式距、余弦相似度等计算方式，计算第三视频的特征表示和各个候选视频的特征表示之间的相似度，本申请实施例不作限定。

S604、基于多个候选视频对应的相似度，从多个候选视频中确定出推荐给用户的视频。

其中，两个视频的特征表示之间的相似度越高，则表示这两个视频越相关，反之，这两个视频越不相关。

具体实施时，可根据各个候选视频对应的相似度，对候选视频进行降序排列，获取排序前N个候选视频，将这N个候选视频发送到用户对应的视频客户端。其中，N为不小于1的整数。

本申请的视频推荐方法，基于用户针对视频的点击行为完成相关视频的标注，提高了训练数据的标注效率，降低了训练成本；此外基于用户点击行为构建的训练数据，使得模型能够学习到用户认为的相关视频之间的隐式特征表示，因而不会仅基于视频内容的相似度向用户推荐视频，使得视频特征学习目标能够与实际应用场景相契合，进而提高视频推荐的精准度。此外，对于新增视频，可基于视频特征提取模型及时获得新增视频的特征表示，进而快速有效的将新增视频推送可合适的用户。

示例性设备

在介绍了本申请示例性实施方式的方法之后，接下来对本申请示例性实施方式的视频特征提取模型的训练装置、视频推荐装置等进行介绍。

如图7所示，为本申请实施例提供的视频特征提取模型的训练装置的结构示意图。在一个实施例中，视频特征提取模型的训练装置70包括：相关视频确定单元701，训练数据构建模块702，特征提取单元703，损失计算单元704和更新单元705。

相关视频确定单元701，用于基于多个用户针对视频的历史点击行为数据，确定出相关视频；

训练数据构建模块702，用于基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与目标视频相关的第一视频、以及与目标视频不相关的第二视频；

特征提取单元703，用于基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；

损失计算单元704，用于针对每个三元组，基于每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定每个三元组对应的损失值；

更新单元705，用于基于多个三元组分别对应的损失值，更新视频特征提取模型的参数。

可选地，相关视频确定单元701，具体用于：获取多个用户针对视频的历史点击行为数据，每个用户的历史点击行为数据包括点击的视频和对应的点击时刻；基于多个用户的历史点击行为数据，确定出多个共现视频对，每个共现视频对包括：在同一用户的历史点击行为数据中出现的、点击时刻相邻的两个视频；统计每个共现视频对在多个用户的历史点击行为数据中出现的次数；将出现的次数大于次数阈值的共现视频对中的两个视频，确定为相关视频。

可选地，视频特征提取模型包括多个特征提取模块、特征拼接模块和全连接层，其中，每个特征提取模块对应一种内容信息；

相应地，特征提取单元703，具体用于：针对任一三元组中的任一视频，从任一视频中获取多种内容信息；针对任一内容信息，基于与任一内容信息对应的特征提取模块，提取任一内容信息对应的特征向量并输出；基于特征拼接模块，对多个特征提取模块输出的特征向量进行拼接处理，以获得拼接特征向量并输出；基于全连接层，将拼接特征向量转换为固定维度的向量，以获得任一视频对应的特征表示。

可选地，内容信息的类型包括以下至少两种：视频帧、音频帧和文本信息。

可选地，当任一内容信息为多个视频帧时，特征提取单元703，具体用于：基于图像特征提取模型，分别从多个视频帧中提取对应的图像特征；融合多个视频帧分别对应的图像特征，以获得一个视频帧特征向量。

可选地，当任一内容信息为多个音频帧时，特征提取单元703，具体用于：基于音频特征提取模型，分别从多个音频帧中提取对应的音频特征；融合多个音频帧分别对应的音频特征，以获得一个音频特征向量。

可选地，当任一内容信息为文本信息时，特征提取单元703，具体用于：基于词向量模型，获得文本信息中各个词分别对应的词向量；融合各个词分别对应的词向量，以获得一个文本特征向量。

本申请实施例提供的视频特征提取模型的训练装置，与上述视频特征提取模型的训练方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

如图8所示，为本申请实施例提供的视频推荐装置的结构示意图。在一个实施例中，视频推荐装置80包括：获取单元801、特征提取单元802、相似度计算单元803和推荐单元804。

获取单元801，用于获取用户点击的第三视频；

特征提取单元802，用于基于视频特征提取模型分别提取第三视频和多个候选视频的特征表示，其中，视频特征提取模型是基于权利要求1至7中任一项方法训练得到的；

相似度计算单元803，用于分别确定第三视频的特征表示和每个候选视频的特征表示之间的相似度；

推荐单元804，用于基于多个候选视频对应的相似度，从多个候选视频中确定出推荐给用户的视频。

本申请实施例提供的视频推荐装置，与上述视频推荐方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述视频特征提取模型的训练方法、视频推荐方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为单个物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器等。如图9所示，该电子设备90可以包括至少一个处理器901和至少一个存储器902。其中，存储器902存储有程序代码，当程序代码被处理器901执行时，使得处理器901执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的视频特征提取模型的训练方法或视频推荐方法中的各种步骤。例如，处理器901可以执行如图2中所示的S201、基于多个用户针对视频的点击行为，确定出相关视频；S202、基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与目标视频相关的第一视频、以及与目标视频不相关的第二视频；S203、用于基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；S204、用于针对每个三元组，基于每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定每个三元组对应的损失值；S205、用于基于多个三元组分别对应的损失值，更新视频特征提取模型的参数。例如，处理器901还可以执行如图6中所示的S601、获取用户点击的第三视频；S602、基于视频特征提取模型分别提取第三视频和多个候选视频的特征表示；S603、分别确定第三视频的特征表示和每个候选视频的特征表示之间的相似度；S604、基于多个候选视频对应的相似度，从多个候选视频中确定出推荐给用户的视频。

处理器901可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

示例性程序产品

本申请实施例提供了一种计算机可读存储介质，用于储存上述电子设备所用的计算机程序指令，其包含用于执行本申请任一示例性实施方式中的视频特征提取模型的训练方法或视频推荐方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

在一些可能的实施方式中，本申请的各个方面还可以实现为一种计算机程序产品，其包括程序代码，当该计算机程序产品在服务器设备上运行时，该计算机程序产品用于使所述服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的视频特征提取模型的训练方法或视频推荐方法中的步骤，例如，所述服务器设备可以执行如图2中所示的S201、基于多个用户针对视频的点击行为，确定出相关视频；S202、基于确定出的相关视频，构建多个三元组，其中，每个三元组包括目标视频、与目标视频相关的第一视频、以及与目标视频不相关的第二视频；S203、用于基于视频特征提取模型，提取每个三元组中的每个视频的特征表示；S204、用于针对每个三元组，基于每个三元组中的目标视频的特征表示和第一视频的特征表示之间的相似度、以及目标视频的特征表示和第二视频的特征表示之间的相似度，确定每个三元组对应的损失值；S205、用于基于多个三元组分别对应的损失值，更新视频特征提取模型的参数。

所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

根据本申请的实施方式的用于训练视频特征提取模型或视频推荐的计算机程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在服务器设备上运行。然而，本申请的程序产品不限于此，在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种视频特征提取模型的训练方法，其特征在于，包括：

基于多个用户针对视频的点击行为，确定出相关视频；

2.根据权利要求1所述的方法，其特征在于，所述基于多个用户针对视频的点击行为，确定出相关视频，具体包括：

3.根据权利要求1或2所述的方法，其特征在于，所述视频特征提取模型包括多个特征提取模块、特征拼接模块和全连接层，其中，每个特征提取模块对应一种内容信息；

4.根据权利要求3所述的方法，其特征在于，所述内容信息的类型包括以下至少两种：视频帧、音频帧和文本信息。

5.根据权利要求4所述的方法，其特征在于，当所述任一内容信息为多个视频帧时，所述提取所述任一内容信息对应的特征向量，具体包括：

6.一种视频推荐方法，其特征在于，包括：

获取用户点击的第三视频；

7.一种视频特征提取模型的训练装置，其特征在于，包括：

8.一种视频推荐装置，其特征在于，包括：

获取单元，用于获取用户点击的第三视频；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。