CN109874053A

CN109874053A - 基于视频内容理解和用户动态兴趣的短视频推荐方法

Info

Publication number: CN109874053A
Application number: CN201910131014.XA
Authority: CN
Inventors: 金莹莹; 许娟; 何鑫
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-11
Anticipated expiration: 2039-02-21
Also published as: CN109874053B

Abstract

本发明公开了一种基于视频内容理解和用户动态兴趣的短视频推荐方法，首先利用深度学习技术提取视频的深度视觉特征，从视频中提取音频文件并提取听觉特征；再利用PCA降维和数据标准化等技术将视频特征与社交特征、用户特征进行融合得到深度融合特征用于用户历史行为的特征表示；然后利用自我注意力机制，提取历史行为对当前兴趣的影响，再利用循环神经网络学习对候选视频的兴趣演化路径，得到精准的用户动态兴趣；最后利用多层感知机对视频候选集进行点击概率预测和推荐。本发明实施于短视频的个性化推荐，采用本发明的技术方案，将有效提高推荐的准确度。

Description

基于视频内容理解和用户动态兴趣的短视频推荐方法

技术领域

本发明属于网络视频技术领域，尤其涉及一种基于视频内容理解和用户动态兴趣的短视频推荐方法。

背景技术

随着移动终端的普及和网络的提速，短平快的视频受到各大平台和用户的青睐，短视频平台逐渐崛起，随之而来的是信息过载和个性化需求的问题。海量的视频对视频消费者和视频生产者而言都是巨大的挑战。对视频消费者来说，面临如何从海量视频中找到用户真正感兴趣的视频的困难；对视频供应商来说，面临如何将视频分发给合适的用户的困难。正式这些迫切的需求，使得移动短视频个性化推荐成为了一个热门的研究课题。

应用于个性化推荐的方法包括基于内容的推荐方法、基于协同过滤的推荐方法、混合推荐、基于知识的推荐方法、基于数据挖掘的推荐方法等。

目前，对视频推荐的方法仅考虑用户对视频历史行为的偏好，而不探索视频内容。而移动短视频的个性化推荐与普通资源的个性化推荐相比，存在非结构化的视频信息难以利用的问题。

此外还存在以下几个问题：(1)移动短视频往往没有与视频内容相符的标题、描述等信息；(2)移动短视频的分类仅为粗略类别，难以准确表达用户兴趣；(3)用户反馈数据稀疏。考虑到以上因素，现在急需一种能够实现对视频内容进行理解，进一步捕获用户动态兴趣以实现更精准和个性化的短视频推荐方法。

发明内容

发明目的：针对以上问题，本发明提出一种基于视频内容理解和用户动态兴趣的短视频推荐方法，通过视频内容理解，能对用户动态兴趣进行更精准的捕获，以达到更加精准的个性化推荐，用来弥补现在短视频推荐方案中对视频内容利用的匮乏的问题。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于视频内容理解和用户动态兴趣的短视频推荐方法，包括步骤：

(1)利用深度学习技术提取短视频的多模态特征；

(2)利用PCA降维和数据标准化技术进行将视频特征与社交特征、用户特征进行融合得到深度融合特征；

(3)基于深度融合特征和观影记录，通过自我注意力机制和循环神经网络构建用户动态兴趣模型；

(4)基于用户动态兴趣模型和情景信息，采用多层感知机对候选短视频集实现视频内点击预测与推荐。

进一步地，所述步骤(1)包括：

(1.1)提取短视频关键帧，利用深度学习技术提取视频的视觉特征；

a、利用深度卷积神经网络提取短视频的RGB特征；

b、利用C3D模型提取短视频的运动特征。

(1.2)从视频中提取音频文件，并提取听觉特征。

进一步地，所述步骤(2)具体地，先利用PCA对各个特征进行降维，在保留99％以上的信息，同时减小特征维度；再利用数据标准化，将不同特征映射到同一语义空间中；最后进行拼接融合。

进一步地，所述步骤(3)中用户动态兴趣模型包括兴趣提取层和兴趣演化层：

(3.1)兴趣提取层利用自我注意力机制进行兴趣提取，学习历史行为之间的影响；

(3.2)兴趣演化层利用循环神经网络和注意力机制，对每个候选短视频的兴趣演化过程进行学习。

进一步地，所述步骤(4)具体地，采用多层感知机，判断用户是否对该视频感兴趣，从而完成视频内容点击预测；将候选视频集按照预测点击率排序，将预测点击率高的视频推荐给该用户。

有益效果：本发明在现有对图片及视频特征提取的基础上，实现对视频内容的理解；应用于各短视频分发平台，实现更加精准的个性化推荐，以此提高用户对平台的粘度，提高平台的受益，同时提高用户的体验。

附图说明

图1是基于视频内容理解和用户动态兴趣的短视频推荐方法流程图；

图2是提取视频RGB特征网络结构示意图；

图3是ResNet模块结构示意图；

图4是3D CNN卷积示意图；

图5是用户动态兴趣学习模型。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，本发明所述的基于视频内容理解和用户动态兴趣的短视频推荐方法，具体包括以下步骤：

(1)利用深度学习技术提取短视频的多模态特征，包括视觉特征和听觉特征，用于表征短视频内容；

传统图像特征存在诸多缺陷，如鲁棒性差、表征不够准确等。随着深度学习技术的发展，更具有表征能力和抽象能力的图像特征提取成为可能。

由于短视频时间限制在6秒至300秒之间，短视频通常由较小的微镜头经过剪辑拼接而成。因此短视频的每个帧通常具有高信息内容，甚至可以消除对关键帧或镜头选择等常见的视频预处理步骤的需求。故本发明在为短视频选择关键帧时，先将短视频分割成微镜头，并将每个微镜头中提取第一帧，最后一帧和中间帧作为关键帧。对于超过1秒的微镜头，提取等间距的关键帧，以确保每秒至少包含一个关键帧。

通过提取短视频关键帧，利用深度学习技术提取视频的视觉特征；从视频中提取音频文件，并提取听觉特征。

(1.1)视觉特征的提取；

本发明利用预训练的ResNet模型对短视频的RGB特征进行学习，利用C3D网络对短视频的运动特征进行学习；所提取的深度视觉特征能充分表达视频的场景、对象及行为信息。

a、短视频的RGB特征提取；

本发明利用预训练的ResNet模型对视频的RGB特征进行提取，提取流程如附图2，ResNet中引入残差结构，解决神经网络中的退化问题。残差的结构如附图3所示，残差结构的计算公式：

其中，x代表网络结构的输入，代表卷积层/池化层操作后的输出。

残差结构就是2层或3层输出后加上之前的输入x。增加残差结构后，非但没有增加额外参数和计算复杂度，反而能对更深层网络进行学习。

利用ResNet模型的最后一个全连接层的1000维的向量作为关键帧RGB特征表示，短视频的RGB特征最终由所有关键帧的RGB特征融合而得，融合公式：

其中，代表第i个关键帧的RGB特征，F_R代表短视频的RGB特征。

b、短视频的运动特征提取；

本发明利用预训练的3D CNN模型对视频的运动特征进行提取，3D CNN在视频的分类、动作视频等领域发挥着巨大优势。因为3D CNN能够更好地捕捉视频中的时间和空间的特征信息。3D CNN的卷积核操作如附图4所示，附图5所示的3D卷积的时间维度为3，即对连续的3帧图像进行卷积。3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此能捕捉运动信息。

本发明中，利用3D CNN模型的最后一个全连接层的4096维的向量作为连续关键帧运动特征表示，短视频的运动特征最终由所有连续关键帧的运动特征融合而得，融合公式如下：

其中，代表第i个连续关键帧的运动特征，F_s代表短视频的运动特征。

(1.2)短视频的音频特征提取；

本发明首先将音频文件从视频中分离出，再对其进行MFCC、Audio-Six等20多个听觉特征，听觉特征的融合公式：

F_A＝concat([F_MFCC,F_ZCR，……])

其中，F_MFCC代表梅尔频率倒谱系数的特征表示，F_ZCR代表过零率的特征表示，省略了其他22个音频特征的表达形式。F_A代表短视频的听觉特征。

(2)利用PCA降维和数据标准化等技术进行将视频特征与社交特征、用户特征等进行融合得到深度融合特征；

由于不同特征不能直接进行拼接或相加，会导致训练失败或维度***。故先利用PCA对各个特征进行降维，在保留99％以上信息的同时，减小特征维度；再利用数据标准化，将不同特征映射到同一语义空间中；最后进行拼接融合。融合的公式：

F_C＝concat(PCA(F_V),PCA(F_S),PCA(F_A)，F_T，F_U)

其中，PCA(F_i)代表经过PCA后的特征表示，F_T代表视频的统计特征，如点赞数、转发数等。F_U为用户的特征信息，如年龄、性别等。F_C代表一个视频的内容特征表示。

用深度融合特征表示用户历史行为，即在对视频内容理解的基础上，学习用户真正的兴趣。先利用自我注意力机制，提取历史行为对用户当前兴趣的影响，再利用循环神经网络学习用户对候选视频的兴趣演化路径，得到精准的用户动态兴趣。

(3.1)兴趣提取层；

与以往将视频内容表是直接作为用户兴趣不同，本发明考虑用户历史行为对用户兴趣的影响，故利用自我注意力机制学习历史行为之间的影响关系：

A＝softmax(a(S,S))

其中，a(S，S)＝SWS^T，S表示用户u的观看短视频历史行为的特征表示。

(3.2)兴趣演化层；

本发明在对用户历史兴趣进行提取后，再利用循环神经网络对候选视频的兴趣演化过程进行学习。首先是计算候选视频与用户历史兴趣之间的相关度，再利用GRU学习相关兴趣之间的演化过程。下面是相关度的计算公式：

其中，A_t代表兴趣提取层得到的第t个历史兴趣的特征表示，e_a代表第a个候选视频的特征表示，a_t代表目标视频e_a与第t个用户历史兴趣之间的相关度

利用这个相关度，筛选与候选视频相关度高的兴趣，并学习这些兴趣的演化过程。

演化过程如下：

i′_t＝A_t*a_t

u_t＝σ(W^ui′_t+U^uA_t-1+b^u)

r_t＝σ(W^ri′_t+U^rA_(t-1)+b^r)

循环神经网络最后一个时刻的输出即用户当前的兴趣表示。

对于用户u，本发明在用户动态兴趣模型基础上，采用多层感知机实现对目标视频点击率的预测，预测概率计算公式如下：

y＝σ(W^|H|+1a^H+b^(|H|+1))

其中，σ代表softmax激活函数，|H|表示隐含层的层数，a^H表示视频j的隐含表示，y是用户u对视频j预估的点击率。

损失函数如下所示；

本发明最后将候选视频集按照预测点击率排序，将预测点击率高的视频推荐给该用户，从而完成整个个性化视频点击率预测与推荐的流程。

Claims

1.一种基于视频内容理解和用户动态兴趣的短视频推荐方法，其特征在于，包括步骤：

(1)利用深度学习技术提取短视频的多模态特征；

2.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法，其特征在于，所述步骤(1)包括：

(1.2)从视频中提取音频文件，并提取听觉特征。

3.根据权利要求2所述的基于视频内容理解和用户动态兴趣的短视频推荐方法，其特征在于，所述步骤(1.1)包括：

a、利用深度卷积神经网络提取短视频的RGB特征；

b、利用C3D模型提取短视频的运动特征。

4.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法，其特征在于，所述步骤(2)具体地，先利用PCA对各个特征进行降维，在保留99％以上的信息，同时减小特征维度；再利用数据标准化，将不同特征映射到同一语义空间中；最后进行拼接融合。

5.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法，其特征在于，所述步骤(3)中用户动态兴趣模型包括兴趣提取层和兴趣演化层：

6.根据权利要求1所述的基于视频内容理解和用户动态兴趣的短视频推荐方法，其特征在于，所述步骤(4)具体地，采用多层感知机，判断用户是否对该视频感兴趣，从而完成视频内容点击预测；将候选视频集按照预测点击率排序，将预测点击率高的视频推荐给该用户。