CN110929099A

CN110929099A - 一种基于多任务学习的短视频帧语义提取方法及***

Info

Publication number: CN110929099A
Application number: CN201911186838.3A
Authority: CN
Inventors: 范俊; 顾湘余; 熊永春
Original assignee: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Current assignee: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-03-27
Anticipated expiration: 2039-11-28
Also published as: CN110929099B

Abstract

本发明公开了一种基于多任务学习的短视频帧语义提取方法及***，该提取方法包括步骤：S1、构建包括图片分类通道、人脸识别通道的卷积神经网络；S2、通过短视频帧样本数据对卷积神经网络进行训练，得到多任务短视频语义提取模型；S3、基于多任务短视频语义提取模型对视频帧语义进行提取，得到包括粗粒度特征及人脸特征的语义特征。本发明针对短视频的特点，采用多任务学习的方式，同时提取短视频帧的粗粒度特征及人物特征，使短视频语义提取的信息更加全面、快速。

Description

一种基于多任务学习的短视频帧语义提取方法及***

技术领域

本发明涉及语义提取领域，具体涉及一种基于多任务学习的短视频帧语义提取方法及***。

背景技术

随着计算机技术与信息技术的快速发展，视频的制作方法与上传途径变得日益便捷，致使海量的视频资源存在与互联网中，各大视频门户为解决视频信息过载问题，会向用户提供视频搜索和推荐等功能。为了能够有效地管理视频资源并高效地实现上述功能，对视频特征进行精准的提取和规范化的标引尤为重要。

现有的视频帧语义提取主要基于CNN的有监督图片表征学习及自动编码器。基于CNN的表征学习通常是在标注的图片数据集上训练一个完成某个有监督任务(通常是分类)的卷积神经网络，然后利用卷积神经网络中间某一层作为该图片的压缩表示。这个中间层一般选取全连接层之前的卷积层的输出。自编码器是一种无监督学习方法。自编码器包含一个编码器和一个解码器。编码器对输入图片进行一系列处理，得到一个中间表示；解码器从这个中间表示恢复出图片，目标是输入和输出的误差最小。因为这个中间表示可以恢复出原始图片，因此认为它包含了原始输入的几乎所有信息，而且维度通常比较小，因此可以作为图片的压缩表示。

然而，基于CNN的有监督图片表征学习需要大量的标注数据。目前的做法一般是在无标记样本上预训练部分网络，在用标注数据训练整个网络；其次，训练网络基本都是单目标的(大多数是分类)，一些重要特征可能学习不到。例如短视频帧中，面积很小，但是信息量很大的人脸。相反，一些模板素材信息占画面的面积很大，但是信息量很小。编码器作为表征学习的一种方法，对数据的要求很低。但是由于缺乏指导，自编码器的目标是学习到更多的信息，而不是相关信息。

短视频内容大多数都是以人物为主体。如：同一个歌星的MV，同一个影星的电影，同一个网红的vlog，可能场景完全不同(山、水、森林、室内)，但是，这些视频的受众有个共同点：喜欢短视频里面的某个人物。所以，在对短视频做表征学习的时候，仅仅考虑普通的图像特征是不够的，还需要考虑人物特征。因此，如何实现视短频帧语义的全面提取，是本领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于多任务学习的短视频帧语义提取方法及***。针对短视频的特点，采用多任务学习的方式，同时提取短视频帧的粗粒度特征及人物特征，使短视频提取的语义信息更加全面、快速。。

为了实现以上目的，本发明采用以下技术方案：

一种基于多任务学习的短视频帧语义提取方法，包括步骤：

S1、构建包括图片分类通道、人脸识别通道的卷积神经网络；

S2、通过短视频帧样本数据对卷积神经网络进行训练，得到多任务短视频语义提取模型；

S3、基于多任务短视频语义提取模型对视频帧语义进行提取，得到包括粗粒度特征及人脸特征的语义特征。

进一步地，所述图片分类通道包括一个图片分类卷积神经网络，所述人脸识别通道包括三个人脸识别卷积神经网络，所述三个人脸识别卷积神经网络共享参数；所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层，共享一个输出层。

进一步地，整个所述任务短视频语义提取模型的损失函数为：

Loss_overall＝Loss_face+λLoss_classify

其中，Loss_classify为图片分类通道的损失函数，Loss_face为人脸识别通道的损失函数，λ是调节分类损失和人脸识别损失作用的调节参数。

进一步地，图片分类通道的损失函数Loss_classify为：

其中，n是类别数，y_c是训练样本的标记，p_c是模型的预测概率；

人脸识别通道的损失函数Loss_face为：

Loss_face＝max(d(anchor，positive)-d(anchor，negative)+margin，0)

其中，anchor代表基准人脸；positive代表和anchor属于同一个人的正样本；negative代表和anchor不属于同一个人负样本；d(a,b)表示向量a和b之间的距离，margin是一个附加约束，约束负样本和基准人脸的距离大于正样本与基准人脸的距离，且距离的差值不小于margin。

进一步地，所述粗粒度特征包括短视频帧的场景、色彩、物体。

本发明还提出一种基于多任务学习的短视频帧语义提取***，包括：

构建模块，用于构建包括图片分类通道、人脸识别通道的卷积神经网络；

训练模块，用于通过短视频帧样本数据对卷积神经网络进行训练，得到多任务短视频语义提取模型；

语义提取模块，用于基于多任务短视频语义提取模型对视频帧语义进行提取，得到包括粗粒度特征及人脸特征的语义特征。

进一步地，所述图片分类通道包括一个图片分类卷积神经网络，所述人脸识别通道包括三个人脸识别卷积神经网络，所述三个人脸识别卷积神经网络共享参数，所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层，共享一个输出层。

Loss_overall＝Loss_face+λLoss_classify

进一步地，图片分类通道的损失函数Loss_classify为：

人脸识别通道的损失函数Loss_face为：

Loss_face＝max(d(anchor，positive)-d(anchor，negative)+margin，0)

与现有技术相比，本发明针对短视频中人脸信息占用的面积很小、但人脸信息是人们在关注短视频时重点关注的信息的特点，提出了包括图片分类通道、人脸识别通道的卷积神经网络。通过图片分类通道是学习视频帧的粗粒度特征，包括图片的场景、色彩、物体等；通过人脸识别通道是学习视频中的人物特征。克服了现有的针对短视频帧的语义提取存在遗漏重要特征的问题，能够更全面地获取短视频帧中所包括的语义信息，进一步能够提高基于提取的语义所进行短视频推荐等功能的性能。此外，本发明引入利用多任务学习方式，提高了语义提取的性能。且多任务短视频语义提取模型的性能由两个任务共同决定，相互影响，能够整体提高多个任务的学习效率。

附图说明

图1是实施例一提供的一种基于多任务学习的短视频帧语义提取方法流程图；

图2是实施例二提供的一种基于多任务学习的短视频帧语义提取***结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

实施例一

如图1所示，本实施例提出了一种基于多任务学习的短视频帧语义提取方法，包括：

现有的短视频内容大多数都是以人物为主体，而现有的视频帧语义提取方法仅考虑普通的图像特征，没考虑人物特征，因此不能全面地提取短视频中的有效语义。因此，本发明构建包括图片分类通道、人脸识别通道的卷积神经网络，能够同时提取普通的图像特征及人物特征的语义，实现针对短视频帧的多任务学习。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。主要由输入层、卷积层、池化层、全连接层、输出层组成。输入层是需要处理的短视频帧数据，对于计算机而言可将其理解为若干矩阵。卷积层是卷积神经网络的重要组成部分，通过输入层和卷积层之间的矩阵卷积运算，提取输入短视频帧的特征。池化层通常设置在卷积层之后，对输入的短视频帧的目标区域像素取平均值或最大值，即降采样处理，降低特征图像分辨率的同时避免出现过拟合。全连接层位于最后一个池化层和输出层之间，其中每一个神经元都与前一层的全部神经元相连接，并根据目标检测的需要，有针对性地将特征向量映射到输出层。输出层位于神经网络的最后，其作用是对权连接层映射过来的输入向量进行分类。卷积层与池化层可以根据需要重复多次，其中不同的卷积核负责提取多种特征，池化层提供平移不变性和降维。

本发明构建相互独立的图片分类通道、人脸识别通道，图片分类通道用于提取短视频帧的普通图像特征，对视频帧进行分类，人脸识别通道用于提取短视频帧中的人脸特征。目前主流的图片分类框架，大都是CNN网络，因此，本发明也采用CNN网络进行短视频帧的普通图像特征的提取。人脸识别从直观上来说和分类任务类似，但是也有一些特殊性。分类任务的类别数目通常是固定的，而人脸识别问题则不然，所以人脸识别通常都是学习一个人脸的表征，然后同一个表征空间内寻找是否有相同的人脸。其次，分类任务专注的是粗粒度的识别，而人脸识别需要捕捉细粒度的差别。本发明图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层，共享一个输出层。输入层接收短视频帧图片的R、G、B分量，R对应选取图片的红色通道，G对应选取图片的绿色通道，B对应选取图片的蓝色通道。

本发明加载标注了类别信息及人脸信息的视频帧数据。为了提高语义提取的精确性，本发明对采集的视频帧数据分别随机进行旋转、平移、错切变换、缩放等图像增强操作以扩充数据样例，其中旋转角度、缩放比例等操作均随机选取对应数值以保证生成图片的随机性。通过数据增强操作，提高样本量。

由于短视频帧图片可能存在大量噪声，影响语义提取效果。因此，本发明在输入短视频帧图片后，对其进行去噪。由于图片中的大多数噪声均属于高斯噪声，因此，本发明采用高斯滤波器进行去噪，得到滤波效果图；高斯滤波公式如下：

其中，x表示像素RGB值，μ表示半径Radius范围内的像素值均值，σ表示半径Radius范围内像素值的方差。

对于图片分类通道，本发明采用softmax多类别分类器和交叉熵损失函数(CrossEntropy Error Function)，激活函数增强网络的非线性表达能力。具体地，短视频帧图片分类通道的损失为：

其中n是类别数，y_c是训练样本的标记，p_c是模型的预测概率。

对于人脸识别通道，本发明采用triplet loss。triplet loss也是通过训练一个CNN网络来对人脸进行编码，但是它的输入是三张短视频帧图片，即输入是一个三元组<a,p,n>，其中a是anchor，代表基准人脸；p为positive，代表正样本，即和anchor属于同一个人；n是negative，代表负样本，即和anchor不属于同一个人。

因此，本发明多任务短视频语义提取模型包括一个人脸识别通道、一个图片分类通道，图片分类通道包括一个图片分类卷积神经网络，人脸识别通道包括三个人脸识别卷积神经网络，三个人脸识别卷积神经网络共享参数。三张短视频帧图片分别通过三个人脸识别卷积神经网络，分别得到各自对应的向量表征，通过三个向量计算损失，目标是拉近anchor和positive向量之间的距离，拉大anchor和negative向量之间的距离。目标函数可以写成以下形式：

Loss_face＝max(d(anchor，positive)-d(anchor，negative)+margin，0)

其中d(a,b)表示向量a和b之间的距离，margin是一个附加约束，约束负样本和基准人脸的距离大于正样本与基准人脸的距离，且距离的差值不小于margin。

图片分类通道是用于学习视频帧的粗粒度特征，包括图片的场景、色彩、物体等；人脸识别通道是用于学习视频中的人物特征。由于多任务短视频语义提取模型包括图片分类通道及人脸识别通道，因此，整个多任务短视频语义提取模型的损失函数为：

其中λ是调节参数，作用是调节分类损失和人脸识别损失的作用。

本发明将去噪后的短视频帧样本数据输入卷积神经网络，图片分类通道、人脸识别通道分别学习视频帧的粗粒度特征、人物特征。通过计算整个多任务短视频语义提取模型的损失函数对多任务短视频语义提取模型进行优化，训练生成多任务短视频语义提取模型。

训练生成多任务短视频语义提取模型后，就可以对需要进行特征提取的视频帧图片进行特征提取，以获取既包括视频帧的粗粒度特征，包括图片的场景、色彩、物体等；也包视频中的人物特征的语义信息。

对于需要进行语义提取的短视频，通过固定帧截取视频帧图片。将截取的视频帧图片输入训练好的多任务短视频语义提取模型。图片分类通道学习视频帧的粗粒度特征；人脸识别通道学习视频中的人物特征。图片分类通道与人脸识别通道共享输出层，输出层将两个通道获取的特征进行整合输出，以得到最终的短视频帧语义信息。

实施例二

如图2所示，本实施例提出了一种基于多任务学习的短视频帧语义提取***，包括：

因此，本发明多任务短视频语义提取模型包括一个人脸识别通道、一个图片分类通道。图片分类通道包括一个图片分类卷积神经网络，人脸识别通道包括三个人脸识别卷积神经网络。三张短视频帧图片分别通过三个人脸识别卷积神经网络，分别得到各自对应的向量表征，通过三个向量计算损失，目标是拉近anchor和positive向量之间的距离，拉大anchor和negative向量之间的距离。目标函数可以写成以下形式：

Loss_face＝max(d(anchor，positive)-d(anchor，negative)+margin，0)

由此可知，本发明提出的基于多任务学习的短视频帧语义提取方法及***，针对短视频中人脸信息占用的面积很小、但人脸信息是人们在关注短视频时重点关注的信息的特点，提出了包括图片分类通道、人脸识别通道的卷积神经网络。通过图片分类通道是学习视频帧的粗粒度特征，包括图片的场景、色彩、物体等；通过人脸识别通道是学习视频中的人物特征。克服了现有的针对短视频帧的语义提取存在遗漏重要特征的问题，能够更全面地获取短视频帧中所包括的语义信息，进一步能够提高基于提取的语义所进行短视频推荐等功能的性能。此外，本发明引入利用多任务学习方式，提高了语义提取的性能。且多任务短视频语义提取模型的性能由两个任务共同决定，相互影响，能够整体提高多个任务的学习效率。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于多任务学习的短视频帧语义提取方法，其特征在于，包括步骤：

2.根据权利要求1所述的语义提取方法，其特征在于，所述图片分类通道包括一个图片分类卷积神经网络，所述人脸识别通道包括三个人脸识别卷积神经网络，所述三个人脸识别卷积神经网络共享参数；所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层，共享一个输出层。

3.根据权利要求2所述的语义提取方法，其特征在于，整个所述任务短视频语义提取模型的损失函数为：

Loss_overall＝Loss_face+λLoss_classify

4.根据权利要求3所述的语义提取方法，其特征在于，图片分类通道的损失函数Loss_classify为：

人脸识别通道的损失函数Loss_face为：

Loss_face＝max(d(anchor，positive)-d(anchor，negative)+margin，0)

5.根据权利要求1所述的语义提取方法，其特征在于，所述粗粒度特征包括短视频帧的场景、色彩、物体等。

6.一种基于多任务学习的短视频帧语义提取***，其特征在于，包括：

7.根据权利要求6所述的语义提取***，其特征在于，所所述图片分类通道包括一个图片分类卷积神经网络，所述人脸识别通道包括三个人脸识别卷积神经网络，所述三个人脸识别卷积神经网络共享参数；所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层，共享一个输出层。

8.根据权利要求7所述的语义提取***，其特征在于，整个所述任务短视频语义提取模型的损失函数为：

Loss_overall＝Loss_face+λLoss_classify

9.根据权利要求8所述的语义提取***，其特征在于，图片分类通道的损失函数Loss_classify为：

人脸识别通道的损失函数Loss_face为：

Loss_face＝max(d(anchor，positive)-d(anchor，negative)+margin，0)

10.根据权利要求5所述的语义提取方法，其特征在于，所述粗粒度特征包括短视频帧的场景、色彩、物体。