CN110853032B

CN110853032B - 基于多模态深度学习的无人机视频标签获取方法

Info

Publication number: CN110853032B
Application number: CN201911146496.2A
Authority: CN
Inventors: 周彬; 匡麒; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-11-01
Anticipated expiration: 2039-11-21
Also published as: US20210158008A1; US11568637B2; CN110853032A

Abstract

本发明提供了一种基于多模态深度学习的无人机视频美学质量评价方法，建立无人机视频美学评价数据集，通过多模态神经网络对无人机视频进行分析并提取高维特征，然后融合，从而实现无人机视频美学质量的评价。主要包括四大步骤，步骤一：建立无人机视频美学评价数据集，根据视频拍摄质量分为正样本和负样本；步骤二：利用SLAM技术，恢复无人机的飞行轨迹并重建出稀疏的场景三维结构；步骤三：通过多模态神经网络对输入无人机视频分别在图像分支、运动分支、结构分支上提取特征；步骤四：对多个分支上的特征进行融合，得到最终的视频美学标签和视频场景类型。本发明实验验证，具有可行性、准确性和通用性，可用于无人机视频的美学评价、拍摄轨迹推荐等。

Description

基于多模态深度学习的无人机视频标签获取方法

技术领域

本发明涉及一种基于多模态深度学习的无人机视频美学质量评价方法，建立无人机视频美学评价数据集，通过多模态神经网络对无人机视频进行分析并提取高维特征，然后融合，从而实现无人机视频美学质量的评价，具有一定的有效性和通用性，属于计算机视觉领域。

背景技术

随着照相机、智能手机的快速普及，可视内容感知理解已成为计算机视觉、计算机摄像学等领域的研究方向。图像与视频美学质量评价是可视内容感知理解方向中的分支。图像与视频美学质量评价旨在利用计算机模拟人类对美的感知与认知，自动评价图像与视频的美感。近些年来，一些科研工作者在相关技术上开展了研究。人们针对图像在构图、颜色、光影、景深等方面进行分析，针对视频除了考虑每一帧的图像的美学因素外，还研究了相机运动、画面连续性等视频相关特点。

2004年，微软亚洲研究院与清华大学自动化系联合提出了一种能够自动区分专业摄影师和普通用户拍摄的照片。随后大部分美学质量评价通过设计多种美学特征拟合人类对美学质量评价结果，从而对图像视频进行自动分类和数值评价。

但这些研究没有考虑不同内容具有不同的美学特征，这样对分类和评分的效果有很大影响。2014年以来图像美感分类与评分进入深度学习时代，研究人员用卷积神经网络对图像进行美感分类和评分，其分类准确率与手工设计的特征相比有较大提高。视频美感分类与评分由于数据集较少，因此相关工作还比较少涉及深度学习。

然而这些方法都是针对传统的视频和图像，对于航空摄影这一类型的视频，相关特性并没有得到充分利用。无人机现在已经用于各个领域，其中很重要的一项应用就是摄影。随着消费级无人机的发展和普及，航空摄影不再像之前一样需要专业昂贵的设备。然而航空摄影还是需要操作人员具有一定的专业知识和经验，因此业余爱好者也不太容易拍摄出质量很好的航拍作品。为了使无人机更加智能化以及航拍作品更具美感，无人机视频美学质量评价也成为人们关注的热点之一，其可以应用于无人机的智能拍摄，航拍视频网站自动评级，航拍视频自动剪辑等方面。

2016年，中国有线电视网络有限公司的梁自强在《电视研究》上发表了一篇论无人机航拍与纪录片的影像创意及美学探索的文章，探讨了无人机航拍运用到纪录片创作中带来的革新。2017年北京大学的熊晓亮等人提出了基于美学评价的无人机摄像方法和***的专利，基于美学评价算法来计算无人机拍摄图像的美学评分。该方法仅对图像进行美学评分，不能对无人机拍摄的视频进行美学质量评价。

发明内容

本发明技术解决问题：提供一种基于多模态深度学习的无人机视频美学质量评价方法，通过多模态神经网络对无人机视频进行分析并提取高维特征，然后融合，从而实现无人机视频美学质量的抽象表达。最终实现对无人机视频进行美学质量评价的目的。

本发明采用的技术方案是：一种基于多模态深度学习的无人机视频美学质量评价方法，包括以下步骤：

(1)统计无人机***、拍摄地点、拍摄方式、场景类型，建立无人机视频美学评价数据集，并根据网络评分以及拍摄质量将所述数据集划分为正样本和负样本；正样本为专业无人机视频，来源于网络评分高于8.0(满分10.0)的专业人士拍摄的航拍纪录片或电影片段，负样本为业余无人机视频，来源于业余爱好者使用消费级无人机拍摄的视频；

(2)对于无人机视频美学评价数据集中的无人机视频，利用SLAM技术，根据无人机视频中帧与帧之间的关联，恢复出相机的位姿，即无人机的飞行轨迹以及拍摄镜头的朝向，并重建出稀疏的场景三维结构，相机的位姿和场景结构均归一化处理；

(3)把无人机视频输入到多模态神经网络中，多模态神经网络结构主要分三个分支：图像分支、运动分支和结构分支。图像分支的输入为视频原始帧，运动分支和结构分支的输入分别为步骤(2)中无人机的飞行轨迹以及拍摄镜头的朝向和稀疏的场景三维结构。通过多模态深度学习分别在三个分支上提取视频帧图像美学特征、相机运动特征、拍摄场景结构特征；

(4)对步骤(3)中提取到的视频帧图像美学特征、相机运动特征、拍摄场景结构特征进行融合作为视频的美学特征，通过添加视频场景类型分类的子任务，区分视频场景类型为山川、河流、平原或是建筑，提高多模态神经网络模型的泛化能力和学习效果，最终得到无人机视频美学标签作为无人机视频美学质量评价结果，即视频为专业无人机视频或是业余无人机视频，以及视频场景类型。所述步骤(1)具体实现如下：

(1.1)建立一个无人机视频美学评价数据集，数据集中的每一段视频均是完整的一个拍摄镜头片段，并且不带有水印、台标、边框的无关噪声；

(1.2)统计每段***于视频网站还是纪录片，视频的拍摄地点，无人机视频的拍摄方式，即旋转拍摄、前行拍摄、侧飞拍摄或是后退拍摄，以及视频的场景类型为山川、河流、平原或是建筑；

(1.3)根据视频的拍摄质量、网络评分以及***，将数据集中专业的无人机视频作为正样本，业余的无人机视频作为负样本。

所述步骤(2)具体实现如下：

(2.1)提取无人机视频的每一帧，得到图像序列，对图像序列中的每个图像进行光度标定以消除光照变化带来的影响；

(2.2)利用SLAM计算相机的位姿，得到无人机的飞行轨迹以及拍摄镜头的朝向，同时并重建出稀疏的场景三维结构，相机的位姿和场景结构均归一化处理。

所述步骤(3)具体实现如下：

(3.1)多模态神经网络的三个分支主要是由卷积神经网络组成，在图像分支上，将视频原始帧输入到卷积神经网络中，提取每一帧图像的特征，然后输入到长短期记忆网络LSTM，使离散的单帧特征按照时间序列重新联系在一起，最后的输出作为视频帧图像美学特征；

(3.2)在运动分支上，将(2.2)得到的无人机飞行轨迹和镜头朝向作为卷积神经网络的输入，卷积层之间包含激活层ReLu和批标准化层BN(Batch Normalization)，经过四层卷积层后得到相机运动特征；

(3.3)在结构分支上，将(2.2)得到的稀疏的场景三维结构作为卷积神经网络的输入，得到拍摄场景结构特征。

所述步骤(4)具体实现如下：

(4.1)将步骤(3)中在三个分支得到的特征通过融合层(Concatenate)进行融合，即将视频帧图像美学特征、相机运动特征、拍摄场景结构特征拼接在一起，作为视频的美学特征；

(4.2)将视频的美学特征作为输入，再经过两个全连接层，多模态神经网络的最终输出为一个六维向量，其中前两维表示无人机视频美学标签，即视频为专业无人机视频或是业余无人机视频，后四维表示视频场景类型，即视频场景类型为山川、河流、平原或是建筑。

本发明与现有技术相比，其有益的特点是：

(1)本发明基于多模态深度学习的无人机视频美学质量评价方法，结合深度学习对无人机视频提取美学特征，克服了当前方法人工设计美学特征时针对不同内容不能有效区分的限制，可以很好地自动提取视频美学特征。

(2)本发明的方法从图像分支、运动分支、结构分支三个分支提取无人机视频美学特征，结合图像视频以及无人机飞行的特点对视频美学质量评价，解决了无人机视频美学质量评价准则单一的问题。

(3)本发明的方法添加场景类型分类子任务，以促进美学评价任务的学习，能得到更高的准确率和更快的收敛速度。

(4)本发明的方法具有很强的鲁棒性，不受光照变化、画质模糊等影响。

附图说明

图1是本发明的流程图；

图2是本发明的运动分支深度神经网络结构设计示意图；

图3是本发明的多模态深度神经网络结构整体设计示意图；

图4是本发明的基于多模态深度学习的无人机视频美学质量评价的应用样例图；

图5是本发明的无人机视频专业片段检测的应用样例图。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图对本发明的具体实施方式作进一步描述。

如图1所示，本发明的流程图。本发明的总体目标在于提出一种基于多模态深度学***移和相机的旋转，并重建出稀疏的场景三维结构；通过多模态神经网络，对输入无人机视频分别在图像分支、运动分支、结构分支上提取特征；对多个分支上的特征进行融合，得到最终的视频美学标签和视频场景类型。

如图2所示，本发明的运动分支深度神经网络结构设计示意图：无人机十分灵活，在空中能够以各种视角拍摄图像和视频。相较于普通的在地面上拍摄的视频，航拍视频在高度变化上更明显，相机的运动方式也不同于常见的方式。因此本发明的多模态深度神经网络添加一个运动分支来利用无人机视频相机运动方式的特点对视频美学质量评价。首先利用SLAM恢复相机位姿，并以平移向量x,y,z和四元数q₁,q₂,q₃,q₄来表示相机的运动，由于机载相机跟随无人机平移，因此平移向量实际代表了无人机的平移，四元数代表相机的旋转。输入到神经网络中向量长度需要固定，因此将轨迹用1024×7向量表示，也就是轨迹由1024个点组成，每个点均由一个平移向量和四元数组成的7维向量表示。当点的个数不够时需要插值补充，对于平移向量采用线性插值，由于四元数表示旋转，因此采用球形线性插值(Spherical Linear Interpolation)，在四元数t_m-1和t_m之间第k个需要插值的点t_k表示为:

其中，n表示需要插值到任意两个四元数t_m-1和t_m之间的点的数量，θ是由t_m-1和t_m计算出的圆心角。

将无人机轨迹转为统一格式后输入到运动分支深度神经网络中，运动分支深度神经网络通过4个卷积层提取轨迹的高维特征，其中前两个卷积核为3×1，后两个卷积核为 1×1，因为代表轨迹的点与点之间有关联，而7维向量之间没有关联，因此卷积的大小只能为1，通道数分别为{32；64；128；256}，主要目的是提高每个点的维数，从而提高特征的表征能力。

如图3所示，本发明的多模态深度神经网络结构整体设计示意图：在考虑视频美学质量时，通常会借鉴图像美学质量，视频的每一帧图像美学质量低的话那么视频美学质量也不会高。因此本发明的方法利用图像分支来考虑图像美学的影响。图像分支利用原始视频帧的信息，使用卷积神经网络的残差网络提取图像的高维特征，然而帧与帧之间有很强的关联性，因此通过长短期记忆网络(LSTM)学习视频序列的特征。由于不同视频的长短也不同，因此在输入到图像分支神经网络之前进行下采样。运动分支是根据原始视频帧来恢复和估计无人机的飞行轨迹以及机载相机的运动，然后将一系列表示相机运动的离散的点进行球面线性插值，从而得到固定长度的相机运动轨迹作为运动分支神经网络的输入。之后通过卷积神经网络利用相邻点之间的联系，得到相机运动的高维特征。

在无人机拍摄视频时，不同的场景结构对于航拍视频最后的内容也有影响。因此在本发明的多模态深度神经网络中添加结构分支以便利用拍摄场景的结构对无人机视频美学质量评价。首先根据原始视频帧利用SLAM重建出场景的稀疏点云，得到的场景三维结构，然后通过点云滤波，将点云下采样到4096个点，每个点用3维向量(x,y,z)表示，输入到结构分支神经网络中，利用点云分类神经网络PointNet提取高维特征。在提取到多模态高维特征后，对三个分支进行融合。

在融合多个分支的特征时，采用早融合(Early fusion)方式。早融合主要是融合层靠前，在分支中间的全连接层提取特征并融合，此时每个分支相当于一个特征提取器，融合后的特征再经过两个全连接层得到最后的美学标签和场景类型。最优的融合权重可以通过分类器学习：

其中，y表示真实的标签，σ(z)表示实际的输出，N为样本的数量，w和b为神经网络的参数。

经过融合层后利用多任务学习，添加场景类型分类任务以便促进无人机视频美学质量评价任务学习，最终得到无人机视频美学标签以及场景类型。表1是无人机视频美学质量数据集上美学分类和场景类型分类准确率比较(％)。通过表1可以看出,本发明的方法结合多分支准确率高于任何单一分支的准确率。

表1美学分类和场景类型分类准确率比较(％)

方法	美学分类	场景类型
方法	美学分类	场景类型	图像分支	78.74	75.13
运动分支	78.02	37.89	图像分支	78.74	75.13
运动分支	78.02	37.89	结构分支	67.52	35.58
多分支早融合	89.12	78.62	结构分支	67.52	35.58

如图4所示，本发明的基于多模态深度学习的无人机视频美学质量评价的应用样例图。对于一个无人机视频，首先以镜头为单位将无人机视频切割成各个镜头，将每个镜头输入到多模态神经网络中，将最后得到的美学标签的概率作为美学分数，再将分数融合最后得到整段无人机视频的评价分数a：

其中，a_n表示镜头n的美学分数，m_n表示帧数。从图中可以看出对于互联网上的无人机视频本发明方法能够对其进行美学质量评分。

如图5所示，本发明的无人机视频专业片段检测的应用样例图。普通用户由于缺少相关专业知识和经验，拍摄无人机视频的质量并不理想，图示本发明方法在长段无人机视频中检测美学质量高的片段作为专业片段，能够实现无人机视频的智能自动剪辑。首先将长段视频切割成若干片段s₁,s₂…s_n，相机运动和场景结构也能够通过SLAM得到，然后在各个片段中选取美学分数最高的几个片段：

其中，h表示多模态深度神经网络对视频的美学质量预测结果，s为视频片段，c为相机运动，p为场景结构。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种基于多模态深度学习的无人机视频标签获取方法，其特征在于，包括以下步骤：

（1）统计无人机***、拍摄地点、拍摄方式、场景类型，建立无人机视频美学评价数据集，并根据网络评分以及拍摄质量将所述数据集划分为正样本和负样本；正样本为专业无人机视频，来源于网络评分高于8.0，其中满分10.0的专业人士拍摄的航拍纪录片或电影片段，负样本为业余无人机视频，来源于业余爱好者使用消费级无人机拍摄的视频；

（2）对于无人机视频美学评价数据集中的无人机视频，利用SLAM（SimultaneousLocalization And Mapping 即时定位与建图算法）技术，根据无人机视频中帧与帧之间的关联，恢复出相机的位姿，即无人机的飞行轨迹以及拍摄镜头的朝向，并重建出稀疏的场景三维结构，相机的位姿和场景结构均归一化处理；

（3）把无人机视频输入到多模态神经网络中，多模态神经网络结构分为三个分支：图像分支、运动分支和结构分支；图像分支的输入为视频原始帧，运动分支和结构分支的输入分别为步骤（2）中无人机的飞行轨迹以及拍摄镜头的朝向和稀疏的场景三维结构；通过多模态深度学习分别在三个分支上提取视频帧图像美学特征、相机运动特征和拍摄场景结构特征；

（4）对步骤（3）中提取到的视频帧图像美学特征、相机运动特征和拍摄场景结构特征进行融合作为视频的美学特征，通过添加视频场景类型分类的子任务，区分视频场景类型为山川、河流、平原或是建筑，提高多模态神经网络模型的泛化能力和学习效果，最终得到无人机视频美学标签作为无人机视频美学质量评价结果，即视频为专业无人机视频或是业余无人机视频。

2.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法，其特征在于：所述步骤（1）具体实现如下：

（2.1）建立一个无人机视频美学评价数据集，数据集中的每一段视频均是完整的一个拍摄镜头片段，并且不带有水印、台标、边框的无关噪声；

（2.2）统计每段***于视频网站还是纪录片，视频的拍摄地点，无人机视频的拍摄方式，即旋转拍摄、前行拍摄、侧飞拍摄或是后退拍摄以及视频的场景类型为山川、河流、平原或是建筑；

（2.3）根据视频的拍摄质量、网络评分以及***，将数据集中专业的无人机视频作为正样本，业余的无人机视频作为负样本。

3.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法，其特征在于：所述步骤（2）具体实现如下：

（3.1）提取无人机视频的每一帧，得到图像序列，对图像序列中的每个图像进行光度标定以消除光照变化带来的影响；

（3.2）利用SLAM计算相机的位姿，得到无人机的飞行轨迹以及拍摄镜头的朝向，同时并重建出稀疏的场景三维结构，相机的位姿和场景结构均归一化处理。

4.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法，其特征在于：所述步骤（3）具体实现如下：

（4.1）多模态神经网络的三个分支主要是由卷积神经网络组成，在图像分支上，将视频原始帧输入到卷积神经网络中，提取每一帧图像的特征，然后输入到长短期记忆网络LSTM，使离散的单帧特征按照时间序列重新联系在一起，最后的输出作为视频帧图像美学特征；

（4.2）在运动分支上，将（3.2）得到的无人机飞行轨迹和镜头朝向作为卷积神经网络的输入，卷积层之间包含激活层ReLu和批标准化层BN（Batch Normalization），经过四层卷积层后得到相机运动特征；

（4.3）在结构分支上，将（3.2）得到的稀疏的场景三维结构作为卷积神经网络的输入，得到拍摄场景结构特征。

5.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法，其特征在于：所述步骤（4）具体实现如下：

（5.1）将步骤（3）中在三个分支得到的特征通过融合层(Concatenate)进行融合，即将视频帧图像美学特征、相机运动特征、拍摄场景结构特征拼接在一起，作为视频的美学特征；

（5.2）将视频的美学特征作为输入，再经过两个全连接层，多模态神经网络的最终输出为一个六维向量，其中前两维表示无人机视频美学标签，即视频为专业无人机视频或是业余无人机视频，后四维表示视频场景类型，即视频场景类型为山川、河流、平原或是建筑。