CN110853032B - 基于多模态深度学习的无人机视频标签获取方法 - Google Patents
基于多模态深度学习的无人机视频标签获取方法 Download PDFInfo
- Publication number
- CN110853032B CN110853032B CN201911146496.2A CN201911146496A CN110853032B CN 110853032 B CN110853032 B CN 110853032B CN 201911146496 A CN201911146496 A CN 201911146496A CN 110853032 B CN110853032 B CN 110853032B
- Authority
- CN
- China
- Prior art keywords
- video
- unmanned aerial
- aerial vehicle
- aesthetic
- shooting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000013441 quality evaluation Methods 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000005286 illumination Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 230000015654 memory Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 2
- 230000004807 localization Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64C—AEROPLANES; HELICOPTERS
- B64C39/00—Aircraft not otherwise provided for
- B64C39/02—Aircraft not otherwise provided for characterised by special use
- B64C39/024—Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G5/00—Traffic control systems for aircraft, e.g. air-traffic control [ATC]
- G08G5/003—Flight plan management
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64U—UNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
- B64U2101/00—UAVs specially adapted for particular uses or applications
- B64U2101/30—UAVs specially adapted for particular uses or applications for imaging, photography or videography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/004—Predictors, e.g. intraframe, interframe coding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Astronomy & Astrophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于多模态深度学习的无人机视频美学质量评价方法,建立无人机视频美学评价数据集,通过多模态神经网络对无人机视频进行分析并提取高维特征,然后融合,从而实现无人机视频美学质量的评价。主要包括四大步骤,步骤一:建立无人机视频美学评价数据集,根据视频拍摄质量分为正样本和负样本;步骤二:利用SLAM技术,恢复无人机的飞行轨迹并重建出稀疏的场景三维结构;步骤三:通过多模态神经网络对输入无人机视频分别在图像分支、运动分支、结构分支上提取特征;步骤四:对多个分支上的特征进行融合,得到最终的视频美学标签和视频场景类型。本发明实验验证,具有可行性、准确性和通用性,可用于无人机视频的美学评价、拍摄轨迹推荐等。
Description
技术领域
本发明涉及一种基于多模态深度学习的无人机视频美学质量评价方法,建立无人机视频美学评价数据集,通过多模态神经网络对无人机视频进行分析并提取高维特征,然后融合,从而实现无人机视频美学质量的评价,具有一定的有效性和通用性,属于计算机视觉领域。
背景技术
随着照相机、智能手机的快速普及,可视内容感知理解已成为计算机视觉、计算机摄像学等领域的研究方向。图像与视频美学质量评价是可视内容感知理解方向中的分支。图像与视频美学质量评价旨在利用计算机模拟人类对美的感知与认知,自动评价图像与视频的美感。近些年来,一些科研工作者在相关技术上开展了研究。人们针对图像在构图、颜色、光影、景深等方面进行分析,针对视频除了考虑每一帧的图像的美学因素外,还研究了相机运动、画面连续性等视频相关特点。
2004年,微软亚洲研究院与清华大学自动化系联合提出了一种能够自动区分专业摄影师和普通用户拍摄的照片。随后大部分美学质量评价通过设计多种美学特征拟合人类对美学质量评价结果,从而对图像视频进行自动分类和数值评价。
但这些研究没有考虑不同内容具有不同的美学特征,这样对分类和评分的效果有很大影响。2014年以来图像美感分类与评分进入深度学习时代,研究人员用卷积神经网络对图像进行美感分类和评分,其分类准确率与手工设计的特征相比有较大提高。视频美感分类与评分由于数据集较少,因此相关工作还比较少涉及深度学习。
然而这些方法都是针对传统的视频和图像,对于航空摄影这一类型的视频,相关特性并没有得到充分利用。无人机现在已经用于各个领域,其中很重要的一项应用就是摄影。随着消费级无人机的发展和普及,航空摄影不再像之前一样需要专业昂贵的设备。然而航空摄影还是需要操作人员具有一定的专业知识和经验,因此业余爱好者也不太容易拍摄出质量很好的航拍作品。为了使无人机更加智能化以及航拍作品更具美感,无人机视频美学质量评价也成为人们关注的热点之一,其可以应用于无人机的智能拍摄,航拍视频网站自动评级,航拍视频自动剪辑等方面。
2016年,中国有线电视网络有限公司的梁自强在《电视研究》上发表了一篇论无人机航拍与纪录片的影像创意及美学探索的文章,探讨了无人机航拍运用到纪录片创作中带来的革新。2017年北京大学的熊晓亮等人提出了基于美学评价的无人机摄像方法和***的专利,基于美学评价算法来计算无人机拍摄图像的美学评分。该方法仅对图像进行美学评分,不能对无人机拍摄的视频进行美学质量评价。
发明内容
本发明技术解决问题:提供一种基于多模态深度学习的无人机视频美学质量评价方法,通过多模态神经网络对无人机视频进行分析并提取高维特征,然后融合,从而实现无人机视频美学质量的抽象表达。最终实现对无人机视频进行美学质量评价的目的。
本发明采用的技术方案是:一种基于多模态深度学习的无人机视频美学质量评价方法,包括以下步骤:
(1)统计无人机***、拍摄地点、拍摄方式、场景类型,建立无人机视频美学评价数据集,并根据网络评分以及拍摄质量将所述数据集划分为正样本和负样本;正样本为专业无人机视频,来源于网络评分高于8.0(满分10.0)的专业人士拍摄的航拍纪录片或电影片段,负样本为业余无人机视频,来源于业余爱好者使用消费级无人机拍摄的视频;
(2)对于无人机视频美学评价数据集中的无人机视频,利用SLAM技术,根据无人机视频中帧与帧之间的关联,恢复出相机的位姿,即无人机的飞行轨迹以及拍摄镜头的朝向,并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理;
(3)把无人机视频输入到多模态神经网络中,多模态神经网络结构主要分三个分支:图像分支、运动分支和结构分支。图像分支的输入为视频原始帧,运动分支和结构分支的输入分别为步骤(2)中无人机的飞行轨迹以及拍摄镜头的朝向和稀疏的场景三维结构。通过多模态深度学习分别在三个分支上提取视频帧图像美学特征、相机运动特征、拍摄场景结构特征;
(4)对步骤(3)中提取到的视频帧图像美学特征、相机运动特征、拍摄场景结构特征进行融合作为视频的美学特征,通过添加视频场景类型分类的子任务,区分视频场景类型为山川、河流、平原或是建筑,提高多模态神经网络模型的泛化能力和学习效果,最终得到无人机视频美学标签作为无人机视频美学质量评价结果,即视频为专业无人机视频或是业余无人机视频,以及视频场景类型。所述步骤(1)具体实现如下:
(1.1)建立一个无人机视频美学评价数据集,数据集中的每一段视频均是完整的一个拍摄镜头片段,并且不带有水印、台标、边框的无关噪声;
(1.2)统计每段***于视频网站还是纪录片,视频的拍摄地点,无人机视频的拍摄方式,即旋转拍摄、前行拍摄、侧飞拍摄或是后退拍摄,以及视频的场景类型为山川、河流、平原或是建筑;
(1.3)根据视频的拍摄质量、网络评分以及***,将数据集中专业的无人机视频作为正样本,业余的无人机视频作为负样本。
所述步骤(2)具体实现如下:
(2.1)提取无人机视频的每一帧,得到图像序列,对图像序列中的每个图像进行光度标定以消除光照变化带来的影响;
(2.2)利用SLAM计算相机的位姿,得到无人机的飞行轨迹以及拍摄镜头的朝向,同时并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理。
所述步骤(3)具体实现如下:
(3.1)多模态神经网络的三个分支主要是由卷积神经网络组成,在图像分支上,将视频原始帧输入到卷积神经网络中,提取每一帧图像的特征,然后输入到长短期记忆网络LSTM,使离散的单帧特征按照时间序列重新联系在一起,最后的输出作为视频帧图像美学特征;
(3.2)在运动分支上,将(2.2)得到的无人机飞行轨迹和镜头朝向作为卷积神经网络的输入,卷积层之间包含激活层ReLu和批标准化层BN(Batch Normalization),经过四层卷积层后得到相机运动特征;
(3.3)在结构分支上,将(2.2)得到的稀疏的场景三维结构作为卷积神经网络的输入,得到拍摄场景结构特征。
所述步骤(4)具体实现如下:
(4.1)将步骤(3)中在三个分支得到的特征通过融合层(Concatenate)进行融合,即将视频帧图像美学特征、相机运动特征、拍摄场景结构特征拼接在一起,作为视频的美学特征;
(4.2)将视频的美学特征作为输入,再经过两个全连接层,多模态神经网络的最终输出为一个六维向量,其中前两维表示无人机视频美学标签,即视频为专业无人机视频或是业余无人机视频,后四维表示视频场景类型,即视频场景类型为山川、河流、平原或是建筑。
本发明与现有技术相比,其有益的特点是:
(1)本发明基于多模态深度学习的无人机视频美学质量评价方法,结合深度学习对无人机视频提取美学特征,克服了当前方法人工设计美学特征时针对不同内容不能有效区分的限制,可以很好地自动提取视频美学特征。
(2)本发明的方法从图像分支、运动分支、结构分支三个分支提取无人机视频美学特征,结合图像视频以及无人机飞行的特点对视频美学质量评价,解决了无人机视频美学质量评价准则单一的问题。
(3)本发明的方法添加场景类型分类子任务,以促进美学评价任务的学习,能得到更高的准确率和更快的收敛速度。
(4)本发明的方法具有很强的鲁棒性,不受光照变化、画质模糊等影响。
附图说明
图1是本发明的流程图;
图2是本发明的运动分支深度神经网络结构设计示意图;
图3是本发明的多模态深度神经网络结构整体设计示意图;
图4是本发明的基于多模态深度学习的无人机视频美学质量评价的应用样例图;
图5是本发明的无人机视频专业片段检测的应用样例图。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明的具体实施方式作进一步描述。
如图1所示,本发明的流程图。本发明的总体目标在于提出一种基于多模态深度学***移和相机的旋转,并重建出稀疏的场景三维结构;通过多模态神经网络,对输入无人机视频分别在图像分支、运动分支、结构分支上提取特征;对多个分支上的特征进行融合,得到最终的视频美学标签和视频场景类型。
如图2所示,本发明的运动分支深度神经网络结构设计示意图:无人机十分灵活,在空中能够以各种视角拍摄图像和视频。相较于普通的在地面上拍摄的视频,航拍视频在高度变化上更明显,相机的运动方式也不同于常见的方式。因此本发明的多模态深度神经网络添加一个运动分支来利用无人机视频相机运动方式的特点对视频美学质量评价。首先利用SLAM恢复相机位姿,并以平移向量x,y,z和四元数q1,q2,q3,q4来表示相机的运动,由于机载相机跟随无人机平移,因此平移向量实际代表了无人机的平移,四元数代表相机的旋转。输入到神经网络中向量长度需要固定,因此将轨迹用1024×7向量表示,也就是轨迹由1024个点组成,每个点均由一个平移向量和四元数组成的7维向量表示。当点的个数不够时需要插值补充,对于平移向量采用线性插值,由于四元数表示旋转,因此采用球形线性插值(Spherical Linear Interpolation),在四元数tm-1和tm之间第k个需要插值的点tk表示为:
其中,n表示需要插值到任意两个四元数tm-1和tm之间的点的数量,θ是由tm-1和tm计算出的圆心角。
将无人机轨迹转为统一格式后输入到运动分支深度神经网络中,运动分支深度神经网络通过4个卷积层提取轨迹的高维特征,其中前两个卷积核为3×1,后两个卷积核为 1×1,因为代表轨迹的点与点之间有关联,而7维向量之间没有关联,因此卷积的大小只能为1,通道数分别为{32;64;128;256},主要目的是提高每个点的维数,从而提高特征的表征能力。
如图3所示,本发明的多模态深度神经网络结构整体设计示意图:在考虑视频美学质量时,通常会借鉴图像美学质量,视频的每一帧图像美学质量低的话那么视频美学质量也不会高。因此本发明的方法利用图像分支来考虑图像美学的影响。图像分支利用原始视频帧的信息,使用卷积神经网络的残差网络提取图像的高维特征,然而帧与帧之间有很强的关联性,因此通过长短期记忆网络(LSTM)学习视频序列的特征。由于不同视频的长短也不同,因此在输入到图像分支神经网络之前进行下采样。运动分支是根据原始视频帧来恢复和估计无人机的飞行轨迹以及机载相机的运动,然后将一系列表示相机运动的离散的点进行球面线性插值,从而得到固定长度的相机运动轨迹作为运动分支神经网络的输入。之后通过卷积神经网络利用相邻点之间的联系,得到相机运动的高维特征。
在无人机拍摄视频时,不同的场景结构对于航拍视频最后的内容也有影响。因此在本发明的多模态深度神经网络中添加结构分支以便利用拍摄场景的结构对无人机视频美学质量评价。首先根据原始视频帧利用SLAM重建出场景的稀疏点云,得到的场景三维结构,然后通过点云滤波,将点云下采样到4096个点,每个点用3维向量(x,y,z)表示,输入到结构分支神经网络中,利用点云分类神经网络PointNet提取高维特征。在提取到多模态高维特征后,对三个分支进行融合。
在融合多个分支的特征时,采用早融合(Early fusion)方式。早融合主要是融合层靠前,在分支中间的全连接层提取特征并融合,此时每个分支相当于一个特征提取器,融合后的特征再经过两个全连接层得到最后的美学标签和场景类型。最优的融合权重可以通过分类器学习:
其中,y表示真实的标签,σ(z)表示实际的输出,N为样本的数量,w和b为神经网络的参数。
经过融合层后利用多任务学习,添加场景类型分类任务以便促进无人机视频美学质量评价任务学习,最终得到无人机视频美学标签以及场景类型。表1是无人机视频美学质量数据集上美学分类和场景类型分类准确率比较(%)。通过表1可以看出,本发明的方法结合多分支准确率高于任何单一分支的准确率。
表1美学分类和场景类型分类准确率比较(%)
方法 | 美学分类 | 场景类型 |
图像分支 | 78.74 | 75.13 |
运动分支 | 78.02 | 37.89 |
结构分支 | 67.52 | 35.58 |
多分支早融合 | 89.12 | 78.62 |
如图4所示,本发明的基于多模态深度学习的无人机视频美学质量评价的应用样例图。对于一个无人机视频,首先以镜头为单位将无人机视频切割成各个镜头,将每个镜头输入到多模态神经网络中,将最后得到的美学标签的概率作为美学分数,再将分数融合最后得到整段无人机视频的评价分数a:
其中,an表示镜头n的美学分数,mn表示帧数。从图中可以看出对于互联网上的无人机视频本发明方法能够对其进行美学质量评分。
如图5所示,本发明的无人机视频专业片段检测的应用样例图。普通用户由于缺少相关专业知识和经验,拍摄无人机视频的质量并不理想,图示本发明方法在长段无人机视频中检测美学质量高的片段作为专业片段,能够实现无人机视频的智能自动剪辑。首先将长段视频切割成若干片段s1,s2…sn,相机运动和场景结构也能够通过SLAM得到,然后在各个片段中选取美学分数最高的几个片段:
其中,h表示多模态深度神经网络对视频的美学质量预测结果,s为视频片段,c为相机运动,p为场景结构。
以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。
Claims (5)
1.一种基于多模态深度学习的无人机视频标签获取方法,其特征在于,包括以下步骤:
(1)统计无人机***、拍摄地点、拍摄方式、场景类型,建立无人机视频美学评价数据集,并根据网络评分以及拍摄质量将所述数据集划分为正样本和负样本;正样本为专业无人机视频,来源于网络评分高于8.0,其中满分10.0的专业人士拍摄的航拍纪录片或电影片段,负样本为业余无人机视频,来源于业余爱好者使用消费级无人机拍摄的视频;
(2)对于无人机视频美学评价数据集中的无人机视频,利用SLAM(SimultaneousLocalization And Mapping 即时定位与建图算法)技术,根据无人机视频中帧与帧之间的关联,恢复出相机的位姿,即无人机的飞行轨迹以及拍摄镜头的朝向,并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理;
(3)把无人机视频输入到多模态神经网络中,多模态神经网络结构分为三个分支:图像分支、运动分支和结构分支;图像分支的输入为视频原始帧,运动分支和结构分支的输入分别为步骤(2)中无人机的飞行轨迹以及拍摄镜头的朝向和稀疏的场景三维结构;通过多模态深度学习分别在三个分支上提取视频帧图像美学特征、相机运动特征和拍摄场景结构特征;
(4)对步骤(3)中提取到的视频帧图像美学特征、相机运动特征和拍摄场景结构特征进行融合作为视频的美学特征,通过添加视频场景类型分类的子任务,区分视频场景类型为山川、河流、平原或是建筑,提高多模态神经网络模型的泛化能力和学习效果,最终得到无人机视频美学标签作为无人机视频美学质量评价结果,即视频为专业无人机视频或是业余无人机视频。
2.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法,其特征在于:所述步骤(1)具体实现如下:
(2.1)建立一个无人机视频美学评价数据集,数据集中的每一段视频均是完整的一个拍摄镜头片段,并且不带有水印、台标、边框的无关噪声;
(2.2)统计每段***于视频网站还是纪录片,视频的拍摄地点,无人机视频的拍摄方式,即旋转拍摄、前行拍摄、侧飞拍摄或是后退拍摄以及视频的场景类型为山川、河流、平原或是建筑;
(2.3)根据视频的拍摄质量、网络评分以及***,将数据集中专业的无人机视频作为正样本,业余的无人机视频作为负样本。
3.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法,其特征在于:所述步骤(2)具体实现如下:
(3.1)提取无人机视频的每一帧,得到图像序列,对图像序列中的每个图像进行光度标定以消除光照变化带来的影响;
(3.2)利用SLAM计算相机的位姿,得到无人机的飞行轨迹以及拍摄镜头的朝向,同时并重建出稀疏的场景三维结构,相机的位姿和场景结构均归一化处理。
4.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法,其特征在于:所述步骤(3)具体实现如下:
(4.1)多模态神经网络的三个分支主要是由卷积神经网络组成,在图像分支上,将视频原始帧输入到卷积神经网络中,提取每一帧图像的特征,然后输入到长短期记忆网络LSTM,使离散的单帧特征按照时间序列重新联系在一起,最后的输出作为视频帧图像美学特征;
(4.2)在运动分支上,将(3.2)得到的无人机飞行轨迹和镜头朝向作为卷积神经网络的输入,卷积层之间包含激活层ReLu和批标准化层BN(Batch Normalization),经过四层卷积层后得到相机运动特征;
(4.3)在结构分支上,将(3.2)得到的稀疏的场景三维结构作为卷积神经网络的输入,得到拍摄场景结构特征。
5.根据权利要求1所述的基于多模态深度学习的无人机视频标签获取方法,其特征在于:所述步骤(4)具体实现如下:
(5.1)将步骤(3)中在三个分支得到的特征通过融合层(Concatenate)进行融合,即将视频帧图像美学特征、相机运动特征、拍摄场景结构特征拼接在一起,作为视频的美学特征;
(5.2)将视频的美学特征作为输入,再经过两个全连接层,多模态神经网络的最终输出为一个六维向量,其中前两维表示无人机视频美学标签,即视频为专业无人机视频或是业余无人机视频,后四维表示视频场景类型,即视频场景类型为山川、河流、平原或是建筑。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146496.2A CN110853032B (zh) | 2019-11-21 | 2019-11-21 | 基于多模态深度学习的无人机视频标签获取方法 |
US16/997,825 US11568637B2 (en) | 2019-11-21 | 2020-08-19 | UAV video aesthetic quality evaluation method based on multi-modal deep learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146496.2A CN110853032B (zh) | 2019-11-21 | 2019-11-21 | 基于多模态深度学习的无人机视频标签获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853032A CN110853032A (zh) | 2020-02-28 |
CN110853032B true CN110853032B (zh) | 2022-11-01 |
Family
ID=69603191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911146496.2A Active CN110853032B (zh) | 2019-11-21 | 2019-11-21 | 基于多模态深度学习的无人机视频标签获取方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11568637B2 (zh) |
CN (1) | CN110853032B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11330263B1 (en) * | 2020-12-03 | 2022-05-10 | Synamedia Limited | Machine learning based coded size estimation in rate control of video encoding |
CN112651986B (zh) * | 2020-12-25 | 2024-05-24 | 北方工业大学 | 环境识别方法、识别装置、识别***、电子设备及介质 |
WO2022141369A1 (en) * | 2020-12-31 | 2022-07-07 | SZ DJI Technology Co., Ltd. | Systems and methods for supporting automatic video capture and video editing |
CN112767386B (zh) * | 2021-02-01 | 2022-09-06 | 福州大学 | 基于主题特征和评分分布的图像美学质量评价方法及*** |
CN113283782A (zh) * | 2021-06-09 | 2021-08-20 | 上海韵焰智能科技有限公司 | 一种基于美学评估的夜景照明控制方法及*** |
CN113536989B (zh) * | 2021-06-29 | 2024-06-18 | 广州博通信息技术有限公司 | 基于摄像视频逐帧分析的制冷机结霜监控方法及*** |
CN113920394B (zh) * | 2021-09-24 | 2024-06-21 | 北京理工大学 | 一种无参考图像质量评价方法及其*** |
CN114494130A (zh) * | 2021-12-24 | 2022-05-13 | 吉林建筑大学 | 一种基于最优模型评价准则的产品美学评价体系 |
CN115601772B (zh) * | 2022-12-15 | 2023-05-02 | 南京邮电大学 | 一种基于多模态学习的美学质量评价模型和方法 |
CN116843643B (zh) * | 2023-07-03 | 2024-01-16 | 北京语言大学 | 一种视频美学质量评价数据集构造方法 |
CN116994069B (zh) * | 2023-09-22 | 2023-12-22 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及*** |
CN117765187B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 基于多模态深度估计引导的单目隐神经的建图方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590445A (zh) * | 2017-08-25 | 2018-01-16 | 西安电子科技大学 | 基于脑电信号的美学图像质量评价方法 |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价*** |
CN109829924A (zh) * | 2019-01-18 | 2019-05-31 | 武汉大学 | 一种基于主体特征分析的图像质量评价方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8706675B1 (en) * | 2011-08-29 | 2014-04-22 | Google Inc. | Video content claiming classifier |
US11295532B2 (en) * | 2018-11-15 | 2022-04-05 | Samsung Electronics Co., Ltd. | Method and apparatus for aligning 3D model |
-
2019
- 2019-11-21 CN CN201911146496.2A patent/CN110853032B/zh active Active
-
2020
- 2020-08-19 US US16/997,825 patent/US11568637B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590445A (zh) * | 2017-08-25 | 2018-01-16 | 西安电子科技大学 | 基于脑电信号的美学图像质量评价方法 |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价*** |
CN109829924A (zh) * | 2019-01-18 | 2019-05-31 | 武汉大学 | 一种基于主体特征分析的图像质量评价方法 |
Non-Patent Citations (4)
Title |
---|
Deep Multimodality Learning for UAV Video Aesthetic Quality Assessment;Qi Kuang et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20201031;第22卷(第10期);全文 * |
VIDEO AESTHETIC QUALITY ASSESSMENT BY COMBINING SEMANTICALLY INDEPENDENT AND DEPENDENT FEATURES;Chun-Yu Yang et al.;《ICASSP 2011》;20111231;全文 * |
Video Aesthetic Quality Assessment by Temporal Integration of Photo- and Motion-Based Features;Hsin-Ho Yeh et al.;《IEEE TRANSACTIONS ON MULTIMEDIA》;20131231;第15卷(第8期);全文 * |
VIDEO AESTHETIC QUALITY ASSESSMENT USING KERNEL SUPPORT VECTOR MACHINE WITH ISOTROPIC GAUSSIAN SAMPLE UNCERTAINTY (KSVM-IGSU);Christos Tzelepis et al.;《ICIP 2016》;20161231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20210158008A1 (en) | 2021-05-27 |
US11568637B2 (en) | 2023-01-31 |
CN110853032A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853032B (zh) | 基于多模态深度学习的无人机视频标签获取方法 | |
Li et al. | A free lunch for unsupervised domain adaptive object detection without source data | |
CN111523410B (zh) | 一种基于注意力机制的视频显著性目标检测方法 | |
CN111126325B (zh) | 一种基于视频的智能人员安防识别统计方法 | |
JP4898800B2 (ja) | イメージセグメンテーション | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN109389086B (zh) | 检测无人机影像目标的方法和*** | |
CN109614921B (zh) | 一种基于对抗生成网络的半监督学习的细胞分割方法 | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN111832443B (zh) | 一种施工违规行为检测模型的构建方法及其应用 | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
CN104573617B (zh) | 一种摄像控制方法 | |
CN102932605A (zh) | 一种视觉感知网络中摄像机的组合选择方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN111783729A (zh) | 视频分类方法、装置、设备及存储介质 | |
WO2024108857A1 (zh) | 一种基于深度学习的无人机场景下小目标检测的方法 | |
CN113160283A (zh) | 一种基于sift的多摄像头场景下的目标跟踪方法 | |
Xu et al. | Segment as points for efficient and effective online multi-object tracking and segmentation | |
CN114120389A (zh) | 网络训练及视频帧处理的方法、装置、设备及存储介质 | |
Xia et al. | 3-D HANet: A flexible 3-D heatmap auxiliary network for object detection | |
CN110046601B (zh) | 针对十字路口场景的行人检测方法 | |
CN112149528A (zh) | 一种全景图目标检测方法、***、介质及设备 | |
CN112257638A (zh) | 一种图像比对方法、***、设备及计算机可读存储介质 | |
CN116051950A (zh) | 跨层次跨模态双注意力融合的三流rgb-d显著性目标检测 | |
CN108010051A (zh) | 基于AdaBoost算法的多源视频目标融合跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |