CN104349142B

CN104349142B - 一种基于分层表达的无人机视频自适应传输方法

Info

Publication number: CN104349142B
Application number: CN201410608007.1A
Authority: CN
Inventors: 沈秋; 孔繁锵; 李小凡; 代俣西
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2014-11-03
Filing date: 2014-11-03
Publication date: 2018-07-06
Anticipated expiration: 2034-11-03
Also published as: CN104349142A

Abstract

本发明公开了一种基于分层表达的无人机视频自适应传输方法，该方法包括视频表达的分层结构；所述分层结构由下至上依次包括背景层、目标层和增强层；根据不同的需求，选择相应的分层结构进行视频的传输，通过运动目标的分割，解决了视频中独立的运动物体压缩后运动模糊无法辨识的问题。能够提供清晰的全景图像，或质量较高的视频序列。提高了输出精度，极大的缩短了压缩时间，很大程度上提高了工作效率。

Description

一种基于分层表达的无人机视频自适应传输方法

技术领域

本发明涉及视屏传输方法，具体涉及一种基于分层表达的无人机视频自适应传输方法。

背景技术

无人机(Unmanned Aerial Vehicles，UAV)是当今世界上军用武器发展的一个热点，并将有可能成为21世纪空中作战的主导力量，广泛的用于战场侦察、监视、边境巡逻、电子侦察、目标定位、跟踪与识别等[1]。除此之外，无人机还可用于民用方面的勘探测绘、公路巡视、场区监控、水灾监视等。就目前来看，大多数无人机的作用发挥是以机载监视能力为前提的,这将依赖于视频、图像的采集、压缩和传输[2][3][4]。经过几十年的应用与发展，无人机的图像传输***已相对成熟和稳定，但视频却因其巨大的数据量成为无人机信息传递的瓶颈。从基本构成来讲，无人机视频传输***与民用视频传输***基本一致，都由视频采集模块、视频处理模块、视频压缩模块、视频传输模块、视频解压模块、视频分析模块、视频显示模块组成(如图1)。

尽管如此，仍然无法将民用视频传输***中相对成熟的技术直接应用于无人机视频传输***，主要原因是这两者在硬件设备的性能、传输信道的限制和实际应用的环境等方面都存在显著的差别，导致***设计时对各项指标的要求不同，具体分析如下：

1、压缩性能的要求：无人机的飞行高度从几百米到几千米不等，即拍摄时被摄对象与摄像机距离较远，单帧图像所捕捉到的侦察区域较广，因此，为了尽可能的详细的描述侦察区域的情况，无人机航摄视频需要具有较高的分辨率。分辨率的提高不仅代表着对压缩失真的承受力降低，更代表着数据量的增加。但同时，无人机的传输信道为带宽较窄的无线信道，这就意味着，无人机视频传输***对视频压缩性能的要求更为苛刻，既要保证低失真率又要达到高压缩比。

2、计算复杂度的要求：一方面，由于无人机的有效载荷受限，其所携带的硬件设备在体积和重量上都有严格的要求，这直接体现为对数据存储能力和处理能力的制约；另一方面，在远程控制等应用中，非常关注视频信息的时效性，这不仅是对视频传输速率提出要求，更是对视频处理速度提出要求。综合以上两方面因素可知，无人机视频传输***要求快速且简单的处理视频，即要求低计算复杂度。

3、可靠性的要求：在无人机数据传输过程中，不仅会因为无线信号会受到地形、地物以及大气等因素的影响引起带宽的波动，还可能受到外来的攻击和拦截，这些都会导致视频数据的损坏或丢失。因此，无人机视频传输***还必须有加强可靠性和容错性的设计。

4、灵活性的要求：除了以上几点要求，无人机视频传输***还应具有灵活应对各种突发状况的能力，如适时调整数据收发速率来适应带宽的波动；合理的减少数据备份来应对存储资源的消耗；智能的选择发送数据来响应终端请求等等。

综上所述，无人机视频传输***的要求比民用的视频传输***要求更高更全面，不仅要兼顾压缩性能和计算复杂度，还要具有较高的可靠性和灵活性。

目前，广泛应用的无人机视频传输***主要利用基于标准的视频编解码器来压缩视频，最常用的有M-JPEG和MPEG-2[5]。其中，MPEG-2[6]的性能较为优越，它采用了运动补偿、DCT和量化等关键技术，其压缩率可以达到几百分之一，且在发生数据包丢失时有更好的抗错性能。尽管如此，MPEG-2仍然不能完全满足无人机视频传输***的苛刻要求。举例来看，一个帧率为25帧每秒、分辨率为标准高清(1920x1080)、8bit像素的数字视频的数据量是622Mbit/s，而无人机可用于视频信号传输的实际带宽一般只有几Mbit/s，而MPEG-2很难在保证质量的同时达到如此高的压缩率。就近两年来看，新的视频压缩编码标准H.264/AVC[7]以它卓越的性能越来越多的得到工业界的认可，也逐步的在无人机研究领域占有一定地位[8][9]。但是，即使使用H.264/AVC来进行视频压缩，若想保留视频的分辨率且在压缩时不造成可见的失真，往往也只能将原有的622Mbit/s的数据量降到8～15Mbit/s。

除了标准的编码器，也有大量的非标准化的视频处理和压缩算法，它们利用无人机视频的特点，通过利用全局运动估计、全局运动补偿、感兴趣区域的检测、图像拼接等技术来实现更高的压缩效率[10]～[18]。另外，考虑到无人机的任务特点，文献[19][20]提出根据视频的特征来检测出感兴趣区域，并在压缩时充分考虑到该区域的重要性，对感兴趣区域和非感兴趣区域采用不同的处理方法，这种方法可以在保证感兴趣区域的质量的同时，大大的降低视频数据量。但这些方法都只是单方面的解决了部分问题，却无法在压缩性能、复杂度、可靠性和灵活性之间取得良好的综合性能。为了在这种多方面相互制约和影响的情况下取得全局最优解，文献[21]给出了一个概念性的解决方案，从理论上分析如何在资源约束条件下满足用户多方面的需求。

现有相关技术

1：Video adaptation:Concepts,technologies,and open issues[21]

该文给出了视频自适应解决方案，从理论上分析如何在资源约束条件下满足用户多方面的需求，从而在压缩性能、复杂度、可靠性和灵活性之间取得良好的综合性能。图2所示的是视频自适应***的概念性框架，即给定一个实体(Entity)，就可以通过确定自适应操作空间(Adaptation Space)、资源空间(Resource Space)和用户满意度空间(UtilitySpace)三者之间的关系，来设计具体的自适应解决方案。图中资源空间内阴影立方体代表当前应用环境中的资源约束条件，在满足此约束的前提下，可以存在多种自适应解决方案，这些方案共同组成了满足该资源约束的自适应操作集合。而视频自适应所要解决的问题是：在满足给定资源约束的自适应操作集中选择用户满意度最高的操作。

该文提出了视频自适应概念性的框架，为视频自适应传输提供了良好的解决思路，但是基于这样一个理论性的框架，如何在具体应用环境中起到良好的作用仍需要更深入的探索和研究。

2：无人机序列图像压缩方法研究[12]

该文章根据无人机的运动特点,求出序列图像之间的重叠区域,将运动序列图像转变成静态图像,然后以类EBCOT算法完成拼接图像的压缩。压缩的实验结果显示,该方法在压缩效率和运行时间上均优于H.264等视频压缩标准,可较好地满足无人机图像的传输需求。

该文只发掘了无人机视频重叠区域较大的特点，将运动序列图像转变成静态图像进行压缩，但忽略了无人机视频中存在独立的运动物体，而实际应用中这些独立的运动物体恰好可能是视频中应该重点关注的目标。因此，这种方法虽然可以取得较好的压缩性能，但在视频内容表达方面存在欠缺，一方面，其压缩后的视频主观质量损失较重；另一方面，视频中的运动物体在压缩后产生运动模糊，无法辨识。

参考文献：

[1]温羡峤，李英.“从美国无人机的发展来看无人机未来战争中的应用前景”.现代防御技术.2003年10月.

[2]Andreas Birk,Burkhard Wiggerich,Heiko Bülow,Max Pfingsthorn,Schwertfeger“Safety,Security,and Rescue Missions with an Unmanned AerialVehicle(UAV)”Journal of Intelligent&Robotic Systems(28January 2011),pp.1-20

[3]G.Belloni,M.Feroli,Antonio Ficola,Stefano Pagnottelli,and PaoloValigi,“A COTS-Based Mini Unmanned Aerial Vehicle(SR-H3)for Security,Environmental Monitoring and Surveillance Operations:Design and Test”,EUROS,Vol.44Springer(2008),p.73-82.

[4]Yu-chi Liu；Qiong-hai Dai；“Vision Aided Unmanned Aerial VehicleAutonomy:An Overview”,2010 3rd International Congress on Image and SignalProcessing(CISP),16-18Oct.2010,pp.417-421

[5]Schaphorst,R.A.；“An overview of video compression in the tacticalbattlefield”,Military Communications Conference IEEE,11-14Oct 1993,pp.843-847vol.3

[6]ITU-T,ISO/IEC.1994.“Generic coding of moving pictures andassociated audio information—part 2:video”.ITU-T Rec.H.262|ISO/IEC 13818-2(MPEG-2Video).[7]ITU-T,ISO/IEC.2005.“Advanced video coding for genericaudiovisual services”.ITU-T Rec.H.264|ISO/IEC IS 14496-10.

[8]Xiao lin Chen,Shan cong Zhang,and Jie Liu,“Design of UAV videocompression system based on H.264encoding algorithm”,EMEITIEEE(2011),p.2619-2622.

[9]Bennett,B.,Dee,C.and Ngugen,M.H.；"Operational concepts of MPEG-4H.264 for tactical DoD applications"；MILCOM 2005,October 17--20AtlanticCity,NJ,

[10]M.Bhaskaranand and J.D.Gibson,“Low-complexity video encoding forUAV reconnaissance and surveillance,”in Military Communications Conference(MILCOM),2011,pp.1633–1638.

[11]崔麦会,周建军,陈超.无人机视频情报的压缩传输技术.电讯技术.2007年2月[12]田金文,谢清鹏,谭毅华,柳健.无人机序列图像压缩方法研究.华中科技大学学报,2005年12月

[13]M.and R.Thoma.“Image segmentation based on object orientedmapping parameter estimation”.Signal Processing,15(3):315–334,1988.Multidimensional Signal Processing.

[14]A.Krutz,A.Glantz,and T.Sikora.“Recent advances in video codingusing static background models”.In Picture Coding Symposium(PCS),2010,pages462–465,dec.2010.

[15]S.Yahyanejad,D.Wischounig-Strucl,M.Quaritsch,andB.Rinner.Incremental mosaicking of images from autonomous,small-scale uavs.InAdvanced Video and Signal Based Surveillance(AVSS),2010Seventh IEEEInternational Conference on,pages 329–336,29 2010-sept.1 2010.

[16]Z.Zhu and H.Tang.Content-based dynamic 3d mosaics.In ComputerVision and Pattern Recognition Workshop,2006.CVPRW’06.Conference on,page 169,june 2006.

[17]S.Yahyanejad,D.Wischounig-Strucl,M.Quaritsch,andB.Rinner.Incremental mosaicking of images from autonomous,small-scale uavs.InAdvanced Video and Signal Based Surveillance(AVSS),2010Seventh IEEEInternational Conference on,pages 329–336,29 2010-sept.1 2010.

[18]朱云芳,叶秀清,顾伟康.视频序列的全景图拼接技术.中国图象图形学报,Vol.11,No.8,Aug.,2006

[19]H.Cheng and J.Wus.Adaptive region of interest estimation foraerial surveillance video.In Image Processing,2005.ICIP 2005.IEEEInternational Conference on,volume 3,pages III–860–3,sept.2005.

[20]N.Doulamis,A.Doulamis,D.Kalogeras,and S.Kollias.Low bit-ratecoding of image sequences using adaptive regions of interest.Circuits andSystems for Video Technology,IEEE Transactions on,8(8):928–934,dec 1998.

[21]Chang SF,Vetro A.“Video adaptation:Concepts,technologies,and openissues”.Proc.IEEE,93:148-158.2005

发明内容

发明目的：为了解决现有技术中，无人机载荷受限、带宽受限、应用复杂、传统的视频处理和压缩方法都存在压缩性能和计算复杂度不可兼得的缺点，不能充分的满足其需求的问题，本发明提供一种基于分层表达的无人机视频自适应传输方法，解决了现有技术的不足。

技术方案：一种基于分层表达的无人机视频自适应传输方法，其特征在于，该方法包括视频表达的分层结构；所述分层结构由下至上依次包括背景层、目标层和增强层；

所述背景层为：将一个包括多帧图像的图像组中所有图像拼接成为一幅全景背景图，再利用图像编码的方式进行压缩；根据压缩效果不等分为k个子层，由下至上依次为0,1,2…k-1；

所述目标层为：每一帧图像只包含原始视频中每一帧图像的目标区域，采用单独的帧间预测方法进行压缩；根据压缩效果不等分为m个子层,由下至上依次为0,1,2…m-1；

所述增强层为：每一帧图像对应原始视频的一帧完整图像；根据压缩效果不等分为n个子层,由下至上依次为0,1,2…n-1；

生成和传输结构层次的方式从以下五种组合中选择其一：背景层；目标层；背景层和目标层；背景层和增强层；背景层、目标层和增强层；

进一步的，包括背景层图像的拼接和压缩，具体包括以下步骤：

2.1)、图像序列拼接：对图像组中其余的N-1帧图像按序进行拼接，拼接操作包括特征点对应、坐标映射和图像合成；

2.1.1)、特征点对应：在待拼接的图像中确定与基准图像中的特征点一一对应的点，利用现有算法提取特征点，再利用匹配算法得到对应关系；或者直接在待拼接图像中给定范围搜索与基准图像的特征点相似度最高的点；

2.1.2)、坐标映射：根据对应的特征点对应的位置关系，利用现有模型计算待拼接图像相对基准图像的坐标变换；对所得的变换参数进行压缩、存储和传输；

2.1.3)、图像合成：根据步骤2.3.2)的坐标变换关系，将待拼接图像中的每个像素的位置变换到基准图像坐标系，并将其像素值复制到对应位置，若与基准图像的像素重叠，则取两帧图像对应位置像素的均值或选取其中一个值。

2.2)、图像压缩：对拼接结果采用现有图像压缩算法进行质量可分级的压缩，形成k个背景层子层；其中，背景层0为最低质量的压缩图像，背景层1～背景层k-1为对背景层0的压缩残差的分级细化压缩；通过多个背景层子层的叠加提高背景层的质量；层级的设置和每个层级的质量根据网络带宽的变化进行设置。

进一步的，生成和传输结构层次的方式选择背景层，一个图像为N帧，具体包括以下步骤：

3.1)、基准图像选取：取图像组中的任意一帧，以基准图像的坐标系作为拼接图像的坐标系；

3.2)、基准图像特征点提取：利用现有算法提取特征点；

3.3)、图像序列拼接：进行步骤2.1)；

3.4)、图像压缩：进行步骤2.2)。通过对不同层的选择，有效减少了运算步骤，同时可以达到高精度的图片质量。

4、如权利要求2所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，当无人机所拍摄视屏中存在清晰的独立运动目标时，生成和传输结构层次的方式选择背景层和目标层；具体包括以下步骤：

4.1)运动目标分割：通过对整个拍摄画面进行分析，区分全局运动和局部运动,进一步提取独立运动目标，并记录运动目标在对应帧中的精确位置；

4.2)背景层生成：将运动目标从图像中去除，只保留背景信息，进行步骤2.1)和步骤2.2)完成背景层的拼接和压缩，生成具有不同质量子层的背景层。

4.3)目标层生成：对运动目标单独压缩编码，采用现有算法或对目标单独建立运动模型，建模后估计模型参数替代算法中的运动估算模块；

对目标层进行质量可分级的压缩，目标层0为最低质量的压缩图像，目标层1～目标层m-1为对目标层0的压缩残差的分级细化压缩，通过叠加提高目标层的质量，层级的设置和每个层级的质量根据网络带宽的变化进行设置。通过对独立运动目标的区分，改进了现有技术中对独立运动目标视频完整性不足的现状。

进一步的，生成和传输结构层次的方式选择背景层和增强层；或选择背景层、目标层和增强层时；具体包括以下步骤：

5.1)根据实际需求设计视频表达结构，根据结构组成选择生成背景层/背景层和目标层；

5.2)增强层生成：利用背景层和/或目标层进行预测，或采用本层的帧间或帧内预测进行独立编码；对增强层进行质量可分级的压缩：增强层0为最低质量的压缩图像，增强层1～增强层n-1为对增强层0的压缩残差的分级细化压缩，通过叠加提高增强层的质量；层级的设置和每个层级的质量可根据网络带宽的变化进行设置。

进一步的，分层结构的同一层的每个子层之间，通过层间预测减少冗余。

进一步的，分层结构的不同层之间通过层间预测减少冗余。

有益效果：根据无人机视频的特征和需求，设计了一种新型的分层结构的视频表达形式，即通过分层结构表达对图像进行操作，这种表达与原始视频或传统压缩码流相比，具有更高的压缩效率、更灵活的组织方式和更便捷的操作接口。一方面，基于图像拼接和目标分割的视频压缩，可以极大的降低压缩时间、并保证压缩质量，很大程度上提高了工作效率；另一方面，通过自适应的选择不同的传输结构，可动态的根据实际应用限制进行合理的传输，避免数据丢失和拥塞。

附图说明

图1为视频传输***流程图

图2为视频自适应概念性框架

图3为无人机视频自适应传输***流程图

图4为分层结构的视频表达示意图

图5为无人机仿真截图

图6为航拍视频拼接全景图

图7为仿真视频的压缩性能比较

图8为实际航拍视频拼接效果图

图9为实际航拍视频的压缩性能比较

图10为存在独立运动目标的航拍图

图11为背景和运动目标分割效果示意图

图12基于图像拼接的背景层生成

图13背景层+目标层的视频表达结构

图14背景层+目标层+增强层的视频表达结构

具体实施方式

下面结合附图对本发明做更进一步的解释。

鉴于无人机的载荷受限、带宽受限、应用复杂等特点，传统的视频处理和压缩方法都存在压缩性能和计算复杂度不可兼得的缺点，不能充分的满足其需求。本发明欲采用视频自适应技术来解决无人机视频传输所存在的问题，采用分层结构的视频表达来描述视频的内容和特征，并在此基础上对不同内容的视频区域采用不同的压缩方法，从而在满足无人机视频传输的约束条件和用户需求的前提下，实现高效的、快速的、可靠的、灵活的视频传输。

本发明的技术方案首先提出一种针对无人机的视频自适应传输***，该***的流程图如图3所示，其与传统的无人机视频传输***的区别主要在于图中粗线框的四个模块，分别为视频表达生成模块、视频自适应操作模块、资源约束模块和用户满意度模块。在实际操作中，与传统无人机视频传输方法不同的是，不直接对无人机视频进行的压缩编码，而是利用一种具有更高的灵活性、可伸缩性和易操作性的表达形式对视频进行描述和刻画，这种表达形式可涵盖不同质量、不同分辨率、不同压缩比的视频。传输时，进一步根据传输条件的约束和用户的需求自适应的提取满足应用需求的压缩视频。

本发明根据无人机视频的特征和需求，设计一种新型的分层结构的视频表达形式，这种表达与原始视频或传统压缩码流相比，具有较小的数据量、较灵活的组织方式和便捷的操作接口。该视频表达的具体结构如图4所示，图中以16帧图像为一个图像组单元为例，采用分层的形式来描述视频。其中，背景层为最低层，采用图像拼接的方式将一个图像组中所有图像拼接起来成为一幅全景背景图，再利用图像编码的方式进行压缩，背景层亦可分为压缩效果不等的k个子层；背景层之上为目标层，该层的每一帧图像只包含原始视频中每一帧图像的目标区域，该层可采用单独的帧间预测方法来进行压缩，同样，目标层也可以根据压缩效果的不同分为m个子层；目标层之上为增强层，增强层的每一帧图像对应原始视频的一帧完整图像，并按照压缩效果的差别分为n个子层。在该分层结构中，从背景层到目标层再到增强层体现的是视频内容的增加，而每个层中从第0到第k-1/m-1/n-1个子层，对应的是质量或分辨率的递增。同一层的每个子层之间可进行层间预测来减少冗余，而不同层之间可以进行预测来进一步减少冗余，也可以不进行预测来保证独立性。

在实际的视频传输应用中，可以根据实际的带宽限制，时延要求等，灵活的选择生成和传输结构中的部分层次，如：背景层、或目标层或背景层+目标层、或背景层+增强层、或背景层+目标层+增强层。而其中每一层也可以选择性的设置子层数。

无人机拍摄的视频帧与帧之间往往有较大面积的重叠，并且两帧之间差异主要体现为全局运动，如图5所。视频帧率为30帧/秒，图中的图像是相邻的9帧，他们之间的重叠率达到90％以上，帧与帧之间存在较为简单的全局平移运动。

若将航拍视频中的图像按照重叠区域匹配拼接，可以得到一幅较大范围的全景图。图6所示为1秒航拍视频中30帧图像拼接之后的全景图，可见这30帧图像中相邻帧之间有较大的重叠区域。

若对拼接后的图像进行压缩，不仅可以减少压缩时间并且可以降低数据量。以上图的仿真视频为例，在普通CP上进行压缩，若采用H.264对30帧采用I-P-P-P形式进行压缩所需要的时间为26.003s,而对30帧图像进行拼接再作为一幅图像进行压缩所需要的时间为2.466s。图7给出了两种方法的压缩性能比较，可以看出两种方法压缩后的视频质量相差较小，且拼接以后再压缩可以进一步减少压缩后的数据量。

以上实验采用的是仿真视频，相邻帧之间主要是全局的平移运动，可充分说明，对多帧视频进行拼接再压缩可以在不影响压缩质量的前提下提高压缩的时间和空间效率，非常适用于计算和传输资源受限的无人机航拍视频传输应用。

在实际的航拍视频中，由于全局运动的复杂性，拼接后的图像会有一定的质量损失，如图8、图9所示。采用该方法可能会一定程度上影响压缩后的视频质量，但其压缩的时间和空间效率仍占主要优势。其中，采用H.264进行压缩所需时间为24.488s，采用基于拼接的压缩方法所需时间为1.32s，压缩时间降低了90％以上。而压缩性能主要在低码率时体现优势。

在以上实验中都假设航拍视频中不存在独立运动的物体，而在实际拍摄中也会出现有独立运动目标的情况，如图10所示，其中黑色车辆为运动物体，它体现在视频中的运动与全局运动不一致。

对于存在独立运动物体的视频，采用基于拼接的压缩方法会丢失运动物体的信息，因此，需要将独立运动目标提取出来，单独进行压缩。如图11所示，图11的左图为背景拼接效果图，右图为分割出的独立运动物体。对背景层采用与以上实验相同的方法进行压缩，对独立的运动物体采用传统的帧间预测进行压缩。所用的压缩时间为3.014s，相比H.264的27.455s仍然降低了90％以上。压缩性能比H.264略差，但在主观质量相当的情况下，码率有所下降。

实施例一：

如图12所示，在无人机航程远，飞行高度高的情况下，传输带宽较窄且延时较大，传统的视频压缩标准算法无法提供主观质量可接受的视频图像，且因压缩复杂度高会进一步增大延时。此时，可采用本方案的极端实例，即只编码传输背景层。该层采用图像拼接的方式将一个图像组中所有图像拼接起来成为一幅全景背景图，再利用静态图像编码的方式进行压缩，背景层亦可分为压缩效果不等的k(k≥1)个子层。

具体实现步骤如下(设一个图像组由N帧组成)：

步骤1)基准图像选取：基准图像为拼接过程中最先处理的图像，后续的图像根据映射关系投影到该图像的坐标***，即以基准图像的坐标系作为拼接图像的坐标系。基准图像可以取图像组中的任意一帧，一般情况取第一帧或最后一帧或关键帧。

步骤2)基准图像特征点提取：可利用现有算法如Harris算子、Moravec算子、Plessey算子、Forstner算子、SUSAN算子、SIFT算法等。

步骤3)图像序列拼接：这一步主要对图像组中其余的N-1帧图像按照一定的顺序进行拼接，拼接操作可分为特征点对应、坐标映射、图像合成三个部分。

3.1)特征点对应：在待拼接的图像中确定与基准图像中的特征点一一对应的点，具体方法：可以先采用与步骤一相同方法提取特征点，再利用匹配算法得到对应关系；或者直接在待拼接图像中给定范围搜索与基准图像的特征点相似度最高的点。

3.2)坐标映射：根据对应的特征点对的位置关系，计算待拼接图像相对基准图像的坐标变换，可采用平移模型、仿射模型、双线性模型或透视投影模型。该步骤所获得的变换参数可以进行压缩、存储和传输。

3.3)图像合成：根据上步求得的变换关系，将待拼接图像中的每个像素的位置变换到基准图像坐标系，并将其像素值复制到对应位置。若与基准图像的像素重叠，则取两帧图像对应位置像素的均值或根据评判标准选取其中一个值。

步骤4)图像压缩：对拼接结果采用现有图像压缩算法进行质量可分级的压缩，如图五所示，背景层0为最低质量的压缩图像，背景层1～k-1为对背景层0的压缩残差的分级细化压缩，可以通过叠加提高背景层的质量。层级的设置和每个层级的质量可依据网络带宽的变化进行设置。

该实施例的视频表达不仅可以提供拍摄环境的全景图，还可以根据步骤三中提取的变换参数从全景图中还原所摄视频的原貌。

实施例二：

在无人机飞行高度较低的情况下，所摄视频中存在清晰的独立运动目标，仅采用图像拼接的方法进行压缩无法真实的反应视频中独立运动目标的特征，并且可能因为运动目标的位置变化对背景的遮挡使得拼接图像中存在不可恢复的像素损失。此时，可以采用背景层和目标层结合的方案来对视频内容进行表达和压缩。如图13所示，将运动目标从背景中分割出来，只对背景图像进行拼接形成背景层，而运动目标单独进行表达和压缩。

具体实现步骤如下：

步骤1)运动目标分割：由于无人机视频航拍视频背景也存在运动，故需要通过对整个运动场进行分析，区分全局运动和局部运动,进一步提取独立运动目标。并记录运动目标在对应帧中的精确位置。

步骤2)背景层生成：将运动目标从图像中去除，只保留背景信息，并采用实例一的方式对背景层进行拼接、压缩，生成具有不同质量子层的背景层。

步骤3)目标层生成：即对运动目标单独压缩编码。该步骤可以采用标准算法；或对目标单独建立运动模型，并估计模型参数，来代替标准算法中的运动估计模块。目标层也可进行质量可分级的压缩，如图13所示，目标层0为最低质量的压缩图像，目标层1～m-1为对目标层0的压缩残差的分级细化压缩，可以通过叠加提高目标层的质量。层级的设置和每个层级的质量可依据网络带宽的变化进行设置。

基于以上的视频表达结构，可以提供拍摄环境的全景图；或运动目标在全景图的中的运动轨迹跟踪图；或对全景图拆分得到背景的视频序列，再根据运动目标是对应帧中的位置，还原拍摄视频的原貌。

实施例三：

由于计算误差的存在，背景拼接和目标跟踪都可能造成实际位置信息的偏差，使得重建的视频存在不可弥补的失真。而在实际应用中，也存在对精确度要求较高的应用。若在传输带宽或存储设备允许的条件下，可以采用更为复杂的压缩形式。此时，可以采用背景层、目标层和增强层结合的方案来对视频内容进行表达和压缩。如图14所示，增强层是直接对视频帧进行预测编码，并可根据实际的条件生成不同的质量层。此实施例中，目标层为可选生成，实际的组合方式可以为背景层+目标层+增强层；或背景层+增强层。增强层可以利用背景层和/或目标层的信息进行层间预测，也可只采用本层的帧间或帧内预测进行编码。

具体实现步骤如下：

步骤一：根据实际需求设计视频表达结构，根据结构组成利用实施例一或实施例二的方法生成背景层或背景层+目标层。

步骤二：增强层生成：可以利用背景层和/或目标层进行预测，也可只采用本层的帧间或帧内预测进行独立编码。增强层也可进行质量可分级的压缩，如图14所示，增强层0为最低质量的压缩图像，增强层1～n-1为对增强层0的压缩残差的分级细化压缩，可以通过叠加提高增强层的质量。层级的设置和每个层级的质量可依据网络带宽的变化进行设置。

基于以上的视频表达结构，可以提供拍摄环境的全景图；或独立目标的运动跟踪视频；或较完整和较高质量的视频序列。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于分层表达的无人机视频自适应传输方法，其特征在于，该方法包括视频表达的分层结构；所述分层结构由下至上依次包括背景层、目标层和增强层；

所述增强层为：每一帧图像对应原始视频的一帧完整图像；利用背景层和/或目标层进行预测，或采用本层的帧间或帧内预测进行独立编码；对增强层进行质量可分级的压缩，根据压缩效果不等分为n个子层,由下至上依次为0,1,2…n-1；

采用分层结构的视频表达来描述视频的内容和特征，并在此基础上对不同内容的视频区域采用不同的压缩方法，通过分层结构表达对图像进行操作，根据实际的带宽限制和时延要求，选择生成和传输结构中的部分层次，通过自适应的选择不同的传输结构，可动态的根据实际应用限制进行合理的传输。

2.如权利要求1所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，包括背景层图像的拼接和压缩，具体包括以下步骤：

2.1)、图像序列拼接：选择一帧图像作为基准图像，对图像组中其余的N-1帧图像按序与基准图像进行拼接，得到一幅由N帧图像组成的全景图，拼接操作包括特征点对应、坐标映射和图像合成；

2.1.1)、特征点对应：在待拼接的图像中确定与基准图像中的特征点一一对应的点，提取特征点，再利用匹配算法得到对应关系；或者直接在待拼接图像中给定范围搜索与基准图像的特征点相似度最高的点；

2.1.2)、坐标映射：根据对应的特征点对应的位置关系，利用模型计算待拼接图像相对基准图像的坐标变换；对所得的变换参数进行压缩、存储和传输；

2.1.3)、图像合成：根据步骤2.1.2)的坐标变换关系，将待拼接图像中的每个像素的位置变换到基准图像坐标系，并将其像素值复制到对应位置，若与基准图像的像素重叠，则取两帧图像对应位置像素的均值或选取其中一个值；

2.2)、图像压缩：对拼接结果进行质量可分级的压缩，形成k个背景层子层；其中，背景层0为最低质量的压缩图像，背景层1～背景层k-1为对背景层0的压缩残差的分级细化压缩；通过多个背景层子层的叠加提高背景层的质量；层级的设置和每个层级的质量根据网络带宽的变化进行设置。

3.如权利要求2所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，生成和传输结构层次的方式选择背景层时，一个图像为N帧，具体包括以下步骤：

3.2)、基准图像特征点提取：提取特征点；

3.3)、图像序列拼接：进行步骤2.1)；

3.4)、图像压缩：进行步骤2.2)。

4.如权利要求2所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，当无人机所拍摄视频中存在清晰的独立运动目标时，生成和传输结构层次的方式选择背景层和目标层；具体包括以下步骤：

4.2)背景层生成：将运动目标从图像中去除，只保留背景信息，进行步骤2.1)和步骤2.2)完成背景层的拼接和压缩，生成具有不同质量子层的背景层；

4.3)目标层生成：对运动目标单独压缩编码，采用算法或对目标单独建立运动模型，建模后估计模型参数替代算法中的运动估算模块；

对目标层进行质量可分级的压缩，目标层0为最低质量的压缩图像，目标层1～目标层m-1为对目标层0的压缩残差的分级细化压缩，通过叠加提高目标层的质量，层级的设置和每个层级的质量根据网络带宽的变化进行设置。

5.如权利要求4所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，生成和传输结构层次的方式选择背景层和增强层；或选择背景层、目标层和增强层时；具体包括以下步骤：

5.1)根据实际需求设计视频表达结构，根据结构组成选择生成背景层和/或目标层；

6.如权利要求1所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，所述分层结构的同一层的每个子层之间，通过层间预测减少冗余。

7.如权利要求2所述的一种基于分层表达的无人机视频自适应传输方法，其特征在于，所述分层结构的不同层之间通过层间预测减少冗余。