CN112613516A

CN112613516A - 用于航拍视频数据的语义分割方法

Info

Publication number: CN112613516A
Application number: CN202011459565.8A
Authority: CN
Inventors: 郑若冰
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-06

Abstract

本申请公开了一种用于航拍视频数据的语义分割方法，通过镜头边界检测算法对航拍视频数据集进行训练识别，得到所述航拍视频数据集中的关键帧并构成关键帧数据集，再通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割。本申请的的语义分割方法，是经过数据预处理、提取关键帧，从而减小数据的计算量，不用大型的数据集驱动模型来进行学习，通过结合颜色和纹理特征来解决模型对由阴影产生光流变化的敏感性，使用卷积神经网络以端到端的的方式学习局部特征和全局特征来优化语义分割的结果，提高后期拓展性詹策的准确性和可靠性。

Description

用于航拍视频数据的语义分割方法

技术领域

本申请涉及一种用于航拍视频数据的语义分割方法。

背景技术

通过分析无人机捕获的视频具有广泛的应用，例如跟踪车辆，物体检测，异常检测等。对于大多数应用，需要从视频的图像帧中推断空间和上下文信息。例如，在了解有关道路知识的情况下，对车辆的跟踪将更容易，语义分割是用于将图像划分成不同语义区域并将这些区域分类为预定义类的工具之一。语义分割有助于理解场景的布局，因此它越来越成为异常检测、自动驾驶车辆、物体检测等的重要因素。但是由于类中对象的变化、视角的丢失、场景的上下文、噪声的存在以及光照变化等，语义分割仍然具有挑战性。目前的语义分割可以通过使用传统的机器学习方法如条件随机场(CRF)和深度卷积神经网络(CNN)的学习方法。

基于CRF的算法因其捕获上下文信息的能力而被广泛使用，该框架通常由一元势能和成对势能组成。一元势能捕获局部特征，这些特征依赖于像素本身，而成对势能捕获空间信息。捕获各种特征(如纹理，颜色位置等)的不同势能需要手动编码到模型中。但是，这些手动操作的功能可能无法捕获数据中的所有变体。

而对于航拍视频中的异常检测、事件检测等自动化***的成功在很大程度上依赖于场景理解以获得更高的准确性。另外，由于缺乏可用的数据集，对无人机视频的语义分割的研究很有限。

因此，如何更有效地实现对于无人机航拍视频进行语义分割进而利用于分析，是目前急需解决的技术问题。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种用于航拍视频数据的语义分割方法，通过镜头边界检测算法对航拍视频数据集进行训练识别，得到所述航拍视频数据集中的关键帧并构成关键帧数据集，再通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割。

可选地，镜头边界检测算法对航拍视频数据集中的连续帧进行镜头边界的识别，是通过计算连续帧的直方图差异并与设定阈值相比较从而完成镜头边界的识别。

可选地，镜头边界检测算法对航拍视频数据集中的连续帧进行镜头边界的识别的过程，是通过非重叠网格的划分并结合直方图差异计算来识别每一帧的镜头边界。

可选地，镜头边界检测算法通过非重叠网格并结合直方图差异计算来识别每一帧的镜头边界时，先将每一帧划分为16×16大小的非重叠网格，然后采用卡方距离计算相邻两帧之间相应的网格直方图差，再计算连续两帧之间的直方图平均差，最后将直方图平均差与设定的阈值T_shot进行比较从而识别镜头边界。

可选地，采用卡方距离计算相邻两帧之间相应的网格直方图差的公式为：

其中，H_i表示第i帧直方图，H_i+1表示第(i+1)帧直方图，I表示两帧中同一位置的图像块。

可选地，连续两帧之间的直方图平均差的计算公式为：

其中，D为连续两帧的直方图平均差，d_k为第k个图像块之间的卡方差，N表示图像中图像块的总数。

可选地，将直方图平均差与设定的阈值T_shot进行比较的计算公式为：

其中，i和i+1表示两个连续的帧.

可选地，通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割中采用的是U-Net模型，所述U-Net模型包括收缩路径和对称的扩张路径，通过收缩路径对关键帧中的特征进行卷积运算，再通过Relu激活函数来提取特征，在提取的特征中应用maxpool函数识别出相关特征，在所述U-Net模型的最后一层实用Softmax激活，得到每个类的像素概率。

可选地，所述U-Net模型所处理的关键帧所针对的是256*256的彩色图像，并在所述U-Net模型的每层同时予以填充、保留针对关键帧特征最相关的特性。

特别地，本发明还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

本发明还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

本发明还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行如上所述的方法。

本申请的用于航拍视频数据的语义分割方法，是经过数据预处理、提取关键帧，从而减小数据的计算量，不用大型的数据集驱动模型来进行学习，通过结合颜色和纹理特征来解决模型对由阴影产生光流变化的敏感性，使用卷积神经网络以端到端的的方式学习局部特征和全局特征来优化语义分割的结果，提高后期拓展性詹策的准确性和可靠性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的用于航拍视频数据的语义分割方法的方法流程图；

图2是根据本申请另一个实施例的计算设备结构图；

图3是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

本方案提出了一种用于航拍视频数据的语义分割方法，如图1所示，其通过镜头边界检测算法对航拍视频数据集进行训练识别，得到所述航拍视频数据集中的关键帧并构成关键帧数据集，再通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割。

镜头边界检测算法对航拍视频数据集中的连续帧进行镜头边界的识别，是通过计算连续帧的直方图差异并与设定阈值相比较从而完成镜头边界的识别。进一步说来，是通过非重叠网格的划分并结合直方图差异计算来识别每一帧的镜头边界。

具体说来，镜头边界检测算法通过非重叠网格并结合直方图差异计算来识别每一帧的镜头边界时，先将每一帧划分为16×16大小的非重叠网格，然后采用卡方距离计算相邻两帧之间相应的网格直方图差，

然后，计算连续两帧之间的直方图平均差，

最后，将直方图平均差与设定的阈值T_shot进行比较从而识别镜头边界，将直方图平均差与设定的阈值T_shot进行比较的计算公式为：

其中，i和i+1表示两个连续的帧。阈值Tshot的确定可根据的具体工况需求来确定，本实施例中的阈值Tshot是根据直方图曲线的峰和谷，优选地，所述阈值Tshot对应选定直方图中两个峰之间的最小值，可根据实验表现来确定。在确定镜头边界时，如D_i+1-D_i＞T_shot则判定为1即判定为镜头边界，否则则为非镜头边界。

可选地，通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割中采用的是U-Net模型，所述U-Net模型包括收缩路径和对称的扩张路径，通过收缩路径对关键帧中的特征进行卷积运算，再通过Relu激活函数来提取特征，在提取的特征中应用maxpool函数识别出相关特征，在所述U-Net模型的最后一层实用Softmax激活，得到每个类的像素概率。通常而言一张图片里会包含多个语义类，比如“道路”、“草地”、“房屋”等，在本实施例中得到每个类的像素概率后既可以得到该像素点所对应的语义类，也就是能够分析出图片中的语义。

本实施例对U-Net模型进行了相应的修改，以处理航空影像。所述U-Net模型所处理的关键帧所针对的是256*256的彩色图像，并在所述U-Net模型的每层同时予以填充，每层的输入由上层做卷积从而丰富，保留针对关键帧特征最相关的特性。

本申请实施例还提供了一种计算设备，参照图2，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图3，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种用于航拍视频数据的语义分割方法，其特征在于，通过镜头边界检测算法对航拍视频数据集进行训练识别，得到所述航拍视频数据集中的关键帧并构成关键帧数据集，再通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割。

2.根据权利要求1所述的用于航拍视频数据的语义分割方法，其特征在于，镜头边界检测算法对航拍视频数据集中的连续帧进行镜头边界的识别，是通过计算连续帧的直方图差异并与设定阈值相比较从而完成镜头边界的识别。

3.根据权利要求2所述的用于航拍视频数据的语义分割方法，其特征在于，镜头边界检测算法对航拍视频数据集中的连续帧进行镜头边界的识别的过程，是通过非重叠网格的划分并结合直方图差异计算来识别每一帧的镜头边界。

4.根据权利要求3所述的用于航拍视频数据的语义分割方法，其特征在于，镜头边界检测算法通过非重叠网格并结合直方图差异计算来识别每一帧的镜头边界时，先将每一帧划分为16×16大小的非重叠网格，然后采用卡方距离计算相邻两帧之间相应的网格直方图差，再计算连续两帧之间的直方图平均差，最后将直方图平均差与设定的阈值T_shot进行比较从而识别镜头边界。

5.根据权利要求4所述的用于航拍视频数据的语义分割方法，其特征在于，采用卡方距离计算相邻两帧之间相应的网格直方图差的公式为：

6.根据权利要求5所述的用于航拍视频数据的语义分割方法，其特征在于，连续两帧之间的直方图平均差的计算公式为：

7.根据权利要求6所述的用于航拍视频数据的语义分割方法，其特征在于，将直方图平均差与设定的阈值T_shot进行比较的计算公式为：

其中，i和i+1表示两个连续的帧。

8.根据权利要求2所述的用于航拍视频数据的语义分割方法，其特征在于，通过基于全卷积网络的语义分割算法对所述关键帧数据集进行语义分割中采用的是U-Net模型，所述U-Net模型包括收缩路径和对称的扩张路径，通过收缩路径对关键帧中的特征进行卷积运算，再通过Relu激活函数来提取特征，在提取的特征中应用maxpool函数识别出相关特征，在所述U-Net模型的最后一层实用Softmax激活，得到每个类的像素概率。

9.根据权利要求8所述的用于航拍视频数据的语义分割方法，其特征在于，所述U-Net模型所处理的关键帧所针对的是256*256的彩色图像，并在所述U-Net模型的每层同时予以填充、保留针对关键帧特征最相关的特性。

10.一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行如权利要求1-9中任一项所述的方法。