CN112183236A

CN112183236A - 无人机航拍视频内容识别方法、装置及***

Info

Publication number: CN112183236A
Application number: CN202010946775.3A
Authority: CN
Inventors: 吴晓琳; 杜永红; 张凯; 夏林元; 杨嘉贺
Original assignee: Foshan Ju Zhuo Technology Co ltd
Current assignee: Foshan Ju Zhuo Technology Co ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-01-05

Abstract

本发明公开了一种基于深度学习的无人机航拍视频内容识别方法，包括：实时获取无人机拍摄的视频图像；对视频图像进行抽帧处理以提取样本图像，对样本图像进行预处理；对样本图像中的待识别物体进行标注，生成物体类别数据库；利用数据增强技术扩充物体类别数据库；利用扩充后的物体类别数据库训练深度神经网络模型，深度神经网络模型为SSD网络模型，SSD网络模型包括多分支卷积结构及多尺度特征图融合结构；使用训练好的深度神经网络模型识别视频图像，以输出每个物体类别的位置信息与尺寸信息。本发明还公开了一种基于深度学习的无人机航拍视频内容识别装置及***。采用本发明可有效解决航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。

Description

无人机航拍视频内容识别方法、装置及***

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于深度学习的无人机航拍视频内容识别方法、装置及***。

背景技术

近年来，随着计算机技术、多媒体技术和网络技术的不断发展，手机、摄像机、监控等获取视频的设备快速普及，视频资源日益丰富。快速并且准确地获取视频中的信息越来越重要，而基于深度学习的方法蕴藏着巨大的潜能，在计算机视觉领域的应用发展如火如荼，成为当今及未来的趋势。更进一步，实时准确地检测定位视频中的场景文本并进行物体识别，对治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。

对于视频内容的理解和识别等工作，过去都是通过人工手段来完成，这无疑是费时费力且低效的一种方式，近年来国内外学者提出了很多提取视觉特征的深度神经网络模型，同时部分学者开始研究深度神经网络在视频领域的应用，提出了一些用于视频动作识别和特征提取的网络；在视频内容检索方面目前也引入了深度神经网络用于从视频中提取结构化信息。

到目前为止，深度卷积神经网络己经是目标检测算法的通用方法，目前高性能的物体检测算法和最新的研究也都是基于深度卷积神经网络。为了提高目标检测网络的速度，Liu等人提出了SSD网络该网络通过在不同尺寸的特征图上进行目标类别分类和位置回归，利用不同的尺寸特征图来检测不同尺寸的目标，省去了RPN网络从而大大提高了网络的速度；更进一步，Redmon等人提出了YOLO网络，该网络将原图分成了7x7大小的区域，对每个区域直接通过神经网络进行目标类别分类和位置回归，省去了不同尺寸特征图的分类和回归操作，使得目标检测网络速度进一步提升。SSD和YOLO网络相比于Fast-RCNN在检测精度上略有下降。除此之外，基于以上三种模型的思路，还有很多其他的物体检测网络模型被提出。

发明内容

本发明所要解决的技术问题在于，提供一种基于深度学习的无人机航拍视频内容识别方法、装置及***，可有效解决航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。

为了解决上述技术问题，本发明提供了一种基于深度学习的无人机航拍视频内容识别方法，包括：实时获取无人机拍摄的视频图像；对所述视频图像进行抽帧处理以提取样本图像，对所述样本图像进行预处理；对所述样本图像中的待识别物体进行标注，生成物体类别数据库；利用数据增强技术扩充所述物体类别数据库；利用扩充后的物体类别数据库训练深度神经网络模型，所述深度神经网络模型为SSD网络模型，所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构；使用训练好的深度神经网络模型识别所述视频图像，以输出每个物体类别的位置信息与尺寸信息。

作为上述方案的改进，所述对样本图像进行预处理的步骤包括：使用畸变矫正算法对所述样本图像进行矫正处理，以形成规整平面的样本图像；对矫正处理后的样本图像进行压缩处理，以使所述样本图像达到能够进行目标识别的目标尺寸。

作为上述方案的改进，所述对样本图像中的待识别物体进行标注的方法包括人工标注法和/或图像目标检测算法。

作为上述方案的改进，所述利用数据增强技术扩充物体类别数据库的步骤包括：以随机概率叠加的方式对所述物体类别数据库中的样本图像进行数据增强处理，所述数据增强处理包括旋转处理、填充式裁剪处理及灰度化数据处理。

作为上述方案的改进，所述利用扩充后的物体类别数据库训练深度神经网络模型的步骤包括：将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型；将多个所述样本图像通过多分支卷积层分别进行卷积处理；将经卷积处理后的多个样本图像分别进行归一化处理，以生成尺度的特征图；将所有特征图进行特征融合处理；将经拼接处理后的特征图通过卷积层进行卷积处理，以生成分支卷积特征图。

作为上述方案的改进，所述将所有特征图进行特征融合处理的步骤包括：将所有特征图进行尺寸统一处理；在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理；将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。

相应地，本发明还提供了一种基于深度学习的无人机航拍视频内容识别装置，包括：获取模块，用于实时获取无人机拍摄的视频图像；预处理模块，用于对所述视频图像进行抽帧处理以提取样本图像，对所述样本图像进行预处理；标注模块，用于对所述样本图像中的待识别物体进行标注，生成物体类别数据库；扩充模块，用于利用数据增强技术扩充所述物体类别数据库；训练模块，用于利用扩充后的物体类别数据库训练深度神经网络模型，所述深度神经网络模型为SSD网络模型，所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构；识别模块，用于使用训练好的深度神经网络模型识别所述视频图像，以输出每个物体类别的位置信息与尺寸信息。

作为上述方案的改进，所述训练模块包括：输入单元，用于将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型；第一卷积单元，用于将多个样本图像通过多分支卷积层分别进行卷积处理；归一化单元，用于将经卷积处理后的多个样本图像分别进行归一化处理，以生成尺度的特征图；融合单元，用于将所有特征图进行特征融合处理；第二卷积单元，用于将经拼接处理后的特征图通过卷积层进行卷积处理，以生成分支卷积特征图。

作为上述方案的改进，所述融合单元包括：尺寸调整子单元，用于将所有特征图进行尺寸统一处理；识别定位子单元，用于在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理；特征融合子单元，用于将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。

相应地，本发明还提供了一种基于深度学***台及无人机航拍视频内容识别装置，所述无人机平台为搭载可见光相机和热红外相机，并进行多源影像采集的平台。

实施本发明，具有如下有益效果：

本发明对现有的SSD网络模型进行了改进，在SSD网络模型基础上增加多分支卷积结构来提高网络对小目标的检测性能，并采用多尺度特征图融合结构对多尺度的特征图进行不同尺度的特征图融合，利用扩充后的物体类别数据库来训练深度神经网络模型，解决了航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。

附图说明

图1是本发明基于深度学习的无人机航拍视频内容识别方法的实施例流程图；

图2是本发明中利用扩充后的物体类别数据库训练深度神经网络模型的实施例流程图；

图3是本发明中SSD网络模型的多分支卷积的结构示意图；

图4是本发明中SSD网络模型的多尺度特征图融合结构的示意图；

图5是本发明中SSD网络模型的示意图；

图6是本发明基于深度学习的无人机航拍视频内容识别***的结构示意图；

图7是本发明基于深度学习的无人机航拍视频内容识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

参见图1，图1显示了本发明基于深度学习的无人机航拍视频内容识别方法的实施例流程图，其包括：

S101，实时获取无人机拍摄的视频图像。

本发明通过无人机在低空进行俯视拍摄，并把拍摄到的视频图像实时传输到主机(即，无人机航拍视频内容识别装置)，以使主机可实时获取无人机拍摄的视频图像。

S102，对视频图像进行抽帧处理以提取样本图像，对样本图像进行预处理。

抽帧策略可以是按规定时间间隔的第一帧和最后一帧进行抽取，也可以通过在一段视频中进行随机帧抽取，这里不做具体限制，可以按需选择。

具体地，对样本图像进行预处理的步骤包括：

(1)使用畸变矫正算法对样本图像进行矫正处理，以形成规整平面的样本图像。

矫正时，可使用畸变矫正算法对无人机的鱼眼镜头图像进行处理，从而得到规整、平面的样本图像。

(2)对矫正处理后的样本图像进行压缩处理，以使样本图像达到能够进行目标识别的目标尺寸。

矫正完成后，需要对样本图像大小进行压缩变化，得到能够进行目标识别的几个目标尺寸。例如，目标尺寸可以设定为300mm×300mm。

S103，对样本图像中的待识别物体进行标注，生成物体类别数据库。

对样本图像中的待识别物体进行标注的方法包括人工标注法和/或图像目标检测算法。

需要说明的是，对样本图像中的各类物体进行标注可以是人工标注(在没有相关数据资料的情况下)，并且只标注需要内容识别的类别；在拥有相关基础数据基础上，可以使用其他的图像目标检测算法进行机器自动标注。标注完成后得到物体类别数据库，用作视频内容识别的目标空间。

S104，利用数据增强技术扩充物体类别数据库。

具体地，利用数据增强技术扩充物体类别数据库的步骤包括：以随机概率叠加的方式对物体类别数据库中的样本图像进行数据增强处理，数据增强处理包括旋转处理、填充式裁剪处理及灰度化数据处理。

利用数据增强技术扩充步骤S103的物体类别数据库，增加物体类别数据库的内容多样性，具体做法是将物体类别数据库中的一张样本图像通过包括旋转、填充式裁剪、灰度化数据的增强操作，变换为一张新的样本图像；

需要说明的是，增强操作只在训练过程中使用，测试和实际应用中均不需要，所有的增强操作以一定概率施加在原样本图像上，保证增强操作结果的随机性，然后作为本次模型迭代训练的输入数据。

S105，利用扩充后的物体类别数据库训练深度神经网络模型。

深度神经网络模型为SSD网络模型，SSD网络模型包括多分支卷积结构及多尺度特征图融合结构。

与现有技术不同的是，本发明对现有的SSD网络模型进行了改进，在SSD网络模型基础上增加多分支卷积结构来提高网络对小目标的检测性能，并采用多尺度特征图融合结构对多尺度的特征图进行不同尺度的特征图融合，利用步骤S104扩充后的物体类别数据库来训练深度神经网络模型，解决了航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。

S106，使用训练好的深度神经网络模型识别视频图像，以输出每个物体类别的位置信息与尺寸信息。

使用训练好的深度神经网络模型对所述无人机传输回来的视频图像中的内容进行识别，并定位到每一个物体类别的位置与大小，最后输出对应窗口中的物体内容类别和位置信息。

因此，本发明通过改进SSD网络模型，在处理视频图像时能够有效提高模型的识别速度和效率，有效解决航拍视频内容检测中存在的类别识别与位置定位相互矛盾问题，提高了内容识别准确度。

参见图2，图2显示了本发明中利用扩充后的物体类别数据库训练深度神经网络模型的实施例流程图，其包括：

S201，将物体类别数据库中的多个样本图像输入深度神经网络模型。

S202，将多个样本图像通过多分支卷积层分别进行卷积处理。

S203，将经卷积处理后的多个样本图像分别进行归一化处理，以生成尺度的特征图。

S204，将所有特征图进行特征融合处理。

具体地，将所有特征图进行特征融合处理的步骤包括：

(1)将所有特征图进行尺寸统一处理；

(2)在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理；

(3)将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。

S205，将经拼接处理后的特征图通过卷积层进行卷积处理，以生成分支卷积特征图。

因此，本发明在SSD网络模型中加入先分支后拼接的卷积核来进行改进，并将同类图片利用卷积核生成的多尺度的特征图进行多尺度特征图融合。

下面结合图3-图5对深度神经网络模型的训练流程做进一步的详细说明：

如图3所示，改进的SSD网络模型的多分支卷积结构中，样本图像在经过维度分别为n和m的卷积核卷积、归一、融合后，再经1×1卷积得到分支卷积特征图。其中，多分支卷积操作可以进行多次卷积池化操作。优选地，所述n＝1，m＝3。

如图4所示，改进的SSD网络模型的多尺度特征图融合结构中，融合的特征图数量设定k＝3，输入为连续3张特征图；其中m-1层进行一次卷积，m层特征图不变化，m+1层进行一次反卷积，这样3张特征图尺寸统一后，分别在3张图上进行类别识别和位置定位，最后将3张特征图得到的结果按照加权的方式进行融合，特征融合加权参数由网络学习得到，初始设定为1/3。

因此，与传统SSD网络从单张特征图进行类别识别和位置定位不同，本发明输入为连续k张特征图(其中，深层特征图的特征具有较强的表征能力，浅层的特征图的特征有利于位置定位)，将不同尺度特征图转化到相同尺寸后，分别在k张图上进行类别识别和位置定位。

如图5所示，改进的SSD网络模型遵循了一步法网络模型的基本结构，模型的骨干网络采用VGG-16，从网络的最后一个卷积层开始连续利用多分支卷积核结构进行卷积和池化若干次，一共得到若干个不同尺度的特征图。采用滑动窗口在特征图序列上滑动窗口，滑动窗口的大小设置为t，进行不同尺度特征图的特征融合，对于滑动窗口内的t个特征图作为特征融合算法的输入，依次输出对应窗口内物***置回归和类别识别结果，经非极大值抑制后得到最终识别结果。例如，卷积池化次数设定为五次，一共得到6个不同尺度的特征图。滑动窗口的大小可设置为t＝3。

由上可知，本发明通过在SSD网络模型中加入先分支后拼接的卷积核来进行改进，并将同类图片利用卷积核生成的多尺度的特征图进行多尺度特征图融合，有效解决航拍视频内容检测中存在的类别识别与位置定位相互矛盾问题，提高了内容识别准确度。

参见图6，图6显示了本发明基于深度学***台1及无人机航拍视频内容识别装置2。

无人机平台1为搭载可见光相机和热红外相机，并进行多源影像采集的平台。本发明通过无人机在低空进行俯视拍摄，并把拍摄到的视频图像实时传输到无人机航拍视频内容识别装置，以使无人机航拍视频内容识别装置可实时获取无人机拍摄的视频图像。

具体地，所述无人机平台1包括电源、电脑主板、地面监控客户端、可见光相机、热红外相机、相机固定架、图像采集卡、4G模块及基站。其中，所述无人机平台配备有飞行控制器且具备动力***、GPS和电池等，并支持模块拓展；所述电脑主板、可见光相机和热红外相机均固定于无人机平台上；所述图像采集卡用于保证电脑主板获取热红外相机的影像数据；所述电脑主板安装有图像采集卡驱动，采用图像采集卡配套的SDK开发结构，编程同步获取可见光相机和热红外相机的采集数据；所述4G模块搭载于电脑主板上并通过自动拨号连接基站；所述地面监控客户端连接至基站，保证搭载在无人机的电脑主板与地面监控客户端相连。

如图6所示，基于深度学习的无人机航拍视频内容识别装置2包括获取模块21、预处理模块22、标注模块23、扩充模块24、训练模块25及识别模块26，具体地：

获取模块21，用于实时获取无人机拍摄的视频图像。

预处理模块22，用于对视频图像进行抽帧处理以提取样本图像，对样本图像进行预处理。具体地，抽帧策略可以是按规定时间间隔的第一帧和最后一帧进行抽取，也可以通过在一段视频中进行随机帧抽取，这里不做具体限制，可以按需选择。另外，预处理模块22完成抽帧处理后，使用畸变矫正算法对样本图像进行矫正处理，以形成规整平面的样本图像；接着，对样本图像大小进行压缩变化，得到能够进行目标识别的几个目标尺寸。例如，目标尺寸可以设定为300mm×300mm。

标注模块23，用于对样本图像中的待识别物体进行标注，生成物体类别数据库。需要说明的是，标注模块23可采用人工标注法和/或图像目标检测算法对样本图像中的待识别物体进行标注；其中，在没有相关数据资料的情况下，对样本图像中的各类物体进行标注可以是人工标注，并且只标注需要内容识别的类别；在拥有相关基础数据基础上，可以使用其他的图像目标检测算法进行机器自动标注；标注完成后得到物体类别数据库，用作视频内容识别的目标空间。

扩充模块24，用于利用数据增强技术扩充物体类别数据库。扩充模块24可利用数据增强技术扩充物体类别数据库，增加物体类别数据库的内容多样性，具体做法是将物体类别数据库中的一张样本图像通过包括旋转、填充式裁剪、灰度化数据的增强操作，变换为一张新的样本图像；其中，增强操作只在训练过程中使用，测试和实际应用中均不需要，所有的增强操作以一定概率施加在原样本图像上，保证增强操作结果的随机性，然后作为本次模型迭代训练的输入数据。

训练模块25，用于利用扩充后的物体类别数据库训练深度神经网络模型。深度神经网络模型为SSD网络模型，SSD网络模型包括多分支卷积结构及多尺度特征图融合结构。

识别模块26，用于使用训练好的深度神经网络模型识别视频图像，以输出每个物体类别的位置信息与尺寸信息，最后输出对应窗口中的物体内容类别和位置信息。

因此，本发明对现有的SSD网络模型进行了改进，在SSD网络模型基础上增加多分支卷积结构来提高网络对小目标的检测性能，并采用多尺度特征图融合结构对多尺度的特征图进行不同尺度的特征图融合，利用扩充后的物体类别数据库来训练深度神经网络模型，解决了航拍视频物体检测中存在的类别识别和位置定位相互影响的问题。

如图7所示，训练模块25包括：

输入单元251，用于将物体类别数据库中的多个样本图像输入深度神经网络模型；

第一卷积单元252，用于将多个样本图像通过多分支卷积层分别进行卷积处理；

归一化单元253，用于将经卷积处理后的多个样本图像分别进行归一化处理，以生成尺度的特征图；

融合单元254，用于将所有特征图进行特征融合处理；

第二卷积单元255，用于将经拼接处理后的特征图通过卷积层进行卷积处理，以生成分支卷积特征图。

进一步，融合单元254包括：

尺寸调整子单元，用于将所有特征图进行尺寸统一处理；

识别定位子单元，用于在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理；

特征融合子单元，用于将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于深度学习的无人机航拍视频内容识别方法，其特征性在于，包括：

实时获取无人机拍摄的视频图像；

对所述视频图像进行抽帧处理以提取样本图像，对所述样本图像进行预处理；

对所述样本图像中的待识别物体进行标注，生成物体类别数据库；

利用数据增强技术扩充所述物体类别数据库；

利用扩充后的物体类别数据库训练深度神经网络模型，所述深度神经网络模型为SSD网络模型，所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构；

使用训练好的深度神经网络模型识别所述视频图像，以输出每个物体类别的位置信息与尺寸信息。

2.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法，其特征性在于，所述对样本图像进行预处理的步骤包括：

使用畸变矫正算法对所述样本图像进行矫正处理，以形成规整平面的样本图像；

对矫正处理后的样本图像进行压缩处理，以使所述样本图像达到能够进行目标识别的目标尺寸。

3.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法，其特征性在于，所述对样本图像中的待识别物体进行标注的方法包括人工标注法和/或图像目标检测算法。

4.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法，其特征性在于，所述利用数据增强技术扩充物体类别数据库的步骤包括：

以随机概率叠加的方式对所述物体类别数据库中的样本图像进行数据增强处理，所述数据增强处理包括旋转处理、填充式裁剪处理及灰度化数据处理。

5.如权利要求1所述的基于深度学习的无人机航拍视频内容识别方法，其特征性在于，所述利用扩充后的物体类别数据库训练深度神经网络模型的步骤包括：

将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型；

将多个所述样本图像通过多分支卷积层分别进行卷积处理；

将经卷积处理后的多个样本图像分别进行归一化处理，以生成尺度的特征图；

将所有特征图进行特征融合处理；

将经拼接处理后的特征图通过卷积层进行卷积处理，以生成分支卷积特征图。

6.如权利要求5所述的基于深度学习的无人机航拍视频内容识别方法，其特征性在于，所述将所有特征图进行特征融合处理的步骤包括：

将所有特征图进行尺寸统一处理；

在统一尺寸后的每一特征图上分别进行类别识别及位置定位处理；

将识别及定位处理后的所有特征图按照加权方式进行特征融合处理。

7.一种基于深度学习的无人机航拍视频内容识别装置，其特征在于，包括：

获取模块，用于实时获取无人机拍摄的视频图像；

预处理模块，用于对所述视频图像进行抽帧处理以提取样本图像，对所述样本图像进行预处理；

标注模块，用于对所述样本图像中的待识别物体进行标注，生成物体类别数据库；

扩充模块，用于利用数据增强技术扩充所述物体类别数据库；

训练模块，用于利用扩充后的物体类别数据库训练深度神经网络模型，所述深度神经网络模型为SSD网络模型，所述SSD网络模型包括多分支卷积结构及多尺度特征图融合结构；

识别模块，用于使用训练好的深度神经网络模型识别所述视频图像，以输出每个物体类别的位置信息与尺寸信息。

8.如权利要求7所述的基于深度学习的无人机航拍视频内容识别装置，其特征性在于，所述训练模块包括：

输入单元，用于将所述物体类别数据库中的多个样本图像输入所述深度神经网络模型；

第一卷积单元，用于将多个样本图像通过多分支卷积层分别进行卷积处理；

归一化单元，用于将经卷积处理后的多个样本图像分别进行归一化处理，以生成尺度的特征图；

融合单元，用于将所有特征图进行特征融合处理；

第二卷积单元，用于将经拼接处理后的特征图通过卷积层进行卷积处理，以生成分支卷积特征图。

9.如权利要求8所述的基于深度学习的无人机航拍视频内容识别装置，其特征性在于，所述融合单元包括：

尺寸调整子单元，用于将所有特征图进行尺寸统一处理；

10.一种基于深度学***台及权利要求7-9任一项所述的无人机航拍视频内容识别装置，所述无人机平台为搭载可见光相机和热红外相机，并进行多源影像采集的平台。