CN114064971A

CN114064971A - 一种基于深度学习的机坪视频语义检索方法及检索***

Info

Publication number: CN114064971A
Application number: CN202111383673.6A
Authority: CN
Inventors: 吕宗磊; 甘雨; 郝家祺; 张洁盈; 张义林
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18

Abstract

本发明涉及一种基于深度学习的机坪视频语义检索方法及检索***，属于视频信息处理技术领域，包括S1、构建机坪目标检测数据集；S2、对机坪目标检测数据集进行训练，生成最终目标检测模型；S3、对机坪视频进行预处理；S4、对预处理后的机坪视频中的视觉目标进行检测，生成视觉目标的位置及标签信息；S5、对目标检测结果进行分析，筛选出符合机坪作业规则的视觉目标的特征序列；S6、对特征序列进行特征提取，并使用注意力机制进行特征融合，生成特征矩阵；S7、将特征矩阵输入神经网络训练视频语义检索模型；S8、获取待检测的机坪视频，输入查询事件，生成视频候选片段；S9、将视频候选片段输入，获得符合查询事件语义的视频片段。

Description

一种基于深度学习的机坪视频语义检索方法及检索***

技术领域

本发明属于视频信息处理技术领域，具体涉及一种基于深度学习的机坪视频语义检索方法及检索***。

背景技术

随着互联网的发展，视频逐渐成为继文字和图文之后的主要信息载体。在社会公共安全领域，视频监控***成为维护社会治安，加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大，存储时间长等特点，通过录像寻找需要的视频片段，意味着搜查大量的人工索引和进行冗长的线性筛选，耗费大量人力、物力以及时间，效率极其低下，增加了不必要的成本。

随着技术的进步，视频检索技术应运而生，如今正在蓬勃发展并广泛应用在数字电视、远程教育、远程医疗和安防等领域，成为了大数据时代下的新贵。而在民航领域视频检索***尚未起步，机坪视频的检索研究仍然空白。机坪管理复杂，需要7×24小时全天候监控机坪内作业人员和车辆记录其违规作业行为、识别车辆行驶路径、拖挂车数量、锥桶、平板车等摆放、人员横穿机位等违规情况、统计历史违章数据、纠正处置违章情况等多项管理，耗费大量人力。因此研发一个以视频搜索为核心的搜索***的任务迫在眉睫。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种基于深度学习的机坪视频语义检索方法及检索***；利用计算机数据处理技术，将原始监控视频导入检索***，选择查询事件，就能检索出相应的视频片段。

本发明的第一目的是提供一种基于深度学习的机坪视频语义检索方法，至少包括：

步骤1，构建机坪目标检测数据集；

步骤2，使用YOLOv5s模型对机坪目标检测数据集进行训练，生成最终目标检测模型；

步骤3，根据机坪作业规则对机坪视频进行预处理；

步骤4，使用S2所得目标检测模型对预处理后的机坪视频中的视觉目标进行检测，生成视觉目标的位置及标签信息；

步骤5，对目标检测结果进行分析，筛选出符合机坪作业规则的视觉目标的特征序列；

步骤6，通过时间卷积网络对特征序列进行特征提取，并使用注意力机制进行特征融合，生成特征矩阵；

步骤7，将特征矩阵输入神经网络训练视频语义检索模型；

步骤8，获取待检测的机坪视频，输入查询事件，通过预处理生成视频候选片段；

步骤9，将S8所得视频候选片段输入基于深度学习的机坪视频语义检索***中，获得符合查询事件语义的视频片段。

进一步：步骤1中，机坪目标检测数据集数据源为贵阳龙洞堡国际机场209机位监控视频，使用OpenCV将视频拆逐帧拆分为图像，使用目标检测标注工具labelImg对所有图像进行标注，构建YOLO格式的目标检测数据集。图像标注种类涵盖10类，分别为人、廊桥、垃圾车、飞机、加油车、平台车、加水车、行李车、航食车、牵引车。

进一步：步骤2中，使用YOLOv5s模型作为预训练模型，对S1中构建的机坪目标检测数据集进行再次训练，训练参数设定如下：epochs＝80，batch_size＝16，生成最终的目标检测模型。

进一步：步骤3中，机坪视频数据源为贵阳龙洞堡机场209机位监控视频，根据机坪作业流程的先验知识，裁剪出各个机坪作业流程的视频片段，并统计各个机坪作业流程的平均时长与平均视频帧数。

进一步：步骤4中，使用OpenCV将S3中裁剪所得的机坪作业片段逐帧拆分为图片，输入到S2所得的目标检测模型中，生成视觉对象的标签和坐标信息。

进一步：步骤5中，从步骤4所得的所有视觉对象的标签和坐标信息中筛选出符合机坪作业规则的视觉对象的标签和坐标信息。设定三类特征，分别是视觉对象相对距离、视觉对象相对位置、视觉对象速度。统计每帧图片中符合机坪作业规则的视觉对象的相对像素距离，并生成相对像素距离序列。统计每帧图片中符合机坪作业规则的视觉对象的相对位置，相对位置指以飞机的像素坐标为原点构建坐标系，其余视觉对象的像素坐标与x轴正方向所构成的夹角。利用帧间差分法计算视觉对象的速度，生成视觉对象速度特征序列。

进一步：步骤6中，使用时间卷积网络对步骤5所得特征序列进行特征提取，并将提取到的特征向量拼接为特征矩阵，将注意力机制作用在特征矩阵上，对特征矩阵做不同的权重分配，实现特征融合。

进一步：步骤7中，将步骤6所得特征矩阵输入由全连接层构成的语义检索网络，训练语义检索模型。

进一步：步骤8中，获取机坪场景下任意待检测视频，输入查询事件，使用滑动窗口方法，以所输入事件对应的作业流程的平均帧数为滑动窗口大小，将长视频拆分为视频候选片段。

进一步：步骤9中，将视频候选片段输入步骤2所得目标检测模型，根据步骤5获取视频候选片段中符合机坪作业规则的视觉目标的位置及标签信息，并根据步骤6生成特征矩阵，将特征矩阵输入步骤7生成的视频语义检索模型，获得符合查询事件语义的视频片段。

本发明的第二目的是提供一种基于深度学习的机坪视频语义检索检索***，至少包括：

构件模块，构建机坪目标检测数据集；

训练模块，使用YOLOv5s模型对机坪目标检测数据集进行训练，生成最终目标检测模型；

预处理模块，根据机坪作业规则对机坪视频进行预处理；

检测模块，使用所述目标检测模型对预处理后的机坪视频中的视觉目标进行检测，生成视觉目标的位置及标签信息；

分析筛选模块，对目标检测结果进行分析，筛选出符合机坪作业规则的视觉目标的特征序列；

特征生成模块，通过时间卷积网络对特征序列进行特征提取，并使用注意力机制进行特征融合，生成特征矩阵；

检索模块，将特征矩阵输入神经网络训练视频语义检索模型；

视频候选片段生成模块，获取待检测的机坪视频，输入查询事件，通过预处理生成视频候选片段；

结果输出模块，将所述视频候选片段输入基于深度学习的机坪视频语义检索***中，获得符合查询事件语义的视频片段。

本发明的第三目的是提供一种实现上述基于深度学习的机坪视频语义检索方法的信息数据处理终端。

本发明的第四目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于深度学习的机坪视频语义检索方法。

本发明具有的优点和积极效果是：

本发明根据机坪作业流程的特征，能有效的提高机坪中特定事件的检索效率。

本发明设计目标检测网络对机坪作业车辆进行识别并统计其特征序列，并使用时间卷积网络对特征序列和注意力机制将机坪作业流程高度抽象化为特征矩阵，方便对机坪中的特定事件进行检索。相对于人工检索大幅缩短了时间、提高了效率、节省了成本，并且在拥有大量数据集支撑训练的前提下，保证了较高的精准率。

附图说明

图1为本发明优选实施例的流程图；

图2为本发明优选实施例中机坪目标检测模型第一效果图；

图3为本发明优选实施例中机坪目标检测模型第二效果图；

图4为本发明优选实施例中机坪目标检测模型第三效果图；

图5为本发明优选实施例中机坪目标检测模型第四效果图；

图6为本发明优选实施例中机坪目标检测模型检测准确率条形图；

图7为本发明优选实施例中的相对位置特征序列。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下：

基于深度学习的机坪视频语义检索方法及检索***实质是一个基于目标检测的特征序列匹配问题。通过目标检测模型对机坪的视觉目标进行识别，获得视觉目标的标签位置信息，生成特征序列。通过时间卷积网络对特征序列进行特征提取，生成特征矩阵，使用注意力机制对特征矩阵进行权重重分配，实现特征融合。以上步骤将机坪的工作流程高度抽象为特征矩阵，再将特征矩阵输入全连接网络中训练分类器。对于待检测视频，根据输入的查询事件判断出其对应的作业流程，根据先验知识确定滑动窗口大小，使用滑动窗口方法将待检测视频分解为视频候选片段。将视频候选片段输入基于深度学习的机坪视频语义检索***中，经过目标检测、特征序列获取、特征提取、特征融合、分类器分类后即可选择出符合查询事件语义的视频片段，完成机坪视频语义检索。

请参阅图1-图7，一种基于深度学习的机坪视频语义检索方法，包括两个实现阶段，分别是基于深度学习的机坪视频语义模型的建立以及待检测视频的预处理。具体包括以下几个步骤：

步骤1，构建机坪目标检测数据集；机坪目标检测数据集数据源为贵阳龙洞堡国际机场209机位监控视频，使用OpenCV将视频拆逐帧拆分为图像，使用目标检测标注工具labelImg对所有图像进行标注，构建YOLO格式的目标检测数据集。图像标注种类涵盖10类，分别为人、廊桥、垃圾车、飞机、加油车、平台车、加水车、行李车、航食车、牵引车。

步骤2，使用YOLOv5s模型对机坪目标检测数据集进行训练，生成最终目标检测模型；具体为：使用YOLOv5s模型作为预训练模型，对S1中构建的机坪目标检测数据集进行再次训练，训练参数设定如下：epochs＝80，batch_size＝16，生成最终的目标检测模型；

步骤3，根据机坪作业规则对机坪视频进行预处理；具体为：机坪视频数据源为贵阳龙洞堡机场209机位监控视频，根据机坪作业流程的先验知识，裁剪出各个机坪作业流程的视频片段，并统计各个机坪作业流程的平均时长与平均视频帧数；

步骤4，使用S2所得目标检测模型对预处理后的机坪视频中的视觉目标进行检测，生成视觉目标的位置及标签信息；具体为：使用OpenCV将S3中裁剪所得的机坪作业片段逐帧拆分为图片，输入到S2所得的目标检测模型中，生成视觉对象的标签和坐标信息；

步骤5，对目标检测结果进行分析，筛选出符合机坪作业规则的视觉目标的特征序列；具体为：从步骤4所得的所有视觉对象的标签和坐标信息中筛选出符合机坪作业规则的视觉对象的标签和坐标信息。设定三类特征，分别是视觉对象相对距离、视觉对象相对位置、视觉对象速度。统计每帧图片中符合机坪作业规则的视觉对象的相对像素距离，并生成相对像素距离序列。统计每帧图片中符合机坪作业规则的视觉对象的相对位置，相对位置指以飞机的像素坐标为原点构建坐标系，其余视觉对象的像素坐标与x轴正方向所构成的夹角。利用帧间差分法计算视觉对象的速度，生成视觉对象速度特征序列；

步骤6，通过时间卷积网络对特征序列进行特征提取，并使用注意力机制进行特征融合，生成特征矩阵；具体为：使用时间卷积网络对步骤5所得特征序列进行特征提取，并将提取到的特征向量拼接为特征矩阵，将注意力机制作用在特征矩阵上，对特征矩阵做不同的权重分配，实现特征融合；

步骤7，将特征矩阵输入神经网络训练视频语义检索模型；具体为：将步骤6所得特征矩阵输入由全连接层构成的语义检索网络，训练语义检索模型；

步骤8，获取待检测的机坪视频，输入查询事件，通过预处理生成视频候选片段；具体为：获取机坪场景下任意待检测视频，输入查询事件，使用滑动窗口方法，以所输入事件对应的作业流程的平均帧数为滑动窗口大小，将长视频拆分为视频候选片段；

步骤9，将S8所得视频候选片段输入基于深度学习的机坪视频语义检索***中，获得符合查询事件语义的视频片段；具体为：将视频候选片段输入步骤2所得目标检测模型，根据步骤5获取视频候选片段中符合机坪作业规则的视觉目标的位置及标签信息，并根据步骤6生成特征矩阵，将特征矩阵输入步骤7生成的视频语义检索模型，获得符合查询事件语义的视频片段。

一种基于深度学习的机坪视频语义检索检索***，至少包括：

构件模块，构建机坪目标检测数据集；机坪目标检测数据集数据源为贵阳龙洞堡国际机场209机位监控视频，使用OpenCV将视频拆逐帧拆分为图像，使用目标检测标注工具labelImg对所有图像进行标注，构建YOLO格式的目标检测数据集。图像标注种类涵盖10类，分别为人、廊桥、垃圾车、飞机、加油车、平台车、加水车、行李车、航食车、牵引车

训练模块，使用YOLOv5s模型对机坪目标检测数据集进行训练，生成最终目标检测模型；使用YOLOv5s模型作为预训练模型，对构件模块中构建的机坪目标检测数据集进行再次训练，训练参数设定如下：epochs＝80，batch_size＝16，生成最终的目标检测模型；

预处理模块，根据机坪作业规则对机坪视频进行预处理；机坪视频数据源为贵阳龙洞堡机场209机位监控视频，根据机坪作业流程的先验知识，裁剪出各个机坪作业流程的视频片段，并统计各个机坪作业流程的平均时长与平均视频帧数；

检测模块，使用所述目标检测模型对预处理后的机坪视频中的视觉目标进行检测，生成视觉目标的位置及标签信息；使用OpenCV将S3中裁剪所得的机坪作业片段逐帧拆分为图片，输入到训练模块所得的目标检测模型中，生成视觉对象的标签和坐标信息；

分析筛选模块，对目标检测结果进行分析，筛选出符合机坪作业规则的视觉目标的特征序列；从检测模块所得的所有视觉对象的标签和坐标信息中筛选出符合机坪作业规则的视觉对象的标签和坐标信息。设定三类特征，分别是视觉对象相对距离、视觉对象相对位置、视觉对象速度。统计每帧图片中符合机坪作业规则的视觉对象的相对像素距离，并生成相对像素距离序列。统计每帧图片中符合机坪作业规则的视觉对象的相对位置，相对位置指以飞机的像素坐标为原点构建坐标系，其余视觉对象的像素坐标与x轴正方向所构成的夹角。利用帧间差分法计算视觉对象的速度，生成视觉对象速度特征序列；

特征生成模块，通过时间卷积网络对特征序列进行特征提取，并使用注意力机制进行特征融合，生成特征矩阵；使用时间卷积网络对分析筛选模块所得特征序列进行特征提取，并将提取到的特征向量拼接为特征矩阵，将注意力机制作用在特征矩阵上，对特征矩阵做不同的权重分配，实现特征融合；

检索模块，将特征矩阵输入神经网络训练视频语义检索模型；将特征生成模块所得特征矩阵输入由全连接层构成的语义检索网络，训练语义检索模型；

视频候选片段生成模块，获取待检测的机坪视频，输入查询事件，通过预处理生成视频候选片段；获取机坪场景下任意待检测视频，输入查询事件，使用滑动窗口方法，以所输入事件对应的作业流程的平均帧数为滑动窗口大小，将长视频拆分为视频候选片段；

结果输出模块，将所述视频候选片段输入基于深度学习的机坪视频语义检索***中，获得符合查询事件语义的视频片段；将视频候选片段输入训练模块所得目标检测模型，根据分析筛选模块获取视频候选片段中符合机坪作业规则的视觉目标的位置及标签信息，并根据特征生成模块生成特征矩阵，将特征矩阵输入检索模块生成的视频语义检索模型，获得符合查询事件语义的视频片段。

一种实现上述基于深度学习的机坪视频语义检索方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于深度学习的机坪视频语义检索方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的机坪视频语义检索方法，其特征在于，至少包括：

S1、构建机坪目标检测数据集；

S2、使用YOLOv5s模型对机坪目标检测数据集进行训练，生成最终目标检测模型；

S3、根据机坪作业规则对机坪视频进行预处理；

S4、使用所述目标检测模型对预处理后的机坪视频中的视觉目标进行检测，生成视觉目标的位置及标签信息；

S5、对目标检测结果进行分析，筛选出符合机坪作业规则的视觉目标的特征序列；

S6、通过时间卷积网络对特征序列进行特征提取，并使用注意力机制进行特征融合，生成特征矩阵；

S7、将特征矩阵输入神经网络训练视频语义检索模型；

S8、获取待检测的机坪视频，输入查询事件，通过预处理生成视频候选片段；

S9、将所述视频候选片段输入基于深度学习的机坪视频语义检索***中，获得符合查询事件语义的视频片段。

2.根据权利要求1所述的基于深度学***台车、加水车、行李车、航食车、牵引车。

3.根据权利要求2所述的基于深度学习的机坪视频语义检索方法，其特征在于，所述S2具体为：使用YOLOv5s模型作为预训练模型，对S1中构建的机坪目标检测数据集进行训练，训练参数设定如下：epochs＝80，batch_size＝16，生成最终的目标检测模型。

4.根据权利要求3所述的基于深度学***均时长与平均视频帧数。

5.根据权利要求4所述的基于深度学习的机坪视频语义检索方法，其特征在于，所述S4具体为：使用OpenCV将S3中裁剪所得的机坪作业片段逐帧拆分为图片，输入到S2所得的目标检测模型中，生成视觉对象的标签和坐标信息。

6.根据权利要求5所述的基于深度学习的机坪视频语义检索方法，其特征在于，所述S5具体为：从S4所得的所有视觉对象的标签和坐标信息中筛选出符合机坪作业规则的视觉对象的标签和坐标信息；设定三类特征，分别是视觉对象相对距离、视觉对象相对位置、视觉对象速度；统计每帧图片中符合机坪作业规则的视觉对象的相对像素距离，并生成相对像素距离序列；统计每帧图片中符合机坪作业规则的视觉对象的相对位置，相对位置指以飞机的像素坐标为原点构建坐标系，其余视觉对象的像素坐标与x轴正方向所构成的夹角；利用帧间差分法计算视觉对象的速度，生成视觉对象速度特征序列。

7.根据权利要求6所述的基于深度学习的机坪视频语义检索方法，其特征在于：

所述S6具体为：使用时间卷积网络对S5所得特征序列进行特征提取，并将提取到的特征向量拼接为特征矩阵，将注意力机制作用在特征矩阵上，对特征矩阵做不同的权重分配，实现特征融合；

所述S7具体为：将S6所得特征矩阵输入由全连接层构成的语义检索网络，训练语义检索模型；

所述S8具体为：获取机坪场景下任意待检测视频，输入查询事件，使用滑动窗口方法，以所输入事件对应的作业流程的平均帧数为滑动窗口大小，将长视频拆分为视频候选片段；

所述S9具体为：将视频候选片段输入S2所得目标检测模型，根据S5获取视频候选片段中符合机坪作业规则的视觉目标的位置及标签信息，并根据S6生成特征矩阵，将特征矩阵输入S7生成的视频语义检索模型，获得符合查询事件语义的视频片段。

8.一种基于深度学习的机坪视频语义检索检索***，其特征在于：至少包括：

构件模块，构建机坪目标检测数据集；

预处理模块，根据机坪作业规则对机坪视频进行预处理；

9.一种实现权利要求1-7任一项所述基于深度学习的机坪视频语义检索方法的信息数据处理终端。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的基于深度学习的机坪视频语义检索方法。