CN112348003A

CN112348003A - 基于深度卷积神经网络的飞机加油场景识别方法及***

Info

Publication number: CN112348003A
Application number: CN202110027931.0A
Authority: CN
Inventors: 贺然; 付利红; 肖军; 王永伟; 张永威; 王诗慧; 刘翔宇; 温高能; 曹景超
Original assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Current assignee: Aerospace Shenzhou Wisdom System Technology Co ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-02-09

Abstract

本发明涉及一种基于深度卷积神经网络的飞机加油场景识别方法及***，其中方法包括步骤：收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集；根据飞机加油场景，设计深度卷积神经网络结构；参考所述训练数据集，选择模型训练参数；根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练，形成深度卷积神经网络模型；利用所述深度卷积神经网络模型对特征数据进行识别检测。根据本发明的方案，实现了基于深度神经网络自动化的飞机加油场景识别，提升了机场安全生产监管人员的工作效率。本发明算法训练需要的数据少，减少了数据收集的工作量。本发明对飞机加油场景识别准确率（mAP）高，能够匹配业务需要。

Description

基于深度卷积神经网络的飞机加油场景识别方法及***

技术领域

本发明涉及视频***技术领域，尤其涉及一种基于深度卷积神经网络的飞机加油场景识别方法及***。

背景技术

随着视频监控技术的迅猛发展以及国家和行业对安全生产监管日益重视，各大机场均建设了覆盖加油作业区域的视频监控***，实现了安全生产管理人员实时查看各现场视频，监督机坪加油作业等关键生产作业活动。视频监控技术为安全生产监管便利性的同时，也对安全生产管理模式提出了新的课题和挑战。海量的视频流数据的接入，可以支持全方面实时查看机坪各停机位的情况。但是实际生产作业中，在某一时间段内，只有少数停机位正在开展加油作业，需要重点监管。鉴于各种现实条件的限制，监管人员无法直接获取到加油作业对应的摄像机信息，需要人工查找加油作业的视频流，效率相对低下。

目前国内外对深度卷积神经网络进行了较为深入的研究，广泛应用于安全生产、医疗等各大领域中。在特定场景的视频数据和图像数据的支持下，技术人员可以基于不同类型的深度卷积神经网络，训练出识别吸烟、值班人员脱岗等安全生产人员关注的特殊场景的算法，提升安全生产监管的效率。但目前尚未给出识别飞机加油场景的的方法。

飞机加油场景识别方法分为两类。一种是手动选取重要的摄像机，另一种是采用传统的机器学习方法，如支持向量机（SVM）、线性回归（LR）等或基于卷积神经网络（CNN）的深度学习（DL）方法来完成分类任务。

显然，采用人工方法是低效的。而对于机器学***的良好精度。这就是为什么使用传统的计算机视觉技术来建立一个好的计算机视觉***需要花费数年的时间。

深度学习已成功地应用于计算机视觉、语音识别和自然语言处理等各个领域。其中CNN成功地完成了许多具有挑战性的图像分类任务。CNN是一种前向神经网络，通常包括特征提取层和特征映射层，可以通过卷积来学习数据中的局部模式。CNN的一个显著特点是它适合于无需任何先验特征选择的端到端学习。因此，近年来出现了大量基于深度学习的分类研究和应用。然而，尚未见到飞机加油行为检测模型的相关报道。

发明内容

本发明的目的在于解决上述背景技术中的至少一个问题，提供一种基于深度卷积神经网络的飞机加油场景识别方法及***。

为实现上述目的，本发明提供一种基于深度卷积神经网络的飞机加油场景识别方法，包括以下步骤：

收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集；

根据飞机加油场景，设计深度卷积神经网络结构；

参考所述训练数据集，选择模型训练参数；

根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练，形成深度卷积神经网络模型；

利用所述深度卷积神经网络模型对特征数据进行识别检测。

根据本发明的一个方面，收集所述图像数据时，利用摄像机每间隔1小时拍摄一次图片。

根据本发明的一个方面，所述图像数据包括多种天气、时间和日照条件的图片。

根据本发明的一个方面，所述飞机加油场景的图像数据和所述非飞机加油场景的图像数据相同或者相近。

根据本发明的一个方面，所述深度卷积神经网络结构基于Inception V3网络进行修改，取Inception V3 mix 7的输出，将其降维为一维向量，并使用完全连接的层减少输出参数的数量到128个，并使用ReLU函数激活输出，最后，将128个输出参数通过完全连接层连接到1个参数，并通过Sigmoid函数进行激活；

Sigmoid函数将输出的结果转换为0到1之间的数值，代表所述深度卷积神经网络结构判断输入图像为正样本的概率；

所述深度卷积神经网络结构训练时使用公开的已经完成训练的Inception V3网络参数，仅训练新增的Flatten层和2个Full Conn层的参数。

根据本发明的一个方面，所述模型训练参数包括基本超级参数和数据扩增参数；

所述基本超级参数包括输入图像大小、学习率和批次大小；

所述数据扩增参数包括图像旋转范围、图像宽度移动范围、图像高度移动范围和图像缩放范围。

根据本发明的一个方面，所述输入图像的尺寸为352mm*288mm，所述学习率为0.001，所述批次大小为30。

根据本发明的一个方面，所述图像旋转角度范围为-5°-5°；

所述图像宽度移动范围为小于或者等于1.1倍的图像宽度，所述图像高度移动范围为小于或者等于1.1倍的图像高度；

所述图像缩放范围为图像缩小或放大-40%-40%。

为实现上述目的，本发明还提供一种基于深度卷积神经网络的飞机加油场景识别***，包括：

数据获取模块，用于收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集；

预设神经网络结构模块，用于根据飞机加油场景，设计深度卷积神经网络结构；

模型参数选择模块，参考所述训练数据集，选择模型训练参数；

模型构建模块，根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练，形成深度卷积神经网络模型；

识别检测模块，利用所述深度卷积神经网络模型对特征数据进行识别检测。

为实现上述目的，本发明还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的基于深度卷积神经网络的飞机加油场景识别方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度卷积神经网络的飞机加油场景识别方法。

根据本发明的方案，训练数据集、深度卷积神经网络结构和模型训练参数的收集、构建和选择尤为关键，对于本发明对飞机加油场景的识别和模型的应用起到至关重要的作用，使得本发明的基于深度卷积神经网络的飞机加油场景识别方法可以将安防摄像机拍摄的场景进行二分类，区分出正在拍摄飞机加油作业的热点摄像机和其他摄像机，便于机场***人员快速定位到关注的热点视频流数据，更加有效的开展监管和指挥工作。

因为本发明主要由飞机加油场景识别模型训练数据集构建、飞机加油场景识别基础深度神经网络结构、飞机加油场景识别模型训练参数和应用***设计组成。在本发明中，数据集的构建包括数据的采集方法，训练集、测试集比例的选择，正样本和负样本数据的收集方法和数量的选择等；深度神经网络结构设计决定了模型训练所需数据集的大小、训练周期长短和算法运行所需的资源等；模型训练参数则是训练过程中，根据理论分析和实践得出的训练参数的集合，基于这些参数进行训练可以得到较高的模型性能，本发明关注的核心参数为模型平均准确率（mAP）。

模型训练完成后，需要将模型与应用***集成。应用***将摄像机对应的视频数据提交给模型，模型则将识别的结果反馈给应用***，若为飞机加油场景，则应用***将对应的摄像机采用特殊方式展示并提示用户。用户则可以重点关注相应的实时视频数据，提升工作效率。

根据本发明的方案，实现了基于深度神经网络自动化的飞机加油场景识别，提升了机场安全生产监管人员的工作效率。本发明算法训练需要的数据少，有效减少了数据收集的工作量。本发明对飞机加油场景识别准确率（mAP）较高，能够匹配业务需要。

附图说明

图1示意性表示根据本发明的基于深度卷积神经网络的飞机加油场景识别方法的流程图；

图2示意性表示根据本发明的一种实施方式的深度卷积神经网络结构的结构图；

图3示意性表示根据本发明的基于深度卷积神经网络的飞机加油场景识别***结构框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护范围。

图1示意性表示根据本发明的基于深度卷积神经网络的飞机加油场景识别方法的流程图。如图1所示，根据本发明的基于深度卷积神经网络的飞机加油场景识别方法，包括以下步骤：

a. 收集飞机加油场景和非飞机加油场景的图像数据形成训练数据集；

b. 根据飞机加油场景，设计深度卷积神经网络结构；

c. 参考所述训练数据集，选择模型训练参数；

d. 根据所述训练数据集合和所述模型训练参数对所述深度卷积神经网络结构训练，形成深度卷积神经网络模型；

e. 利用所述深度卷积神经网络模型对特征数据进行识别检测。

根据本发明的一种实施方式，在上述a步骤中，收集飞机加油场景的图片以及不是飞机加油场景的图片，分别称之为正样本和负样本。并将正样本数据和负样本数据整理构建成合适的训练数据集。

在本实施方式中，为了提高数据收集的效率，本发明通过定期访问机坪摄像机来自动收集训练图像数据，并采用人工法对样本进行标记。除了自动化的收集数据外，此外还需要重点关注以下因素，具体包括：

1）避免类似数据。由于固定安装了停机坪相机，因此拍摄角度几乎不会改变。对于同一台摄像机，在大多数情况下，图片几乎保持不变。因此，在本实施方式这种，从同一台摄像机收集图像的时间间隔不应太短，间隔时间为1小时为宜，即收集所述图像数据时，利用摄像机每间隔1小时拍摄一次图片。

2）考虑由天气和时间引起的照明条件的变化。对于同一台摄像机，天气考虑由天气和时间引起的照明条件的变化。对于同一台摄像机，天气条件以及黎明和黑暗中的阳光角度将对图像产生一定的影响。在本实施方式中，收集的图像数据需要包括不同的天气，时间和日照条件。

3）正样本和负样本之间的不平衡。自动轮询脚本获取的正样本数量远小于负样本图像。正阳本数量通常大约为负样本数量的10%。不做处理将导致模型倾向于判断输入的图像为负样本。在本实施方式中，解决此问题的一种方法是简单地随机减少负样本的数量，使得负样本数量和正样本数量基本一致（即相同或者相近）。

除此以外，还需要重点关注：

4）机场停机位的繁忙程度。距离航站楼较远的机坪可能长时间没有到达航班，并且相应的加油场景图像极少或缺失。针对此问题，尽管深度学***衡。

在本实施方式中，收集整理完数据后，将数据分为训练数据集和验证数据集，训练数据集和验证数据集的比例约为6:1。验证数据集数量不少于200张，其中正样本和负样本各不少于100张。

根据上述设置，本发明在收集图像数据的过程中可以保证图像数据的分类均衡，并且图像数据齐全，全面覆盖各种环境中的场景状态，这样一来，可以有效提高后续算法和训练的准确性，提高识别检测的效果和效率。

进一步地，图2示意性表示根据本发明的一种实施方式的深度卷积神经网络结构的结构图。如图2所示，在本实施方式中，在上述b步骤中，深度卷积神经网络结构基于Inception V3网络进行修改，取Inception V3 mix 7的输出，将其降维为一维向量（图中的Flatten层），并使用完全连接的层减少输出参数的数量到128个（图中的Full Conn.[128]），并使用ReLU函数激活输出。最后，将128个输出参数通过完全连接层连接到1个参数，并通过Sigmoid函数进行激活（图中的Full Conn.（Sigmoid））。Sigmoid函数将输出的结果转换为0到1之间的数值，代表模型判断输入图像为正样本的概率。模型训练时使用公开的已经完成训练的Inception V3网络参数，仅训练新增的Flatten层和2个Full Conn层的参数。

进一步地，根据本发明的一种实施方式，在上述c步骤中，模型训练参数包括基本超级参数和数据扩增参数。其中，基本超级参数包括输入图像大小、学习率和批次大小，并且具体设置如下：

1）输入图像大小：输入模型的图像的尺寸默认为352mm * 288mm（即模拟摄像机画质），实际使用时图像画质不应低于此尺寸。

2）学习率：深度神经网络反向传播算法需要选择在权重参数空间中的沿最陡下降方向下降的速率。本发明的模型训练的学习率参数设置为0.001。

3）批次大小：本参数结合数据集大小和训练设备的性能来选择，会影响收敛速度。本发明的模型训练的批次大小参数设置为30。

此外，在本实施方式中，数据扩增参数包括图像旋转范围、图像宽度移动范围、图像高度移动范围和图像缩放范围。在本发明中，数据扩充的目的是增加数据量，丰富数据多样性并提高模型的泛化能力。数据扩充的一般方法是通过旋转，宽度/高度偏移，剪切，缩放和翻转等操作来更改原始数据。它可以缓解由于数据集相对不足而导致的过度拟合问题。

图像增强的效果还取决于本发明选择的参数。如果图像增强的结果与实际场景更加一致，则可以发挥更好的效果。在应用场景中，相机将调整角度或更改焦距以放大/缩小视图。飞机和加油车的位置通常会略有偏移。结合以上实际情况分析，在本实施方式中，给出数据扩充使用的一些参数：

1）图像旋转范围：训练图像随机旋转的角度范围为从-5度到5度。

2）图像宽度/高度移动范围：训练图像水平或垂直移动范围不会超过图像尺寸的10％。

3）图像缩放范围：训练图像随机放大或缩小的范围设置为-40%到40%。

在本发明中，上述训练数据集、深度卷积神经网络结构和模型训练参数的收集、构建和选择尤为关键，对于本发明对飞机加油场景的识别和模型的应用起到至关重要的作用，使得本发明的基于深度卷积神经网络的飞机加油场景识别方法可以将安防摄像机拍摄的场景进行二分类，区分出正在拍摄飞机加油作业的热点摄像机和其他摄像机，便于机场***人员快速定位到关注的热点视频流数据，更加有效的开展监管和指挥工作。

在本发明中，训练完成的深度卷积神经网络模型可部署在Docker容器中，安全生产监管***定期抓取每个摄像机的场景截图，将图片推送给深度卷积神经网络模型，然后深度卷积神经网络模型返回分类结果。在人机交互界面中，安全生产监管***使用高光颜色标记被归类为加油操作的摄像机。***用户可以在数百台摄像机中快速找到他们关注的摄像机。

基于上述方法，本发明还提供一种基于深度卷积神经网络的飞机加油场景识别***，该***的结构框图如图3所示，该***包括：

模型参数选择模块，参考训练数据集，选择模型训练参数；

模型构建模块，根据训练数据集合和模型训练参数对深度卷积神经网络结构训练，形成深度卷积神经网络模型；

识别检测模块，利用深度卷积神经网络模型对特征数据进行识别检测。

根据本发明的一种实施方式，数据获取模块收集飞机加油场景的图片以及不是飞机加油场景的图片，分别称之为正样本和负样本。并将正样本数据和负样本数据整理构建成合适的训练数据集。

除此以外，还需要重点关注：

进一步地，如图2所示，在本实施方式中，预设神经网络结构模块设计的深度卷积神经网络结构是基于Inception V3网络进行修改，取Inception V3 mix 7的输出，将其降维为一维向量（图中的Flatten层），并使用完全连接的层减少输出参数的数量到128个（图中的Full Conn.[128]），并使用ReLU函数激活输出。最后，将128个输出参数通过完全连接层连接到1个参数，并通过Sigmoid函数进行激活（图中的Full Conn.（Sigmoid））。Sigmoid函数将输出的结果转换为0到1之间的数值，代表模型判断输入图像为正样本的概率。模型训练时使用公开的已经完成训练的Inception V3网络参数，仅训练新增的Flatten层和2个Full Conn层的参数。

进一步地，根据本发明的一种实施方式，模型参数选择模块选择的模型训练参数包括基本超级参数和数据扩增参数。其中，基本超级参数包括输入图像大小、学习率和批次大小，并且具体设置如下：

在本发明中，上述训练数据集、深度卷积神经网络结构和模型训练参数的收集、构建和选择尤为关键，对于本发明对飞机加油场景的识别和模型的应用起到至关重要的作用。使得本发明的基于深度卷积神经网络的飞机加油场景识别方法可以将安防摄像机拍摄的场景进行二分类，区分出正在拍摄飞机加油作业的热点摄像机和其他摄像机，便于机场***人员快速定位到关注的热点视频流数据，更加有效的开展监管和指挥工作。

因为本发明主要由飞机加油场景识别模型训练数据集构建、飞机加油场景识别基础深度神经网络结构（即深度卷积神经网络结构）、飞机加油场景识别模型训练参数和应用***设计组成。在本发明中，数据集的构建包括数据的采集方法，训练集、测试集比例的选择，正样本和负样本数据的收集方法和数量的选择等；深度神经网络结构设计决定了模型训练所需数据集的大小、训练周期长短和算法运行所需的资源等；模型训练参数则是训练过程中，根据理论分析和实践得出的训练参数的集合，基于这些参数进行训练可以得到较高的模型性能，本发明关注的核心参数为模型平均准确率（mAP）。

模型训练完成后（即模型构建模块构建完成深度卷积神经网络模型），需要将模型与应用***集成。应用***将摄像机对应的视频数据提交给模型，模型则将识别的结果反馈给应用***，若为飞机加油场景，则应用***将对应的摄像机采用特殊方式展示并提示用户。用户则可以重点关注相应的实时视频数据，提升工作效率。

此外，本发明还提供一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述基于深度卷积神经网络的飞机加油场景识别方法。

另外，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述的基于深度卷积神经网络的飞机加油场景识别方法。

根据本发明的上述方案，本发明实现了基于深度神经网络自动化的飞机加油场景识别，提升了机场安全生产监管人员的工作效率。本发明算法训练需要的数据少，仅需要600余张正样本即可满足训练需要，减少了数据收集的工作量。本发明对飞机加油场景识别准确率（mAP）达93%以上，能够匹配业务需要。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。

另外，在本发明实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

Claims

1.一种基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，包括以下步骤：

根据飞机加油场景，设计深度卷积神经网络结构；

参考所述训练数据集，选择模型训练参数；

利用所述深度卷积神经网络模型对特征数据进行识别检测。

2.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，收集所述图像数据时，利用摄像机每间隔1小时拍摄一次图片。

3.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，所述图像数据包括多种天气、时间和日照条件的图片。

4.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，所述飞机加油场景的图像数据和所述非飞机加油场景的图像数据相同或者相近。

5.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，所述深度卷积神经网络结构基于Inception V3网络进行修改，取Inception V3 mix 7的输出，将其降维为一维向量，并使用完全连接的层减少输出参数的数量到128个，并使用ReLU函数激活输出，最后，将128个输出参数通过完全连接层连接到1个参数，并通过Sigmoid函数进行激活；

Sigmoid函数将输出的结果转换为0到1之间的数值，代表所述深度卷积神经网络结构判断输入图像为飞机加油场景的概率；

6.根据权利要求1所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，所述模型训练参数包括基本超级参数和数据扩增参数；

所述基本超级参数包括输入图像大小、学习率和批次大小；

7.根据权利要求6所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，所述输入图像的尺寸为352mm*288mm，所述学习率为0.001，所述批次大小为30。

8.根据权利要求6所述的基于深度卷积神经网络的飞机加油场景识别方法，其特征在于，所述图像旋转角度范围为-5°-5°；

所述图像缩放范围为图像缩小或放大-40%-40%。

9.一种基于深度卷积神经网络的飞机加油场景识别***，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的基于深度卷积神经网络的飞机加油场景识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的基于深度卷积神经网络的飞机加油场景识别方法。