WO2023087420A1

WO2023087420A1 - 一种基于热红外视觉的停机坪人体动作识别方法及***

Info

Publication number: WO2023087420A1
Application number: PCT/CN2021/135634
Authority: WO
Inventors: 丁萌; 丁圆圆; 孔祥浩; 徐一鸣; 吴仪; 卢威
Original assignee: 南京航空航天大学
Priority date: 2021-11-17
Filing date: 2021-12-06
Publication date: 2023-05-25
Also published as: CN114067438A

Abstract

本发明公开一种基于热红外视觉的停机坪人体动作识别方法及***，该方法包括：从红外监控视频中获取多个视频序列；对视频序列中每帧图像中的设定目标进行目标框标注；对于视频序列中每帧图像，根据标注后的目标框截取目标框放大区域；将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；各三通道子图像按时间顺序构成三通道子图像序列；将多个视频序列对应的三通道子图像序列作为训练集对动作识别模型进行训练；从红外监控视频中获取待识别视频序列，获得待识别视频序列对应的三通道子图像序列；将待识别视频序列对应的三通道子图像序列输入训练好的动作识别模型输出目标动作类型。本发明提高了复杂环境下人体动作的识别精度。

Description

一种基于热红外视觉的停机坪人体动作识别方法及***

本申请要求于2021年11月17日提交中国专利局、申请号为2021113627181、发明名称为“一种基于热红外视觉的停机坪人体动作识别方法及***”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及智能视频监控技术领域，特别是涉及一种基于热红外视觉的停机坪人体动作识别方法及***。

背景技术

为了提高交通运输的安全性和效率，交通基础设施和服务对智能视觉监控技术的依赖日渐增长。计算机视觉正被用于解决一系列问题，如事故检测和道路状况监控。民航机场是运输基础设施和服务的重要提供者，确保民航机场的安全和效率至关重要。与机场地面其他区域相比，停机坪飞机、车辆工作活动频繁且人员复杂，安全问题尤为突出。此外，由于夜间能见度较低且缺乏有效的监测方法，夜间发生不安全事件的概率远远大于白天。因此，提高停机坪区域低能见度条件下的监测能力十分重要。

为了在低能见度条件下完成监视任务，利用热红外(TIR)相机替代可见光相机，用来接收来自不同物体的热辐射，然后将物体的温度差转换为图像像素的亮度值，用于捕捉低能见度条件下机场停机坪上的活动。相比于基于可见光光谱的监视技术，红外图像边缘模糊、信噪比低、缺乏颜色纹理信息等固有缺陷给基于红外图像序列的动作识别带来更多的挑战。

发明内容

基于此，本发明的目的是提供一种基于热红外视觉的停机坪人体动作识别方法及***，提高了识别精度。

为实现上述目的，本发明提供了一种基于热红外视觉的停机坪人体动作识别方法，包括：

从红外监控视频中获取多个视频序列，所述视频序列包括多类预设目标动作；

对所述视频序列中每帧图像中的设定目标进行目标框标注，获得目标跟踪结果；所述目标跟踪结果包括各帧中目标框标注图像的位置信息；

对于所述视频序列中每帧图像，根据标注后的目标框截取目标框放大区域，目标框放大区域的边长大于对应目标框的最大边长；

对于所述视频序列中每帧图像，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；所述三通道子图像包括横坐标通道图像、纵坐标通道图像和目标框放大区域对应的图像；各所述三通道子图像按时间顺序构成三通道子图像序列；

将多个视频序列对应的所述三通道子图像序列作为训练集对动作识别模型进行训练，获得训练好的动作识别模型；

从红外监控视频中获取待识别视频序列，并获得所述待识别视频序列对应的三通道子图像序列；

将所述待识别视频序列对应的三通道子图像序列输入所述训练好的动作识别模型，输出目标动作类型。

可选地，所述动作识别模型包括空间特征提取网络和时空特征提取网络，所述空间特征提取网络的输出连接所述时空特征提取网络的输入；所述空间特征提取网络包括6个卷积层和3个最大池化层；所述时空特征提取网络包括3层convLSTM。

可选地，所述动作识别模型的输入为30帧的三通道子图像序列。

可选地，所述动作识别模型还包括Softmax函数，所述Softmax函数用于确定分类结果。

可选地，所述目标框放大区域为正方形，所述正方形的边长表示为：

其中，L _i表示所述视频序列中第i帧图像对应的目标框放大区域的边长，α为尺度系数，w _i表示目标框的短边长，h _i表示目标框的长边长。

本发明还公开了一种基于热红外视觉的停机坪人体动作识别***，包括：

视频序列获得模块，用于从红外监控视频中获取多个视频序列，所述视频序列包括多类预设目标动作；

目标框标注模块，用于对所述视频序列中每帧图像中的设定目标进行目标框标注，获得目标跟踪结果；所述目标跟踪结果包括各帧中目标框标注图像的位置信息；

目标框放大模块，用于对于所述视频序列中每帧图像，根据标注后的目标框截取目标框放大区域，目标框放大区域的边长大于对应目标框的最大边长；

三通道子图像序列确定模块，用于对于所述视频序列中每帧图像，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；所述三通道子图像包括横坐标通道图像、纵坐标通道图像和目标框放大区域对应的图像；各所述三通道子图像按时间顺序构成三通道子图像序列；

动作识别模型训练模块，用于将多个视频序列对应的所述三通道子图像序列作为训练集对动作识别模型进行训练，获得训练好的动作识别模型；

待识别视频序列获取模块，用于从红外监控视频中获取待识别视频序列，并获得所述待识别视频序列对应的三通道子图像序列；

目标动作识别模块，用于将所述待识别视频序列对应的三通道子图像序列输入所述训练好的动作识别模型，输出目标动作类型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明根据标注后的目标框截取目标框放大区域，从而获得目标周围有效的背景信息，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像，有效解决了红外图像信噪比低与监视图像背景干扰的问题，提高了人体动作的识别精度。

说明书附图

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于热红外视觉的停机坪人体动作识别方法流程示意图；

图2为本发明行为类别的示例图像；

图3为本发明三通道子图像序列获取原理示意图；

图4为本发明空间特征提取网络结构示意图；

图5为本发明动作识别模型中数据流程示意图；

图6为本发明一种基于热红外视觉的停机坪人体动作识别***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于热红外视觉的停机坪人体动作识别方法及***，提高了识别精度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种基于热红外视觉的停机坪人体动作识别方法流程示意图，如图1所示，一种基于热红外视觉的停机坪人体动作识别方法包括以下步骤：

步骤101：从红外监控视频中获取多个视频序列，视频序列包括多类预设目标动作。

以机场停机坪为背景，预设目标动作包括站立、走路、奔跑、跳跃、下蹲、挥手、攀爬和钻飞机，其中站立和走路为正常行为，奔跑、跳跃、下蹲、挥手、攀爬和钻飞机为异常行为，如图2所示。

步骤102：对视频序列中每帧图像中的设定目标进行目标框标注，获得目标跟踪结果；目标跟踪结果包括各帧中目标框标注图像的位置信息。

目标跟踪结果用[u _i,v _i,w _i,h _i]表示，i＝1,2,…,n，u _i和v _i分别为第i帧图像中目标框左上角的横坐标，v _i为目标框左上角的纵坐标，w _i为目标框的宽度(短边长)，h _i为目标框的高度(长边长)，n表示视频序列中图像的帧数。

步骤103：对于视频序列中每帧图像，根据标注后的目标框截取目标框放大区域，目标框放大区域的边长大于对应目标框的最大边长。

目标框放大区域为正方形，正方形的边长表示为：

其中，L _i表示视频序列中第i帧图像对应的目标框放大区域的边长，α为尺度系数，α设置为1.5。

步骤104：对于视频序列中每帧图像，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；三通道子图像包括横坐标通道图像、纵坐标通道图像和目标框放大区域对应的图像；各三通道子图像按时间顺序构成三通道子图像序列。

横坐标通道图像用U _i表示，U _i表示目标框中每个像素点横坐标集合，纵坐标通道图像用V _i表示，V _i表示目标框中每个像素点纵坐标集合，目标框放大区域对应的图像用S _i表示，形成最终的三通道子图像序列表示为T _i，i＝1,2,…,n。

表示目标框中每个像素点横纵坐标的U _i通道和V _i通道的通道大小与截取的目标图像S _i大小相等。

三通道子图像序列的获得原理如图3所示，图3中(a)为目标框放大区域以及U _i通道和V _i通道获取示意图，图3中(b)为获取的U _i通道、V _i通道和目标图像S _i组成的T _i示意图。

步骤105：将多个视频序列对应的三通道子图像序列作为训练集对动作识别模型进行训练，获得训练好的动作识别模型。

步骤106：从红外监控视频中获取待识别视频序列，并获得待识别视频序列对应的三通道子图像序列。

步骤107：将待识别视频序列对应的三通道子图像序列输入训练好的动作识别模型，输出目标动作类型。

动作识别模型包括空间特征提取网络和时空特征提取网络，空间特征提取网络的输出连接时空特征提取网络的输入；空间特征提取网络包括6个卷积层和3个最大池化层；时空特征提取网络包括3层convLSTM。

空间特征提取网络的结构如图4所示，每两个卷积层后连接一个最大池化层，输入序列T _i经过normalization(归一化)和resize(调整)，获得尺寸大小为28×28×3的输入张量，经过卷积和池化后输出30个尺寸为3×3×256的张量X _i。

动作识别模型的输入为30帧(时长约为4s)的三通道子图像序列。

动作识别模型还包括Softmax函数，Softmax函数用于确定分类结果。

下面详细说明本发明一种基于热红外视觉的停机坪人体动作识别方法。

S1、构建特定目标行为的动作识别模型。

S11、从红外监控视频中截取各类目标动作发生的完整视频序列，构建用于停机坪人体动作识别的训练及验证数据集。

视频序列的采样频率为8hz，每一帧像素值为384×288；数据集共有2000个包含30帧图像的动作片段(视频序列)，训练集、验证集数据量比例为7：1。

S12、对视频的每一帧中的特定目标进行跟踪框标注，获取图像序列的连续目标跟踪结果[u _i,v _i,w _i,h _i],i＝1,2,…,n，四个值分别为第i帧图像中目标框左上角的横纵坐标以及宽高。

S13、基于目标跟踪结果，对每一帧图像截取包含目标周围部分有效背景信息的目标框放大区域，得到目标图像序列S _i，i＝1,2,…,n。

截取包含目标周围部分有效背景信息的目标框放大区域的方法为：根据跟踪结果得到目标的中心点位置以及目标框的宽高(w _i×h _i),i是序列中的帧索引；计算截取区域的边长L _i。

以每一帧的目标中心为截取中心，L _i为边长截取正方形区域S _i。

S14、将目标在原图像中的位置运动信息映射到二维图像大小，得到张量U _i和V _i，添加到目标图像S _i的第三维，形成最终的三通道子图像序列T _i，i＝1,2,…,n。

S14中添加位置信息到目标图像得到三通道子图像序列的步骤包括：根据目标跟踪结果，即目标框左上角的横纵坐标以及宽高[u _i,v _i,w _i,h _i]，计算表示目标框中每个像素点横纵坐标的U _i通道和V _i通道，U _i通道和V _i通道的大小与截取的目标图像S _i大小相等。

通过连接归一化后的U _i通道和V _i通道到目标图像通道S _i的第三维，形成大小为L _i×L _i×3的三维特征张量作为子图像序列T _i输入到后续的动作识别模型如图4所示。

S15、构建用于提取空间特征的卷积神经网络(空间特征提取网络)和用于时空特征提取的卷积长短时记忆网络(convLSTM)，并引入用于分类的全连接层和softmax函数生成目标行为识别的网络结构模型。

S15搭建行为识别网络模型具体流程包括：首先将步骤S14得到的T _i，i＝1,2,…,n，采用零中心归一化和调整大小操作得到时间序列为30、尺寸大小为28×28×3的输入张量；经过由6个卷积层和3个最大值池化层组成的空间特征提取网络输出30个尺寸为3×3×256的张量，如图4所示；接着送入3层convLSTM组成的时空特征提取网络，输出大小为1×3×3×64的特征张量；将时空特征展平为矢量，送入两个全连接层，使用Softmax函数获得分类结果，如图5所示。图5中(a)为步骤S11中包含n帧的红外视频序列作为动作识别的输入；(b)为步骤S12中由目标跟踪结果得到的子图像；(c)为步骤S14预处理后得到的输入张量；(d)为步骤S15中用于空间特征提取的CNN网络(空间特征提取网络)部分，空间特征提取网络的输出序列为x ₁、x ₂、…x _t，t表示序列号；(e)为步骤S15中基于convLSTM的时空特征提取网络，时空特征提取网络包括三层convLSTM，第一层convLSTM的输出分别为h ₁、h ₂、…h _t，第二层convLSTM的输出分别为h ₁’、h ₂’、…h _t’；(f)为步骤S15中进行动作分类的两个FC层(全连接层)，图5中(f)中向下箭头表示dropout处理，横向箭头表示全连接操作。

S16、利用用于停机坪人体动作识别的训练数据集对所构建的行为识别网络进行模型训练，通过精度评估调整动作识别模型中超参数，确定网络权重，得到最终适用于停机坪活动人员目标的动作识别模型。

S16中行为识别网络模型训练策略采用指数衰减率β ₁＝0.9，β ₂＝0.999的ADAM优化器，初始学习率设置为0.0005，学习率衰减策略采用余弦退火方法，全连接层的dropout率设置为0.5，损失函数采用交叉熵损失函数。

S2、对机场停机坪人员的行为动作进行识别。

S21、对红外监控视频中的特定目标进行跟踪，得到一段时间序列长度的目标跟踪结果。

S22、对步骤S21获得的目标跟踪结果执行步骤S13-S14进行的图像序列预处理，获得三通道子图像序列T _i。

S23、将所得到的三通道子图像序列输入到动作识别模型进行识别，得出目标的动作类型。

动作识别模型的输入为30帧(时长约为4s)的经过预处理的子图像序列。

本发明实施例提供的一种基于热红外视觉的停机坪人体动作识别方法在台式工作站上进行神经网络的训练与测试，硬件平台为内存大小为64GB的Intel(R)Xeon(R)E5-1620 v4 [email protected] CPU和一个NVIDIA GTX 1060 6GB的GPU，程序运行在基于Tensorflow后端引擎的Keras应用程序编程接口(API)，使用Python 3.6.10构建和实现。

本发明一种基于热红外视觉的停机坪人体动作识别方法的有益效果是：

1、本发明方法集成了基于目标跟踪结果的预处理模块、基于CNN的空间特征提取模块、基于三层卷积LSTM(ConvLSTM)的时空特征提取模块和两个全连接层(FC)组成的分类层。本发明方法在低能见度的情况下依然可以较好的识别目标行为，能够应用于人员复杂环境下场面活动行为的识别。

2、针对停机坪环境以及场面监视***中目标成像比例小的特点，本发明依据跟踪结果截取目标以及目标周围有效背景信息，有效解决红外图像信噪比低与监视图像背景干扰的问题，并能够在多活动目标存在的视频中监视特定目标，更加贴近工程应用的实际背景。

3、由于跟踪框的提取带来目标原始位置信息丢失的问题，本发明为了有效融合目标运动特征，将目标框在原图像中的坐标位置作为两个独立通道串联到图像的通道维，便于后续卷积处理，兼顾了较少的计算量和丰富的特征信息，提高了动作分类准确率和识别速度。

图6为本发明一种基于热红外视觉的停机坪人体动作识别***结构示意图，如图6所示，一种基于热红外视觉的停机坪人体动作识别***包括：

视频序列获得模块201，用于从红外监控视频中获取多个视频序列，视频序列包括多类预设目标动作。

目标框标注模块202，用于对视频序列中每帧图像中的设定目标进行目标框标注，获得目标跟踪结果；目标跟踪结果包括各帧中目标框标注图像的位置信息。

目标框放大模块203，用于对于视频序列中每帧图像，根据标注后的目标框截取目标框放大区域，目标框放大区域的边长大于对应目标框的最大边长。

三通道子图像序列确定模块204，用于对于视频序列中每帧图像，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；三通道子图像包括横坐标通道图像、纵坐标通道图像和目标框放大区域对应的图像；各三通道子图像按时间顺序构成三通道子图像序列。

动作识别模型训练模块205，用于将多个视频序列对应的三通道子图像序列作为训练集对动作识别模型进行训练，获得训练好的动作识别模型。

待识别视频序列获取模块206，用于从红外监控视频中获取待识别视频序列，并获得待识别视频序列对应的三通道子图像序列。

目标动作识别模块207，用于将待识别视频序列对应的三通道子图像序列输入训练好的动作识别模型，输出目标动作类型。

动作识别模型的输入为30帧的三通道子图像序列。

目标框放大区域为正方形，正方形的边长表示为：

其中，L _i表示视频序列中第i帧图像对应的目标框放大区域的边长，α为尺度系数，w _i表示目标框的短边长，h _i表示目标框的长边长。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于热红外视觉的停机坪人体动作识别方法，其特征在于，包括：

从红外监控视频中获取多个视频序列，所述视频序列包括多类预设目标动作；

对所述视频序列中每帧图像中的设定目标进行目标框标注，获得目标跟踪结果；所述目标跟踪结果包括各帧中目标框标注图像的位置信息；

对于所述视频序列中每帧图像，根据标注后的目标框截取目标框放大区域，目标框放大区域的边长大于对应目标框的最大边长；

对于所述视频序列中每帧图像，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；所述三通道子图像包括横坐标通道图像、纵坐标通道图像和目标框放大区域对应的图像；各所述三通道子图像按时间顺序构成三通道子图像序列；

将多个视频序列对应的所述三通道子图像序列作为训练集对动作识别模型进行训练，获得训练好的动作识别模型；

从红外监控视频中获取待识别视频序列，并获得所述待识别视频序列对应的三通道子图像序列；

将所述待识别视频序列对应的三通道子图像序列输入所述训练好的动作识别模型，输出目标动作类型。
根据权利要求1所述的基于热红外视觉的停机坪人体动作识别方法，其特征在于，所述动作识别模型包括空间特征提取网络和时空特征提取网络，所述空间特征提取网络的输出连接所述时空特征提取网络的输入；所述空间特征提取网络包括6个卷积层和3个最大池化层；所述时空特征提取网络包括3层convLSTM。
根据权利要求1所述的基于热红外视觉的停机坪人体动作识别方法，其特征在于，所述动作识别模型的输入为30帧的三通道子图像序列。
根据权利要求1所述的基于热红外视觉的停机坪人体动作识别方法，其特征在于，所述动作识别模型还包括Softmax函数，所述Softmax函数用于确定分类结果。
根据权利要求1所述的基于热红外视觉的停机坪人体动作识别方法，其特征在于，所述目标框放大区域为正方形，所述正方形的边长表示为：

其中，L _i表示所述视频序列中第i帧图像对应的目标框放大区域的边长，α为尺度系数，w _i表示目标框的短边长，h _i表示目标框的长边长。
一种基于热红外视觉的停机坪人体动作识别***，其特征在于，包括：

视频序列获得模块，用于从红外监控视频中获取多个视频序列，所述视频序列包括多类预设目标动作；

目标框标注模块，用于对所述视频序列中每帧图像中的设定目标进行目标框标注，获得目标跟踪结果；所述目标跟踪结果包括各帧中目标框标注图像的位置信息；

目标框放大模块，用于对于所述视频序列中每帧图像，根据标注后的目标框截取目标框放大区域，目标框放大区域的边长大于对应目标框的最大边长；

三通道子图像序列确定模块，用于对于所述视频序列中每帧图像，将目标框标注图像的位置信息添加到目标框放大区域，获得三通道子图像；所述三通道子图像包括横坐标通道图像、纵坐标通道图像和目标框放大区域对应的图像；各所述三通道子图像按时间顺序构成三通道子图像序列；

动作识别模型训练模块，用于将多个视频序列对应的所述三通道子图像序列作为训练集对动作识别模型进行训练，获得训练好的动作识别模型；

待识别视频序列获取模块，用于从红外监控视频中获取待识别视频序列，并获得所述待识别视频序列对应的三通道子图像序列；

目标动作识别模块，用于将所述待识别视频序列对应的三通道子图像序列输入所述训练好的动作识别模型，输出目标动作类型。
根据权利要求6所述的基于热红外视觉的停机坪人体动作识别系统，其特征在于，所述动作识别模型包括空间特征提取网络和时空特征提取网络，所述空间特征提取网络的输出连接所述时空特征提取网络的输入；所述空间特征提取网络包括6个卷积层和3个最大池化层；所述时空特征提取网络包括3层convLSTM。
根据权利要求6所述的基于热红外视觉的停机坪人体动作识别***，其特征在于，所述动作识别模型的输入为30帧的三通道子图像序列。
根据权利要求6所述的基于热红外视觉的停机坪人体动作识别***，其特征在于，所述动作识别模型还包括Softmax函数，所述Softmax函数用于确定分类结果。
根据权利要求6所述的基于热红外视觉的停机坪人体动作识别***，其特征在于，所述目标框放大区域为正方形，所述正方形的边长表示为：

其中，L _i表示所述视频序列中第i帧图像对应的目标框放大区域的边长，α为尺度系数，w _i表示目标框的短边长，h _i表示目标框的长边长。