CN111986240A

CN111986240A - 基于可见光和热成像数据融合的落水人员检测方法及***

Info

Publication number: CN111986240A
Application number: CN202010904133.7A
Authority: CN
Inventors: 文捷; 祝闯; 李春旭; 贾昕宇; 姚治萱; 刘军; 耿雄飞; 乔媛媛
Original assignee: Beijing University of Posts and Telecommunications; China Waterborne Transport Research Institute
Current assignee: Beijing University of Posts and Telecommunications; China Waterborne Transport Research Institute
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-11-24

Abstract

本发明公开了基于可见光和热成像数据融合的落水人员检测方法及***，所述方法包括：使用双光摄像头同时获取可见光图像和红外图像，双光摄像头包括：光学摄像头和红外热成像摄像头；对红外图像和可见光图像进行图像配准；将配准后的红外图像和可见光图像输入预先训练好的融合网络，输出融合图像；将融合图像输入预先训练好的检测网络，输出是否有人员落水的检测结果。本发明的方法将可见光和红外图像进行融合，使得图像中既突出了人体，又包含一定的纹理特征，将会使得检测的准确率和召回率大大提升。

Description

基于可见光和热成像数据融合的落水人员检测方法及***

技术领域

本发明涉及搜救领域，具体涉及基于可见光和热成像数据融合的落水人员检测方法及***。

背景技术

每年全世界都在发生着人员落水事件，船员意外落水、游客意外落水、船只翻船沉没等等原因，导致每年数以万计的人死于溺水。主要是水流湍急，水域面积大，落水人员难以被发现和定位。随着计算硬件的升级和人工智能算法的优化，图像处理和检测已经应用在解决各式各样的问题上，而落水人员检测这一问题仍亟待解决。

图像融合是一种增强技术，其目的是将不同类型传感器获取的图像进行组合，生成鲁棒性更强或信息更丰富的图像，以便于后续处理或帮助决策，红外与可见光图像融合在许多方面具有优势。

首先，它们的信号来自不同的形式，从而提供了不同方面的场景信息，即可见光图像捕捉反射光，而红外图像捕捉热辐射，因此，这种组合比单模态信号的信息更丰富。其次，红外和可见光图像呈现出几乎所有物体固有的特征，这些图像可以通过相对简单的设备获得。最后，红外图像和可见光图像具有互补的特性，从而产生鲁棒性强和信息丰富的融合图像。可见光图像通常具有较高的空间分辨率和可观的细节和明暗对比，因此，它们符合人类的视觉感知。然而，这些图像很容易受到恶劣条件的影响，如光照不足、雾和其他恶劣天气的影响。而描述物体热辐射的红外图像能够抵抗这些干扰，但通常分辨率较低，纹理较差。可见光和红外图像融合技术由于所利用图像的普遍存在性和互补性，比其他融合技术具有更广泛的应用领域。

对于人员检测，尤其是落水人员检测，可见光和红外图像融合具有很大的意义。首先，如果只使用可见光图像进行检测，人在水流湍急且不清澈的江中，再加上落水时露出水面的比例很小，落水人员几乎与江水融为一体，肉眼和摄像头都难以分辨，即使很优秀的检测算法也很难准确无遗漏地检测到，光线条件良好时尚且如此，黑夜或大雾条件下便完全无法检测。红外图像能够很好地区分人和背景，因为人体相比于江水温度较高，反映在红外图像上人体的亮度会高于江水，因此较为突出。但红外图像分辨率低且缺失纹理特征，只能获取到粗略的轮廓信息，如果画面中存在和落水人员形状相似的高温物体，很容易造成误判漏判。

发明内容

本发明的目的在于克服上述技术缺陷，本发明的实施例1提出一种基于可见光和热成像数据融合的落水人员检测方法，所述方法包括：

使用双光摄像头同时获取可见光图像和红外图像，双光摄像头包括：光学摄像头和红外热成像摄像头；

对红外图像和可见光图像进行图像配准；

将配准后的红外图像和可见光图像输入预先训练好的融合网络，输出融合图像；

将融合图像输入预先训练好的检测网络，输出是否有人员落水的检测结果。

作为上述方法的一种改进，所述对红外图像和可见光图像进行图像配准，具体包括：

分别提取红外图像的边缘图和可见光图像的边缘图；

将红外图像的边缘图和可见光图像的边缘图进行对齐，得到对齐的边缘图；

将红外图像和可见光图像分别按照对齐的边缘图进行图像转换，得到对齐后的红外图像和可见光图像。

作为上述方法的一种改进，所述融合网络包括依次连接的第一卷积层、密集块、融合层和多个级联的卷积层；

所述第一卷积层，用于分别提取对齐后的可见光图像和红外图像的深度特征，输出可见光图像的深度特征和红外图像的深度特征；

所述密集块包括可见光分支和红外分支；可见光分支包括三个依次连接的卷积层，红外分支包括三个依次连接的卷积层；其中，可见光图像的深度特征分别作为可见光分支的三个卷积层的输入，而且在可见光分支中，每个卷积层的输出级联为其后所有卷积层的输入；红外图像的深度特征分别作为红外分支的三个卷积层的输入，而且在红外分支中，每个卷积层的输出级联为其后所有卷积层的输入；

所述融合层，用于将可见光分支输出的可见光图像特征图和红外分支输出的红外图像特征图，应用L1范数和softmax运算进行融合，输出融合特征图；

所述多个级联的卷积层，用于构成解码器，将融合特征图转换为融合后的图片。

作为上述方法的一种改进，所述融合网络的损失函数L_fus由像素损失函数L_p和结构相似性损失函数L_ssim加权得到：

L_fus＝λL_ssim+L_p

L_p＝‖O-I‖²

L_ssim＝1-SSIM(O,I)

其中，L_p表示输出图像O和输入图像I之间的欧几里得距离，SSIM(O,I)表示输出图像O和输入图像I之间的结构相似性，结构相似性包括三个分量：相关性、亮度损失和对比度失真，λ＝1000。

作为上述方法的一种改进，所述检测网络为卷积神经网络CNN，其主干网络采用修改后的darknet-53，去除了最后的全连接层，并且用卷积实现下采样代替了池化层，形成一个使用了很多残差跳层的全卷积网络；

检测网络的输入为融合后的图片；其处理过程为：将融合后的图片划分成S×S个单元格，如果一个对象的中心落在某个单元格上，那么这个单元格负责预测这个物体；每个单元格需要预测多个边界框值，同时为每个边界框预测一个置信度，然后以每个单元格为单位进行预测分析；

检测网络的输出为三个不同尺度的特征图，从而采用多尺度来对不同尺寸的目标进行检测，最终输出预测的边界框、分类和置信度来对落水人员进行识别。

作为上述方法的一种改进，所述检测网络的损失函数L_dec为边界框带来误差的L_box，类别带来的误差L_cls和置信度带来的误差L_obj的和：

L_dec＝L_box+L_cls+L_obj

其中，S表示横向单元格的数量，横向单元格的数量和纵向单元格的数量相同，B表示box，

表示第i个网格的第j个anchor box是否负责这个物体，w_i和h_i为预测的第i个网格的宽和高，

和

为真实的第i个网格的宽和高；x_i和y_i为预测的第i个网格的中心坐标，

和

为真实的第i个网格的中心坐标；λ_coord、λ_class、λ_nobj和λ_obj均为参数；p_i(c)为c类别的预测概率，

为c类别的真实概率，classes为类别的集合；c_i为预测的置信度，

为真实的置信度，取值由单元格是否负责预测这个物体决定。

作为上述方法的一种改进，所述方法还包括：对融合网络和检测网络进行训练的步骤，具体包括：

建立训练集，用双光摄像头拍摄抓取可见光和红外图像，经过前述配准和融合过程得到融合的图像，对包含落水人员的图像进行标注；

两个网络的联合损失函数L为：

L＝L_fus+L_dec

利用训练集，使用上述损失函数，利用梯度下降法训练得到网络的参数。

本发明的实施例2提出了一种基于可见光和热成像数据融合的落水人员检测***，所述***包括：红外热成像摄像头、光学摄像头、训练好的融合网络、训练好的检测网络、图像配准模块、融合模块和检测模块；

所述图像配准模块，用于同时获取红外热成像摄像头采集的红外图像，以及光学摄像头采集的可见光图像，并对红外图像和可见光图像进行图像配准；

所述融合模块，用于将配准后的红外图像和可见光图像输入训练好的融合网络，输出融合图像；

所述检测模块，用于将融合图像输入训练好的检测网络，输出是否有人员落水的检测结果。

本发明的优势在于：

本发明的方法及***将可见光和红外图像进行融合，使得图像中既突出了人体，又包含一定的纹理特征，将会使得检测的准确率和召回率大大提升。

附图说明

图1为本发明的图像配准的流程图；

图2为本发明的融合网络的示意图；

图3为本发明的融合网络的融合层的示意图；

图4为本发明的检测网络的示意图；

图5为采用多尺度来对不同尺寸的目标进行检测的示意图；

图6为本发明的检测-融合反向训练的示意图；

图7为本发明的基于可见光和热成像数据融合的落水人员检测方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细的说明。

本发明的实施例1提供了基于可见光和热成像数据融合的落水人员检测方法，该方法包括：

步骤1)图像获取与配准

步骤1-1)图像获取

使用双光摄像头同时获取可见光图像和红外图像，双光摄像头包括：光学摄像头和红外热成像摄像头。

步骤1-2)图像配准

由于红外图像和可见光图像是由不同的传感器获取的，因此通常在大小、透视和视场上是不同的，上述双光摄像头也会带来视角的不同。然而成功的图像融合要求融合后的图像具有严格的几何对齐，因此在融合之前需要先对可见光和红外图像进行配准。红外图像与可见光图像的配准是一个多模式配准问题。

对于这里的配准问题，采用基于特征的配准方法，基于特征的方法首先提取两组显著结构，然后确定它们之间的正确对应关系，并据此估计空间变换，进而用于对给定的图像对进行对齐。

基于特征的方法的第一步是提取能够代表原始图像的稳健的公共特征。边缘信息是红外和可见光图像配准中最常用的选择之一，如图1所示，因为不同的配准方式可以很好地保留边缘信息的大小和方向。边缘映射可以离散为点集，解决点匹配问题的一个流行策略包括两个步骤：计算一组假定对应，然后通过几何约束去除异常值。通过在点处计算特征描述符，消除描述符差异过大的点之间的匹配，采用随机样本一致性(RANSAC)从假定的集合中去除假匹配，采用假设验证的方法，通过重新采样，试图获得最小可能的离群值无子集来估计给定参数模型。

步骤2)建立用于进行图像融合的融合网络

采用一种针对红外和可见光图像融合问题的深度学习体系结构。与传统的卷积网络相比，编码网络与卷积层，融合层和密集块相结合，其中每一层的输出彼此相连，使用此体系结构在编码过程中从源图像中获取更多有用的特征，选用合适的融合策略来融合特征，最后通过解码器重建融合图像。

如图2所示，融合之前先提取可见光图像和红外图像的深度特征，第一个卷积层提取粗糙特征，而后又三个卷积层(每个层的输出级联为随后的层的输入)组成密集块。这样的体系结构具有两个优点。首先，滤波器的大小和卷积运算的步幅分别为3×3和1。使用此策略，输入图像可以是任何大小；其次，密集块可以在编码网络中尽可能保留深度特征，并且该操作可以确保融合策略中使用所有显著特征。

如图3所示，在融合层应用L1范数和softmax运算。

融合层后包含多个卷积层(3×3卷积)，融合层的输出将是卷积层的输入，多个卷积层，用于重建融合后的图像，构成解码器，将融合特征图转换为融合后的图片。使用这种简单有效的架构来重构最终融合的图像。

融合网络的损失函数由像素损失函数L_p和结构相似性损失函数L_ssim加权得到：

L_p＝‖O-I‖²

L_ssim＝1-SSIM(O,I)

L_fus＝λL_ssim+L_p

其中O和I分别表示输出图像和输入图像。L_p是输出O和输入I之间的欧几里得距离，SSIM表示结构相似性，它表示两个图像的结构相似性，该指标主要由三部分组成：相关性和亮度损失和对比度失真，三个分量的乘积就是融合后图像的评估结果。由于像素损失和SSIM损失之间存在三个数量级的差异，因此在训练阶段，将λ设置为1000。

步骤3)建立进行落水人员检测的检测网络

采用卷积神经网络CNN进行落水人员的目标识别，检测网络的中心思想是将图片划分成S×S个单元格，如果一个对象的中心落在某个单元格上，那么这个单元格负责预测这个物体。每个单元格需要预测多个边界框值，同时为每个边界框预测一个置信度，此后以每个单元格为单位进行预测分析。

主干网络采用修改后的darknet-53，如图4所示。此网络分类精度高，计算速度快，网络层数也较少，去除全连接层，这里的网络是一个全卷积网络，大量使用残差的跳层连接，并且为了降低池化带来的梯度负面效果，舍弃了池化层，用卷积层的步长来实现降采样。在这个网络结构中，使用步长为2的卷积来进行降采样。

网络输出三个不同尺度的特征图，借鉴了FPN，采用多尺度来对不同尺寸的目标进行检测，越精细的单元就可以检测出越精细的物体。如图5所示。

在模型训练之前，首先需要制作融合图像的数据集，用双光摄像头拍摄抓取可见光和红外图像，经过前述配准和融合过程得到融合的图像，将其中的落水人员进行标注，制作成训练所需格式的数据集，挑选预训练模型进行训练，得到能够识别可见光红外融合图像中落水人员的算法模型。之后对模型的准确率等指标进行评估，从数据集、算法等方面进行优化，使其能够达到更好的识别效果。

检测网络的损失函数分为三个部分，边界框带来的L_box，置信度带来的L_obj和类别带来的误差L_cls：

和

和

损失函数为以上三个误差之和：

L_dec＝L_box+L_cls+L_obj

L＝L_fus+L_dec

步骤4)检测-融合反向训练

常见可见光红外图像融合技术的目的在于使融合图像尽可能多的包含两种图像的信息，既不丢失红外图像中的对比度信息，又不丢失可见光图像中的纹理信息，也可以说是使得融合图像更加符合人类视觉***，因此初始融合过程的损失函数定义为像素损失函数和结构相似性损失函数的加权和。

而此本发明的方法的重点在于能够准确地检测出落水人员，图像融合的结果仅仅是一个中间过程，无论是图像融合还是检测过程，其优化都应以能够准确检测为最终目标。为了达到这一最终目标，应对图像融合的训练进行修正，使得检测过程的损失函数能够指导融合，在融合阶段便对最终检测结果进行优化。

如图6所示，首先在配准后的可见光或是红外图像上标注出落水人员，由于图像已配准对齐，融合后的目标位置不变，因此标注可复制到融合图像上作为groundtruth，融合图像经过检测网络后得到预测的边界框、分类和置信度，与标注对比计算得到检测误差，即L_dec，此损失函数不仅用来评估和优化检测网络，同时也用来评估和优化融合网络，相当于融合网络的损失函数做以下修正：

L＝L_fus+L_dec

这样，有助于最终目标的实现。

步骤5)使用图像采集、图像配准、图像融合和目标检测，对落水人员进行检测，以便于后续的定位和救援。如图7所示。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。