CN113793472A

CN113793472A - 基于特征深度聚合网络的图像型火灾探测器位姿估计方法

Info

Publication number: CN113793472A
Application number: CN202111078643.4A
Authority: CN
Inventors: 钟晨; 王珂; 戴崑
Original assignee: Shenyang Fire Research Institute of MEM
Current assignee: Shenyang Fire Research Institute of MEM
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-14
Anticipated expiration: 2041-09-15
Also published as: CN113793472B

Abstract

本发明涉及一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法，属于视频图像拍摄位姿估计技术领域。包括以下步骤：S1、在不同的建筑环境中进行数据采集，采集的数据包括RGB图像、深度图以及同时记录的每帧图像拍摄时的相机位姿；S2、对S1中采集的数据进行数据预处理；S3、搭建特征深度聚合网络；S4、对特征深度聚合网络进行训练，得到最优的网络模型；S5、将测试集中归一化处理后的RGB图像输入到S4得到的最优的网络模型中，计算图像型火灾探测器的位姿。本发明能够提高网络的学习能力，防止过拟合，对于图像型火灾探测器定位精度有提升效果。

Description

基于特征深度聚合网络的图像型火灾探测器位姿估计方法

技术领域

本发明涉及视频图像拍摄位姿估计技术领域，具体涉及一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法。

背景技术

近年来，随着视频数据采集的广泛应用和视频图像模式识别技术的发展，针对视频图像火灾探测方法的研究不断深入。目前，图像型火灾探测器已经广泛应用于大空间建筑和文物建筑的室内、外场所，以及森林、草场等环境的火灾防控。根据图像型火灾探测器中相机的视场角、清晰度、焦距等参数，可以确定其有效火灾监控范围尺度，但对于相机架设安装的位姿估计缺乏有效手段，难以对探测器有效监控区域进行准确建模。在实际安装使用中，可能存在监控死角或重叠区域，从而产生漏保护或过保护问题。为了实现图像型火灾探测器有效监控区域在三维场景中配准和全场景可视化建模等任务，探测器相机在特定场景内的拍摄姿态估计是必须要解决的问题。

传统的摄像机定位需要对图像进行关键点的检测、图像描述子的计算与匹配，或使用深度相机采集点云数据后进行点云配准，这会消耗大量的计算时间，并且难以实现高精度的定位。针对以上问题，Alex Kendall等人提出使用神经网络实现摄像机定位。其使用GoogleNet作为主干网络，同时使用Places数据集分类任务中的模型进行迁移学习，直接对摄像机位姿进行预测，实现了摄像机的高精度定位。Eric Brachmann等人提出DSAC，使用两个神经网络分别预测室内场景中空间点坐标以及为位姿打分，在当时的相机定位任务中取得了先进的效果。在此基础上，Eric Brachmann等人进一步提出了DSAC++网络。该网络改进了特征图的提取方式，使用包含11个卷积层和3个下采样层的神经网络实现了高精度的摄像机位姿估计。该网络预测出像素对应的场景坐标后，使用RANSAC与PNP算法生成位姿池，随后根据重投影误差对每个位姿进行打分，获得最优位姿。DSAC系列首次提出了使用神经网络预测场景点坐标，该方法在摄像机定位的精度上实现了极大地提升，为摄像机的定位提供了新的思路。但仍存在如下问题：

1、DSAC系列在网络结构上只是几个卷积层的串联，没有实现不同感受野所提取的特征的融合；

2、在重复和纹理较少的场景下，由于图像块间的相似性，使得网络的预测效果变差。

发明内容

鉴于现有技术的上述缺点、不足，本发明提供一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法。本发明设计了一种特征深度聚合模块，对低级与高级特征图的融合方式进行了改进，用于有效地对建筑场景中的图像型火灾探测器进行定位。

为了达到上述目的，本发明采用的主要技术方案包括：

本发明提供一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法，包括以下步骤：

S1、在不同的建筑环境中进行数据采集，采集的数据包括RGB图像、深度图以及同时记录的每帧图像拍摄时的相机位姿；

S2、对S1中采集的数据进行数据预处理，具体为：

S21、将S1中采集的数据分为训练集与测试集；

S22、根据训练集中的深度图与相机位姿计算像素点对应的真实场景坐标；

S23、对训练集中的图像进行数据增强处理；

S24、对训练集中的数据增强处理后的RGB图像以及测试集中的RGB图像进行归一化处理；

S3、搭建特征深度聚合网络；

S4、对特征深度聚合网络进行训练，具体为：

S41、将S24中的训练集中归一化处理后的RGB图像输入到S3中搭建的特征深度聚合网络，进行一次样本训练，得到训练后的网络模型；

S42、将S24中的测试集中归一化处理后的RGB图像输入到S41中训练后的网络模型中，获得每个像素点所对应的预测场景坐标与不确定度；

S43、根据S42中的预测场景坐标与不确定度，获得预测相机位姿；

S44、根据S43中的预测相机位姿与S1中采集的相机位姿进行比较，得到位姿误差，该位姿误差与上一次测试得到的位姿误差进行比较，保留位姿误差小的网络模型；

S45、重复上述S41-S44，直到得到最优的网络模型；

S5、将测试集中归一化处理后的RGB图像输入到S45得到的最优的网络模型中，计算图像型火灾探测器的位姿。

进一步地，S22中像素点对应的真实场景坐标的计算方法，具体为：根据采集的深度图，获得像素点对应的相机坐标P_c，结合相机位姿T_cw，计算像素点对应的真实场景坐标

进一步地，S23中数据增强处理具体为：对于训练集中的RGB图像与深度图，沿水平方向或竖直方向平移-20～20像素，图像大小缩放0.7至1.5倍，图像旋转-30°至30°，以增加建筑数据库的样本数目。

进一步地，S3中搭建的特征深度聚合网络，包括三部分：第一部分是特征提取层，对建筑场景中的图像进行低级和高级特征提取，分别对低级和高级特征中的几何空间信息以及语义信息进行编码；第二部分是特征融合层，使用通道注意力机制对提取到的不同尺度上的特征图进行融合，实现对环境信息更加精细的编码；第三部分是回归层，用于预测场景坐标与不确定度。

进一步地，特征提取层包括一系列卷积层，用于对建筑图像中的特征进行编码，获得第一、二、三特征图。

进一步地，特征融合层以第一、二、三特征图作为输入；第三特征图通过通道注意力模块生成第四特征图，第四特征图与第二特征图逐像素相加获得第五特征图；第五特征图通过卷积层获得第六特征图，第六特征图通过注意力模块获得第七特征图；第七特征图与第一特征图逐像素相加获得第八特征图，第八特征图通过卷积层获得第九特征图；第三、六、九特征图在通道维度拼接获得第十特征图。

进一步地，回归层包括一系列卷积层，用于预测建筑中的预测场景坐标与不确定度。

进一步地，对特征深度聚合网络进行训练时使用深度监督技术，S41中利用训练集中的数据对特征深度聚合网络进行样本训练时，获得的预测场景坐标与不确定度，结合真实场景坐标，得到损失函数，再利用损失函数进行反向传播，对特征深度聚合网络的网络参数进行修正。

进一步地，S43的具体步骤为：设定不确定度的阈值，剔除不确定度大于阈值的预测场景坐标；在不确定度小于阈值的预测场景坐标中，使用RANSAC算法与PNP算法，计算图像型火灾探测器的预测相机位姿。

进一步地，S45的具体步骤为：根据数据的大小，定义样本训练次数；每结束一次样本训练，使用当前网络模型的模型参数针对测试集中的数据进行一次测试；若测试结果的位姿误差优于保存的最优网络模型，则将当前网络模型的模型参数保存为最优参数；当网络的训练次数达到所设定的值时，停止训练，得到训练好的最优的网络模型。

本发明的有益效果是：本发明提出了一个使用特征深度聚合网络实现建筑场景中图像型火灾探测器位姿估计方法。本发明通过采集不同建筑场景中的RGB图像、深度图与相机位姿，同时为了提高网络的学习能力，防止过拟合，本发明对采集到的图像数据进行了数据预处理操作，随后用来训练和测试本发明所提供的特征深度聚合网络。实验结果表明，该网络模型在兼顾精度、内存占用下，在测试集中实现了较高的图像型火灾探测器定位精度：0.018m的位置偏差与0.640°的角度偏差。

为了验证鲁棒性，本发明对图像分别进行了高斯模糊与运动模糊处理，随后作为特征深度聚合网络的输入进行了测试。实验结果表明，本发明对于高斯模糊与运动模糊具有一定的抑制能力。

本发明设计了一种新颖且有效的特征深度聚合模块，对于图像型火灾探测器定位精度的提升具有有益的效果。

附图说明

图1为本发明实施例所提供的流程示意图；

图2为本发明实施例所提供的建筑场景中采集的数据图片；

图3为本发明实施例所提供的特征深度聚合网络的网络示意图；

图4为本发明实施例所提供的图像模糊处理操作，按顺序依次为原图，高斯模糊处理，轻微运动模糊处理，剧烈运动模糊处理后的效果图；

图5A、图5B分别为高斯模糊处理前后网络所预测的位置误差与角度误差，其中实线表示未经高斯模糊处理，虚线表示经过高斯模糊处理；

图6A、图6B分别为轻微运动模糊处理前后网络所预测的位置误差与角度误差，其中实线表示未经轻微运动模糊处理，虚线表示经过轻微运动模糊处理；

图7A、图7B分别为剧烈运动模糊处理前后网络所预测的位置误差与角度误差，其中实线表示未经剧烈运动模糊处理，虚线表示经过剧烈运动模糊处理。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

具体实施方式一：参照图1，本实施例提供的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法，应用于建筑场景中的图像型火灾探测器定位过程。该方法包括以下步骤：

步骤一、在不同的建筑环境中，使用深度相机进行数据的采集。采集的数据包括RGB图像、深度图和相机位姿。所采集的建筑场景图像中，需包含采集场景中的所有具有代表性的物体，且每个场景至少采集3组数据，每组数据包含一定量的图片。

步骤二、对步骤一中采集的数据进行数据预处理。将步骤一中采集的数据随机分成训练集与测试集。根据训练集中深度图与相机位姿，计算训练集中深度图每个像素点所对应的真实场景坐标，用于与神经网络输出的预测场景坐标进行计算，获得损失函数。对训练集中的图像进行数据增强操作。对训练集中数据增强后的RGB图像进行归一化处理，以及对测试集中的RGB图像进行归一化处理。

步骤三、搭建特征深度聚合网络。

步骤四、对特征深度聚合网络进行训练。将训练集中归一化处理后的RGB图像输入到搭建的特征深度聚合网络中进行训练。根据数据的大小，定义样本训练次数。每结束一次样本训练，使用当前模型参数以及测试集中的数据进行一次测试。若测试结果的误差和准确率均优于保存的最优模型，则将当前模型参数保存为最优参数。当网络的训练次数达到所设定的值时，停止训练，得到训练好的特征深度聚合网络。

步骤五、将测试集中归一化处理后的RGB图像输入到训练好的特征深度聚合网络中，获得每个像素点所对应的预测场景坐标与不确定度。根据获得的不确定度，剔除预测效果较差的预测场景坐标。根据剩余的预测较为准确的预测场景坐标，使用RANSAC与PNP算法，随机选取256组场景坐标与相应的像素坐标，计算图像型火灾探测器的预测位姿。

具体实施方式二：本实施方式对实施方式一所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中步骤一的具体过程为：

使用深度相机在建筑环境中采集大量的RGB图像、深度图、以及同时记录的每帧图像拍摄时的相机位姿。在不同场景中所用相机为同一设备，且相机参数需保持一致。采集的数据如图2所示。

具体实施方式三：本实施方式对实施方式二所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式步骤二中对步骤一中采集的数据进行数据预处理。其具体过程为：

将采集的数据随机分成训练集与测试集，且训练集与测试集的比例近似满足2：1。

训练集中像素点场景坐标的计算。具体而言，根据采集的深度图，可获得像素点对应的相机坐标P_c，结合相机位姿T_cw，可计算像素点对应的真实场景坐标

对训练集中的图像进行数据增强操作，具体包括：沿水平方向或竖直方向随机平移-20～20像素，图像大小随机缩放0.7至1.5倍，图像随机旋转-30°至30°，增加建筑数据库的样本数目，在提高神经网络的学习能力的同时有效地防止过拟合。

对训练集或测试集的RGB图像进行归一化操作。具体而言，采用的方式为：v′_i＝(v_i/255)×2-1。其中，v_i为初始的像素值，v′_i为归一化处理后的像素值，将RGB数值限制在[-1,1]范围内。

具体实施方式四：本实施方式对实施方式三所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中步骤三的具体过程为：搭建特征深度聚合网络，网络结构如图3所示。

所述特征深度聚合网络，包括三部分：第一部分是特征提取层，对建筑场景中的图像进行低级和高级特征提取，对环境中的几何空间信息以及语义信息进行编码；第二部分是特征融合层，使用通道注意力机制对提取到的不同尺度上的特征图进行融合，实现对环境信息更加精细的编码；第三部分是回归层，用于预测场景坐标与不确定度。

具体实施方式五：本实施方式对实施方式四所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。特征提取层的结构如下：

所述特征提取层，输入张量的维度为5×480×640，其中5表示每个像素的色彩值(R，G，B)以及像素坐标(u，v)，480、640分别表示图像的高、宽。

所述特征提取层，由一系列的卷积层组成，用于对建筑图像中的特征进行编码。考虑到输入张量的维度，所述特征提取层使用修改后的ResNet18作为主干网络。所述修改包括将第一层卷积核为7×7的卷积层使用两个卷积核为3×3的卷积层代替，同时去除了最后的平局池化层与全连接层。

所述对建筑图像中的特征进行编码分为7个阶段，参见表1，分别对应第一卷积层，第二卷积层，第一最大池化层，第一残差块，第二残差块，第三残差块，第四残差块，分别定义为C1、C2、M1，B1、B2、B3、B4。在进行特征提取时，首先是第一卷积层，卷积核大小为3×3，步长为1；然后是另一个第二卷积层，卷积核大小为3×3，步长为2；使用一个第一最大池化层，卷积核大小为3×3，步长为2。随后使用第一～第四残差块进行进一步的特征提取，获得第一、二、三特征图。使用残差块的好处是：残差块中通过短接结构，将低维特征附加到高维特征中，防止了信息的丢失与网络结构的退化。同时，短接结构进一步避免了梯度消失与梯度***。残差块不会增加很多的网络参数量，却可以提高网络的训练效果。

表1特征提取层网络模块架构

每次卷积后均使用BN层与RELU激活函数处理。BN层可平滑损失函数的表面，有助于提高网络的训练速度。激活函数有助于提高网络的非线性程度。

具体实施方式六：本实施方式对实施方式五所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。特征融合层的结构如下：

所述特征融合层，考虑到不同特征图对建筑场景特征的描述方式不同，传统的逐像素相加方式可能会导致信息的混乱，本发明使用通道注意力模块与通道维度拼接方式，提出了一种特征深度聚合模块，将提取的包含建筑图像不同上下文信息的特征图进行有效融合。

所述特征融合层，以第一、二、三特征图作为输入。第三特征图通过通道注意力模块生成第四特征图，第四特征图与第二特征图逐像素相加获得第五特征图。第五特征图通过卷积层获得第六特征图，第六特征图通过注意力模块获得第七特征图。第七特征图与第一特征图逐像素相加获得第八特征图，第八特征图通过卷积层获得第九特征图。第三、六、九特征图在通道维度拼接获得第十特征图。除第十特征图维度为1536×60×80外，其余特征图的维度均为512×60×80。

所述通道注意力模块，输出特征图可表示为

其中m_i为输入特征图，P_global为全局平均池化，C_1×1为卷积核为1×1的卷积层与批规范化，δ指sigmoid激活函数，

为逐像素相乘，m_o为输出特征图。

具体实施方式七：本实施方式对实施方式六所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。回归层的结构如下：

所述回归层，由一系列卷积层组成，用于预测建筑中的场景坐标与不确定度。回归层分为6个阶段，参见表2，分别对应第一卷积层，第二卷积层，第三卷积层，第四卷积层，并联的第五卷积层和第六卷积层。所有卷积层卷积核的尺寸均为3×3，步长均为1。经过第一～第四卷积层，获得第十一特征图；第十一特征图分别经过第五卷积层和第六卷积层，获得预测场景坐标与不确定度。其中第一～第四卷积层包含卷积操作、批规范化以及RELU激活函数处理，而第五卷积层和第六卷积层只包含卷积操作。

表2回归层网络模块架构

具体实施方式八：本实施方式对实施方式七所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。步骤四中，将训练集中归一化处理后的RGB图像输入到搭建的特征深度聚合网络中进行训练，具体为：

输入为建筑场景中的单张RGB图像，输出为RGB图像中像素点所对应的预测场景坐标与不确定度。在将训练集图像输入网络过程中，mini-batch的大小设置为4。使用ADAM优化器，其中的超参数设置为β₁＝0.9，β₂＝0.999。采用学习率衰减策略，学习率大小设置为：

其中：l_n为当前学习率，I_i为初始学习率，在本发明中设置为0.0002，iter为当前迭代次数。

在具体训练时，样本训练次数设置为500。每结束一次样本训练，将测试集中的数据输入当前特征深度聚合网络进行一次测试。若当前特征深度聚合网络的测试结果优于保存的特征深度聚合网络，则将当前特征深度聚合网络保存为最优特征深度聚合网络。当样本训练次数达到500时，结束训练，获得最优特征深度聚合网络。

具体实施方式九：本实施方式对实施方式八所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。针对训练集中的数据，特征深度聚合网络使用深度监督技术，同时提高网络的学习能力和优化速度。深度监督技术的实施方案如下：

所述深度监督技术，分别根据第三、十特征图，使用回归层预测预测场景坐标与不确定度，随后分别计算辅助损失L₁与主损失L₂。辅助损失与主损失相加获得总损失L_reg，相加方式为L_reg＝L₂+0.4L₁。参照图3(a)，左边是辅助损失，右边是主损失。

具体实施方式十：本实施方式对实施方式九所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中的损失函数L，同时考虑了预测场景坐标与真实场景坐标间的欧式距离与不确定度，定义如下：

其中：N为输入图像的像素数，P_wi为第i个像素的预测场景坐标，

为第i个像素的真实场景坐标，v_i为第i个像素的不确定度。其中第一项3logv_i为惩罚项，第二项

为损失项，若预测的场景坐标精度较差，则不确定度大，使得惩罚项变大，进而使得损失函数变大，从而使得网络在反向传播过程中，对网络参数进行较大的修正。

具体实施方式十一：本实施方式对实施方式十所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中的RELU激活函数的具体形式为：

其中，x代表输入，RELU(x)代表输出。

具体实施方式十二：本实施方式对实施方式十一所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中步骤四中使用测试集中的数据进行一次测试及步骤五中将测试集中的数据输入到训练好的特征深度聚合网络中进行测试，都会得到预测场景坐标与不确定度。使用测试集的数据进行测试的具体流程为：

1、测试集中的数据输入到特征深度聚合网络；

2、输出为每个像素点的预测场景坐标与不确定度；

3、根据预测场景坐标与不确定度计算预测相机位姿；

4、根据预测相机位姿与测试集中的真实相机位姿，计算位置误差与角度误差。

在第3步中：计算预测相机位姿的时候，流程是：

(1)根据不确定度剔除掉预测较差的预测场景坐标，在剩下预测较好的预测场景坐标中随机选取256个点，这个随机选取就是RANSAC算法；

(2)每个预测场景坐标都可以计算一个重投影误差，据此判断该预测场景坐标是不是外点，也就是误差很大的点；

(3)如果256个点都不是外点，使用高斯牛顿法优化重投影误差获得预测相机位姿T*；

(4)上述步骤(3)是一种迭代过程，优化结束后，就可以获得最优的预测相机位姿T*。

将测试集中的RGB图像输入到训练后的特征深度聚合网络中。在输入过程中，mini-batch设置为1，获得RGB图像中每个像素点所对应的预测场景坐标与不确定度。

不确定度用于评价场景坐标预测结果的好坏，通过设定不确定度的阈值，剔除不确定度大于阈值的场景点坐标。在不确定度小于阈值的预测场景点坐标中，使用RANSAC算法选择256组像素坐标与预测场景坐标，PNP算法通过优化重投影误差实现，使用高斯牛顿法优化重投影误差获得预测相机位姿T^*：

其中，N为输入图像的像素数，P_ui为第i个像素的像素坐标，P_ci为第i个像素的相机坐标的深度值，K为相机内参，T为相机在世界坐标系中的位姿，P_wi为第i个像素的预测场景坐标。根据预测相机位姿计算每个像素点的重投影误差，判断是否为外点，若存在外点，则重复该环节。优化结束后，则获得图像型火灾探测器的最优的预测相机位姿。

考虑到建筑环境中图像型火灾探测器的定位精度要求，性能评价主要有两个指标：位置偏差与角度偏差。偏差越小，则表明图像型火灾探测器定位精度越高。下表3展示了本发明估计方法与其他方法的结果比较，相比其他方法，本发明实现了0.018m的位置偏差与0.640°的角度偏差，优于其他方法。

表3不同网络的对比实验数据

实施例

本发明目标是对建筑场景中使用的图像型火灾探测器进行定位。为了验证特征深度聚合网络的有效性，本发明在多种建筑环境中采集了相关数据。

本发明采集了RGB图像、深度图、相机位姿，采集频率为FPS＝30。在每个场景中分别采集了3组数据，其中每组数据包含一定数量的图片与相机位姿。2组为训练集，1组为测试集，使用其中的2组进行训练，另外1组进行测试。

对于训练集中的数据，根据采集的相机位姿与深度图，通过计算可获得深度图与RGB图中像素点所对应的真实场景坐标。

在训练过程中，由于数据的缺乏或网络模型过大等问题，可能会导致过拟合的发生。本发明对训练集中的图像使用数据增强操作，具体包括：沿水平方向或竖直方向随机平移-20～20像素，图像大小随机缩放0.7至1.5倍，图像随机旋转-30°至30°。同时考虑到网络的运算速度，对训练集与测试集中的RGB图像进行了归一化操作。

考虑到图像尺寸只有640×480，本发明设计了一款轻量级的特征深度聚合网络。该网络的模型参数只有97MB，每张图片的处理速度为0.04s，对处理器要求较低。在使用训练集中的数据进行训练的过程中，本发明采用Adam优化器，mini-batch设置为4。在使用测试集中的数据进行测试的过程中，mini-batch设置为1。

对于每张RGB图像，特征深度聚合网络的输出包含4800组场景坐标与不确定度。本发明首先设定不确定度的阈值0.1，剔除不确定度大于0.1的场景点坐标。在不确定度小于0.1的场景点坐标中，使用RANSAC算法随机选择256组场景坐标与相应的像素坐标。最后使用PNP算法对重投影误差进行优化，获得相机位姿。

本发明模型收敛速度较快，在具有单个NVIDIA TITAN RT的Intel Core [email protected]的CPU上，4小时内可以收敛。最终在测试集上，实现了0.018m的位置偏差与0.640°的角度偏差。

考虑到实际采集到的图片会存在模糊现象，因此为了验证特征深度聚合网络的鲁棒性，本发明对测试数据中较为清晰的图片进行了高斯模糊与运动模糊处理。原图，高斯模糊处理，轻微运动模糊处理，剧烈运动模糊处理后的效果图如图4所示。

高斯模糊的处理方式为：

I′_i＝I_i+N(μ，σ)

其中：I_i为第i个像素的像素值，μ为正态分布的均值，此处设置为0，σ为正态分布的方差，此处设置为25，I′_i为经过高斯模糊处理后，第i个像素的像素值。将未经高斯模糊处理和经过高斯模糊处理的图像输入到特征深度聚合网络中进行测试，测试结果如图5A和图5B所示。可见，特征深度聚合网络对于高斯模糊具有一定的鲁棒性。

使用大小为20，30的运动模糊核，分别对原图进行了轻微与剧烈的运动模糊处理，随后将未经运动模糊处理与经过运动模糊处理的图像输入到特征深度聚合网络中进行测试，测试结果如图6A、图6B、图7A和图7B所示。可见，随着运动模糊的加剧，特征深度聚合网络所预测的误差逐渐变大，但依旧在可接受范围内。因此特征深度聚合网络对于运动模糊具有一定的鲁棒性。

图像型火灾探测器在建筑火灾防控中发挥着重要作用。为了对图像型火灾探测器进行高精度的定位，本发明提出了一种特征深度聚合网络。本发明将单张RGB图像与像素坐标进行拼接，获得5×480×640的张量，作为网络的输入，从而获得每个像素所对应的场景坐标与不确定度。随后，本发明使用不确定度剔除精度较差的预测场景坐标，最后使用RANSAC与PNP算法，实现高精度的图像型火灾探测器定位。实验结果显示，特征深度聚合网络可实现0.018m的位置偏差与0.640°的角度偏差。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行改动、修改、替换和变型。

Claims

1.基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，包括以下步骤：

S2、对S1中采集的数据进行数据预处理，具体为：

S21、将S1中采集的数据分为训练集与测试集；

S23、对训练集中的图像进行数据增强处理；

S3、搭建特征深度聚合网络；

S4、对特征深度聚合网络进行训练，具体为：

S45、重复上述S41-S44，直到得到最优的网络模型；

2.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，S22中像素点对应的真实场景坐标的计算方法，具体为：根据采集的深度图，获得像素点对应的相机坐标P_c，结合相机位姿T_cw，计算像素点对应的真实场景坐标

3.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，S23中数据增强处理具体为：对于训练集中的RGB图像与深度图，沿水平方向或竖直方向平移-20～20像素，图像大小缩放0.7至1.5倍，图像旋转-30°至30°，以增加建筑数据库的样本数目。

4.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，S3中搭建的特征深度聚合网络，包括三部分：第一部分是特征提取层，对建筑场景中的图像进行低级和高级特征提取，分别对低级和高级特征中的几何空间信息以及语义信息进行编码；第二部分是特征融合层，使用通道注意力机制对提取到的不同尺度上的特征图进行融合，实现对环境信息更加精细的编码；第三部分是回归层，用于预测场景坐标与不确定度。

5.根据权利要求4所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，特征提取层包括一系列卷积层，用于对建筑图像中的特征进行编码，获得第一、二、三特征图。

6.根据权利要求5所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，特征融合层以第一、二、三特征图作为输入；第三特征图通过通道注意力模块生成第四特征图，第四特征图与第二特征图逐像素相加获得第五特征图；第五特征图通过卷积层获得第六特征图，第六特征图通过注意力模块获得第七特征图；第七特征图与第一特征图逐像素相加获得第八特征图，第八特征图通过卷积层获得第九特征图；第三、六、九特征图在通道维度拼接获得第十特征图。

7.根据权利要求4所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，回归层包括一系列卷积层，用于预测建筑中的预测场景坐标与不确定度。

8.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，对特征深度聚合网络进行训练时使用深度监督技术，S41中利用训练集中的数据对特征深度聚合网络进行样本训练时，获得的预测场景坐标与不确定度，结合真实场景坐标，得到损失函数，再利用损失函数进行反向传播，对特征深度聚合网络的网络参数进行修正。

9.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，S43的具体步骤为：设定不确定度的阈值，剔除不确定度大于阈值的预测场景坐标；在不确定度小于阈值的预测场景坐标中，使用RANSAC算法与PNP算法，计算图像型火灾探测器的预测相机位姿。

10.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法，其特征在于，S45的具体步骤为：根据数据的大小，定义样本训练次数；每结束一次样本训练，使用当前网络模型的模型参数针对测试集中的数据进行一次测试；若测试结果的位姿误差优于保存的最优网络模型，则将当前网络模型的模型参数保存为最优参数；当网络的训练次数达到所设定的值时，停止训练，得到训练好的最优的网络模型。