CN113793472A - 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 - Google Patents
基于特征深度聚合网络的图像型火灾探测器位姿估计方法 Download PDFInfo
- Publication number
- CN113793472A CN113793472A CN202111078643.4A CN202111078643A CN113793472A CN 113793472 A CN113793472 A CN 113793472A CN 202111078643 A CN202111078643 A CN 202111078643A CN 113793472 A CN113793472 A CN 113793472A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- pose
- fire detector
- aggregation network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 79
- 238000004220 aggregation Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000012360 testing method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000010606 normalization Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B17/00—Fire alarms; Alarms responsive to explosion
- G08B17/12—Actuation by presence of radiation or particles, e.g. of infrared radiation or of ions
- G08B17/125—Actuation by presence of radiation or particles, e.g. of infrared radiation or of ions by using a video camera to detect fire or smoke
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Fire-Detection Mechanisms (AREA)
Abstract
本发明涉及一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法,属于视频图像拍摄位姿估计技术领域。包括以下步骤:S1、在不同的建筑环境中进行数据采集,采集的数据包括RGB图像、深度图以及同时记录的每帧图像拍摄时的相机位姿;S2、对S1中采集的数据进行数据预处理;S3、搭建特征深度聚合网络;S4、对特征深度聚合网络进行训练,得到最优的网络模型;S5、将测试集中归一化处理后的RGB图像输入到S4得到的最优的网络模型中,计算图像型火灾探测器的位姿。本发明能够提高网络的学习能力,防止过拟合,对于图像型火灾探测器定位精度有提升效果。
Description
技术领域
本发明涉及视频图像拍摄位姿估计技术领域,具体涉及一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法。
背景技术
近年来,随着视频数据采集的广泛应用和视频图像模式识别技术的发展,针对视频图像火灾探测方法的研究不断深入。目前,图像型火灾探测器已经广泛应用于大空间建筑和文物建筑的室内、外场所,以及森林、草场等环境的火灾防控。根据图像型火灾探测器中相机的视场角、清晰度、焦距等参数,可以确定其有效火灾监控范围尺度,但对于相机架设安装的位姿估计缺乏有效手段,难以对探测器有效监控区域进行准确建模。在实际安装使用中,可能存在监控死角或重叠区域,从而产生漏保护或过保护问题。为了实现图像型火灾探测器有效监控区域在三维场景中配准和全场景可视化建模等任务,探测器相机在特定场景内的拍摄姿态估计是必须要解决的问题。
传统的摄像机定位需要对图像进行关键点的检测、图像描述子的计算与匹配,或使用深度相机采集点云数据后进行点云配准,这会消耗大量的计算时间,并且难以实现高精度的定位。针对以上问题,Alex Kendall等人提出使用神经网络实现摄像机定位。其使用GoogleNet作为主干网络,同时使用Places数据集分类任务中的模型进行迁移学习,直接对摄像机位姿进行预测,实现了摄像机的高精度定位。Eric Brachmann等人提出DSAC,使用两个神经网络分别预测室内场景中空间点坐标以及为位姿打分,在当时的相机定位任务中取得了先进的效果。在此基础上,Eric Brachmann等人进一步提出了DSAC++网络。该网络改进了特征图的提取方式,使用包含11个卷积层和3个下采样层的神经网络实现了高精度的摄像机位姿估计。该网络预测出像素对应的场景坐标后,使用RANSAC与PNP算法生成位姿池,随后根据重投影误差对每个位姿进行打分,获得最优位姿。DSAC系列首次提出了使用神经网络预测场景点坐标,该方法在摄像机定位的精度上实现了极大地提升,为摄像机的定位提供了新的思路。但仍存在如下问题:
1、DSAC系列在网络结构上只是几个卷积层的串联,没有实现不同感受野所提取的特征的融合;
2、在重复和纹理较少的场景下,由于图像块间的相似性,使得网络的预测效果变差。
发明内容
鉴于现有技术的上述缺点、不足,本发明提供一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法。本发明设计了一种特征深度聚合模块,对低级与高级特征图的融合方式进行了改进,用于有效地对建筑场景中的图像型火灾探测器进行定位。
为了达到上述目的,本发明采用的主要技术方案包括:
本发明提供一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法,包括以下步骤:
S1、在不同的建筑环境中进行数据采集,采集的数据包括RGB图像、深度图以及同时记录的每帧图像拍摄时的相机位姿;
S2、对S1中采集的数据进行数据预处理,具体为:
S21、将S1中采集的数据分为训练集与测试集;
S22、根据训练集中的深度图与相机位姿计算像素点对应的真实场景坐标;
S23、对训练集中的图像进行数据增强处理;
S24、对训练集中的数据增强处理后的RGB图像以及测试集中的RGB图像进行归一化处理;
S3、搭建特征深度聚合网络;
S4、对特征深度聚合网络进行训练,具体为:
S41、将S24中的训练集中归一化处理后的RGB图像输入到S3中搭建的特征深度聚合网络,进行一次样本训练,得到训练后的网络模型;
S42、将S24中的测试集中归一化处理后的RGB图像输入到S41中训练后的网络模型中,获得每个像素点所对应的预测场景坐标与不确定度;
S43、根据S42中的预测场景坐标与不确定度,获得预测相机位姿;
S44、根据S43中的预测相机位姿与S1中采集的相机位姿进行比较,得到位姿误差,该位姿误差与上一次测试得到的位姿误差进行比较,保留位姿误差小的网络模型;
S45、重复上述S41-S44,直到得到最优的网络模型;
S5、将测试集中归一化处理后的RGB图像输入到S45得到的最优的网络模型中,计算图像型火灾探测器的位姿。
进一步地,S23中数据增强处理具体为:对于训练集中的RGB图像与深度图,沿水平方向或竖直方向平移-20~20像素,图像大小缩放0.7至1.5倍,图像旋转-30°至30°,以增加建筑数据库的样本数目。
进一步地,S3中搭建的特征深度聚合网络,包括三部分:第一部分是特征提取层,对建筑场景中的图像进行低级和高级特征提取,分别对低级和高级特征中的几何空间信息以及语义信息进行编码;第二部分是特征融合层,使用通道注意力机制对提取到的不同尺度上的特征图进行融合,实现对环境信息更加精细的编码;第三部分是回归层,用于预测场景坐标与不确定度。
进一步地,特征提取层包括一系列卷积层,用于对建筑图像中的特征进行编码,获得第一、二、三特征图。
进一步地,特征融合层以第一、二、三特征图作为输入;第三特征图通过通道注意力模块生成第四特征图,第四特征图与第二特征图逐像素相加获得第五特征图;第五特征图通过卷积层获得第六特征图,第六特征图通过注意力模块获得第七特征图;第七特征图与第一特征图逐像素相加获得第八特征图,第八特征图通过卷积层获得第九特征图;第三、六、九特征图在通道维度拼接获得第十特征图。
进一步地,回归层包括一系列卷积层,用于预测建筑中的预测场景坐标与不确定度。
进一步地,对特征深度聚合网络进行训练时使用深度监督技术,S41中利用训练集中的数据对特征深度聚合网络进行样本训练时,获得的预测场景坐标与不确定度,结合真实场景坐标,得到损失函数,再利用损失函数进行反向传播,对特征深度聚合网络的网络参数进行修正。
进一步地,S43的具体步骤为:设定不确定度的阈值,剔除不确定度大于阈值的预测场景坐标;在不确定度小于阈值的预测场景坐标中,使用RANSAC算法与PNP算法,计算图像型火灾探测器的预测相机位姿。
进一步地,S45的具体步骤为:根据数据的大小,定义样本训练次数;每结束一次样本训练,使用当前网络模型的模型参数针对测试集中的数据进行一次测试;若测试结果的位姿误差优于保存的最优网络模型,则将当前网络模型的模型参数保存为最优参数;当网络的训练次数达到所设定的值时,停止训练,得到训练好的最优的网络模型。
本发明的有益效果是:本发明提出了一个使用特征深度聚合网络实现建筑场景中图像型火灾探测器位姿估计方法。本发明通过采集不同建筑场景中的RGB图像、深度图与相机位姿,同时为了提高网络的学习能力,防止过拟合,本发明对采集到的图像数据进行了数据预处理操作,随后用来训练和测试本发明所提供的特征深度聚合网络。实验结果表明,该网络模型在兼顾精度、内存占用下,在测试集中实现了较高的图像型火灾探测器定位精度:0.018m的位置偏差与0.640°的角度偏差。
为了验证鲁棒性,本发明对图像分别进行了高斯模糊与运动模糊处理,随后作为特征深度聚合网络的输入进行了测试。实验结果表明,本发明对于高斯模糊与运动模糊具有一定的抑制能力。
本发明设计了一种新颖且有效的特征深度聚合模块,对于图像型火灾探测器定位精度的提升具有有益的效果。
附图说明
图1为本发明实施例所提供的流程示意图;
图2为本发明实施例所提供的建筑场景中采集的数据图片;
图3为本发明实施例所提供的特征深度聚合网络的网络示意图;
图4为本发明实施例所提供的图像模糊处理操作,按顺序依次为原图,高斯模糊处理,轻微运动模糊处理,剧烈运动模糊处理后的效果图;
图5A、图5B分别为高斯模糊处理前后网络所预测的位置误差与角度误差,其中实线表示未经高斯模糊处理,虚线表示经过高斯模糊处理;
图6A、图6B分别为轻微运动模糊处理前后网络所预测的位置误差与角度误差,其中实线表示未经轻微运动模糊处理,虚线表示经过轻微运动模糊处理;
图7A、图7B分别为剧烈运动模糊处理前后网络所预测的位置误差与角度误差,其中实线表示未经剧烈运动模糊处理,虚线表示经过剧烈运动模糊处理。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
具体实施方式一:参照图1,本实施例提供的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法,应用于建筑场景中的图像型火灾探测器定位过程。该方法包括以下步骤:
步骤一、在不同的建筑环境中,使用深度相机进行数据的采集。采集的数据包括RGB图像、深度图和相机位姿。所采集的建筑场景图像中,需包含采集场景中的所有具有代表性的物体,且每个场景至少采集3组数据,每组数据包含一定量的图片。
步骤二、对步骤一中采集的数据进行数据预处理。将步骤一中采集的数据随机分成训练集与测试集。根据训练集中深度图与相机位姿,计算训练集中深度图每个像素点所对应的真实场景坐标,用于与神经网络输出的预测场景坐标进行计算,获得损失函数。对训练集中的图像进行数据增强操作。对训练集中数据增强后的RGB图像进行归一化处理,以及对测试集中的RGB图像进行归一化处理。
步骤三、搭建特征深度聚合网络。
步骤四、对特征深度聚合网络进行训练。将训练集中归一化处理后的RGB图像输入到搭建的特征深度聚合网络中进行训练。根据数据的大小,定义样本训练次数。每结束一次样本训练,使用当前模型参数以及测试集中的数据进行一次测试。若测试结果的误差和准确率均优于保存的最优模型,则将当前模型参数保存为最优参数。当网络的训练次数达到所设定的值时,停止训练,得到训练好的特征深度聚合网络。
步骤五、将测试集中归一化处理后的RGB图像输入到训练好的特征深度聚合网络中,获得每个像素点所对应的预测场景坐标与不确定度。根据获得的不确定度,剔除预测效果较差的预测场景坐标。根据剩余的预测较为准确的预测场景坐标,使用RANSAC与PNP算法,随机选取256组场景坐标与相应的像素坐标,计算图像型火灾探测器的预测位姿。
具体实施方式二:本实施方式对实施方式一所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中步骤一的具体过程为:
使用深度相机在建筑环境中采集大量的RGB图像、深度图、以及同时记录的每帧图像拍摄时的相机位姿。在不同场景中所用相机为同一设备,且相机参数需保持一致。采集的数据如图2所示。
具体实施方式三:本实施方式对实施方式二所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式步骤二中对步骤一中采集的数据进行数据预处理。其具体过程为:
将采集的数据随机分成训练集与测试集,且训练集与测试集的比例近似满足2:1。
对训练集中的图像进行数据增强操作,具体包括:沿水平方向或竖直方向随机平移-20~20像素,图像大小随机缩放0.7至1.5倍,图像随机旋转-30°至30°,增加建筑数据库的样本数目,在提高神经网络的学习能力的同时有效地防止过拟合。
对训练集或测试集的RGB图像进行归一化操作。具体而言,采用的方式为:v′i=(vi/255)×2-1。其中,vi为初始的像素值,v′i为归一化处理后的像素值,将RGB数值限制在[-1,1]范围内。
具体实施方式四:本实施方式对实施方式三所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中步骤三的具体过程为:搭建特征深度聚合网络,网络结构如图3所示。
所述特征深度聚合网络,包括三部分:第一部分是特征提取层,对建筑场景中的图像进行低级和高级特征提取,对环境中的几何空间信息以及语义信息进行编码;第二部分是特征融合层,使用通道注意力机制对提取到的不同尺度上的特征图进行融合,实现对环境信息更加精细的编码;第三部分是回归层,用于预测场景坐标与不确定度。
具体实施方式五:本实施方式对实施方式四所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。特征提取层的结构如下:
所述特征提取层,输入张量的维度为5×480×640,其中5表示每个像素的色彩值(R,G,B)以及像素坐标(u,v),480、640分别表示图像的高、宽。
所述特征提取层,由一系列的卷积层组成,用于对建筑图像中的特征进行编码。考虑到输入张量的维度,所述特征提取层使用修改后的ResNet18作为主干网络。所述修改包括将第一层卷积核为7×7的卷积层使用两个卷积核为3×3的卷积层代替,同时去除了最后的平局池化层与全连接层。
所述对建筑图像中的特征进行编码分为7个阶段,参见表1,分别对应第一卷积层,第二卷积层,第一最大池化层,第一残差块,第二残差块,第三残差块,第四残差块,分别定义为C1、C2、M1,B1、B2、B3、B4。在进行特征提取时,首先是第一卷积层,卷积核大小为3×3,步长为1;然后是另一个第二卷积层,卷积核大小为3×3,步长为2;使用一个第一最大池化层,卷积核大小为3×3,步长为2。随后使用第一~第四残差块进行进一步的特征提取,获得第一、二、三特征图。使用残差块的好处是:残差块中通过短接结构,将低维特征附加到高维特征中,防止了信息的丢失与网络结构的退化。同时,短接结构进一步避免了梯度消失与梯度***。残差块不会增加很多的网络参数量,却可以提高网络的训练效果。
表1特征提取层网络模块架构
每次卷积后均使用BN层与RELU激活函数处理。BN层可平滑损失函数的表面,有助于提高网络的训练速度。激活函数有助于提高网络的非线性程度。
具体实施方式六:本实施方式对实施方式五所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。特征融合层的结构如下:
所述特征融合层,考虑到不同特征图对建筑场景特征的描述方式不同,传统的逐像素相加方式可能会导致信息的混乱,本发明使用通道注意力模块与通道维度拼接方式,提出了一种特征深度聚合模块,将提取的包含建筑图像不同上下文信息的特征图进行有效融合。
所述特征融合层,以第一、二、三特征图作为输入。第三特征图通过通道注意力模块生成第四特征图,第四特征图与第二特征图逐像素相加获得第五特征图。第五特征图通过卷积层获得第六特征图,第六特征图通过注意力模块获得第七特征图。第七特征图与第一特征图逐像素相加获得第八特征图,第八特征图通过卷积层获得第九特征图。第三、六、九特征图在通道维度拼接获得第十特征图。除第十特征图维度为1536×60×80外,其余特征图的维度均为512×60×80。
具体实施方式七:本实施方式对实施方式六所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。回归层的结构如下:
所述回归层,由一系列卷积层组成,用于预测建筑中的场景坐标与不确定度。回归层分为6个阶段,参见表2,分别对应第一卷积层,第二卷积层,第三卷积层,第四卷积层,并联的第五卷积层和第六卷积层。所有卷积层卷积核的尺寸均为3×3,步长均为1。经过第一~第四卷积层,获得第十一特征图;第十一特征图分别经过第五卷积层和第六卷积层,获得预测场景坐标与不确定度。其中第一~第四卷积层包含卷积操作、批规范化以及RELU激活函数处理,而第五卷积层和第六卷积层只包含卷积操作。
表2回归层网络模块架构
具体实施方式八:本实施方式对实施方式七所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。步骤四中,将训练集中归一化处理后的RGB图像输入到搭建的特征深度聚合网络中进行训练,具体为:
输入为建筑场景中的单张RGB图像,输出为RGB图像中像素点所对应的预测场景坐标与不确定度。在将训练集图像输入网络过程中,mini-batch的大小设置为4。使用ADAM优化器,其中的超参数设置为β1=0.9,β2=0.999。采用学习率衰减策略,学习率大小设置为:
其中:ln为当前学习率,Ii为初始学习率,在本发明中设置为0.0002,iter为当前迭代次数。
在具体训练时,样本训练次数设置为500。每结束一次样本训练,将测试集中的数据输入当前特征深度聚合网络进行一次测试。若当前特征深度聚合网络的测试结果优于保存的特征深度聚合网络,则将当前特征深度聚合网络保存为最优特征深度聚合网络。当样本训练次数达到500时,结束训练,获得最优特征深度聚合网络。
具体实施方式九:本实施方式对实施方式八所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。针对训练集中的数据,特征深度聚合网络使用深度监督技术,同时提高网络的学习能力和优化速度。深度监督技术的实施方案如下:
所述深度监督技术,分别根据第三、十特征图,使用回归层预测预测场景坐标与不确定度,随后分别计算辅助损失L1与主损失L2。辅助损失与主损失相加获得总损失Lreg,相加方式为Lreg=L2+0.4L1。参照图3(a),左边是辅助损失,右边是主损失。
具体实施方式十:本实施方式对实施方式九所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中的损失函数L,同时考虑了预测场景坐标与真实场景坐标间的欧式距离与不确定度,定义如下:
其中:N为输入图像的像素数,Pwi为第i个像素的预测场景坐标,为第i个像素的真实场景坐标,vi为第i个像素的不确定度。其中第一项3logvi为惩罚项,第二项为损失项,若预测的场景坐标精度较差,则不确定度大,使得惩罚项变大,进而使得损失函数变大,从而使得网络在反向传播过程中,对网络参数进行较大的修正。
具体实施方式十一:本实施方式对实施方式十所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中的RELU激活函数的具体形式为:
其中,x代表输入,RELU(x)代表输出。
具体实施方式十二:本实施方式对实施方式十一所述的一种基于特征深度聚合网络的图像型火灾探测器位姿估计方法进一步限制。本实施方式中步骤四中使用测试集中的数据进行一次测试及步骤五中将测试集中的数据输入到训练好的特征深度聚合网络中进行测试,都会得到预测场景坐标与不确定度。使用测试集的数据进行测试的具体流程为:
1、测试集中的数据输入到特征深度聚合网络;
2、输出为每个像素点的预测场景坐标与不确定度;
3、根据预测场景坐标与不确定度计算预测相机位姿;
4、根据预测相机位姿与测试集中的真实相机位姿,计算位置误差与角度误差。
在第3步中:计算预测相机位姿的时候,流程是:
(1)根据不确定度剔除掉预测较差的预测场景坐标,在剩下预测较好的预测场景坐标中随机选取256个点,这个随机选取就是RANSAC算法;
(2)每个预测场景坐标都可以计算一个重投影误差,据此判断该预测场景坐标是不是外点,也就是误差很大的点;
(3)如果256个点都不是外点,使用高斯牛顿法优化重投影误差获得预测相机位姿T*;
(4)上述步骤(3)是一种迭代过程,优化结束后,就可以获得最优的预测相机位姿T*。
将测试集中的RGB图像输入到训练后的特征深度聚合网络中。在输入过程中,mini-batch设置为1,获得RGB图像中每个像素点所对应的预测场景坐标与不确定度。
不确定度用于评价场景坐标预测结果的好坏,通过设定不确定度的阈值,剔除不确定度大于阈值的场景点坐标。在不确定度小于阈值的预测场景点坐标中,使用RANSAC算法选择256组像素坐标与预测场景坐标,PNP算法通过优化重投影误差实现,使用高斯牛顿法优化重投影误差获得预测相机位姿T*:
其中,N为输入图像的像素数,Pui为第i个像素的像素坐标,Pci为第i个像素的相机坐标的深度值,K为相机内参,T为相机在世界坐标系中的位姿,Pwi为第i个像素的预测场景坐标。根据预测相机位姿计算每个像素点的重投影误差,判断是否为外点,若存在外点,则重复该环节。优化结束后,则获得图像型火灾探测器的最优的预测相机位姿。
考虑到建筑环境中图像型火灾探测器的定位精度要求,性能评价主要有两个指标:位置偏差与角度偏差。偏差越小,则表明图像型火灾探测器定位精度越高。下表3展示了本发明估计方法与其他方法的结果比较,相比其他方法,本发明实现了0.018m的位置偏差与0.640°的角度偏差,优于其他方法。
表3不同网络的对比实验数据
实施例
本发明目标是对建筑场景中使用的图像型火灾探测器进行定位。为了验证特征深度聚合网络的有效性,本发明在多种建筑环境中采集了相关数据。
本发明采集了RGB图像、深度图、相机位姿,采集频率为FPS=30。在每个场景中分别采集了3组数据,其中每组数据包含一定数量的图片与相机位姿。2组为训练集,1组为测试集,使用其中的2组进行训练,另外1组进行测试。
对于训练集中的数据,根据采集的相机位姿与深度图,通过计算可获得深度图与RGB图中像素点所对应的真实场景坐标。
在训练过程中,由于数据的缺乏或网络模型过大等问题,可能会导致过拟合的发生。本发明对训练集中的图像使用数据增强操作,具体包括:沿水平方向或竖直方向随机平移-20~20像素,图像大小随机缩放0.7至1.5倍,图像随机旋转-30°至30°。同时考虑到网络的运算速度,对训练集与测试集中的RGB图像进行了归一化操作。
考虑到图像尺寸只有640×480,本发明设计了一款轻量级的特征深度聚合网络。该网络的模型参数只有97MB,每张图片的处理速度为0.04s,对处理器要求较低。在使用训练集中的数据进行训练的过程中,本发明采用Adam优化器,mini-batch设置为4。在使用测试集中的数据进行测试的过程中,mini-batch设置为1。
对于每张RGB图像,特征深度聚合网络的输出包含4800组场景坐标与不确定度。本发明首先设定不确定度的阈值0.1,剔除不确定度大于0.1的场景点坐标。在不确定度小于0.1的场景点坐标中,使用RANSAC算法随机选择256组场景坐标与相应的像素坐标。最后使用PNP算法对重投影误差进行优化,获得相机位姿。
本发明模型收敛速度较快,在具有单个NVIDIA TITAN RT的Intel Core [email protected]的CPU上,4小时内可以收敛。最终在测试集上,实现了0.018m的位置偏差与0.640°的角度偏差。
考虑到实际采集到的图片会存在模糊现象,因此为了验证特征深度聚合网络的鲁棒性,本发明对测试数据中较为清晰的图片进行了高斯模糊与运动模糊处理。原图,高斯模糊处理,轻微运动模糊处理,剧烈运动模糊处理后的效果图如图4所示。
高斯模糊的处理方式为:
I′i=Ii+N(μ,σ)
其中:Ii为第i个像素的像素值,μ为正态分布的均值,此处设置为0,σ为正态分布的方差,此处设置为25,I′i为经过高斯模糊处理后,第i个像素的像素值。将未经高斯模糊处理和经过高斯模糊处理的图像输入到特征深度聚合网络中进行测试,测试结果如图5A和图5B所示。可见,特征深度聚合网络对于高斯模糊具有一定的鲁棒性。
使用大小为20,30的运动模糊核,分别对原图进行了轻微与剧烈的运动模糊处理,随后将未经运动模糊处理与经过运动模糊处理的图像输入到特征深度聚合网络中进行测试,测试结果如图6A、图6B、图7A和图7B所示。可见,随着运动模糊的加剧,特征深度聚合网络所预测的误差逐渐变大,但依旧在可接受范围内。因此特征深度聚合网络对于运动模糊具有一定的鲁棒性。
图像型火灾探测器在建筑火灾防控中发挥着重要作用。为了对图像型火灾探测器进行高精度的定位,本发明提出了一种特征深度聚合网络。本发明将单张RGB图像与像素坐标进行拼接,获得5×480×640的张量,作为网络的输入,从而获得每个像素所对应的场景坐标与不确定度。随后,本发明使用不确定度剔除精度较差的预测场景坐标,最后使用RANSAC与PNP算法,实现高精度的图像型火灾探测器定位。实验结果显示,特征深度聚合网络可实现0.018m的位置偏差与0.640°的角度偏差。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行改动、修改、替换和变型。
Claims (10)
1.基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,包括以下步骤:
S1、在不同的建筑环境中进行数据采集,采集的数据包括RGB图像、深度图以及同时记录的每帧图像拍摄时的相机位姿;
S2、对S1中采集的数据进行数据预处理,具体为:
S21、将S1中采集的数据分为训练集与测试集;
S22、根据训练集中的深度图与相机位姿计算像素点对应的真实场景坐标;
S23、对训练集中的图像进行数据增强处理;
S24、对训练集中的数据增强处理后的RGB图像以及测试集中的RGB图像进行归一化处理;
S3、搭建特征深度聚合网络;
S4、对特征深度聚合网络进行训练,具体为:
S41、将S24中的训练集中归一化处理后的RGB图像输入到S3中搭建的特征深度聚合网络,进行一次样本训练,得到训练后的网络模型;
S42、将S24中的测试集中归一化处理后的RGB图像输入到S41中训练后的网络模型中,获得每个像素点所对应的预测场景坐标与不确定度;
S43、根据S42中的预测场景坐标与不确定度,获得预测相机位姿;
S44、根据S43中的预测相机位姿与S1中采集的相机位姿进行比较,得到位姿误差,该位姿误差与上一次测试得到的位姿误差进行比较,保留位姿误差小的网络模型;
S45、重复上述S41-S44,直到得到最优的网络模型;
S5、将测试集中归一化处理后的RGB图像输入到S45得到的最优的网络模型中,计算图像型火灾探测器的位姿。
3.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,S23中数据增强处理具体为:对于训练集中的RGB图像与深度图,沿水平方向或竖直方向平移-20~20像素,图像大小缩放0.7至1.5倍,图像旋转-30°至30°,以增加建筑数据库的样本数目。
4.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,S3中搭建的特征深度聚合网络,包括三部分:第一部分是特征提取层,对建筑场景中的图像进行低级和高级特征提取,分别对低级和高级特征中的几何空间信息以及语义信息进行编码;第二部分是特征融合层,使用通道注意力机制对提取到的不同尺度上的特征图进行融合,实现对环境信息更加精细的编码;第三部分是回归层,用于预测场景坐标与不确定度。
5.根据权利要求4所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,特征提取层包括一系列卷积层,用于对建筑图像中的特征进行编码,获得第一、二、三特征图。
6.根据权利要求5所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,特征融合层以第一、二、三特征图作为输入;第三特征图通过通道注意力模块生成第四特征图,第四特征图与第二特征图逐像素相加获得第五特征图;第五特征图通过卷积层获得第六特征图,第六特征图通过注意力模块获得第七特征图;第七特征图与第一特征图逐像素相加获得第八特征图,第八特征图通过卷积层获得第九特征图;第三、六、九特征图在通道维度拼接获得第十特征图。
7.根据权利要求4所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,回归层包括一系列卷积层,用于预测建筑中的预测场景坐标与不确定度。
8.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,对特征深度聚合网络进行训练时使用深度监督技术,S41中利用训练集中的数据对特征深度聚合网络进行样本训练时,获得的预测场景坐标与不确定度,结合真实场景坐标,得到损失函数,再利用损失函数进行反向传播,对特征深度聚合网络的网络参数进行修正。
9.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,S43的具体步骤为:设定不确定度的阈值,剔除不确定度大于阈值的预测场景坐标;在不确定度小于阈值的预测场景坐标中,使用RANSAC算法与PNP算法,计算图像型火灾探测器的预测相机位姿。
10.根据权利要求1所述的基于特征深度聚合网络的图像型火灾探测器位姿估计方法,其特征在于,S45的具体步骤为:根据数据的大小,定义样本训练次数;每结束一次样本训练,使用当前网络模型的模型参数针对测试集中的数据进行一次测试;若测试结果的位姿误差优于保存的最优网络模型,则将当前网络模型的模型参数保存为最优参数;当网络的训练次数达到所设定的值时,停止训练,得到训练好的最优的网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111078643.4A CN113793472B (zh) | 2021-09-15 | 2021-09-15 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111078643.4A CN113793472B (zh) | 2021-09-15 | 2021-09-15 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793472A true CN113793472A (zh) | 2021-12-14 |
CN113793472B CN113793472B (zh) | 2023-01-20 |
Family
ID=79183414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111078643.4A Active CN113793472B (zh) | 2021-09-15 | 2021-09-15 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793472B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977634A (zh) * | 2023-07-17 | 2023-10-31 | 应急管理部沈阳消防研究所 | 基于激光雷达点云背景减除的火灾烟雾检测方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109207A (zh) * | 2016-11-24 | 2018-06-01 | 中安消物联传感(深圳)有限公司 | 一种可视化立体建模方法及*** |
CN109063728A (zh) * | 2018-06-20 | 2018-12-21 | 燕山大学 | 一种火灾图像深度学习模式识别方法 |
CN109816725A (zh) * | 2019-01-17 | 2019-05-28 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的单目相机物***姿估计方法及装置 |
CN110246181A (zh) * | 2019-05-24 | 2019-09-17 | 华中科技大学 | 基于锚点的姿态估计模型训练方法、姿态估计方法和*** |
CN110322510A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种利用轮廓信息的6d位姿估计方法 |
CN110910452A (zh) * | 2019-11-26 | 2020-03-24 | 上海交通大学 | 一种基于深度学习的低纹理工业零件位姿估计方法 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及*** |
CN111652921A (zh) * | 2020-04-21 | 2020-09-11 | 深圳大学 | 一种单目深度预测模型的生成方法及单目深度预测方法 |
CN111862126A (zh) * | 2020-07-09 | 2020-10-30 | 北京航空航天大学 | 深度学习与几何算法结合的非合作目标相对位姿估计方法 |
CN112270280A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 一种基于深度学习的遥感图像中的露天矿场检测方法 |
CN112418329A (zh) * | 2020-11-25 | 2021-02-26 | 武汉大学 | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及*** |
CN113269831A (zh) * | 2021-05-19 | 2021-08-17 | 北京能创科技有限公司 | 基于场景坐标回归网络的视觉重定位方法、***、装置 |
CN113299035A (zh) * | 2021-05-21 | 2021-08-24 | 上海电机学院 | 一种基于人工智能和双目视觉的火灾识别方法及*** |
CN113313706A (zh) * | 2021-06-28 | 2021-08-27 | 安徽南瑞继远电网技术有限公司 | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 |
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
-
2021
- 2021-09-15 CN CN202111078643.4A patent/CN113793472B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109207A (zh) * | 2016-11-24 | 2018-06-01 | 中安消物联传感(深圳)有限公司 | 一种可视化立体建模方法及*** |
CN109063728A (zh) * | 2018-06-20 | 2018-12-21 | 燕山大学 | 一种火灾图像深度学习模式识别方法 |
CN109816725A (zh) * | 2019-01-17 | 2019-05-28 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的单目相机物***姿估计方法及装置 |
CN110246181A (zh) * | 2019-05-24 | 2019-09-17 | 华中科技大学 | 基于锚点的姿态估计模型训练方法、姿态估计方法和*** |
CN110322510A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种利用轮廓信息的6d位姿估计方法 |
CN110910452A (zh) * | 2019-11-26 | 2020-03-24 | 上海交通大学 | 一种基于深度学习的低纹理工业零件位姿估计方法 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及*** |
CN111325797A (zh) * | 2020-03-03 | 2020-06-23 | 华东理工大学 | 一种基于自监督学习的位姿估计方法 |
CN111652921A (zh) * | 2020-04-21 | 2020-09-11 | 深圳大学 | 一种单目深度预测模型的生成方法及单目深度预测方法 |
CN111862126A (zh) * | 2020-07-09 | 2020-10-30 | 北京航空航天大学 | 深度学习与几何算法结合的非合作目标相对位姿估计方法 |
CN112270280A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 一种基于深度学习的遥感图像中的露天矿场检测方法 |
CN112418329A (zh) * | 2020-11-25 | 2021-02-26 | 武汉大学 | 一种基于多尺度纹理特征融合宫颈oct图像分类方法及*** |
CN113269831A (zh) * | 2021-05-19 | 2021-08-17 | 北京能创科技有限公司 | 基于场景坐标回归网络的视觉重定位方法、***、装置 |
CN113299035A (zh) * | 2021-05-21 | 2021-08-24 | 上海电机学院 | 一种基于人工智能和双目视觉的火灾识别方法及*** |
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN113313706A (zh) * | 2021-06-28 | 2021-08-27 | 安徽南瑞继远电网技术有限公司 | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 |
Non-Patent Citations (2)
Title |
---|
吴华运: "基于改进型SSD算法的空瓶表面缺陷检测", 《计算机与现代化》 * |
李晨旻: "基于场景坐标回归的室内视觉定位研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977634A (zh) * | 2023-07-17 | 2023-10-31 | 应急管理部沈阳消防研究所 | 基于激光雷达点云背景减除的火灾烟雾检测方法 |
CN116977634B (zh) * | 2023-07-17 | 2024-01-23 | 应急管理部沈阳消防研究所 | 基于激光雷达点云背景减除的火灾烟雾检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113793472B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570371B (zh) | 一种基于多尺度残差学习的图像去雾方法 | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及*** | |
CN111126359B (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN111626128A (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN110276768B (zh) | 图像分割方法、图像分割装置、图像分割设备及介质 | |
CN110705344B (zh) | 一种基于深度学习的人群计数模型及其实现方法 | |
CN111291768B (zh) | 图像特征匹配方法及装置、设备、存储介质 | |
CN110443883B (zh) | 一种基于dropblock的单张彩色图片平面三维重建方法 | |
CN111931686B (zh) | 一种基于背景知识增强的视频卫星目标跟踪方法 | |
CN113313810B (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN111667535B (zh) | 一种针对遮挡场景下的六自由度位姿估计方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN113159466A (zh) | 一种短时光伏发电功率预测***及方法 | |
CN112634163A (zh) | 基于改进型循环生成对抗网络去图像运动模糊方法 | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN114140623A (zh) | 一种图像特征点提取方法及*** | |
CN113793472B (zh) | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN110503002B (zh) | 一种人脸检测方法和存储介质 | |
CN112417991B (zh) | 基于沙漏胶囊网络的双注意力人脸对齐方法 | |
EP4024343A1 (en) | Viewpoint image processing method and related device | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
CN111612827A (zh) | 基于多摄像头的目标位置确定方法、装置和计算机设备 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN113538523A (zh) | 车位检测跟踪方法、电子设备及车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |