CN113657214B

CN113657214B - 一种基于Mask RCNN的建筑损伤评估方法

Info

Publication number: CN113657214B
Application number: CN202110876141.XA
Authority: CN
Inventors: 石振锋; 张萌菲; 张孟琦
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2024-04-02
Anticipated expiration: 2041-07-30
Also published as: CN113657214A

Abstract

一种基于Mask RCNN的建筑损伤评估方法，涉及建筑物的损伤评估领域。解决了神经网络模型在建筑损伤评估任务中的精度低的问题。本发明应用ResNet50‑vd辅以特征金字塔网络的主干网络架构作为特征提取部分，实现灾后图像的强语义和强分辨率的特征提取；强语义特征输入到区域推荐网络，得到建议框及建议框类别并生成多个特征矩阵，形成共享特征层，强分辨率的特征输入到RoIAlign层；每个特征矩阵输到RoIAlign层，缩放特征矩阵至k×k后获得多个特征图；多个特征图同时处理，通过全卷积神经网络生成Mask RCNN，非极大值抑制算法去除冗余；得到建筑在卫星图像中所在的位置，建筑损伤程度大小以及预测结果的可靠性打分。本发明主要是实现对建筑损伤程度的分级评估，应用到灾害损失评估上。

Description

一种基于Mask RCNN的建筑损伤评估方法

技术领域

本发明涉及建筑损伤评估领域，特别涉及一种一种基于Mask RCNN的建筑损伤评估方法。

背景技术

传统的对建筑物的损伤评估研究大部分是通过采集灾后现场数据，根据制定的评估标准进行人工分析来实现的。在灾害发生时，现场采集建筑物图像信息是非常困难且需要消耗大量的时间，并不能为灾后急救、灾后评估工作的开展带来良性的推动。

随着人工智能相关理论的发展，国内外研究人员开始尝试将深度学习和机器学习的方法应用到航拍及卫星图像的建筑物损伤评估中。然而baseline模型和基于Mask RCNN的实例分割模型及语义分割模型在建筑损伤评估任务中精度一般，不利于灾后评估工作。

发明内容

本发明的目的是提供一种基于Mask RCNN的建筑损伤评估方法，解决神经网络模型在建筑损伤评估任务中的精度低的问题。

一种基于Mask RCNN的建筑损伤评估方法，包括如下步骤：

步骤一：应用ResNet50-vd辅以特征金字塔网络Feature Pyramid Networks的主干网络架构作为特征提取部分，实现灾后图像的强语义和强分辨率的特征提取；

其中，强语义的特征和强分辨率的特征称为共享特征；

步骤二：获得的共享特征中的强语义和强分辨率的特征强语义的特征输入到区域推荐网络Region Proposal Network，强分辨率的特征输入到RoIAlign层，通过区域推荐网络Region Proposal Network得到建议框及建议框类别并生成多个特征矩阵，形成共享特征层；

步骤三：将每个特征矩阵输入到RoIAlign层，将所有特征矩阵缩放为k×k的特征图，获得多个特征图；

步骤四：通过所述多个特征图同时处理，实现分类和边界框回归、通过全卷积神经网络Fully Convolutional Network生成Mask RCNN，并通过非极大值抑制算法去除冗余；

步骤五：得到每一个建筑在卫星图像中所在的位置，建筑损伤程度大小，及该预测结果的可靠性打分。

上述步骤一所述应用ResNet50-vd辅以特征金字塔网络Feature PyramidNetworks的主干网络架构作为特征提取部分，步骤包括：

特征提取网络为ResNet50-vd，以其每阶段最后一层的输出记录下来，用于作为该阶段的金字塔层，得到不同程度语义的特征；

对中间层以上的金字塔层级进行上采样得到高分辨率的特征，并在横向上将其与通过自下而上的结构得到的强语义的输出进行连接，构建强语义的同时又具有高分辨率的特征；

其中，通过将空间分辨率上采样为2倍来实现其与横向连接的特征映射大小一致；

通过FPN可以得到不同分辨率的多层特征，选择的特征层级与待检目标尺度之间的关系为：

其中，输入图像上RoI的宽为w，输入图像上RoI的高为h，大小为224×224的目标对应的特征层记为第k₀层，下取整函数记为

上述步骤二所述结合候选框的类别得分对其进行筛选的筛选，得到一组带有得分的矩形建议框的过程，矩形建议框的参数为：

在每个滑动窗口处，均可以得到最大个数为k的推荐框，称为锚点框anchor；

对每个边界框推荐层reg输出参数是4k，每个边界框分类层cls的输出参数是2k；

选取锚点框的面积为32，锚点框的长度为0.5；锚点框的面积为64，锚点框的长度为1.0；锚点框的面积为128，锚点框的长度为1.5；锚点框的面积为256，锚点框的长度为2.0；

RPN中候选框的回归参数为：

其中，(x,y)表示矩形框的中心点，w表示矩形框的宽度，h表示矩形框的高度；x表示区域推荐网络Region Proposal Network预测框的指标，x_a表示锚点框的指标，x^*表示真实框的指标；t_x表示x轴方向区域推荐网络Region Proposal Network预测框的偏移量，t_y表示y轴方向区域推荐网络Region Proposal Network预测框的偏移量，t_x ^*表示x轴方向真实框的偏移量，t_y ^*表示y轴方向真实框的偏移量；t_w表示矩形框的宽度尺度偏移量，t_h表示矩形框的高度尺度偏移量，t_w ^*表示矩形框真实宽度尺度偏移量，t_h ^*表示矩形框真实高度尺度偏移量。

上述步骤三所述将一个特征矩阵输入到RoIAlign层将其缩放为k×k的特征图的过程为：

RoIAlign层在生成特征图时使用双线性插值，避免了对齐问题；

在2×2格子的池化输出尺寸，对于每一个池化输出，每个格子中选取4个采样点，采样点所在像素坐标为浮点值，每个采样点的值通过周围四个像素点的特征值的双线性插值实现；

对4个采样点处的值取最大值输出为该小格子的输出值，最终得到固定尺寸为k×k的特征图，其中，k＝7用于最终结果的预测。

上述步骤四所述对于通过非极大值抑制算法(NMS)去除冗余的操作过程为：

通过NMS对边界框按其置信度得分对其进行排序，选取置信度得分最大的边界框作为预测结果，如果其它的预测结果与其交并比(IoU)大于设置的阈值，则认为它们是同一个预测结果，将该预测结果对应的边界框视为冗余框，删除所有的冗余框后进行下一个预测结果的判断，遍历所有的候选框，完成去除冗余的操作。

本发明的解决了现有技术中神经网络模型在建筑损伤评估任务中的精度低的问题，所述技术效果为：

建筑损伤程度的分级评估，清晰的确定建筑边界，达到更高的分割精度并将评估结果作为输入应用到灾害损失评估上，为后续的灾害评估工作提供了重要的参考。

本发明所述的方法适用于建筑损伤程度的分级评估。

附图说明

图1为基于Mask-RCNN的建筑损伤评估模型；

图2为特征金字塔网络结构；

图3为区域推荐网络的结构；

图4为数据预处理效果示意图。

具体实施方式

实施方式一：参照图1说明本实施方式。本实施方式所述的一种基于Mask RCNN的建筑损伤评估方法，包括如下步骤：

其中，强语义的特征和强分辨率的特征称为共享特征；

步骤一所述应用ResNet50-vd辅以特征金字塔网络Feature Pyramid Networks的主干网络架构作为特征提取部分，步骤包括：

如图2所示，对中间层以上的金字塔层级进行上采样得到高分辨率的特征，并在横向上将其与通过自下而上的结构得到的强语义的输出进行连接，构建强语义的同时又具有高分辨率的特征；

步骤二所述区域推荐网络Region Proposal Network的生成方法为：

用一个以3×3网络结构的滑动窗口的方式作用到输入的共享特征层上，每一个滑动窗口的作用结果均是一个一维的特征向量；

两个同级的全连接层均以该特征向量作为输入向量，一个全连接层是边界框推荐层reg，一个全连接层是边界框分类层cls，最终针对每个锚点框anchor得到相应的边界框回归参数及预测为前景和背景的概率，结合预先设定的所有锚点框得到所有初步获取的候选框；

其中，一个锚点框对应一个候选框；

结合候选框的类别得分对其进行筛选，类别得分和候选框的筛选主要基于非极大值抑制算法实现，得到一组带有得分的矩形建议框的输出，区域推荐网络的结构如图3所示。

步骤三所述结合候选框的类别得分对其进行筛选的筛选，得到一组带有得分的矩形建议框的过程，矩形建议框的参数为：

RPN中候选框的回归参数为：

步骤四所述将一个特征矩阵输入到RoIAlign层将其缩放为k×k的特征图的过程为：

对4个采样点处的值取最大值输出为该小格子的输出值，最终得到固定尺寸为k×k的特征图，其中k＝7，用于最终结果的预测。

所述对于通过非极大值抑制算法(NMS)去除冗余的操作过程为：

本实施例中，对基于Mask RCNN的建筑损伤评估模型进行了训练：

将原数据集的标注格式转换成了COCO数据集标注格式，分别针对灾前图像和灾后图像生成了相应的标注文件；如图4所示，通过对COCO数据集进行随机翻转和随机裁剪的预处理，以提高对小面积建筑的定位和分类精度；通过对COCO数据集中的数据进行批正则化处理预防模型过拟合。

所述COCO数据集的随机剪裁：

(1)设置一系列的IoU阈值，并随机打乱其顺序，以判断裁剪得到的候选区域是否有效；

(2)遍历所有IoU阈值，如果当前IoU阈值是0不进行裁剪，那么返回原始的图像和相应的标注数据，否则随机选取预设的矩形框的短边的缩放比例，得到候选裁剪区域的宽，高和裁剪起点的坐标；

(3)对比得到的候选裁剪区域和真实标注框的IoU阈值,若均小于最大阈值则继续遍历阈值循环进行上一步；

(4)筛选出位于裁剪区域内的所有的真实标注框，若有效框数目是0则循环该步骤，否则进入下一步；

(5)计算出有效的真实标注框相对裁剪得到的区域坐标；

(6)计算出有效分割区域相对裁剪区域的坐标。

本实施例引入了Sigmoid全局损失来作为分类损失函数。为了优化模型的训练过程，使用了warm up机制，在迭代10000步后学习率增大到0.001，之后再进行学习率递减策略。

本实施例的训练环境及参数配置如表1所示。

表1训练配置

本实施例以F1值为主要评估度量指标，对比分析不同的网络模型在建筑损伤评估任务中的性能：

其中，F1精确率和召回率的调和平均值。一般情况下，精确率和召回率是相互影响的，当召回率很高时精确率则会很低，为了保证两者都高则用F1值来衡量。

表2模型性能对比

本实施例训练得到的基于Mask RCNN的建筑损伤评估模型在F1值上达到了最优。该模型不仅实现了端到端的训练，为了更好的识别建筑物边界，该模型充分利用了数据集的标注信息，最终实现对建筑损伤情况的实例分割。

Claims

1. 一种基于Mask RCNN的建筑损伤评估方法，其特征在于，所述方法包括：

步骤一，应用ResNet50-vd辅以特征金字塔网络Feature Pyramid Networks的主干网络架构作为特征提取部分，实现灾后图像的强语义和强分辨率的特征提取；

其中，强语义的特征和强分辨率的特征称为共享特征；

步骤二，获得的共享特征中的强语义特征输入到区域推荐网络Region ProposalNetwork，强分辨率的特征输入到RoIAlign层，通过区域推荐网络Region ProposalNetwork得到建议框及建议框类别并生成多个特征矩阵，形成共享特征层；

步骤三，将每个特征矩阵输入到RoIAlign层，将所有特征矩阵缩放为的特征图，获得多个特征图；

步骤四，通过所述多个特征图同时处理，实现分类和边界框回归、通过全卷积神经网络Fully Convolutional Network生成Mask RCNN，并通过非极大值抑制算法去除冗余；

步骤五，得到每一个建筑在卫星图像中所在的位置，建筑损伤程度大小，及该预测结果的可靠性打分；

所述应用ResNet50-vd辅以特征金字塔网络Feature Pyramid Networks的主干网络架构作为特征提取部分，步骤包括：

其中，输入图像上RoI的宽为，输入图像上RoI的高为/>，大小为224×224的目标对应的特征层记为第/>层，下取整函数记为/>；

所述对于通过非极大值抑制算法NMS去除冗余的操作过程为：

通过NMS对边界框按其置信度得分对其进行排序，选取置信度得分最大的边界框作为预测结果，如果其它的预测结果与其交并比IoU阈值大于设置的阈值，则认为它们是同一个预测结果，将该预测结果对应的边界框视为冗余框，删除所有的冗余框后进行下一个预测结果的判断，遍历所有的候选框，完成去除冗余的操作。

2.根据权利要求1所述的一种基于Mask RCNN的建筑损伤评估方法，其特征在于，所述区域推荐网络Region Proposal Network的生成方法为：

其中，一个锚点框对应一个候选框；

结合候选框的类别得分对其进行筛选，类别得分和候选框的筛选主要基于非极大值抑制算法实现，得到一组带有得分的矩形建议框的输出。

3. 根据权利要求1所述的一种基于Mask RCNN的建筑损伤评估方法，其特征在于，所述结合候选框的类别得分对其进行筛选的筛选，得到一组带有得分的矩形建议框的过程，矩形建议框的参数为：

在每个滑动窗口处，均可以得到最大个数为的推荐框，称为锚点框anchor；

对每个边界框推荐层reg输出参数是，每个边界框分类层cls的输出参数是/>；

RPN中候选框的回归参数为：

其中，表示矩形框的中心点，/>表示矩形框的宽度，/>表示矩形框的高度；/>表示区域推荐网络Region Proposal Network预测框的指标，/>表示锚点框的指标，/>表示真实框的指标；/>表示/>轴方向区域推荐网络Region Proposal Network预测框的偏移量，/>表示/>轴方向区域推荐网络Region Proposal Network预测框的偏移量，/>表示/>轴方向真实框的偏移量，/>表示/>轴方向真实框的偏移量；/>表示矩形框的宽度尺度偏移量，/>表示矩形框的高度尺度偏移量，/>表示矩形框真实宽度尺度偏移量，/>表示矩形框真实高度尺度偏移量。

4. 根据权利要求1所述的一种基于Mask RCNN的建筑损伤评估方法，其特征在于，所述将一个特征矩阵输入到RoIAlign层将其缩放为的特征图的过程为：

RoIAlign层在生成特征图时使用双线性插值；

对4个采样点处的值取最大值输出为该小格子的输出值，最终得到固定尺寸为的特征图，其中，/>。

5. 根据权利要求1所述的一种基于Mask RCNN的建筑损伤评估方法，其特征在于，所述评估方法还包括评估模型训练过程，所述评估模型训练过程为：

将原数据集的标注格式转换成了COCO数据集标注格式，分别针对灾前图像和灾后图像生成了相应的标注文件；

通过对COCO数据集进行随机翻转和随机裁剪的预处理，以提高对小面积建筑的定位和分类精度；

通过对COCO数据集中的数据进行批正则化处理预防模型过拟合。

6. 根据权利要求5所述一种基于Mask RCNN的建筑损伤评估方法，所述评估方法还包括评估模型训练过程，其特征在于，所述COCO数据集的随机剪裁：

（1）设置一系列的交并比IoU阈值，并随机打乱其顺序，以判断裁剪得到的候选区域是否有效；

（2）遍历所有交并比IoU阈值，如果当前交并比IoU阈值是0不进行裁剪，那么返回原始的图像和相应的标注数据，否则随机选取预设的矩形框的短边的缩放比例，得到候选裁剪区域的宽，高和裁剪起点的坐标；

（3）对比得到的候选裁剪区域和真实标注框的交并比IoU阈值,若均小于最大阈值则继续遍历阈值循环进行上一步；

（4）筛选出位于裁剪区域内的所有的真实标注框，若有效框数目是0则循环该步骤，否则进入下一步；

（5）计算出有效的真实标注框相对裁剪得到的区域坐标；

（6）计算出有效分割区域相对裁剪区域的坐标。

7. 根据权利要求5所述一种基于Mask RCNN的建筑损伤评估方法，所述评估方法还包括评估模型训练过程，其特征在于，所述评估模型训练过程进行优化，所述评估模型训练过程进行优化过程为：使用warm up机制，在该机制迭代10000步后学习率增大到0.001，进行学习率递减策略。

8. 一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-7中任一项中所述的一种基于Mask RCNN的建筑损伤评估方法。