CN109934153A

CN109934153A - 基于门控深度残差优化网络的建筑物提取方法

Info

Publication number: CN109934153A
Application number: CN201910175523.2A
Authority: CN
Inventors: 黄健锋; 张新长; 辛秦川; 孙颖
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-06-25
Anticipated expiration: 2039-03-07
Also published as: CN109934153B

Abstract

本发明实施例公开了一种基于门控深度残差优化网络的建筑物提取方法，其包括：获得高分辨率航空影像和机载LiDAR点云数据的图像特征组合；通过随机裁剪、旋转、翻转、明暗度调整的方式增强图像样本的多样性；利用改进的深度残差卷积神经网络自动学习图像的多层次特征，得到粗略的建筑物提取结果；采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果。实施本发明实例，将特征信息门控传递机制与深度残差卷积神经网络相结合，用于高分辨率航空影像和机载LiDAR点云数据的建筑物提取。

Description

基于门控深度残差优化网络的建筑物提取方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于门控深度残差优化网络的建筑物提取方法。

背景技术

从遥感数据中自动获取建筑物信息对于地形图更新、城市三维建模、城市扩张分析、人口估算以及环境调研等方面具有重要作用。然而，如何准确且自动化地从遥感图像中获取建筑物信息一直是遥感学科和计算机视觉领域的一个较大难题，其主要原因包括：1)大多数场景下的建筑物，尤其在发达城市区域，都有不同的形状特征和屋顶面材料，其光谱反射率差异较大，且容易被周边高层楼宇的阴影以及高大树木遮挡；2)高分辨率遥感图像的类内差异大、类间差异小使得建筑物的光谱和几何特征变得复杂。

为了解决这一难题，不少研究者将高分辨率航空影像的光谱信息与机载LiDAR点云数据的三维高程信息进行融合，从而得到较高精度的建筑物提取结果。然而，这类方法存在如下局限性：首先，大多数研究方法使用图像较低层次的特征来区分建筑物和非建筑物像元，这往往需要结合一定的阈值设定或规则判定，导致这类方法不具备通用性；其次，许多算法在提取建筑物时都先对图像做预分割，其结果高度依赖于分割参数的设置，容易受成像时的环境因素影响，如太阳辐射、阴影甚至随机噪声。

最近的研究表明，深度卷积神经网络(CNNs)在处理遥感图像(如场景分类和物体检测)方面可以取得非常不错的效果。CNNs不仅可以自动学习图像的低级和中级特征，还可以自动学习原始图像中的高级语义特征。其变体结构——全卷积神经网路(FCNs)自从被提出后，更成为了当前图像语义分割的主流框架。FCNs通常是一种端到端的具有编码器-解码器结构的神经网络，可以在分割图像时同步地对每一个像元进行类别标记，避免了人工特征设计以及预分割的操作。尽管如此，基于FCNs的建筑物提取方法仍有以下问题需要妥善解决，包括：

(1)FCNs通过使用CNNs作为其编码器用于图像特征的提取，这样的输出虽然包含了高层次语义特征，但其过于粗略，容易丢失图像的边缘细节信息，例如在建筑物提取中，建筑物的边缘和直角等丰富的低级图像特征容易被忽略；

(2)尽管通过“跳跃”连接或者利用最大池化层的最大值位置将低层次特征传递给FCNs的解码器能够优化分割结果，但这种方式容易导致冗余特征的产生，降低了网络的学习效率。另外，所输出的特征通常包含类别不确定性或非边界相关信息，这些信息对于分类结果的优化造成影响。

发明内容

本发明的目的在于克服现有技术的不足，本发明将特征信息门控传递机制与深度残差卷积神经网络相结合，用于高分辨率航空影像和机载 LiDAR点云数据的建筑物提取。

为了解决上述问题，本发明提出了一种基于门控深度残差优化网络的建筑物提取方法，包括如下步骤：

获得高分辨率航空影像和机载LiDAR点云数据的图像特征组合；

通过随机裁剪、旋转、翻转、明暗度调整的方式增强图像样本的多样性；

利用改进的深度残差卷积神经网络自动学习图像的多层次特征，得到粗略的建筑物提取结果；

采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果。

所述高分辨率航空影像和机载LiDAR点云数据中的LiDAR点云数据为归一化数字表面模型，高分辨率航空影像包括红、绿、近红外三个波段。

所述获得高分辨率航空影像和机载LiDAR点云数据的图像特征组合包括：

消除机载LiDAR点云中的异常点；

将点云的地面点和非地面点分离；

通过自然邻域插值法提取数字高程模型和数字表面模型，得到两者之间的差值即为归一化数字表面模型；

将相同空间分辨率的归一化数字表面模型和高分辨率航空影像的红、绿、近红外波段进行叠置组合。

所述通过随机裁剪、旋转、翻转、明暗度调整的方式增强图像样本的多样性包括：

采用自动或半自动的地图矢量化方法对数据集覆盖范围内的建筑物进行矢量标记，将标记好的矢量图斑栅格化成二值标签图像，其中0表示非建筑物像元，1表示建筑物像元；

将标签图像以及原始特征组合图像分别裁剪成480×480尺寸大小的图像对，按照60％、20％、20％的比例划分成训练集、验证集和测试集，提供给卷积神经网络进行训练和验证；

训练过程中，对输入网络的图像对进行随机裁剪、旋转、翻转、明暗度调整的处理，使得每次输入神经网络的图像对都有不同的组合，增加了训练样本集的多样性，避免网络训练出现过拟合现象。

所述卷积神经网络具有编码器-解码器的结构，其中：

编码器由改进的深度残差卷积神经网络构成，用于自动学习输入图像的低-中-高层次特征，通过多次卷积运算或最大池化运算得到尺寸大小为原始图像1/32的粗略建筑物分类图像；

解码器主要由多个门控特征标记单元和具有双线性二次插值功能的上采样层组成，上采样层逐次对门控特征标记单元产生的粗略建筑物分类图像进行2倍上采样操作，最后得到跟原始图像相同大小的建筑物分类结果。

所述深度残差卷积神经网络基于ResNet-50卷积神经网络结构，其中：

ResNet-50卷积神经网路分别由输入层、一个卷积模块(卷积层+批处理层+ReLU激励层+最大池化层)、四个结构相似的残差模块以及分类模块 (均值池化层+全连接层+Softmax分类层)构成；

每个残差模块由一个投影卷积块和连续多个恒等卷积块组成，投影卷积块能够加倍特征图数量以及按1/2的比例缩小特征图，而恒等卷积块则不改变输入输出的尺寸和特征数量；

输入层在经过第一个卷积模块后，尺寸变为原来的1/2，而每次经过一个残差模块，图像的尺寸也逐次变为原来的1/2，最终得到大小为原图1/32 的特征图。

所述利用改进的深度残差卷积神经网络自动学习图像的多层次特征，得到粗略的建筑物提取结果，改进之处包括：

1)在深度残差卷积神经网络的第一个卷积模块之前嵌入一个新的卷积模块(卷积层+批处理层+ReLU激励层)，该嵌入模块能够接收多波段的图像输入，输出特征数量为64且大小跟原图一致；

2)原来的第一个卷积模块修改特征输入数为64；

3)去除分类模块，增加一个卷积层，其输出为两个波段，表示粗略的建筑物提取结果；

改进后的深度残差卷积神经网络能够接收多个波段(不限于三波段) 图像输入，具有原来ResNet-50的图像特征自学习能力，可通过非线性运算和多次下采样获得图像的低-中-高层次特征，并且输出尺寸大小为原图1/32 的粗略建筑物分类结果。

所述门控特征标记单元具有两种类型的特征输入，一种是层次较高、尺寸较小的特征输入，另一种是层次较低、尺寸较大的特征输入；

对于高层次的特征输入，门控特征标记单元先将其进行卷积运算，随后进行2倍上采样；

对于低层次的特征输入，则进行卷积运算和批归一化运算，不进行上采样操作；

将两种特征输入处理后的结果进行点积运算和批归一化运算，然后将其传递至解码器中；

对残差网络得到的粗略建筑物分类结果进行2倍上采样，然后与传递到解码器的特征合并，再经过一个卷积层和ReLU激励层，得到尺寸为原来2倍的建筑物分类结果。

所述采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果，包括：

门控特征标记单元在编码器中共使用五次，在特征筛选阶段，它将具有类别确信度更高的特征与边缘信息更丰富的特征进行合并，按照单元所在的特征层级筛选出不同数量的特征，依次为4、8、12、16、20个特征；

在解码器每次上采样过程中，门控特征标记单元将筛选后的结果与上采样后的粗略建筑物分类结果合并，得到尺寸为原来2倍的粗分类结果；

同时，门控特征标记单元还把筛选后的结果传递给下一个门控特征标记单元，作为下一个单元的高层次特征输入；

依此反复使用五次门控特征标记单元，获得跟原图尺寸相同的高质量建筑物提取结果。

在本发明实施例中，将特征信息门控传递机制与深度残差卷积神经网络相结合，用于高分辨率航空影像和机载LiDAR点云数据的建筑物提取。机载LiDAR点云数据和高分辨率航空影像首先获得与建筑物识别相关的图像特征组合，然后通过图像旋转、翻转、亮暗度调整等处理增加样本多样性，接着输入至改进后的深度残差网络编码器中，实现从多源输入图像中自动学习多层次的特征，采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果。与其他分类方法相比，本方案提出的方法有效提高了建筑物提取的整体精度，表明这一组合方法是高分辨率航空影像与LiDAR点云融合进行建筑物提取的有效解决方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于门控深度残差优化网络的建筑物提取方法流程图；

图2是本发明实施例中的基于门控深度残差优化网络的建筑物提取方法的示例图；

图3是本发明实施例中的门控深度残差优化网络的架构图；

图4是本发明实施例中的门控特征标记单元的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所涉及的由特征信息门控传递机制和深度残差卷积神经网络组成，首先获取多源遥感数据(包括高分辨率航空影像和机载LiDAR点云数据)的特征组合，利用图像增强的方法增加训练样本多样性，再通过改进的深度残差编码器得到图像的低-中-高层图像特征，最后通过门控特征标记单元进行有效特征的筛选与融合，并逐次上采样获得高质量的建筑物提取结果。机载激光雷达(LiDAR，Light Detection And Ranging)***通过发射和接收激光脉冲能直接快速得到地表密集的高精度3维点坐标被称为机载 LiDAR点云数据。

具体的图1示出了本发明实施例中的基于门控深度残差优化网络的建筑物提取方法流程图，具体包括如下步骤：

S101、获得高分辨率航空影像和机载LiDAR点云数据的图像特征组合；

本发明实施例中所采用高分辨率航空影像和机载LiDAR点云两种数据作为数据源，融合两种数据的图像特征作为建筑物提取的关键数据源。其中LiDAR点云数据为栅格化后的归一化数字表面模型(nDSM)，这里需要对LiDAR点云数据进行如下处理：

(1)消除机载LiDAR点云中的异常点；

(2)将点云的地面点和非地面点分离；

(3)通过自然邻域插值法提取数字高程模型(DEM)和数字表面模型 (DSM)；

(4)得到DEM和DSM两者之间的差值即为归一化数字表面模型。

这里要求归一化数字表面模型的空间分辨率与高分辨率航空影像的一致。最后，提取高分辨率航空影像的红(R)、绿(G)和近红外(NIR)波段并与归一化数字表面模型进行叠置组合，构成卷积神经网络的输入 (NIR-R-G-nDSM)。

S102、通过随机裁剪、旋转、翻转、明暗度调整的方式增强图像样本的多样性；

训练深度卷积神经网络需要大量且具有特征多样性的图片数据，为此需要对训练数据集进行标记及数据增强。

采用自动或半自动的地图矢量化方法对数据集覆盖范围内的建筑物进行矢量标记，将标记好的矢量图斑栅格化成二值标签图像，其中0表示非建筑物像元，1表示建筑物像元。

将标签图像以及原始特征组合图像分别裁剪成480×480尺寸大小的图像对(如图2)，按照60％、20％、20％的比例划分成训练集、验证集和测试集，提供给卷积神经网络进行训练和验证。

S103、利用改进的深度残差卷积神经网络自动学习图像的多层次特征，得到粗略的建筑物提取结果；

首先，简要介绍卷积神经网络的基本要点：

卷积神经网络(CNN)通常由若干个卷积模块、全连接层以及损失层构成。其中，一个卷积模块由卷积层、非线性激活层、池化层以及批归一化层构成。卷积层由若干个卷积单元(神经元)组成，每个单元的参数由网络反向传播算法优化计算得到，其功能是获得输入的不同特征，如边缘、直角、纹理等信息。给定特征图X^l-1作为卷积层l的输入，使用第k个滤波器对输入特征图进行式(1)处理，获得输出特征图：

其中是卷积运算后得到的特征图，*是卷积运算，是l层的第k个偏置向量，公式(1)在能够大大减少神经网络参数量的同时，获得每一个神经元所对应的特征结果。

批归一化(Batch Norm，BN)层的作用是避免神经网络出现梯度消失或梯度***。在BN层中，每个输入批次所进行的归一化过程转化如下：

其中，为尺度变换和偏移后的结果，γ^l是归一化尺度参数，β^l是偏移参数，通过式(2)的归一化处理，能够将所有输入集中在0附近，使每层输入不会产生太大变化

激活函数层是为了控制正向信号变换的神经元的激活水平。以BN层得到的结果作为输入，采用修正线性单元(ReLU)激活函数来执行输入特征的非线性映射；

池化层(Pooling Layer)主要用于抽象输入特征，通常使用最大池化或平均池化获取下采样特征图；

全连接层的每一个结点都与上一卷积模块的所有结点相连，用来把提取到的特征图压缩成指定维度的向量。由于其全相连的特性，一般全连接层的参数也是最多的。

接着，重点阐明改进后的深度残差网络模块(如图2和图3)的基本工作原理：

将增强后的训练样本输入至深度卷积神经网络中，其中，所述卷积神经网络为具有编码器-解码器结构的全卷积神经网络(FCN)，编码器 (Encoder)主要负责学习输入图像的低-中-高层次特征，由改进的深度残差网络ResNet-50构成。原始的ResNet-50分别由输入层、一个卷积模块(卷积层+批处理层+ReLU激励层+最大池化层)、四个结构相似的残差模块以及分类模块(均值池化层+全连接层+Softmax分类层)构成。具体地，每个残差模块由一个投影卷积块和连续多个恒等卷积块组成，投影卷积块能够加倍特征图数量以及按1/2的比例缩小特征图，而恒等卷积块则不改变输入输出的尺寸和特征数量。输入层在经过第一个卷积模块后，尺寸变为原来的 1/2，而每次经过一个残差模块，图像的尺寸也逐次变为原来的1/2，最终得到大小为原图1/32的特征图。

在原始的ResNet-50模型上，针对建筑物提取任务的特点和适应多波段图像的输入，作了如下改进：

(1)在深度残差卷积神经网络的第一个卷积模块之前嵌入一个新的卷积模块(卷积层+批处理层+ReLU激励层)，该嵌入模块能够接收多波段的图像输入，输出特征数量为64且大小跟原图一致；

(2)原来的第一个卷积模块修改特征输入数为64；

(3)去除分类模块，增加一个卷积层，其输出为两个波段，表示粗略的建筑物提取结果；

S104、采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果。

全卷积神经网络能够进行端到端的图像分割及逐像元标注，其中，编码器与解码器是同步训练与预测的，在得到输出尺寸为原图1/32的粗略建筑物分类结果基础上，通过设计有效的解码器结构获得高分辨的建筑物分类结果。

首先，将介绍门控特征标记单元(如图3)在编码器与解码器之间是如何工作的。

门控特征标记单元负责对编码器的特征作筛选并传递给解码器。在改进的ResNet-50中，嵌入了5个门控特征标记单元，分别位于第一个卷积模块和第二个卷积模块之间、第二个卷积模块和第一个残差模块之间以及每一个残差模块之间。

门控特征标记单元(如图4)具有两种类型的特征输入，分别是低层次的编码器特征和高层次的编码器特征具有较大的尺寸以及较小的感受野，而具有较小的尺寸以及较大的感受野。两种特征通过如下方式进行筛选与融合：

其中是上述两种类型特征筛选后得到的结果，c表示输出的波段数量，BN(·)、UP(·)、和⊙分别表示批归一化、上采样、卷积以及点积运算操作。表示3×3的卷积运算且波段输出为c。此后，将被传递给解码器中，并与粗略的建筑物分类结果进行融合，公式如下：

其中是融合后的特征，具有c+2个波段，ReLU(·)和CONCAT(a,b) 分别表示非线性函数运算以及合并操作，

为了得到尺寸更大的建筑物分类结果，需要对融合后的特征做上采样，具体如下：

即为上采样后得到的更高分辨率结果。

不同位置的门控标记单元所输出的特征数量不同，依次为4、8、12、 16、20个特征(如图3)。同时，门控特征标记单元还把筛选后的结果传递给下一个门控特征标记单元，作为下一个单元的高层次特征输入。依此反复使用五次门控特征标记单元，获得跟原图尺寸相同的高质量建筑物提取结果。

综上，本发明实施例中将特征信息门控传递机制与深度残差卷积神经网络相结合，用于高分辨率航空影像和机载LiDAR点云数据的建筑物提取。机载LiDAR点云数据和高分辨率航空影像首先获得与建筑物识别相关的图像特征组合，然后通过图像旋转、翻转、亮暗度调整等处理增加样本多样性，接着输入至改进后的深度残差网络编码器中，实现从多源输入图像中自动学习多层次的特征，采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果。与其他分类方法相比，本方案提出的方法有效提高了建筑物提取的整体精度，表明这一组合方法是高分辨率航空影像与LiDAR点云融合进行建筑物提取的有效解决方案。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于门控深度残差优化网络的建筑物提取方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于门控深度残差优化网络的建筑物提取方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述高分辨率航空影像和机载LiDAR点云数据中的LiDAR点云数据为归一化数字表面模型，所述高分辨率航空影像包括红、绿、近红外三个波段。

3.如权利要求2所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述获得高分辨率航空影像和机载LiDAR点云数据的图像特征组合包括：

消除机载LiDAR点云中的异常点；将点云的地面点和非地面点分离；通过自然邻域插值法提取数字高程模型和数字表面模型，得到两者之间的差值，所述两者之间的差值为归一化数字表面模型；

4.如权利要求3所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述通过随机裁剪、旋转、翻转、明暗度调整的方式增强图像样本的多样性包括：

训练过程中，对输入网络的图像对进行随机裁剪、旋转、翻转、明暗度调整的处理，使得每次输入神经网络的图像对都有不同的组合。

5.如权利要求4所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述卷积神经网络具有编码器-解码器的结构，其中：

解码器由多个门控特征标记单元和具有双线性二次插值功能的上采样层组成，上采样层逐次对门控特征标记单元产生的粗略建筑物分类图像进行2倍上采样操作，最后得到跟原始图像相同大小的建筑物分类结果。

6.如权利要求5所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述深度残差卷积神经网络基于ResNet-50卷积神经网络结构，其中：ResNet-50卷积神经网路分别由输入层、一个卷积模块、四个结构相似的残差模块以及分类模块构成；

每个残差模块由一个投影卷积块和连续多个恒等卷积块组成，投影卷积块能够加倍特征图数量以及按1/2的比例缩小特征图，所述恒等卷积块不改变输入输出的尺寸和特征数量；

输入层在经过第一个卷积模块后，尺寸变为原来的1/2，而每次经过一个残差模块，图像的尺寸也逐次变为原来的1/2，最终得到大小为原图1/32的特征图。

7.如权利要求6所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述利用改进的深度残差卷积神经网络自动学习图像的多层次特征，得到粗略的建筑物提取结果包括：

1)在深度残差卷积神经网络的第一个卷积模块之前嵌入一个新的卷积模块，所述嵌入一个新的卷积模块能够接收多波段的图像输入，输出特征数量为64且大小跟原图一致；2)原来的第一个卷积模块修改特征输入数为64；3)去除分类模块，增加一个卷积层，其输出为两个波段，表示粗略的建筑物提取结果。

8.如权利要求7所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述门控特征标记单元具有两种类型的特征输入，一种是层次较高、尺寸较小的特征输入，另一种是层次较低、尺寸较大的特征输入；对于高层次的特征输入，门控特征标记单元先将其进行卷积运算，随后进行2倍上采样；对于低层次的特征输入，则进行卷积运算和批归一化运算，不进行上采样操作；

将两种特征输入处理后的结果进行点积运算和批归一化运算，然后将其传递至解码器中；对残差网络得到的粗略建筑物分类结果进行2倍上采样，然后与传递到解码器的特征合并，再经过一个卷积层和ReLU激励层，得到尺寸为原来2倍的建筑物分类结果。

9.如权利要求1至8任一项所述的基于门控深度残差优化网络的建筑物提取方法，其特征在于，所述采用门控特征标记单元进行有效特征的筛选与融合，通过逐次上采样获得高质量的建筑物提取结果，包括：

门控特征标记单元在编码器中共使用五次，在特征筛选阶段，将具有类别确信度更高的特征与边缘信息更丰富的特征进行合并，按照单元所在的特征层级筛选出不同数量的特征，依次为4、8、12、16、20个特征；

在解码器每次上采样过程中，门控特征标记单元将筛选后的结果与上采样后的粗略建筑物分类结果合并，得到尺寸为原来2倍的粗分类结果；同时，门控特征标记单元还把筛选后的结果传递给下一个门控特征标记单元，作为下一个单元的高层次特征输入；依此反复使用五次门控特征标记单元，获得跟原图尺寸相同的高质量建筑物提取结果。