CN113469199A

CN113469199A - 一种基于深度学习的快速高效图像边缘检测方法

Info

Publication number: CN113469199A
Application number: CN202110803027.4A
Authority: CN
Inventors: 刘文哲; 苏卓; 刘丽; 白亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-01

Abstract

本发明公开了一种基于深度学***衡。

Description

一种基于深度学习的快速高效图像边缘检测方法

技术领域

本发明涉及图像分割技术领域，具体涉及一种基于深度学习的快速高效图像边缘检测方法。

背景技术

边缘检测一直是计算机视觉中一个长期存在的根本性、低级别基础问题。边缘和对象边界在各种高级计算机视觉任务中发挥重要作用，例如对象识别和检测、对象建议生成、图像编辑和图像分割。近年来，由于深度学习的高速发展，边缘检测问题也得到了重新研究，并注入了新的活力。

图像边缘检测的主要目的是识别图像中急剧的亮度变化，例如强度、颜色或纹理上的不连续性。传统方法中，基于图像梯度或导数信息的边缘检测器是流行的选择。早期的经典方法使用一阶或二阶导数(包括Sobel、Prewitt、高斯拉普拉斯算子(LoG)、Canny等)进行基本边缘检测，后续基于学习的数据驱动方法进一步利用各种梯度信息来产生更准确的边界。

由于能够自动学习具有抽象层次结构的丰富数据表示形式，深层的CNN为包括边缘检测在内的各种计算机视觉任务带来了巨大的进步，并且仍在迅速发展。早期基于深度学习的边缘检测模型将CNN架构构造为分类器，以预测输入图像块的边缘概率图。譬如，HED建立在完全卷积网络的基础上，通过利用具有深度监督的丰富分层信息的多级图像特征来执行端到端边缘检测，并实现state-of-the-art的性能。

表1在效率和准确性方面本发明与几种边缘检测模型的比较

	HED	RCF	BDCN	PiDiNet	PiDiNet(tiny)
						Params	14.7M	14.8M	16.3M	710K	73K
MACs	22.2G	16.2G	23.2G	3.43G	270M
						Throughput	78FPS	67FPS	47FPS	92FPS	215FPS
Pre-training	ImageNet	ImageNet	ImageNet	No	No
						ODSF-measure	0.788	0.806	0.820	0.807	0.787

表1中，MACs(multiply-accumulates)是基于200×200尺寸的图像计算的，FPS和ODS F-measure是在BSDS500测试集上评估得到的。

另一方面，HED之类的目前领先方法存在如表1中所示的缺陷：内存消耗大，模型大小大，能源消耗大，计算成本高，运行效率低下，低吞吐量和标签利用率低，即在大型数据集上进行模型预训练的效率低下等问题。当然这也是基于以下事实：可用于训练边缘检测模型的带注释数据有限。因此，这类领先的方法首先会充分训练好大体量的主干网络，该主干网络可以产生丰富的粗略和精细的图像表示，然后在边缘标注数据集上进行微调。具体广泛采用的解决方案是使用在大型ImageNet数据集上训练的大型VGG16结构作为主干网络。因此开发一种轻量级的网络结构具有很大的重要性，以便在边缘检测任务中的精度和效率之间取得更好的平衡。

发明内容

本发明要解决的技术问题是针对现有技术的不足而提供一种基于深度学习的快速高效图像边缘检测方法。

为解决上述技术问题，本发明的内容包括：

一种基于深度学习的快速高效图像边缘检测方法，包括如下步骤：

S1.建立充分融合各尺度特征的整体融合网络模型；

S2.利用所述整体融合网络模型对待检测图像进行边缘检测，得到边缘检测结果。

进一步的，所述整体融合网络模型由高效的主干网络和高效的特定于任务的旁支结构组成。

进一步的，所述主干网络采用带有捷径直连的可分离深度卷积结构。

进一步的，所述主干网络有4个阶段：各阶段相互之间由步长为2的最大池化层连接，用于下采样；第1阶段由一个初始卷积层和3个残差块组成，其它3个阶段均由4个残差块组成；在残差块中，残余路径依次包括深度卷积层、ReLU层和点状卷积层。

进一步的，每个阶段的通道数量：前三个阶段中下一个阶段的通道数量是上一个阶段的通道数量的两倍，第4阶段的通道数量与第3阶段的通道数量相等。

进一步的，使用旁支结构分别在每个阶段中生成一个边缘概率图，然后根据真值标注的ground truth图计算损失值以提供深度的监督。

进一步的，从每个阶段的结尾开始，首先构建一个紧凑的基于扩展卷积的模块CDCM用以丰富多尺度边缘信息，该模块具有n×C通道数的输入，输出为M通道的输出，其中，C为第1阶段的通道数，M＜C；再连接紧凑空间注意模块CSAM用以消除背景噪声；之后，采用1×1卷积层将特征量进一步减小为单通道特征图，然后将其插值到原始输入图像的大小，然后再经过Sigmoid函数以创建边缘概率图。

进一步的，将4个旁支部分得到的单通道特征图通过拼接方式融合，再依次串联卷积层和Sigmoid函数，得到用于测试的最终边缘概率图。

进一步的，对于每个生成的边缘概率图，采用RCF方法中提出的损失函数。

进一步的，对于第j个边缘概率图中的第i个像素

损失函数的具体计算公式为：

其中yi表示ground truth中边缘的概率，η是预先定义的阈值，β是负像素样本的百分比，且α＝λ·(1-β)；

第j个边缘概率图整体的损失值为

本发明的有益效果是：

本发明提出了一种简单、轻巧而有效的边缘检测架构，因其充分融合各尺度特征时性能达到最佳，故称之为整体融合网络。本发明还提供了在BSDS500、NYUD和Multicue三大公开数据集上的大量实验，以证明本发明方法的有效性，以及较高的训练和推理效率。当仅使用BSDS500和PASCAL VOC Context数据集从头开始训练时，PiDiNet可以超过在BSDS500数据集上的人类感知记录结果(ODS F-measure中为0.807vs.0.803)，并且具有100FPS的速度和小于1M参数量。参数量小于0.1M的更快版本的PiDiNet仍可以在200FPS的运行速度下达到最先进的性能。NYUD和Multicue数据集上的结果显示了相似的实验结果。

附图说明

图1是本发明整体融合网络模型的网络结构图；

图2是本发明网络结构的主干网络中Block_x_y的局部网络结构示意图；

图3是本发明网络结构中紧凑空间注意模块CSAM的结构示意图；

图4是本发明网络结构中紧凑的基于扩展卷积的模块CDCM的结构示意图；

图5是本发明整体融合网络模型的可扩展性示意图，指标为最佳数据集量表(ODS)下的F值度量；通过缩小或扩展基本的PiDiNet结构的通道数可以更改结构的大小。最底行显示每个模型的参数数量。不同模型均在训练中融合或不融合PASCAL VOC数据集的情况下分别对模型进行训练，并得到评估结果；

图6是本发明整体融合网络模型的可扩展性示意图，指标为最佳图像量表(OIS)下的F值度量；

图7是就运行效率方面在BSDS500数据集上本发明与其他方法的比较结果图；从原始论文中引用了FINED的运行速度，其余的由本发明在NVIDIA RTX 2080Ti上进行实现和评估；

图8就网络复杂性和检测性能方面在BSDS500数据集上本发明与其他方法的比较结果图；

图9是在BSDS500数据集上本发明的模型和一些竞争对手的精确召回曲线图；

图10是本发明整体融合网络模型的输出与其他方法的定性比较图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

由于深度卷积神经网络(DCNNs)能从训练图像中自动学***的性能。但是，目前的方法大多使用大型经过大型数据集预训练的CNN主干网络以实现出色的特征提取性能，来保证基于CNN的边缘检测方法的高性能，当然与此同时也带来了内存和能源消耗。为了解决这个问题，受ResNet和MobileNet的工作启发，本发明提出了一种简单、轻巧而有效的端到端边缘检测架构，因其充分融合各尺度特征时性能达到最佳，故称之为整体融合网络(PiDiNet)。

具体而言，整体融合网络(PiDiNet)由高效的主干网络和高效的特定于任务的旁支结构组成(参见图1-图4)，能够高效、可靠地进行边缘检测。

本发明提出的基于深度学习的快速高效图像边缘检测方法，包括如下步骤：

S1.建立充分融合各尺度特征的整体融合网络模型；

本发明构建了具有小模型的、运行效率高的、并且可以使用有限的数据集从头开始进行训练的体系结构，如图1-图4所示，以进行有效的边缘检测，能够一次解决表1中所展示的问题。

高效的主干网络：建立主干结构的主要目标是在保持高运行效率的同时，尽可能减少参数的数量。因此，本发明不会考虑为许多其他任务设计的复杂多分支结构，例如CSNet、Espnetv2、Bisenet。因为它们可能并不能以并行方式实现，从而导致边缘检测的效率不令人满意。

受ResNet和MobileNet的启发，本发明使用可分离深度卷积结构(depth-wiseconvolutional structure)，并带有捷径直连(shortcut)以进行快速推理和轻松训练。整个主干网络有4个阶段：各阶段相互之间由步长为2的最大池化层(max pooling)连接，用于下采样；第1阶段由一个初始卷积层和3个残差块(residual blocks)组成，其它3个阶段均由4个残差块组成；在残差块中，残余路径依次包括深度卷积层(depth-wise convolutionlayer)、ReLU层和点状卷积层(point-wise convolution layer)。为了避免网络结构变得臃肿，本发明将各阶段的通道数量(channel number)控制在合理的范围内，前三个阶段中下一个阶段的通道数量是上一个阶段的通道数量的两倍，第4阶段的通道数量与第3阶段的通道数量相等。即对于阶段1、2、3、4，通道数分别为C、2×C、4×C、4×C。

高效的旁支结构：受HED的启发，鉴于要学习丰富的层次化边缘表示，本发明使用旁支结构分别在每个阶段中生成一个边缘概率图，然后根据真值标注的ground truth图计算损失值以提供深度的监督。为了细化并提炼边缘特征图，从每个阶段的结尾开始，本发明首先构建一个紧凑的基于扩展卷积的模块(Compact Dilation Convolution basedModule，CDCM)来丰富多尺度边缘信息，该模块具有n×C通道数的输入，输出为M通道的输出，其中，C为第1阶段的通道数，M＜C；再连接紧凑空间注意模块(CompactSpatialAttention Module，CSAM)用以消除背景噪声；之后，采用1×1卷积层将特征量进一步减小为单通道特征图，然后将其插值到原始输入图像的大小，然后再经过Sigmoid函数以创建边缘概率图。用于测试的最终边缘概率图是将4个旁支部分得到的单通道特征图通过拼接(concatenation)方式融合，再依次串联卷积层和Sigmoid函数。

为简化起见，本发明不使用任何归一化层(normalization layer)，因为训练图像的分辨率并不相同。它高效，如图7和图8所示。

损失函数：对于每个生成的边缘概率图(包括最终边缘概率图)，本发明采用在RCF方法中提出的损失函数，其具有对多人标注信息的鲁棒性。对于第j个边缘概率图中的第i个像素

损失函数的具体计算公式为：

其中yi表示ground truth中边缘的概率，η是预先定义的阈值，意思是如果某处像素的边缘概率被少于η的标注者标记为正值，则在计算损失时，该像素将被丢弃并且不被视为样本，以避免混淆。β是负像素样本的百分比，且α＝λ·(1-β)。综上，第j个边缘概率图整体的损失值为

实验评估及分析：

实验数据集：在BSDS500、NYUD和Multicue这三个广泛使用的数据集上对本发明提出的整体融合网络(PiDiNet)进行了评估。在这三个数据集上进行数据扩充的方法和实验设置的配置参照之前HED、RCF和BDCN：BSDS500的训练集、验证集和测试集中分别由200、100和200张图像组成。每个图像都有4到9个独立的标注。本发明通过翻转(2×)，缩放(3×)和旋转(16×)来扩充数据，从而导致实验训练集比未扩展的原数据集大96×。在BSDS500数据集上评估时，训练中也融入了PASCAL VOC Context数据集，它具有1万张标记的图像，并通过翻转增加到2万张。NYUD具有1449对对齐的RGB图像和深度图像，且均已被密集标记好，分别有381、414和654张图像用于训练、验证和测试。本发明将训练和验证集结合起来，并通过缩放(3×)，翻转(2×)和旋转(4×)进行扩充，以生成最终的训练数据。Multicue由100个具有挑战性的自然场景组成，每个场景都包含由双目立体相机捕获的左右两个视图的颜色序列，且左视图序列的最后一帧标记有边缘和边界。本发明将它们随机分为80张和20张图像，分别进行训练和评估。该过程将独立重复总共三次，然后记录三次运行中的指标，取平均值作为评估结果。本发明还通过翻转(2×)，缩放(3×)和旋转(16×)来增强每个图像，并将它们随机裁剪为500×500图像进行训练。

性能指标：在评估阶段中，所有的数据集都记录了在最佳数据集量表(OptimalDataset Scale，ODS)和最佳图像量表(Optimal Image Scale)上的F值度量。由于效率是本模型的主要重点之一，因此，如果没有专门标注的情况下，则将基于单张图像的评估结果对所有模型进行比较(single scale images)，而非使用多张不同比例的图像(multi-scaleimages)得到的边缘概率图取平均值的方法。

实施细节：本发明的代码实现基于Pytorch库。PiDiNet被随机初始化，并使用Adam优化算法进行14个epoch的训练，初始学习率设置为0.005，该学习过程以阶梯方式(multi-step)衰减(即在epoch 8和epoch 12以0.1的衰减率衰减)。如果将PASCALVOC Context数据集用于评估BSDS500的训练中，本发明将训练20个epoch，并在第10和16个epoch衰减学习率。在计算损失时，本发明将BSDS500和Multicue的λ设置为1.1；对于NYUD，将λ设置为1.3。对于BSDS500和Multicue，阈值η均设置为0.3。因为NYUD数据集中的每张图像仅有一份注释，故无需为NYUD设置η值。

消融实验：为了找到可能的最佳架构配置，本发明在BSDS500数据集上进行了消融研究，在该数据集中，本发明使用了训练集中的200张图像，部分实验中训练集混合有PASCAL VOC数据集，得到的数据进行训练，并在BSDS500验证集上进行验证评估，结果见表2。

表2CDCM、CSAM和shortcut的消融实验

CSAM	CDCM	Shortcuts	ODS/OIS
				×	×	√	0.770/0.790
×	√	√	0.775/0.793
				√	√	×	0.734/0.755
√	√	√	0.776/0.795

CSAM，CDCM and Shortcuts：CSAM，CDCM和捷径直连(Shortcuts)的有效性在表2中得到了证明。Shortcuts的添加既简单又重要，因为它们可以帮助保留先前图层捕获的梯度信息。另一方面，CSAM中的注意力机制和CDCM中的扩张卷积(dilation convolution)可以带来额外的性能提升，同时还可能带来一些计算成本的增加。因此，这两个模块可用于在精度和效率之间进行权衡。在以下实验中，本发明将不带CSAM和CDCM的PiDiNet称为PiDiNet-L(表示更轻巧light的版本)。

网络可扩展性(Network Scalability)：PiDiNet高度紧凑，仅710K参数，并支持通过有限的训练数据从头开始训练。本部分，本发明探索具有不同模型复杂性的PiDiNet，即其可伸缩性，如图5和图6中所示。为了与其他方法进行比较，模型采用两种方案进行训练，均使用BSDS500训练和验证集，不过在训练过程中可选择融合或不融合PASCALVOC数据集，并取在BSDS500测试集上的性能指标数据并记录。不出所料，与基本的PiDiNet相比，较小的模型具有较低的边缘提取能力，因此在ODS和OIS评分方面指标值均退化。同时可以从图中看出，使用更多数据进行训练会不断提高准确性。请注意，即使仅使用BSDS500数据集从头开始训练，正常尺寸(normal scale)的PiDiNet可以达到HED方法的同一水平(对于PiDiNet与HED，ODS分别为0.789与0.788，OIS为0.803与0.808)。但是，在训练数据有限的情况下，扩宽PiDiNet的结构可能会导致过度拟合问题，如曲线后半部分出现的下降。在以下实验中，本发明仅使用PiDiNet的微型(tiny)，小型(small)和普通(normal)版本，分别称为PiDiNet-Tiny，PiDiNet-Small和PiDiNet。

与最新技术(state-of-the-arts)的比较

BSDS500数据集：将本发明的方法与包括传统方法和最近提出的基于CNN的现有边缘检测方法进行了比较，如表3和图9所总结。表3中，

表示本发明基于NVIDIA RTX 2080TiGPU的实现的速度，

表示引用的GPU速度。

表3与BSDS500数据集上的其他方法进行比较

首先，注意到本发明的模型甚至可以达到极具竞争力的结果：ODS为0.807，OIS为0.823，已经超过了大多数基于CNN的模型，例如CED、DeepBoundary和HED。最快的版本PiDiNet-Tiny-L还可以在200FPS以上的速度下达到具有竞争力的预测性能，进一步证明了本发明方法的有效性。请注意，本发明使用RCF、LPCB、BDCN等方法中相同数量的训练数据从头开始训练的模式。本发明还在图10中显示了一些定性结果，图10是本发明PiDiNet网络输出与其他方法(包括RCF、CED和BDCN)的定性比较。在网络复杂性、运行效率和准确性方面更详细的比较请参见图7和图8。

NYUD数据集：表4上说明了NYUD数据集上的各个方法的比较结果，其中，

表示数据是本发明基于NVIDIA RTX 2080Ti上的实现速度而得到的。具体实现方面来说，参照先前的工作，本发明通过对RGB图像和HHA图像的输出边缘图进行平均以获得最终的边缘概率图，从而得到RGB-HHA结果。定量比较的结果表明，PiDiNets仍然可以在保持高效的情况下，在与最先进的技术的比较中获得有竞争力的结果。

表4在NYUD数据集上与其他方法进行比较

Multicue数据集：本发明还记录在Multicue数据集上的评估结果，并将与其他方法的比较结果显示在表5中，其中，

表示数据是本发明基于NVIDIA RTX 2080Ti上的实现速度得到的。同样地，PiDiNets仍可以高效地取得令人满意的结果。

表5在Multicue数据集上与其他方法进行比较

总之，本发明提出了一种高效架构PiDiNet，该架构占用内存低，且前向推理速度快。此外，仅使用有限的数据样本就可以从头开始训练PiDiNet，同时达到人类水平的性能，这打破了以往基于高性能CNN的边缘检测器通常需要在大规模数据集上预训练好的主干网络的惯例。其次，通过对BSDS500、NYUD和Multicue数据集进行了广泛的边缘检测实验，相信基于准确性和效率的考虑，PiDiNet会创建最新基准(new benchmarks of state-of-the-arts)。

Claims

1.一种基于深度学习的快速高效图像边缘检测方法，其特征在于，所述方法包括如下步骤：

S1.建立充分融合各尺度特征的整体融合网络模型；

2.根据权利要求1所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，所述整体融合网络模型由主干网络和特定于任务的旁支结构组成。

3.根据权利要求2所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，所述主干网络采用带有捷径直连的可分离深度卷积结构。

4.根据权利要求3所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，所述主干网络有4个阶段：各阶段相互之间由步长为2的最大池化层连接，用于下采样；第1阶段由一个初始卷积层和3个残差块组成，其它3个阶段均由4个残差块组成；在残差块中，残余路径依次包括深度卷积层、ReLU层和点状卷积层。

5.根据权利要求4所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，每个阶段的通道数量：前三个阶段中下一个阶段的通道数量是上一个阶段的通道数量的两倍，第4阶段的通道数量与第3阶段的通道数量相等。

6.根据权利要求4所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，使用旁支结构分别在每个阶段中生成一个边缘概率图，然后根据真值标注的ground truth图计算损失值以提供深度的监督。

7.根据权利要求4所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，从每个阶段的结尾开始，首先构建一个紧凑的基于扩展卷积的模块CDCM用以丰富多尺度边缘信息，该模块具有n×C通道数的输入，输出为M通道的输出，其中，C为第1阶段的通道数，M<C；再连接紧凑空间注意模块CSAM用以消除背景噪声；之后，采用1×1卷积层将特征量进一步减小为单通道特征图，然后将其插值到原始输入图像的大小，然后再经过Sigmoid函数以创建边缘概率图。

8.根据权利要求7所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，将4个旁支部分得到的单通道特征图通过拼接方式融合，再依次串联卷积层和Sigmoid函数，得到用于测试的最终边缘概率图。

9.根据权利要求7或8所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，对于每个生成的边缘概率图，采用RCF方法中提出的损失函数。

10.根据权利要求9所述的基于深度学习的快速高效图像边缘检测方法，其特征在于，对于第j个边缘概率图中的第i个像素

损失函数的具体计算公式为：

其中y_i表示ground truth中边缘的概率，η是预先定义的阈值，β是负像素样本的百分比，且α＝λ·(1-β)；

第j个边缘概率图整体的损失值为