CN109977997B

CN109977997B - 基于卷积神经网络快速鲁棒的图像目标检测与分割方法

Info

Publication number: CN109977997B
Application number: CN201910113339.5A
Authority: CN
Inventors: 王坤峰; 王飞跃; 张慧; 田永林
Original assignee: Qingdao Academy Of Intelligent Industries; Institute of Automation of Chinese Academy of Science
Current assignee: Qingdao Academy Of Intelligent Industries; Institute of Automation of Chinese Academy of Science
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2021-02-02
Anticipated expiration: 2039-02-13
Also published as: CN109977997A

Abstract

本发明属于计算机视觉领域，具体涉及了一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法，旨在解决图像目标检测与分割精度低、效率差的问题。本发明方法包括：采用深层卷积神经网络将获取的待处理图像生成多尺度特征图组；进行迭代反馈融合，获得融合特征图组；基于融合特征图组中各特征之间的互补关系，获取多个包围框以及包围框在待处理图像上的位置；根据前景概率、条件类别概率计算包围框属于各个类别的后验概率并调整包围框；依据包围框在待处理图像上的位置，进行待处理图像的目标检测与分割。本发明方法具有较强的特征表达能力，可以克服复杂环境下目标存在的巨大差异性，具有较高的处理速度，并准确得到检测与分割结果。

Description

基于卷积神经网络快速鲁棒的图像目标检测与分割方法

技术领域

本发明属于计算机视觉领域，具体涉及了一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法。

背景技术

目标检测与分割是计算机视觉中一个非常重要的研究问题。随着电子成像技术的持续发展，各式各样的摄像机在社会管理、工业生产和人民生活中被广泛使用，每时每刻都在产生海量的图像数据。通过图像分析处理，获取感兴趣的高层信息，实现对物理世界的智能感知与理解，具有巨大的应用价值。目标对象的信息通常属于图像处理中的感兴趣信息。在许多情况下，我们希望及时准确地检测、分割图像中存在的感兴趣目标，然后把获得的信息应用到智能监控、环境感知等一系列现实任务中。因此，目标检测与分割研究受到了学术界和产业界的高度重视。

目标检测需要对目标进行适当的表示，从形状的角度可以将目标表示为边框、斑块、显著点、部件集合等形状。边框是一种简单粗略的形状表示，由于边框内既含有目标像素，又含有背景或其他目标的像素，容易干扰特征提取，影响目标检测的性能。与边框相比，用斑块来表示目标形状，能够在图像中精确地分割每个目标的像素，使目标与背景及其他目标的像素严格区分开，从而避免干扰特征提取，有利于实现更精确的目标视觉检测任务。

目前基于深度神经网络的目标检测方法主要分为两类：基于区域建议的两阶段方法和基于无区域建议的单阶段方法。基于区域建议的目标检测方法利用图像中的纹理、边缘、颜色等信息预先找出图中目标可能出现的位置，可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率，但是候选区域生成阶段仍然会导致不能实时进行目标检测；基于无区域建议的目标检测研究，主要采用回归的思想，直接基于整幅图像来预测包围边框的位置及所属类型，大大提高了效率,能够达到实时的效果。

现有技术存在以下问题：基于区域建议的两阶段方法精度高但是实时性差，基于无区域建议的方法拥有更快的速度，但是精度稍低；现有的仅用最后一层特征图来产生候选包围框的特征表示方法很难覆盖环境的复杂性和目标存在的巨大差异性；在单帧图像中，目标检测算法的精度和计算效率还有待提高。

发明内容

为了解决现有技术中的上述问题，即图像目标检测与分割精度低、效率差的问题，本发明的第一方面，提供了一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法，包括：

步骤S10，采用深层卷积神经网络获取待处理图像的多尺度特征图组；所述多尺度特征图组包括高层多尺度特征图组、低层多尺度特征图组；

步骤S20，对所述多尺度特征图组进行迭代反馈融合，获得融合特征图组；

步骤S30，基于所述融合特征图组中各特征之间的互补关系，获取多个包围框以及包围框在待处理图像上的位置；

步骤S40，依据所述包围框在待处理图像上的位置，进行待处理图像的目标检测与分割。

在一些优选的实施例中，步骤S20中“对所述多尺度特征图组进行迭代反馈融合，获得融合特征图组”，其方法为：

对所述高层多尺度特征图顺次进行卷积、标准化、激活操作，与相应的低层多尺度特征图在特征通道维度上进行融合，获得多尺度融合特征图。

在一些优选的实施例中，步骤S30中“基于所述融合特征图组中各特征之间的互补关系，获取多个包围框以及包围框在待处理图像上的位置”，其步骤为：

步骤S31，计算所述多尺度融合特征图组中包围框的尺寸大小：

s_j＝2^j×s_min,j∈[0,3]

其中，S_j为第j个包围框，s_min为预设包围框的最小尺度；

步骤S32，计算包围框的宽度

和高度

其中，r_m为长宽比参考盒；

步骤S33，计算所述包围框的中心点坐标以及包围框的宽度和高度：

其中，

分别为预测包围框相对于参考包围框的坐标参数；

分别为真实包围框相对于参考包围框的坐标参数；x、y、w、h分别为预测包围框中心的坐标和它的宽度、高度；x_a、y_a、w_a、h_a分别为参考包围框中心的坐标和它的宽度、高度；x^*、y^*、w^*、h^*分别为真实包围框中心的坐标和它的宽度、高度。

在一些优选的实施例中，步骤S40“依据所述包围框在待处理图像上的位置，进行待处理图像的目标检测与分割”之前还设置有包围框位置调整的步骤，其步骤为：

步骤B10，计算包围框的前景分类损失和条件分类损失；

步骤B20，依据所述前景分类损失和条件分类损失的计算结果，计算所述包围框的位置损失；

步骤B30，根据计算得到的前景分类损失、条件分类损失、包围框的位置损失，计算包围框属于各个类别的后验概率，得到包围框的位置调整量；

步骤B40，依据所述包围框的位置调整量调整包围框的位置。

在一些优选的实施例中，所述前景分类损失和条件分类损失，其计算方式为：

前景分类损失

其中，p_i(object)是包围框i是否含有目标的预测置信度；

是包围框i对应的真实框的标签，正样本

为1，负样本

为0；

条件类别分类损失

其中，

为包含目标的条件类别概率分布；N为物体类别数；

是包围框i对应的真实框的标签，正样本

为1，负样本

为0；i为包围框的序号。

在一些优选的实施例中，所述包围框的位置损失，其计算方式为：

包围框位置损失l_loc(g_j,g'_j)：

其中，g_j为预测的包围框坐标，g'_j为真实的包围框坐标。

在一些优选的实施例中，步骤B30中“包围框属于各个类别的后验概率”，其计算方式为：

其中，L为图像目标检测与分割的总损失，l_mask为目标分割损失，

为一个特征层上对应的检测损失，N_bb为参与梯度更新的包围框的总个数，N_loc为参与梯度更新的包围框中正样本的个数。

本发明的另一方面，提出了一种基于卷积神经网络快速鲁棒的图像目标检测与分割***，包括输入模块、特征提取模块、反馈融合模块、目标检测模块、位置调整模块、目标分割模块、输出模块；

所述输入模块，配置为获取待处理的图像并输入；

所述特征提取模块，配置为采用深层卷积神经网络获取待处理图像的多尺度特征图组；

所述反馈融合模块，配置为对所述多尺度特征图组进行迭代反馈融合，获得融合特征图组；

所述目标检测模块，配置为基于所述融合特征图组中各特征之间的互补关系，获取多个包围框以及包围框在待处理图像上的位置；

所述位置调整模块，配置为计算包围框属于各个类别的后验概率并调整包围框的位置；

所述目标检测分割模块，配置为依据所述包围框在待处理图像上的位置，进行待处理图像的目标检测与分割；

所述输出模块，配置为将获取的目标检测与分割结果输出。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。

本发明的有益效果：

(1)本发明方法具有较强的特征表达能力，可以克服复杂环境下目标存在的巨大差异性，具有较高的处理速度，并准确得到检测与分割结果。

(2)本发明方法将输入图像通过卷积神经网络得到不同尺度的特征表示，对多尺度特征进行迭代反馈并融合，能够获取更鲁棒的特征表示。

(3)本发明方法利用一系列卷积层、池化层和反卷积层来构建目标分割模块，同时微调包围框的位置，可以获得更精细的目标检测与分割结果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法的流程示意图；

图2是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的输入图像的不同特征示例图；

图3是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的输入图像语义信息更加丰富的特征示例图；

图4是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的迭代反馈融合模块示意图；

图5是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的多个特征层上预测检测框的坐标、前景概率和条件类别概率分数示例图；

图6是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的分割模块特征可视化示例图；

图7是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的目标检测与分割结果示例图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法，包括：

为了更清晰地对本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于卷积神经网络快速鲁棒的图像目标检测与分割方法，包括步骤S10-步骤S40，各步骤详细描述如下：

步骤S10，采用深层卷积神经网络获取待处理图像的多尺度特征图组；所述多尺度特征图组包括高层多尺度特征图组、低层多尺度特征图组。

本发明优选的实施例可以选取深层卷积神经网络中的ResNet网络或者VGGNet网络获取待处理图像的特征表示图，不同特征图的分辨率相对于输入图像的缩小倍数分别是4，8，16，32，64，如图2所示为本发明实施例的输入图像的不同特征图。

步骤S20，对所述多尺度特征图组进行迭代反馈融合，获得融合特征图组。

浅层的特征具有更高的空间分辨率，包含更多细粒度信息，但是相比于深层特征，然而这些层缺少丰富的语义信息，因此这些特征层在对具有巨大差异的目标进行特征提取比较受限，尤其是对于检测***中的小目标和遮挡目标，随着卷积层的不断加深，这些困难目标在高层特征图上丢失了大量信息，但是在低层的特征图上又缺乏丰富的语义信息，大大影响了检测***的性能。

本发明对高层多尺度特征图顺次进行卷积、标准化、激活操作，与相应的低层多尺度特征图在特征通道维度上进行融合，获得多尺度融合特征图，多尺度融合特征图的语义信息更加丰富。如图3所示，为本发明一种实施例的输入图像语义信息更加丰富的特征示例图。实施例中可以采取不同的方法来实现上述操作，例如：

方法一，将特征层L_i经过卷积操作得到输出特征层M_i：

计算输出特征层M_i，将维度为(H_i×W_i×l_i)的特征图F_i ^L转化为维度为(H_i×W_i×f_i)的特征图F_i ^M，如式(1)所示：

M_i＝L_iΘC′_i 式(1)

其中，Θ表示多维度卷积滤波器操作。

方法二，将高层特征经过上采样操作后产生一个反馈上下文的特征F_i ^D，使得该反馈上下文特征与上一层的低层特征图进行匹配，得到输出特征层D_i，将维度为

的特征图

转化为维度为(H_i×W_i×f_i)的特征图F_i ^D。如图4所示，为本发明一种实施例的迭代反馈融合模块示意图。

步骤S30，基于所述融合特征图组中各特征之间的互补关系，获取多个包围框以及包围框在待处理图像上的位置。

为了适应不同大小物体的尺度变化，不同于其他方法，将图像转换成不同的尺度，将这些图像独立的通过卷积神经网络处理，再将这些不同尺度的图像结果进行综合，本发明方法采用多层特征层回归检测框的架构，如图5所示，为本发明一种实施例的多个特征层上预测检测框的坐标、前景概率和条件类别概率分数示例图，经过步骤S20处理后，得到的融合特征图组分别是B2、B3、B4、B5、B6，在此五个不同尺度的特征图上预测包围框的坐标、前景概率和条件类别概率分数。不同特征图的感受野大小不同，特征图中特定的位置来负责图像中特定的区域以及物体特定的尺寸。

步骤S31，计算所述多尺度融合特征图组中包围框的尺寸大小，如式(2)所示：

s_j＝2^j×s_min,j∈[0,3] 式(2)

其中，S_j为第j个包围框，s_min为预设的包围框的最小尺度。

步骤S32，计算包围框的宽度

和高度

如式(3)和式(4)所示：

其中，r_m为长宽比参考盒。

本发明实施例中，包围框的最小尺度s_min可以为32像素，参考盒

步骤S33，计算所述包围框的中心点坐标以及包围框的宽度和高度，如式(5)至式(12)所示：

其中，

分别为预测包围框相对于参考包围框的坐标参数；

此计算过程为从参考盒到一个附近的真实框的包围框回归方式，相对于基于感兴趣区域的方法，本发明方法通过一种不同的方式来获取检测边框的回归位置。为了解决复杂环境下目标尺度变化差异大的问题，让其学习多个检测包围框的回归量，每个回归量对应一个尺度和一个长宽比。因此，可以通过固定的大小特征，预测到不同大小的检测包围框。

利用一系列卷积层、池化层和反卷积层来构建目标分割模块，完成图像目标分割。如图6所示，为本发明一种实施例的分割模块特征可视化示例图。对于每一个目标检测包围框，从多尺度的反馈融合特征图上提取包围框特征，然后把在每个特征层上提取到的相同尺度的区域块表示在特征通道上直接堆叠，堆叠后的特征经过一系列卷积和反卷积操作得到最终的目标分割结果。其中，提取包围框特征的具体步骤是：首先遍历每一个包围框，将包围框分割成固定数量的单元块，然后在每个单元块中采用双线性插值的方法计算出坐标为浮点数的像素点上的图像数值，最后在每个单元块中进行最大池化操作。

对于每个类别，目标分割结果是一个二进制像素级别的分割图，具有(N+1)M²维度，其中N表示物体类别个数(不包含背景)，M²表示每个类别二进制分割图的分辨率。

如图7所示，为本发明一种实施例的目标检测与分割结果示例图。图中第一列为输入图像，图中第二列为“真实”标签信息，图中第三列为输入大小为512×512像素时对应的检测与分割结果图，图中第四列为输入大小为1024×1024像素时对应的检测与分割结果图。

步骤S40“依据所述包围框在待处理图像上的位置，完成待处理图像的目标检测与分割”之前还设置有包围框位置调整的步骤，其步骤为：

步骤B10，计算包围框的前景分类损失和条件分类损失。

前景分类损失

如式(13)所示：

其中，p_i(object)是包围框i是否含有目标的预测置信度；

是包围框i对应的真实框的标签，正样本

为1，负样本

为0。

条件类别分类损失

如式(14)所示：

其中，

为包含目标的条件类别概率分布；N为物体类别数；

是包围框i对应的真实框的标签，正样本

为1，负样本

为0；i为包围框的序号。

步骤B20，依据所述前景分类损失和条件分类损失的计算结果，计算所述包围框的位置损失。

包围框位置损失l_loc(g_j,g'_j)如式(15)所示：

其中，g_j为预测的包围框坐标，g'_j为真实的包围框坐标。

步骤B30，根据计算得到的前景分类损失、条件分类损失、包围框的位置损失，计算包围框属于各个类别的后验概率，得到包围框的位置调整量。

包围框属于各个类别的后验概率如式(16)和式(17)所示：

步骤B40，依据所述包围框的位置调整量调整包围框的位置。

本发明第二实施例的基于卷积神经网络快速鲁棒的图像目标检测与分割***，包括输入模块、特征提取模块、反馈融合模块、目标检测模块、位置调整模块、目标分割模块、输出模块；

所述输入模块，配置为获取待处理的图像并输入；

所述输出模块，配置为将获取的目标检测与分割结果输出。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于卷积神经网络快速鲁棒的图像目标检测与分割***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。