CN111754531A

CN111754531A - 图像实例分割方法和装置

Info

Publication number: CN111754531A
Application number: CN202010649162.3A
Authority: CN
Inventors: 陈海波
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-09

Abstract

本发明提供一种图像实例分割方法和装置，所述图像实例分割方法包括以下步骤：获取图像数据集，并对所述图像数据集进行增强处理；通过特征提取网络对增强后的图像数据集进行特征提取；设计神经网络的头结构，并增加头结构之间的信息流和语义分割分支；基于提取到的图像数据集的特征进行神经网络训练以得到图像实例分割模型。本发明能够适用于对复杂场景图像的实例分割，分割精度较高。

Description

图像实例分割方法和装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种图像实例分割方法、一种图像实例分割装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。

背景技术

图像分割即将图像分成具有各自特性的同质区域并提取出感兴趣目标物体的技术和过程，它是图像处理到图像分析的关键步骤，是计算机视觉领域中的基本问题之一。分割任务也可以划分为更加细致的三个研究方向：图像语义分割、图像实例分割以及图像全景分割。图像语义分割是在像素级别对图像中每个像素划分其对应的类；实例分割是在图像语义分割的基础上，将同一类的像素点划分为同一实例，即不仅是像素级别的分割更要区分具体的实例，实例分割可以看做是语义分割和目标检测的结合；而图像全景分割则要求在分割区域中的实例必须是非重叠的，这给现有的基于区域的分割方法带来了更大的挑战。近年来，图像分割技术的研究已在医疗成像、无人驾驶以及场景理解等领域起着重要作用。

然而，由于应用场景复杂，目前的诸多图像分割技术均难以满足高精度的图像分割需求。

发明内容

本发明为解决上述技术问题，提供了一种图像实例分割方法和装置，能够适用于对复杂场景图像的实例分割，分割精度较高。

本发明采用的技术方案如下：

一种图像实例分割方法，包括以下步骤：获取图像数据集，并对所述图像数据集进行增强处理；通过特征提取网络对增强后的图像数据集进行特征提取；设计神经网络的头结构，并增加头结构之间的信息流和语义分割分支；基于提取到的图像数据集的特征进行神经网络训练以得到图像实例分割模型。

采用InstaBoost算法对所述图像数据集进行增强处理。

所述特征提取网络为CBNet，并加入可变形卷积。

所述神经网络为HTC网络，所述神经网络的头结构包括RCNN Head、Mask Head、MaskIoU Head。

其中，在相邻头结构的模板分支之间增加连接以实现头结构之间的信息流，所述语义分割分支中的FPN输出不同层的特征图缩放到同一尺度并相加，经过一系列卷积，分别预测语义分割特征以及语义分割预测结果。

神经网络训练的过程及结果参数如下：

其中，x表示特征提取网络的特征，

和

分别表示RCNN Head中的分类与回归分支B_i的输出和Mask Head预测的模板分支M_i的输出，i为头结构的序号；P表示池化操作；B_t和M_t分别表示第t阶段的box和mask；r_t和m_t表示box和mask对应的预测；

表示M_t-1的特征，用它作为t-1阶段的mask表示；F表示一个函数运算，g_t是一个1×1的卷积层，用于将

的尺寸和

对齐；S表示引入的语义分割分支，其中，在第t阶段，box分支对于RoIs预测出分类分数c_t和回归坐标r_t；模板分支对于正样本RoIs预测出像素级别的模板m_t；语义分割分支S预测出一整副图像的分割图，

网络整体损失为：

其中，

是第t阶段的回归框预测损失，结合了分类损失L_cls和回归损失L_reg，

是第t阶段的mask预测损失，采用二值交叉熵损失，L_seg是语义分割损失，采用交叉熵损失，α_t和β是用于平衡不同阶段和任务的损失系数。

一种图像实例分割装置，包括：增强模块，所述增强模块用于获取图像数据集，并对所述图像数据集进行增强处理；提取模块，所述提取模块用于通过特征提取网络对增强后的图像数据集进行特征提取；设计模块，所述设计模块用于设计神经网络的头结构，并增加头结构之间的信息流和语义分割分支；训练模块，所述训练模块用于基于提取到的图像数据集的特征进行神经网络训练以得到图像实例分割模型。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述图像实例分割方法。

一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述图像实例分割方法。

一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行上述图像实例分割方法。

本发明的有益效果：

本发明通过在特征提取前对图像数据集进行增强处理，并通过设计神经网络的头结构，增加头结构之间的信息流和语义分割分支，由此，所得到的网络模型能够适用于对复杂场景图像的实例分割，分割精度较高。

附图说明

图1为本发明实施例的图像实例分割方法的流程图；

图2为本发明一个实施例的头结构的示意图

图3为本发明一个实施例的头结构连接外部的示意图；

图4为本发明一个实施例的头结构连接内部的示意图；

图5为本发明一个实施例的语义分割分支内部结构示意图；

图6为本发明实施例的图像实例分割装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的图像实例分割方法包括以下步骤：

S1，获取图像数据集，并对图像数据集进行增强处理。

本发明实施例的图像实例分割可面向自动驾驶场景，因此本发明实施例的图像数据集可为自动驾驶场景下的街景图像数据集。

在本发明的一个实施例中，可采用InstaBoost算法对图像数据集进行增强处理。

S2，通过特征提取网络对增强后的图像数据集进行特征提取。

在本发明的一个实施例中，特征提取网络可为CBNet，并加入可变形卷积。CBNet中包含两个级联的ResNeXT-101，对于每个ResNeXT-101，本发明实施例可在其stage3、stage4、stage5中加入可变形卷积DCN，以提升网络的特征提取能力。

具体地，图像进入特征提取网络后可生成特征F，将特征F输入RPN(RegionProposal Network，区域生成网络)网络，RPN网络中的分类分支和回归分支对F每个位置上的anchor进行正负样本分类和坐标的回归，RPN最终输出N个建议框proposal，本发明具体实施例中N可设置为2000。

S3，设计神经网络的头结构，并增加头结构之间的信息流和语义分割分支。

在本发明的一个实施例中，神经网络可为HTC网络，设计网络的头结构h_i(i＝1,2,3)，h_i中包括RCNN Head、Mask Head、MaskIoU Head。其中，RCNN Head由一个ROI Align层和两个全连接层组成，输出分类分数和坐标框的回归坐标；Mask Head由一个ROI Align层和4个卷积层组成，输出预测的mask模板；MaskIoU Head中，将Mask Head中RoI Align层的特征层与预测的mask拼接起来作为MaskIoU Head的输入。MaskIoU Head由4个卷积层和3个全连接层组成，输出各个类别的得分c。在本发明的一个具体实施例中，如图2所示，RCNN Head由一个7×7×256的ROI Align层和两个1024的全连接层组成；Mask Head由一个14×14×256的ROI Align层和4个14×14×256卷积层组成；MaskIoU Head在拼接时使用卷积核尺寸为2，步长为2的最大值池化，MaskIoU Head中4个卷积层的核大小和滤波器个数分别设置为3和256，3个全连接层的前两个FC层的输出设置为1024，最后一个FC层的输出设置为类的数量。

分别设计相同的头结构h₁、h₂和h₃，最终分别得到B₁、B₂、B₃、M₁、M₂、M₃。其中，M_i(i＝1,2,3)表示Mask Head预测的模板分支，B_i(i＝1,2,3)表示RCNN Head中的分类与回归分支。MaskIoU Head中的c与B_i中的分类分数相乘，计为最终的得分。通过在HTC网络中加入MaskIoU Head，在原始预测的模板基础上得到一个新的分数，将此分数与分类分数相乘，作为最终评判预测模板的置信度分数，相对而言，本发明实施例采用的分数具有更高的置信度和可靠性，从而能够减少图像中的噪声如无人驾驶场景中背景杂波、遮挡等对目标实例分割的影响。

进一步地，可在相邻头结构h_i的模板分支mask(M_i)之间增加连接，以提供mask分支的信息流，实现头结构之间的信息流，由此，M_i+1可得到M_i的特征。将M_i的特征经过一个1x1的卷积做特征嵌入(Feature Embedding)，然后输入到M_i+1，这样M_i+1既能得到特征提取网络的特征，也能得到M_i的特征，头结构连接外部和内部分别如图3和图4所示。

可设计语义分割分支S，将语义分割引入到实例分割框架中，以获得更好的空间信息。如图5所示，语义分割分支S中的FPN(Feature Pyramid Networks，特征金字塔网络)输出不同层的特征图缩放到同一尺度并相加，经过一系列卷积，分别预测语义分割特征以及语义分割预测结果，语义分割特征通过RoIAlign及element-wise sum与box(框)、mask(掩膜)特征进行融合，增强分辨目标的能力。

S4，基于提取到的图像数据集的特征进行神经网络训练以得到图像实例分割模型。

神经网络训练的过程及结果参数如下：

其中，x表示特征提取网络的特征，

和

分别表示RCNN Head中的分类与回归分支B_i的输出和Mask Head预测的模板分支M_i的输出，i为头结构的序号；P表示池化操作，如RoIAlign；B_t和M_t分别表示第t阶段(h_t)的box和mask；r_t和m_t表示box和mask对应的预测；

的尺寸和

对齐；S表示为了更好区分前景与背景，引入的语义分割分支。

在第t阶段，box分支对于RoIs预测出分类分数c_t和回归坐标r_t；模板分支对于正样本RoIs预测出像素级别的模板m_t；语义分割分支S预测出一整副图像的分割图。

网络整体损失为：

其中，

是第t阶段的mask预测损失，采用二值交叉熵损失，L_seg是语义分割损失，采用交叉熵损失，α_t和β是用于平衡不同阶段和任务的损失系数。在本发明的一个具体实施例中，α＝[1,0.5,0.25]，T＝3，β＝1。

此外，本发明实施例可采用在COCO数据集上的预训练模型作为初始权重，采用多尺度训练，采用Sync BN替换普通的BN进行训练，使训练效果不再受GPU个数的影响。

在应用图像实例分割模型时，对于待分割图像也可进行增强处理，然后将其输入图像实例分割模型，并输出分割结果。

根据本发明实施例的图像实例分割方法，通过在特征提取前对图像数据集进行增强处理，并通过设计神经网络的头结构，增加头结构之间的信息流和语义分割分支，由此，所得到的网络模型能够适用于对复杂场景图像的实例分割，分割精度较高。

对应上述实施例的图像实例分割方法，本发明还提出一种图像实例分割装置。

如图6所示，本发明实施例的图像实例分割装置包括增强模块10、提取模块20、设计模块30和训练模块40。其中，增强模块10用于获取图像数据集，并对图像数据集进行增强处理；提取模块20用于通过特征提取网络对增强后的图像数据集进行特征提取；设计模块30用于设计神经网络的头结构，并增加头结构之间的信息流和语义分割分支；训练模块40用于基于提取到的图像数据集的特征进行神经网络训练以得到图像实例分割模型。

本发明实施例的图像实例分割装置更具体的实施方式可参照上述图像实例分割方法的实施例，在此不再赘述。

根据本发明实施例的图像实例分割装置，通过增强模块在特征提取前对图像数据集进行增强处理，并通过设计模块设计神经网络的头结构，增加头结构之间的信息流和语义分割分支，能够适用于对复杂场景图像的实例分割，分割精度较高。

对应上述实施例，本发明还提出一种计算机设备。

本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时，可实现根据本发明上述实施例所述的图像实例分割方法。

根据本发明实施例的计算机设备，处理器执行存储在存储器上的计算机程序时，可进行图像实例分割，能够适用于对复杂场景图像的实例分割，分割精度较高。

对应上述实施例，本发明还提出一种非临时性计算机可读存储介质。

本发明实施例的非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现根据本发明上述实施例所述的图像实例分割方法。

根据本发明实施例的非临时性计算机可读存储介质，处理器执行存储在其上的计算机程序时，可进行图像实例分割，能够适用于对复杂场景图像的实例分割，分割精度较高。

对应上述实施例，本发明还提出一种计算机程序产品。

当本发明实施例的计算机程序产品中的指令由处理器执行时，可执行根据本发明上述实施例所述的图像实例分割方法。

根据本发明实施例的计算机程序产品，处理器执行其中的指令时，可进行图像实例分割，能够适用于对复杂场景图像的实例分割，分割精度较高。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。