CN112598003A

CN112598003A - 基于数据扩充和全监督预处理的实时语义分割方法

Info

Publication number: CN112598003A
Application number: CN202011499496.3A
Authority: CN
Inventors: 刘天歌; 张志文; 靳玮钰; 于露; 聂鹏举
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-02
Anticipated expiration: 2040-12-18
Also published as: CN112598003B

Abstract

本发明公开了一种基于数据扩充和全监督预处理的实时语义分割方法。本发明通过设置细节路径部分、空间路径部分，其中，细节路径部分利用高分辨率的输入得到丰富的边界信息，空间路径部分利用细节路径部分产生的高质量特征图获得足够大的感受野，最后利用图像融合方式进行融合处理，以达到在计算速度与分割性能之间取得良好的平衡；在空间路径部分的后面加入了注意力模块，并通过特征融合模块将细节信息和空间信息有效结合；同时，本发明还通过裁剪—粘贴小目标的方式，增加小目标点在训练集上的比重，实现提升小目标点的分割结果。

Description

基于数据扩充和全监督预处理的实时语义分割方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于数据扩充和全监督预处理的实时语义分割方法。

背景技术

街景图像的分割在工业运用中具有十分重要的作用。但是街景图像具有类别种类繁多、对象遮挡严重、光照变化明显等特点，而且在考虑分割准确性的同时要兼顾分割的实时性，所以研究该类图像分割技术是一个极具挑战性的工作。

卷积神经网络在图像的分类、定位以及场景理解等方面取得了成功。随着增强现实和自动驾驶车辆等任务的激增，许多研究人员将注意力转移到场景理解上，其中一个主要步骤就是语义分割，即对所给定图像中的每个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。

语义分割问题在很多应用场景中都有着十分重要的作用，例如图片理解、自动驾驶等，所以近年来，语义分割问题在学术界和工业界得到了广泛的关注。语义分割的目的是为每个图像像素分配密集的标签，是计算机视觉的一项重要任务。语义分割在自动驾驶、视频监控、机器人传感等领域具有许多潜在的应用前景。

但是对于实际应用技术，对于语义分割技术，如何在保持高效推理速度的同时，保证分割结果的精确性，现有方法还有很多不足。对于街景图像分割技术，一方面，街景图像的分割主要应用在移动设备上，移动端的设备配置一般不高，然而现有的网络设计过于追求算法的分割精度，模型过于复杂，忽视了运行时间这一重要指标，导致运行时间过长且不能满足移动设备的要求；另一方面，由于街景图像具有光照变化明显，目标遮挡严重等特点，且存在数据样本在类别分布上严重不均衡的问题，这导致街景图像的整体分割效果不高，尤其是对于小物体的分割，然而小目标(例如交通灯、交通标志)对于街景图像来说是不可忽视的。

故，有必要提供一种技术方案，以解决上述技术问题。

本发明内容

有鉴于此，本发明实施例提供了一种基于数据扩充和全监督预处理的实时语义分割方法。

本发明实施例的第一方面提供了一种基于数据扩充和全监督预处理的实时语义分割方法，所述方法包括以下步骤：

对目标图像进行预处理，其中，所述预处理包括对所述目标图像处中不同光照强度的处理、对所述目标图像的参数进行归一化操作；

对所述目标图像进行细节路径处理得到特征图，其中，所述细节路径处理为N项卷积层进行卷积处理，其中N为整数；

根据所述特征图与损失函数，进行空间路径处理得到空间信息，其中，所述空间路径处理为采用不同大小的卷积核与分组卷积，并将所述可分离卷积后的所述特征图叠加融合处理；所述损失函数包括预测损失函数、辅助损失函数；

根据所述空间信息，设置注意力操作，其中，所述注意力操作包括全局平均池化、条状平均池化；

对于经所述注意力操作后的空间信息，设置特征融合操作，其中，所述特征融合操作通过使用空间路径形成的高级语义信息，指导细节路径的特征响应，从而有效地编码信息。

优选的，在本发明中，所述预处理具体包括设置伽马变换，其中，所述伽马变换为：

其中，γ表示所述目标图像中的直方图偏移量；mean()为所述目标图像的均值；I_out为所述目标图像的输出参数，I_in为所述目标图像的输入参数。

优选的，在本发明中，所述预处理具体还包括在经过所述伽马变换后，设置线性变化函数：

I_out＝l·I_in+d

l＝exp(-std(I_in))

d＝exp(-mean(I_in))

其中，l为调节所述目标图像的图像对比度参数，d为调节所述目标图像的图像亮度参数；I_out为所述目标图像的输出参数，I_in为所述目标图像的输入参数；exp()表示指数函数，std()为所述目标图像的方差，mean()为所述目标图像的均值。

其中，可训练参数α表示对比度调节因子、可训练参数β表示亮度调节因子；l为所述目标图像的图像对比度参数，d为所述目标图像的图像亮度参数；R、G、B表示处理所述目标图像对应的三个信息编码通道；RGB_out为经过预处理后得到的新三张所述特征图，RGB_in表示输入的三张所述特征图。

优选的，在本发明中，所述注意力操作包括：一个所述全局平均池化、两个所述条状平均池化；

其中，所述条状平均池化的大小分别为(1*W)、(H*1)，(H,W)为输入所述特征图的尺寸；

其中，f_in表示所述特征图的输入特征值，f_out表示所述特征图的输出特征值；k_i为可训练参数；对于所述全局平均池化，mean()表示全局平均值；对于所述条状平均池化，mean()表示条状平均值。

优选的，在本发明中，所述实时语义分割方法还包括数据增强处理，

所述数据增强处理具体包括：待***小目标与所述目标图像进行直方图匹配；

确定所述待***小目标具体信息；

根据所述待***小目标具体信息，确定***位置。

优选的，在本发明中，所述损失函数为：

loss＝A·predict_loss+B·auxiliary_loss

其中，A表示预测损失presdict_loss的损失权重，B表示所述多个辅助损失auxiliary_loss的损失权重。

本发明实施例与现有技术相比存在的有益效果是：

本发明通过设置细节路径部分、空间路径部分，其中，细节路径部分利用高分辨率的输入得到丰富的边界信息，空间路径部分利用细节路径部分产生的高质量特征图获得足够大的感受野，最后利用图像融合方式进行融合处理，以达到在计算速度与分割性能之间取得良好的平衡；在空间路径部分的后面加入了注意力模块，并通过特征融合模块将细节信息和空间信息有效结合；同时，本发明还通过裁剪—粘贴小目标的方式，增加小目标点在训练集上的比重，实现提升小目标点的分割结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于数据扩充和全监督预处理的实时语义分割方法流程示意图；

图2是本发明实施例二提供的一种基于数据扩充和全监督预处理的实时语义分割方法训练示意图；

图3是本发明实施例三提供的一种基于数据扩充和全监督预处理的实时语义分割方法中空间路径部分算法结构。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1是本发明实施例一提供的一种基于数据扩充和全监督预处理的实时语义分割方法流程示意图。所述方法包括以下步骤：

其中，本发明提出的细节路径+空间路径结合的方式，细节路径要为空间路径提供高质量的特征图，利用细节路径的高质量特征图，空间路径可以更好的获取语义信息。

其中，设置注意力机制可以利用高层信息来指导前馈网络，本发明通过设置注意力操作，利用全局平均池化来捕捉全局信息，并且用条状平均池化增强局部信息的表示，从而有效整合了全局和局部的信息，同时该操作计算量可以忽略。

对于经所述注意力操作后的空间信息，设置双路径特征融合操作，其中，所述特征融合操作通过使用空间路径形成的高级语义信息，指导细节路径的特征响应，从而有效地编码信息。在不同的尺度引导下，可以捕获不同的尺度特征表示。同时，与简单的组合相比，这种指导方式能够在两个路径之间进行有效的通信。

在空间路径中，本文设计了四个并行分支的结构，首先将特征图按1:1:1:1的比例分成四份，然后分别用3*3、1*3、3*1、3*3大小的卷积核进行深度可分离卷积，最后再将产生的不同尺度的特征图组合起来，这样既获得了多尺度的信息又减少了网络的过拟合。

其中，γ表示所述目标图像中的直方图偏移量；mean()为所述目标图像的均值；I_out为所述目标图像的输出参数，I_in为所述目标图像的输入参数。γ＜1时，直方图右移，γ＞1时，直方图左移，本文用图像在每个通道上的均值来代替γ，这样使得经过伽马变换后，不同光照的街景图像在直方图的分布趋于一致。

优选的，在本发明中，经过伽马变换后，观察图像直方图可以发现，不同街景图像的均值和方差还有很大的差异，所以本发明设置图像的线性变化，即所述预处理具体还包括在经过所述伽马变换后，设置线性变化函数：

I_out＝l·I_in+d

l＝exp(-std(I_in))

d＝exp(-mean(I_in))

具体的，α，β是可训练参数，首先该模块对RGB三通道分别求一个均值并取负，然后作用于指数函数，最后经过1x1卷积得到三个值。若输入图像的光照强，则经过这些操作会得到较小的三个数，同理，光照较弱会得到较大的三个数，这三个数分别与原RGB相乘，就得到了新的RGB，并且对于任何图像，经过预处理模块，都会在三个通道上保持像素值的一致性。

其中，由于训练集包含不同场景的图像，图像的光照程度等因素会有比较大的差异，所以直接将待***小目标***到另一张图像，会导致待***小目标和背景不匹配。所以在***待***小目标之前要让待***小目标所在的图像和要***到的图像进行直方图匹配，然后在匹配后的图像上进行下一步操作。

确定所述待***小目标具体信息；

其中，由于街景图像遮挡严重，选取的待***小目标很可能只是一个完整待***小目标的一部分，如果选取的待***小目标太小，则要对其进行舍弃，重新选取另一个待***小目标，直到选取到合适的待***小目标。在选取待***小目标特别应该注意的是，交通灯和交通标志通常放置在电线杆上；同样，骑手也位于摩托车或自行车的顶部。所以将这些共同出现的小对象提取在一起。

根据所述待***小目标具体信息，确定***位置。

其中，待***小目标包含(poles,traffic lights,traffic signs,person,riders,motorcycles，bicycles)，本文在每一张训练图像上都进行了待***小目标的粘贴，每张图像大约***了4-8个待***小目标，这使得训练集中的图像扩充了一倍，并且这样可以有效地增加小样本点在训练集所占的比例，从而提升网络的分割结果。

本发明通过对待***小目标的剪切和粘贴来扩充了数据集，并且通过了直方图匹配来解决待***小目标和目标图像不一致的问题，对网络的训练阶段，提供了强有力的数据支持。

优选的，在本发明中，所述损失函数为：

loss＝A·predict_loss+B·auxiliary_loss

如图2所示，是本发明实施例二提供的一种基于数据扩充和全监督预处理的实时语义分割方法训练示意图。

其中，detail path是细节路径，用来获取细节的信息；spatial path1和spatialpath2是两条空间路径，用来获得丰富的语义信息；IPM(Image Processing Model)是图像预处理模块，目的是处理不同光照强度的图像；FFM(Feature Fusion Module)是特征融合模块，其作用是融合两个路径的信息；Auxiliary_loss是辅助损失函数，C是Concatenate操作，Conv3x3是3*3卷积。

在本发明中，细节路径设置的比较简单，只包含传统的3*3卷积，如图所示，网络的细节路径包含4个阶段，第一阶段包含2个卷积层，每个卷积层的步长为2，其余阶段都包含3个卷积层，并且只有第一个卷积层步长为2，其余步长为1。其中第2，3和4阶段所产生的特征图，要送到空间路径。所以细节路径的作用有两个：首先，利用细节路径获取细节信息，为最后的两个路径的融合做准备；其次，为空间路径提供高质量的特征图。细节路径的详细操作如表1所示。

表1细节路径

相对于细节路径，网络的空间路径设计的更为复杂，其利用细节路径提供的1/8、1/16和1/32大小的特征图去获取空间信息，空间分支由空间多尺度模块SMM(SpatialMulti-scale Module)组成，在图3-2中，详细展示了SMM模块，其中(b)和(c)是空间路径的基础块，当步长为1时，使用(a)模块，步长为2时，使用(b)模块。(a)和(b)中的MDWConv即(c)模块，(c)是SMM模块的核心组成，多尺度卷积在(c)中完成，考虑到推理时间的要求，该模块首先将特征图平均分成四组，每组用不同的卷积核进行深度可分离卷积，最后再把卷积后的特征图叠加起来，该模块由不同形状的卷积核组成，很好的获取了多尺度的信息。

如图3所示，是本发明实施例三提供的一种基于数据扩充和全监督预处理的实时语义分割方法中空间路径部分算法结构。

相对于细节路径，网络的空间路径设计的更为复杂，其利用细节路径提供的1/8、1/16和1/32大小的特征图去获取空间信息，空间分支由空间多尺度模块SMM(SpatialMulti-scale Module)组成，在图3中，详细展示了SMM模块，其中(b)和(c)是空间路径的基础块，当步长为1时，使用(a)模块，步长为2时，使用(b)模块。(a)和(b)中的MDWConv即(c)模块，(c)是SMM模块的核心组成，多尺度卷积在(c)中完成，考虑到推理时间的要求，该模块首先将特征图平均分成四组，每组用不同的卷积核进行深度可分离卷积，最后再把卷积后的特征图叠加起来，该模块由不同形状的卷积核组成，很好的获取了多尺度的信息。

两条空间路径的信息要输入到注意力模块，经注意力模块将两条空间路径的信息融合后，作为整个空间部分的输出。空间路径与细节路径不是独立的，而是采用横向连接方式将细节路径的信息传向空间路径，通过信息的交流，既获得了多尺度的信息，又加大了空间路径的感受野。空间路径的详细操作如表2所示。

表2空间路径

本发明的空间路径中设计了多尺度聚合模块，该模块利用不同大小的卷积核与深度可分离卷积结合，获得了多尺度的信息的同时减小了过拟合。

对于损失函数，除了网络最后的预测损失predict_loss，本文还引入了多个辅助损失auxiliary_loss来监督训练网络，本文把辅助损失函数放在空间路径中，网络的总损失函数是最后的预测损失和辅助损失的总和，总损失定义如下式所示，A，B是各个损失的权重，可以自行调控，在本发明中可选择，A＝B＝1。

loss＝A·predict_loss+B·auxiliary_loss

本发明中的预测损失函数和辅助损失函数都是OHME(online hard exampleminiing)[26]，OHME可以对输入样本的损失进行筛选，筛选出hard example，表示对分类和检测影响较大的样本，然后将筛选得到的这些样本应用在随机梯度下降中训练。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。