CN111507343A

CN111507343A - 语义分割网络的训练及其图像处理方法、装置

Info

Publication number: CN111507343A
Application number: CN201910091543.1A
Authority: CN
Inventors: 王俊东; 梁德澎; 张树业; 张壮辉; 梁柱锦
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-07
Anticipated expiration: 2039-01-30
Also published as: CN111507343B; WO2020156303A1

Abstract

本发明实施例公开了一种语义分割网络的训练及其图像处理方法、装置，训练方法包括：获取训练数据集，所述训练数据集包括训练图像、与训练图像配对的标注语义分割图；将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图；根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值；根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整，通过分类损失函数值和一致性损失函数值对语义分割网络进行监督学***稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图，从而提高了用户的视觉体验。

Description

语义分割网络的训练及其图像处理方法、装置

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质。

背景技术

随着深度学习的发展，基于深度学习的图像语义分割取得了极大的进步。图像语义分割处理的目的是为输入图像的每个像素预测一个准确的物体类别标签，从而实现对图像进行语义级别理解，其在道路分割、医学影像、自动抠图、无人机、自动监控等场景具有重要的应用价值。

目前，基于全卷积神经网络的语义分割网络采用编码器和解码器的架构，通过提取和融合不同层次的特征，最终为每个像素分配一个语义类别，但语义分割网络采用的损失函数简单地将语义分割问题当作一个像素级的分类任务，导致语义分割网络输出的语义分割图存在如图1所示在视觉上不平稳和明暗交替的现象，甚至会出现密集的棋盘效应，极大地影响了用户的视觉体验。

发明内容

本发明实施例提供一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质，以解决现有的语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，以使得通过语义分割网络对图像语义分割后可以获得较高质量的语义分割图，从而提高用户的视觉体验。

第一方面，本发明实施例提供了一种语义分割网络的训练方法，包括：

获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

第二方面，本发明实施例提供了一种基于语义分割网络的图像处理方法，包括：

获取目标图像；

将所述目标图像输入预先训练的语义分割网络中，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过以下方式训练：

第三方面，本发明实施例提供了一种语义分割网络的训练装置，包括：

训练数据获取模块，用于获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

预测语义分割图生成模块，用于将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

损失函数值确定模块，用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

参数调整模块，用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

第四方面，本发明实施例提供了一种基于语义分割网络的图像处理装置，包括：

目标图像获取模块，用于获取目标图像；

图像处理模块，用于将所述目标图像输入预先训练的语义分割网络中进程处理，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过以下模块训练：

第五方面，本发明实施例提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述程序时执行本发明任一实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。

本发明实施例将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图，并根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，进一步根据分类损失函数值和一致性损失函数值对语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学***稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图，从而提高用户的视觉体验。

附图说明

图1是现有技术中的语义分割网络输出的语义分割图的示意图；

图2A是本发明实施例一提供的一种语义分割网络的训练方法的流程图；

图2B是本发明实施例一的语义分割网络的架构示意图；

图2C是本发明实施例一中空洞卷积的卷积核示意图；

图2D是本发明实施例一的语义分割网络和现有的语义分割网络输出的语义分割图的对比示意图；

图3A是本发明实施例二提供的一种语义分割网络的训练方法的流程图；

图3B是本发明实施例二中像素的邻域的示意图；

图4是本发明实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图；

图5是本发明实施例四提供的一种语义分割网络的训练装置的结构框图；

图6是本发明实施例五提供的一种基于图像语义分割网络的图像处理装置的结构框图；

图7是本发明实施例六提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图2A为本发明实施例一提供的一种语义分割网络的训练方法的流程图，本发明实施例可适用于训练语义分割网络以对图像进行处理的情况，该方法可以由语义分割网络的训练装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，具体地，如图2A所示，该方法可以包括如下步骤：

S101、获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图。

具体地，训练数据集可以包括训练图像以及与训练图像配对的标注语义分割图，其中，训练图像可以是BMP、JPG、PNG、TIF等存储格式的图像，标注的语义分割图可以是对训练图像中每个像素进行分类和标注的图像，分类可以是根据训练图像的语义信息，对每个像素进行分类，例如训练图像中每个像素属于图像中的人物上的像素或者其它物体上的像素，标注可以是为每个像素属于不同分类添加标签值。

在实际应用中，可以从预先存储的图像数据库中获取训练数据集以及与训练图像配对的标注语义分割图。

S102、将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图。

具体地，如图2B所示，本发明实施例的语义分割网络可以为全卷积神经网络，全卷积神经网络采用编码器-解码器架构。编码器通过池化层逐渐减少空间维度，比如，编码器可以进行三次下采样，提取出输入的训练图像的高层语义特征。解码器在高层语义特征上逐步通过反卷积层上采样，逐渐恢复训练图像的细节和空间维度，最终输出与输入训练图像分辨率一致的语义分割图。

如图2C所示，全卷积神经网络中可以采用空洞卷积核，如图2C中所示，图a中为现有的卷积核的示意图，图b为空洞卷积核的示意图，图a中卷积核A是连续的，图b中卷积核B存在空洞c，通过空洞卷积核可以增加高层特征图每个节点对底层特征图的感受和覆盖范围，即增加了卷积核的感受野，以达到不增加计算量的情况下增加感受野范围，使得每个节点的高层特征可以包含更多的上下文信息，提高了预测的准确性。

S103、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值。

本发明实施例中，分类损失函数值可以监督语义分割网络学***滑，避免了出现视觉上明暗起伏的情况，使得语义分割网络可以输出高质量的语义分割图，从而提高了用户的视觉体验。

S104、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

在实际应用中，语义分割网络的训练是通过训练图像和标注语义分割图进行多次迭代的过程，每次迭代后根据输出的预测语义分割图和标注语义分割图计算分类损失函数值和一致性损失函数值，当分类损失函数值和一致性损失函数值表示的误差小于预设值时，结束对语义分割网络训练，否则对语义分割网络的参数进行调整，比如调整语义分割网络各个卷积层的权重、偏置等网络参数。

本发明实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后，根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，进一步根据分类损失函数值和一致性损失函数值对语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学***稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图，从而提高用户的视觉体验。

实施例二

图3A为本发明实施例二提供的一种语义分割网络的训练方法的流程图，本发明实施例在实施例一的基础上进行优化，具体地，如图3A所示，该方法可以包括如下步骤：

S201、获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图，所述标注语义分割图包括像素的标签值。

S202、将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图，所述预测语义分割图包括像素的预测值。

S203、采用所述像素的标签值和所述预测值，计算所述分类损失函数值。

在本发明实施例中，可以通过最小均方差损失函数计算分类损失函数值，具体地，针对预测语义分割图中的每个像素，根据像素的标签值和预测值计算每个像素的均方值，并对所有像素的均方值求和以得到分类损失函数值。

具体地，可以通过以下公式计算分类损失函数值：

其中，MSE为分类损失函数值，N为预测语义分割图的像素的数量，pi为像素i的预测值，y_i为像素i的标签值。

S204、采用所述像素的标签值和所述预测值，计算所述一致性损失函数值。

在本发明的一种优选实施例中，步骤S204可以包括如下子步骤：

S2041，针对所述预测语义分割图中的每个中心像素，确定所述中心像素的邻域，所述邻域包括邻域像素，所述中心像素为待计算所述一致性损失函数值的像素。

在本发明实施例中，可以预先设置邻域的窗口大小，然后根据不同的空洞因子生成不同的邻域，该邻域中包括待计算一致性损失函数值的像素的邻域像素。

如图3B所示，邻域的窗口大小为3x3，邻域的位置会根据空洞因子不同而不同，假设空洞因子为1和2，则对于中心像素i可以生成两个邻域，如图3B中的3B-1所示，该邻域的空洞因子为1，窗口大小为3x3，则中心像素i的邻域为相邻的8个邻域像素j，同理，空洞因子为2时，则中心像素i的邻域为相隔1个像素的8个邻域像素j，设置不同的空洞因子可以生成不同数量的邻域。

上述示例虽然说明了窗口大小和空洞因子的取值，在实际应用中本领域技术人员可以根据训练图像的大小设置其它窗口大小、不同数量的空洞因子和空洞因子的数量，本发明实施例对确定邻域的方式不加以限制。

通过增加空洞确定中心像素的邻域，可以使得该像素能够获取到不同范围的邻域从而可以获取到不同邻域像素对该中心像素的约束，提高了像素的一致性损失函数值的准确性。

S2042，针对每个邻域，计算所述中心像素与所述邻域像素的损失值，得到第一损失值。

具体地，可以根据中心像素的预测值和邻域像素的预测值，计算中心像素与邻域像素的距离，并获取中心像素的标签值和邻域像素的标签值；在中心像素的标签值和邻域像素的标签值相等时，采用距离和预设的第一调节因子计算第一损失值，在中心像素的标签值和邻域像素的标签值不相等时，采用距离和预设的第二调节因子计算第一损失值；其中，第一调节因子为中心像素的标签值和邻域像素的标签值相等时需要调整距离的惩罚阈值，第二调节因子为中心像素的标签值和邻域像素的标签值不相等时需要调整距离的惩罚阈值。

以下结合示例对计算第一损失值进行说明：

本示例中，一致性损失函数如下：

其中l_ij为以中心像素i为中心的邻域中，邻域像素j对中心像素i的一致性损失函数值，

表示中心像素i和邻域像素j之间的相似性，n可以为1或者2，δ为第一调节因子，γ为第二调节因子，δ小于或等于γ，默认δ取值为0.1，γ取值为1.0，Y_i和Y_j分别表示中心像素i和邻域像素j的标签值，若Y_i＝Y_j，表示中心像素i和邻域像素j属于相同语义类别，若Y_i≠Y_j表示中心像素i和邻域像素j属于不同语义类别。

在中心像素i和邻域像素j的标签值相等时，即Y_i＝Y_j，中心像素i和邻域像素j属于同个语义类别时，一致性损失函数为：

p_i和p_j分别表示中心像素i的预测值和和邻域像素j的预测值，

表示中心像素i和邻域像素j之间的预测值的距离，第一调节因子δ为调节中心像素i和邻域像素j的距离的惩罚阈值，在距离大于第一调节因子δ时进行惩罚，在距离大于第一调节因子δ时不惩罚，在距离大于第一调节因子δ时，距离越大，说明中心像素i和邻域像素j的预测值相差越大，则惩罚越大，反之惩罚减少；当距离小于第一调节因子δ时，说明中心像素i和邻域像素j的预测值已经足够接近，一致性损失函数不进行惩罚，即当中心像素i和邻域像素j属于相同语义类别，一致性损失函数的目标为减少中心像素i和邻域像素j的距离。

在中心像素i和邻域像素j的标签值不相等时，即Y_i≠Y_j，中心像素i和邻域像素j属于不同语义类别时，一致性损失函数为：

表示中心像素i和邻域像素j之间的预测值的距离，第二调节因子γ为调节中心像素i和邻域像素j的距离的惩罚阈值，在距离小于第二调节因子γ时进行惩罚，在距离大于第二调节因子γ时不惩罚，在距离小于第二调节因子γ时，距离越小，说明中心像素i和邻域像素j的预测值相差越小，则惩罚越大，反之惩罚减少；当距离大于第二调节因子γ时，说明中心像素i和邻域像素j的预测值相差已经足够大，一致性损失函数不进行惩罚，即当中心像素i和邻域像素j属于不相同语义类别，一致性损失函数的目标为增大中心像素i和邻域像素j的距离。

S2043，对所述第一损失值求和，得到所述中心像素在所述邻域内的第二损失值。

具体地，中心像素i的邻域包括多个邻域像素j，则依次计算该邻域范围内中心像素i和多个邻域像素j的一致性损失函数值得到多个第一损失值，对多个第一损失值求和后可以得到该邻域内中心像素i的一致性损失函数值。

S2044，对所述中心像素在邻域内的所述第二损失值求和，得到所述中心像素的一致性损失函数值。

在本发明实施例中，根据固定的邻域大小和不同的空洞因子，一个中心像素可以有多个邻域，例如，有取值为1，2，5的三个空洞因子，则该中心像素具有三个邻域，对中心像素在三个邻域内的第二损失值求和即可以得到像素的一致性损失函数值，遍历预测语义分割图的每个像素可得到多个像素的一致性损失函数值，即对于一个像素，一致性损失函数值为：

其中，M表示不同的邻域集，N_i为像素i的一个邻域，l_ij为像素i在邻域N_i内的一致性损失函数值。

本发明实施例中，对于预测语义分割图中的每个像素，取该像素的邻域计算一致性损失函数值减少了数据处理量，提高了数据处理效率。

S205、基于所述分类损失函数值和所述一致性损失函数值计算梯度。

具体地，每个像素的损失函数值包括分类损失函数值和一致性损失函数值，则步骤S205可以包括如下子步骤：

S2051，针对每一个像素，计算所述分类损失函数值对所述像素的第一梯度。

本发明实施例中，分类损失函数可以为最小均方差损失函数，则对公式1求偏导可以得到像素的第一梯度计算公式：

其中，

为对最小均方差损失函数求偏导后得到最小均方差损失函数对像素k的第一梯度，p_k为像素k的预测值，y_k为像素k的标签值。

S2052，计算所述像素的所述一致性损失函数值对所述像素的第二梯度。

具体地，针对每个待计算梯度像素，计算待计算梯度像素的邻域中每个邻域像素与待计算梯度像素的梯度，得到第三梯度，计算待计算梯度像素作为邻域像素时邻域的中心像素对待计算梯度像素的梯度，得到第四梯度，最后对第三梯度和第四梯度求和，得到待计算梯度像素的第二梯度。

如公式2为一致性损失函数的计算公式，在本发明实施例中，可以采用L1距离或者L2距离计算一致性损失函数，即公式2中n为1或者2。

当n＝1时，

简化为|p_i-p_j|，即L1距离，公式2简化为：

对上述公式3求偏导得到如下梯度计算公式：

其中，

为一致性损失函数l_ij对像素i的预测值p_i的梯度计算公式，

为一致性损失函数l_ij对像素j的预测值p_j的梯度计算公式。

当n＝2时，

简化为

即L2距离，则公式2简化为：

对上述公式6求偏导得到如下梯度计算公式：

其中，

为一致性损失函数l_ij对像素i的预测值p_i的梯度计算公式，

为一致性损失函数l_ij对像素j的预测值p_j的梯度计算公式。

则对于预测语义分割图像的一个像素k，一致性损失函数值对于像素k的梯度为：

其中，

表示以像素k为中心的邻域N_k内，邻域像素j与中心像素k的梯度；

表示在包含像素k的像素i(i≠k)的邻域N_i内，像素i对作为邻域像素k作用的梯度；

即一致性损失函数值对于像素k的梯度由

和

累加计算，即像素k为中心像素时，邻域像素对其有作用，当像素k作为其他中心像素的邻域像素时，也会对像素k有作用。

在实际应用中，本领域技术人员可以根据实际情况采用L1距离或者L2距离计算一致性损失函数值并相应的计算梯度，即取n为1或者2，本发明实施例对此不加以限制。

S2053，对所述第一梯度和所述第二梯度求和，得到所述像素的梯度。

具体地，每个像素的梯度包括分类损失函数值对像素的梯度和一致性损失函数值对像素的梯度，即对于像素k：

对于预测语义分割图，针对每个像素可以通过分类损失函数值计算第一梯度

通过一致性损失函数值计算第二梯度

然后对第一梯度和第二梯度求和得到像素的梯度。

S206、判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件。

具体地，针对每个像素，计算分类损失函数值和像素的一致性损失函数值的和值得到像素的总损失函数值，判断总损失函数值是否小于预设值；若是，则确定分类损失函数值和一致性损失函数值满足预设的迭代条件；若否，则确定分类损失函数值和一致性损失函数值不满足预设的迭代条件。

在实际应用中，每个像素具有一个总损失函数值，可以判断每个像素的总损失函数值是否满足预设迭代条件，也可以为每个像素设置权重，通过权重和总损失函数值计算最终的总损失函数值，以判断总损失函数值是否满足预设迭代条件，本发明实施例对此不加以限制。

S207、结束训练所述语义分割网络。

在总损失函数值满足预设迭代条件时，说明语义分割网络输出的预测语义分割图与标注语义分割图的误差较小，语义分割网络的精度达到要求，可以停止对语义分割网络进行训练。

S208、采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。

如果总损失函数值不满足预设迭代条件时，说明语义分割网络的精度还不足，则在全卷积神经网络进行后向传播过程中，采用每个像素的梯度与预设学习率对全卷积神经网络的网络参数进行更新，具体地，可以通过以下公式更新网络参数：

θ_i为网络参数，

为梯度，

为学习率。

初始学习率

可以设置为0.001，之后随着迭代次数的增加逐渐减少学习率，可选地，学习率的可以根据如下公式进行更新：

其中，epoch_num为一个迭代周期。

本发明实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后，根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，进一步根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学***稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图，从而提高用户的视觉体验。

进一步地，在训练过程，根据像素的邻域计算像素的一致性损失函数值，无需计算所有像素之间的一致性损失函数值，极大的提升了训练效率，同时在测试中，无需使用一致性损失函数值，不会增加原有语义分割网络的计算开销。

实施例三

图4为本发明实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图，本发明实施例可适用于对图像进行语义分割处理的情况，该方法可以由基于图像语义分割网络的图像处理装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，具体地，如图4所示，该方法可以包括如下步骤：

S301、获取目标图像。

在本发明实施例中，目标图像可以是待添加视频特效的图像。例如，可以是视频直播或者录制短视频过程中，用户选择美瞳、添加贴图、瘦脸等添加视频特效的操作时，视频直播APP检测到用户的操作，从摄像头采集到的视频帧中截取一帧包含人脸的图像作为目标图像，目标图像还可以是人脸认证时通过人脸认证装置采集到待认证人脸的人脸图像，还可以是用户对存储在本地的图像进行图像处理时的图像，本发明实施例对获取目标图像的方式不加以限制。

S302、将所述目标图像输入预先训练的语义分割网络中进行处理，以生成所述目标图像的语义分割图。

本发明实施例中，语义分割网络通过以下步骤训练：

S3021、获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

S3022、将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

S3023、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

S3024、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

S3021-S3024可参考实施例一和实施例二中的相关步骤，在此不再详述。

本发明实施例在获取目标图像后，可以将目标图像输入语义分割网络中提取到语义分割图，通过该语义分割图可以对图像进行相关处理，在本发明的一个应用示例中，可以根据语义分割图实现视频中对目标对象的跟踪处理，例如，对视频中的人物进行追踪处理。

本发明实施例在训练语义分割网络时，在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后，根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，进一步根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学***稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对目标图像处理后可以获得目标图像的高质量语义分割图，从而提高了用户的视觉体验。

实施例四

图5是本发明实施例四提供的一种语义分割网络的训练装置的结构框图，本发明实施例的语义分割网络的训练装置具体可以包括如下模块：

训练数据获取模块401，用于获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

预测语义分割图生成模块402，用于将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

损失函数值确定模块403，用于根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

参数调整模块404，用于根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

所述标注语义分割图包括像素的标签值，所述预测语义分割图包括像素的预测值，所述损失函数值确定模块403包括：

分类损失函数值子模块，用于采用所述像素的标签值和所述预测值，计算所述分类损失函数值；

一致性损失函数值计算子模块，用于采用所述像素的标签值和所述预测值，计算所述一致性损失函数值。

可选地，所述分类损失函数值子模块包括：

均方值计算单元模块，用于针对所述预测语义分割图中的每个像素，根据所述像素的标签值和预测值计算每个像素的均方值；

均方值求和单元，用于对所有像素的均方值求和以得到所述分类损失函数值。

可选地，所述一致性损失函数值计算子模块包括：

邻域确定单元，用于针对所述预测语义分割图中的每个中心像素，确定所述中心像素的邻域，所述邻域包括邻域像素，所述中心像素为待计算所述一致性损失函数值的像素；

第一损失值计算单元，用于针对每个邻域，计算所述中心像素与所述邻域像素的损失值，得到第一损失值；

第一损失值求和单元，用于对所述第一损失值求和，得到所述中心像素在所述邻域内的第二损失值；

一致性损失函数值计算单元，用于对所述中心像素在邻域内的所述第二损失值求和，得到所述中心像素的一致性损失函数值。

可选地，所述邻域确定单元包括：

邻域大小确定子单元，用于根据预设窗口大小确定所述邻域的大小；

邻域确定子单元，用于根据预设空洞因子和所述邻域的大小确定所述邻域。

可选地，所述第一损失值计算单元包括：

距离计算子单元，用于根据所述中心像素的预测值和所述邻域像素的预测值，计算所述中心像素与所述邻域像素的距离；

标签值获取子单元，用于获取所述中心像素的标签值和所述邻域像素的标签值；

第一计算子单元，用于当所述中心像素的标签值和所述邻域像素的标签值相等时，采用所述距离和预设的第一调节因子计算所述第一损失值；

第二计算子单元，用于当所述中心像素的标签值和所述邻域像素的标签值不相等时，采用所述距离和预设的第二调节因子计算所述第一损失值；

其中，所述第一调节因子为所述中心像素的标签值和所述邻域像素的标签值相等时需要调整所述距离的惩罚阈值，所述第二调节因子为所述中心像素的标签值和所述邻域像素的标签值不相等时需要调整所述距离的惩罚阈值。

可选地，所述参数调整模块404包括：

梯度计算子模块，用于基于所述分类损失函数值和所述一致性损失函数值计算梯度；

迭代条件判断子模块，用于判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件；

训练结束子模块，用于结束训练所述语义分割网络的；

参数更新子模块，用于采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。

可选地，所述梯度计算子模块包括：

第一梯度计算子模块，用于针对每一个像素，计算所述分类损失函数值对所述像素的第一梯度；

第二梯度计算子模块，用于计算所述像素的所述一致性损失函数值对所述像素的第二梯度；

梯度求和子模块，用于对所述第一梯度和所述第二梯度求和，得到所述像素的梯度。

可选地，所述迭代条件判断子模块包括：

总损失函数值计算单元，用于针对每个像素，计算所述分类损失函数值和所述像素的一致性损失函数值的和值，得到所述像素的总损失函数值；

损失函数值判断子单元，用于判断所述总损失函数值是否小于预设值；

满足预设迭达条件确定单元，用于确定所述分类损失函数值和所述一致性损失函数值满足预设的迭代条件；

不满足预设迭达条件确定单元，用于确定所述分类损失函数值和所述一致性损失函数值不满足预设的迭代条件。

可选地，所述第二梯度计算子模块包括：

第三梯度计算单元，用于针对每个待计算梯度像素，计算所述待计算梯度像素的邻域中每个邻域像素与所述待计算梯度像素的梯度，得到第三梯度；

第四梯度计算单元，用于计算所述待计算梯度像素作为邻域像素时邻域的中心像素对所述待计算梯度像素的梯度，得到第四梯度；

梯度求和单元，用于对所述第三梯度和所述第四梯度求和，得到所述待计算梯度像素的第二梯度。

可选地，所述语义分割网络为全卷积神经网络，所述参数更新子模块包括：

参数更新单元，用于在所述全卷积神经网络进行后向传播过程中，采用每个像素的梯度与预设学习率对所述全卷积神经网络的网络参数进行更新。

本发明实施例所提供的语义分割网络的训练装置可执行本发明任意实施例所提供的语义分割网络的训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6是本发明实施例五提供的一种基于语义分割网络的图像处理装置的结构框图，本发明实施例的基于语义分割网络的图像处理装置具体可以包括如下模块：

目标图像获取模块501，用于获取目标图像；

图像处理模块502，用于将所述目标图像输入预先训练的语义分割网络中进程处理，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过以下模块训练：

本发明实施例所提供的基于语义分割网络的图像处理装置可执行本发明任意实施例所提供的基于语义分割网络的图像处理方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图7，示出了本发明一个示例中的一种设备的结构示意图。如图7所示，该设备具体可以包括：处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是一个或者多个，图7中以一个处理器60为例。该设备中存储器61的数量可以是一个或者多个，图7中以一个存储器61为例。该设备的处理器60、存储器61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的语义分割网络的训练方法对应的程序指令/模块(例如，上述语义分割网络的训练装置中的训练数据获取模块401、预测语义分割图生成模块402、损失函数值确定模块403和参数调整模块404)，或如本发明任意实施例所述的基于语义分割网络的图像处理方法对应的程序指令/模块(例如，上述基于语义分割网络的图像处理装置中的目标图像获取模块501和图像处理模块502)。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏62为具有触摸功能的显示屏62，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏62用于根据处理器60的指示显示数据，还用于接收作用于显示屏62的触摸操作，并将相应的信号发送至处理器60或其他装置。可选的，当显示屏62为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏62的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器50或者其他设备。

通信装置65，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置63可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是，输入装置63和输出装置64的具体组成可以根据实际情况设定。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。

具体地，实施例中，处理器60执行存储器61中存储的一个或多个程序时，具体实现本发明实施例提供的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法的步骤。

值得注意的是，上述语义分割网络的训练装置和/或基于语义分割网络的图像处理装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语义分割网络的训练方法，其特征在于，包括：

2.如权利要求1所述的训练方法，其特征在于，所述标注语义分割图包括像素的标签值，所述预测语义分割图包括像素的预测值，所述根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值，包括：

采用所述像素的标签值和所述预测值，计算所述分类损失函数值；

采用所述像素的标签值和所述预测值，计算所述一致性损失函数值。

3.如权利要求2所述的训练方法，其特征在于，所述采用所述像素的标签值和所述预测值，计算所述分类损失函数值，包括：

针对所述预测语义分割图中的每个像素，根据所述像素的标签值和预测值计算每个像素的均方值；

对所有像素的均方值求和以得到所述分类损失函数值。

4.如权利要求3所述的方法，其特征在于，所述采用所述像素的标签值和所述预测值，计算所述一致性损失函数值，包括：

针对所述预测语义分割图中的每个中心像素，确定所述中心像素的邻域，所述邻域包括邻域像素，所述中心像素为待计算所述一致性损失函数值的像素；

针对每个邻域，计算所述中心像素与所述邻域像素的损失值，得到第一损失值；

对所述第一损失值求和，得到所述中心像素在所述邻域内的第二损失值；

对所述中心像素在邻域内的所述第二损失值求和，得到所述中心像素的一致性损失函数值。

5.如权利要求4所述的训练方法，其特征在于，所述针对所述预测语义分割图中的每个中心像素，确定所述中心像素的邻域，包括：

根据预设窗口大小确定所述邻域的大小；

根据预设空洞因子和所述邻域的大小确定所述邻域。

6.如权利要求5所述的训练方法，其特征在于，所述针对每个邻域，计算所述中心像素与所述邻域像素的损失值，得到第一损失值，包括：

根据所述中心像素的预测值和所述邻域像素的预测值，计算所述中心像素与所述邻域像素的距离；

获取所述中心像素的标签值和所述邻域像素的标签值；

当所述中心像素的标签值和所述邻域像素的标签值相等时，采用所述距离和预设的第一调节因子计算所述第一损失值；

当所述中心像素的标签值和所述邻域像素的标签值不相等时，采用所述距离和预设的第二调节因子计算所述第一损失值；

7.如权利要求1至6任一项所述的训练方法，其特征在于，所述根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整，包括：

基于所述分类损失函数值和所述一致性损失函数值计算梯度；

判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件；

若是，则结束训练所述语义分割网络的；

若否，采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。

8.如权利要求7所述的训练方法，其特征在于，所述基于所述分类损失函数值和所述一致性损失函数值计算梯度，包括：

针对每一个像素，计算所述分类损失函数值对所述像素的第一梯度；

计算所述像素的所述一致性损失函数值对所述像素的第二梯度；

对所述第一梯度和所述第二梯度求和，得到所述像素的梯度。

9.如权利要求8所述的训练方法，其特征在于，所述判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件，包括：

针对每个像素，计算所述分类损失函数值和所述像素的一致性损失函数值的和值，得到所述像素的总损失函数值；

判断所述总损失函数值是否小于预设值；

若是，则确定所述分类损失函数值和所述一致性损失函数值满足预设的迭代条件；

若否，则确定所述分类损失函数值和所述一致性损失函数值不满足预设的迭代条件。

10.如权利要求8所述的训练方法，其特征在于，所述计算所述像素的所述一致性损失函数值对所述像素的第二梯度，包括：

针对每个待计算梯度像素，计算所述待计算梯度像素的邻域中每个邻域像素与所述待计算梯度像素的梯度，得到第三梯度；

计算所述待计算梯度像素作为邻域像素时邻域的中心像素对所述待计算梯度像素的梯度，得到第四梯度；

对所述第三梯度和所述第四梯度求和，得到所述待计算梯度像素的第二梯度。

11.如权利要求8所述的训练方法，其特征在于，所述语义分割网络为全卷积神经网络，所述采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，包括：

在所述全卷积神经网络进行后向传播过程中，采用每个像素的梯度与预设学习率对所述全卷积神经网络的网络参数进行更新。

12.一种基于语义分割网络的图像处理方法，其特征在于，包括：

获取目标图像；

其中，所述语义分割网络通过权利要求1至11任一项所述的语义分割网络的训练方法训练。

13.一种语义分割网络的训练装置，其特征在于，包括：

14.一种基于语义分割网络的图像处理装置，其特征在于，包括：

目标图像获取模块，用于获取目标图像；

其中，所述语义分割网络通过权利要求13所述的语义分割网络的训练装置训练。

15.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器运行所述程序时执行如权利要求1-11中任一项所述的语义分割网络的训练方法的步骤和/或权利要求12所述的基于语义分割网络的图像处理方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的语义分割网络的训练方法的步骤和/或权利要求12所述的基于语义分割网络的图像处理方法的步骤。