CN112529904A

CN112529904A - 图像语义分割方法、装置、计算机可读存储介质和芯片

Info

Publication number: CN112529904A
Application number: CN201910883701.7A
Authority: CN
Inventors: 冯文森; 黄杨; 廖晶堂; 袁超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2021-03-19

Abstract

本申请提供了图像语义分割方法、计算机可读存储介质和芯片。涉及人工智能领域，具体涉及计算机视觉领域。该方法包括：对待处理图像进行卷积处理，得到待处理图像的初始特征图；对初始特征图进行多尺度特征提取，确定第一特征图，其中，第一特征图包括初始特征图的多尺度语义信息；对第一特征图进行卷积处理，得到待处理图像的目标特征图；根据目标特征图确定待处理图像的语义分割图。本申请能够提高语义分割的预测精度。

Description

图像语义分割方法、装置、计算机可读存储介质和芯片

技术领域

本申请实施例涉及计算机视觉领域，尤其涉及一种图像语义分割方法、装置、计算机可读存储介质和芯片。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主***中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工***从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成像***代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

在计算机视觉领域中，语义分割(semantic segmentation)是一个很重要的研究方向，语义分割为场景理解提供了比较高层级的信息，语意分割是对图像中的每一个像素进行分类，在很多领域和场景中都有重要的应用。例如，自动驾驶***，人机交互***，移动设备的摄影，图像搜索引擎以及增强现实应用。

传统方案在进行语义分割时，存在预测精度不高的问题。例如，传统方案可以先获取小尺寸的特征向量，然后再经过上采样后再继续提取特征。这种方式能够在高分辨率的条件下进一步提取特征，当整个模型深度增加时，能够得到更高层次的语义信息，扩大感受野，但是这种方式下由于每次特征提取后得到的图像特征均在同一路径中继续进行处理，导致对细节的预测精度不够高。

发明内容

本申请提供一种图像语义分割方法、装置、计算机可读存储介质和芯片，以提高语义分割图的精度。

第一方面，提供了一种图像语义分割方法，包括：获取待处理图像；对该待处理图像进行卷积处理，以得到该待处理图像的初始特征图；对该初始特征图进行多尺度特征提取，以得到第一特征图，其中，该第一特征图包括上述初始特征图的多尺度语义信息；对该第一特征图进行卷积处理，以得到上述待处理图像的目标特征图；根据该目标特征图确定上述待处理图像的语义分割图。

根据本申请实施例的方案，通过提取多尺度语义信息，对包含多尺度语义信息的特征图调整尺寸后再进行特征提取，能够扩大感受野，提升图像特征的特征表达能力，从而提高语义分割图的预测精度。

可选地，上述获取图像，包括：通过摄像头拍摄以获取图像。

例如，对于手机来说，可以通过拍摄获取的图像。

可选地，上述获取图像，包括：从存储器中获取图像。

例如，对于手机来说，可以从相册中选取图像。

在得到图像的初始特征图时，具体可以通过对图像进行卷积操作(卷积处理)，或者是对图像的卷积操作的结果做进一步的处理(例如，进行求和、加权处理、连接等操作)得到初始特征图。

对上述初始特征图进行多尺度特征提取，确定第一特征图，具体可以通过对初始特征图提取不同尺度的特征图，得到初始特征图的多尺度语义信息。多尺度语义信息指的是该第一特征图的每个像素的像素值表示初始特征图上多个不同尺度的子区域内的像素的像素值的统计信息。

例如，可以通过不同的卷积核对初始特征图进行卷积，以得到不同尺度的特征图。再如，还可以通过不同的采样率对初始特征图进行池化处理，以得到不同尺度的特征图。

结合第一方面，在第一方面的某些实现方式中，在对上述初始特征图进行多尺度特征提取之前，所述方法还包括：对上述初始特征图进行降维处理，以得到降维处理后的特征图；对上述初始特征图进行多尺度特征提取，以得到第一特征图包括：对降维处理后的特征图进行多尺度特征提取，以得到上述第一特征图。

根据本申请实施例的方案，通过对初始特征图进行降维处理，能够减少初始特征图的通道数，提高对图像进行语义分割的运算速度，因此，本申请能够在提高语义分割精度的同时提高对图像进行语义分割的运算速度。

结合第一方面，在第一方面的某些实现方式中，所述对所述降维处理后的特征图进行多尺度特征提取，以得到上述第一特征图，包括：对所述降维处理后的特征图分别进行多次不同采样率的池化处理，以得到多个尺度的特征图；对所述多个尺度的特征图分别进行上采样处理，以得到上采样处理后的多个特征图；将所述上采样处理后的多个特征图与所述初始特征图进行特征融合，以得到上述第一特征图。

其中，上述多个尺度的特征图为多个特征图，该多个特征图分别具有不同的尺度。

可选地，上述将上采样得到的多个特征图与上述初始特征图进行特征融合，可以为将上采样得到的多个特征图与上述初始特征图进行通道(维度)拼接。

根据本申请实施例的方案，通过降维处理减少了通道数，进而减少了计算量，能够提高运算速度；保留了空间金字塔池化的特性，能够提取不同尺寸大小不同子区域的多尺度语义信息，消除了卷积神经网络的固定大小的约束，提高了预测精度。

结合第一方面，在第一方面的某些实现方式中，对上述第一特征图进行卷积处理，包括：对上述第一特征图进行尺寸调整，以得到第二特征图，所述第二特征图的尺寸大于所述第一特征图的尺寸；对上述第二特征图进行卷积处理，以得到所述待处理图像的目标特征图。

结合第一方面，在第一方面的某些实现方式中，上述初始特征图包括至少两个尺寸不同的特征图，所述对上述第二特征图进行卷积处理，以得到上述待处理图像的目标特征图，包括：将上述初始特征图中与上述第二特征图的尺寸大小相同的特征图和上述第二特征图进行特征融合，以得到第三特征图；对上述第三特征图进行卷积处理，以得到上述待处理图像的目标特征图。

例如，初始特征图中与上述第二特征图的尺寸大小相同的特征图为特征图A，将上述初始特征图中与上述第二特征图的尺寸大小相同的特征图和该第二特征图进行特征融合可以为，将特征图A与第二特征图进行特征融合。

结合第一方面，在第一方面的某些实现方式中，对上述第三特征图进行卷积处理，以得到上述待处理图像的目标特征图，包括：通过m个卷积层对所述第三特征图进行卷积处理，以得到从第m个卷积层输出的特征图，其中，所述m个卷积层中的第i个卷积层的输入为第i-1个卷积层输出的特征图，以及与上述初始特征图中与第i-1个卷积层输出的特征图的尺寸大小相同的特征图，m为大于1的整数，1<i≤m，i为整数；根据从第m个卷积层输出的特征图确定上述待处理图像的目标特征图。

可选地，根据从第m个卷积层输出的特征图确定上述待处理图像的目标特征图可以为将从第m个卷积层输出的特征图确定为上述待处理图像的目标特征图。

结合第一方面，在第一方面的某些实现方式中，所述根据第m个卷积层输出的特征图确定上述待处理图像的目标特征图，包括：对从第m个卷积层输出的特征图进行多尺度特征提取，以得到第四特征图，所述第四特征图包括第m个卷积层输出的特征图的多尺度语义信息；根据所述第四特征图确定上述目标特征图。

可选地，根据所述第四特征图确定目标特征图可以为将第四特征图确定为目标特征图。

结合第一方面，在第一方面的某些实现方式中，根据上述目标特征图确定所述待处理图像的语义分割图，包括：对上述第四特征图和上述m个卷积层中的至少一个卷积层输出的特征图分别进行上采样处理，以得到至少两个尺寸相同的特征图；对上述至少两个尺寸相同的特征图进行特征融合处理，以得到上述目标特征图；根据该目标特征图确定所述待处理图像的语义分割图。

根据所述目标特征图确定所述待处理图像的语义分割图，具体可以通过分类器对所述目标特征图进行处理，得到所述待处理图像的语义分割图。

结合第一方面，在第一方面的某些实现方式中，所述待处理图像包括所述待处理图像的亮度值信息和惯性测量单元(inertial measurement unit，IMU)信息。

结合第一方面，在第一方面的某些实现方式中，将所述IMU信息进行尺寸调整，尺寸调整后的IMU信息的尺寸与所述待处理图像的尺寸相同；将所述尺寸调整后的IMU信息与所述待处理图像的亮度值信息进行特征通道拼接。

例如，待处理图像的尺寸为H₀*W₀，高度为H₀，宽度为W₀，待处理图像包括P个通道的亮度值信息，将IMU信息的尺寸扩展为H₀*W₀，作为第P+1个通道。因此待处理图像的通道数为P+1，待处理图像的分辨率为H₀*W₀*(P+1)。

根据本申请实施例的方案，在图像拓扑信息较少时，通过加入IMU信息能够增加一维图像信息，可以有效提升预测的正确率。

第二方面，提供了一种图像语义分割网络的训练方法，该方法包括：获取训练数据，所述训练数据包括训练图像以及训练图像对应的标签图，该训练图像和标签图是一一对应的；根据图像语义分割网络对训练图像进行以下处理：对上述训练图像进行卷积处理，得到上述训练图像的初始特征图；对该初始特征图进行多尺度特征提取，确定第一特征图，其中，该第一特征图包括上述初始特征图的多尺度语义信息；对该第一特征图进行卷积处理，得到上述训练图像的目标特征图；根据上述目标特征图确定上述训练图像的语义分割图，确定图像语义分割网络的损失值，然后根据该损失值对图像语义分割网络通过反向传播进行调整。

上述训练图像对应的标签图可以是预先(具体可以是通过人工进行标注)标注好的。训练图像对应的标签图中包括训练图像中每个像素对应的类别标签。

另外，在上述训练的过程中，采用的训练图像一般是多个。训练图像包括该训练图像的亮度值信息和IMU信息。

在对上述图像语义分割网络进行训练的过程中，可以为图像语义分割网络设置一套初始的模型参数，然后根据标签图与训练图像的语义分割结果的差异来逐渐调整图像语义分割网络的模型参数，直到标签图与训练图像的语义分割结果之间的差异在一定的预设范围内，或者，当训练的次数达到预设次数时，将此时的图像语义分割网络的模型参数确定为该图像语义分割网络模型的最终的参数，这样就完成了对图像语义分割网络的训练了。

应理解，通过上述第二方面的方法训练得到的图像语义分割网络能够用于执行本申请第一方面中的方法。

应理解，在本申请中，在描述或者说明本申请实施例的图像语义分割方法时出现的特征图均是指针对待处理图像而言的，而在本申请实施例的图像语义分割网络训练方法中，特征图均是指针对训练图像而言的。

第三方面，提供了一种图像语义分割装置，该装置包括用于执行第一方面中的方法的各个模块。

第四方面，提供了一种图像语义分割网络的训练装置，该装置包括用于执行上述第二方面中的方法中的各个模块。

第五方法，提供了一种图像语义分割装置，该装置包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行第一方面中的方法。

第六方面，提供了一种图像语义分割网络的训练装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述第二方面中的方法。

第七方面，提供了一种电子设备，该电子设备包括上述第三方面或者第五方面中的图像语义分割装置。

在上述第七方面中，电子设备具体可以是移动终端(例如，智能手机)，平板电脑，笔记本电脑，增强现实/虚拟现实设备以及车载终端设备等等。

第八方面，提供了一种计算机设备，该计算机设备包括上述第四方面或者第六方面中的图像语义分割网络的训练装置。

在上述第八方面中，计算机设备具体可以是服务器或者云端设备等等。

第九方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面或者第二方面中的方法的步骤的指令。

第十方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或者第二方面中的方法。

第十一方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第一方面或者第二方面中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或者第二方面中的方法。

上述芯片具体可以是现场可编程门阵列FPGA或者专用集成电路ASIC。

应理解，本申请中，第一方面的方法具体可以是指第一方面以及第一方面中各种实现方式中的任意一种实现方式中的方法。第二方面的方法具体可以是指第二方面以及第二方面中各种实现方式中的任意一种实现方式中的方法。

附图说明

图1是本申请实施例提供的***架构的结构示意图；

图2是本申请实施例提供的根据FCN模型进行语义分割的示意图；

图3是本申请实施例提供的一种芯片硬件结构示意图；

图4是本申请实施例提供的一种图像语义分割网络训练的示意流程图；

图5是本申请实施例提供的一种图像语义分割网络的训练方法的示意性框图；

图6是本申请实施例提供的一种图像语义分割网络的***架构的示意性框图；

图7是本申请实施例提供的一种图像语义分割装置的示意性框图；

图8是本申请实施例提供的一种的图像语义分割方法示意性流程图；

图9是本申请实施例的瓶颈结构的示意性框图；

图10是本申请实施例提供的一种图像语义分割网络的示意性框图；

图11是本申请实施例提供的一种TPP的示意性框图；

图12是本申请实施例的图像语义分割网络训练装置的示意性框图；

图13是本申请实施例的图像语义分割网络训练装置的硬件结构示意图；

图14是是本申请实施例的图像语义分割装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例提供的图像语义分割方法能够应用在自动驾驶***、人机交互***、移动设备的摄影、图像搜索引擎以及增强现实应用等需要进行语义分割的领域。下面分别对两种常用的应用场景进行简单的介绍。

应用场景一：移动设备拍照效果优化

移动设备摄像发展迅速，从以前简单的记录场景发展到媲美专业照相机，这其中也应用了计算机视觉技术。在移动设备拍照的过程中，为了获得更好的拍摄效果，突出被拍摄的物体，需要对图像进行语义分割。

具体地，对图像进行语义分割，通过获取图像中的语义信息，识别出不同物体，进而能够对不同的物体进行不同的处理。

其中，对图像进行语义分割可以由本申请实施例的图像语义分割方法来执行，根据语义分割能够识别出不同的物体，便于识别出拍摄主体，进而可以实现对拍摄主体的突出，优化拍照结果。

应用场景二：自动驾驶***

自动驾驶***(autonomous driving system，ADS)需要使用到各种各样的网络，包含目标检测、图像识别、语义分割以及3D姿态估计等等。这些复杂的网络可以提供丰富的场景信息，代替驾驶者驾驶汽车，实现安全行驶。

具体地，自动驾驶***中需要进行语义分割，也就是对整个场景以像素精度高速地进行语义层面的划分，例如这个像素属于车辆，另外一个像素属于护栏等。接下来，从像素折算到物理距离，***就可以完成整个场景的完整建模。像素级的定位精度能够得到车辆的较精确轮廓，这样可以完成准确的旁侧距离计算；同时，检测出来的护栏、车道线和路面等元素可以辅助车辆较精确位置的判断。

其中，语义分割可以由本申请实施例的图像语义分割方法来执行。根据语义分割能够确定图像中的不同物体，进而实现对车辆旁侧距离的计算以及对车辆位置的判断。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)语义分割

不同于传统的基于灰度、颜色、纹理和形状等特征的图像分割问题，语义分割通常是像素级别的，即将图像中的每一个像素点都标上特定的类别。语义分割就是指的在分割出图像中不同类别的物体之后，还能够对这些物体进行分类。语义分割通常是将图像作为输入，以语义分割图(预测图)作为输出，分割图中的每一个像素包含了该像素对应的类别的标签。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以如公式(1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，该激活函数用于对神经网络中的特征进行非线性变换，将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例，假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)残差网络

残差网络是在2015年提出的一种深度卷积网络，相比于传统的卷积神经网络，残差网络更容易优化，并且能够通过增加相当的深度来提高准确率。残差网络的核心是解决了增加深度带来的副作用(退化问题)，这样能够通过单纯地增加网络深度，来提高网络性能。残差网络一般会包含很多结构相同的子模块，通常会采用残差网络(residualnetwork，ResNet)连接一个数字表示子模块重复的次数，比如ResNet50表示残差网络中有50个子模块。

(6)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(7)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的数值，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

下面结合图1对本申请实施例的***架构进行详细的介绍。

图1是本申请实施例的***架构的示意图。如图1所示，***架构100包括执行设备110、训练设备120、数据库130、客户设备140、数据存储***150、以及数据采集***160。

另外，执行设备110包括计算模块111、I/O接口112、预处理模块113和预处理模块114。其中，计算模块111中可以包括目标模型/规则101，预处理模块113和预处理模块114是可选的。

数据采集设备160用于采集训练数据。针对本申请实施例的图像语义分割方法来说，训练数据可以包括训练图像以及训练图像对应的标签图，其中，标签图中给出训练图像中的每个像素对应的类别标签。进一步地，训练数据还可以包括训练图像对应的惯性测量单元(inertial measurement unit，IMU)信息。惯性测量单元(inertial measurementunit，IMU)信息可以包括位姿信息，例如训练图像的拍摄角度信息。将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的训练图像进行语义分割，将输出的语义分割结果(图像中每个像素对应的类别的预测值)与标签图进行对比，直到训练设备120输出的语义分割结果与标签图的差异小于一定的阈值，从而完成目标模型/规则101的训练。

上述目标模型/规则101能够用于实现本申请实施例的图像语义分割方法，即，将待处理图像输入该目标模型/规则101(可以先进行相关的预处理，然后再输入到目标模型/规则101)，即可得到待处理图像的语义分割结果。本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的***或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图1中，执行设备110配置有输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待处理图像。进一步地，所述输入数据还可以包括待处理图像对应的IMU信息。这里的客户设备140具体可以是终端设备。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待处理图像)进行预处理，在本申请实施例中，可以没有预处理模块113和预处理模块114或者只有的一个预处理模块。当不存在预处理模块113和预处理模块114时，可以直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储***150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储***150中。

最后，I/O接口112将处理结果，如将目标模型/规则101计算得到的语义分割结果呈现给客户设备140，从而提供给用户。

具体地，经过计算模块111中的目标模型/规则101处理得到的语义分割结果可以通过预处理模块113(也可以再加上预处理模块114的处理)的处理后将处理结果送入到I/O接口，再由I/O接口将处理结果送入到客户设备140中显示。

应理解，当上述***架构100中不存在预处理模块113和预处理模块114时，计算模块111还可以将处理得到的语义分割结果传输到I/O接口，然后再由I/O接口将处理结果送入到客户设备140中显示。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图1仅是本申请实施例提供的一种***架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图1中，数据存储***150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储***150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，可以是本申请实施例中的神经网络，具体的，本申请实施例提供的神经网络可以是全卷积网络(fullyconvolutional networks，FCN)等等。在本申请实施例提供的神经网络中，所述骨干网络和所述子网络都可以是全卷积网络。

如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

卷积神经网络(CNN)可以包括输入层，卷积层/池化层(其中池化层为可选的)，以及全连接层(fully connected layer)。将全连接层替换为卷积层，可以得到全卷积网络。如图2所示，全卷积网可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及卷积层230。下面对这些层的相关内容做详细介绍。

卷积层/池化层220：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积(convolution，Conv)操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得全卷积网络200进行正确的预测。

当全卷积网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着全卷积网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

卷积层230：

在经过卷积层/池化层220的处理后，全卷积网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，全卷积网络200需要利用卷积层230来生成一个或者一组所需要的类的数量的输出热图(heatmap)。因此，在卷积层230中可以包括多层卷积层(如图2所示的231、232至23n)以及输出层240，该多层卷积层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括语义分割等等……

整个全卷积网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个全卷积网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少全卷积网络200的损失，及全卷积网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的全卷积网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

下面介绍本申请实施例提供的一种芯片硬件结构。

图3为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。

神经网络处理器(neural-network processing unit，NPU)作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU为其分配任务。NPU的核心部分为运算电路303，通过控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行乘加运算。

在一些实现中，运算电路303内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路303从权重存储器302中取矩阵B的权重数据，并缓存在运算电路303中的每一个PE上。运算电路303从输入存储器301中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

向量计算单元307多个运算处理单元，在需要的情况下，对运算电路303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元307可以用于神经网络中非卷积层，或全连接层(fully connected layers，FC)的计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local responsenormalization)等。

在一些实现中，向量计算单元307将经处理的向量存储到统一存储器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。在一些实现中，经向量计算单元307处理过的向量能够用作运算电路303的激活输入，例如用于神经网络中后续层中的使用。

统一存储器306用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器305(direct memory accesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302，以及将统一存储器306中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)310，用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。

控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器304使用的指令；

控制器304，用于调用指存储器309中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为片上(on-chip)存储器。外部存储器独立于该NPU硬件架构。该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

另外，神经网络中各层的运算可以由运算电路303或向量计算单元307执行。

图4示出了本申请实施例提供的一种图像语义分割网络训练的示意流程图。将训练数据输入图像语义分割网络进行训练，输出训练好的图像语义分割网络。

示例性地，训练数据包括训练图像I＝{I₁,I₂,...,I_r}和训练图像对应的标签图L＝{L₁,L₂,...,L_r}。其中，r表示训练图像数量，训练图像和标签图是一一对应的，训练图像对应的标签图的数量也为r。为了方便描述，训练图像和对应的标签图可以称为图像-标签图对。训练图像对应的标签图中包括训练图像中每个像素对应的类别标签。该训练图像对应的标签图可以是预先(具体可以是通过人工进行标注)标注好的。

例如，训练图像可以为RGB(红(red，R)，绿(green，G)，蓝(blue，B))图像。再例如，训练图像也可以为灰度图。

进一步地，上述训练图像除了包括亮度值信息外，还可以包括训练图像对应的惯性测量单元(inertial measurement unit，IMU)信息。例如，上述IMU信息可以为训练图像的拍摄角度信息。上述IMU信息可以通过IMU模块获取。

具体地，可以将训练图像的IMU信息和训练图像的亮度值信息进行整合，用于图像语义分割网络训练。例如，所述训练图像为RGB图像，则将IMU信息扩展为RGB图像的尺寸，并和RGB图像的亮度值整合之后，图像语义分割网络的输入为四个通道的训练图像。上述训练图像包括三个通道(R、G、B)的亮度值信息以及一个通道的IMU信息。

将IMU信息作为训练图像的一维输入，能够辅助图像语义分割网络的训练。

另外，在上述训练的过程中，采用的训练图像一般是多个。

图5为本申请实施例提供的一种图像语义分割网络的训练方法500。图5所示的方法可以由本申请实施例中的图像语义分割装置来执行，具体地，图5所示的方法可以由图12所示的图像语义分割装置1200执行。

图5所示的方法包括步骤S510至S550，下面分别对这些步骤进行详细的介绍。

S510，获取训练数据。

S520，扩充训练数据。

通过扩充训练数据，进行数据增强，能够采用更多的训练数据进行训练，进而使得训练得到的图像语义分割网络在进行语义分割时具有更高的预测精度。

扩充训练数据也可以说是增加训练图像的数量。具体地，扩充训练数据的方式可以包括以下几种。

A-1：对训练图像进行水平镜像处理。

A-2：对训练图像进行随机放缩处理。例如，可以对训练图像随机进行0.5到2倍的缩放处理。

A-3：对训练图像进行随机裁剪处理。由于放缩处理会改变训练图像的尺寸大小，需要将图片裁剪为固定的尺寸大小输入图像语义分割网络。

S530，初始化图像语义分割网络参数。

示例性的，图像语义分割网络可以采用Mobilenetv2(mobilenetworkV2)网络，可以利用tensorflow官方提供的Mobilenetv2网络的参数进行初始化，该Mobilenetv2网络的参数是在数据集(ImageNet)下进行预训练后的参数，有更好的图像理解能力，相当于对图像语义分割网络进行预训练，有利于图像语义分割网络之后的训练。

S540，设置训练的迭代次数，进行网络训练。在每次迭代中执行以下步骤。

S541，从I＝{I₁,I₂,...,I_n}和L＝{L₁,L₂,...,L_n}中采样k个图像-标签图对，得到用于训练的子集。

S542，进行前向预测，计算损失。

具体地，将上述子集中的图像作为输入，输出语义分割的预测结果，该预测结果为预测的标签图，预测的标签图中包括图像中每个像素对应的预测类别标签。

将预测的标签图与标签图进行比较，具体地，可以采用公式(2)计算。

L＝L_adapt+γL_weight (2)

其中，L表示损失函数，γ其中是超参数，用于控制损失的重要程度，例如，该值可以设置为1。损失函数包括两部分，第一部分为交叉熵损失L_adapt，第二部分为正则化损失L_weight。计算交叉熵损失L_adapt，具体地，可以采用公式(3)计算。

其中，N表示训练图像中的像素的数量，p_i表示像素i的预测类别标签与标签图中对应的像素的类别标签为同一类别的预测值，i∈[0,N-1]，i为整数，p_j表示像素的预测类别为类别j的预测值，j∈[0，K-1]，j为整数，K表示像素类别数，K为正整数。

计算正则化损失L_weight，具体地，可以采用公式(4)计算。

其中，α表示正则化损失的权重，例如，α可以设置为0.0001，w表示所有变量的参数。正则化损失可以通过减少特征，并惩罚不重要的特征的权重来缓解过拟合。

S543，判断当前迭代次数是否达到指定次数，如果当前迭代次数达到指定次数，则训练完成，进入S550；如果当前迭代次数没有达到指定次数，则进入S544。

S544，反向传播，更新参数，进入S441。

具体地，可以利用Adam优化器更新参数，其中初始学习率可以设置为0.0001，计算学习率，具体地，可以采用公式(5)计算。

其中lr_t-1表示上一次迭代使用的学习率，lr_t表示本次迭代使用的学习率，step表示当前迭代次数，Iters表示总的迭代次数，也就是S442中的指定次数，power代表动量，power是一个超参数，例如，power可以设置为0.9。

S550，输出训练结果，也就是输出训练好的图像语义分割网络。

所述方法500具体可以由如图1所示的训练设备120执行，所述方法500中的训练图像可以是如图1所示的数据库130中维护的训练数据。

可选的，所述方法500可以由CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

所述训练设备120具体可以用于训练本申请实施例提供的图像语义分割网络。图6是本申请实施例的图像语义分割网络的***架构的示意图。

如图6所示，输入图片经过图像语义分割网络进行处理，可以得到输入图片中每个像素对应的类别标签，也就是语义分割结果，也可以称为分割图或标签图。

图6所示的图像语义分割网络包括骨干网络(backbone)模块、空间金字塔池化模块(spatial pyramid pooling，SPP)、上采样(upsampling)模块、子网络模块以及输出模块。图6中的图像语义分割网络可以执行本申请实施例的图像语义分割方法，下面对图像语义分割网络对输入图像进行处理的过程进行大致的介绍。

在获取到输入图像后，骨干网络模块对输入图像进行卷积处理，得到输入图像的初始特征图。SPP可以对初始特征图进行多尺度特征提取，以得到第一特征图，所述第一特征图包括初始特征图的多尺度语义信息。第一特征图包括初始特征图的多尺度(scale)语义信息也就是提取初始特征图的多尺度语义信息。上采样模块对第一特征图进行尺寸(size)调整，得到第二特征图，第二特征图的尺寸大于第一特征图的尺寸。子网络模块对第二特征图进行特征提取，得到所述输入图像的目标特征图。输出模块对目标特征图中的像素进行分类，得到分割图(标签图)。

本申请实施例的图像语义分割网络的落地产品形态可以是自动驾驶、终端设备、监控设备等，本申请实施例部署在相关设备的计算节点上，通过软件改造，能够提升语义分割的速度和准确率。

本申请实施例的图像语义分割装置可以如图7所示，该图像语义分割装置主要包括骨干网络模块710、SPP 720、上采样模块730、子网络模块740以及输出模块750。

为了更好地了解本申请实施例的图像语义分割方法的执行过程，下面先对图7中的各个模块的功能进行简单的描述。

骨干网络模块710，用于对输入图像(也可以称为图片)进行特征提取，得到输入图像的初始特征图。进一步地，所述特征提取可以为一系列的卷积处理，所述一系列的卷积处理也可以说是输入图像经过多个卷积层的卷积处理，得到初始特征图。在该情况下初始特征图可以包括多个特征图，初始特征图中的多个特征图的尺寸可以不同。

骨干网络模块710中的骨干网络可以有多种实现方式，例如，MobileNetV2网络、VGG网络(牛津大学的视觉几何组(visual geometry group)提出一种网络)和深度残差网络(deep residual network，ResNet)等。

SPP 720，用于对骨干网络产生的初始特征图进行多尺度特征提取，以得到第一特征图，该第一特征图包括初始特征图的多尺度语义信息。

上采样模块730，用于对SPP720输出的第一特征图进行尺寸调整。具体地，调整第一特征图的尺寸也就是通过上采样将第一特征图尺寸进行放大，得到第二特征图。例如，上采样的方式可以包括反卷积或双线性差值等。通过上采样模块能够恢复图像的分辨率。

子网络模块740用于对上采样输出的特征图进行特征提取，得到输入图像的目标特征图。进一步地，所述特征提取可以为一系列的卷积处理，所述一系列的卷积处理也可以说是第二特征图经过多个卷积层的卷积处理，得到目标特征图。在该情况下目标特征图可以包括多个特征图，目标特征图中的多个特征图的尺寸可以不同。

这样，通过上采样模块的分辨率恢复，子网络模块可以在高分辨率的情况下进一步提取特征，提高了图像特征的表达能力。

进一步地，子网络模块的结构可以和骨干网络相同。

输出模块750，用于对目标特征图进行处理，得到输入图像中每个像素对应的类别标签。

下面结合图8对本申请实施例的图像语义分割方法800进行详细描述。图8是本申请实施例的图像语义分割方法的示意性流程图。图8所示的方法可以由本申请中的图像语义分割装置来执行。方法800包括S810至S880。

S810，获取待处理图像。

上述图像可以是各种图像，例如，通过手机或者其他智能终端拍摄的图像，辅助/自动驾驶***获取的道路画面图像。

进一步地，待处理图像不仅包括待处理图像的亮度值信息，还可以包括与待处理图像对应的IMU信息，例如所述待处理图像的拍摄角度信息。上述IMU信息可以通过IMU模块获取。

具体地，可以将待处理图像的IMU信息和待处理图像的亮度值信息进行整合。例如，所述待处理图像为RGB图像，则将IMU信息的尺寸扩展为RGB图像的尺寸，并和RGB图像的亮度值信息整合之后，图像语义分割网络的输入为四个通道的待处理图像。其中，待处理图像可以包括三个通道(R、G、B)的亮度值信息以及一个通道的IMU信息。

在上述S810中，既可以通过摄像头拍摄来获取图像，也可以从存储器中获取图像。

可替换地，所述待处理图像的IMU信息并不限于应用于本申请实施例中的图像语义分割网络，还可以应用于其他图像语义分割网络。例如，可以将待处理图像的IMU信息和待处理图像的亮度值信息进行整合。待处理图像包括待处理图像的亮度值信息和待处理图像对应的IMU信息。将该待处理图像输入其他图像语义分割网络，得到语义分割结果。

在图像拓扑信息较少时，加入IMU信息可以有效提升预测的正确率。例如图像中只有大面积地面和墙面，不加入角度信息得到的语义分割结果较差，可能会出现天花板等错误分割，地面、天花板、墙面有明显的空间位置信息，室内情况下往下拍摄一般拍到的都是地面，往上拍摄一般是天花板，水平拍摄大概率是墙面，因此加入IMU信息，可以增加图像分割准确率。

应理解，图8所示的方法也可以直接从S820开始。

S820，对所述待处理图像进行特征提取，得到待处理图像的初始特征图。

在S820得到初始特征图时，具体可以通过对待处理图像进行一系列卷积操作(卷积处理)，或者是对图像的卷积操作结果做进一步的处理(例如，进行求和、加权处理、连接等操作)得到初始特征图。

在S820中，可以通过上述图像语义分割网络中的骨干网络(模块)对图像进行卷积处理，得到初始特征图。

骨干网络可以提取待处理图像的语义信息与图像的上下文信息，在逐步缩小图像分辨率的同时扩大图像特征的感受野。

该骨干网络可以采用多种卷积网络架构，例如，MobileNetV2网络、VGG网络和ResNet网络等。

上述初始特征图可以包含多个通道。假设输入图像的分辨率为H₀*W₀*3(高度H₀，宽度W₀，通道数为3，也就是RBG三个通道)，那么经过卷积处理后可以得到初始特征图U∈H*W*K，其中，H和W分别表示初始特征图的高度和宽度，K表示初始特征图的通道数。本申请实施例中的尺寸指的是特征图的高度和宽度。

上述S820中在对图像进行特征提取时，可以为图像经过多个卷积层依次进行卷积处理。以骨干网络为MobileNetV2网络为例，对图像进行卷积操作(卷积处理)可以为通过瓶颈(bottleneck)结构进行卷积处理得到初始特征图，瓶颈结构可以如图9所示。

具体地，采用瓶颈结构对待处理图像进行卷积操作，一个卷积层的卷积操作可以包括以下过程：对待处理图像进行点卷积(Conv1×1)，以扩张通道数；进行批标准化(batchnormalization，BN)，将输入进行归一化；进行深度可分离卷积(depthwise convolution，Depthwise Conv)，以提取特征；进行BN，将输入进行归一化；进行点卷积，压缩通道数，得到一个卷积层的卷积操作后的特征图。

表1示出了本申请一个实施例中的骨干网络采用MobileNetV2网络的参数设置。其中第一列为输入不同卷积层的尺寸，第二列为运算符(operator)处理过程，conv2d表示卷积，其中t表示扩张因子，c表示通道数，n表示重复次数，s表示步幅(stride)。

表1

图10示出了本申请另一个实施例的图像语义分割网络的结构示意图。下面结合图10对步骤S820进行说明。

待处理图像的尺寸为640×480，经过表1所示的参数配置的骨干网络的卷积处理，可以得到五种不同尺寸的特征图，S820中的初始特征图可以包括五种不同尺寸的特征图，这五种不同尺寸的特征图分别为特征图f1(尺寸为320×240)、特征图f2(尺寸为160×120)、特征图f3(尺寸为80×60)、特征图f4(尺寸为40×30)和特征图f5(尺寸为20×15)。图10中仅示出了特征图f3(尺寸为80×60)、特征图f4(尺寸为40×30)和特征图f5(尺寸为20×15)。应理解，图像经过一个卷积层的处理，其尺寸不一定会改变。图10中的骨干网络仅示出了四个卷积层，但图10中的骨干网络可以包括多于四个卷积层。

如果骨干网络中存在至少一个卷积层，该卷积层输出的特征图尺寸与输入该卷积层的特征图尺寸相同，则具有相同尺寸的初始特征图不只一个。

示例性地，本申请实施例中的“与初始特征图中相同尺寸(尺寸A)的特征图进行特征融合”，如果初始特征图中尺寸为尺寸A的特征图不只一个，则可以为从初始特征图中的尺寸为尺寸A的特征图任意选择一个或多个特征图进行融合，也可以为与初始特征图中尺寸为尺寸A的特征图全部进行特征融合，还可以与从上述尺寸为A的特征图中选择最后一个输出的特征图。例如，与初始特征图中尺寸为40×30的特征图进行融合，也就是和特征图f4进行特征融合，特征图f4可以为表1中的分辨率为40×30×64的特征图，也可以为分辨率为40×30×96的特征图，还可以为分辨率为40×30×(64+96)的特征图。

当初始特征图由多个特征图组成时，在后续对初始特征图进行处理的过程中，可以选择任意一个特征图输入到后续的TPP继续进行处理。优选地，可以选择骨干网络最后一个卷积层输出的特征图f5输入到后续的TPP中继续处理。最后一个卷积层输出的特征图f5(32×)的尺寸为20×15，也就是待处理图像的1/32，具有更大的感受野，图像特征的表达能力更强。

采用MobileNetV2网络作为骨干网络，能够大大减少模型参数量和浮点运算次数，该网络占用的空间更小，降低了计算量，提高了运行速度。此外，骨干网络移植到移动端需要使用开源软件库tensorflow，tensorflow中提供了MobileNetV2网络的预训练模型，经过数据集(ImageNet)预训练后的骨干网络拥有更强大的语义理解能力。

应理解，上述卷积过程以及图10中的骨干网络仅为示例，本申请实施例中对卷积处理时采用的网络，卷积处理的次数等等不做限定。

S830，对所述初始特征图进行多尺度特征提取，以得到第一特征图，其中，所述第一特征图包括所述初始特征图的多尺度语义信息。

对所述初始特征图进行多尺度特征提取，确定第一特征图，具体可以通过对初始特征图提取不同尺度的特征图，得到初始特征图的多尺度语义信息。

例如，可以通过不同的卷积核对初始特征图进行卷积，以得到不同尺度的特征图。再例如，可以通过不同的采样率对初始特征图进行池化处理，以得到不同尺度的特征图。

进一步地，可以先对上述初始特征图进行降维处理，然后对降维处理得到的特征图进行多尺度特征提取，确定第一特征图。

具体地，可以通过小型金字塔池化模块(tiny pyramid polling module，TPP)对初始特征图进行处理得到第一特征图。

图11中示出了本申请一个实施例中的TPP的结构示意图。结合图10，以输入TPP的特征图为S820中初始特征图中的特征图f5为例对TPP处理过程进行说明。

S831，对特征图f5进行降维处理得到特征图f5’，也就是降低特征图f5的通道数。

具体地，降维处理可以为点卷积(Conv1×1)处理。例如，可以使点卷积之后的特征图的通道数变为特征图f5的通道数的1/4。

S832，对降维处理得到的特征图f5’采集不同尺度的语义信息。

示例性地，可以通过SPP对特征图f5’采集不同尺度的语义信息。具体地，可以为对特征图f5’进行多个不同采样率的池化(pool)处理，也可以说是进行多个大小不同的池化处理，以得到多个不同尺度的特征图，也就是得到多尺度语义信息。

如图11所示，假设特征图f5的尺寸为H*W，降维处理得到的特征图f5’的尺寸也为H*W，以池化处理的次数为4次为例进行说明。

对于第一个池化处理过程，将特征图f5’作为一整个图片块(也可以称为子区域)，图片块的大小为H*W；对于第二个池化处理过程，将特征图f5’分为4个图片块，每个图片块的大小为H*W/4；对于第三个池化处理过程，将特征图f5’分为9个图片块，每个图片块的大小为H*W/9；对于第四个池化处理过程，将特征图f5’分为36个图片块，每个图片块的大小为H*W/36。从上述图片块中分别提取一个特征值，得到4个池化处理过程对应的4个特征图。该4个特征图中的像素值代表特征图f5’中不同尺度的子区域内的多个像素的像素值的统计信息。例如，第二个池化过程得到的特征图的每个像素值代表特征图f5’的4个图片块中的每个图片块内所有像素的统计信息。

S833，对多个尺度的特征图分别进行上采样处理，并将上采样处理后的多个特征图与所述初始特征图进行特征融合，得到第一特征图。

以S832中得到的4个特征图为例，分别对上述池化后得到4个特征图进行上采样处理，得到与特征图f5的尺寸(H*W)相同的4个特征图，将上采样得到的4个尺寸为H*W的特征图与特征图f5进行特征融合。

具体地，特征融合方式可以包括特征图逐点相加(add)或通道/维度(channel)拼接(concat)。

优选地，特征融合的方式为特征图通道拼接。

应理解，上述TPP处理过程以及图11的结构示意图仅为示例，本申请实施例中对降维处理时采用的网络、提取多尺度语义信息时采用的网络或池化处理的采样率等等不做限定。

本申请实施例中的TPP结构，相较于完整的空间金字塔池化结构，通过降维处理减少了通道数，进而减少了计算量，能够提高运算速度；保留了空间金字塔池化的特性，能够提取不同尺寸大小不同子区域的多尺度语义信息，消除了卷积神经网络的固定大小的约束，提高了预测精度。

可选地，方法800还包括S840。

S840，对所述第一特征图进行尺寸调整，得到第二特征图，所述第二特征图的尺寸大于所述第一特征图的尺寸。

示例性地，对第一特征图进行上采样处理，得到第二特征图。

例如，图10中的第一特征图(32X)的尺寸为S810中待处理图像的1/32，对该第一特征图(32X)进行上采样处理，以实现4倍尺寸还原(X4)，得到的第二特征图(8X)的尺寸为S810中待处理图像的1/8。

可选地，方法800还包括S850。

S850，将第二特征图与S810中的初始特征图中的浅层特征进行特征融合，得到第三特征图。

具体地，可以将第二特征图与S810中的初始特征图中的与第二特征图尺寸大小相同的特征图进行特征融合，得到第三特征图。

例如，图10中的第二特征图(8X)的尺寸为S810中待处理图像的1/8，上述初始特征图中的特征图f3(8X)的尺寸为S810中待处理图像的1/8，可以将第二特征图(8X)与上述特征图f3(8X)进行特征融合得到第三特征图(8X)。

再例如，例如，第二特征图(16X)的尺寸为S810中待处理图像的1/16，初始特征图中的特征图f4(16X)的尺寸为S810中待处理图像的1/16，将第二特征图(16X)与特征图f4进行特征融合。还可以将特征融合得到的特征图继续进行前述处理，也就是将特征融合的到的特征图继续上采样，将上采样得到的特征图与初始特征图中的尺寸相同的特征图继续进行特征融合，以此类推，得到第三特征图。

根据本申请实施例的方案，通过与骨干网络的特征进行特征融合，实现特征复用，能够得到更准确的空间信息，将空间信息与语义信息进行融合，使得骨干网络的信息能够在之后的特征提取中进一步被利用，扩大特征的感受野，细化预测结果。

S860，对所述第一特征图或者所述第二特征图或者第三特征图进行特征提取。

需要说明的是，如果方法800包括S850，则S860为对所述第三特征图进行特征提取。如果方法800不包括S850，则S860为对所述第二特征图进行特征提取。

如果方法800不包括S840，则S860为对所述第一特征图进行特征提取。

以方法800包括S850，结合图10，对所述第三特征图(8X)进行特征提取为例，对S860进行说明。

在S860进行特征提取时，具体可以通过对第三特征图(8X)进行一系列卷积操作(卷积处理)，或者是对第三特征图(8X)的卷积操作结果做进一步的处理(例如，进行求和、加权处理、连接等操作)。

在S860中，可以通过上述图像语义分割网络中的子网络(模块)对第三特征图(8X)进行卷积处理。

该子网络可以采用多种卷积网络架构，例如，MobileNetV2网络、VGG网络和ResNet网络等。所述子网络的结构可以和骨干网络相同，例如，均采用MobileNetV2网络。

上述S860中在对第三特征图(8X)进行特征提取时，可以为第三特征图(8X)经过多个卷积层依次进行卷积处理。以子网络为MobileNetV2网络为例，对第三特征图(8X)进行卷积操作(卷积处理)可以为通过瓶颈(bottleneck)结构进行卷积处理，瓶颈结构可以如图9所示。

进一步地，子网络中的每个的卷积层输出的特征图可以和骨干网络得到的浅层特征进行特征融合，特征融合得到的特征图可以作为子网络中的下一个卷积层的输入。

示例性地，子网络每个卷积层输出的特征图均可以分别和骨干网络每个卷积层输出的尺寸相同的特征图进行特征融合作为子网络下一个卷积层的输入。

例如，通过m个卷积层对所述第三特征图进行特征提取，以得到从第m个卷积层输出的特征图，其中，所述m个卷积层中的第i个卷积层的输入可以为第i-1个卷积层输出的特征图。进一步地，第i-1个卷积层输出的特征图的尺寸为H_i-1*W_i-1，所述m个卷积层中的第i个卷积层的输入可以为第i-1个卷积层输出的特征图与所述初始特征图中的尺寸为H_i-1*W_i-1的特征图进行特征融合得到的特征图，m为大于1的整数，1<i≤m，i为整数。

图10中m为2层。

表2示出了与前述表1的骨干网络相同结构的一种子网络的参数设置。其中，第一列表示输入的图像(或者特征图)的尺寸，bottleneck表示瓶颈结构，t表示扩张因子，c表示通道数，n表示重复次数，s表示stride。

表2

应理解，上述卷积过程仅为示例，本申请实施例中对卷积处理时采用的网络，卷积处理的次数以及子网络的特征图与骨干网络的浅层特征图进行特征融合的次数等等不做限定。

结合表1对表2进行说明。表2中的子网络的第一个卷积层的输入为第三特征图(8X)。该第三特征图(8X)为第二特征图与上述初始特征图中的特征图f3(8X)进行特征融合得到的特征图。子网络的第二个卷积层的输入为子网络的第一个卷积层的输出特征图(16X)和骨干网络的初始特征图中的特征图f4(16X)进行特征融合后的特征图(16X)，子网络的第三个卷积层的输入为子网络的第二个卷积层的输出特征图(32X)。第三特征图(8X)的尺寸为80×60，经过表2示出的子网络的3个卷积层的处理，得到两种不同尺寸的特征图，三种不同尺寸的特征图分别为特征图f6(尺寸为40×30)、特征图f7(20×15)。也就是说，经过卷积层的处理后的特征图与卷积层处理前的特征图尺寸可能相同。图10中仅示出了通过两个卷积层得到特征图f6(尺寸为40×30)和特征图f7(20×15)。

需要说明的是，如果方法800不包括S850，S860为对所述第二特征图或者第一特征图进行特征提取的过程与上述特征提取过程类似，仅将输入子网络的特征图替换为第二特征图或第一特征图即可。

根据本申请的实施例，骨干网络的深层特征图上采样后和同尺寸的浅层特征图合并作为子网络的输入，将子网络处理后得到的特征图与骨干网络处理得到的特征图进一步进行特征融合，实现骨干网络的特征复用于子网络，能够充分利用骨干网络的信息，进行特征复用的特征向量将在子网络中进一步扩大感受野，提高特征的表达能力，进而提高预测精度。

同时，在无额外开销的同时能够将空间信息和语义信息进行充分融合，细化预测结果。

此外，特征复用也可以看作一个由粗到细的语义分割过程，先通过骨干网络获得粗糙的预测信息(初始特征图中的信息)，然后对该粗糙的预测信息上采样后不断融入浅层特征图来恢复图像细节。在不断融入骨干网络的浅层特征图的过程仍然是处于编码器，相较于在解码器中可以获得更大的感受野，特征的表达能力更强。本申请提出的图像语义分割网络可以在保证运行速度的同时，尽可能地提高语义分割的预测精度。

可选地，方法800可以包括S870。

S870，对S860的子网络输出的特征图进行多尺度特征提取，以得到第四特征图，所述第四特征图包括上述子网络输出的特征图的多尺度语义信息。

对所述子网络输出的特征图进行多尺度特征提取，以得到第四特征图，具体可以通过对子网络输出的特征图提取不同尺度的特征图，得到子网络输出的特征图的多尺度语义信息。

例如，可以通过不同的卷积核对子网络输出的特征图进行卷积，以得到不同尺度的特征图。再例如，可以通过不同的采样率对子网络输出的特征图进行池化处理，以得到不同尺度的特征图。

进一步地，可以对子网络输出的特征图先进行降维处理，以得到降维处理后的特征图；对降维处理后的特征图进行多尺度特征提取，以得到上述第四特征图。

示例性地，子网络为m层卷积网络，子网络输出的特征图可以包括m个卷积层输出的特征图。在该情况下，可以对m个卷积层中的任意一个卷积层输出的特征图进行降维处理。优选地，可以对m个卷积层中的最后一个卷积层(第m个卷积层)输出的特征图进行降维处理。例如，对上述子网络中的特征图f7进行降维处理。

具体地，可以通过小型金字塔池化结构对子网络输出的特征图进行处理，以得到第四特征图。

图11中示出了本申请一个实施例中的TPP的结构示意图。下面结合图10和图11，以输入TPP的特征图为上述子网络中的特征图f7为例对S870进行说明。

S871，对特征图f7进行降维处理得到特征图f7’，也就是降低特征图f7的通道数。

具体地，降维处理可以为点卷积(Conv1×1)处理。例如，可以使点卷积之后的特征图的通道数变为特征图f7的通道数的1/4。

S872，对降维处理得到的特征图f7’采集不同尺度的语义信息。

示例性地，可以通过SPP对特征图f7’采集不同尺度的语义信息。具体地，可以为对特征图f7’进行多个不同采样率的池化(pool)处理，也可以说是进行多个大小不同的池化处理，以得到多个不同尺度的特征图，也就是得到多尺度语义信息。

如图11所示，假设输入TPP的特征图为特征图f7，尺寸为H₇*W₇，经过降维处理后的特征图为特征图f7’，尺寸为H₇*W₇，以池化处理的次数为4次为例进行说明。

对于第一个池化处理过程，将特征图f7’作为一整个图片块(也可以称为子区域)，图片块的大小为H₇*W₇；对于第二个池化处理过程，将特征图f7’分为4个图片块，每个图片块的大小为H₇*W₇/4；对于第三个池化处理过程，将特征图f7’分为9个图片块，每个图片块的大小为H₇*W₇/9；对于第四个池化处理过程，将特征图f7’分为36个图片块，每个图片块的大小为H₇*W₇/36。从上述图片块中分别提取一个特征，得到4个池化处理过程对应的4个特征图。

S873，对多个尺度的特征图分别进行上采样处理，并将上采样处理得到的多个特征图与特征图f7进行特征融合，得到第四特征图。

以S872中得到的4个特征图为例，分别对上述池化后得到4个特征图进行上采样，得到与特征图f7尺寸(H₇*W₇)相同的4个特征图，将上采样得到的4个尺寸为H₇*W₇的特征图与特征图f7进行特征融合。

优选地，特征融合的方式为特征图通道拼接。

S880，确定目标特征图，根据目标特征图确定所述待处理图像的语义分割图。

S881，确定目标特征图。

示例性地，方法800不包括S870，可以根据S860对所述第二特征图或者三特征图进行特征提取得到的特征图确定目标特征图。

进一步地，根据S860对所述第二特征图或者第三特征图进行特征提取得到的特征图确定目标特征图可以为将对所述第二特征图或者第三特征图进行特征提取得到的特征图进行上采样处理，以得到目标特征图。

可替换地，根据S860对所述第二特征图或者第三特征图进行特征提取得到的特征图确定目标特征图可以为将对所述第二特征图或者第三特征图进行特征提取得到的特征图作为中间特征图，对中间特征图进行处理，得到目标特征图。

示例性地，方法800包括S870，可以根据S870得到的第四特征图确定目标特征图。

进一步地，根据S870得到的第四特征图确定目标特征图可以为将第四特征图进行上采样处理，以得到目标特征图。

可替换地，根据S870得到的第四特征图确定目标特征图可以为将第四特征图作为中间特征图，对中间特征图进行处理，得到目标特征图。

所述对中间特征图进行处理，得到目标特征图，可以通过以下方式进行。

对中间特征图进行上采样处理，并将上采样得到的特征图与子网络和/或骨干网络输出的至少一个特征图进行特征融合，得到目标特征图。

具体地，可以先对子网络和/或骨干网络输出的至少一个特征图进行上采样处理，使得其尺寸与中间特征图上采样得到的特征图尺寸相同，然后与中间特征图上采样得到的特征图进行特征融合，得到目标特征图。

例如，中间特征图(32X)的尺寸可以为待处理图像的1/32，对中间特征图(32X)进行上采样处理，4倍还原得到特征图f8(8X)。对S860中子网络输出的特征图f6(16X)进行上采样处理，2倍还原得到特征图f9(8X)。将特征图f8(8X)和特征图f9(8X)进行特征融合，得到目标特征图。进一步地，如图10所示，还可以将特征图f8(8X)、特征图f9(8X)和初始特征图中的f3(8X)进行特征融合，得到目标特征图。

S882，根据目标特征图确定所述待处理图像的语义分割图。

具体地，输出模块可以对目标特征图中的像素进行分类，得到分割图(标签图)。

需要说明的是，分割图的像素数与待获取图像的像素数相同。

对目标特征图中的像素进行分类为现有技术，此处不再赘述。

为了具体说明本申请实施例中的图像语义分割方法的有效性，在室内数据集SUN-RGBD(13分类)下做了本申请实施例中的方法500与SceneNet网络、轻量RefineNet网络(light-weight RefineNet，LWRefineNet)、双边分割网络(bilateral segmentationnetwork，BiseNet)对比实验。表3示出了SUN-RGBD上的实验结果，本申请实施例中的方法在1080Ti显卡上可达到125帧以上的运行速度，且预测精度高于表中所示的其他实时图像语义分割网络的预测精度。其中，平均交并比(mean intersection over union，mIoU)值是一个衡量图像分割精度的重要指标。

表3

此外，还利用移动端(手机)执行了本申请实施例中的方法500，也就是将本申请实施例中的图像语义分割网络移植到手机端进行了测试。表4示出了测试结果，移动端模型的大小仅为16M。对于大小为640x480的图片，在移动端上的预测速度可以达到10帧，准确度(accuracy)达到82％以上。其中，FPS表示画面每秒传输帧数。

表4

根据本申请的实施例，骨干网络的深层特征上采样后和同尺寸的浅层特征图合并作为子网络的输入，将子网络处理后得到的特征与骨干网络处理得到的特征图进一步进行特征融合，实现骨干网络的特征复用于子网络，能够充分利用骨干网络的信息，进行特征复用的特征向量将在子网络中进一步扩大感受野，提高特征的表达能力，进而提高预测精度。

所述方法800具体可以由如图1所示的执行设备110执行。

可选的，所述方法800可以由CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

可以理解方法500为该图像语义分割网络的训练阶段(如图1所示的训练设备120执行的阶段)，具体训练是采用由方法500的实现方式中提供的图像语义分割网络进行的；而方法800则可以理解为是该图像语义分割网络的应用阶段(如图1所示的执行设备110执行的阶段)，具体可以体现为采用方法500训练得到的图像语义分割网络，并根据用户输入的图像，从而得到语义分割结果，即方法800中的分割图。需要说明的是，方法800也可以不采用由方法500训练得到的图像语义分割网络。

上文结合附图对本申请实施例的图像语义分割方法进行了详细描述，下面结合附图对本申请实施例的图像语义分割装置进行详细的描述，应理解，下面描述的图像语义分割装置能够执行本申请实施例的图像语义分割方法的各个步骤，为了避免不必要的重复，下面在介绍本申请实施例的图像语义分割装置时适当省略重复的描述。

图12是本申请实施例的图像语义分割装置的示意性框图。图12所示的图像语义分割装置1200包括获取单元1201和处理单元1202。

获取单元1201和处理单元1202可以用于执行本申请实施例的图像语义分割方法，具体地，获取单元1201可以执行上述S810，处理单元1202可以执行上述S820至S880。

上述处理单元1202按照处理功能的不同可以分成多个模块，具体地，处理单元1202可以相当于图7所示的图像语义分割装置的骨干网络模块710、TPP720、上采样模块730、子网络模块740以及输出模块750。处理单元3002能够实现图7所示的图像语义分割装置中的各个模块的功能。

应理解，上述装置1200中的获取单元1201和处理单元1202可以相当于下文中的装置1300中的处理器1302。

图13是本申请实施例提供的一种图像语义分割网络的训练装置的硬件结构示意图。图13所示的图像语义分割网络的训练装置1300(该装置1300具体可以是一种计算机设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。

存储器1301可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1301可以存储程序，当存储器1301中存储的程序被处理器1302执行时，处理器1302和通信接口1303用于执行本申请实施例的图像语义分割网络的训练方法的各个步骤。

处理器1302可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的图像语义分割网络的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的图像语义分割网络的训练方法。

处理器1302还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的图像语义分割网络的训练方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301，处理器1302读取存储器1301中的信息，结合其硬件完成本申请实施例的图像语义分割网络的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的图像语义分割网络的训练方法。

通信接口1303使用例如但不限于收发器一类的收发装置，来实现装置1300与其他设备或通信网络之间的通信。例如，可以通过通信接口1303获取训练数据(如本申请实施例一所述的训练图像和标签图)。

总线1304可包括在装置1300各个部件(例如，存储器1301、处理器1302、通信接口1303)之间传送信息的通路。

图14是本申请实施例提供的图像语义分割装置的硬件结构示意图。图14所示的图像语义分割装置1400(该装置1400具体可以是一种计算机设备)包括存储器1401、处理器1402、通信接口1403以及总线1404。其中，存储器1401、处理器1402、通信接口1403通过总线1404实现彼此之间的通信连接。

存储器1401可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1401可以存储程序，当存储器1401中存储的程序被处理器1402执行时，处理器1402和通信接口1403用于执行本申请实施例的图像语义分割方法的各个步骤。

处理器1402可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的图像语义分割装置中的单元所需执行的功能，或者执行本申请方法实施例的图像语义分割方法。

处理器1402还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的图像语义分割方法的各个步骤可以通过处理器1402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1402还可以是通用处理器、数字信号处理器(digitalsignal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1401，处理器1402读取存储器1401中的信息，结合其硬件完成本申请实施例的图像语义分割装置中包括的单元所需执行的功能，或者执行本申请方法实施例的图像语义分割方法。

通信接口1403使用例如但不限于收发器一类的收发装置，来实现装置1400与其他设备或通信网络之间的通信。例如，可以通过通信接口1403获取待处理图像。

总线1404可包括在装置1400各个部件(例如，存储器1401、处理器1402、通信接口1403)之间传送信息的通路。

应注意，尽管图13和图14所示的装置1300和1400仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1300和1400还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1300和1400还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1300和1400也可仅仅包括实现本申请实施例所必须的器件，而不必包括图13或图14中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)，UFD也可以简称为U盘或者优盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(randomaccess memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像语义分割方法，其特征在于，包括：

获取待处理图像；

对所述待处理图像进行卷积处理，以得到所述待处理图像的初始特征图；

对所述初始特征图进行多尺度特征提取，以得到第一特征图，其中，所述第一特征图包括所述初始特征图的多尺度语义信息；

对所述第一特征图进行卷积处理，以得到所述待处理图像的目标特征图；

根据所述目标特征图确定所述待处理图像的语义分割图。

2.如权利要求1所述的方法，其特征在于，在对所述初始特征图进行多尺度特征提取之前，所述方法还包括：

对所述初始特征图进行降维处理，以得到降维处理后的特征图；

对所述初始特征图进行多尺度特征提取，以得到第一特征图包括：

对所述降维处理后的特征图进行多尺度特征提取，以得到所述第一特征图。

3.如权利要求2所述的方法，其特征在于，所述对所述降维处理后的特征图进行多尺度特征提取，以得到所述第一特征图，包括：

对所述降维处理后的特征图分别进行多次不同采样率的池化处理，以得到多个尺度的特征图；

对所述多个尺度的特征图分别进行上采样处理，以得到上采样处理后的多个特征图；

将所述上采样处理后的多个特征图与所述初始特征图进行特征融合，以得到所述第一特征图。

4.如权利要求1至3中任一项所述的方法，其特征在于，对所述第一特征图进行卷积处理，包括：

对所述第一特征图进行尺寸调整，以得到第二特征图，所述第二特征图的尺寸大于所述第一特征图的尺寸；

对所述第二特征图进行卷积处理，以得到所述待处理图像的目标特征图。

5.如权利要求4所述的方法，其特征在于，所述初始特征图包括至少两个尺寸不同的特征图，所述对所述第二特征图进行卷积处理，以得到所述待处理图像的目标特征图，包括：

将所述初始特征图中与所述第二特征图的尺寸大小相同的特征图和所述第二特征图进行特征融合，以得到第三特征图；

对所述第三特征图进行卷积处理，以得到所述待处理图像的目标特征图。

6.权利要求5所述的方法，其特征在于，所述对所述第三特征图进行卷积处理，以得到所述待处理图像的目标特征图，包括：

通过m个卷积层对所述第三特征图进行卷积处理，以得到从第m个卷积层输出的特征图，其中，所述m个卷积层中的第i个卷积层的输入为第i-1个卷积层输出的特征图，以及与所述初始特征图中与所述第i-1个卷积层输出的特征图的尺寸大小相同的特征图，m为大于1的整数，1<i≤m，i为整数；

根据从第m个卷积层输出的特征图确定所述待处理图像的目标特征图。

7.如权利要求6所述的方法，其特征在于，所述根据第m个卷积层输出的特征图确定所述待处理图像的目标特征图，包括：

对从第m个卷积层输出的特征图进行多尺度特征提取，以得到第四特征图，所述第四特征图包括所述第m个卷积层输出的特征图的多尺度语义信息；

根据所述第四特征图确定所述目标特征图。

8.如权利要求7所述的方法，其特征在于，所述根据所述目标特征图确定所述待处理图像的语义分割图，包括：

对所述第四特征图和所述m个卷积层中的至少一个卷积层输出的特征图分别进行上采样处理，以得到至少两个尺寸相同的特征图；

对所述至少两个尺寸相同的特征图进行特征融合处理，以得到所述目标特征图；

根据所述目标特征图确定所述待处理图像的语义分割图。

9.如权利要求1至8中任一项所述的方法，其特征在于，所述待处理图像包括所述待处理的亮度值信息和惯性测量单元IMU信息。

10.如权利要求9所述的方法，其特征在于，所述获取待处理图像包括：

将所述IMU信息进行尺寸调整，尺寸调整后的IMU信息的尺寸与所述待处理图像的尺寸相同；

将所述尺寸调整后的IMU信息与所述待处理图像的亮度值信息进行特征通道拼接。

11.一种图像语义分割装置，其特征在于，包括：

获取单元，用于获取待处理图像；

处理单元，所述处理单元用于：

根据所述目标特征图确定所述待处理图像的语义分割图。

12.如权利要求11所述的装置，其特征在于，所述处理单元还用于：

所述处理单元用于：

对所述初始特征图进行多尺度特征提取，确定第一特征图包括：

13.如权利要求12所述的装置，其特征在于，所述处理单元用于：

14.如权利要求11至13中任一项所述的装置，其特征在于，所述处理单元用于：

15.如权利要求14所述的装置，其特征在于，所述初始特征图包括至少两个尺寸不同的特征图，所述处理单元用于：

16.如权利要求15所述的装置，其特征在于，所述处理单元用于：

17.如权利要求16所述的装置，其特征在于，所述处理单元用于：

根据所述第四特征图确定所述目标特征图。

18.如权利要求17所述的装置，其特征在于，所述处理单元用于：

根据所述目标特征图确定所述待处理图像的语义分割图。

19.如权利要求11至18中任一项所述的装置，其特征在于，所述待处理图像包括亮度值信息和惯性测量单元IMU信息。

20.如权利要求19所述的装置，其特征在于，所述处理单元用于：

21.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1-10中任一项所述的方法。

22.一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1-10中任一项所述的方法。