CN115115835A

CN115115835A - 图像的语义分割方法、装置、设备、存储介质及程序产品

Info

Publication number: CN115115835A
Application number: CN202210685972.3A
Authority: CN
Inventors: 聂聪冲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-27

Abstract

本申请提供了一种图像的语义分割方法、装置、设备、存储介质及程序产品；方法包括：获取包括至少两个对象的待分割图像，以及所述待分割图像对应的深度图像；对所述深度图像进行编码，得到深度编码结果；调用至少两个分割编码网络，对所述深度编码结果和所述待分割图像进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果，其中，空间筛选用于在空间维度对待分割图像进行特征筛选，通道重组用于在通道维度对待分割图像进行特征筛选；基于所述目标编码结果，对所述待分割图像进行语义分割，得到对应各所述对象的语义分割结果。通过本申请，充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

Description

图像的语义分割方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像的语义分割方法、装置、设备、存储介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在相关技术中，对于图像的语义分割通常是直接对待分割图像进行处理，得到相应的语义分割结果，这样，由于是直接对待分割图像进行处理，导致无法充分挖掘图像的语义之间的互补性和相互依赖性。

发明内容

本申请实施例提供一种图像的语义分割方法、装置、计算机可读存储介质及计算机程序产品，能够充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像的语义分割方法，包括：

获取包括至少两个对象的待分割图像，以及所述待分割图像对应的深度图像；

对所述深度图像进行编码，得到深度编码结果；

调用至少两个分割编码网络，对所述深度编码结果和所述待分割图像进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果，其中，所述空间筛选用于在空间维度对所述待分割图像进行特征筛选，所述通道重组用于在通道维度对所述待分割图像进行特征筛选；

基于所述目标编码结果，对所述待分割图像进行语义分割，得到对应各所述对象的语义分割结果。

在一些实施例中，上述调用所述通道注意力层，对所述空间筛选结果进行通道重组，得到通道重组结果，包括：对所述空间筛选结果进行卷积处理，得到所述空间筛选结果的第二卷积处理结果；对所述第一卷积处理结果进行卷积处理，得到第三卷积处理结果；对所述第三卷积处理结果进行归一化处理，得到归一化处理结果；将所述归一化处理结果和所述第二卷积处理结果进行点积，得到第二点积结果；将所述第二点积结果确定为所述通道重组结果。

本申请实施例提供一种图像的语义分割装置，包括：

获取模块，用于获取包括至少两个对象的待分割图像，以及所述待分割图像对应的深度图像；

编码模块，用于对所述深度图像进行编码，得到深度编码结果；

融合编码模块，用于调用至少两个分割编码网络，对所述深度编码结果和所述待分割图像进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果，其中，所述空间筛选用于在空间维度对所述待分割图像进行特征筛选，所述通道重组用于在通道维度对所述待分割图像进行特征筛选；

语义分割模块，用于基于所述目标编码结果，对所述待分割图像进行语义分割，得到对应各所述对象的语义分割结果。

在一些实施例中，上述编码模块，还用于对所述深度图像进行下采样处理，得到所述深度图像的下采样处理结果；对所述深度图像的下采样处理结果进行池化处理，得到所述深度图像的池化处理结果；调用至少两个深度编码网络，对所述深度图像的池化处理结果进行迭代编码处理，得到所述深度编码结果。

在一些实施例中，上述编码模块，还用于调用第1深度编码网络，对所述深度图像的池化处理结果进行编码处理，得到第1深度编码结果；调用第i+1深度编码网络，对所述第i深度编码结果进行编码处理，得到第i+1深度编码结果；将第N深度编码结果确定为所述深度编码结果；其中，1≤i≤N-1，N表征所述深度编码网络的数量，所述第i+1深度编码网络的尺寸小于第i深度编码网络的尺寸。

在一些实施例中，所述深度编码网络包括至少两个结构相同的编码层，所述至少两个结构相同的编码层包括第一编码层和第二编码层；上述编码模块，还用于调用所述第一编码层，对所述第i深度编码结果进行编码处理，得到第一编码结果；调用所述第二编码层，对所述第一编码结果进行编码处理，得到第二编码结果；将所述第二编码结果确定为所述第i+1深度编码结果。

在一些实施例中，上述融合编码模块，还用于对所述待分割图像进行下采样处理，得到所述待分割图像的下采样处理结果；对所述待分割图像的下采样处理结果进行池化处理，得到所述待分割图像的池化处理结果；调用所述至少两个分割编码网络，对所述待分割图像的池化处理结果和所述深度编码结果进行包括空间筛选和通道重组的迭代融合编码，得到所述目标编码结果。

在一些实施例中，所述深度编码结果包括i个深度编码结果，1≤i≤N-1，N表征对所述深度图像进行编码的深度编码网络的数量；上述融合编码模块，还用于调用第1分割编码网络，对所述待分割图像的池化处理结果和第1深度编码结果进行包括空间筛选和通道重组的融合编码，得到第1分割编码结果；调用第i+1分割编码网络，对第i分割编码结果和所述第i深度编码结果进行包括空间筛选和通道重组的融合编码，得到第i+1分割编码结果；将第N分割编码结果确定为所述目标编码结果；其中，所述第i+1分割编码网络的尺寸小于第i分割编码网络的尺寸。

在一些实施例中，所述分割编码网络包括至少两个残差层和至少一个注意力残差层；上述融合编码模块，还用于调用所述至少两个残差层，对所述第i分割编码结果进行特征提取，得到所述第i分割编码结果的特征提取结果；调用所述至少一个注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到所述第i+1分割编码结果。

在一些实施例中，当所述注意力残差层的数量为至少两个时，上述融合编码模块，还用于调用第1注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到第1融合编码结果；调用第j注意力残差层，对所述第i深度编码结果和第j-1融合编码结果，进行包括空间筛选和通道重组的融合编码，得到第j融合编码结果，其中，2≤j≤M，M表征所述注意力残差层的数量；将第M融合编码结果，确定为所述第i+1分割编码结果。

在一些实施例中，所述注意力残差层包括空间注意力层、通道注意力层和残差连接层；上述融合编码模块，还用于调用所述第1注意力残差层的空间注意力层，对所述特征提取结果和所述第i深度编码结果进行空间筛选，得到所述第1注意力残差层的空间筛选结果；调用所述第1注意力残差层的通道注意力层，对所述空间筛选结果进行通道重组，得到所述第1注意力残差层的通道重组结果；调用所述第1注意力残差层的所述残差连接层，对所述通道重组结果和所述特征提取结果进行融合处理，得到所述第1融合编码结果。

在一些实施例中，所述注意力残差层包括空间注意力层、通道注意力层和残差连接层；当所述注意力残差层的数量为一个时，上述融合编码模块，还用于调用所述空间注意力层，对所述特征提取结果和所述第i深度编码结果进行空间筛选，得到空间筛选结果；调用所述通道注意力层，对所述空间筛选结果进行通道重组，得到通道重组结果；调用所述残差连接层，对所述通道重组结果和所述特征提取结果进行融合处理，得到所述第i+1分割编码结果。

在一些实施例中，上述融合编码模块，还用于对所述特征提取结果进行卷积处理，得到所述特征提取结果的第一卷积处理结果；将所述第一卷积处理结果和所述第i深度编码结果进行点积，得到第一点积结果；将所述第一点积结果确定为所述空间筛选结果。

在一些实施例中，上述融合编码模块，还用于对所述空间筛选结果进行卷积处理，得到所述空间筛选结果的第二卷积处理结果；对所述第一卷积处理结果进行卷积处理，得到第三卷积处理结果；对所述第三卷积处理结果进行归一化处理，得到归一化处理结果；将所述归一化处理结果和所述第二卷积处理结果进行点积，得到第二点积结果；将所述第二点积结果确定为所述通道重组结果。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像的语义分割方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像的语义分割方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的图像的语义分割方法。

本申请实施例具有以下有益效果：

通过对待分割图像对应的深度图像进行编码，得到深度编码结果；对深度编码结果和待分割图像进行融合编码，基于得到的目标编码结果，对待分割图像进行语义分割，得到对应的语义分割结果。如此，待分割图像的深度图像中具有待分割图像中每个像素点与摄像机的距离信息，对深度编码结果和待分割图像进行包括空间筛选和通道重组的迭代融合编码，在空间维度和通道维度对待分割图像进行特征选择，可以充分挖掘图像的语义信息，那么，基于得到的目标编码结果，对待分割图像进行语义分割，可以充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

附图说明

图1是本申请实施例提供的图像的语义分割***架构的结构示意图；

图2是本申请实施例提供的图像的语义分割装置的结构示意图；

图3A至图3D是本申请实施例提供的图像的语义分割方法的流程示意图；

图4A至图4D是本申请实施例提供的图像的语义分割方法的原理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)语义分割：语义分割是计算机视觉中的基本任务，在语义分割中我们需要将视觉输入分为不同的语义可解释类别，语义的可解释性即分类类别在真实世界中是有意义的。

2)深度图像(Depth Map)：原始图像的深度图像的每一个像素值表示原始图像中的对应像素点与摄像机的距离。

3)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学***移不变分类(Shift-InvariantClassification)。

4)下采样：对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。实际上，下采样就是抽取。缩小图像(或称为下采样(Sub sampled)或降采样(Down sampled))的主要目的有两个：使得图像符合显示区域的大小；生成对应图像的缩略图。

5)池化处理：池化处理的作用是为了提高重要的特征信息，压缩特征，降低计算量，缓解过拟合的情况。

6)自注意力层(Self-Attention)：是一种注意力机制，自注意力机制用于关注整个输入中不同部分之间的相关性。

7)前馈神经网络(Feed Forward neural network，FFN)：是一种人工神经网络，前馈神经网络的各神经元分层排列，每个神经元只与前一层的神经元相连，每一层通过接收前一层的输出，并输出给下一层，各层间没有反馈。前馈神经网络包括感知器网络、BP网络、RBF网络。其中，感知器网络是最简单的前馈网络，它主要用于模式分类，也可用在基于模式分类的学习控制和多模态控制中。感知器网络可分为单层感知器网络和多层感知器网络。BP网络是指连接权调整采用了反向传播(Back Propagation)学习算法的前馈网络。与感知器不同之处在于，BP网络的神经元变换函数采用了S形函数(Sigmoid函数)，因此输出量是0～1之间的连续量，可实现从输入到输出的任意的非线性映射。RBF网络是指隐含层神经元由RBF神经元组成的前馈网络。RBF神经元是指神经元的变换函数为RBF(Radial BasisFunction，径向基函数)的神经元。典型的RBF网络由三层组成：一个输入层，一个或多个由RBF神经元组成的RBF层(隐含层)，一个由线性神经元组成的输出层。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

在相关技术中，对于语义分割，通常是使用单一的待分割图像作为分割网络的输入，调用分割网络对待分割图像进行处理，得到对应的语义分割结果。这样，往往不能充分挖掘待分割图像的信息互补性和相互依赖性，导致语义分割的精准性较差。

本申请实施例提供一种图像的语义分割方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。下面说明本申请实施例提供的图像的语义分割设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。

参见图1，图1是本申请实施例提供的图像的语义分割***100的架构示意图，为实现缺陷检测的应用场景，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，服务器200从终端400获取待分割图像和对应的深度图像，并将待分割图像和对应的深度图像发送到终端400，终端400基于待分割图像和对应的深度图像，确定待分割图像各对象的语义分割结果，并将语义分割结果发送至服务器200。

在另一些实施例中，终端400获取待分割图像和对应的深度图像，并将待分割图像和对应的深度图像发送到服务器200，服务器200基于待分割图像和对应的深度图像，确定待分割图像各对象的语义分割结果，并将语义分割结果发送至终端400。

在另一些实施例中，车载摄像头拍摄行车画面，车载终端接收车载摄像头拍摄的行车画面，并获取行车画面对应的深度图像，基于行车画面和对应的深度图像，确定行车画面中各对象的语义分割结果，基于行车画面中各对象的语义分割结果，确定车辆的行驶状态。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源。

参见图2，图2是本申请实施例提供的图像的语义分割方法的服务器200的一种结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线***240耦合在一起。可理解，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的图像的语义分割装置可以采用软件方式实现，图2示出了存储在存储器250中的图像的语义分割装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、编码模块2552、融合编码模块2553、语义分割模块2554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的图像的语义分割装置可以采用硬件方式实现，作为示例，本申请实施例提供的图像的语义分割装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像的语义分割方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Ci rcuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Progra mmable Gate Array)或其他电子元件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的图像的语义分割方法。

在一些实施例中，参见图4A，图4A是本申请实施例提供的图像的语义分割方法的原理示意图。获取包括至少两个对象的待分割图像42，以及待分割图像对应的深度图像41；对深度图像41进行编码，得到深度编码结果。对深度编码结果和待分割图像42进行融合编码，得到目标编码结果。基于目标编码结果，对待分割图像42进行语义分割，得到对应各对象的语义分割结果43。

参见图3A，图3A是本申请实施例提供的图像的语义分割方法的流程示意图，将结合图3A示出的步骤101至步骤104进行说明，下述步骤101至步骤104的执行主体可以是服务器或终端，下面将以执行主体为服务器为例进行说明。

在步骤101中，服务器获取包括至少两个对象的待分割图像，以及待分割图像对应的深度图像。

在一些实施例中，对象可以是待分割图像中的物体，例如，树木、杯具、人物等。待分割图像对应的深度图像的每一个像素值表示原始图像中的对应像素点与摄像机的距离。

作为示例，参见图4B，图4B是本申请实施例提供的图像的语义分割方法的原理示意图。图4B所示出的待分割图像为航拍图像，在图4B所示出的航拍图像中包括至少两个对象，对象可以为待分割图像中的物体，物体可以为树木，房屋，道路等。

在步骤102中，对深度图像进行编码，得到深度编码结果。

在一些实施例中，编码又称图像编码，是指在满足一定质量(信噪比的要求或主观评价得分)的条件下，以较少比特数表示图像或图像中所包含信息的技术。

在一些实施例中，参见图3B，图3B是本申请实施例提供的图像的语义分割方法的流程示意图，图3B所示出的步骤102可以通过以下步骤1021至步骤1023实现。

在步骤1021中，对深度图像进行下采样处理，得到深度图像的下采样处理结果。

在一些实施例中，下采样处理是指对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。实际上，下采样就是抽取。缩小图像(或称为下采样(Sub sampled)或降采样(Down sampled))的主要目的有两个：使得图像符合显示区域的大小；生成对应图像的缩略图。

在一些实施例中，上述步骤1021还可以通过以下方式实现：调用下采样层，对深度图像进行下采样处理，得到深度图像的下采样处理结果。

作为示例，参见图4A，图4A是本申请实施例提供的图像的语义分割方法的原理示意图。调用下采样层51，对深度图像41进行下采样处理，得到深度图像的下采样处理结果。

在步骤1022中，对深度图像的下采样处理结果进行池化处理，得到深度图像的池化处理结果。

在一些实施例中，池化处理的作用是为了提高重要的特征信息，压缩特征，降低计算量，缓解过拟合的情况。

在一些实施例中，上述步骤1022还可以通过以下方式实现：调用池化层，对深度图像的下采样处理结果进行池化处理，得到深度图像的池化处理结果。

作为示例，参见图4A，调用池化层53，对深度图像的下采样处理结果进行池化处理，得到深度图像的池化处理结果。

在步骤1023中，调用至少两个深度编码网络，对深度图像的池化处理结果进行迭代编码处理，得到深度编码结果。

在一些实施例中，深度编码网络用于对深度图像的池化处理结果进行编码，深度编码网络包括至少两个结构相同的编码层，编码层用于对输入数据进行编码。

作为示例，调用深度编码网络54、深度编码网络55、深度编码网络56和深度编码网络57，对深度图像的池化处理结果进行迭代编码处理，得到深度编码结果。

在一些实施例中，参见图3C，图3C是本申请实施例提供的图像的语义分割方法的流程示意图，图3C所示出的步骤1023可以通过以下步骤10231至步骤10233实现。

在步骤10231中，调用第1深度编码网络，对深度图像的池化处理结果进行编码处理，得到第1深度编码结果。

作为示例，参见图4A，调用第1深度编码网络54，对深度图像的池化处理结果进行编码处理，得到第1深度编码结果。

在步骤10232中，调用第i+1深度编码网络，对第i深度编码结果进行编码处理，得到第i+1深度编码结果。

在一些实施例中，1≤i≤N-1，N表征深度编码网络的数量，第i+1深度编码网络的尺寸小于第i深度编码网络的尺寸，第i+1深度编码网络的结构与所述第i深度编码网络的结构相同。

作为示例，当i＝1时，参见图4A，调用第2深度编码网络55，对第1深度编码结果进行编码处理，得到第2深度编码结果。

作为示例，当i＝2时，参见图4A，调用第3深度编码网路56，对第2深度编码结果进行编码处理，得到第3深度编码结果。

作为示例，当i＝3时，参见图4A，调用第4深度编码网路57，对第3深度编码结果进行编码处理，得到第4深度编码结果。

在一些实施例中，深度编码网络包括至少两个结构相同的编码层，至少两个结构相同的编码层包括第一编码层和第二编码层；上述步骤10232可以通过以下方式实现：调用第一编码层，对第i深度编码结果进行编码处理，得到第一编码结果；调用第二编码层，对第一编码结果进行编码处理，得到第二编码结果；将第二编码结果确定为第i+1深度编码结果。

作为示例，参见图4A，调用第一编码层541，对第i深度编码结果进行编码处理，得到第一编码结果；调用第二编码层542，对第一编码结果进行编码处理，得到第二编码结果；将第二编码结果确定为第i+1深度编码结果。

作为示例，参见图4A，调用第一编码层541，对第i深度编码结果进行编码处理，得到第一编码结果；调用第二编码层542，对第一编码结果进行编码处理，得到第二编码结果；调用第三编码层543，对第二编码结果进行编码处理，得到第三编码结果；将第三编码结果确定为第i+1深度编码结果。

在步骤10233中，将第N深度编码结果确定为深度编码结果。

其中，1≤i≤N-1，N表征深度编码网络的数量，第i+1深度编码网络的尺寸小于第i深度编码网络的尺寸。

作为示例，参见图4A，将第4深度编码结果确定为深度编码结果，深度编码网络51至深度编码网络57的数量为4。

如此，通过包括至少两个结构相同的编码层的深度编码网络对待分割图像的深度图像进行编码，可以在多个不同尺度上显式聚合深度图像的多模态特征，便于后续基于深度图像的多模态特征和待分割图像进行融合编码，使得可以充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

在步骤103中，调用至少两个分割编码网络，对深度编码结果和待分割图像进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果。

在一些实施例中，空间筛选用于在空间维度对所述待分割图像进行特征筛选，通道重组用于在通道维度对所述待分割图像进行特征筛选，其中，空间筛选通过分割编码网络中的空间注意力层实现，通道重组通过分割编码网络中的通道注意力层实现。

在一些实施例中，融合编码用于对至少两种不同的输入进行编码，得到编码结果。融合编码可以通过分割编码网络实现，分割编码网络包括至少两个残差层和至少一个注意力残差层。

在一些实施例中，参见图3B，图3B是本申请实施例提供的图像的语义分割方法的流程示意图，图3B所示出的步骤103可以通过以下步骤1031至步骤1033实现。

在步骤1031中，对待分割图像进行下采样处理，得到待分割图像的下采样处理结果。

在一些实施例中，上述步骤1031还可以通过以下方式实现：调用下采样层，对待分割图像进行下采样处理，得到待分割图像的下采样处理结果。

作为示例，参见图4A，图4A是本申请实施例提供的图像的语义分割方法的原理示意图。调用下采样层521，对待分割图像42进行下采样处理，得到待分割图像的下采样处理结果。

在步骤1032中，对待分割图像的下采样处理结果进行池化处理，得到待分割图像的池化处理结果。

在一些实施例中，上述步骤1032还可以通过以下方式实现：调用池化层，对待分割图像的下采样处理结果进行池化处理，得到待分割图像的池化处理结果。

作为示例，参见图4A，调用池化层522，对待分割图像42的下采样处理结果进行池化处理，得到待分割图像42的池化处理结果。

在步骤1033中，调用至少两个分割编码网络，对待分割图像的池化处理结果和深度编码结果进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果。

在一些实施例中，分割编码网络用于对至少两个输入进行融合编码，得到目标编码结果。

在一些实施例中，深度编码结果包括i个深度编码结果，1≤i≤N-1，N表征对深度图像进行编码的深度编码网络的数量；参见图3D，图3D是本申请实施例提供的图像的语义分割方法的流程示意图，图3D所示出的步骤1033可以通过以下步骤10331至步骤10333实现。

在步骤10331中，调用第1分割编码网络，对待分割图像的池化处理结果和第1深度编码结果进行包括空间筛选和通道重组的融合编码，得到第1分割编码结果。

作为示例，参见图4A，调用第1分割编码网络58，对待分割图像的池化处理结果和第1深度编码结果进行融合编码，得到第1分割编码结果。

在步骤10332中，调用第i+1分割编码网络，对第i分割编码结果和第i深度编码结果进行包括空间筛选和通道重组的融合编码，得到第i+1分割编码结果。

作为示例，参见图4A，当i＝1时，调用第2分割编码网络59，对第1分割编码结果和第1深度编码结果进行融合编码，得到第2分割编码结果。

作为示例，参见图4A，当i＝2时，调用第3分割编码网络60，对第2分割编码结果和第2深度编码结果进行融合编码，得到第3分割编码结果。

作为示例，参见图4A，当i＝3时，调用第4分割编码网络61，对第3分割编码结果和第3深度编码结果进行融合编码，得到第4分割编码结果。

在一些实施例中，分割编码网络包括至少两个残差层和至少一个注意力残差层；上述步骤10332可以通过以下方式实现：调用至少两个残差层，对第i分割编码结果进行特征提取，得到第i分割编码结果的特征提取结果；调用至少一个注意力残差层，对特征提取结果和第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到第i+1分割编码结果。

在一些实施例中，残差层是指残差网络(Residual Network)，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

作为示例，参见图4A，调用至少两个残差层(残差层581和残差层582)，对第i分割编码结果进行特征提取，得到第i分割编码结果的特征提取结果；调用至少一个注意力残差层(注意力残差层583)，对特征提取结果和第i深度编码结果，进行融合编码，得到第i+1分割编码结果。

如此，通过至少两个残差层对分割编码结果进行特征提取，由于残差层能够通过增加相当的深度来提高准确率，有效缓解了在深度神经网络中增加深度带来的梯度消失问题。

在一些实施例中，当注意力残差层的数量为至少两个时，上述调用至少一个注意力残差层，对特征提取结果和第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到第i+1分割编码结果，可以通过以下方式实现：调用第1注意力残差层，对特征提取结果和第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到第1融合编码结果；调用第j注意力残差层，对第i深度编码结果和第j-1融合编码结果，进行包括空间筛选和通道重组的融合编码，得到第j融合编码结果，其中，2≤j≤M，M表征注意力残差层的数量；将第M融合编码结果，确定为第i+1分割编码结果。

作为示例，参见图4A，当j＝2时，调用第1注意力残差层591，对特征提取结果和第i深度编码结果，进行融合编码，得到第1融合编码结果；调用第2注意力残差层592，对第1深度编码结果和第1融合编码结果，进行融合编码，得到第2融合编码结果。

在一些实施例中，注意力残差层包括空间注意力层、通道注意力层和残差连接层；上述调用第1注意力残差层，对特征提取结果和第i深度编码结果，进行融合编码，得到第1融合编码结果，可以通过以下方式实现：调用第1注意力残差层的空间注意力层，对特征提取结果和第i深度编码结果进行空间筛选，得到第1注意力残差层的空间筛选结果；调用第1注意力残差层的通道注意力层，对空间筛选结果进行通道重组，得到第1注意力残差层的通道重组结果；调用第1注意力残差层的残差连接层，对通道重组结果和特征提取结果进行融合处理，得到第1融合编码结果。

在一些实施例中，空间注意力层用于对特征提取结果和第i深度编码结果进行空间筛选；通道注意力层用于对空间筛选结果进行通道重组；残差连接层用于对通道重组结果和特征提取结果进行融合处理，其中，融合处理可以是对通道重组结果和特征提取结果进行加和。

作为示例，参见图4C，图4C是本申请实施例提供的图像的语义分割方法的原理示意图。调用第1注意力残差层的空间注意力层，对特征提取结果和第i深度编码结果进行空间筛选，得到第1注意力残差层的空间筛选结果；调用第1注意力残差层的通道注意力层，对空间筛选结果进行通道重组，得到第1注意力残差层的通道重组结果；调用第1注意力残差层的残差连接层，对通道重组结果和特征提取结果进行融合处理，得到第1融合编码结果。

在另一些实施例中，注意力残差层包括空间注意力层、通道注意力层和残差连接层；当注意力残差层的数量为一个时，上述调用至少一个注意力残差层，对特征提取结果和第i深度编码结果，进行融合编码，得到第i+1分割编码结果，可以通过以下方式实现：调用空间注意力层，对特征提取结果和第i深度编码结果进行空间筛选，得到空间筛选结果；调用通道注意力层，对空间筛选结果进行通道重组，得到通道重组结果；调用残差连接层，对通道重组结果和特征提取结果进行融合处理，得到第i+1分割编码结果。

作为示例，参见图4C，调用空间注意力层，对特征提取结果F_C和第i深度编码结果F_D进行空间筛选，得到空间筛选结果F_N；调用通道注意力层，对空间筛选结果F_N进行通道重组，得到通道重组结果F_Y；调用残差连接层，对通道重组结果F_Y和特征提取结果F_C进行融合处理，得到第i+1分割编码结果。

在一些实施例中，上述调用空间注意力层，对特征提取结果和第i深度编码结果进行空间筛选，得到空间筛选结果，可以通过以下方式实现：对特征提取结果进行卷积处理，得到特征提取结果的第一卷积处理结果；将第一卷积处理结果和第i深度编码结果进行点积，得到第一点积结果；将第一点积结果确定为空间筛选结果。

在一些实施例中，点积处理在数学中，又称数量积(Dot Product；ScalarProduct)，是指接受在实数R上的两个向量并返回一个实数值标量的二元运算，它是欧几里得空间的标准内积。

在一些实施例中，卷积处理在泛函分析中，卷积、旋积或褶积(Convolution)是通过两个函数f和g生成第三个函数的一种数学运算，其本质是一种特殊的积分变换，表征函数f与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。如果将参加卷积的一个函数看作区间的指示函数，卷积还可以被看作是“滑动平均”的推广。

作为示例，参见图4C，对特征提取结果F_C进行卷积处理，得到特征提取结果的第一卷积处理结果；将第一卷积处理结果和第i深度编码结果F_D进行点积，得到第一点积结果；将第一点积结果确定为空间筛选结果F_N。

在一些实施例中，上述调用通道注意力层，对空间筛选结果进行通道重组，得到通道重组结果，可以通过以下方式实现：对空间筛选结果进行卷积处理，得到空间筛选结果的第二卷积处理结果；对第一卷积处理结果进行卷积处理，得到第三卷积处理结果；对第三卷积处理结果进行归一化处理，得到归一化处理结果；将归一化处理结果和第二卷积处理结果进行点积，得到第二点积结果；将第二点积结果确定为通道重组结果。

在一些实施例中，归一化处理是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。

作为示例，参见图4C，对空间筛选结果F_N进行卷积处理，得到空间筛选结果的第二卷积处理结果F_Q；对第一卷积处理结果进行卷积处理，得到第三卷积处理结果F_P；对第三卷积处理结果F_P进行归一化处理，得到归一化处理结果F_X；将归一化处理结果F_X和第二卷积处理结果F_Q进行点积，得到第二点积结果；将第二点积结果确定为通道重组结果F_Y。

在一些实施例中，第一卷积处理结果和第三卷积处理结果的尺寸不同。

如此，通过注意力残差层的设计，采用深度图像作为空间权值，在空间维度上对待分割图像的特征进行筛选。通过注意力残差层的通道注意力层对不同通道的自适应权重在通道维度上进行特征选择，然后通过残差连接层将选择的特征与输入的待分割图像的特征进行融合，有效增强语义分割的精准性，可以显式增加不同类别的对象之间的差异，充分利用多模态特征中的互补信息进行语义分割，有效增强了语义分割的精准性。

在步骤10333中，将第N分割编码结果确定为目标编码结果。

其中，第i+1分割编码网络的尺寸小于第i分割编码网络的尺寸，第i+1分割编码网络的结构与第i分割编码网络的结构相同。

在一些实施例中，参见图4D，图4D是本申请实施例提供的图像的语义分割方法的原理示意图。网络50包括深度编码网络和分割编码网络，深度编码网络和分割编码网络均包括5层，其中，网络50的深度编码网络的第一层输出的图像尺寸为

其中，H表征待分割图像的高度，W表征待分割图像的宽度，网络50的深度编码网络的第一层用于对深度图像进行下采样处理；网络50的深度编码网络的第二层输出的图像尺寸为

网络50的深度编码网络的第二层包括池化层和至少两层尺寸为64的编码层；网络50的深度编码网络的第三层输出的图像尺寸为

网络50的深度编码网络的第三层包括至少两层尺寸为128的编码层；网络50的深度编码网络的第四层输出的图像尺寸为

网络50的深度编码网络的第四层包括至少两层尺寸为256的编码层；网络50的深度编码网络的第五层输出的图像尺寸为

网络50的深度编码网络的第四层包括至少两层尺寸为512的编码层。

在一些实施例中，参见图4D，网络50的分割编码网络的第一层的输出图像的尺寸为

网络50的分割编码网络的第一层用于进行下采样处理；网络50的分割编码网络的第二层的输出图像的尺寸为

网络50的分割编码网络的第二层包括池化层、两层残差层和一层注意力残差层；网络50的分割编码网络的第三层的输出图像的尺寸为

网络50的分割编码网络的第三层包括三层残差层和一层注意力残差层；网络50的分割编码网络的第四层的输出图像的尺寸为

网络50的分割编码网络的第四层包括五层残差层和一层注意力残差层；网络50的分割编码网络的第五层的输出图像的尺寸为

网络50的分割编码网络的第五层包括两层残差层和一层注意力残差层。

在一些实施例中，参见图4D，网络101包括深度编码网络和分割编码网络，深度编码网络和分割编码网络均包括5层，其中，网络101的深度编码网络的第一层输出的图像尺寸为

其中，H表征待分割图像的高度，W表征待分割图像的宽度，网络101的深度编码网络的第一层用于对深度图像进行下采样处理；网络101的深度编码网络的第二层输出的图像尺寸为

网络101的深度编码网络的第二层包括池化层和至少两层尺寸为64的编码层；网络101的深度编码网络的第三层输出的图像尺寸为

网络101的深度编码网络的第三层包括至少两层尺寸为128的编码层；网络101的深度编码网络的第四层输出的图像尺寸为

网络101的深度编码网络的第四层包括至少两层尺寸为256的编码层；网络101的深度编码网络的第五层输出的图像尺寸为

网络101的深度编码网络的第四层包括至少两层尺寸为512的编码层。

在一些实施例中，参见图4D，网络101的分割编码网络的第一层的输出图像的尺寸为

网络101的分割编码网络的第一层用于进行下采样处理；网络101的分割编码网络的第二层的输出图像的尺寸为

网络101的分割编码网络的第二层包括池化层、两层残差层和一层注意力残差层；网络101的分割编码网络的第三层的输出图像的尺寸为

网络101的分割编码网络的第三层包括三层残差层和一层注意力残差层；网络101的分割编码网络的第四层的输出图像的尺寸为

网络101的分割编码网络的第四层包括22层残差层和一层注意力残差层；网络101的分割编码网络的第五层的输出图像的尺寸为

网络101的分割编码网络的第五层包括两层残差层和一层注意力残差层。

在步骤104中，基于目标编码结果，对待分割图像进行语义分割，得到对应各对象的语义分割结果。

在一些实施例中，上述步骤104可以通过以下方式实现：对目标编码结果进行解码处理，将解码处理结果确定为待分割图像对应各对象的语义分割结果。

在一些实施例中，解码处理可以通过以下方式实现：调用上下文模型，对目标编码结果进行解码处理，得到解码处理结果。

在一些实施例中，上下文模块包括金字塔池模块、空间金字塔池模块和自注意力模块，其中，金字塔池模块(Pyramid Pooling Module，PPM)通过由多至少的池化，可以有效增大感受野，增大全局信息的利用效率。空间金字塔模块(Spatial Pyramid Pooling，ASPP)无论输入图像的尺寸是怎样，均可以产生固定大小的输出，空间金字塔模块使用多个窗口(pooling window)，空间金字塔模块可以使用同一图像不同尺寸(Scale)作为输入，得到同样长度的池化特征。自注意力模块用于找到每个向量和其他向量(包括自身)之间的关联程度。

如此，通过对待分割图像对应的深度图像进行编码，得到深度编码结果；对深度编码结果和待分割图像进行融合编码，基于得到的目标编码结果，对待分割图像进行语义分割，得到对应的语义分割结果。如此，待分割图像的深度图像中具有待分割图像中每个像素点与摄像机的距离信息，对深度编码结果和待分割图像进行包括空间筛选和通道重组的迭代融合编码，在空间维度和通道维度对待分割图像进行特征选择，可以充分挖掘图像的语义信息，那么，基于得到的目标编码结果，对待分割图像进行语义分割，可以充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

下面，将说明本申请实施例在一个实际的语义分割的应用场景中的示例性应用。

在计算机视觉领域所进行的图像处理任务大致可以分为以下三类：图像分类、目标检测和图像分割，其中，图像分割包括语义分割和示例分割。本申请实施例提供的图像的语义分割方法属于图像处理任务中的语义分割任务。图像的语义分割是上述图像处理任务中包含信息做多的任务，语义分割将图像的高级语义标签分配给每个像素，也就是给图像中的每个像素进行分类，高级语义标签指图像中各种各样的物体类别(例如，人、动物、汽车等)以及背景类别(例如，天空、草原等)。语义分割任务对于分类精度以及定位精度都提出了很高的要求：一方面，需要将物体的轮廓边界准确定位，一方面需要对轮廓内的区域进行精准分类，这样才能很好的将特定物体从背景中分割出来。因此，如何保持定位精度与分类精度的平衡语义分割中的重要问题，一般来说，要想提高分类精度，需要提高深层网络的感受野，这样才能融合更多的信息，但是扩大深层网络的感受野会导致图像的细节大量丢失不利于对边界的定位，因此语义分割的改进目标之一就是在不丢失图像局部细节的情况下融合更多的全局信息。

本申请实施例提供的图像的语义分割方法，由于待分割图像与待分割图像对应的深度图像之间存在互补信息，通过多模态的待分割图像数据和深度图像数据可以显著提高语义分割的性能，本申请实施例提供的渐进式注意力融合网络可以显式聚合多模态待分割图像数据和深度图像数据，使得能更加准确的区分待分割图像中多尺度和易混淆的对象，有效提高语义分割的精准性。

在一些实施例中，参见图4A，本申请实施例提供的渐进式注意力融合网络包括编码网络部分和解码网络部分，其中编码网络部分采用渐进式融合编码器，渐进式融合编码器包括两个分支，同时从待分割图像和深度图像中提取特征，并在每个尺度将深度图像融合至待分割图像对应的分支中，以增强编码网络对于不同大小物体的判别能力，本申请实施例通过在待分割图像对应的分支中，增加双注意力残差层，来显式增强不同类别目标之间的特征差异，强化对混淆对象的辨别能力。

在一些实施例中，参见图4B，图4B是本申请实施例提供的图像的语义分割方法的原理示意图。当待分割图像为航拍图像时，通过本申请实施例提供的图像的语义分割方法对待分割图像进行语义分割之后，得到的分割结果如图4B所示。

在一些实施例中，本申请实施例提供的图像的语义分割方法通过双流渐进式融合编码器模块，经过解码器解码后，以获取多尺度的图像特征，并通过双重注意力残差网络有效地将深度特征聚合到多尺度的待分割图像的分支中。解码部分包括金字塔池模块、空间金字塔池模块和自注意力模块，以捕获上下文信息进行语义分割。

在一些实施例中，参见图4D，图4D是本申请实施例提供的图像的语义分割方法的原理示意图。为了提高模型对待分割图像中多尺度目标的识别能力，本申请实施例设计了一种双流渐进融合编码器，用于对多尺度下的多模态特征进行提取和融合。具体来说，待分割图像和深度图像分别采用ResNet-50/101和ResNet-34进行特征编码。如图4D所示，考虑到扩张型网络在保持大感受野的同时可以减少空间分辨率的损失，在原始扩张型网络的最后两层使用了扩张卷积并且去掉了下采样操作，使得空间大小为输入图像的1/8。同时，为了将深度特征在各个尺度上融合到待分割图像分支中，提出了一个双重注意力残差模块来替换RGB分支中每个阶段的最后一个残差块。

在一些实施例中，参见图4C，图4C是本申请实施例提供的图像的语义分割方法的原理示意图。如图4C所示出的双重注意力残差模块的结果来融合各个尺度上的多模态特征，给定待分割图像的特征和深度图像的特征，空间注意力层和通道注意力层顺序执行，并将通道注意力层的输出与双重注意力残差模块的输入进行融合后输出双重注意力残差模块的输出。

在一些实施例中，参见图4C，对于空间注意力层，由于深度图像在一定程度上可以反映类别语义分布，如建筑总是具备较大高度，而透水表面的高度几乎为零。因此，采用深度特征F_D作为空间注意力权重，其可以自适应地保持高度较高的目标的特征并过滤高度较低目标的特征。具体的，可以采用尺度为1×1的卷积处理和尺度为3×3的卷积处理来获取降维后的特征F_M。空间注意力层的输出的表达式可以为：

F_N＝F_M⊙F_D (1)

其中，F_N表征空间注意力层的输出，F_M表征降维后的特征，F_D表征深度特征，⊙表征点积。

在一些实施例中，参见图4C，对于通道注意力层，通过执行通道重缩放，在特征图F_N上选取有效的特征通道，具体的，分别采用1×1卷积在特征图F_M和F_N上得到卷积后的特征图F_P和F_Q，这是用来确保两个特征图的通道一致性。随后，全局平均池化和全连接层可以自适应获取每个通道的权重，然后通过归一化操作得到通道权重向量，最后，通道注意力的输出的表达式可以为：

其中，i，j，k分别表征通道的长度、高度和宽度维度的特征索引。

在一些实施例中，参见图4C，空间注意力层采用深度特征作为空间权值，在空间维度上筛选RGB特征，通道注意力层通过不同通道的自适应权重在通道维度上进行特征选择。最后，残差连接层将选择的特征与输入的待分割图像的特征进行融合，增强更高高度对象的特征。因此，本申请实施例所提出的双重注意力残差模块可以显式增加类别之间的特征差异，充分利用多模态特征中的互补信息进行语义分割。

在一些实施例中，参见图4A，可以采用如下方式对图4A所示出的网络进行训练，考虑到训练集中的每个类别对象的像素个数差异较大，采用加权交叉熵损失函数训练图4D所示出的网络，其中，加权交叉熵损失函数的表达式可以为：

其中，y_i表征当前像素i的真实数据，p_i表征图4A所示出的网络的归一化的预测结果，w_i表征第i类像素的权重，N表征待分割图像的像素类别的总数。

其中，第i类像素的权重的表达式可以为：

在本申请实施例中，通过在两个1080Ti GPU上对图4A是示出的网络进行训练，每个GPU可以有11G内存。采用随机梯度下降法进行优化，权重衰减为0.0001，动量为0.9，初始化学习速率为0.01。学习率策略被采用来进行学习率更新，每次迭代后学习率更新为

同时，为了提升批处理大小，本方案还对所有GPU的样本进行批处理归一化统计。

本申请实施例提供的图像的语义分割方法，可以准确并高效的实现航拍图像场景下，利用光学数据和雷达数据作为融合输入条件下的图像语义分割，能够充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

可以理解的是，在本申请实施例中，涉及到待分割图像等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的图像的语义分割装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的图像的语义分割装置255中的软件模块可以包括：获取模块2551，用于获取包括至少两个对象的待分割图像，以及待分割图像对应的深度图像；编码模块2552，用于对深度图像进行编码，得到深度编码结果；融合编码模块2553，用于调用至少两个分割编码网络，对深度编码结果和待分割图像进行融合编码，得到目标编码结果，其中，所述空间筛选用于在空间维度对所述待分割图像进行特征筛选，所述通道重组用于在通道维度对所述待分割图像进行特征筛选；语义分割模块2554，用于基于目标编码结果，对待分割图像进行语义分割，得到对应各对象的语义分割结果。

在一些实施例中，上述编码模块2552，还用于对深度图像进行下采样处理，得到深度图像的下采样处理结果；对深度图像的下采样处理结果进行池化处理，得到深度图像的池化处理结果；调用至少两个深度编码网络，对深度图像的池化处理结果进行迭代编码处理，得到深度编码结果。

在一些实施例中，上述编码模块2552，还用于调用第1深度编码网络，对深度图像的池化处理结果进行编码处理，得到第1深度编码结果；调用第i+1深度编码网络，对第i深度编码结果进行编码处理，得到第i+1深度编码结果；将第N深度编码结果确定为深度编码结果；其中，1≤i≤N-1，N表征深度编码网络的数量，第i+1深度编码网络的尺寸小于第i深度编码网络的尺寸。

在一些实施例中，深度编码网络包括至少两个结构相同的编码层，至少两个结构相同的编码层包括第一编码层和第二编码层；上述编码模块2552，还用于调用第一编码层，对第i深度编码结果进行编码处理，得到第一编码结果；调用第二编码层，对第一编码结果进行编码处理，得到第二编码结果；将第二编码结果确定为第i+1深度编码结果。

在一些实施例中，上述融合编码模块2553，还用于对待分割图像进行下采样处理，得到待分割图像的下采样处理结果；对待分割图像的下采样处理结果进行池化处理，得到待分割图像的池化处理结果；调用至少两个分割编码网络，对待分割图像的池化处理结果和深度编码结果进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果。

在一些实施例中，深度编码结果包括i个深度编码结果，1≤i≤N-1，N表征对深度图像进行编码的深度编码网络的数量；上述融合编码模块2553，还用于调用第1分割编码网络，对待分割图像的池化处理结果和第1深度编码结果进行包括空间筛选和通道重组的融合编码，得到第1分割编码结果；调用第i+1分割编码网络，对第i分割编码结果和第i深度编码结果进行包括空间筛选和通道重组的融合编码，得到第i+1分割编码结果；将第N分割编码结果确定为目标编码结果；其中，第i+1分割编码网络的尺寸小于第i分割编码网络的尺寸。

在一些实施例中，分割编码网络包括至少两个残差层和至少一个注意力残差层；上述融合编码模块2553，还用于调用至少两个残差层，对第i分割编码结果进行特征提取，得到第i分割编码结果的特征提取结果；调用至少一个注意力残差层，对特征提取结果和第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到第i+1分割编码结果。

在一些实施例中，当注意力残差层的数量为至少两个时，上述融合编码模块2553，还用于调用第1注意力残差层，对特征提取结果和第i深度编码结果，进行包括空间筛选和通道重组的融合编码，得到第1融合编码结果；调用第j注意力残差层，对第i深度编码结果和第j-1融合编码结果，进行包括空间筛选和通道重组的融合编码，得到第j融合编码结果，其中，2≤j≤M，M表征注意力残差层的数量；将第M融合编码结果，确定为第i+1分割编码结果。

在一些实施例中，注意力残差层包括空间注意力层、通道注意力层和残差连接层；上述融合编码模块2553，还用于调用第1注意力残差层的空间注意力层，对特征提取结果和第i深度编码结果进行空间筛选，得到第1注意力残差层的空间筛选结果；调用第1注意力残差层的通道注意力层，对空间筛选结果进行通道重组，得到第1注意力残差层的通道重组结果；调用第1注意力残差层的残差连接层，对通道重组结果和特征提取结果进行融合处理，得到第1融合编码结果。

在一些实施例中，注意力残差层包括空间注意力层、通道注意力层和残差连接层；当注意力残差层的数量为一个时，上述融合编码模块2553，还用于调用空间注意力层，对特征提取结果和第i深度编码结果进行空间筛选，得到空间筛选结果；调用通道注意力层，对空间筛选结果进行通道重组，得到通道重组结果；调用残差连接层，对通道重组结果和特征提取结果进行融合处理，得到第i+1分割编码结果。

在一些实施例中，上述融合编码模块2553，还用于对特征提取结果进行卷积处理，得到特征提取结果的第一卷积处理结果；将第一卷积处理结果和第i深度编码结果进行点积，得到第一点积结果；将第一点积结果确定为空间筛选结果。

在一些实施例中，上述融合编码模块2553，还用于对空间筛选结果进行卷积处理，得到空间筛选结果的第二卷积处理结果；对第一卷积处理结果进行卷积处理，得到第三卷积处理结果；对第三卷积处理结果进行归一化处理，得到归一化处理结果；将归一化处理结果和第二卷积处理结果进行点积，得到第二点积结果；将第二点积结果确定为通道重组结果。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的图像的语义分割方法，例如，如图3A示出的图像的语义分割方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEP ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperTextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，本申请实施例具有如下有益效果：

(1)通过对待分割图像对应的深度图像进行编码，得到深度编码结果；对深度编码结果和待分割图像进行融合编码，基于得到的目标编码结果，对待分割图像进行语义分割，得到对应的语义分割结果。如此，待分割图像的深度图像中具有待分割图像中每个像素点与摄像机的距离信息，对深度编码结果和待分割图像进行包括空间筛选和通道重组的迭代融合编码，在空间维度和通道维度对待分割图像进行特征选择，可以充分挖掘图像的语义信息，那么，基于得到的目标编码结果，对待分割图像进行语义分割，可以充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

(2)通过包括至少两个结构相同的编码层的深度编码网络对待分割图像的深度图像进行编码，可以在多个不同尺度上显式聚合深度图像的多模态特征，便于后续基于深度图像的多模态特征和待分割图像进行融合编码，使得可以充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

(3)通过至少两个残差层对分割编码结果进行特征提取，由于残差层能够通过增加相当的深度来提高准确率，有效缓解了在深度神经网络中增加深度带来的梯度消失问题。

(4)通过注意力残差层的设计，采用深度图像作为空间权值，在空间维度上对待分割图像的特征进行筛选。通过注意力残差层的通道注意力层对不同通道的自适应权重在通道维度上进行特征选择，然后通过残差连接层将选择的特征与输入的待分割图像的特征进行融合，有效增强语义分割的精准性，可以显式增加不同类别的对象之间的差异，充分利用多模态特征中的互补信息进行语义分割，有效增强了语义分割的精准性。

(5)本申请实施例提供的渐进式注意力融合网络包括编码网络部分和解码网络部分，其中编码网络部分采用渐进式融合编码器，渐进式融合编码器包括两个分支，同时从待分割图像和深度图像中提取特征，并在每个尺度将深度图像融合至待分割图像对应的分支中，以增强编码网络对于不同大小物体的判别能力，本申请实施例通过在待分割图像对应的分支中，增加双注意力残差层，来显式增强不同类别目标之间的特征差异，强化对混淆对象的辨别能力。

(6)本申请实施例提供的图像的语义分割方法，可以准确并高效的实现航拍图像场景下，利用光学数据和雷达数据作为融合输入条件下的图像语义分割，能够充分挖掘图像的语义之间的互补性和相互依赖性，有效提高语义分割的精准性。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像的语义分割方法，其特征在于，所述方法包括：

对所述深度图像进行编码，得到深度编码结果；

2.根据权利要求1所述的方法，其特征在于，所述对所述深度图像进行编码，得到深度编码结果，包括：

对所述深度图像进行下采样处理，得到所述深度图像的下采样处理结果；

对所述深度图像的下采样处理结果进行池化处理，得到所述深度图像的池化处理结果；

调用至少两个深度编码网络，对所述深度图像的池化处理结果进行迭代编码处理，得到所述深度编码结果。

3.根据权利要求2所述的方法，其特征在于，所述调用至少两个深度编码网络，对所述深度图像的池化处理结果进行迭代编码处理，得到所述深度编码结果，包括：

调用第1深度编码网络，对所述深度图像的池化处理结果进行编码处理，得到第1深度编码结果；

调用第i+1深度编码网络，对所述第i深度编码结果进行编码处理，得到第i+1深度编码结果；

将第N深度编码结果确定为所述深度编码结果；

其中，1≤i≤N-1，N表征所述深度编码网络的数量，所述第i+1深度编码网络的尺寸小于第i深度编码网络的尺寸。

4.根据权利要求3所述的方法，其特征在于，所述深度编码网络包括至少两个结构相同的编码层，所述至少两个结构相同的编码层包括第一编码层和第二编码层；所述调用第i+1深度编码网络，对所述第i深度编码结果进行编码处理，得到第i+1深度编码结果，包括：

调用所述第一编码层，对所述第i深度编码结果进行编码处理，得到第一编码结果；

调用所述第二编码层，对所述第一编码结果进行编码处理，得到第二编码结果；

将所述第二编码结果确定为所述第i+1深度编码结果。

5.根据权利要求1所述的方法，其特征在于，所述调用至少两个分割编码网络，对所述深度编码结果和所述待分割图像进行包括空间筛选和通道重组的迭代融合编码，得到目标编码结果，包括：

对所述待分割图像进行下采样处理，得到所述待分割图像的下采样处理结果；

对所述待分割图像的下采样处理结果进行池化处理，得到所述待分割图像的池化处理结果；

调用所述至少两个分割编码网络，对所述待分割图像的池化处理结果和所述深度编码结果进行包括所述空间筛选和所述通道重组的迭代融合编码，得到所述目标编码结果。

6.根据权利要求5所述的方法，其特征在于，所述深度编码结果包括i个深度编码结果，1≤i≤N-1，N表征对所述深度图像进行编码的深度编码网络的数量；

所述调用所述至少两个分割编码网络，对所述待分割图像的池化处理结果和所述深度编码结果进行包括所述空间筛选和所述通道重组的迭代融合编码，得到所述目标编码结果，包括：

调用第1分割编码网络，对所述待分割图像的池化处理结果和第1深度编码结果进行包括所述空间筛选和所述通道重组的融合编码，得到第1分割编码结果；

调用第i+1分割编码网络，对第i分割编码结果和所述第i深度编码结果进行包括所述空间筛选和所述通道重组的融合编码，得到第i+1分割编码结果；

将第N分割编码结果确定为所述目标编码结果；

其中，所述第i+1分割编码网络的尺寸小于第i分割编码网络的尺寸。

7.根据权利要求6所述的方法，其特征在于，所述分割编码网络包括至少两个残差层和至少一个注意力残差层；

所述调用第i+1分割编码网络，对第i分割编码结果和所述第i深度编码结果进行包括所述空间筛选和所述通道重组的融合编码，得到第i+1分割编码结果，包括：

调用所述至少两个残差层，对所述第i分割编码结果进行特征提取，得到所述第i分割编码结果的特征提取结果；

调用所述至少一个注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括所述空间筛选和所述通道重组的融合编码，得到所述第i+1分割编码结果。

8.根据权利要求7所述的方法，其特征在于，当所述注意力残差层的数量为至少两个时，所述调用所述至少一个注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括所述空间筛选和所述通道重组的融合编码，得到所述第i+1分割编码结果，包括：

调用第1注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括所述空间筛选和所述通道重组的融合编码，得到第1融合编码结果；

调用第j注意力残差层，对所述第i深度编码结果和第j-1融合编码结果，进行包括所述空间筛选和所述通道重组的融合编码，得到第j融合编码结果，其中，2≤j≤M，M表征所述注意力残差层的数量；

将第M融合编码结果，确定为所述第i+1分割编码结果。

9.根据权利要求8所述的方法，其特征在于，所述注意力残差层包括空间注意力层、通道注意力层和残差连接层；所述调用第1注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括所述空间筛选和所述通道重组的融合编码，得到第1融合编码结果，包括：

调用所述第1注意力残差层的空间注意力层，对所述特征提取结果和所述第i深度编码结果进行空间筛选，得到所述第1注意力残差层的空间筛选结果；

调用所述第1注意力残差层的通道注意力层，对所述空间筛选结果进行通道重组，得到所述第1注意力残差层的通道重组结果；

调用所述第1注意力残差层的所述残差连接层，对所述通道重组结果和所述特征提取结果进行融合处理，得到所述第1融合编码结果。

10.根据权利要求7所述的方法，其特征在于，所述注意力残差层包括空间注意力层、通道注意力层和残差连接层；

当所述注意力残差层的数量为一个时，所述调用所述至少一个注意力残差层，对所述特征提取结果和所述第i深度编码结果，进行包括所述空间筛选和所述通道重组的融合编码，得到所述第i+1分割编码结果，包括：

调用所述空间注意力层，对所述特征提取结果和所述第i深度编码结果进行空间筛选，得到空间筛选结果；

调用所述通道注意力层，对所述空间筛选结果进行通道重组，得到通道重组结果；

调用所述残差连接层，对所述通道重组结果和所述特征提取结果进行融合处理，得到所述第i+1分割编码结果。

11.根据权利要求10所述的方法，其特征在于，所述调用所述空间注意力层，对所述特征提取结果和所述第i深度编码结果进行空间筛选，得到空间筛选结果，包括：

对所述特征提取结果进行卷积处理，得到所述特征提取结果的第一卷积处理结果；

将所述第一卷积处理结果和所述第i深度编码结果进行点积，得到第一点积结果；

将所述第一点积结果确定为所述空间筛选结果。

12.一种图像的语义分割装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令或者计算机程序时，实现权利要求1至11任一项所述的图像的语义分割方法。

14.一种计算机可读存储介质，存储有可执行指令或者计算机程序，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的图像的语义分割方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的图像的语义分割方法。