CN117197477A

CN117197477A - 图像处理方法、装置、设备、介质及程序产品

Info

Publication number: CN117197477A
Application number: CN202311097353.3A
Authority: CN
Inventors: 黄雅雯; 黄慧敏; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-08

Abstract

本申请实施例公开了一种图像处理方法、装置、设备、介质及程序产品。本申请方法，通过提取待处理图像在多个不同尺度下的局部特征和全局特征，生成待处理图像在多个不同尺度下的第一特征图和第二特征图，并基于第一特征图对应的第一置信度和第二特征图对应的第二置信度，将第一特征图和第二特征图进行特征对齐；分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。本方案提升了图像分割效果。

Description

图像处理方法、装置、设备、介质及程序产品

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种图像处理方法、装置、电子设备、计算机存储介质及计算机程序产品。

背景技术

随着互联网的发展和科技的进步，计算机视觉技术研究领域越来越受到重视。图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向，是图像语义理解的重要一环，指将图像分成若干具有相似性质的区域的过程。随着深度学习技术的逐步深入，图像分割技术有了突飞猛进的发展，已经在无人驾驶、增强现实、安防、医学研究等行业都得到广泛的应用。

半监督学习在图像分割领域受到了广泛的关注，通过从无标记数据中提取知识来减轻标记像素标注的沉重负担。现有的半监督方法通常只使用单一的卷积神经网络(Convolutional Neural Networks，CNN)进行特征挖掘，并对输入图像或者网络参数增加小扰动，来对预测结果进行一致性约束。

然而，在学习半监督的范式时，由于CNN网络的神经元具有局限性，其限制了对全局信息的挖掘，容易导致不准确的定位，进一步产生不可靠的伪标签，特别是在混淆的边界附近，使得图像分割效果不佳。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以提升图像分割效果。

一种图像处理方法，包括：

获取待处理图像，所述待处理图像包括多个像素点；

提取所述待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取所述待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；

获取所述第一特征图对应的第一置信度和所述第二特征图对应的第二置信度；

根据所述第一置信度和所述第二置信度，将所述第一特征图和所述第二特征图进行特征对齐；

分别基于特征对齐后的所述第一特征图和所述第二特征图，对所述待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；

基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，对所述待处理图像进行图像分割处理。

相应的，本申请实施例还提供一种图像处理装置，包括：

第一获取单元，用于获取待处理图像，所述待处理图像包括多个像素点；

提取单元，用于提取所述待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取所述待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；

第二获取单元，用于获取所述第一特征图对应的第一置信度和所述第二特征图对应的第二置信度；

对齐单元，用于根据所述第一置信度和所述第二置信度，将所述第一特征图和所述第二特征图进行特征对齐；

分类单元，用于分别基于特征对齐后的所述第一特征图和所述第二特征图，对所述待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；

处理单元，用于基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，对所述待处理图像进行图像分割处理。

可选的，在一些实施方式中，所述第二获取单元具体用于：

获取所述多个不同尺度下的第一特征图的第一平均特征表示；

获取每个尺度下的第一特征图与所述第一平均特征表示之间的第一特征差异；

根据所述第一特征差异，确定每个尺度下的第一特征图对应的第一置信度；

获取所述多个不同尺度下的第二特征图的第二平均特征表示；

获取每个尺度下的第二特征图与所述第二平均特征表示之间的第二特征差异；

根据所述第二特征差异，确定每个尺度下的第二特征图对应的第二置信度。

可选的，在一些实施方式中，在获取每个尺度下的第一特征图与所述第一平均特征表示之间的第一特征差异时，所述第二获取单元进一步用于：

获取所述第一特征图与所述第一平均特征表示之间的第一离散度；

根据所述第一离散度确定所述第一特征差异；

在获取每个尺度下的第二特征图与所述第二平均特征表示之间的第二特征差异时，所述第二获取单元进一步用于：

获取所述第二特征图与所述第二平均特征表示之间的第二离散度；

根据所述第二离散度确定所述第二特征差异。

可选的，在一些实施方式中，所述对齐单元用于：

确定相同尺度下的第一特征图和第二特征图；

根据所述第一置信度和所述第二置信度，从相同尺度下的第一特征图和第二特征图中，确定高置信度特征图和低置信度特征图；

将所述低置信度特征图向所述高置信度特征图对齐。

可选的，在一些实施方式中，所述分类单元具体用于：

基于特征对齐后的所述第一特征图，对所述待处理图像中的每个像素点进行分类，得到第一分类结果；

确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异，其中，所述第一平均分类结果为：多个不同尺度下的第一分类结果的平均值；

根据多个不同尺度下的所述第一分类差异，确定每个像素点第一分类结果对应的第三置信度；以及，

基于特征对齐后的所述第二特征图，对所述待处理图像中的每个像素点进行分类，得到第二分类结果；

确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异，其中，所述第二平均分类结果为：多个不同尺度下的第二分类结果的平均值；

根据多个不同尺度下的所述第二分类差异，确定每个像素点第二分类结果对应的第四置信度。

可选的，在一些实施方式中，在确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异，所述分类单元进一步用于：

获取所述第一分类结果与所述第一平均分类结果之间的第三离散度；

根据所述第三离散度确定所述第一分类差异；

在确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异时，所述分类单元进一步用于：

获取所述第二分类结果与所述第一平均分类结果之间的第四离散度；

根据所述第四离散度确定所述第二分类差异。

可选的，在一些实施方式中，所述处理单元进一步用于：

基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，确定所述待处理图像中的每个像素点的最终分类；

根据每个像素点的最终分类，对所述待处理图像进行图像分割处理。

可选的，在一些实施方式中，在基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，确定所述待处理图像中的每个像素点的最终分类时，所述处理单元具体用于：

分别从多个不同尺度下的第一分类结果和第二分类结果中，获取最后一个尺度下的分类结果，得到第一候选分类结果和第二候选分类结果；

若所述第三置信度小于所述第四置信度，则基于所述第一候选分类结果确定所述待处理图像中的每个像素点的最终分类；

若所述第三置信度大于或等于所述第四置信度，则基于所述第二候选分类结果确定所述待处理图像中的每个像素点的最终分类。

可选的，在一些实施方式中，还包括：

第一转换单元，用于在获取多个不同尺度下的所述第一特征图和所述第二特征图之后，将所述第一特征图和所述第二特征图进行特征对齐之前，将所述第一特征图和所述第二特征图转换成相同通道维度；

第二转换单元，用于将所述第一特征图和所述第二特征图转换成相同分辨率。

此外，本申请实施方式还提供一种电子设备，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本申请实施例提供的图像处理方法中的步骤。

本申请实施例，通过提取待处理图像在多个不同尺度下的局部特征和全局特征，生成待处理图像在多个不同尺度下的第一特征图和第二特征图，并基于第一特征图对应的第一置信度和第二特征图对应的第二置信度，将第一特征图和第二特征图进行特征对齐；然后，根据特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度，并基于此对待处理图像进行图像分割处理。本方案中，通过结合不同特征范式的图像特征预测像素点分类，并对像素点分类结果进行二次处理，提高了图像中像素点分类的准确性，提升了图像分割效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的场景示意图；

图2是本申请实施例提供的图像处理方法的流程示意图；

图3是本申请实施例提供的另一种图像处理方法的流程示意图；

图4是本申请实施例提供的图像分割方法的流程示意图；

图5是本申请实施例提供的图像分割***的架构示意图；

图6是本申请实施例提供的图像分割的效果示意图；

图7是本申请实施例提供的另一种图像分割的效果示意图；

图8是本申请实施例提供的图像处理装置的结构示意图；

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。其中，该图像处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以图像处理装置集成在电子设备中为例，电子设备通过获取待处理图像，待处理图像包括多个像素点；提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；获取第一特征图对应的第一置信度和第二特征图对应的第二置信度；根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐；分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。

其中，本申请实施例提供的图像处理方法涉及人工智能中的机器学习方向。本申请实施例，基于两种不同特征提取能力的网络搭建了一种新型的学习框架，结合不同特征范式的图像特征，提取可靠性高的互补特征预测像素点分类，确定像素点最终分类时提取了可靠性高的伪标签，从而提高了图像中像素点分类的准确性，提升了图像分割效果。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深信息学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂信息理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深信息学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，可以理解的是，在本申请的具体实施方式中，涉及到属性数据、属性集合以及属性子集等相关数据，当本申请以下实施例运用到具体产品或技术中时，需要获得许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从图像处理装置的角信息进行描述，该图像处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC，Personal Computer)或其他可以进行图像处理的智能设备等设备。

本申请实施例提供一种图像处理方法，包括：获取待处理图像，待处理图像包括多个像素点；提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；获取第一特征图对应的第一置信度和第二特征图对应的第二置信度；根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐；分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。

如图2所示，该图像处理方法的具体流程如下：

101、获取待处理图像，待处理图像包括多个像素点。

本实施例中，待处理图像可以为任意领域中需要进行图像分割的图像。例如，该待处理图像可以为无人驾驶领域中的实时路况图像、增强现实领域中的现实环境图像、医学领域的医学图像等。

102、提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图。

具体的，将待处理图像进行多个不同尺度的缩放，得到图像金字塔，随后对图像金字塔中每层图像提取多个不同尺度的局部特征，得到多个不同尺度下的第一特征图；同样的，将待处理图像进行多个不同尺度的缩放，得到图像金字塔，随后对图像金字塔中每层图像提取多个不同尺度的全局特征，得到多个不同尺度下的第二特征图。本实施例中，将特征映射成多个不同尺度的特征图，以实现每次迭代(iteration)中只需要一次前向传播即可，而无需多次前向传播，减少了计算成本。

本实施例中，在提取局部特征时，可采用基于卷积神经网络(ConvolutionalNeural Networks，CNN)的语义分割模型进行局部特征提取，通过卷积运算将细粒度特征分层方式嵌入，获取图像局部细节。在提取全局特征时，可采用基于Transformer结构的语义分割模型进行全局特征提取，将待处理图像转换为多个图像块(patch)，伴随着位置嵌入，生成一系列位置标记(tokens)，并输入到级联的Transformer块中，用于全局上下文建模。

对于局部特征，可将其映射成5个不同尺寸的特征图，以得到多个不同尺寸的第一特征图。随着编码的深入，第一特征图的分辨率逐渐降低，第一特征图分辨率相对于待处理图像分辨率依次为{1/1,1/2,1/4,1/8,1/16}。

对于全局特征，可将待处理图像划分为多个个图像块。以将待处理图像划分为4各图像块为例，对于每个图像块，同样将其映射成5个不同尺寸的特征图，以得到多个不同尺寸的第二特征图。随着编码的深入，第二特征图的分辨率逐渐降低，第二特征图分辨率相对于待处理图像分辨率依次为{1/4、1/8、1/16、1/32、1/32}。

在一些实施方式中，在特征提取之前，可以对该待处理图像进行预处理，以消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，进而提高后续特征提取的准确性。具体的，可以通过图像裁剪、图像尺寸调节、图像归一化及灰度化等操作，对该待处理图像进行图像预处理，以排除干扰因素，突出特征信息。

103、获取第一特征图对应的第一置信度和第二特征图对应的第二置信度。

实际应用中，由于具有局部信息的CNN与具有全局信息的Transformer具备不同的特征提取能力，导致不同的特征范式。基于Transformer的语义分割模型不可避免地会过多关注背景，因此很难将目标与背景区分开来；而基于CNN的语义分割模型在捕获远程依赖关系方面受损，因此无法关注局部区域以外的目标。因此，本方案中，将通过在CNN和Transformer结构中挖掘到互补的特征级别的信息，对第一特征图和第二特征图进行特征调整，以提高第一特征图和第二特征图的表达能力。

由于提取到的全局特征和局部特征具有不同的特征范式，对于相同的图像输入，所提取到的全局特征和局部特征的特征可靠性(即表达能力)也是不确定的，不确定性越高则可靠性越低。因此，需要对不同特征范式的第一特征图和第二特征图确定其对应的置信度，作为特征可靠性的判断标准。其中，置信度越高，可靠性越高；置信度越低，可靠性越低。

本申请实施例中，可通过嵌入在不同尺度中的特征差异来特征可靠性的判断标准。也即，在一些实施方式中，获取第一特征图对应的第一置信度和第二特征图对应的第二置信度，可以包括以下流程：

获取多个不同尺度下的第一特征图的第一平均特征表示；

获取每个尺度下的第一特征图与第一平均特征表示之间的第一特征差异；

根据第一特征差异，确定每个尺度下的第一特征图对应的第一置信度；

获取多个不同尺度下的第二特征图的第二平均特征表示；

获取每个尺度下的第二特征图与第二平均特征表示之间的第二特征差异；

根据第二特征差异，确定每个尺度下的第二特征图对应的第二置信度。

具体的，若生成的特征图是可靠信息，那么在相同的图像输入下，不同尺度的特征图对应通道的特征值应该具有相似性。因此，本方案中通过计算多个不同尺度下的第一特征图与第一平均特征表示之间的差异、以及多个不同尺度下的第二特征图与第二平均特征表示之间的差异，来分别确定第一特征图和第二特征图各自对应的置信度。

具体实施时，可以通过计算特征图之间的离散程度，来确定各特征图之间的差异。也即，在一实施方式中，获取每个尺度下的第一特征图与第一平均特征表示之间的第一特征差异时，可以获取第一特征图与第一平均特征表示之间的第一离散度，再根据第一离散度确定第一特征差异。在获取每个尺度下的第二特征图与第二平均特征表示之间的第二特征差异时，可以获取第二特征图与第二平均特征表示之间的第二离散度，再根据第二离散度确定第二特征差异。

其中，第一离散度和第二离散度可以用于衡量两个特征图之间的距离。例如，第一离散度和第二离散度可以为KL散度(Kullback–Leibler divergence)、JS散度(Jensen-Shannon Divergence)等。

104、根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐。

本实施例中，为了提升特征的表达能力，需要设计让不确定性较高的特征向不确定较低的特征学习。也即，在一实施方式中，在根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐时，可以包括以下流程：

确定相同尺度下的第一特征图和第二特征图；

根据第一置信度和第二置信度，从相同尺度下的第一特征图和第二特征图中，确定高置信度特征图和低置信度特征图；

将低置信度特征图向高置信度特征图对齐。

具体的，可以设计定向对齐损失函数，从而约束质低质量的特征(即不确定性较高的特征)向相应的高质量特征(即不确定性较低的特征)对齐。例如，可以采用均方误差损失MSE(·)来对第一特征图和第二特征图的特征进行对齐。

具体实施时，为了后续的特征对齐，需要预先统一每个特征图的通道维度和分辨率。也即，在一些实施方式中，在获取多个不同尺度下的第一特征图和第二特征图之后，还包括以下流程：

将第一特征图和第二特征图转换成相同通道维度；

将第一特征图和第二特征图转换成相同分辨率。

具体的，可将每个尺度的特征图输入到一个1×1的卷积层，实现将特征图的通道维度统一。然后，将统一通道维度后的多尺度特征映射重新插值到与待处理图像相同的分辨率，使第一特征图和第二特征图与待处理图像的分辨率一致。最后，根据第一置信度和第二置信度，将转换为相同通道维度和分辨率的第一特征图、第二特征图进行特征对齐。

105、分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度。

具体的，基于特征对齐后每个尺度下第一特征图进行像素点的分类预测，得到待处理图像中每个像素点在多个不同尺度下的分类结果，即第一分类结果。基于特征对齐后每个尺度下第二特征图进行像素点的分类预测，得到待处理图像中每个像素点在多个不同尺度下的分类结果，即第二分类结果。由于是基于不同的特征对像素点的分类进行预测的，因此，预测结果也可能会存在差异，预测到的分类结果也存在不确定性。也即，不同的分类结果将对应有不同的置信度。置信度越高，不确定性越低，分类结果的可靠性也就越高；置信度越低，不确定性越高，分类结果的可靠性也就越低。

本方案中，针对不可靠伪标签(即不可靠的分类结果)产生的直接不利影响，也设计了不确定性估计，可以有效地消除不可靠和有噪声的伪标签。

本实施例中，将基于多尺度像素级别预测的相干性，来确定像素点分类结果的置信度。也即，在一些实施方式中，分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度，可以包括以下流程：

基于特征对齐后的第一特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果；

确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异，其中，第一平均分类结果为：多个不同尺度下的第一分类结果的平均值；

根据多个不同尺度下的第一分类差异，确定每个像素点第一分类结果对应的第三置信度；以及，

基于特征对齐后的第二特征图，对待处理图像中的每个像素点进行分类，得到第二分类结果；

确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异，其中，第二平均分类结果为：多个不同尺度下的第二分类结果的平均值；

根据多个不同尺度下的第二分类差异，确定每个像素点第二分类结果对应的第四置信度。

具体的，可以通过计算平均分类结果与多个不同尺度下的分类结果离散度，并加和得到最终的像素级别不确定度(即置信度)。也即，在一些实施方式中，在确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异时，可以获取第一分类结果与第一平均分类结果之间的第三离散度，再根据第三离散度确定第一分类差异。在确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异时，可以获取第二分类结果与第一平均分类结果之间的第四离散度，再根据第四离散度确定第二分类差异。

106、基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。

具体的，在进行图像分割处理时，可以先确定出待处理图像中的每个像素点的最终分类，进一步基于每个像素点的最终分类确定图像分割边界，并根据图像分割边界对待处理图像进行图像分割处理。也即，在一些实施方式中，基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理，可以包括以下流程：

基于第一分类结果、第二分类结果、第三置信度和第四置信度，确定待处理图像中的每个像素点的最终分类；

根据每个像素点的最终分类，对待处理图像进行图像分割处理。

实际应用中，随着层层上采样，最后一层的预测结果往往比其他层的预测结果更加准确。因此，本实施例中，将基于图像金字塔最后一层的预测结果，结合相应分类结果的置信度，确定待处理图像中的每个像素点的最终分类。也即，在基于第一分类结果、第二分类结果、第三置信度和第四置信度，确定待处理图像中的每个像素点的最终分类时，可以包括以下流程：

若第三置信度小于第四置信度，则基于第一候选分类结果确定待处理图像中的每个像素点的最终分类；

若第三置信度大于或等于第四置信度，则基于第二候选分类结果确定待处理图像中的每个像素点的最终分类。

其中，最后一个尺度下的分类结果，也即图像金字塔输出中最后一层的预测结果。本实施例中，针对待处理图像中的每一个像素点，将基于第一分类结果和第二分类结果的置信度，从中选取可靠性较高的分类结果，并从该可靠性较高的分类结果中选取概率最大的分类，作为该像素点的最终分类。

由上可知，本申请实施例提供的图像处理方法，通过提取待处理图像在多个不同尺度下的局部特征和全局特征，生成待处理图像在多个不同尺度下的第一特征图和第二特征图，并基于第一特征图对应的第一置信度和第二特征图对应的第二置信度，将第一特征图和第二特征图进行特征对齐；然后，根据特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度，并基于此对待处理图像进行图像分割处理。本方案中，在特征级别和像素级别上进行了置信度的估计，通过结合不同特征范式的图像特征，提取了可靠性高的互补特征预测像素点分类，确定像素点最终分类时提取了可靠性高的伪标签，从而提高了图像中像素点分类的准确性，提升了图像分割效果。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。参考图3，本申请另一实施例中，还提供一种图像分割方法。

201、构建训练数据集。

具体的，收集大量的相同应用场景下的样本图像，并通过人工方式对样本图像进行图像分割，对每个分割部分标注对应的类别，得到带标注的训练样本，进一步构建训练数据集。

具体实施时，可基于实际应用场景对样本图像进行分割，并对每个分割部分标注对应的类别。例如，对于实时路况图像，可分割为行人、道路、建筑物及背景等类别；又例如，对于心脏图像，可分割为左心室(Left ventricle，LV)、右心室(right ventricle，RV)、心肌(myocardium，MYO)及背景等类别。

202、基于训练数据集对图像分割模型进行训练，其中，图像分割模型包括第一子模型和第二子模型。

本申请实施例中，还可将无标注的样本图像也添加至训练数据集中，采用带标注的训练样本和未标注的训练样本共同对该图像分割模型进行训练。

本实施例中，图像分割模型建立在双学生网络CNN-Transformer网络框架上。具体的，参考图4，该图像分割模型采用U-Net网络作为CNN的学生网络(即第一子模型)，采用Swin-UNet网络作为Transformer的学生网络(即第二子模型)。其中，U-Net网络可通过卷积运算将细粒度特征分层方式嵌入，用于局部细节提取；Swin-UNet网络可将输入的图像转换为多个图像块，伴随着位置嵌入，生成一系列tokens，并将其输入到级联的Transformer块中，用于全局上下文建模。这两种不同的特征提取能力，导致在丰富特征级别结构统计和像素级别的预测上产生各异的特性。

在一实施方式中，为了降低计算成本，可以通过嵌入在不同尺度中的差异来设计特征级别的不确定性和像素级别的不确定性，由此，只需要一次前向传播操作就可以产生预期的不确定性。为此，将U-Net学生网络和Swin-UNet学生设计成可产生不同尺度的特征级表示(分别记作F_CNN和F_Trans)和像素级分割预测(分别记作P_CNN和P_Trans)。参考图4，给定输入图像I，可以得到两级金字塔输出，可以表示为:

F_CNN,P_CNN＝f(I；θ_CNN)；F_Trans,P_Trans＝f(I；θ_Trans)

其中，特征级别表示表示第s个尺度的特征图，S表示所有尺度的数量。类似的，像素级别预测P_CNN/Trans可以表示为/>

具体实施时，可将U-Net网络的编码器(encoder)分为五个阶段，随着encoder的深入，五个阶段特征映射的特征图大小逐渐降低到{1/1,1/2,1/4,1/8,1/16}，相应的通道维度增加到{16,32,64,128,256}。而Swin-UNet网络的encoder也可分为五个阶段，五个阶段特征图的分辨率分别逐渐降低到{1/4、1/8、1/16、1/32、1/32}，通道数则相应增加到{96,192,384,768,768}。

继续参考图4，将每个尺度的特征图输入到一个1×1的卷积层proj(·)，以将特征图的通道维度统一为D。然后，将得到的多尺度特征映射重新插值到与输入图像相同的分辨率(即H×W)，其可表示为最后，将每个统一的特征图发输入到一个分割层，可以得到相应的像素级别预测结果/>其中C表示类别的数量。

本实施例中，CNN-Transformer网络架构可挖掘两个学生网络的互补特征，包括CNN学生网络f(I；θ_CNN)和Transformer网络f(I；θ_Trans)。其中，I表示输入的图像，θ表示网络参数。由于f(I；θ_CNN)和f(I；θ_Trans)具有不同的输入和内部特征形式，提取的特征图编码了关键的互补结构统计信息，本方案中可将直接在F_CNN和F_Trans之间进行特征对齐。具体的，可以设计一个定向对齐损失，根据特征级不确定性，鼓励向具有更高质量特征的方向对齐，而非双向对齐。

对于特征级别不确定性估计，由于分割层中的卷积核通过混合跨通道信息来生成特征，因此，金字塔高级特征的每个映射proj(·)都可以被视为捕获包含语义信息的“what”和“where”的检测器。如果一个学生网络生成的特征图是可靠信息，那么通过相同输入得到的金字塔特征，对应通道的特征值应该具有相似性。由此，首先计算跨尺度的平均特征F^m为:

然后，计算平均特征F^m与第s个尺度特征F^s之间的KL散度，其表示了第s个尺度特征图的方差。该过程可以表示为:

其中，F_CNN和F_Trans具有相同的特征维度D。这样的特征级别不确定性反映了估计的方差，即反映了不同尺度特征图与平均值之间的差异，其中较大的值意味着较低的相似性。需要说明的是，估计的不确定性U_f与输入图像具有相同的分辨率。

本方案中，基于估计的特征级别不确定性映射U_f，进一步设计了定向对齐损失函数，从而约束质量较低的特征向相应的高质量特征对齐。因此，可靠特征的位置表示为:

然后，使用均方误差损失MSE(·)来对两个学生网络的特征进行对齐。因此，特征级别方向性对齐损失函数可以定义为:

其中，||·||表示集合内元素的数量；表示变量/>被认为是一个常数向量。这意味着，在反向传播过程中，不计算关于固定变量的梯度。由此，定向对齐损失将鼓励具有较低质量的特征向可靠的特征对齐。

本方案中，将基于CNN网络和Transformer网络的预测结果P_CNN和P_Trans的不确定性，设计像素级别无监督一致性损失函数，可以有效地消除不可靠和有噪声的伪标签。

同样的，对于像素级别不确定性估计，考虑了多尺度像素级别预测的相干性，得到不同尺度的平均预测:

进一步，通过计算平均预测结果P^m与第s个尺度特征P^s之间的KL-divergence，并加和得到作最终的像素级别不确定度。该过程可以表示为:

随着层层上采样，最后一层的预测结果往往比其他层的预测结果更加准确，因此，每一个学生网络的伪标签可以表示为：进一步结合上述得到的像素级别不确定度U_p，可以得到最终的伪标签表示为/>

其中，记录了CNN学生网络中不确定性更低的可靠像素的位置。相反，则编码了Transformer网络中更可靠的像素点位置。由此，进一步通过得到的伪标签/>来计算最终的像素级别无监督损失函数：

其中是Dice损失函数。因此，一致性损失/>具有更稳定的伪标签，且具备了局部信息和全局依赖的两类属性。

203、调整图像分割模型的模型参数，直至模型收敛，得到已训练模型。

本实施例中，在进行模型训练时，将采用整体优化函数同时作用于CNN学生网络和Transformer学生网络进行训练，基于模型损失调整模型参数，直至模型收敛。当输入带标注数据I_l时，采用全监督损失函数进行约束；当输入无标注数据I_u时，采用半监督损失函数/>进行约束。则整体优化函数L表示为：

其中，是作用于带标注数据I_l的全监督损失函数，具体可采用交叉熵损失函数/>和Dice损失函数/>构成，作为不同尺度上分割预测的监督损失/>监督损失/>同时作用于CNN学生网络和Transformer学生网络，该过程可表示为:

其中，表示CNN/Transformer中第s个尺度的预测结果；Y_l表示带标记数据的真值(ground truth)。

是作用于无标注数据I_u的半监督损失函数，半监督损失函数/>从大量无标注数据中逐渐学习有意义的区域。本实施中，将由特征级定向对齐损失/>和像素级无监督一致性损失/>两部分来充分学习无标注数据。由此，半监督损失函数/>可以表示为：

其中，λ_f和λ_p是两个权重超参数，用于平衡各个损失函数。本实施例中，可将λ_p设为1，λ_f设为其中t表示当前的训练阶段，t_max表示最大的训练阶段。训练次数越多，一致性损失/>的权重越大。

本实施例中，为了有效地利用无标记的数据进行训练，分别利用不同尺度的F_CNN/Trans和P_CNN/Trans来进行特征级别和像素级别的不确定性估计。由此，CNN-Transformer网络架构可以自适应地从不确定值较低的可靠区域学习，同时抑制不确定值较高的不可靠预测。通过调整模型参数，对损失进行收敛，使模型预测结果逼近真实结果，得到具备较强图像分割能力的已训练模型，进而提高图像分割结果的准确性。

204、将待处理图像输入至以训练模型中，已训练模型通过第一子模型提取待处理图像在多个不同尺度下的局部特征，得到多个第一特征图，以及通过第二子模型提取待处理图像在多个不同尺度下的全局特征，得到多个第二特征图。

具体的，分别通过第一子模型和第二子模型，对待处理图像提取多个不同尺度下的局部特征和全局特征，得到不同特征范式的多层图像金字塔输出。

205、获取第一特征图对应的第一置信度和第二特征图对应的第二置信度，并基于第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐。

具体的，可以通过计算多个不同尺度下特征图之间的离散程度，来确定各特征图之间的差异，并根据各特征图之间的差异来确定置信度。其中，差异越小，置信度越高，特征可靠性越高；差异越大，置信度越低，特征可靠性越低。

本实施例中，为了提升特征的表达能力，设定让不确定性较高(即置信度较低)的特征向不确定较低(即置信度较高)的特征对齐。

206、分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中每个像素点进行分类，得到第一分类结果及对应的第三置信度，以及第二分类结果及对应的第四置信度。

由于是基于不同的特征对像素点的分类进行预测的，因此，预测结果也可能会存在差异，预测到的分类结果也存在不确定性。也即，不同的分类结果将对应有不同的置信度。置信度越高，不确定性越低，分类结果的可靠性也就越高；置信度越低，不确定性越高，分类结果的可靠性也就越低。

207、基于第一分类结果、第二分类结果、第三置信度和所述第四置信度，确定所述待处理图像中的每个像素点的最终分类。

同样的，本实施例中设定让不确定性较高(即置信度较低)的分类结果向不确定较低(即置信度较高)的分类结果对齐，从而确定中每个像素点的最终分类。

208、根据每个像素点的最终分类，对所述待处理图像进行图像分割处理，输出分割处理后的目标图像。

具体的，在进行图像分割处理时，可基于每个像素点的最终分类确定图像分割边界，并根据图像分割边界对待处理图像进行图像分割处理。

本申请实施例中，提供了一种CNN-Transformer网络架构，在特征级别和像素级别上进行了不确定性估计，提取了可靠性高的互补特征和伪标签，具有较高的互补性和可靠性；针对特征级别不确定性估计，提供了判别统计和几何性质，并为互补学习设计了特征级别定向对齐损失函数；针对不可靠伪标签产生的直接不利影响，设计了一种像素级别不确定性估计，并以自训练的方式进一步引入像素级别无监督一致性损失。本方案探索了两个学生网络的互补性，从可靠性较高的特征级别结构统计和不确定性较低的像素级别预测中学习，提高了图像中像素点分类的准确性，提升了图像分割效果。

本申请实施例中，利用本方案在两个公共数据集上进行了实验评估。具体的，以医疗图像分割技术为背景，在两个公开的医疗数据集上进行验证。实际中该技术可以被应用于其他图像的分割任务中，比如自然图像等。

首先需要建立训练数据集，构建ACDC数据集和ISIC数据集，两个数据集均包含了不同的类别数量的医疗图像。

其中，ACDC是心脏分割数据集，其中包含了4个类别(左心室(LV)，右心室(RV)，心肌(MYO)和1个背景类别)，共涉及了100例Magnetic Resonance Imaging(MRI)病例，其中70例用于训练，10例用于验证，20例用于测试。在半监督的设置下，训练数据的3％(3个病例)和10％(7个病例)是带标注数据，其余的训练病例是无标注数据。

ISIC是皮肤癌图片数据集，其中包含了2个类别(皮肤肿瘤前景和背景)，共包含2594张病理图片，其中1838张用于训练图像，756张用于测试图像。在半监督的设置下，训练数据的3％(55张图像)和10％(181张图像)是带标注数据，其余的训练图像是无标注数据。

本方案中，实验采用PyTorch实现的，并在一个NVIDIAV100 GPU上进行。具体实施时，进行了一组数据增强以避免过拟合，其中包括随机旋转、翻转、裁剪成224×224的图像块大小等操作。模型参数通过30000次迭代进行训练，并通过随机梯度下降(SGD)优化器进行更新，其中权重衰减设置为10^-4，动量等于0.9。在训练过程中，使用多项式学习率策略来学习速率衰减，其中初始学习率设置为0.01。批次规模(Batch size)设置为16，包括8个带标注的图像和8个无标注的图像。在测试阶段中，采用了Dice系数(DSC)和Hausdorff距离(HD)来量化模型性能。

实际应用时，参考图5，可直接将需要分割的图像数据输入到前端A，前端A接收到图像数据后上传给后台，由后台使用本方案中的方法对其进行图像分割，最后输出分割后的图像到前端B。

参考下表1，展示了本方案中基于CNN-Transformer网络架构的图像分割方法，与其他方法在不同数据集上的定量性能。

表1

从表1中数据可看出，在两个数据集以及两个划分上显著提高了性能。值得注意的是，与使用相同CNN-Transformer架构的CTCT相比，本方案的性能显著优于CTCT，尤其在具有少量带标记数据(3％比例)设置下(ACDC数据集中DSC:+5.1％，HD:-1.8mm；ISIC数据集中DSC:+4.9％，HD:-13.6mm)。

另外，图6和图7分别展示了ACDC和ISIC两个数据集的可视化结果，对比了各自数据集上表现前5的分割结果。从两个图中观察发现，本方案生成的结果最接近真值(GT)，不仅能够准确地分割出不同大小、形状和位置的目标物体，还能产生更加清晰的边界。

为了更好地实施以上方法，本申请实施例还提供一种图像处理装置，该图像处理装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图8所示，该图像处理装置可以包括：第一获取单元301、提取单元302、第二获取单元303、对齐单元304、分类单元305及处理单元306，如下：

第一获取单元301，用于获取待处理图像，该待处理图像包括多个像素点；

提取单元302，用于用于提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；

第二获取单元303，用于获取第一特征图对应的第一置信度和第二特征图对应的第二置信度；

对齐单元304，用于根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐；

分类单元305，用于分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；

处理单元306，用于基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。

可选的，在一些实施方式中，第二获取单元303具体用于：

获取多个不同尺度下的第一特征图的第一平均特征表示；

获取多个不同尺度下的第二特征图的第二平均特征表示；

可选的，在一些实施方式中，在获取每个尺度下的第一特征图与第一平均特征表示之间的第一特征差异时，第二获取单元303进一步用于：

获取第一特征图与第一平均特征表示之间的第一离散度；

根据第一离散度确定第一特征差异；

在获取每个尺度下的第二特征图与第二平均特征表示之间的第二特征差异时，第二获取单元303进一步用于：

获取第二特征图与第二平均特征表示之间的第二离散度；

根据第二离散度确定第二特征差异。

可选的，在一些实施方式中，对齐单元304用于：

确定相同尺度下的第一特征图和第二特征图；

将低置信度特征图向高置信度特征图对齐。

可选的，在一些实施方式中，分类单元305具体用于：

可选的，在一些实施方式中，在确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异，分类单元305进一步用于：

获取第一分类结果与第一平均分类结果之间的第三离散度；

根据第三离散度确定第一分类差异；

在确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异时，分类单元进一步用于：

获取第二分类结果与第一平均分类结果之间的第四离散度；

根据第四离散度确定第二分类差异。

可选的，在一些实施方式中，处理单元306进一步用于：

可选的，在一些实施方式中，在基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，确定所述待处理图像中的每个像素点的最终分类时，处理单元306具体用于：

可选的，在一些实施方式中，该装置300还可以包括：

第一转换单元，用于在获取多个不同尺度下的第一特征图和第二特征图之后，将第一特征图和第二特征图进行特征对齐之前，将第一特征图和第二特征图转换成相同通道维度；

第二转换单元，用于将第一特征图和第二特征图转换成相同分辨率。

由上可知，本申请实施例提供的图像处理装置，通过获取待处理图像；提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；获取第一特征图对应的第一置信度和第二特征图对应的第二置信度；根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐；分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。本方案中，通过结合不同特征范式的图像特征预测像素点分类，并对像素点分类结果进行二次处理，提高了图像中像素点分类的准确性，提升了图像分割效果。

本申请实施例还提供一种电子设备，如图9所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及图像处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待处理图像，待处理图像包括多个像素点；

提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；

获取第一特征图对应的第一置信度和第二特征图对应的第二置信度；

根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐；

分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；

基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。

在一实施方式中，在基于局部特征获取待处理图像在多个不同尺度下的第一特征图，及第一特征图对应的第一置信度时，处理器401具体用于：

获取多个不同尺度下的第一特征图的第一平均特征表示；获取每个尺度下的第一特征图与第一平均特征表示之间的第一特征差异；根据第一特征差异，确定每个尺度下的第一特征图对应的第一置信度；以及，

获取多个不同尺度下的第二特征图的第二平均特征表示；获取每个尺度下的第二特征图与第二平均特征表示之间的第二特征差异；根据第二特征差异，确定每个尺度下的第二特征图对应的第二置信度。

在一些实施方式中，在获取每个尺度下的第一特征图与第一平均特征表示之间的第一特征差异时，处理器401具体用于：获取第一特征图与第一平均特征表示之间的第一离散度；根据第一离散度确定第一特征差异；

在获取每个尺度下的第二特征图与第二平均特征表示之间的第二特征差异时，处理器401具体用于：获取第二特征图与第二平均特征表示之间的第二离散度；根据第二离散度确定第二特征差异。

在一些实施方式中，在根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐时，处理器401具体用于：

确定相同尺度下的第一特征图和第二特征图；根据第一置信度和第二置信度，从相同尺度下的第一特征图和第二特征图中，确定高置信度特征图和低置信度特征图；将低置信度特征图向高置信度特征图对齐。

在一些实施方式中，在分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度时，处理器401具体用于：

基于特征对齐后的第一特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果；确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异，其中，第一平均分类结果为：多个不同尺度下的第一分类结果的平均值；根据多个不同尺度下的第一分类差异，确定每个像素点第一分类结果对应的第三置信度；以及，

基于特征对齐后的第二特征图，对待处理图像中的每个像素点进行分类，得到第二分类结果；确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异，其中，第二平均分类结果为：多个不同尺度下的第二分类结果的平均值；根据多个不同尺度下的第二分类差异，确定每个像素点第二分类结果对应的第四置信度。

在一些实施方式中，在确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异时，处理器401具体用于：获取第一分类结果与第一平均分类结果之间的第三离散度；根据第三离散度确定第一分类差异；

在确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异时，处理器401具体用于：获取第二分类结果与第一平均分类结果之间的第四离散度；根据第四离散度确定第二分类差异。

在一些实施方式中，在基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理时，处理器401具体用于：

基于第一分类结果、第二分类结果、第三置信度和第四置信度，确定待处理图像中的每个像素点的最终分类；根据每个像素点的最终分类，对待处理图像进行图像分割处理。

在一些实施方式中，在基于第一分类结果、第二分类结果、第三置信度和第四置信度，确定待处理图像中的每个像素点的最终分类时，处理器401具体用于：

若第三置信度小于第四置信度，则基于第一候选分类结果确定待处理图像中的每个像素点的最终分类；若第三置信度大于或等于第四置信度，则基于第二候选分类结果确定待处理图像中的每个像素点的最终分类。

在一些实施方式中，在获取多个不同尺度下的第一特征图和第二特征图之后，将第一特征图和第二特征图进行特征对齐之前，处理器401还用于：

将第一特征图和第二特征图转换成相同通道维度；将第一特征图和第二特征图转换成相同分辨率。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由以上可知，本申请实施例中，电子设备通过提取待处理图像在多个不同尺度下的局部特征和全局特征，生成待处理图像在多个不同尺度下的第一特征图和第二特征图，并基于第一特征图对应的第一置信度和第二特征图对应的第二置信度，将第一特征图和第二特征图进行特征对齐；然后，根据特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度，并基于此对待处理图像进行图像分割处理。本方案中，通过结合不同特征范式的图像特征预测像素点分类，并对像素点分类结果进行二次处理，提高了图像中像素点分类的准确性，提升了图像分割效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

获取待处理图像，待处理图像包括多个像素点；提取待处理图像在多个不同尺度下的局部特征，得到多个不同尺度下的第一特征图，以及提取待处理图像在多个不同尺度下的全局特征，得到多个不同尺度下的第二特征图；获取第一特征图对应的第一置信度和第二特征图对应的第二置信度；根据第一置信度和第二置信度，将第一特征图和第二特征图进行特征对齐；分别基于特征对齐后的第一特征图和第二特征图，对待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度；基于第一分类结果、第二分类结果、第三置信度和第四置信度，对待处理图像进行图像分割处理。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像处理方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像，所述待处理图像包含多个像素点；

2.根据权利要求1所述的图像处理方法，其特征在于，所述获取所述第一特征图对应的第一置信度和所述第二特征图对应的第二置信度，包括：

3.根据权利要求2所述的图像处理方法，其特征在于，所述获取每个尺度下的第一特征图与所述第一平均特征表示之间的第一特征差异，包括：

根据所述第一离散度确定所述第一特征差异；

所述获取每个尺度下的第二特征图与所述第二平均特征表示之间的第二特征差异，包括：

根据所述第二离散度确定所述第二特征差异。

4.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述第一置信度和所述第二置信度，将所述第一特征图和所述第二特征图进行特征对齐，包括：

确定相同尺度下的第一特征图和第二特征图；

将所述低置信度特征图向所述高置信度特征图对齐。

5.根据权利要求1所述的图像处理方法，其特征在于，所述分别基于特征对齐后的所述第一特征图和所述第二特征图，对所述待处理图像中的每个像素点进行分类，得到第一分类结果及其对应的第三置信度、第二分类结果及对应的第四置信度，包括：

6.根据权利要求5所述的图像处理方法，其特征在于，所述确定每个尺度下的第一分类结果与第一平均分类结果之间的第一分类差异，包括：

根据所述第三离散度确定所述第一分类差异；

所述确定每个尺度下的第二分类结果与第二平均分类结果之间的第二分类差异，包括：

根据所述第四离散度确定所述第二分类差异。

7.根据权利要求1所述的图像处理方法，其特征在于，所述基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，对所述待处理图像进行图像分割处理，包括：

8.根据权利要求7所述的图像处理方法，其特征在于，所述基于所述第一分类结果、所述第二分类结果、所述第三置信度和所述第四置信度，确定所述待处理图像中的每个像素点的最终分类，包括：

9.根据权利要求1-8任一项所述的图像处理方法，其特征在于，在获取多个不同尺度下的所述第一特征图和所述第二特征图之后，将所述第一特征图和所述第二特征图进行特征对齐之前，还包括

将所述第一特征图和所述第二特征图转换成相同通道维度；

将所述第一特征图和所述第二特征图转换成相同分辨率。

10.一种图像处理装置，其特征在于，包括：

第一获取单元，用于获取待处理图像，所述待处理图像包含多个像素点；

11.根据权利要求10所述的图像处理装置，其特征在于，所述第二获取单元用于：

12.根据权利要求10所述的图像处理装置，其特征在于，所述分类单元用于：

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1-8任一项所述的图像处理方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-9任一项所述的图像处理方法中的步骤。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1-9任一项所述的图像处理方法中的步骤。