CN117314938B - 一种基于多尺度特征融合译码的图像分割方法及装置 - Google Patents

一种基于多尺度特征融合译码的图像分割方法及装置 Download PDF

Info

Publication number
CN117314938B
CN117314938B CN202311529949.6A CN202311529949A CN117314938B CN 117314938 B CN117314938 B CN 117314938B CN 202311529949 A CN202311529949 A CN 202311529949A CN 117314938 B CN117314938 B CN 117314938B
Authority
CN
China
Prior art keywords
scale
tensor
feature map
fusion
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311529949.6A
Other languages
English (en)
Other versions
CN117314938A (zh
Inventor
马腾辉
李叶
许乐乐
徐金中
郭丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology and Engineering Center for Space Utilization of CAS
Original Assignee
Technology and Engineering Center for Space Utilization of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology and Engineering Center for Space Utilization of CAS filed Critical Technology and Engineering Center for Space Utilization of CAS
Priority to CN202311529949.6A priority Critical patent/CN117314938B/zh
Publication of CN117314938A publication Critical patent/CN117314938A/zh
Application granted granted Critical
Publication of CN117314938B publication Critical patent/CN117314938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开实施例的一种基于多尺度特征融合译码的图像分割方法及装置,所述方法包括:获取原始图像的多尺度特征图;对多尺度特征图进行上采样得到上采样特征图,将多尺度特征图与上采样特征图进行融合,得到多尺度融合特征图,对多尺度融合特征图依次进行编码生成多尺度嵌入张量;对多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量;对多尺度嵌入张量进行再次译码,得到多尺度轮廓张量;将多尺度掩膜张量、多尺度关键角点张量、多尺度轮廓张量拼接为多尺度融合查询量,对多尺度融合查询量进行编码,得到最终的图像分割结果。本公开解析全局特征的掩膜、轮廓,和局部特征的关键角点,进行多尺度特征融合译码,提高图像实例分割精度。

Description

一种基于多尺度特征融合译码的图像分割方法及装置
技术领域
本公开实施例涉及计算机视觉技术领域,尤其涉及一种基于多尺度特征融合译码的图像分割方法、装置、计算机设备及计算机可读存储介质。
背景技术
图像实例分割是计算机视觉领域中的一项重要任务,旨在将图像中的不同对象实例分离并标记出来。这项技术在自动驾驶、医学图像处理、视频监控等领域具有广泛的应用前景。传统的图像实例分割方法通常使用手工设计的特征和分类器,这些方法在处理复杂的实例分割问题时效果有限。近年来,深度学习技术的发展已经推动了图像实例分割领域的快速进步。卷积神经网络(CNN)等深度学习模型可以从图像中提取高层次的特征,使得实例分割任务更加准确和鲁棒。然而,由于图像中的对象实例具有不同的尺寸、形状和复杂性,实例分割任务依然具有挑战性。现有的深度学习模型,基于单一尺度的特征提取往往不能捕捉到对象实例的所有细节和特征,其分割精度有待进一步提高。
发明内容
本公开实施例的目的在于提供一种基于多尺度特征融合译码的图像分割方法、装置、计算机设备及计算机可读存储介质,从而解决现有技术中存在的前述问题。
为了实现上述目的,本公开实施例采用的技术方案如下:
本公开实施例一方面提供了一种基于多尺度特征融合译码的图像分割方法,所述方法包括:
获取待分割图像的多尺度特征图;
对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量;
根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量;
将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量;
将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合查询量进行编码,得到最终的图像分割结果。
示例性的,所述获取待分割图像的多尺度特征图,包括:
获取待分割的原始图像;
对所述原始图像依次进行卷积计算及采用最大池化法进行下采样,得到多尺度特征图。
示例性的,所述对所述多尺度特征图的最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,包括:
对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图;
将多尺度特征图与相应尺度的上采样特征图分别进行叠加,对叠加后的多尺度特征图进行卷积平滑处理,得到多尺度融合特征图。
示例性的,所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量,包括:
对多尺度融合特征图分别进行自注意力计算,得到对应的初始嵌入张量;
对多尺度初始嵌入张量分别进行两次线性变换,两次线性变换中间进行非线性ReLU激活,生成最终的多尺度嵌入张量。
示例性的,所述根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量,包括:
对多尺度嵌入张量分别进行自注意力计算,以及非线性变换,得到对应第一输出,其中,自注意力计算的查询量、键、值均为对应的嵌入张量;
再对所述第一输出进行交叉注意力计算,以及非线性变换,得到对应第二输出;其中,交叉注意力计算中查询量是可学习的参数量,键、值是对应多尺度嵌入张量进行自注意力计算的第一输出;
将所述第二输出分别与尺度最大的融合特征图进行点积运算,得到多尺度掩膜张量与多尺度关键角点张量。
示例性的,所述将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量,包括:
分别以多尺度掩膜张量作为查询量,键、值是对应多尺度嵌入张量,对多尺度嵌入张量分别进行交叉注意力计算,对交叉注意力计算输出进行非线性变换,将非线性变换结果与尺度最大的融合特征图进行点积运算,得到多尺度轮廓张量。
示例性的,所述将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合查询量进行编码,得到最终的图像分割结果,包括:
分别将多尺度掩膜张量、多尺度关键角点张量、多尺度轮廓张量拼接得到多尺度融合查询量;
对所述多尺度融合查询量进行自注意力计算及非线性变换,并与尺度最大的融合特征图进行点积运算,得到不同尺度的分割结果,对不同尺度的分割结果累加得到最终图像实例分割结果。
本公开实施例的另一方面提供了一种基于多尺度特征融合译码的图像分割装置,所述装置包括:
所述特征提取网络,用于获取图像并提取多尺度特征图;
所述编码器,用于对所述多尺度特征图的进行多次上采样得到对应的上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,并对融合后的多尺度特征图依次进行编码生成多尺度嵌入张量;
所述多尺度特征译码器,用于根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量;
所述轮廓译码器,用于将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量;
所述融合译码器,用于将所述多尺度的掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合张量进行编码,得到最终的图像分割结果。
本公开实施例的另一方面提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
本公开实施例的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
本公开实施例的有益效果是:
本公开实施例的基于多尺度特征融合译码的图像实例分割方法,解析全局特征如掩膜、轮廓,和局部特征的关键角点,并进行多尺度特征融合译码,提高图像实例分割精度。本公开方法操作简单,方便,分割效果好。
附图说明
图1是本公开实施例的一种基于多尺度特征融合译码的图像分割方法流程示意图;
图2是本公开实施例的一种基于多尺度特征融合译码的图像分割装置的结构示意图;
图3是本公开实施例的一种基于多尺度特征融合译码的图像分割装置的工作流程图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图,对本公开实施例进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本公开实施例,并不用于限定本公开实施例。
如图1所示,本公开实施例提出了一种基于多尺度特征融合译码的图像分割方法,所述方法包括:
步骤S1、获取待分割图像的多尺度特征图。
作为一个示例,所述获取待分割图像的多尺度特征图,包括:
步骤S11、获取待分割的原始图像。
步骤S12、对所述原始图像依次进行卷积计算及采用最大池化法进行下采
样,得到多尺度特征图,具体公式如下:
Dn+1=fdownsample(fConv(Dn),n=0,1,2,3
其中,fdownsample()表示下采样过程,fConv表示卷积过程,D0为原始图像,D1~D4为分别进行连续四次的下采样过程得到尺寸大小逐渐降低的特征图。
本公开实施例在步骤S12中的最大池化法通过下采样输入特征图中的局部区域,将这些局部区域的信息进行汇总,从而减少了参数的数量,这有助于减小计算的复杂度,降低训练和推理的计算成本,减小过拟合风险,保留输入特征图中的关键信息,能够更好地识别和学习重要特征。
步骤S2、对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量。
作为一个示例,所述对所述多尺度特征图的最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,包括:
步骤21、对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图,具体如下:
Un+1=fupsample(Un),n=0,1,2,3
其中,fupsample()表示上采样过程,U0为多尺度特征图中尺寸最小的特征图D4,U1~U4为进行连续四次上采样,得到尺寸逐渐增大的上采样特征图;
步骤22、将多尺度特征图与相应尺度的上采样特征图分别进行叠加,对叠加后的多尺度特征图进行卷积平滑处理,得到多尺度融合特征图,具体如下:
Cn=fConv3×3(Un+D5-n),n=1,2,3,4
其中,fConv3×3表示3×3的卷积计算,C1~C4为多尺度特征图与相应尺度的上采样特征图叠加平滑处理后,得到的融合特征图。
本公开实施例中在对多尺度特征图与对应的上采样特征图进行叠加过程中分别使用具有横向连接的上采样操作,同时为了消除两个特征图对应元素直接相加可能带来的融合不充分的问题,在融合之后的特征图上使用一个3×3卷积进行平滑处理,从而得到一个融合得更加充分的融合特征图。
作为一个示例,所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量,包括:
步骤23、对多尺度融合特征图Cn(n=1,2,3,4)分别进行自注意力计算,得到对应的初始嵌入张量Z1~Z4,自注意力函数公式为:
其中,Attention()为注意力函数,dk表示查询量Qn、键Kn、值Vn维度大小;查询量Qn、键Kn、值Vn均为第n张融合特征图Cn的张量。注意力函数Attention()可以描述为将查询量Q和一组键值K-V对映射到输出,得出融合特征图Cn每个像素位置的得分,即为对应的初始嵌入张量Zn,以捕获图像不同位置之间的长距离依赖关系。
步骤24、对多尺度初始嵌入张量Zn分别进行两个线性变换,中间经过非线性ReLU激活,生成最终的嵌入张量Z’n,具体为:
FFN(Zn)=max(0,ZnW1+b1)W2+b2,(n=1,2,3,4)
其中,FFN()表示两次线性变换及两次线性变换中间非线性ReLU激活计算,W1、b1、W2、b2均表示参数。
本公开实施例中初始嵌入张量Z1~Z4经过两个线性变换,并且两个线性变换中间经过非线性ReLU激活,用于对初始嵌入张量Z1~Z4进行非线性变换和映射,以生成最终输出嵌入张量Z’1~Z’4,增加模型表达与泛化能力,从而提高性能。
步骤S3、根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量。
本公开实施例的步骤S3用于对不同尺度的特征进行交互和整合以捕获全局上下文信息。
作为一个示例,所述根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量,包括:
步骤S31、对多尺度嵌入张量Z’n分别进行自注意力计算,以及非线性变换,得到对应第一输出Zsn,具体公式为:
Zsn=FFN(Attention(Z’n,Z’n,Z’n)) n=1,2,3,4
本公开实施例的步骤S31自注意力计算中查询量Q’n、键K’n、值V’n均为嵌入张量Z’n,对应生成Zs1~Zs4
步骤S32、对第一输出Zsn分别进行交叉注意力计算,以及非线性变换,得到对应第二输出Zc1~Zc4,具体公式为:
Zcn=FFN(Attention(Qsn,Zsn,Zsn)) n=1,2,3,4
其中,查询量Qsn为[100,b,256]的可学习的参数量、键Ksn、值Vsn为对应多尺度嵌入张量Z’n进行自注意力计算的输出Zsn
本公开实施例中查询量Qsn为[100,b,256]的可学习的参数,其中,b为每个批次输入图像的数量,每个256维的向量代表了检测的检测框box信息,这个信息是由类别和空间信息(box坐标)组成,其中类别信息用于区别类别,而空间信息则描述了目标在图像中的位置。
步骤S33、将第二输出Zc1~Zc4分别与尺度最大的融合特征图C4进行点积运算,得到多尺度掩膜张量Vmn与多尺度关键角点张量Vpn,具体为:
Vmn,Vpn=torch.mul(Zcn,C4)n=1,2,3,4
其中,torch.mul()表示点积运算。
步骤S4、将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量。
作为一个示例,所述将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量,包括
分别以多尺度掩膜张量Vmn作为查询量,对多尺度嵌入张量Z’1~Z’4分别进行交叉注意力计算,对交叉注意力计算输出进行非线性变换,将非线性变换结果与尺度最大的融合特征图C4进行点积运算,得到多尺度轮廓张量Vrn,具体为:
Vrn=torch.mul(FFN(Attention(Vmn,Z’n,Z’n)),C4)n=1,2,3,4
其中,交叉注意力计算的键、值是对应多尺度嵌入张量。
本公开实施例的步骤S4以多尺度的掩膜作为查询量,提高查询量的质量,增加对全局特征的感知,提升译码能力。
步骤S5、将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合查询量进行编码,得到最终的图像分割结果。
作为一个示例,所述将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合查询量进行编码,得到最终的图像分割结果,包括:
分别将多尺度掩膜张量Vmn、多尺度关键角点张量Vpn、多尺度轮廓张量Vrn拼接得到多尺度融合查询量Bn,拼接公式具体为:
Bn=Contact(Vmn,Vpn,Vrn),n=1,2,3,4
其中,Contact表示张量拼接。
对所述多尺度融合查询量Bn进行自注意力计算及非线性变换,在全局特征与局部特征之间建立关联和交互,并与尺度最大的融合特征图进行点积运算,得到不同尺度的分割结果Mn,对Mn累加得到最终的图像实例分割结果,具体为:
Mn=torch.mul(FFN(Attention(Bn,Z’n,Z’n)),C4) n=1,2,3,4
result=torch.add(Mn) n=1,2,3,4
其中,torch.add()表示累加计算。
本公开实施例涉及一种基于多尺度特征融合译码的图像实例分割方法,从输入的图像中获取多尺度特征图;将多尺度特征图进行跨层叠加并编码生成多尺度嵌入张量;通过被学习出的查询量从多尺度嵌入张量中译码得到多尺度掩膜张量与多尺度关键角点张量;以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码,得到多尺度的轮廓张量;将多尺度的掩膜张量、关键角点张量、轮廓张量拼接为融合张量,对融合张量进行编码,得到最终的图像实例分割结果。本公开实施例提出的基于多尺度特征融合译码的图像实例分割方法,解析全局特征(掩膜、轮廓)和局部特征(局部关键角点)并进行多尺度特征融合译码,去除误分割区域,填补缺失部分掩膜,减小分割边界的锯齿状效应,提高图像实例分割精度。
如图2和图3所示,本公开实施例的另一方面提供了一种基于多尺度特征融合译码的图像分割装置所述装置包括:特征提取网络100、编码器200、多尺度特征译码器300、轮廓译码器400和融合译码器500。
所述特征提取网络100,用于获取待分割图像的多尺度特征图。所述特征提取网络可以包括至少1个卷积层以及1个池化层;所述特征提取网络中的卷积层用于获取待分割的原始图像,对所述原始图像进行卷积计算后池化层采用最大池化法进行下采样,得到多尺度特征图特征图,具体实现方法如下:
Dn+1=fdownsample(fConv(Dn),n=0,1,2,3
其中,fdownsample()表示下采样过程,fConv表示卷积过程,D0为原始图像,D1~D4为分别进行连续四次的下采样过程得到尺寸大小逐渐降低的特征图。
下采样实现对特征图的降维处理;池化层通过采样输入特征图中的局部区域,将这些局部区域的信息进行汇总,从而减少了参数的数量,这有助于减小模型的复杂度,降低训练和推理的计算成本,减小过拟合风险,保留输入特征图中的关键信息,使本公开的分割装置能够更好地识别和学习重要特征。
在本公开实施实例中所述特征提取网络可以是残差网络或者Transformer特征提取网络。
所述特征提取网络作为骨干网络用于获取图像的多尺度特征图,处理图像实例分割中的多尺度问题。
所述编码器200,用于对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量。
所述编码器可以是多尺度可变形自注意力编码器,包括至少1层基础Transformer层、1个上采样层、1个叠加层,采用自注意力机制;所述编码器的上采样层用于对图像小尺度特征图进行上采样,可以采用最邻近插值、双线性插值、转置卷积等上采样方法中的一种或多种进行上采样;上采样层对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图,具体如下:
Un+1=fupsample(Un),n=0,1,2,3
其中,fupsample()表示上采样过程,U0为多尺度特征图中尺寸最小的特征图D4,U1~U4为连续进行四次上采样,得到尺寸逐渐增大的上采样特征图。
所述编码器的叠加层用于将多尺度特征图与相应尺度的上采样特征图分别进行叠加和平滑处理,得到图像多尺度特征融合特征图;具体如下:
Cn=fConv3×3(Un+D5-n),n=1,2,3,4
其中,fConv3×3表示3×3的卷积计算,C1~C4为多尺度特征图与对应的上采样特征图叠加平滑处理后,得到的融合特征图。
每个叠加层分别使用具有横向连接的上采样层,上采样层增加网络层数,增大感受野,增加模型的表达能力,同时增大特征图的尺寸;同时为了消除两个特征图对应元素直接相加可能带来的融合不充分的问题,在融合之后的特征图上使用一个3×3卷积进行平滑处理,从而得到一个融合得更加充分的融合特征图。
所述编码器的基础Transformer层包括至少1个自注意力模块以及1个前馈神经网络,基础Transformer层中头的数量至少1个,其中自注意力模块用于捕获图像不同位置之间的长距离依赖关系,自注意力模块对多尺度融合特征图Cn分别进行自注意力计算,得到对应的初始嵌入张量Zn,自注意力计算公式为:
其中,Attention()为注意力函数,查询量Qn、键Kn、值Vn均为第n张融合特征图Cn的张量,dk表示查询量Qn、键Kn、值Vn维度大小。
编码器的前馈神经网络对多尺度初始嵌入张量Zn进行两次线性变换,两次线性变换中间经过非线性ReLU激活,生成最终的多尺度嵌入张量Z’n,具体为:
FFN(Zn)=max(0,ZnW1+b1)W2+b2
其中,FFN()表示两次线性变换及两次线性变换中间非线性ReLU激活计算,W1、b1、W2、b2均表示是参数。
前馈神经网络用于对初始嵌入张量Z1~Z4进行非线性变换和映射,以生成最终的输出,增加模型表达与泛化能力,从而提高性能;所述编码器使用自注意力模块及前馈神经网络对多尺度特征融合特征图进行编码,生成多尺度嵌入张量。
本公开实施例的编码器通过上采样层对小尺度特征图进行上采样,然后利用叠加层对上采样后的特征图与多尺度特征图进行叠加,实现多尺度特征图的融合,而后针对融合后的多尺度特征图利用自注意力模块计算多尺度嵌入张量,以捕获不同位置之间的长距离依赖关系,使得方法可以更好地处理图像中不同尺度和形状的对象实例。
所述多尺度特征译码器300,用于根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量。
所述多尺度特征译码器可以包括至少1层DetrTransformer译码层,DetrTransformer译码层中头的数量至少为1个,DetrTransformer译码层包括至少1个自注意力模块、1个交叉注意力模块以及1个前馈神经网络,所述译码器的自注意力模块根据被学习出的查询量从多尺度嵌入张量中译码,自注意力模块及前馈神经网络对多尺度嵌入张量Z’n分别进行自注意力计算以及非线性变换,得到对应第一输出Zsn,具体公式为:
Zsn=FFN(Attention(Z’n,Z’n,Z’n)) n=1,2,3,4
本公开实施例的自注意力计算中查询量Q’n、键K’n、值V’n均为嵌入张量Z’n,对应生成Zsn
多尺度特征译码器的交叉注意力模块及前馈神经网路对第一输出Zsn进行交叉注意力计算以及非线性变换,得到对应第二输出Zcn,具体公式为:
Zcn=FFN(Attention(Qsn,Zsn,Zsn)) n=1,2,3,4
其中,查询量Qsn为[100,b,256]的可学习的查询量、键Ksn、值Vsn为对多尺度嵌入张量Z’n进行自注意力计算的输出Zsn
多尺度特征译码器的交叉注意力模块将第二输出Zcn与尺度最大的融合特征图C4进行点积运算,得到多尺度掩膜张量Vmn与多尺度关键角点张量Vpn,具体为:
Vmn,Vpn=torch.mul(Zcn,C4) n=1,2,3,4
其中,torch.mul()表示点积运算。
本公开实施例的多尺度特征译码器通过将交叉注意力约束(交叉注意力模块)在每个查询量的预测掩码的前景区域内来提取局部特征,得到多尺度掩膜张量和多尺度关键角点张量。
本公开实施例的所述多尺度特征译码器根据被学习出的查询量从多尺度嵌入张量中译码,得到多尺度掩膜张量与多尺度关键角点张量;所述多尺度特征译码器的自注意力模块与交叉注意力模块用于对不同尺度的特征进行交互和整合,捕获全局上下文信息。查询量是一个可学习的嵌入张量,它可以将目标类别的信息注入到自注意力模块中,使方法得到更快的收敛速度和更好的性能。
所述轮廓译码器400,用于将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量。
所述轮廓译码器可以包括至少1层DetrTransformer译码层,DetrTransformer译码层中头的数量至少为1个,DetrTransformer译码层包括至少1个自注意力模块、1个交叉注意力模块以及1个前馈神经网络,轮廓译码器以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码,具体的,所述轮廓译码器的交叉注意力模块以分别多尺度的掩膜Vmn作为查询量,对多尺度嵌入张量Z’1~Z’4分别进行交叉注意力计算,对交叉注意力计算输出输入到前馈神经网络进行非线性变换,将非线性变换结果与尺度最大的融合特征图C4在交叉注意力模块进行点积运算,得到多尺度轮廓张量Vrn,具体为:
Vrn=torch.mul(FFN(Attention(Vmn,Z’n,Z’n)),C4) n=1,2,3,4
其中,交叉注意力计算的键、值是对应多尺度嵌入张量。
所述轮廓译码器以多尺度的掩膜张量作为查询量,提高查询量的质量,增加模型对全局特征的感知,提升译码能力。
本公开实施例的轮廓译码器以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码,得到多尺度轮廓张量;交叉注意力模块以多尺度的掩膜作为查询量,提高查询量的质量,增加模型对全局特征的感知,提升译码能力。前馈神经网络用于对交叉注意力计算结果进行非线性变换和映射,以生成最终的输出,帮助模型学习任务特定的表示,从而提高性能。
所述融合译码器500,用于将所述多尺度的掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为融合查询量,利用编码器网络结构对融合张量进行编码,得到最终的图像分割结果。
所述融合译码器可以是自注意力编码器,包括至少1层基础Transformer层,采用自注意力编码机制;基础Transformer层中头的数量至少1个,包括至少1个自注意力模块以及1个前馈神经网络。所述融合译码器的自注意力模块分别将多尺度的掩膜张量Vmn、关键角点张量Vpn、轮廓张量Vrn拼接为多尺度融合查询量Bn,拼接公式具体为:
Bn=Contact(Vmn,Vpn,Vrn),n=1,2,3,4
其中,Contact表示张量拼接。
融合译码器的自注意力模块用于在融合查询量的基础上建立查询-键-值关系,捕获图像中多尺度、多类型的信息,得到最终的图像实例分割结果。
融合译码器的自注意力模块和前馈神经网络对所述多尺度融合查询量Bn进行自注意力计算及非线性变换,在全局特征与局部特征之间建立关联和交互,并与尺度最大的融合特征图进行点积运算,得到不同尺度的分割结果Mn,对Mn累加得到最终的图像实例分割结果,具体为:
Mn=torch.mul(FFN(Attention(Bn,Z’n,Z’n)),C4) n=1,2,3,4
result=torch.add(Mn) n=1,2,3,4
其中,torch.add()表示累加计算。
本公开实施例的所述融合译码器将多尺度的掩膜张量、关键角点张量、轮廓张量拼接为融合查询量,自注意力模块用于在全局特征与局部特征之间建立关联和交互,帮助模型更好地理解输入数据的语义关联和相关性。融合译码器利用编码器网络结构对融合张量进行编码,得到最终的图像实例分割结果。
本公开实施例涉及一种基于多尺度特征融合译码的图像实例分割装置,包括特征提取网络、编码器、多尺度特征译码器、轮廓译码器、融合译码器;特征提取网络用于从输入的图像中获取多尺度特征图;编码器将多尺度特征图进行跨层叠加并编码生成多尺度嵌入张量;多尺度特征译码器通过被学习出的查询量从多尺度嵌入张量中译码得到多尺度掩膜张量与多尺度关键角点张量;轮廓译码器以多尺度掩膜张量作为查询量对多尺度嵌入张量进行再次译码,得到多尺度的轮廓张量。融合译码器,将多尺度的掩膜张量、关键角点张量、轮廓张量拼接为融合张量,融合译码器利用编码器网络结构对融合张量进行编码,得到最终的图像实例分割结果。
本公开实施例的另一方面提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的图像分割方法。
本公开实施例的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的图像分割方法。
其中,计算机可读存储介质可以是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的***、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的相连、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。其中,计算机可读存储介质也可以包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
以上所述仅是本公开实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本公开实施例的保护范围。

Claims (6)

1.一种基于多尺度特征融合译码的图像分割方法,其特征在于,所述方法包括:
获取待分割图像的多尺度特征图;
对所述多尺度特征图中最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量;
所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量,包括:对多尺度融合特征图分别进行自注意力计算,得到对应的初始嵌入张量;
对多尺度初始嵌入张量分别进行两次线性变换,两次线性变换中间进行非线性ReLU激活,生成最终的多尺度嵌入张量;
根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量,具体包括:对多尺度嵌入张量分别进行自注意力计算,以及非线性变换,得到对应第一输出,其中,自注意力计算的查询量、键、值均为对应的多尺度嵌入张量;
再对所述第一输出进行交叉注意力计算,以及非线性变换,得到对应第二输出;其中,交叉注意力计算中查询量是可学习的参数量,键、值是对应多尺度嵌入张量进行自注意力计算的第一输出;
将所述第二输出分别与尺度最大的融合特征图进行点积运算,得到多尺度掩膜张量与多尺度关键角点张量;
将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量,具体包括:分别以多尺度掩膜张量作为查询量,键、值是对应多尺度嵌入张量,对多尺度嵌入张量分别进行交叉注意力计算,对交叉注意力计算输出进行非线性变换,将非线性变换结果与尺度最大的融合特征图进行点积运算,得到多尺度轮廓张量;
将所述多尺度掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合查询量进行编码,得到最终的图像分割结果,具体包括:
分别将多尺度掩膜张量、多尺度关键角点张量、多尺度轮廓张量拼接得到多尺度融合查询量;
对所述多尺度融合查询量进行自注意力计算及非线性变换,并与尺度最大的融合特征图进行点积运算,得到不同尺度的分割结果,对不同尺度的分割结果累加得到最终图像实例分割结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待分割图像的多尺度特征图,包括:
获取待分割的原始图像;
对所述原始图像依次进行卷积计算及采用最大池化法进行下采样,得到多尺度特征图。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述多尺度特征图的最小尺度特征图进行多次上采样得到多尺度上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,得到多尺度融合特征图,包括:
对所述多尺度特征图的最小尺度特征图进行连续多次上采样得到与多尺度特征图数量相同的多尺度上采样特征图;
将多尺度特征图与相应尺度的上采样特征图分别进行叠加,对叠加后的多尺度特征图进行卷积平滑处理,得到多尺度融合特征图。
4.一种基于多尺度特征融合译码的图像分割装置,其特征在于,所述装置包括:
特征提取网络,用于获取图像并提取多尺度特征图;
编码器,用于对所述多尺度特征图的进行多次上采样得到对应的上采样特征图,将多尺度特征图与相应尺度的上采样特征图进行融合,并对融合后的多尺度特征图依次进行编码生成多尺度嵌入张量;所述对所述多尺度融合特征图依次进行编码生成多尺度嵌入张量,包括:对多尺度融合特征图分别进行自注意力计算,得到对应的初始嵌入张量;
对多尺度初始嵌入张量分别进行两次线性变换,两次线性变换中间进行非线性ReLU激活,生成最终的多尺度嵌入张量;
多尺度特征译码器,用于根据可学习的查询量对所述多尺度嵌入张量进行译码,得到多尺度掩膜张量与多尺度关键角点张量,具体包括:对多尺度嵌入张量分别进行自注意力计算,以及非线性变换,得到对应第一输出,其中,自注意力计算的查询量、键、值均为对应的多尺度嵌入张量;
再对所述第一输出进行交叉注意力计算,以及非线性变换,得到对应第二输出;其中,交叉注意力计算中查询量是可学习的参数量,键、值是对应多尺度嵌入张量进行自注意力计算的第一输出;
将所述第二输出分别与尺度最大的融合特征图进行点积运算,得到多尺度掩膜张量与多尺度关键角点张量;
轮廓译码器,用于将所述多尺度掩膜张量作为查询量对所述多尺度嵌入张量进行再次译码,得到多尺度轮廓张量,具体包括:分别以多尺度掩膜张量作为查询量,键、值是对应多尺度嵌入张量,对多尺度嵌入张量分别进行交叉注意力计算,对交叉注意力计算输出进行非线性变换,将非线性变换结果与尺度最大的融合特征图进行点积运算,得到多尺度轮廓张量;
融合译码器,用于将所述多尺度的掩膜张量、所述多尺度关键角点张量、所述多尺度轮廓张量拼接为多尺度融合查询量,对所述多尺度融合张量进行编码,得到最终的图像分割结果,具体包括:
分别将多尺度掩膜张量、多尺度关键角点张量、多尺度轮廓张量拼接得到多尺度融合查询量;
对所述多尺度融合查询量进行自注意力计算及非线性变换,并与尺度最大的融合特征图进行点积运算,得到不同尺度的分割结果,对不同尺度的分割结果累加得到最终图像实例分割结果。
5.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~3中任意一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~3中任意一项所述的方法。
CN202311529949.6A 2023-11-16 2023-11-16 一种基于多尺度特征融合译码的图像分割方法及装置 Active CN117314938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311529949.6A CN117314938B (zh) 2023-11-16 2023-11-16 一种基于多尺度特征融合译码的图像分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311529949.6A CN117314938B (zh) 2023-11-16 2023-11-16 一种基于多尺度特征融合译码的图像分割方法及装置

Publications (2)

Publication Number Publication Date
CN117314938A CN117314938A (zh) 2023-12-29
CN117314938B true CN117314938B (zh) 2024-04-05

Family

ID=89237565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311529949.6A Active CN117314938B (zh) 2023-11-16 2023-11-16 一种基于多尺度特征融合译码的图像分割方法及装置

Country Status (1)

Country Link
CN (1) CN117314938B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020216227A1 (zh) * 2019-04-24 2020-10-29 华为技术有限公司 图像分类方法、数据处理方法和装置
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN116091942A (zh) * 2023-02-16 2023-05-09 中国科学院半导体研究所 特征增强与融合的小目标检测方法、装置及设备
CN116597263A (zh) * 2023-05-12 2023-08-15 深圳亿嘉和科技研发有限公司 图像合成模型的训练方法及相关装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020216227A1 (zh) * 2019-04-24 2020-10-29 华为技术有限公司 图像分类方法、数据处理方法和装置
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN116091942A (zh) * 2023-02-16 2023-05-09 中国科学院半导体研究所 特征增强与融合的小目标检测方法、装置及设备
CN116597263A (zh) * 2023-05-12 2023-08-15 深圳亿嘉和科技研发有限公司 图像合成模型的训练方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Double-branch U-Net for multi-scale organ segmentation;Liu Yuhao et al.;《Methods》;20221231;第1-8页 *
基于密集连接和Inception模块的***图像分割;许瑶瑶 等;《电子测量技术》;20221231;第1-9页 *

Also Published As

Publication number Publication date
CN117314938A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及***
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN111881731A (zh) 基于人体骨架的行为识别方法、***、装置及介质
CN114529982A (zh) 基于流式注意力的轻量级人体姿态估计方法及***
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN117078930A (zh) 基于边界感知和注意力机制的医学图像分割方法
CN114677536B (zh) 一种基于Transformer结构的预训练方法及装置
CN113807361A (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN111325766A (zh) 三维边缘检测方法、装置、存储介质和计算机设备
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN114756763A (zh) 社交网络虚假新闻检测方法及装置
CN115797731A (zh) 目标检测模型训练方法、检测方法、终端设备及存储介质
CN113743521B (zh) 一种基于多尺度上下文感知的目标检测方法
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及***
CN116152334A (zh) 图像处理方法及相关设备
CN117314938B (zh) 一种基于多尺度特征融合译码的图像分割方法及装置
CN111539435A (zh) 语义分割模型构建方法及图像分割方法、设备、存储介质
CN116229584A (zh) 一种人工智能领域的文本分割识别方法、***、设备及介质
CN113780241A (zh) 一种显著物体检测的加速方法与装置
CN112966569B (zh) 一种图像处理方法、装置、计算机设备及存储介质
Wyzykowski et al. A Universal Latent Fingerprint Enhancer Using Transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant