CN115082675A - 一种透明物体图像分割方法及*** - Google Patents

一种透明物体图像分割方法及*** Download PDF

Info

Publication number
CN115082675A
CN115082675A CN202210633162.3A CN202210633162A CN115082675A CN 115082675 A CN115082675 A CN 115082675A CN 202210633162 A CN202210633162 A CN 202210633162A CN 115082675 A CN115082675 A CN 115082675A
Authority
CN
China
Prior art keywords
feature map
resolution
convolution
feature
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210633162.3A
Other languages
English (en)
Other versions
CN115082675B (zh
Inventor
胡泊
王勇
邹逸群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210633162.3A priority Critical patent/CN115082675B/zh
Publication of CN115082675A publication Critical patent/CN115082675A/zh
Application granted granted Critical
Publication of CN115082675B publication Critical patent/CN115082675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种透明物体图像分割方法,包括以下步骤:S1:建立含有高分辨率分支和低分辨率分支的双分辨率特征提取模块,得到高分辨率特征图和多尺度融合的低分辨特征图;S2:利用差分边界注意力模块对S1中提取到的不同维度的特征图分别进行差分卷积和空间注意力操作,提取多尺度的边缘特征图并进行融合;S3:利用区域注意力模块对高分辨率特征图和多尺度融合的低分辨特征图进行类别层面的上下文关系建模,得到像素‑区域增强特征图;融合高分辨率特征图、多尺度的边缘特征图和像素‑区域增强特征图,经过特征降维后得到最终的透明物体分割结果,有效解决透明物体因环境、遮挡等因素造成语义信息缺失的情况。

Description

一种透明物体图像分割方法及***
技术领域
本发明涉及计算机视觉领域,特别是一种透明物体图像分割方法及***。
背景技术
图像语义分割技术是智能***理解自然场景的关键技术之一,但是对于透明物体这类在现实世界中广泛存在的目标,现有通用的图像分割方法往往不能得到令人满意的结果,主要存在以下几个问题,透明物体很容易受到环境因素的影响导致难以提取到鲁棒性好的特征,透明物体容易被遮挡造成语义信息不完整,透明物体的边缘分割不准确,以上问题最终影响透明物体的分割效果。
发明内容
本发明的目的在于克服上述技术的不足,提出一种透明物体图像分割方法,通过加入高分辨率特征和自注意力机制,不断增强来自于同一类物体的像素的特征,能有效解决透明物体因环境、遮挡等因素造成语义信息缺失的情况。
为解决以上技术问题,本发明所采用的技术方案是:
一种透明物体图像分割方法,包括以下步骤:
S1:建立含有高分辨率分支和低分辨率分支的双分辨率特征提取模块,将输入图像输入所述双分辨率特征提取模块,高分辨率分支通过连接并行的不同分辨率特征图和重复进行多尺度交叉融合来维持精确的空间位置信息,得到1/8原图大小的高分辨率特征图;低分辨率分支通过连续的下采样以及与高分辨特征图进行交叉融合来提取高维的语义信息,得到1/64原图大小的低分辨率特征图;在低分辨率分支末端加上深度金字塔池化模块,用于扩大了有效的感受野并且融合多尺度的上下文信息,得到多尺度融合的低分辨特征图;
S2:利用差分边界注意力模块对S1中提取到的不同维度的特征图分别进行差分卷积和空间注意力操作,提取多尺度的边缘特征图并进行融合,经过特征降维后得到透明物体的边缘预测图像,计算出边缘损失函数L1作为总损失函数L的一部分,在梯度下降过程中参与网络权重更新来优化模型参数;其中 L1采用的是交叉熵损失函数,pi为边界处像素i的预测结果,yi为边界处像素i的实际结果;其计算公式如下:
Figure BDA0003680889500000011
S3:利用区域注意力模块对S1中得到的高分辨率特征图和多尺度融合的低分辨特征图进行类别层面的上下文关系建模,增强来自于同一类物体的像素的特征,得到像素-区域增强特征图;融合所述高分辨率特征图、多尺度的边缘特征图和像素-区域增强特征图,经过特征降维后得到最终的透明物体分割结果,计算出透明物体的损失函数L2作为总损失函数L的另外一部分。其中L2与L1相同都是采用的交叉熵损失函数,总损失函数L为L1、L2两者之和。
进一步地,所述双分辨率特征提取网络由conv1、conv2、conv3_x、conv4_x、conv5_x、DPPM共六个层级构成,其中x=1或2,x=1代表高分辨率分支,x=2代表低分辨率分支;
conv1包含步长为2且卷积核为3*3的卷积层、BatchNorm层和ReLU层,conv1层用于改变输入图像的维度;
conv2是由级联的残差块Basic Block组成;用于得到1/8原图大小的特征图feature2;
conv3_x开始分成并行的高低分辨率两个分支conv3_1和conv3_2;conv3_1采用与conv2相同的残差块,得到1/8原图大小的高分辨率分支特征图feature3_1;conv3_2将conv2的输出进行下采样,得到 1/16原图大小的低分辨率分支特征图feature3_2;
conv4_x分为并行的高低分辨率两个分支conv4_1和conv4_2,conv4_1用于不断融入低分辨信息并维持1/8原图大小的高分辨率分支特征图;conv4_2用于得到1/32原图大小的低分辨率分支特征图;
conv5_x分为并行的高低分辨率两个分支conv5_1和conv5_2,conv5_1用于不断融入低分辨信息并维持1/8原图大小的高分辨率分支特征图;conv5_2用于得到1/64原图大小的低分辨率分支特征图;
DPPM用于扩大感受野并且融合多尺度的上下文信息。
进一步地,所述conv2的Basic Block包含两个卷积核大小为3*3的卷积层和Identity Block,其中 3*3的卷积层是为了提取输入的不同特征,降低模型的运算量,Identity Block复制了浅层的特征,避免随着网络加深出现梯度消失的情况。
进一步地,所述特征图feature3_1进行conv4_1操作得到特征图hfeature3_1,特征图feature3_2 进行1*1卷积实现操作通道压缩然后通过双线性插值进行上采样得到特征图hfeature3_2,融合特征图 hfeature3_1和hfeature3_2得到1/8原图大小的高分辨率分支特征图feature4_1;对特征图feature3_2进行 conv4_2操作得到特征图lfeature3_2,对特征图feature3_1进行步长为2的3*3卷积实现下采样得到特征图 lfeature3_1,融合特征图lfeature3_1和lfeature3_2得到1/32原图大小的低分辨率分支特征图feature4_2。
进一步地,所述conv5_x由级联的残差块BottleneckBlock组成,BottleneckBlock包含两个卷积核大小为1*1的卷积层、一个卷积核大小3*3的卷积层和IdentityBlock,在深层的网络中减少消耗;对特征图feature4_1进行conv5_1操作得到特征图hfeature4_1,对特征图feature4_2进行1*1卷积实现操作通道压缩然后通过双线性插值进行上采样得到特征图hfeature4_2,融合特征图hfeature4_1和hfeature4_2得到1/8原图大小的高分辨率分支特征图feature5_1,对特征图feature4_2进行conv5_2操作得到特征图lfeature4_2, 对特征图feature4_1进行步长为2的3*3卷积实现下采样得到特征图lfeature4_1,融合特征图lfeature4_1 和lfeature4_2得到1/64原图大小的低分辨率分支特征图feature5_2。
进一步地,所述DPPM包含五个并行的分支:特征图feature5_2经过1*1卷积得到特征图y1;特征图feature5_2通过kernel_size=3,stride=2的池化层、1*1卷积和上采样后得到的特征图与特征图y1进行融合,融合后的特征图经过3*3卷积得到特征图y2;特征图feature5_通过kernel_size=5,stride=4的池化层、1*1卷积和上采样后得到的特征图与特征图y2进行融合,融合后的特征图经过3*3卷积得到特征图 y3;特征图feature5_2通过kernel_size=9,stride=8的池化层、1*1卷积和上采样后得到的特征图与特征图 y3进行融合,融合后的特征图经过3*3卷积得到特征图y4;特征图feature5_2通过全局平均池化、1*1卷积和上采样后得到的特征图与特征图y4进行融合,融合后的特征图经过3*3卷积得到特征图y5;对特征图y1、y2、y3、y4、y5进行拼接操作后再进行1*1卷积操作来改变通道数得到最终的多尺度融合的低分辨特征图feature6。
进一步地,所述差分边界注意力模块由四个并行的像素差分卷积模块和空间注意力模块组成,所述像素差分卷积模块包含卷积核大小3*3的差分卷积层、ReLU层、卷积核大小1*1卷积层;所述空间注意力模块包含两个卷积核大小为1*1的卷积层、一个卷积核为3*3的卷积层、ReLU层和Sigmoid函数;从S1中选取的每一个特征图先通过像素差分卷积模块(PDCM)再通过空间注意力模块(SAM)得到对应的边界特征图。
进一步地,所述S3中得到像素-区域增强特征图的具体步骤为:
S3-1:对多尺度融合的低分辨特征图进行Softmax操作,得到K个粗分割区域{R1,R2,...,RK},其中K代表分割的类别数,RK是一个二维向量,RK里面的每个元素代表着对应像素属于类别K的概率;
S3-2:利用下述公式得到第K个区域表示特征,即将整张图所有像素的特征与它们属于区域K的概率进行加权求和:
Figure BDA0003680889500000031
其中xi表示像素pi的特征,rki表示像素pi属于区域K的概率,fk代表区域表示特征;
S3-3:通过自注意力机制计算每个像素与每个区域的对应关系,其计算公式如下:
Figure BDA0003680889500000032
Figure BDA0003680889500000033
其中t(x,f)=u1(x)Tu2(f),u1、u2、u3和u4表示由1*1卷积、BatchNorm层和ReLU层组成的转换函数FFN;将u1(x)T和u2(f)分别作为自注意力机制的key和query,计算像素特征与区域表示特征之间的相关性并将其归一化得到wik,将wik作为权重与u3(fk)相乘得到像素-区域增强特征yi
S3-4:利用每个像素点的像素-区域增强特征yaug组成像素-区域增强特征图yaug
本发明的有益效果为:
1、本发明中的边界注意力与传统的边缘提取算子相比,优势在于加入卷积层和ReLU层后,边缘特征图的提取不容易受到环境、光照等因素的影响,泛化性能更好。与基于普通卷积神经网络的边缘特征提取模块相比,优势在于普通卷积神经网络的卷积核参数是从随机初始化开始进行优化,没有对梯度信息进行编码,因此很难集中于边缘相关的特征。而本发明中的边界注意力使用的是像素差分卷积,从边缘产生的原理出发,利用相邻像素的差分来实现梯度信息的编码并对卷积核参数进行优化,并且在像素差分卷积处理后加入空间注意力减少背景噪音的干扰,因此提取的边缘特征更为有效。
2、与当前图像分割算法(以DeepLabv3+为代表)利用全局上下文信息不同,本发明中的区域注意力是对类别层面的上下文关系建模,在整个过程中利用低分辨特征图生成粗分割区域,然后加入高分辨率特征和自注意力机制,不断增强来自于同一类物体的像素的特征,能有效解决透明物体因环境、遮挡等因素造成语义信息缺失的情况。
附图说明
图1为本发明实施例中透明物体图像分割方法的网络模型结构框图。
图2为本发明实施例中差分边界注意力模块框图。
图3为本发明实施例中区域注意力模块结构框图。
图4为本发明实施例中高分辨率分支和低分辨率分支交叉融合结构框图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步描述。需要说明的是,实施例并不对本发明要求保护的范围构成限制。
实施例1
如附图1至图4所示,一种透明物体图像分割方法,包括以下步骤:
S1:建立含有高分辨率分支和低分辨率分支的双分辨率特征提取模块,高分辨率分支通过连接并行的不同分辨率特征图和重复进行多尺度交叉融合来维持精确的空间位置信息,得到1/8原图大小的高分辨率特征图;低分辨率分支通过连续的下采样以及与高分辨特征图进行交叉融合来提取高维的语义信息,得到1/64原图大小的低分辨率特征图;在低分辨率分支末端加上深度金字塔池化模块,扩大了有效地感受野并且融合了多尺度的上下文信息,得到多尺度融合的低分辨特征图,通过摄像头采集原始图像,并对原始图像进行随机裁剪、随机翻转、光度失真、归一化的预处理,得到输入图像,将输入图像输入双分辨率特征提取模块,具体实施方法为:
双分辨率特征提取网络由conv1、conv2、conv3_x、conv4_x、conv5_x、DPPM共六个层级构成 (x=1或2,其中1代表高分辨率分支,2代表低分辨率分支)。conv1层包含步长为2且卷积核为3*3的卷积层、BatchNorm层和ReLU层,conv1层的作用是改变输入图像的维度,经过conv1操作得到特征图feature1;conv2是由级联的残差块Basic Block组成,BasicBlock包含两个卷积核大小为3*3的卷积层和Identity Block,其中3*3的卷积层是为了提取输入的不同特征,降低模型的运算量,Identity Block复制了浅层的特征,避免了随着网络加深出现梯度消失的情况,经过conv2操作得到1/8原图大小的特征图feature2;conv3开始分成并行的高低分辨率两个分支conv3_1和conv3_2,conv3_1采用与conv2相同的残差块,得到1/8原图大小的高分辨率分支特征图feature3_1;conv3_2将conv2的输出进行下采样,得到1/16原图大小的低分辨率分支特征图feature3_2;对特征图feature3_1进行conv4_1操作得到特征图hfeature3_1,对特征图 feature3_2进行1*1卷积操作通道压缩然后通过双线性插值进行上采样得到特征图hfeature3_2,融合特征图hfeature3_1和hfeature3_2得到1/8原图大小的高分辨率分支特征图feature4_1,对特征图feature3_2进行 conv4_2操作得到特征图lfeature3_2,对特征图feature3_1进行步长为2的3*3卷积实现下采样得到特征图 lfeature3_1,融合特征图lfeature3_1和lfeature3_2得到1/32原图大小的低分辨率分支特征图feature4_2,特征图feature4_1和feature4_2是高分辨率分支和低分辨率分支特征图交叉融合的结果;conv5_x由级联的残差块BottleneckBlock组成,BottleneckBlock包含两个卷积核大小为1*1的卷积层、一个卷积核大小3*3 的卷积层和Identity Block,在深层的网络中减少消耗,对特征图feature4_1进行conv5_1操作得到特征图 hfeature4_1,对特征图feature4_2进行1*1卷积操作通道压缩然后通过双线性插值进行上采样得到特征图 hfeature4_2,融合特征图hfeature4_1和hfeature4_2得到1/8原图大小的高分辨率分支特征图feature5_1,对特征图feature4_2进行conv5_2操作得到特征图lfeature4_2,对特征图feature4_1进行步长为2的3*3卷积实现下采样得到特征图lfeature4_1,融合特征图lfeature4_1和lfeature4_2得到1/64原图大小的低分辨率分支特征图feature5_2。在特征图feature5_2后面加上深度金字塔池化模块(DPPM)有效地扩大感受野并且融合了多尺度的上下文信息,它包含五个并行的分支,特征图feature5_2经过1*1卷积得到特征图y1,特征图feature5_2通过kernel_size=3,stride=2的池化层、1*1卷积和上采样后得到的特征图与特征图y1进行融合,融合后的特征图经过3*3卷积得到特征图y2,特征图feature5_通过kernel_size=5,stride=4的池化层、1*1卷积和上采样后得到的特征图与特征图y2进行融合,融合后的特征图经过3*3卷积得到特征图 y3,特征图feature5_2通过kernel_size=9,stride=8的池化层、1*1卷积和上采样后得到的特征图与特征图 y3进行融合,融合后的特征图经过3*3卷积得到特征图y4,特征图feature5_2通过全局平均池化、1*1卷积和上采样后得到的特征图与特征图y4进行融合,融合后的特征图经过3*3卷积得到特征图y5,对特征图y1、y2、y3、y4、y5进行拼接操作后再进行1*1卷积操作来改变通道数得到最终的多尺度融合的低分辨特征图feature6。
该步骤连接并行的不同分辨率特征图和重复进行多尺度交叉融合来维持高分辨率特征图,由此产生的高分辨率特征图提供了丰富的细节信息,对提升分割结果的精度大有帮助。低分辨率分支通过连续的下采样以及与高分辨特征图进行交叉融合来提取丰富的语义信息,该分支末端的特征图尺寸为原图的1/64,加上深度金字塔模块后,不仅扩大了有效地感受野并且融合了多尺度的上下文信息,还能降低模型的计算量。与现有大多数串行连接的特征提取模块不同,本模块双分辨率分支都是并行连接,其中高分辨率分支能够始终维持了精确的空间位置信息,并且不断融入低分辨信息,避免了串行连接中先下采样后上采样来恢复分辨率的信息损失,能够有效地解决透明物体受到背景以及光照变化影响导致特征信息难以提取的情形,对于后续精细化区域至关重要。
S2:利用差分边界注意力模块对提取到的S1中提取到的四个不同尺度的特征图feature2、feature3_2、feature4_2、feature5_2分别进行差分卷积和空间注意力操作,提取多尺度的边缘特征图并进行融合,经过特征降维后得到透明物体的边缘分割图像,具体实施方法为:
从S1中选取提取到的四个不同尺度的特征图feature2、feature3_2、feature4_2、feature5_2,经过差分边界注意力模块后得到四个分支的边界特征图boundary1、boundary2、boundary3、boundary4,差分边界注意力模块由四个并行的像素差分卷积模块和空间注意力模块组成,从S1中选取的每一个特征图先通过像素差分卷积模块(PDCM)再通过空间注意力模块(SAM)得到对应的边界特征图,其中,像素差分卷积模块包含卷积核大小3*3的差分卷积层、ReLU层、卷积核大小1*1卷积层。像素差分卷积层结合了传统边缘检测算子LBP(局部二值模式)和卷积神经网络,利用3*3卷积核在图像的局部区域8对像素差,然后通过与卷积核权重进行元素相乘并求和,以生成输出特征图中的值。空间注意力模块包含两个卷积核大小为1*1的卷积层、一个卷积核为3*3的卷积层、ReLU层和Sigmoid函数。1*1卷积层将特征图压缩成单通道的,利用双线性插值将特征图恢复到原图大小。最后将四个分支得到的边界特征图boundary1、 boundary2、boundary3、boundary4进行拼接操作得到多尺度的边缘特征图boundary5,再经过卷积核大小 1*1卷积层和Sigmoid函数,可以得到透明物体的边缘分割图。
该步骤包括多个差分卷积模块和空间注意力模块。差分卷积模块通过像素之间的差分与卷积核的卷积操作,获取丰富的边界信息,空间注意力模块是为了减少背景噪音的干扰。
经过特征降维后得到透明物体的边缘预测图像,计算出边缘损失函数L1作为总损失函数L的一部分,在梯度下降过程中参与网络权重更新来优化模型参数;其中L1采用的是交叉熵损失函数,pi为边界处像素i的预测结果,yi为边界处像素i的实际结果,其计算公式如下:
Figure BDA0003680889500000061
S3:利用区域注意力模块对S1中的高分辨率特征图feature5_1和多尺度融合的低分辨特征图 feature6进行类别层面的上下文关系建模,增强来自于同一类物体的像素的特征,得到像素-区域增强特征图。融合高分辨率特征图、多尺度的边缘特征图和像素-区域增强特征图,经过特征降维后得到最终的透明物体分割结果,计算出透明物体的损失函数L2作为总损失函数L的另外一部分。其中L2与L1相同都是采用的交叉熵损失函数,总损失函数L为L1、L2两者之和。具体实施方法为:
利用多尺度融合的低分辨特征图feature6进行Softmax操作得到K个粗分割区域{R1,R2,...,RK},其中K代表分割的类别数,RK是一个二维向量,里面的每个元素代表着对应像素属于类别K的概率。第 K个区域表示特征是将所有像素的特征与它们属于区域K的概率进行加权求和,其公式如下:
Figure BDA0003680889500000062
其中xi表示像素pi的特征,rki表示像素pi属于区域K的概率,fk代表区域表示特征;然后,通过自注意力机制计算每个像素与每个区域的对应关系,其计算公式如下:
Figure BDA0003680889500000071
Figure BDA0003680889500000072
其中t(x,f)=u1(x)Tu2(f),u1、u2、u3和u4表示由1*1卷积、BatchNorm层和ReLU层组成的转换函数FFN。将u1(x)T和u2(f)分别作为自注意力机制的key和query,计算像素特征与区域表示特征之间的相关性并将其归一化得到wik,将wik作为权重与u3(fk)相乘得到像素-区域增强特征yi,每个像素点的像素-区域增强特征yaug组成像素-区域增强特征图yaug。利用拼接操作融合高分辨率特征图feature5_1、多尺度的边缘特征图boundary5和像素-区域增强特征图yaug,经过卷积核大小1*1卷积层和Sigmoid函数,最终得到透明物体的分割结果,解决透明物体被遮挡以及受环境影响的情况。
本发明与一些通用图像分割算法在透明物体数据集Trans10K-v2上的性能比较如表1所示,其中 mIOU表示各个类别真实值和预测值的交集与并集之比的平均值,ACC表示像素准确率。
表1
Figure BDA0003680889500000073
从表中可以看出,与目前主流的语义分割算法比较,本发明所提出的方法在ACC和mIou两个性能指标上都具有明显优势。本发明的性能指标相比于UNet有大幅提升,证明了双分辨率特征提取模块能够提取到透明物体更为鲁棒的特征,本发明的性能指标相比于DeepLabv3+、DenseASPP有提升,证明区域注意力可以改善透明物体被遮挡造成语义信息缺失的情形,本发明的性能指标比OCRNet要好,证明了通过添加边界注意力可以改善透明物体的分割结果。
本发明实施例还提供了一种基于差分边界注意力和区域注意力的透明物体图像分割***,其包括计算机设备;所述计算机设备被配置或编程为用于执行上述实施例方法的步骤。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种透明物体图像分割方法,其特征在于,包括以下步骤:
S1:建立含有高分辨率分支和低分辨率分支的双分辨率特征提取模块,将输入图像输入所述双分辨率特征提取模块,高分辨率分支通过连接并行的不同分辨率特征图和重复进行多尺度交叉融合来维持精确的空间位置信息,得到1/8原图大小的高分辨率特征图;低分辨率分支通过连续的下采样以及与高分辨特征图进行交叉融合来提取高维的语义信息,得到1/64原图大小的低分辨率特征图;在低分辨率分支末端加上深度金字塔池化模块,深度金字塔池化模块用于扩大有效的感受野并且融合多尺度的上下文信息,得到多尺度融合的低分辨特征图;
所述双分辨率特征提取网络由conv1、conv2、conv3_x、conv4_x、conv5_x、DPPM共六个层级构成,其中x=1或2,x=1代表高分辨率分支,x=2代表低分辨率分支;
conv1包含步长为2且卷积核为3*3的卷积层、BatchNorm层和ReLU层,conv1层用于改变输入图像的维度;
conv2是由级联的残差块Basic Block组成;用于得到1/8原图大小的特征图feature2;
conv3_x开始分成并行的高低分辨率两个分支conv3_1和conv3_2;conv3_1采用与conv2相同的残差块,得到1/8原图大小的高分辨率分支特征图feature3_1;conv3_2将conv2的输出进行下采样,得到1/16原图大小的低分辨率分支特征图feature3_2;
conv4_x分为并行的高低分辨率两个分支conv4_1和conv4_2,conv4_1用于不断融入低分辨信息并维持1/8原图大小的高分辨率分支特征图feature4_1;conv4_2用于得到1/32原图大小的低分辨率分支特征图feature4_2;
conv5_x分为并行的高低分辨率两个分支conv5_1和conv5_2,conv5_1用于不断融入低分辨信息并维持1/8原图大小的高分辨率分支特征图feature5_1;conv5_2用于得到1/64原图大小的低分辨率分支特征图feature5_2;
DPPM用于扩大感受野并且融合多尺度的上下文信息;
S2:利用差分边界注意力模块对S1中提取到的1/8原图大小的特征图feature2、1/16原图大小的低分辨率分支特征图feature3_2、1/32原图大小的低分辨率分支特征图feature4_2和1/64原图大小的低分辨率分支特征图feature5_2分别进行差分卷积和空间注意力操作,提取多尺度的边缘特征图并进行融合,经过特征降维后得到透明物体的边缘预测图像;
S3:利用区域注意力模块对S1中得到的高分辨率特征图和多尺度融合的低分辨特征图进行类别层面的上下文关系建模,增强来自于同一类物体的像素的特征,得到像素-区域增强特征图;融合所述高分辨率特征图、多尺度的边缘特征图和像素-区域增强特征图,经过特征降维后得到最终的透明物体分割结果。
2.根据权利要求1所述的一种透明物体图像分割方法,其特征在于,所述conv2的BasicBlock包含两个卷积核大小为3*3的卷积层和Identity Block,其中3*3的卷积层是为了提取输入的不同特征,降低模型的运算量,Identity Block复制了浅层的特征,避免随着网络加深出现梯度消失的情况。
3.根据权利要求1所述的一种透明物体图像分割方法,其特征在于,所述特征图feature3_1进行conv4_1操作得到特征图hfeature3_1,特征图feature3_2进行1*1卷积实现操作通道压缩然后通过双线性插值进行上采样得到特征图hfeature3_2,融合特征图hfeature3_1和hfeature3_2得到1/8原图大小的高分辨率分支特征图feature4_1;对特征图feature3_2进行conv4_2操作得到特征图lfeature3_2,对特征图feature3_1进行步长为2的3*3卷积实现下采样得到特征图lfeature3_1,融合特征图lfeature3_1和lfeature3_2得到1/32原图大小的低分辨率分支特征图feature4_2;所述conv5_x由级联的残差块BottleneckBlock组成,Bottleneck Block包含两个卷积核大小为1*1的卷积层、一个卷积核大小3*3的卷积层和Identity Block,在深层的网络中减少消耗;对特征图feature4_1进行conv5_1操作得到特征图hfeature4_1,对特征图feature4_2进行1*1卷积实现操作通道压缩然后通过双线性插值进行上采样得到特征图hfeature4_2,融合特征图hfeature4_1和hfeature4_2得到1/8原图大小的高分辨率分支特征图feature5_1,对特征图feature4_2进行conv5_2操作得到特征图lfeature4_2,对特征图feature4_1进行步长为2的3*3卷积实现下采样得到特征图lfeature4_1,融合特征图lfeature4_1和lfeature4_2得到1/64原图大小的低分辨率分支特征图feature5_2。
4.根据权利要求3所述的一种透明物体图像分割方法,其特征在于,所述DPPM包含五个并行的分支:特征图feature5_2经过1*1卷积得到特征图y1;特征图feature5_2通过kernel_size=3,stride=2的池化层、1*1卷积和上采样后得到的特征图与特征图y1进行融合,融合后的特征图经过3*3卷积得到特征图y2;特征图feature5_通过kernel_size=5,stride=4的池化层、1*1卷积和上采样后得到的特征图与特征图y2进行融合,融合后的特征图经过3*3卷积得到特征图y3;特征图feature5_2通过kernel_size=9,stride=8的池化层、1*1卷积和上采样后得到的特征图与特征图y3进行融合,融合后的特征图经过3*3卷积得到特征图y4;特征图feature5_2通过全局平均池化、1*1卷积和上采样后得到的特征图与特征图y4进行融合,融合后的特征图经过3*3卷积得到特征图y5;对特征图y1、y2、y3、y4、y5进行拼接操作后再进行1*1卷积操作来改变通道数得到最终的多尺度融合的低分辨特征图feature6。
5.根据权利要求1所述的一种透明物体图像分割方法,其特征在于,所述差分边界注意力模块由四个并行的像素差分卷积模块和空间注意力模块组成,所述像素差分卷积模块包含卷积核大小3*3的差分卷积层、ReLU层、卷积核大小1*1卷积层;所述空间注意力模块包含两个卷积核大小为1*1的卷积层、一个卷积核为3*3的卷积层、ReLU层和Sigmoid函数;从S1中选取的每一个特征图先通过像素差分卷积模块(PDCM)再通过空间注意力模块(SAM)得到对应的边界特征图。
6.根据权利要求1所述的一种透明物体图像分割方法,其特征在于,所述S3中得到像素-区域增强特征图的具体步骤为:
S3-1:对多尺度融合的低分辨特征图进行Softmax操作,得到K个粗分割区域{R1,R2,...,RK},其中K代表分割的类别数,RK是一个二维向量,RK里面的每个元素代表着对应像素属于类别K的概率;
S3-2:利用下述公式得到第K个区域表示特征,即将整张图所有像素的特征与它们属于区域K的概率进行加权求和:
Figure FDA0003680889490000031
其中xi表示像素pi的特征,rki表示像素pi属于区域K的概率,fk代表区域表示特征;
S3-3:通过自注意力机制计算每个像素与每个区域的对应关系,其计算公式如下:
Figure FDA0003680889490000032
Figure FDA0003680889490000033
其中t(x,f)=u1(x)Tu2(f),u1、u2、u3和u4表示由1*1卷积、BatchNorm层和ReLU层组成的转换函数FFN;将u1(x)T和u2(f)分别作为自注意力机制的key和query,计算像素特征与区域表示特征之间的相关性并将其归一化得到wik,将wik作为权重与u3(fk)相乘得到像素-区域增强特征yi
S3-4:利用每个像素点的像素-区域增强特征yaug组成像素-区域增强特征图yaug
7.根据权利要求1所述的一种透明物体图像分割方法,其特征在于,所述S2中得到的透明物体的边缘预测图像用于计算边缘损失函数L1,所述S3中得到的透明物体分割结果用于计算作为透明物体的损失函数L2,总损失函数L为边缘损失函数L1、损失函数L2两者之和,在梯度下降过程中参与网络权重更新来优化模型参数;所述边缘损失函数L1、损失函数L2均采用交叉熵损失函数,以边缘损失函数L1为例,计算公式如下:其计算公式如下:
Figure FDA0003680889490000034
其中pi为边界处像素i的预测结果,yi为边界处像素i的实际结果。
CN202210633162.3A 2022-06-07 2022-06-07 一种透明物体图像分割方法及*** Active CN115082675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210633162.3A CN115082675B (zh) 2022-06-07 2022-06-07 一种透明物体图像分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210633162.3A CN115082675B (zh) 2022-06-07 2022-06-07 一种透明物体图像分割方法及***

Publications (2)

Publication Number Publication Date
CN115082675A true CN115082675A (zh) 2022-09-20
CN115082675B CN115082675B (zh) 2024-06-04

Family

ID=83248245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210633162.3A Active CN115082675B (zh) 2022-06-07 2022-06-07 一种透明物体图像分割方法及***

Country Status (1)

Country Link
CN (1) CN115082675B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294412A (zh) * 2022-10-10 2022-11-04 临沂大学 基于深度学习的实时煤岩分割网络生成方法
CN115880567A (zh) * 2023-03-03 2023-03-31 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质
CN116309274A (zh) * 2022-12-12 2023-06-23 湖南红普创新科技发展有限公司 图像中小目标检测方法、装置、计算机设备及存储介质
CN117788722A (zh) * 2024-02-27 2024-03-29 国能大渡河金川水电建设有限公司 一种基于bim的地下空间的安全数据监测***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1854965B1 (en) * 2006-05-02 2009-10-21 Carl Freudenberg KG Oil seal
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN114359297A (zh) * 2022-01-04 2022-04-15 浙江大学 基于注意力金字塔的多分辨率语义分割方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1854965B1 (en) * 2006-05-02 2009-10-21 Carl Freudenberg KG Oil seal
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN114359297A (zh) * 2022-01-04 2022-04-15 浙江大学 基于注意力金字塔的多分辨率语义分割方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
翟鹏博;杨浩;宋婷婷;余亢;马龙祥;黄向生;: "结合注意力机制的双路径语义分割", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12), pages 119 - 128 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294412A (zh) * 2022-10-10 2022-11-04 临沂大学 基于深度学习的实时煤岩分割网络生成方法
CN116309274A (zh) * 2022-12-12 2023-06-23 湖南红普创新科技发展有限公司 图像中小目标检测方法、装置、计算机设备及存储介质
CN116309274B (zh) * 2022-12-12 2024-01-30 湖南红普创新科技发展有限公司 图像中小目标检测方法、装置、计算机设备及存储介质
CN115880567A (zh) * 2023-03-03 2023-03-31 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质
CN115880567B (zh) * 2023-03-03 2023-07-25 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质
CN117788722A (zh) * 2024-02-27 2024-03-29 国能大渡河金川水电建设有限公司 一种基于bim的地下空间的安全数据监测***
CN117788722B (zh) * 2024-02-27 2024-05-03 国能大渡河金川水电建设有限公司 一种基于bim的地下空间的安全数据监测***

Also Published As

Publication number Publication date
CN115082675B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及***
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN115082675B (zh) 一种透明物体图像分割方法及***
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN113256649B (zh) 一种基于深度学习的遥感图像选站选线语义分割方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN112001931A (zh) 图像分割方法、装置、设备及存储介质
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN114119993A (zh) 一种基于自注意力机制的显著目标检测方法
CN112926533A (zh) 基于双向特征融合的光学遥感图像地物分类方法及***
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115272670A (zh) 一种基于掩膜注意交互的sar图像舰船实例分割方法
CN117576402B (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN112215241B (zh) 一种基于小样本学习的图像特征提取装置
Chan et al. Asymmetric cascade fusion network for building extraction
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant