CN116612288B - 一种多尺度轻量级实时语义分割方法、*** - Google Patents
一种多尺度轻量级实时语义分割方法、*** Download PDFInfo
- Publication number
- CN116612288B CN116612288B CN202310884464.2A CN202310884464A CN116612288B CN 116612288 B CN116612288 B CN 116612288B CN 202310884464 A CN202310884464 A CN 202310884464A CN 116612288 B CN116612288 B CN 116612288B
- Authority
- CN
- China
- Prior art keywords
- feature map
- module
- representing
- encoder
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000011176 pooling Methods 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 61
- 239000013598 vector Substances 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多尺度轻量级实时语义分割方法、***,该方法包括对互联网上公开的图像数据集进行预处理;构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,生成编码器主干网络浅层、中间层和最深层特征图;将浅层、中间层和最深层特征图分别输入到轻量化注意力模块中,生成增强的特征图;将中间层和最深层特征图分别输入到轻量化物体上下文特征融合模块中并进行上采样操作,生成二倍增强的区域上下文信息特征图;将增强的浅层特征图和二倍增强的区域上下文信息特征图进行连接、池化、上采样操作,生成最终网络分割结果。本发明改善了传统语义分割网络模型体量过大、在算力资源有限的移动平台上平衡分割精度和实现效率的问题。
Description
技术领域
本发明属于电子通讯与信息工程领域,具体涉及一种多尺度轻量级实时语义分割方法、***。
背景技术
语义分割是深度学习中一个十分重要的领域,指的是像素级别的图像分类,将图像中的像素归于类标签,即标注出图像中每个元素所属的像素类别。在深度学习技术崛起之前,计算机视觉领域内进行语义分割还是一个难题。但伴随近些年来深度学习的不断发展,语义分割领域中涌现出许多优秀的算法和模型,这使得语义分割在例如自动驾驶、医学影像处理、人机交互、机器人技术等越来越多的领域中崭露头角。
深度学习中的语义分割方法可以大致分为两类,一类是从基于滑动窗口的语义分割模型到基于候选区域的语义分割模型,另一种是基于编码器-解码器结构的语义分割模型。采用滑动窗口的语义分割模型是通过采用滑窗的方式,把以每个像素点为中心的小图像块输入到CNN(Convolutional Neural Networks, 卷积神经网络)中来预测这个像素点的语义标签,但这个方法在语义分割中需要计算图片中每个像素点滑动窗口的语义标签,参数量多,训练、预测速度慢,十分耗时。并且对于滑动窗口的大小无法给定,如果滑动窗口取值较大,那么计算量巨大,如果滑动窗口取值较小,那么缺少目标上下文信息。基于候选区域的语义分割模型代表是Mask R-CNN,它在基于区域卷积神经网络Faster R-CNN结构的基础上增加Mask预测分支,并且改良了ROI Pooling模块,提出了ROI Align这一区域特征聚集方式,满足了图像语义分割的准确度要求,强化了提取特征的能力。但Mask R-CNN的训练数据巨大,对内存的消耗也很高,不能一次性全部载入设备。
发明内容
本发明所要解决的技术问题是:提出了一种多尺度轻量级实时语义分割方法、***,基于轻量化注意力模块和轻量化物体上下文特征融合模块构建多尺度轻量级语义分割网络模型,将深度可分离非对称卷积与扩展卷积相结合,提高了分割性能,降低了整个网络的复杂度,并提升了图片语义分割的分割精度和分割速度。
本发明为解决上述技术问题采用以下技术方案:
本发明提出的一种多尺度轻量级实时语义分割方法,包括以下步骤:
S1、获取互联网上公开的图像数据集,对其进行预处理。
S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图。
S3、将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入到轻量化物体上下文特征融合模块中,利用目标区域的表示来增强其像素的表示,生成增强的区域上下文信息特征图。
S4、将编码器主干网络浅层特征图输入到轻量化注意力模块中,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作,生成最终网络分割结果。
进一步的,步骤S2中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为:
S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建:
下采样模块中,使用并联的步长为2的3×3卷积层与2×2最大池化层,3×3卷积核能增大感受野,最大池化能提高下采样速度。
轻量化可分离非对称残差模块由两个低维分支构成,每个分支都有一半的输入通道。轻量化可分离非对称残差模块处理图像的内容为:对输入的特征图进行通道拆解操作,在左分支上使用3×1和1×3的1D分解卷积进行特征提取,在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取,将两个分支连接,执行1×1逐点卷积恢复通道的数量,再进行一个通道洗牌操作,确保信息可以在不同的组之间流动;该模块引入残差结构,有助于解决梯度消失和梯度***问题,具体计算公式为:
;
其中,x t 表示网络输入值,x t+1表示网络输出值,W t 表示权重,表示激活函数,F()表示对应系数相乘的函数。
编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成。其中,一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层,一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层,一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层。
S202、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作,得到尺寸为W/2×H/2的特征图,再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取,得到编码器主干网络浅层特征图,其中W表示图像的宽,H表示图像的高。
S203、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/4×H/4的特征图,再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取,得到编码器主干网络中间层特征图。
S204、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/8×H/8的特征图,再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取,得到编码器主干网络最深层特征图。
进一步的,步骤S3中,生成增强的区域上下文信息特征图的具体步骤为:
S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中,对其分别进行空间维度上的全局最大池化和全局平均池化操作,生成两个维数为C×1×1的空间信息描述特征图,使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息,将卷积后的两个空间信息描述特征图按元素相加,通过 Sigmoid 函数运算,生成通道注意力图,具体公式为:
;
;
其中,M C 表示通道注意力图,F表示输入的特征图,表示Sigmoid函数,/>表示卷积核大小为K的一维卷积操作,C表示输入特征图通道数,/>表示在空间维度上的均值池化特征,/>表示在空间维度上的最大池化特征,/>表示取最接近t的奇数。
S302、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成通道方向上的特征图,再对其在通道维度上分别进行最大池化和平均池化,得到两个不同的空间二维特征图,将两个空间二维特征图进行拼接,生成特征描述器,从而突出目标区域。使用扩张率都为2的1×3扩张卷积和3×1扩张卷积提取特征,生成二维空间注意力图。对二维空间注意力图使用Sigmoid函数得到值域为[0,1]的空间注意力图,将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成增强的中间层特征图,具体公式为:
;
;
;
其中,F T 表示通道方向上的特征图,表示基于Element-Wise的逐元素相乘操作,M S 表示空间注意力图,/>表示扩张率都为2的1×3扩张卷积和3×1扩张卷积;表示在通道维度上的均值池化特征;/>表示在通道维度上的最大池化特征;F R 表示增强的中间层特征图。
S303、将编码器主干网络最深层特征图输入轻量化注意力模块中,进行同步骤S301- S302相同的操作,生成增强的最深层特征图。
S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中,通过一个1×1卷积改变增强的最深层特征图的通道数,得到一组像素语义区域,即为一组粗分割的结果。将该结果进行上采样生成一个较高分辨率的粗分割,与此同时进行辅助监督学习。将较高分辨率的粗分割进行reshape和softmax操作,生成一个带有0-1概率的特征向量系数,将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算,生成上下文信息,其中包含K组向量,即K种物体的类别区域特征,每一个向量对应一个语义类别的特征表示。
S305、对上下文信息进行1×1卷积生成关键值向量key和值向量value,对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量query,对query、key、value进行矩阵运算生成区域上下文信息,将区域上下文信息与增强的中间层特征图进行concat操作和 1×1卷积操作,生成增强的区域上下文信息特征图,其特征映射表示为:
;
其中,表示增强的区域上下文信息特征图,/>表示1×1的卷积操作,Concat表示连接操作,Reshape表示将指定的矩阵变换成特定维数矩阵操作,softmax表示归一化指数函数,Q表示查询向量,K表示关键值向量,V表示值向量,d k 表示K的维度,/>表示输入的特征图。
进一步的,本发明还提出了一种多尺度轻量级实时语义分割***,包括
图像预处理模块,用于获取互联网上公开的图像数据集,对其进行预处理。
编码器主干网络特征图生成模块,用于构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图。
增强的区域上下文信息特征图生成模块,用于将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入到轻量化物体上下文特征融合模块中,利用目标区域的表示来增强其像素的表示,生成增强的区域上下文信息特征图。
最终网络分割结果生成模块,用于将编码器主干网络浅层特征图输入到轻量化注意力模块中,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作,生成最终网络分割结果。
进一步的,本发明还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前文所述的多尺度轻量级实时语义分割方法的步骤。
进一步的,本发明还提出了一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,所述计算机程序被处理器运行时执行前文所述的多尺度轻量级实时语义分割方法。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出的基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络首先对目标图片进行下采样,减少了参数的数量,降低了卷积网络计算的复杂度,再通过残差模块过滤作用小、信息冗余的特征,保留关键特征信息。避免直接使用经典backbone网络进行下采样导致网络参数量过大、网络训练速度慢、计算资源消耗巨大。结合了注意力机制的物体上下文特征融合结构,可以更充分的利用相应类的对象区域表示来增加一个像素的表示,自主学***台上平衡分割精度和实现效率的问题。
附图说明
图1为本发明的整体实施流程图。
图2为本发明多尺度轻量级实时语义分割网络结构图。
图3为本发明下采样模块实施流程图。
图4为本发明轻量化可分离非对称残差模块实施流程图。
图5为本发明轻量化物体上下文特征融合模块实施流程图。
图6为本发明轻量化注意力模块实施流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明做进一步详细说明。
本发明提出的一种多尺度轻量级实时语义分割方法,如图1所示,包括以下步骤:
S1、获取cityscape数据集中精细标注的图像,包含来自50个城市的5000张像素级注释图像,其中训练集2975张,验证集500张,测试集1525张,有19个语义类别,图像分辨率为2048×1024。对图像进行预处理,首先采用resize和slide window crop两种方式,将数据集图片尺寸进行剪裁,转换为适合编码器网络输入的1024×512尺寸。
S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图,具体内容如图2所示:
S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建:
如图3所示,下采样模块中,使用并联的步长为2的3×3卷积层与2×2最大池化层,3×3卷积核能增大感受野,最大池化能提高下采样速度。
如图4所示,轻量化可分离非对称残差模块由两个低维分支构成,每个分支都有一半的输入通道。轻量化可分离非对称残差模块处理图像的内容为:对输入的特征图进行通道拆解操作,在左分支上使用3×1和1×3的1D分解卷积进行特征提取,在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取,将两个分支连接,执行1×1逐点卷积恢复通道的数量,再进行一个通道洗牌操作,确保信息可以在不同的组之间流动;该模块引入残差结构,有助于解决梯度消失和梯度***问题,具体计算公式为:
;
其中,x t 表示网络输入值,x t+1表示网络输出值,W t 表示权重,表示激活函数,F()表示对应系数相乘的函数。
编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成。其中,一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层,一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层,一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层。
S202、将尺寸为1024×512的预处理的图像输入到下采样模块中进行下采样操作,得到尺寸为512×256的特征图,再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取,得到大小为512×256×32的编码器主干网络浅层特征图,其特征映射表示为:
;
其中,F1表示大小为512×256的特征图,表示轻量化可分离非对称残差模块,/>表示下采样模块,/>表示多通道输入。
S203、将尺寸为512×256编码器主干网络浅层特征图输入到下采样模块中进行下采样操作,得到尺寸为256×128的特征图,再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取,得到大小为256×128×64的编码器主干网络中间层特征图,其特征映射表示为:
;
其中,F2表示大小为256×128的特征图。
S204、将尺寸为256×128编码器主干网络中间层特征图输入到下采样模块中进行下采样操作,得到尺寸为128×64的特征图,再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取,得到大小为128×64×128的编码器主干网络最深层特征图,其特征映射表示为:
;
其中,F3表示大小为128×64的特征图,表示轻量化可分离非对称残差模块堆叠8次。
S3、将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入到轻量化物体上下文特征融合模块中,利用目标区域的表示来增强其像素的表示,生成增强的区域上下文信息特征图,具体步骤如图5所示:
S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中,对其分别进行空间维度上的全局最大池化和全局平均池化操作,生成两个维数为C×1×1的空间信息描述特征图,使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息,将卷积后的两个空间信息描述特征图按元素相加,通过Sigmoid函数运算,生成通道注意力图,具体公式为:
;
;
其中,M C 表示通道注意力图,F表示输入的特征图,表示Sigmoid函数,/>表示卷积核大小为K的一维卷积操作,C表示输入特征图通道数,/>表示在空间维度上的均值池化特征,/>表示在空间维度上的最大池化特征,/>表示取最接近t的奇数。
S302、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成通道方向上的特征图,再对其在通道维度上分别进行最大池化和平均池化,得到两个不同的空间二维特征图,将两个空间二维特征图进行拼接,生成特征描述器,从而突出目标区域。使用扩张率都为2的1×3扩张卷积和3×1扩张卷积提取特征,生成二维空间注意力图。对二维空间注意力图使用Sigmoid函数得到值域为[0,1]的空间注意力图,将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成增强的中间层特征图,具体公式为:
;
;
;
其中,F T 表示通道方向上的特征图,表示基于Element-Wise的逐元素相乘操作,M S 表示空间注意力图,/>表示扩张率都为2的1×3扩张卷积和3×1扩张卷积;/>表示在通道维度上的均值池化特征;/>表示在通道维度上的最大池化特征;F R 表示增强的中间层特征图。
S303、将编码器主干网络最深层特征图输入轻量化注意力模块中,进行同步骤S301-S302相同的操作,生成增强的最深层特征图。
S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中,通过一个1×1卷积改变增强的最深层特征图的通道数,得到一组大小为128×64×19的像素语义区域,即为一组粗分割的结果。将该结果进行上采样生成一个大小为256×128×19的较高分辨率的粗分割,与此同时进行辅助监督学习。将较高分辨率的粗分割进行reshape和softmax操作,生成一个带有0-1概率的、大小为19×32768的特征向量系数,将该系数与经过reshape操作后大小为32768×64的增强的中间层特征图进行矩阵点乘运算,生成大小为19×64的上下文信息,其中包含K组向量,即K种物体的类别区域特征,每一个向量对应一个语义类别的特征表示。
S305、对大小为19×64的上下文信息进行1×1卷积生成大小为19×32的关键值向量key和大小为19×32的值向量value,对增强的中间层特征图进行1×1卷积和reshape操作,得到大小为32768×32的特征图,生成查询向量query,对query、key、value进行矩阵运算生成大小为32768×32的最主要的区域上下文信息,将区域上下文信息与增强的中间层特征图进行concat操作和 1×1卷积操作,生成大小为256×128×32的增强的区域上下文信息特征图,其特征映射表示为:
;
其中,表示增强的区域上下文信息特征图,/>表示1×1的卷积操作,Concat表示连接操作,Reshape表示将指定的矩阵变换成特定维数矩阵操作,softmax表示归一化指数函数,Q表示查询向量,K表示关键值向量,V表示值向量,d k 表示K的维度,/>表示输入的特征图。
矩阵运算的具体公式为:
;
其中,self-Attention表示自注意力机制机制函数。
S4、将编码器主干网络浅层特征图输入到轻量化注意力模块中,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作,生成最终网络分割结果,如图6所示,具体步骤为:
S401、将大小为256×128×32的增强的区域上下文信息特征图进行倍率为2的双线性插值的上采样操作,生成大小为512×256×32的二倍增强的区域上下文信息特征图。将编码器主干网络浅层特征图输入到轻量化注意力模块中,进行同步骤S301-S302相同的操作,生成大小为512×256×32的增强的浅层特征图。
S402、将二倍增强的区域上下文信息特征图与增强的浅层特征图进行连接操作,生成连接特征图,然后利用全局池化将连接特征图转换为1×1×64的特征向量,按顺序进行1×1卷积、Relu激活函数、1×1卷积和sigmoid激活函数操作,计算权重向量。接着将权重向量与连接特征图相乘得到更新后的特征图,并通过逐点求和与连接特征图相加,得到输出特征图。最后将输出特征图进行倍率为2的双线性插值上采样操作生成最终网络分割结果。具体公式为:
;
其中,F n 表示连接的特征图,表示输入轻量化注意力模块,/>表示倍率为2的双线性插值的上采样操作,W为权值向量,/>和/>分别为sigmoid函数和Relu函数,G为全局池化操作,W 1和W 2采用全连接运算,F表示最终网络分割结果图。
此外,在神经网络中学习率的作用不容小觑。如果学习率设置较小可能会导致逼近精度不足,如果学习率设置过大,也可能会导致模型收敛的鲁棒性不足。深度学习算法模型迭代初期通常采用步长更大的学习率来使得算法模型可以更快地逼近最优解;但在算法模型后期优化迭代中,步长更大的学习率会导致损失值loss在最小值附近震荡。因此学习率衰减算法被引入训练中,公式如下:
;
其中,iter为当前迭代步长,max_iter为最大衰减步长,代表初始学习率,/>表示衰减率。
损失函数的主要目标是将函数的值降低实现精确分割的最低水平,本发明损失函数均采用交叉熵损失函数:
;
其中,K表示类别的数目;表示标签值,取值为0或1;/>表示模型预测值,取值为0-1之间。
本发明轻量化可分离非对称残差模块中需要一个粗分割预测的损失函数进行辅助监督学习,因此引入一个辅助损失函数,其整体损失函数如下:
;
其中,loss表示整体损失函数,L 1表示最终预测的交叉熵损失函数,L 2表示粗分割预测的交叉熵损失函数。
模型整体训练批次大小设置为8,执行1000次训练迭代,优化器为Adam,动量采样设为0.9,以5×10-4的初始学习率进行学习并进行10-4权重衰减。
本发明实施例还提出一种多尺度轻量级实时语义分割***,包括图像预处理模块、编码器主干网络特征图生成模块、增强的区域上下文信息特征图生成模块、最终网络分割结果生成模块及可在处理器上运行的计算机程序。需要说明的是,上述***中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是,上述***中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例还提出一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序。需要说明的是,上述***中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
尽管上面示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。任何根据本发明的技术构思所做出的各种其他相应的改变和变型,均应包含在本发明权利要求的保护范围内。
Claims (6)
1.一种多尺度轻量级实时语义分割方法,其特征在于,包括:
S1、获取互联网上公开的图像数据集,对其进行预处理;
S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图;
S3、将编码器主干网络中间层特征图和最深层特征图分别输入轻量化注意力模块,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入轻量化物体上下文特征融合模块,生成增强的区域上下文信息特征图;
S4、将编码器主干网络浅层特征图输入轻量化注意力模块,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图;对生成的两个特征图进行连接、池化、上采样操作,生成最终网络分割结果;
其中,步骤S2中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为:
S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建:
下采样模块中,使用并联的步长为2的3×3卷积层与2×2最大池化层;
轻量化可分离非对称残差模块由两个低维分支构成,每个分支都有一半的输入通道;其处理图像的内容为:对输入的特征图进行通道拆解操作,在左分支上使用3×1和1×3的1D分解卷积进行特征提取,在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取,将两个分支连接,执行1×1逐点卷积恢复通道的数量,再进行通道洗牌操作,具体计算公式为:
σ(Wtxt)=max(0,x);
F(xt,Wt)=σ(Wtxt);
xt+1=xt+F(xt,Wt);
其中,xt表示网络输入值,xt+1表示网络输出值,Wt表示权重,σ表示激活函数,F()表示对应系数相乘的函数;
编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成;其中,一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层,一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层,一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层;
S202、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作,得到尺寸为W/2×H/2的特征图,再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取,得到编码器主干网络浅层特征图,其特征映射表示为:
F1=LLWSAR(LLWSAR(LLWSAR(Ddownsampling(f))))
其中,F1表示大小为W/2×H/2的特征图,LLWSAR表示轻量化可分离非对称残差模块,Ddownsampling表示下采样模块,f表示多通道输入;
S203、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/4×H/4的特征图,再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取,得到编码器主干网络中间层特征图,其特征映射表示为:
F2=LLWSAR(LLWSAR(Ddownsampling(F1)))
其中,F2表示大小为W/4×H/4的特征图;
S204、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/8×H/8的特征图,再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取,得到编码器主干网络最深层特征图,其特征映射表示为:
其中,F3表示大小为W/8×H/8的特征图,L8 LWSAR表示轻量化可分离非对称残差模块堆叠8次;
步骤S3中,生成增强的区域上下文信息特征图的具体步骤为:
S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中,分别进行空间维度上的全局最大池化和全局平均池化操作,生成两个维数为C×1×1的空间信息描述特征图,使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息,将卷积后的两个空间信息描述特征图按元素相加,通过Sigmoid函数运算,生成通道注意力图,具体公式为:
其中,MC表示通道注意力图,F表示输入的特征图,σ表示Sigmoid函数,表示卷积核大小为K的一维卷积操作,C表示输入特征图通道数,/>表示在空间维度上的均值池化特征,/>表示在空间维度上的最大池化特征,|t|odd表示取最接近t的奇数;
S302、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成通道方向上的特征图,再对其在通道维度上分别进行最大池化和平均池化,得到两个不同的空间二维特征图,将两个空间二维特征图进行拼接,生成特征描述器;使用扩张率都为2的1×3扩张卷积和3×1的卷积提取特征,生成二维空间注意力图,对其使用Sigmoid函数得到值域为[0,1]的空间注意力图,将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成增强的中间层特征图,具体公式为:
其中,FT表示通道方向上的特征图,表示基于Element-Wise的逐元素相乘操作,MS表示空间注意力图,/>1D conv表示扩张率都为2的1×3扩张卷积和3×1扩张卷积,/>表示在通道维度上的均值池化特征,/>表示在通道维度上的最大池化特征,FR表示增强的中间层特征图;
S303、将编码器主干网络最深层特征图输入轻量化注意力模块中,进行同步骤S301-S302相同的操作,生成增强的最深层特征图;
S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中,通过一个1×1卷积改变增强的最深层特征图的通道数,得到一组粗分割的结果,将该结果进行上采样生成一个较高分辨率的粗分割,将该较高分辨率的粗分割进行reshape和softmax操作,生成一个带有0-1概率的特征向量系数,将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算,生成上下文信息;
S305、对上下文信息进行1×1卷积生成关键值向量和值向量,对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量,对关键值向量、值向量、查询向量进行矩阵运算生成区域上下文信息,将区域上下文信息与增强的中间层特征图进行concat和1×1卷积操作,生成增强的区域上下文信息特征图,其特征映射表示为:
其中,Fenhanced表示增强的区域上下文信息特征图,Conv1×1表示1×1的卷积操作,Concat表示连接操作,Reshape表示将指定的矩阵变换成特定维数矩阵操作,softmax表示归一化指数函数,Q表示查询向量,K表示关键值向量,V表示值向量,dk表示K的维度,Finput表示输入的特征图;
矩阵运算的具体公式为:
其中,self-Attention表示自注意力机制机制函数。
2.根据权利要求1所述的多尺度轻量级实时语义分割方法,其特征在于,步骤S1中,对训练集图像进行预处理的具体内容为:
S101、从互联网的公开数据源上获取图像数据集;
S102、利用随机缩放和随机裁剪方法对图像数据集中的图片进行图像增强处理;
S103、将增强处理后的图像调整为W×H尺寸,其中W表示图像的宽,H表示图像的高。
3.根据权利要求1所述的多尺度轻量级实时语义分割方法,其特征在于,步骤S4中,生成最终网络分割结果的具体步骤为:
S401、将增强的区域上下文信息特征图进行倍率为2的双线性插值的上采样操作,生成二倍增强的区域上下文信息特征图;将编码器主干网络浅层特征图输入到轻量化注意力模块中,进行同步骤S301-S302相同的操作,生成增强的浅层特征图;
S402、将二倍增强的区域上下文信息特征图与增强的浅层特征图进行连接操作,生成连接特征图,利用全局池化将连接特征图转换为特征向量,按顺序进行1×1卷积、Relu激活函数、1×1卷积和sigmoid激活函数操作,计算权重向量;将权重向量与连接特征图相乘得到更新后的特征图,并通过逐点求和与连接特征图相加,得到输出特征图;将输出特征图进行倍率为2的双线性插值上采样操作生成最终网络分割结果,具体公式为:
W=σ[W2δ[W1(GFn)]];
Foutput=WFn+Fn;
其中,Fn表示连接的特征图,ALWAM表示输入轻量化注意力模块,表示倍率为2的双线性插值的上采样操作,W表示权值向量,σ和δ分别表示sigmoid函数和Relu函数,G表示全局池化操作,W1和W2采用全连接运算,Foutput表示最终网络分割结果图。
4.一种多尺度轻量级实时语义分割***,其特征在于,包括
图像预处理模块,用于获取互联网上公开的图像数据集,对其进行预处理;
编码器主干网络特征图生成模块,用于构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图;
增强的区域上下文信息特征图生成模块,用于将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入到轻量化物体上下文特征融合模块中,利用目标区域的表示来增强其像素的表示,生成增强的区域上下文信息特征图;
最终网络分割结果生成模块,用于将编码器主干网络浅层特征图输入到轻量化注意力模块中,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图;把两者进行连接、池化、上采样操作,生成最终网络分割结果;
其中,编码器主干网络特征图生成模块中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为:
步骤1、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建:
下采样模块中,使用并联的步长为2的3×3卷积层与2×2最大池化层;
轻量化可分离非对称残差模块由两个低维分支构成,每个分支都有一半的输入通道;其处理图像的内容为:对输入的特征图进行通道拆解操作,在左分支上使用3×1和1×3的1D分解卷积进行特征提取,在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取,将两个分支连接,执行1×1逐点卷积恢复通道的数量,再进行通道洗牌操作,具体计算公式为:
σ(Wtxt)=max(0,x);
F(xt,Wt)=σ(Wtxt);
xt+1=xt+F(xt,Wt);
其中,xt表示网络输入值,xt+1表示网络输出值,Wt表示权重,σ表示激活函数,F()表示对应系数相乘的函数;
编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成;其中,一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层,一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层,一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层;
步骤2、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作,得到尺寸为W/2×H/2的特征图,再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取,得到编码器主干网络浅层特征图,其特征映射表示为:
F1=LLWSAR(LLWSAR(LLWSAR(Ddownsampling(f))))
其中,F1表示大小为W/2×H/2的特征图,LLWSAR表示轻量化可分离非对称残差模块,Ddownsampling表示下采样模块,f表示多通道输入;
步骤3、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/4×H/4的特征图,再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取,得到编码器主干网络中间层特征图,其特征映射表示为:
F2=LLWSAR(LLWSAR(Ddownsampling(F1)))
其中,F2表示大小为W/4×H/4的特征图;
步骤4、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/8×H/8的特征图,再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取,得到编码器主干网络最深层特征图,其特征映射表示为:
其中,F3表示大小为W/8×H/8的特征图,L8 LWSAR表示轻量化可分离非对称残差模块堆叠8次;
增强的区域上下文信息特征图生成模块中,生成增强的区域上下文信息特征图的具体步骤为:
步骤1、将编码器主干网络中间层特征图输入到轻量化注意力模块中,分别进行空间维度上的全局最大池化和全局平均池化操作,生成两个维数为C×1×1的空间信息描述特征图,使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息,将卷积后的两个空间信息描述特征图按元素相加,通过Sigmoid函数运算,生成通道注意力图,具体公式为:
其中,MC表示通道注意力图,F表示输入的特征图,σ表示Sigmoid函数,表示卷积核大小为K的一维卷积操作,C表示输入特征图通道数,/>表示在空间维度上的均值池化特征,/>表示在空间维度上的最大池化特征,|t|odd表示取最接近t的奇数;
步骤2、将通道注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成通道方向上的特征图,再对其在通道维度上分别进行最大池化和平均池化,得到两个不同的空间二维特征图,将两个空间二维特征图进行拼接,生成特征描述器;使用扩张率都为2的1×3扩张卷积和3×1的卷积提取特征,生成二维空间注意力图,对其使用Sigmoid函数得到值域为[0,1]的空间注意力图,将空间注意力图与编码器主干网络中间层特征图进行基于Element-Wise的乘法操作,生成增强的中间层特征图,具体公式为:
其中,FT表示通道方向上的特征图,表示基于Element-Wise的逐元素相乘操作,MS表示空间注意力图,/>表示扩张率都为2的1×3扩张卷积和3×1扩张卷积,/>表示在通道维度上的均值池化特征,/>表示在通道维度上的最大池化特征,FR表示增强的中间层特征图;
步骤3、将编码器主干网络最深层特征图输入轻量化注意力模块中,进行同步骤1-2相同的操作,生成增强的最深层特征图;
步骤4、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中,通过一个1×1卷积改变增强的最深层特征图的通道数,得到一组粗分割的结果,将该结果进行上采样生成一个较高分辨率的粗分割,将该较高分辨率的粗分割进行reshape和softmax操作,生成一个带有0-1概率的特征向量系数,将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算,生成上下文信息;
步骤5、对上下文信息进行1×1卷积生成关键值向量和值向量,对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量,对关键值向量、值向量、查询向量进行矩阵运算生成区域上下文信息,将区域上下文信息与增强的中间层特征图进行concat和1×1卷积操作,生成增强的区域上下文信息特征图,其特征映射表示为:
其中,Fenhanced表示增强的区域上下文信息特征图,Conv1×1表示1×1的卷积操作,Concat表示连接操作,Reshape表示将指定的矩阵变换成特定维数矩阵操作,softmax表示归一化指数函数,Q表示查询向量,K表示关键值向量,V表示值向量,dk表示K的维度,Finput表示输入的特征图;
矩阵运算的具体公式为:
其中,self-Attention表示自注意力机制机制函数。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310884464.2A CN116612288B (zh) | 2023-07-19 | 2023-07-19 | 一种多尺度轻量级实时语义分割方法、*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310884464.2A CN116612288B (zh) | 2023-07-19 | 2023-07-19 | 一种多尺度轻量级实时语义分割方法、*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612288A CN116612288A (zh) | 2023-08-18 |
CN116612288B true CN116612288B (zh) | 2023-11-07 |
Family
ID=87678634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310884464.2A Active CN116612288B (zh) | 2023-07-19 | 2023-07-19 | 一种多尺度轻量级实时语义分割方法、*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612288B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494764A (zh) * | 2023-10-23 | 2024-02-02 | 昆明理工大学 | 一种超高空间分辨率遥感影像变化检测网络及方法 |
CN117934287B (zh) * | 2024-03-25 | 2024-05-28 | 深圳大学 | 深度图像的超分辨率重建方法、终端设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330681A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于注意力机制的轻量级网络实时语义分割方法 |
CN112669338A (zh) * | 2021-01-08 | 2021-04-16 | 北京市商汤科技开发有限公司 | 图像分割方法及装置、电子设备和存储介质 |
CN113781489A (zh) * | 2021-08-25 | 2021-12-10 | 浙江工业大学 | 一种息肉影像语义分割方法及装置 |
CN113850824A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 一种基于多尺度特征融合的遥感图像路网提取方法 |
CN114022785A (zh) * | 2021-11-15 | 2022-02-08 | 中国华能集团清洁能源技术研究院有限公司 | 一种遥感影像语义分割方法、***、设备及存储介质 |
CN114821058A (zh) * | 2022-04-28 | 2022-07-29 | 济南博观智能科技有限公司 | 一种图像语义分割方法、装置、电子设备及存储介质 |
CN114842026A (zh) * | 2022-04-20 | 2022-08-02 | 华能新能源股份有限公司 | 实时的风机叶片图像分割方法及*** |
CN115082928A (zh) * | 2022-06-21 | 2022-09-20 | 电子科技大学 | 面向复杂场景的不对称双分支实时语义分割网络的方法 |
CN115578561A (zh) * | 2022-10-12 | 2023-01-06 | 海南大学 | 一种基于多尺度上下文聚合网络的实时语义分割方法及装置 |
CN116229073A (zh) * | 2023-03-08 | 2023-06-06 | 南京信息工程大学 | 一种基于改进型ERFNet网络的遥感图像分割方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013273830A1 (en) * | 2013-12-23 | 2015-07-09 | Canon Kabushiki Kaisha | Post-processed bokeh rendering using asymmetric recursive Gaussian filters |
US11270447B2 (en) * | 2020-02-10 | 2022-03-08 | Hong Kong Applied Science And Technology Institute Company Limited | Method for image segmentation using CNN |
US11580646B2 (en) * | 2021-03-26 | 2023-02-14 | Nanjing University Of Posts And Telecommunications | Medical image segmentation method based on U-Net |
-
2023
- 2023-07-19 CN CN202310884464.2A patent/CN116612288B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330681A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于注意力机制的轻量级网络实时语义分割方法 |
CN112669338A (zh) * | 2021-01-08 | 2021-04-16 | 北京市商汤科技开发有限公司 | 图像分割方法及装置、电子设备和存储介质 |
CN113781489A (zh) * | 2021-08-25 | 2021-12-10 | 浙江工业大学 | 一种息肉影像语义分割方法及装置 |
CN113850824A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 一种基于多尺度特征融合的遥感图像路网提取方法 |
CN114022785A (zh) * | 2021-11-15 | 2022-02-08 | 中国华能集团清洁能源技术研究院有限公司 | 一种遥感影像语义分割方法、***、设备及存储介质 |
CN114842026A (zh) * | 2022-04-20 | 2022-08-02 | 华能新能源股份有限公司 | 实时的风机叶片图像分割方法及*** |
CN114821058A (zh) * | 2022-04-28 | 2022-07-29 | 济南博观智能科技有限公司 | 一种图像语义分割方法、装置、电子设备及存储介质 |
CN115082928A (zh) * | 2022-06-21 | 2022-09-20 | 电子科技大学 | 面向复杂场景的不对称双分支实时语义分割网络的方法 |
CN115578561A (zh) * | 2022-10-12 | 2023-01-06 | 海南大学 | 一种基于多尺度上下文聚合网络的实时语义分割方法及装置 |
CN116229073A (zh) * | 2023-03-08 | 2023-06-06 | 南京信息工程大学 | 一种基于改进型ERFNet网络的遥感图像分割方法及装置 |
Non-Patent Citations (4)
Title |
---|
LRDNet: A lightweight and efficient network with refined dual attention decorder for real-time semantic segmentation;Mingxi Zhuang等;《Neurocomputing》;第第459卷卷;第349-360页 * |
基于深度学习的图像语义分割方法研究;胡嵽;《中国优秀硕士学位论文全文数据库 信息科技辑》(第2期);第I138-707页 * |
基于深度感知特征提取的室内场景理解;陈苏婷 等;《计算机工程》;第47卷(第6期);第217-224页 * |
基于高效的多尺度特征提取的轻量级语义分割;刘云 等;《计算机学报》;第45卷(第7期);第1517-1528页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612288A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、*** | |
CN111915660B (zh) | 基于共享特征和注意力上采样的双目视差匹配方法及*** | |
CN111582483A (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、***及设备 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113344869A (zh) | 一种基于候选视差的行车环境实时立体匹配方法及装置 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN111899203A (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN115641285A (zh) | 一种基于密集多尺度信息融合的双目视觉立体匹配方法 | |
CN116109689A (zh) | 基于引导优化聚合的边缘保持立体匹配方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、***、设备及介质 | |
CN116363750A (zh) | 人体姿态预测方法、装置、设备及可读存储介质 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
CN114511785A (zh) | 基于瓶颈注意力模块的遥感图像云检测方法及*** | |
CN117152580A (zh) | 双目立体视觉匹配网络构建方法及双目立体视觉匹配方法 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN116758219A (zh) | 基于神经网络的区域感知多视角立体匹配三维重建方法 | |
CN116311251A (zh) | 用于复杂场景高精度立体视觉感知的轻量级语义分割方法 | |
CN115984934A (zh) | 人脸位姿估计模型的训练方法、人脸位姿估计方法及装置 | |
CN115527159A (zh) | 一种基于跨模态间尺度注意聚合特征的计数***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |