CN116452813B - 基于空间和语义信息的图像处理方法、***、设备和介质 - Google Patents
基于空间和语义信息的图像处理方法、***、设备和介质 Download PDFInfo
- Publication number
- CN116452813B CN116452813B CN202310698749.7A CN202310698749A CN116452813B CN 116452813 B CN116452813 B CN 116452813B CN 202310698749 A CN202310698749 A CN 202310698749A CN 116452813 B CN116452813 B CN 116452813B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- semantic information
- semantic
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 22
- 230000011218 segmentation Effects 0.000 abstract description 17
- 238000002474 experimental method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 238000002679 ablation Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 239000000306 component Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- YBRVSVVVWCFQMG-UHFFFAOYSA-N 4,4'-diaminodiphenylmethane Chemical compound C1=CC(N)=CC=C1CC1=CC=C(N)C=C1 YBRVSVVVWCFQMG-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于计算机视觉领域,提供了基于空间和语义信息的图像处理方法、***、设备和介质。所述基于空间和语义信息的图像处理方法包括:获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。本发明通过浅层空间信息与深层语义信息的相互学***衡,避免了额外的边路辅助或复杂的解码器。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及基于空间和语义信息的图像处理方法、***、设备和介质。
背景技术
语义分割是计算机视觉领域的重要任务,其应用广泛且不断发展,其目的是精确预测图像中每个像素的标签。它是实现视觉场景理解的关键一步,在自动驾驶、医学影像、图像生成等领域有着广泛的应用。
深度学习方法在语义分割领域逐渐占据主导地位,并提出了许多具有代表性的网络模型。尽管深度学习方法在该领域逐渐占据主导地位,并提出了许多网络模型,但是这些模型要么具有较高的精度但计算成本大,要么速度快但精度低,要么使得浅层特征有较多的细节信息,同时也有许多的噪声,要么深层特征有较强的语义信息,但丢失了一些空间信息。
因此,现有的技术难以同时满足图像处理的精度和速度的要求。
发明内容
本发明实施例的目的在于提供一种基于空间和语义信息的图像处理方法,旨在解决现有的技术难以同时满足图像处理的精度和速度的要求的问题。
本发明实施例是这样实现的,一种基于空间和语义信息的图像处理方法,所述图像处理方法包括:
获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
本发明实施例的另一目的在于一种基于空间和语义信息的图像处理***,所述图像处理***包括:
主干网络,用于获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
语义调整细节模块,用于从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
细节引导语义模块,用于从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
本发明实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于空间和语义信息的图像处理方法的步骤。
本发明实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述基于空间和语义信息的图像处理方法的步骤。
本发明实施例中提供的基于空间和语义信息的图像处理方法,通过浅层空间信息与深层语义信息的相互学***衡,避免了额外的边路辅助或复杂的解码器。
附图说明
图1为一个实施例中提供的基于空间和语义信息的图像处理方法的流程图;
图2为一个实施例中提供的空间细节和语义信息相互优化网络(DSMONet)的结构框图;
图3为一个实施例中提供的相互优化模块(MOM)的结构框图;
图4为一个实施例中Cityscapes测试集上分割精度(mIoU)和推理速度(FPS)的对比图;
图5 为一个实施例中提供的基于空间和语义信息的图像处理***的结构框图;
图6为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,在一个实施例中,提出了一种基于空间和语义信息的图像处理方法,所述图像处理方法包括步骤S102~S106:
步骤S102,获取第一图像,对所述第一图像进行语义提取处理,得到第二图像。
在本实施例中,第一图像是浅层图像,浅层图像的分辨率高,图像有较多的空间细节信息,但噪声也相对较多。第二图像是深层图像,通过处理浅层图像得到,其分辨率相对较低,有较强的语义信息,但是空间信息有所缺失。
具体的,步骤S102的优化处理方法详细展开为步骤S202~S204:
步骤S202,获取待处理的原始图像,通过增加特征图通道数量,降低所述原始图像的分辨率,得到所述第一图像。
步骤S204,在主干网络中对所述第一图像进行特征提取后,再做上下文聚合,得到所述第二图像;所述第二图像的分辨率低于所述第一图像的分辨率。
如图2所示,原始图像是待处理的图像,原始图像经过4个步骤,通过增加特征图通道数量,降低所述原始图像的分辨率,逐一得到图像1~4。原始图像和图像1~4构成主干网络。主干网络选择轻量级的STDCNet,共有5个阶段,每个阶段stride为2,特征图通道数增加,分辨率减小到输入图像的1/32。为了获取包含全局上下文信息的特征,在主干网络后加入DAPPM模块来进一步从低分辨率特征图中提取上下文信息,得到第二图像。需要说明的是,本实施例将图像1设置为优化为第一图像,将第4图像优化为第二图像,但实际操作中,只要满足第一图像的分辨率大于第二图像,都可以实现本实施例的技术方案,因此不限定第一图像和第二图像具体对应主干网络中的哪个部分图像,只要满足分辨率要求即可。
语义分割就是提取深层特征的语义信息,并对提取的特征进行优化,然后上采样
输出。具体来说,就是通过ResNet、STDC等主干网络提取深层特征的语义信息。在分割头中,
通过Conv-BN-Relu操作,将特征通道数减少到类别数,同时进行上采样操作,将特征大小扩
展到输入图像大小,然后使用argmax操作预测每个像素的标签。采用在线硬例挖掘的交叉
熵损失对模型进行优化。在UAFM的输出端放置一个语义头生成额外的语义损失,以更
好的优化整个网络。采用BCE损失来突出边界区域,增强小物体的特征。最终的损失为:
根据经验,将空间细节与语义信息的相互优化网络(DSMONet,Details and
Semantic Mutual Optimization NET)训练损失的参数设置为。
步骤S104,从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像。
在本实施例中,如图2和图3所示,相互优化模块(MOM,Mutual OptimizationModule)的输入分别是经过DAPPM上下文聚合后的特征图S和主干特征输出特征图D两部分,即第二图像和第一图像。其中,S具有强语义信息,D具有空间细节信息。因此MOM的核心就是S与D的相互优化,如图3所示,主要分为两个过程:一部分是通过低分辨率特征图的边缘信息和边缘算子对噪声的过滤来优化高分辨率特征图,由语义调整细节模块(SADM,Semanticadjustment details module)实现;另一部分是通过优化后的空间信息来引导深层特征重建丢失的空间信息,由细节引导语义模块(DGSM,Details guide semantics module)实现。
具体的,步骤S104还包括步骤S302~S304:
步骤S302,解耦所述第二图像,从所述第二图像中提取第一边缘特征。
进一步,步骤S302还包括步骤S402~404:
步骤S402,解耦所述第二图像,通过基于流的身体特征表示方法来获取所述第二图像的主体特征。
步骤S404,用所述第二图像减去主体特征,得到所述第一边缘特征
其中,S为所述第二图像的特征,为所述第二图像的主体特征。
在本实施例中,SADM首先是对具有强语义信息的特征图S进行解耦。根据
DecoupleSegNet,将第二图像解耦为主体特征和第一边缘特征,即满足上述公式。
通过基于流的身体特征表示方法来获取第二图像的特征图S的主体特征,然后通过显
式地从特征图S减去主体特征来获得第一边缘特征。
步骤S304,从所述第一图像中提取第二边缘特征,融合所述第一边缘特征和所述第二边缘特征,得到所述第三图像。
进一步,步骤S304还包括步骤S502~504:
步骤S502,用拉普拉斯算子优化所述第一图像,用转置卷积对所述第一图像中进行采样,得到所述第二边缘特征。
步骤S504,对所述第一边缘特征和所述第二边缘特征进行特征融合,得到所述第三图像。
在本实施例中,高分辨率的第一图像包含了较多的细节信息,同时存在许多噪声,通过拉普拉斯算子提取特征图的边缘信息,得到第二边缘特征,以此增强模型对细节的捕获能力。其中,可以选取如下拉普拉斯核
通过带有拉普拉斯卷积的残差结构将内核合并到网络中。使用转置卷积在第二图
像的第一边缘特征上采样,上采样得到的图像与优化后的第一图像具有相同的尺寸。
将拉普拉斯算子优化后的第二边缘特征与第一边缘特征进行拼接,拼接之后通过
Conv-BN-Relu进行特征融合,最后得到优化后的高分辨率的第三图像。这个过程可以表述
为:
其中,是高分辨率特征的第三图像,γ是卷积层,∥表示级联操作, 表示
使用拉普拉斯算子进行边缘信息提取。
在本实施例中,DSMONet的核心部分就是高分辨率特征图与低分辨率特征图的相互优化,因此涉及到许多上采样的地方。双线性插值通过对邻近四个像素点的距离进行加权平均来计算新像素的值。它可以快速地对特征图进行上采样,但是由于其对特征图进行平滑处理,可能会导致细节丢失和边缘模糊。而转置卷积可以更好地保留特征图的细节和边缘信息,因此本实施例选择转置卷积实现上采样操作。
进一步,还可以通过增加多个转置卷积层来降低每个转置卷积层的计算量。为了减少计算量,本实施例使用了3个转置卷积层,其中每个转置卷积层的输出通道数和卷积核大小都不同。如果直接使用转置卷积实现8倍上采样,那么卷积核尺寸为8,步幅为8,每个转置卷积层的计算量FLOPs= 67108864HW。如果使用3个转置卷积层实现8倍上采样,那么每个卷积层的卷积核尺寸为2,步幅为2,每个转置卷积层的计算量6815744HW。可以看出,相比直接使用一层转置卷积,计算量降低了10倍。
步骤S106,从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
在本实施例中,在深层语义信息优化浅层的细节特征之后,进一步用优化后的细
节特征来引导深层特征重建丢失的空间信息,即用高分辨率特征的第三图像引导建构
出带有空间细节信息的第四图像。具体的,步骤S106包括步骤S602~S604:
步骤S602,对所述第二图像采取注意力操作,从所述第二图像中获取解耦后的主体特征,将所述主体特征与经通道注意力和空间注意力处理后的所述第二图像进行相加处理,得到第五图像;
步骤S604,从所述第三图像中提取所述空间信息,多尺度融合所述空间信息与所述第五图像,得到所述第四图像。
在本实施例中,为了避免在过程中丢失语义信息,在重建空间信息前,对第二图像
S采取额外的注意力操作,来增强特征通道之间的相关性。如图3所示,处理后的第二图像与
SADM中解耦的主体特征相加得到第五图像,第五图像比S有更强的语义信息。
然后将高分辨率特征的第三图像与第五图像进行多尺度特征融合,根据工作,使用
空间注意力来加强特征表示。整个过程可以表述为如下方程:
其中,表示第五图像,表示SADM中解耦的主体特征,表示第二图像的主
体特征,表示高分辨率特征的第三图像,表表示输出的第四图像。
在本发明的实施例中给出了一种基于空间和语义信息的图像处理方法,运用于相互优化模块MOM中。MOM有两部分组成,一部分是通过低分辨率特征图的边缘信息和边缘算子对噪声的过滤来优化高分辨率特征图(SADM);另一部分是通过优化后的空间信息来引导深层特征重建丢失的空间信息(DGSM)。MOM通过浅层空间信息与深层语义信息的相互学***衡。
在一个实施例中,给出了本发明具体实验细节,由4部分构成:
1、实验的数据集
Cityscapes是一个大型城市街道场景数据集。它包含5000张精细注释图像和20000张粗略注释图像,图像分辨率为2048×1024。精细注释图像进一步被划分为2975、500和1525张,分别用于训练、验证和测试。注释包含30个类,但只有19个用于语义分割。
CamVid提供701张驾驶场景图像,这些图像被划分为367、101和233张,分别用于训练、验证和测试。图像分辨率为960×720。带注释的图像提供32个类别,其中11个类别的子集根据一般设置用于本发明的实验。
2、实现细节
1)推理设置
本实验使用了预热策略和多个学***翻转、随机颜色抖动和归一化等数据增强技术。因为使用相同的主干网络,因此使用PP-LiteSeg[20]提供的预训练权重。对于Cityscapes数据集,使用批大小为16,最大迭代次数为160000,初始学习率为0.005,优化器中的权重衰减为5e−4。对于CamVid数据集,使用批大小为24,最大迭代次数为1000,初始学习率为0.01,权重衰减为1e−4。Cityscapes和CamVid数据集的随机缩放范围分别为[0.125,1.5]和[0.5,2.5]。Cityscapes的裁剪分辨率为1024×1024,而CamVid的裁剪分辨率为960×720。使用PaddleSeg[30]实现了本发明的网络,所有实验都在A100 GPU上进行。
2)推理设置
为了公平比较,将模型导出到ONNX,并使用TensorRT执行。在推断过程中,对于Cityscapes和CamVid,推理模型以原始图像为输入,而分辨率为960×720。在由RTX 3090、CUDA 11.2、cuDNN 8.2和TensorRT 8.1.3组成的环境下进行了所有推理实验。在定量评价中,使用类别平均交并比(mean of class-wise intersection-over-union,mIoU)进行分割精度的比较,使用浮点数操作(float point operations,FLOPs)和每秒帧率(framesper second,FPS))进行速度比较。
3、实验结果与其他最先进的方法进的比较
在本部分中,在Cityscapes和CamVid上测试了本发明的网络,并与最先进的模型进行比较,进一步展示了DSMONet的语义分割能力。
表1 在CamVid测试集上与最先进的实时方法的比较
表1显示了与其他方法的比较结果,与其他工作类似,训练和推理的输入分辨率为960 × 720。其中,DSMONet达到76.1% mIoU和94.3 FPS,这是性能和速度之间的最先进的权衡。这进一步证明了本发明方法的优越性。
通过上面提到的训练和推理设置,将DSMONet与城市景观数据集中的最先进模型进行比较。根据主干网络的两个版本STDC1和STDC2,本发明提出了DSMONet-T和DSMONet-B。如表2所示,给出了各种方法的模型信息、分辨率、分割精度和推理速度。
表2 与Cityscapes上最先进的实时方法的比较
图4提供了分割精度和推理速度的直观比较。在结果上传到官方基准测试服务器之前,使用训练集和验证集来训练本发明的模型。实验评估表明,与其他方法相比,本发明所提出的DSMONet在准确性和速度之间实现了最先进的平衡。其中DSMONet-T达到了78.2%mIoU和78.1FPS,在相似的推理速度下,能够达到较高的精度。此外,DSMONet-B取得了80.5%mIoU,在表2中获得了测试集总体最好的精度。与DDRNet-23相比,DSMONet-B的速度不仅快了8.3FPS,同时精度也高了1% mIoU。在DSMONet-B在Cityscapes验证集上的可视化分割结果中,与PP-LiteSeg和STDCNet相比,DSMONet捕获细节的能力更强。
4、消融实验
本节将介绍消融实验,以验证本发明方法中每个组件的有效性。主要分为相互优化模块、额外的损失和额外的训练策略。本节所有的实验都是DSMONet-B在Cityscapes验证集上进行的评估。基线模型为不含所提模块的DSMONet-B。
1)有效的相互优化模块
相互优化模块主要分为SADM和DGSM两部分。其中将深层语义特征解耦为和,在这里我们表述为和。表示经过拉普拉斯算子优化后的特征
图。SADM的核心部件为和,进行融合从而组成优化后的浅层特征。在优化后的细
节特征引导深层特征之前,还添加了注意力机制来加强特征表示。为了验证该模块的有
效性,本发明进行了拆分验证。基于所提出的相互优化模块,DSMONet-B实现了80.5%的mIoU
和44.4的FPS。与基线模型相比,mIoU提高了4.4%。表3中的定性比较表明,依次添加,,和结果与实际情况更加一致,尤其是对于小物体。在逐步加入提出的模块
之后,模型对于细节的捕获能力有了明显的提升。边框内的车辆信息也更加的完整。总之,
本发明提出的模块对于语义分割是有效的。
以使分割结果与实际情况更加一致,尤其是对于小物体。在逐步加入提出的模块之后,模型对于细节的捕获能力有了明显的提升。边框内的车辆信息也更加的完整。总之,本发明提出的模块对于语义分割是有效的。
表3 相互优化模块的消融实验
其中,是边缘特征,是使用拉普拉斯算子提取的边缘信息,是主
体特征,是注意力机制。
2)有效的额外损失
根据DSMONet的结构,我们引入了额外的损失,以便于整个网络的优化。从表4中可
以看出,额外的损失是DSMONet获得更好性能的必要条件,特别是在添加损失后,mIOU
增加了0.7%,这充分证明了额外损失的必要性,而在线硬示例挖掘(OHEM)进一步提高了精
度。
表4 DSMONet中额外的损失和OHEM的消融实验
3)有效的额外策略
根据上文的分析,为了达到速度和精度的进一步平衡,本发明使用了额外的策略:不同的上采样方式和额外的注意力机制。本发明对选用双线性插值或者转置卷积来实现上采样以及是否使用额外的注意力机制进行消融实验。结果如表5所示,可以看出选用双线性插值上采样能够达到79.3% mIoU和50.7FPS,而使用转置卷积上采样能够达到80.5% mIoU和44.4FPS。因为有更轻量的模型DSMONet-T,因此为了有效的提升精度,本发明选用转置卷积,mIoU 提升了1.2%。为了充分利用特征融合模块,本发明将通道注意力和空间注意力结合,能够达到80.5% mIoU和44.4FPS,从而进一步的平衡速度和精度。
表5 DSMONet中额外的注意力和上采样方法的消融实验
如图5所示,在一个实施例中,提供了一种基于空间和语义信息的图像处理***,所述图像处理***包括:
主干网络100,用于获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
语义调整细节模块200,用于从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
细节引导语义模块300,用于从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
图6示出了一个实施例中计算机设备的内部结构图。如图6所示,该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于空间和语义信息的图像处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于空间和语义信息的图像处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
步骤S102,获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
步骤S104,从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
步骤S106,从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
步骤S102,获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
步骤S104,从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
步骤S106,从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于空间和语义信息的图像处理方法,其特征在于,所述图像处理方法包括:
获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像;
所述从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像,包括如下步骤:
解耦所述第二图像,从所述第二图像中提取第一边缘特征;
从所述第一图像中提取第二边缘特征,融合所述第一边缘特征和所述第二边缘特征,得到所述第三图像;
所述解耦所述第二图像,从所述第二图像中提取第一边缘特征,包括如下步骤:
根据DecoupleSegNet解耦所述第二图像,获取所述第二图像的主体特征;
用所述第二图像减去主体特征,得到所述第一边缘特征;
所述从所述第一图像中提取第二边缘特征,融合所述第一边缘特征和所述第二边缘特征,得到所述第三图像,包括如下步骤:
用拉普拉斯算子优化所述第一图像,用转置卷积对所述第一图像中进行采样,得到所述第二边缘特征;
对所述第一边缘特征和所述第二边缘特征进行特征融合,得到所述第三图像;
所述从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义引导处理,包括如下步骤:
对所述第二图像采取注意力操作,从所述第二图像中获取解耦后的主体特征,将所述主体特征与经通道注意力和空间注意力处理后的所述第二图像进行相加处理,得到第五图像;
从所述第三图像中提取所述空间信息,多尺度融合所述空间信息与所述第五图像,得到所述第四图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一图像进行语义提取处理,得到第二图像,包括如下步骤:
获取待处理的原始图像,通过增加特征图通道数量,降低所述原始图像的分辨率,得到所述第一图像;
在主干网络中对所述第一图像进行特征提取后,再做上下文聚合,得到所述第二图像;所述第二图像的分辨率低于所述第一图像的分辨率。
3.一种基于空间和语义信息的图像处理***,其特征在于,所述图像处理***包括:
主干网络,用于获取第一图像,对所述第一图像进行语义提取处理,得到第二图像;
语义调整细节模块,用于从所述第二图像中提取语义信息,利用所述语义信息对所述第一图像进行语义信息细节调整,得到第三图像;
细节引导语义模块,用于从所述第三图像中提取空间信息,利用所述空间信息对所述第二图像进行语义信息引导处理,得到第四图像。
4.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1或2任一项权利要求所述基于空间和语义信息的图像处理方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1或2任一项权利要求所述基于空间和语义信息的图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310698749.7A CN116452813B (zh) | 2023-06-14 | 2023-06-14 | 基于空间和语义信息的图像处理方法、***、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310698749.7A CN116452813B (zh) | 2023-06-14 | 2023-06-14 | 基于空间和语义信息的图像处理方法、***、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452813A CN116452813A (zh) | 2023-07-18 |
CN116452813B true CN116452813B (zh) | 2023-08-22 |
Family
ID=87122244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310698749.7A Active CN116452813B (zh) | 2023-06-14 | 2023-06-14 | 基于空间和语义信息的图像处理方法、***、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452813B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549555A (zh) * | 2022-02-25 | 2022-05-27 | 北京科技大学 | 一种基于语义分割网络的人耳图像解刨学分割方法 |
CN115359372A (zh) * | 2022-07-25 | 2022-11-18 | 成都信息工程大学 | 一种基于光流网络的无人机视频运动目标检测方法 |
CN115546485A (zh) * | 2022-10-17 | 2022-12-30 | 华中科技大学 | 一种分层自注意力场景语义分割模型的构建方法 |
CN116229461A (zh) * | 2023-01-31 | 2023-06-06 | 西南大学 | 一种基于多尺度细化的室内场景图像实时语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11188799B2 (en) * | 2018-11-12 | 2021-11-30 | Sony Corporation | Semantic segmentation with soft cross-entropy loss |
-
2023
- 2023-06-14 CN CN202310698749.7A patent/CN116452813B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549555A (zh) * | 2022-02-25 | 2022-05-27 | 北京科技大学 | 一种基于语义分割网络的人耳图像解刨学分割方法 |
CN115359372A (zh) * | 2022-07-25 | 2022-11-18 | 成都信息工程大学 | 一种基于光流网络的无人机视频运动目标检测方法 |
CN115546485A (zh) * | 2022-10-17 | 2022-12-30 | 华中科技大学 | 一种分层自注意力场景语义分割模型的构建方法 |
CN116229461A (zh) * | 2023-01-31 | 2023-06-06 | 西南大学 | 一种基于多尺度细化的室内场景图像实时语义分割方法 |
Non-Patent Citations (1)
Title |
---|
用于场景分割的改进 DeepLabV3 + 算法;桑永龙,韩军;《电光与控制》;第29卷(第3期);47-52 * |
Also Published As
Publication number | Publication date |
---|---|
CN116452813A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047516B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Zhang et al. | Swinfir: Revisiting the swinir with fast fourier convolution and improved training for image super-resolution | |
US11315253B2 (en) | Computer vision system and method | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN101477684B (zh) | 一种利用位置图像块重建的人脸图像超分辨率方法 | |
US9865036B1 (en) | Image super resolution via spare representation of multi-class sequential and joint dictionaries | |
CN109523470B (zh) | 一种深度图像超分辨率重建方法及*** | |
CN103279933B (zh) | 一种基于双层模型的单幅图像超分辨率重建方法 | |
CN113159143B (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
CN113111835B (zh) | 卫星遥感图像语义分割方法、装置、电子设备和存储介质 | |
CN113674191B (zh) | 一种基于条件对抗网络的弱光图像增强方法和装置 | |
CN112651979A (zh) | 肺部x光图像分割方法、***、计算机设备及存储介质 | |
CN111275034A (zh) | 从图像中提取文本区域的方法、装置、设备和存储介质 | |
CN115731505B (zh) | 视频显著性区域检测方法、装置、电子设备及存储介质 | |
CN115526777A (zh) | 一种盲超分网络建立方法、盲超分方法及存储介质 | |
Xu et al. | Image enhancement algorithm based on generative adversarial network in combination of improved game adversarial loss mechanism | |
CN116452813B (zh) | 基于空间和语义信息的图像处理方法、***、设备和介质 | |
Zhang et al. | 3d cross-scale feature transformer network for brain mr image super-resolution | |
CN113743346A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN117078921A (zh) | 一种基于多尺度边缘信息的自监督小样本汉字生成方法 | |
CN112508786A (zh) | 面向卫星图像的任意尺度超分辨率重建方法及*** | |
CN113435384B (zh) | 中低分辨率光学遥感图像的目标检测方法、装置及设备 | |
Peng | Super-resolution reconstruction using multiconnection deep residual network combined an improved loss function for single-frame image | |
Song et al. | ESRGAN-DP: Enhanced super-resolution generative adversarial network with adaptive dual perceptual loss | |
CN114598833A (zh) | 基于时空联合注意力的视频插帧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |