CN111028235A - 一种利用特征融合增强边缘和细节信息的图像分割方法 - Google Patents
一种利用特征融合增强边缘和细节信息的图像分割方法 Download PDFInfo
- Publication number
- CN111028235A CN111028235A CN201911094462.3A CN201911094462A CN111028235A CN 111028235 A CN111028235 A CN 111028235A CN 201911094462 A CN201911094462 A CN 201911094462A CN 111028235 A CN111028235 A CN 111028235A
- Authority
- CN
- China
- Prior art keywords
- feature map
- feature
- fusion
- conv
- pooling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003709 image segmentation Methods 0.000 title claims abstract description 18
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000011478 gradient descent method Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 74
- 238000010586 diagram Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供一种利用特征融合增强边缘和细节信息的图像分割方法,涉及计算机视觉技术领域。该方法利用卷积神经网络对输入的图像进行特征的提取;将提取出的特征输入到加入更多特征融合的解码结构,在恢复图像分辨率的同时丰富边缘和细节信息,得到密集特征图;通过归一化方法输出不同分类的最大值;计算交叉熵损失函数,利用随机梯度下降法更新网络中的权重。本发明方法可以在恢复特征图分辨率的同时恢复在编码阶段丢失的位置和边界细节信息,丰富图片的信息,得到密集的特征图,弥补了直接上采样所带来的稀疏特征图,使分割的边界和细节更加清晰,提升了对细节细小物体分割效果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种利用特征融合增强边缘和细节信息的图像分割方法。
背景技术
随着科学技术的不断进步和国家经济的飞速发展,人工智能逐渐进入了人们的视野,在人类的生产和生活中扮演着越来越重的角色,人工智能在各个领域都得到了广泛的应用,图像语义分割是人工智能的一个重要研究方向,是实现自动场景理解的一个非常重要的手段,可以应用在自动驾驶***以及无人及应用等许多领域。
图像语义分割技术是机器学习中计算机视觉领域的一个重要的分支,图像语义分割是对输入的图像进行处理,自动分割并识别出图像中的内容。在将深度学习应用到计算机视觉领域之前,构建图像语义分割的分类器通常是使用纹理基元森林,或者是随机森林。随着深度卷积神经网络的出现和蓬勃发展,为语义分割提供个一个非常有效的方法,将CNN应用到语义分割中取得了很好的进展,推动了语义分割的发展,使其在各个领域的应用都取得了显著的成果。
将深度学习应用到语义分割之后出现了很多经典的分割方法,比如全卷积网络FCN,具有encoder-decoder结构的SegNet网络和加入了空洞卷积的DeepLab,但是随着CNN网络层次的加深,不断的池化和下采样会使图片的位置信息和边界细节信息丢失,并且这一过程不可逆,被去掉的信息无法完全恢复,因此在解码阶段上采样后的特征图会由于信息的丢失变得稀疏,这些方法均有一定的局限性。
全卷积网络FCN和传统的SegNet网络由于下采样导致位置和边缘细节的丢失,在解码阶段进行上采样时丢失的信息并没有得以重现,得到的特征图是稀疏的,虽然SegNet网络通过池化索引恢复了位置信息,并利用卷积操作丰富边界和细节信息,但是仍然存在着大量的信息缺失。
空洞卷积是一个可以得到密集特征图的卷积层,但是使用空洞卷积的计算成本比较高,并且处理大量高分辨率特征图谱会占用大量内存。
目前图像语义分割方法普遍存在的问题就是,对边缘细节特征以及位置信息的保持仍需进一步提高,分割的精确也有待提升。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种利用特征融合增强边缘和细节信息的图像分割方法,实现对图像的分割。
为解决上述技术问题,本发明所采取的技术方案是:一种利用特征融合增强边缘和细节信息的图像分割方法,包括以下步骤:
步骤1:将训练数据集中的图像进行处理,得到统一分辨率的图像;
步骤1.1:将训练数据集中的图像进行缩放和裁剪,使输入的图像具有统一的尺寸;
步骤1.2:将输入的图象的分辨率固定为360×480;
步骤2:将图像输入到编码结构进行特征提取;所述编码结构与SegNet网络相同,采用VGG-16的前13层,同时在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置;
所述编码结构的每个卷积层的卷积核大小均为3×3,每一个卷积层之后的特征图记为conv_i_j,其中i=1,2,3,4,5,当i=1,2时,j=1,2,当i=3,4,5时,j=1,2,3;同时,每一个卷积层之后连接Batch Normalisation和ReLU激活函数;每个池化层加入最大池化索引,利用2×2非重叠最大池化实现下采样的同时,通过最大池化索引记住像素最大值所在的位置,每一个池化层得到的特征图用pool_r来表示,其中r=1,2,3,4,5;
所述在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置的具体方法为:
则像素点最大值所对应的的位置记为(mi,nj),如下公式所示:
步骤3:将通过编码结构得到的池化特征图pool_5输入到加入更多特征融合的解码结构,利用最大池化索引在原位置释放像素最大值,其余位置用0填充,实现2倍上采样,得到稀疏特征图upsampling5;
所述解码结构包括三个三层卷积结构和两个二层卷积结构;所述解码结构中的每个卷积层之后连接Batch Normalisation和ReLU激活函数;
所述得到稀疏特征图upsampling5其中每个像素的值如下公式所示:
其中,Zu,v为稀疏特征图upsampling5中像素点(u,v)的像素值;
步骤4:通过解码结构进行一次特征融合操作,将稀疏特征图upsampling5与卷积特征图conv_5_1和conv_5_2进行融合,并将融合得到的特征图与对应尺寸的池化特征图pool_4进行融合,得到融合特征图F1;
所述融合的过程为特征图中对应位置的像素值进行加法运算;
将融合特征图F1输入到第一个三层卷积结构中进行卷积操作,得到密集特征图conv_decode5,弥补池化和下采样引起的信息丢失;
步骤5:再通过解码结构进行四次特征融合操作,重复执行上采样、特征融合、卷积操作,直到特征图分辨率恢复到原始大小;
步骤5.1:通过解码结构进行第二次特征融合恢复图像信息;
步骤5.1.1:利用生成池化特征图pool_4时所保存的最大池化索引对conv_decode5进行2倍上采样,得到稀疏特征图upsampling4;
步骤5.1.2:将稀疏特征图upsampling4与编码结构中提取的具有相同分辨率的卷积特征图conv_4_1,conv_4_2,池化特征图pool_3进行融合,得到融合特征图F2;
步骤5.1.3:将融合特征图F2输入到第二个三层卷积结构中进行卷积操作,得到密集特征图conv_decode4;
步骤5.2:通过解码结构进行第三次特征融合恢复图像信息;
步骤5.2.1:利用生成池化特征图pool_3时所保存的最大池化索引对特征图conv_decode4进行2倍上采样,得到稀疏特征图upsampling3;
步骤5.2.2:将稀疏特征图upsampling3与编码结构中提取的具有相同分辨率的卷积特征图conv3_1,conv3_2和池化特征图pool_2进行特征融合,得到融合特征图F3;
步骤5.2.3:将融合特征图F3输入到第三个三层卷积结构中进行卷积操作,得到密集特征图conv_decode3;
步骤5.3:通过解码结构进行第四次特征融合恢复图像的细节信息;
步骤5.3.1:利用生成池化特征图pool_2时所保存的最大池化索引对特征图conv_decode3进行2倍上采样,得到稀疏特征图upsampling2;
步骤5.3.2:将稀疏特征图upsampling2与卷积特征图conv_2_1和池化特征图pool_1进行特征融合,得到融合特征图F4;
步骤5.3.3:根据SegNet网络的对称性,将融合特征图F4输入到第一个两层卷积结构中进行卷积操作,得到密集特征图conv_decode2;
步骤5.4:通过解码结构进行第五次特征融合恢复图像的边缘信息;
步骤5.4.1:利用生成池化特征图pool_1时所保存的最大池化索引对特征图conv_decode2进行2倍上采样,得到稀疏特征图upsampling1;
步骤5.4.2:将稀疏特征图upsampling1与卷积特征图conv_1_1进行特征融合,得到融合特征图F5;
步骤5.4.3:将融合特征图F5输入到第二个两层卷积结构中进行卷积操作,得到密集特征图conv_decode1;
步骤6:将密集特征图conv_decode1输入到Softmax层得到图像中像素分类的最大概率;
步骤7:通过图像中像素分类的最大概率计算交叉熵损失函数,通过随机梯度下降法来更新编码结构和解码结构中各卷积层和池化层的卷积核参数,实现图像的分割。
本发明方法的技术原理为:在原始的SegNet网络基础之上,对解码阶段进行改进,在恢复特征图分辨率的同时恢复图像位置及边界细节信息,得到密集的特征图;由于在编码结构中利用卷积层和池化层来提取图像的特征,并且不同深度的卷积层和池化层提取出来的是不同尺度的信息,在浅层结构提取到的是全局的低级语义信息,比如边缘、方向、纹理、色度等,深层结构提取到的是局部的高级语义信息,例如物体的形状,网络层次越深提取的特征就越抽象,为了提取出更加抽象的高级特征,所以该模型在编码结构中选择最大池化而不是平均池化。
由于在特征图中提取到的像素最大值及其所在的位置至关重要,在进行池化时不仅会丢失边缘细节信息,还会因为特征图分辨率的减小而丢失位置信息,所以在编码结构中加入了池化索引记住像素最大值的位置,解码结构通过池化索引将像素最大值在原位置进行释放,其余位置用0填充,这样既可以实现2倍上采样又可以恢复重要的位置信息,减小误差。
然而,随着解码结构网络层次的加深,提取出来的特征越来越抽象,很多边缘细节信息会被丢掉,并且每一层丢失的是不同尺度的信息,在解码结构中上采样后所得到的特征图除了最大值的位置其余全部为0,即得到的特征图是稀疏的,丢失的信息并没有在上采样后的特征图中得以重现,所以在解码结构中加入特征融合来恢复信息,将每一次上采样后得到的稀疏特征图均与编码阶段对应尺寸的卷积后以及池化后的特征图进行叠加。这样通过将每一个上采样后的特征图输入到融合结构中,逐渐恢复在编码阶段丢失的信息,再将融合的结果输入到卷积层中进一步丰富信息,得到更加密集的特征图,使分割效果更好,精度更高.本发明方法中共加入了五次特征融合,可以使分割的效果更加精确,同时也提升了对物体边缘和细节的分割。
采用上述技术方案所产生的有益效果在于:本发明提供的利用特征融合增强边缘和细节信息的图像分割方法,可以在恢复特征图分辨率的同时恢复在编码阶段丢失的位置和边界细节信息,丰富图片的信息,得到密集的特征图,弥补了直接上采样所带来的稀疏特征图,使分割的边界和细节更加清晰,提升了对细节细小物体分割效果,提高了分割的平均精度以及mIOU。
附图说明
图1为本发明实施例提供的一种利用特征融合增强边缘和细节信息的图像分割方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,一种利用特征融合增强边缘和细节信息的图像分割方法,如图1所示,包括以下步骤:
步骤1:将训练数据集中的图像进行处理,得到统一分辨率的图像;
步骤1.1:将训练数据集中的图像进行缩放和裁剪,使输入的图像具有统一的尺寸;
步骤1.2:将输入的图象的分辨率固定为360×480;
步骤2:将图像输入到编码结构进行特征提取;所述编码结构与SegNet网络相同,采用VGG-16的前13层,同时在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置;
所述编码结构的每个卷积层的卷积核大小均为3×3,保证了图像尺寸不变,每一个卷积层之后的特征图记为conv_i_j,其中i=1,2,3,4,5,当i=1,2时,j=1,2,当i=3,4,5时,j=1,2,3;同时,每一个卷积层之后连接Batch Normalisation和ReLU激活函数;BatchNormalisation是为了加快模型收敛的速度,并且在一定程度缓解了深层网络中的梯度弥散问题,从而使得训练深层网络模型更加容易和稳定;选择ReLU激活函数可以解决梯度消失,缓解网络的过拟合;每个池化层加入最大池化索引,利用2×2非重叠最大池化实现下采样的同时,通过最大池化索引记住像素最大值所在的位置,每一个池化层得到的特征图用pool_r来表示,其中r=1,2,3,4,5;
编码结构使用VGG-16的前13层来提取图片的特征,利用卷积层和池化层提取不同尺度的图像特征,该结构的前4层可以看作是浅层结构,得到的是低级的语义信息,后9层可以看作是深层结构,得到的是高级的抽象信息,通过编码结构可以得到不同尺度的特征;
则像素点最大值所对应的的位置记为(mi,nj),如下公式所示:
步骤3:将通过编码结构得到的池化特征图pool_5输入到加入更多特征融合的解码结构,利用最大池化索引在原位置释放像素最大值,其余位置用0填充,实现2倍上采样,得到稀疏特征图upsampling5;
所述解码结构包括三个三层卷积结构和两个二层卷积结构;所述解码结构中的每个卷积层之后连接Batch Normalisation和ReLU激活函数;
所述得到的稀疏特征图upsampling5中每个像素的值如下公式所示:
其中,Zu,v为稀疏特征图upsampling5中像素点(u,v)的像素值。
步骤4:由于上采样得到的特征图是稀疏的,所以通过解码结构进行一次特征融合操作;编码结构中提取的与稀疏特征图upsampling5具有相同分辨率的卷积特征图有conv_5_1,conv_5_2和conv_5_3,由于pool_5是由conv_5_3直接池化得到的,在2倍上采样的过程中已经恢复了一部分信息,同时也为了减少模型的训练参数,所以只将稀疏特征图upsampling5与卷积特征图conv_5_1和conv_5_2进行融合,并将融合得到的特征图与对应尺寸的池化特征图pool_4进行融合,得到融合特征图F1;
所述融合的过程为特征图中对应位置的像素值进行加法运算;
为了保持原始SegNet网络的对称性,将融合特征图F1输入到第一个三层卷积结构中进行卷积操作,得到密集特征图conv_decode5,进一步丰富图片的信息,弥补池化和下采样引起的信息丢失;
步骤4相当于第一次特征融合操作,本发明方法在解码过程中共需要进行五次特征融合,并且根据上采样深度的不同分为三种不同的融合形式,其中前三次融合的形式相同,下面还需进行四次特征融合。
步骤5:再通过解码结构进行四次特征融和操作,重复执行上采样、特征融合、卷积操作,直到特征图分辨率恢复到原始大小,得到密集特征图conv_decode1;
步骤5.1:通过解码结构进行第二次特征融合恢复图像信息;
步骤5.1.1:经过步骤4之后特征图conv_decode5的分辨率与池化特征图pool_4相同,利用生成池化特征图pool_4时所保存的最大池化索引对conv_decode5进行2倍上采样,得到稀疏特征图upsampling4;
步骤5.1.2:将稀疏特征图upsampling4与编码结构中提取的具有相同分辨率的卷积特征图conv_4_1,conv_4_2,池化特征图pool_3进行融合,得到融合特征图F2;
步骤5.1.3:将融合特征图F2输入到第二个三层卷积结构中进行卷积操作,得到密集特征图conv_decode4;
步骤5.2:通过解码结构进行第三次特征融合恢复图像信息;
步骤5.2.1:利用生成池化特征图pool_3时所保存的最大池化索引对特征图conv_decode4进行2倍上采样,得到稀疏特征图upsampling3;
步骤5.2.2:将稀疏特征图upsampling3与编码结构中提取的具有相同分辨率的卷积特征图conv3_1,conv3_2和池化特征图pool_2进行特征融合,得到融合特征图F3;
步骤5.2.3:将融合特征图F3输入到第三个三层卷积结构中进行卷积操作,得到密集特征图conv_decode3;
由于前三次特征融合均是对应三个阶段的编码特征图,具有相同的融合结构,并且参与融合的特征图分辨率较低,具有局部的抽象特征,所以利用相同的融合形式来进行局部抽象特征的恢复。
步骤5.3:通过解码结构进行第四次特征融合恢复图像的细节信息;
步骤5.3.1:利用生成池化特征图pool_2时所保存的最大池化索引对特征图conv_decode3进行2倍上采样,得到稀疏特征图upsampling2;
步骤5.3.2:由于经过步骤5.3.1后特征图的分辨率已经恢复到原图的此时对应的特征图有conv_2_1,conv_2_2和pool_1,为了减少模型训练的参数,所以只将稀疏特征图upsampling2与卷积特征图conv_2_1和池化特征图pool_1进行特征融合,得到融合特征图F4;
步骤5.3.3:根据SegNet网络的对称性,将融合特征图F4输入到第一个两层卷积结构中进行卷积操作,得到密集特征图conv_decode2;
与前三次特征融合不同,此次特征融合对应两个阶段的编码特征图,用于恢复细节信息,所以融合形式不同;
步骤5.4:通过解码结构进行第五次特征融合恢复图像的边缘信息;
步骤5.4.1:利用生成池化特征图pool_1时所保存的最大池化索引对特征图conv_decode2进行2倍上采样,得到稀疏特征图upsampling1;
步骤5.4.2:由于经过步骤5.4.1之后特征图的分辨率已经恢复到原来的尺寸,此时与通过编码结构得到的具有相同分辨率的特征图有卷积特征conv_1_1和conv_1_2,为了减少模型训练的参数,只将稀疏特征图upsampling1与卷积特征图conv_1_1进行特征融合,得到融合特征图F5;
步骤5.4.3:将融合特征图F5输入到第二个两层卷积结构中进行卷积操作,得到密集特征图conv_decode1;
此次特征融合只有一个阶段的编码特征图参与到该融合中,并且用于边缘信息的恢复。
步骤6:将密集特征图conv_decode1输入到Softmax层得到图像中像素分类的最大概率。
步骤7:通过图像中像素分类的最大概率计算交叉熵损失函数,通过随机梯度下降法来更新编码结构和解码结构中各卷积层和池化层的卷积核参数,实现图像的分割。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (6)
1.一种利用特征融合增强边缘和细节信息的图像分割方法,其特征在于:包括以下步骤:
步骤1:将训练数据集中的图像进行处理,得到统一分辨率的图像;
步骤2:将图像输入到编码结构进行特征提取;所述编码结构与SegNet网络相同,采用VGG-16的前13层,同时在池化时加入最大池化索引来记住图像中像素的最大值及其所在的位置;
所述编码结构的每个卷积层的卷积核大小均为3×3,每一个卷积层之后的特征图记为conv_i_j,其中i=1,2,3,4,5,当i=1、2时,j=1、2,当i=3、4、5时,j=1、2、3;同时,每一个卷积层之后连接Batch Normalisation和ReLU激活函数;每个池化层加入最大池化索引,利用2×2非重叠最大池化实现下采样的同时,通过最大池化索引记住像素最大值所在的位置,每一个池化层得到的特征图用pool_r来表示,其中r=1,2,3,4,5;
步骤3:将通过编码结构得到的池化特征图pool_5输入到加入更多特征融合的解码结构,利用最大池化索引在原位置释放像素最大值,其余位置用0填充,实现2倍上采样,得到稀疏特征图upsampling5;
步骤4:通过解码结构进行一次特征融合操作,将稀疏特征图upsampling5与卷积特征图conv_5_1和conv_5_2进行融合,并将融合得到的特征图与对应尺寸的池化特征图pool_4进行融合,得到融合特征图F1;
将融合特征图F1输入到第一个三层卷积结构中进行卷积操作,得到密集特征图conv_decode5,弥补池化和下采样引起的信息丢失;
步骤5:再通过解码结构进行四次特征融合操作,重复执行上采样、特征融合、卷积操作,直到特征图分辨率恢复到原始大小,得到密集特征图conv_decode1;
步骤6:将密集特征图conv_decode1输入到Softmax层得到图像中像素分类的最大概率;
步骤7:通过图像中像素分类的最大概率计算交叉熵损失函数,通过随机梯度下降法来更新编码结构和解码结构中各卷积层和池化层的卷积核参数,实现图像的分割。
2.根据权利要求1所述的一种利用特征融合增强边缘和细节信息的图像分割方法,其特征在于:所述步骤1的具体方法为:
步骤1.1:将训练数据集中的图像进行缩放和裁剪,使输入的图像具有统一的尺寸;
步骤1.2:将输入的图象的分辨率固定为360×480。
5.根据权利要求1所述的一种利用特征融合增强边缘和细节信息的图像分割方法,其特征在于:步骤4所述融合的过程为特征图中对应位置的像素值进行加法运算。
6.根据权利要求4所述的一种利用特征融合增强边缘和细节信息的图像分割方法,其特征在于:所述步骤5的具体方法为:
步骤5.1:通过解码结构进行第二次特征融合恢复图像信息;
步骤5.1.1:利用生成池化特征图pool_4时所保存的最大池化索引对conv_decode5进行2倍上采样,得到稀疏特征图upsampling4;
步骤5.1.2:将稀疏特征图upsampling4与编码结构中提取的具有相同分辨率的卷积特征图conv_4_1,conv_4_2,池化特征图pool_3进行融合,得到融合特征图F2;
步骤5.1.3:将融合特征图F2输入到第二个三层卷积结构中进行卷积操作,得到密集特征图conv_decode4;
步骤5.2:通过解码结构进行第三次特征融合恢复图像信息;
步骤5.2.1:利用生成池化特征图pool_3时所保存的最大池化索引对特征图conv_decode4进行2倍上采样,得到稀疏特征图upsampling3;
步骤5.2.2:将稀疏特征图upsampling3与编码结构中提取的具有相同分辨率的卷积特征图conv3_1,conv3_2和池化特征图pool_2进行特征融合,得到融合特征图F3;
步骤5.2.3:将融合特征图F3输入到第三个三层卷积结构中进行卷积操作,得到密集特征图conv_decode3;
步骤5.3:通过解码结构进行第四次特征融合恢复图像的细节信息;
步骤5.3.1:利用生成池化特征图pool_2时所保存的最大池化索引对特征图conv_decode3进行2倍上采样,得到稀疏特征图upsampling2;
步骤5.3.2:将稀疏特征图upsampling2与卷积特征图conv_2_1和池化特征图pool_1进行特征融合,得到融合特征图F4;
步骤5.3.3:根据SegNet网络的对称性,将融合特征图F4输入到第一个两层卷积结构中进行卷积操作,得到密集特征图conv_decode2;
步骤5.4:通过解码结构进行第五次特征融合恢复图像的边缘信息;
步骤5.4.1:利用生成池化特征图pool_1时所保存的最大池化索引对特征图conv_decode2进行2倍上采样,得到稀疏特征图upsampling1;
步骤5.4.2:将稀疏特征图upsampling1与卷积特征图conv_1_1进行特征融合,得到融合特征图F5;
步骤5.4.3:将融合特征图F5输入到第二个两层卷积结构中进行卷积操作,得到密集特征图conv_decode1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911094462.3A CN111028235B (zh) | 2019-11-11 | 2019-11-11 | 一种利用特征融合增强边缘和细节信息的图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911094462.3A CN111028235B (zh) | 2019-11-11 | 2019-11-11 | 一种利用特征融合增强边缘和细节信息的图像分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111028235A true CN111028235A (zh) | 2020-04-17 |
CN111028235B CN111028235B (zh) | 2023-08-22 |
Family
ID=70205321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911094462.3A Active CN111028235B (zh) | 2019-11-11 | 2019-11-11 | 一种利用特征融合增强边缘和细节信息的图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028235B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582111A (zh) * | 2020-04-29 | 2020-08-25 | 电子科技大学 | 一种基于语义分割的细胞各成分分割方法 |
CN111666842A (zh) * | 2020-05-25 | 2020-09-15 | 东华大学 | 一种基于双流空洞卷积神经元网络的阴影检测方法 |
CN111784642A (zh) * | 2020-06-10 | 2020-10-16 | 中铁四局集团有限公司 | 一种图像处理方法、目标识别模型训练方法和目标识别方法 |
CN113052159A (zh) * | 2021-04-14 | 2021-06-29 | ***通信集团陕西有限公司 | 一种图像识别方法、装置、设备及计算机存储介质 |
CN113192200A (zh) * | 2021-04-26 | 2021-07-30 | 泰瑞数创科技(北京)有限公司 | 一种基于空三并行计算算法的城市实景三维模型的构建方法 |
CN113280820A (zh) * | 2021-06-09 | 2021-08-20 | 华南农业大学 | 基于神经网络的果园视觉导航路径提取方法与*** |
CN113496453A (zh) * | 2021-06-29 | 2021-10-12 | 上海电力大学 | 一种基于多层次特征融合的对抗网络图像隐写方法 |
CN113724269A (zh) * | 2021-08-12 | 2021-11-30 | 浙江大华技术股份有限公司 | 实例分割方法、实例分割网络的训练方法及相关设备 |
CN115828079A (zh) * | 2022-04-20 | 2023-03-21 | 北京爱芯科技有限公司 | 一种最大池化运算的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN109903292A (zh) * | 2019-01-24 | 2019-06-18 | 西安交通大学 | 一种基于全卷积神经网络的三维图像分割方法及*** |
CN110264483A (zh) * | 2019-06-19 | 2019-09-20 | 东北大学 | 一种基于深度学习的语义图像分割方法 |
-
2019
- 2019-11-11 CN CN201911094462.3A patent/CN111028235B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
CN109903292A (zh) * | 2019-01-24 | 2019-06-18 | 西安交通大学 | 一种基于全卷积神经网络的三维图像分割方法及*** |
CN110264483A (zh) * | 2019-06-19 | 2019-09-20 | 东北大学 | 一种基于深度学习的语义图像分割方法 |
Non-Patent Citations (1)
Title |
---|
肖朝霞 等: "图像语义分割问题研究综述", 软件导刊 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582111B (zh) * | 2020-04-29 | 2022-04-29 | 电子科技大学 | 一种基于语义分割的细胞各成分分割方法 |
CN111582111A (zh) * | 2020-04-29 | 2020-08-25 | 电子科技大学 | 一种基于语义分割的细胞各成分分割方法 |
CN111666842A (zh) * | 2020-05-25 | 2020-09-15 | 东华大学 | 一种基于双流空洞卷积神经元网络的阴影检测方法 |
CN111666842B (zh) * | 2020-05-25 | 2022-08-26 | 东华大学 | 一种基于双流空洞卷积神经元网络的阴影检测方法 |
CN111784642A (zh) * | 2020-06-10 | 2020-10-16 | 中铁四局集团有限公司 | 一种图像处理方法、目标识别模型训练方法和目标识别方法 |
CN113052159A (zh) * | 2021-04-14 | 2021-06-29 | ***通信集团陕西有限公司 | 一种图像识别方法、装置、设备及计算机存储介质 |
CN113052159B (zh) * | 2021-04-14 | 2024-06-07 | ***通信集团陕西有限公司 | 一种图像识别方法、装置、设备及计算机存储介质 |
CN113192200A (zh) * | 2021-04-26 | 2021-07-30 | 泰瑞数创科技(北京)有限公司 | 一种基于空三并行计算算法的城市实景三维模型的构建方法 |
CN113280820A (zh) * | 2021-06-09 | 2021-08-20 | 华南农业大学 | 基于神经网络的果园视觉导航路径提取方法与*** |
CN113280820B (zh) * | 2021-06-09 | 2022-11-29 | 华南农业大学 | 基于神经网络的果园视觉导航路径提取方法与*** |
CN113496453A (zh) * | 2021-06-29 | 2021-10-12 | 上海电力大学 | 一种基于多层次特征融合的对抗网络图像隐写方法 |
CN113724269A (zh) * | 2021-08-12 | 2021-11-30 | 浙江大华技术股份有限公司 | 实例分割方法、实例分割网络的训练方法及相关设备 |
CN115828079A (zh) * | 2022-04-20 | 2023-03-21 | 北京爱芯科技有限公司 | 一种最大池化运算的方法及装置 |
CN115828079B (zh) * | 2022-04-20 | 2023-08-11 | 北京爱芯科技有限公司 | 一种最大池化运算的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111028235B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111028235B (zh) | 一种利用特征融合增强边缘和细节信息的图像分割方法 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及*** | |
CN111028177B (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
CN108647560B (zh) | 一种基于cnn的保持表情信息的人脸转移方法 | |
CN113408471B (zh) | 一种基于多任务深度学习的无绿幕人像实时抠图算法 | |
CN110276354B (zh) | 一种高分辨率街景图片语义分割训练与实时分割方法 | |
CN113569865B (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
CN111915627A (zh) | 语义分割方法、网络、设备及计算机存储介质 | |
CN101714262A (zh) | 单幅图像的三维场景重建方法 | |
WO2023212997A1 (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN113592736A (zh) | 一种基于融合注意力机制的半监督图像去模糊方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN114936605A (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN113689434B (zh) | 一种基于条带池化的图像语义分割方法 | |
CN113066025B (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
CN113888547A (zh) | 基于gan网络的无监督域自适应遥感道路语义分割方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN112270366B (zh) | 基于自适应多特征融合的微小目标检测方法 | |
WO2020043296A1 (en) | Device and method for separating a picture into foreground and background using deep learning | |
CN115082928A (zh) | 面向复杂场景的不对称双分支实时语义分割网络的方法 | |
CN115984747A (zh) | 一种基于动态滤波器的视频显著性目标检测方法 | |
CN113139551A (zh) | 一种基于DeepLabv3+的改进语义分割方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |