CN112699937A - 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 - Google Patents
基于特征引导网络的图像分类与分割的装置、方法、设备及介质 Download PDFInfo
- Publication number
- CN112699937A CN112699937A CN202011597039.8A CN202011597039A CN112699937A CN 112699937 A CN112699937 A CN 112699937A CN 202011597039 A CN202011597039 A CN 202011597039A CN 112699937 A CN112699937 A CN 112699937A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- segmentation
- classification
- basic unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于特征引导网络的图像分类与分割的装置、方法、设备及介质,属于深度学习技术领域。本发明的特征引导分类网络和特征引导分割网络包括基本单元块,基本单元块之间的局部特征增强以及全局特征提取,一定程度上解决了目前图像分类与图像分割网络模型特征利用不充分问题,使得训练出的特征引导分类网络以及特征引导分割网络效果更优,更加鲁棒。本发明根据输入图像的需求,选择特征引导分类网络还是特征引导分割网络,输出相应的类别或分割后的图像,解决现有的分类或分割网络模型存在分类或分割结果效果不理想的问题。
Description
技术领域
本发明涉及深度学习领域,特别是深度学习中卷积神经网络在图像分类与分割方面的应用。
背景技术
图像分类与图像分割是计算机视觉领域的两大任务。图像分类的目的是给定一张图像,判定该图像到底属于哪一个具体的类别。图像分割则是从给定的图像中,分割出只包含感兴趣区域的目标。
在图像分类领域,主要包含传统的机器学习算法和目前流行的深度学习方法。机器学习算法往往需要手动地设计特征与人工干预,而深度学习方法有着强大的自动提取特征的能力而被广泛研究。更为重要的是,深度学习方法在图像分类领域的效果远好于传统的机器学习算法,这得益于深度学习中的卷积神经网络。然而,目前的图像分类网络模型没有充分利用从原始输入到模型输出之间的精细特征,而取得了相对较低的分类精度。这主要是因为目前设计的分类网络模型未能做到充分地特征引导、特征增强与利用。
图像分割又分为语义分割和实例分割,给定一张图像,前者只要分割出不同类别的目标即可,而后者不但要分割出不同的类别,还要在此基础上进一步完成同一类别、不同对象的分割。在图像分割领域,卷积神经网络也取得了良好的效果。具有里程碑意义的便是2015年提出用于语义分割的全卷积网络,全卷积网络不包含全连接层,从而适应任意尺寸的输入,采用反卷积操作与跳级结构,输出更加精细的结果。正因为全卷积网络的良好设计理念,在图像分割领域被不断的改进与完善,并被广泛应用。图像分割实质上是像素级的图像分类,因此对图像分割网络实施精细的特征提取尤为重要。然而,目前的图像分割网络模型大多忽略了更为密集的特征提取方式与对卷积后特征的充分再利用,例如编码过程的特征增强与解码过程的特征利用。
发明内容
针对现有技术中存在不足,本发明提供了一种基于特征引导网络的图像分类与分割的装置、方法、设备及介质,解决现有的分类或分割网络模型分类或分割结果效果不理想的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于特征引导网络的图像分类与分割的方法,根据输入图像的需求,选择进行分类还是分割,若是分类,则将图像输入已训练的分类网络模型,输出相应的类别;若是分割,则将图像输入已训练的分割网络模型,输出分割后的图像;
所述分类网络模型为特征引导分类网络:输入图像经过一个3×3的卷积,再经过5个基本单元块与下采样操作,最后将得到的输出特征图扁平化,并接入全连接网络;在每个基本单元块前后,添加残差连接操作;对每个基本单元块产生的输出特征图在空间维度进行局部特征增强、在通道维度进行全局特征提取,并在全连接层之前进行全局特征与局部特征融合;
所述分割网络模型为特征引导分割网络,采用编码器-解码器结构;在编码器部分,输入图像经过一个3×3的卷积,再经过4个基本单元块与下采样,最后经过1个基本单元块与ReLU激活函数;在每个基本单元块前后,添加残差连接操作;对每个基本单元块产生的输出特征图在空间维度进行局部特征增强、在通道维度进行全局特征提取;在解码器部分,ReLU激活函数后产生的输出特征图输入解码器,将编码器基本单元块产生的输出特征图与解码器上采样后的特征图在通道维度进行对应尺度的连接,再经过一次普通卷积,产生的输出特征图作为下一个上采样层的输入特征图,直至第4个普通卷积后产生的输出特征图进行第5次上采样和第5次普通卷积,输出分割后的图像。
进一步的,所述基本单元块采用4条并行的水平通路,每一条水平通路上采用数量不等的卷积操作;通过特征图连接操作,使得各条通路之间的特征相互融合;通过分别在同一通路以及不同通路上引入残差连接操作,增强同一通路上的类似特征与不同通路上特征的融合。
进一步的,所述卷积操作设计为深度可分离卷积。
进一步的,所述空间维度进行局部特征增强,具体为:对每个基本单元块输出的特征图进行全局平均池化,得到一个特征向量,再将基本单元块原始输出特征图与所述特征向量进行点乘操作,得到增强后的输出特征图,所述增强后的特征图作为下一个基本单元块的输入,最后一个基本单元块增强后的输出特征图,进行全局平均池化,作为全连接网络的输入。
进一步的,所述通道维度进行全局特征提取,具体为:对每个基本单元块产生的多通道输出特征图进行压缩,提取出只包含单个通道的全局输出特征图。
进一步的,在图像输入前,进行感兴趣区域截取。
进一步的,在图像输入前,对输入图像进行仿射变换操作和归一化操作。
一种基于特征引导网络的图像分类与分割的装置,包括:
数据预处理模块,对输入图像进行各种仿射变换操作和归一化操作;
图像分类模块,用于构建特征引导分类网络,所述特征引导分类网络包括一个3×3的卷积、5个基本单元块和全连接网络;
图像分割模块,用于构建特征引导分割网络,所述特征引导分割网络采用编码器-解码器结构;编码器包括一个3×3的卷积、4个基本单元块与下采样、1个基本单元块与ReLU激活函数;解码器包括5个上采样与普通卷积。
一种计算机设备,包括处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-7中任一项所述的图像分类与分割的方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的图像分类与分割的方法。
本发明的有益效果为:
(1)本发明中的基本单元块采用4条并行的水平通路,每一条水平通路上采用数量不等的卷积操作;通过特征图连接操作,使得各条通路之间的特征相互融合;通过分别在同一通路以及不同通路上引入残差连接操作,增强同一通路上的类似特征与不同通路上特征的融合;基本单元块之间的局部特征增强以及全局特征提取,使得训练出的特征引导分类网络以及特征引导分割网络效果更优,更加鲁棒。
(2)本发明中的特征引导分类网络包括一个3×3的卷积、5个基本单元块和全连接网络,在每个基本单元块前后,添加残差连接操作,与每个基本单元块内部水平方向的残差连接操作在逻辑上形成一个整体,使得特征引导分类网络的训练更加容易;
本发明中的特征引导分割网络采用编码器-解码器结构,编码器包括一个3×3的卷积、4个基本单元块与下采样、1个基本单元块与ReLU激活函数;解码器包括5个上采样与普通卷积;在每个基本单元块前后,添加残差连接操作,与每个基本单元块内部水平方向的残差连接操作在逻辑上形成一个整体,使得特征引导分割网络的训练更加容易;
本发明根据输入图像的需求,选择特征引导分类网络还是特征引导分割网络,输出相应的类别或分割后的图像,解决现有的分类或分割网络模型存在的特征利用不充分,而导致的分类或分割结果效果不理想的问题。
附图说明
图1为本发明所述基于特征引导网络的图像分类与分割的方法流程图;
图2为本发明所述基本单元块结构图;
图3为本发明特征引导分类网络的整体结构图;
图4为本发明特征引导分割网络的整体结构图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,一种基于特征引导网络的图像分类与分割的方法,具体包括如下步骤:
步骤(1),截取感兴趣区域
由于对分类或分割数据集的不确定性,所以无论是对分类网络或是分割网络,截取感兴趣区域操作都是可选的。在某些对分类或分割结果要求较高的应用领域,通过截取感兴趣区域,从而只训练感兴趣区域的图像,可以使得分类器或分割模型取得更好的效果。通常情况下,通过Python代码在输入图像中截取一个感兴趣的方形目标即可。
步骤(2),输入图像预处理
卷积神经网络往往需要大量的数据进行训练,如果数据量过少则可能会引起过拟合现象;为了避免特征引导网络的过拟合,需要对输入图像进行各种仿射变换操作。具体包括对输入图像进行随机水平翻转、随机旋转角度、随机垂直翻转、映射到特定尺寸等操作。此外,为了规范化网络的输入,需要进一步对输入图像进行归一化操作(如按通道减去输入图像的平均值,再除以输入图像的标准差),或进行最大最小归一化操作,从而避免特征引导网络在训练过程中额外地去学习数据间的偏差。
步骤(3),构建特征引导分类网络并训练
用于图像分类的特征引导网络是一个端到端的网络模型,需要将预处理后的输入图像作为特征引导分类网络的输入,从而产生满足特定类别数目的输出向量。在特征引导分类网络接收到输入图像后,除了网络的每个基本单元块对特征进行引导学习外,在每一个单元块之间,还分别在空间维度和通道维度进行特征加强与利用。空间维度的局部特征加强,用于对后续单元块更好的学习;而单元块之间在通道维度的全局特征提取,则参与最后全连接层的输入,从而提升特征引导分类网络的性能。
图3所示为特征引导分类网络的整体结构图,该网络由若干个基本单元块串联而成,各个单元块之间在空间维度进行局部特征增强,各个单元块之间在通道维度进行全局特征提取与利用,在最后全连接层之前进行全局特征与局部特征融合。该特征引导分类网络是一个端到端的网络,使用如下的多分类交叉熵损失函数:
其中,i代表某一样本(输入图像),n代表总的样本数,θ表示模型参数,k为类别数量,yk表示样本的真实值,S(·)表示softmax操作,lk代表预测的输出类别得分。
1)基本单元块
图2为本发明所述的基本单元块,图中柱形表示卷积操作,实线表示数据的流向,虚线表示残差连接操作,圆形表示特征图连接操作。该基本单元块采用4条并行的水平通路,每一条水平通路上采用数量不等的卷积操作,从上到下分别为1、2、4、8个,从而在整个特征引导分类网络上形成不同深度的支路。为了使得各条通路之间的特征相互融合,引入特征图连接操作(通路4和通路3融合,通路4、通路3和通路2融合,通路4、通路3、通路2和通路1融合);特征图连接操作可以看成是对特征的串行排列,从而让后续的卷积层可以学习先前的特征。为了进一步增强同一通路上的类似特征与不同通路上特征的融合,分别在同一通路以及不同通路上引入残差连接操作;残差连接操作在一定程度上可以增强特征表示,使得设计的网络模型可以更深,训练深的网络变得更容易。
为了减少网络的参数量,提升网络的计算性能,基本单元块中的所有卷积操作均设计为深度可分离卷积。深度可分离卷积通过先采用单通道的卷积核保持输出的临时特征图与输入特征图数量的一致,然后通过一个1×1大小的卷积核,降低其输入通道数,从而减少卷积核的参数量,提升网络的执行效率。
2)特征引导分类网络
如图3所示,给定一张输入图像,首先经过一个3×3的卷积,之后经过5个基本单元块与下采样操作,最后将得到的特征图扁平化,并接入全连接网络。在每个基本单元块前后,添加残差连接操作,与每个基本单元块内部水平方向的残差连接操作在逻辑上形成一个整体,使得水平提取的特征通过残差连接的方式更具层级特性;残差连接操作的引入,使得该分类网络的训练更加容易。为了增强每个基本单元块提取的特征,对每个基本单元块产生的输出特征图进行如下操作:首先,对每个基本单元块输出的特征图进行全局平均池化GAP,得到一个特征向量,再将基本单元块原始输出特征图i与该特征向量进行点乘操作,从而得到增强后的输出特征图o,该增强后的特征图o作为下一个基本单元块的输入,对最后一个基本单元块增强后的输出特征图,进行全局平均池化GAP,得到i1、i2…im。除了这种在空间维度对局部特征进行增强的方式外,还对每一个基本单元块产生的输出特征图进行全局特征提取;操作如下:在通道维度上,对每个基本单元块产生的多通道输出特征图进行压缩,提取出只包含单个通道的全局输出特征图;分别对5个基本单元块执行上述操作,便可得到5种不同语义的全局特征图;对5张全局输出特征图在通道维度连接,经过扁平化处理后(j1、j2…jn),连接到i1、i2…im,共同作为最终全连接网络的输入神经元。
3)特征引导分类网络的训练
特征引导分类网络采用随机梯度下降法进行训练,并设置权重衰减为0.0001,使用多分类交叉熵损失函数,使用反向传播算法计算梯度。由于深度卷积神经网络参数量相对较大,训练则相对耗时,因此本发明在NVIDIA GeForce GTX 1080Ti GPU上进行训练。另外,为了进一步避免出现过拟合问题,在每一个基本单元块后添加Dropout层,并设置Dropout率为0.2。
步骤(4),构建特征引导分割网络并训练
图像分割网络的构建框架采用编码器-解码器结构。在编码器部分,采用基本单元块和下采样操作;而在解码器部分,采用上采样,并连接编码器部分的各个单元块之间提取的全局特征,从而增强解码器部分的语义特征。本发明的图像分割网络是单阶段网络,将预处理后的图像作为分割网络的输入,产生语义分割后的图像输出。
图4是本发明的特征引导分割网络的整体结构图,该网络采用编码器-解码器结构。编码器部分采用与特征引导分类网络类似的结构,即使用基本单元块作为编码器部分的基本构成,各个基本单元块之间仍然进行类似的局部特征增强和全局特征提取。该特征引导分割网络是一个单阶段网络,使用如下的损失函数:
其中,i代表某一样本,n代表总的样本数,θ表示模型参数,k为类别数量,yk表示样本的真实值,σ(·)表示sigmoid操作,S(·)表示softmax操作,lk代表预测的输出类别得分。
1)特征引导分割网络
如图4所示,在网络的编码器部分,给定一张输入图像,先经过一个3×3的卷积,然后经过4个基本单元块与下采样操作,最后经过1个基本单元块与ReLU激活函数;每个基本单元块前后,仍然添加残差连接操作进行残差学习,对于每个单元块的输出,仍然对输出的特征图采用与特征引导分类网络相同的局部特征增强手段,用于给下一个基本单元块更好的学习特征;除此之外,对于每一个基本单元块产生的输出特征图,在通道维度进行特征压缩,得到全局输出特征图,用于给分割网络的解码器部分进行语义增强。在解码器部分,采用5次上采样与普通卷积的方式进行语义特征恢复;对于编码器部分最后一个基本单元的输出,在应用ReLU激活函数后,产生的特征图便作为解码器部分的输入;首先,经过双线性差值的上采样操作,然后连接到之前编码器基本单元块4产生的输出特征图,再经过一次普通卷积;依次类推,直到第4个普通卷积后,产生的输出特征图仅进行一次上采样和第5个普通卷积,便产生分割模型最后的类别输出,并依据产生的每个像素的类别结果作为输入图像的分割结果。
2)特征引导分割网络的训练
特征引导分割网络采用RMSprop梯度下降法进行训练,并设置权重衰减为1e-8,动量为0.9。根据分割类别的不同,可选择使用sigmoid结合二分类交叉熵作为损失函数,或使用多分类交叉熵损失函数,使用反向传播算法计算梯度。同特征引导分类网络一样,本发明在NVIDIA GeForce GTX 1080Ti GPU上进行。另外,为了进一步避免出现过拟合问题,在编码器部分的每一个基本单元块后添加Dropout层,并设置Dropout率为0.2。
步骤(5),预测分类及分割结果
将上述最终训练好的分类网络、分割网络的模型和参数保存起来,便可根据需求来预测图像的分类或分割结果。输入待分类或分割的图像,可选的进行感兴趣区域的截取以及预处理操作,然后根据需求选择分类还是分割,若是分类,则进入已训练的分类网络模型,若是分割,则进入已训练的分割网络模型,最后输出相应的类别或分割后的图像。
一种基于特征引导网络的图像分类与分割的装置,包括数据预处理模块、图像分类模块和图像分割模块;
数据预处理模块,对输入图像进行各种仿射变换操作和归一化操作,避免特征引导网络的过拟合;
图像分类模块,用于构建特征引导分类网络,特征引导分类网络包括一个3×3的卷积、5个基本单元块和全连接网络,在每个基本单元块前后,添加残差连接操作;每个基本单元块产生的输出特征图在空间维度进行局部特征增强、在通道维度进行全局特征提取;
图像分割模块,用于构建特征引导分割网络,特征引导分割网络采用编码器-解码器结构;编码器包括一个3×3的卷积层、4个基本单元块与下采样层、1个基本单元块与ReLU激活函数;解码器包括5个上采样层和5个普通卷积层;在每个基本单元块前后,添加残差连接操作;对每个基本单元块产生的输出特征图在空间维度进行局部特征增强、在通道维度进行全局特征提取。
上述基于特征引导网络的图像分类与分割的装置可以实现为一种计算机程序的形式,该计算机程序可以在计算机设备上运行,该计算机设备可以是服务器或终端。其中,服务器可以为独立的服务器,也可以为服务器集群;该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器;非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于特征引导网络的图像分类与分割的方法。处理器用于提供计算和控制能力,支撑整个计算机设备的运行。存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于特征引导网络的图像分类与分割的方法。该网络接口用于进行网络通信,如发送分配的任务等。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请的基于特征引导网络的图像分类与分割的方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘、智能存储卡(SmartMediaCard,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
Claims (10)
1.一种基于特征引导网络的图像分类与分割的方法,其特征在于,根据输入图像的需求,选择进行分类还是分割,若是分类,则将图像输入已训练的分类网络模型,输出相应的类别;若是分割,则将图像输入已训练的分割网络模型,输出分割后的图像;
所述分类网络模型为特征引导分类网络:输入图像经过一个3×3的卷积,再经过5个基本单元块与下采样操作,最后将得到的输出特征图扁平化,并接入全连接网络;在每个基本单元块前后,添加残差连接操作;对每个基本单元块产生的输出特征图在空间维度进行局部特征增强、在通道维度进行全局特征提取,并在全连接层之前进行全局特征与局部特征融合;
所述分割网络模型为特征引导分割网络,采用编码器-解码器结构;在编码器部分,输入图像经过一个3×3的卷积,再经过4个基本单元块与下采样操作,最后经过1个基本单元块与ReLU激活函数;在每个基本单元块前后,添加残差连接操作;对每个基本单元块产生的输出特征图在空间维度进行局部特征增强、在通道维度进行全局特征提取;在解码器部分,ReLU激活函数后产生的输出特征图输入解码器,将编码器基本单元块产生的输出特征图与解码器上采样后的特征图在通道维度进行对应尺度的连接,再经过一次普通卷积,产生的输出特征图作为下一个上采样层的输入特征图,直至第4个普通卷积后产生的输出特征图进行第5次上采样和第5次普通卷积,输出分割后的图像。
2.根据权利要求1所述的基于特征引导网络的图像分类与分割的方法,其特征在于,所述基本单元块采用4条并行的水平通路,每一条水平通路上采用数量不等的卷积操作;通过特征图连接操作,使得各条通路之间的特征相互融合;通过分别在同一通路以及不同通路上引入残差连接操作,增强同一通路上的类似特征与不同通路上特征的融合。
3.根据权利要求1所述的基于特征引导网络的图像分类与分割的方法,其特征在于,所述卷积操作设计为深度可分离卷积。
4.根据权利要求1所述的基于特征引导网络的图像分类与分割的方法,其特征在于,所述空间维度进行局部特征增强,具体为:对每个基本单元块输出的特征图进行全局平均池化,得到一个特征向量,再将基本单元块原始输出特征图与所述特征向量进行点乘操作,得到增强后的输出特征图,所述增强后的特征图作为下一个基本单元块的输入,最后一个基本单元块增强后的输出特征图,进行全局平均池化,作为全连接网络的输入。
5.根据权利要求1所述的基于特征引导网络的图像分类与分割的方法,其特征在于,所述通道维度进行全局特征提取,具体为:对每个基本单元块产生的多通道输出特征图进行压缩,提取出只包含单个通道的全局输出特征图。
6.根据权利要求1所述的基于特征引导网络的图像分类与分割的方法,其特征在于,在图像输入前,进行感兴趣区域截取。
7.根据权利要求1所述的基于特征引导网络的图像分类与分割的方法,其特征在于,在图像输入前,对输入图像进行仿射变换操作和归一化操作。
8.一种基于特征引导网络的图像分类与分割的装置,其特征在于,包括:
数据预处理模块,对输入图像进行各种仿射变换操作和归一化操作;
图像分类模块,用于构建特征引导分类网络,所述特征引导分类网络包括一个3×3的卷积层、5个基本单元块和全连接网络;
图像分割模块,用于构建特征引导分割网络,所述特征引导分割网络采用编码器-解码器结构;编码器包括一个3×3的卷积层、4个基本单元块与下采样层、1个基本单元块与ReLU激活函数;解码器包括5个上采样层和5个普通卷积层。
9.一种计算机设备,其特征在于,包括处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-7中任一项所述的图像分类与分割的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的图像分类与分割的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011597039.8A CN112699937B (zh) | 2020-12-29 | 2020-12-29 | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 |
PCT/CN2021/074273 WO2022141723A1 (zh) | 2020-12-29 | 2021-01-29 | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 |
US17/612,220 US11763542B2 (en) | 2020-12-29 | 2021-01-29 | Apparatus and method for image classification and segmentation based on feature-guided network, device, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011597039.8A CN112699937B (zh) | 2020-12-29 | 2020-12-29 | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699937A true CN112699937A (zh) | 2021-04-23 |
CN112699937B CN112699937B (zh) | 2022-06-21 |
Family
ID=75512013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011597039.8A Active CN112699937B (zh) | 2020-12-29 | 2020-12-29 | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11763542B2 (zh) |
CN (1) | CN112699937B (zh) |
WO (1) | WO2022141723A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516640A (zh) * | 2021-07-05 | 2021-10-19 | 首都师范大学 | 基于分类分支的ct图像细小裂缝分割装置和方法 |
CN114419327A (zh) * | 2022-01-18 | 2022-04-29 | 北京百度网讯科技有限公司 | 图像检测方法和图像检测模型的训练方法、装置 |
CN114898143A (zh) * | 2022-04-19 | 2022-08-12 | 天津大学 | 基于全局与局部视觉特征协同分类方法、设备及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147703B (zh) * | 2022-07-28 | 2023-11-03 | 广东小白龙环保科技有限公司 | 一种基于GinTrans网络的垃圾分割方法及*** |
CN115984188B (zh) * | 2022-12-09 | 2023-11-24 | 脉得智能科技(无锡)有限公司 | 皮肤病多病种超声图像识别方法、识别设备、存储介质 |
CN116363364B (zh) * | 2023-03-27 | 2023-09-26 | 南通大学 | 一种基于改进DSD-LinkNet的电力安全带分割方法 |
CN116630334B (zh) * | 2023-04-23 | 2023-12-08 | 中国科学院自动化研究所 | 用于多分段血管实时自动分割方法、装置、设备及介质 |
CN116363134B (zh) * | 2023-06-01 | 2023-09-05 | 深圳海清智元科技股份有限公司 | 煤与矸石的识别与分割方法、装置及电子设备 |
CN117274719B (zh) * | 2023-11-14 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、计算机设备及存储介质 |
CN117689562B (zh) * | 2023-12-13 | 2024-06-07 | 北京中科金财科技股份有限公司 | 一种基于人工智能扩散模型的虚拟换装方法 |
CN118229981B (zh) * | 2024-05-23 | 2024-07-23 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种结合卷积网络和Transformer的CT图像肿瘤分割方法、装置和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614907A (zh) * | 2018-11-28 | 2019-04-12 | 安徽大学 | 基于特征强化引导卷积神经网络的行人再识别方法及装置 |
CN111932553A (zh) * | 2020-07-27 | 2020-11-13 | 北京航空航天大学 | 基于区域描述自注意力机制的遥感图像语义分割方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3803693A4 (en) * | 2018-05-24 | 2022-06-22 | Nokia Technologies OY | METHOD AND DEVICE FOR COMPUTER VIEWING |
US11164067B2 (en) * | 2018-08-29 | 2021-11-02 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems, methods, and apparatuses for implementing a multi-resolution neural network for use with imaging intensive applications including medical imaging |
US11429824B2 (en) * | 2018-09-11 | 2022-08-30 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
CN109872328B (zh) * | 2019-01-25 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 一种脑部图像分割方法、装置和存储介质 |
WO2020190821A1 (en) * | 2019-03-15 | 2020-09-24 | Genentech, Inc. | Deep convolutional neural networks for tumor segmentation with positron emission tomography |
WO2021030629A1 (en) * | 2019-08-14 | 2021-02-18 | Genentech, Inc. | Three dimensional object segmentation of medical images localized with object detection |
WO2021076605A1 (en) * | 2019-10-14 | 2021-04-22 | Ventana Medical Systems, Inc. | Weakly supervised multi-task learning for cell detection and segmentation |
US11195044B2 (en) * | 2020-01-12 | 2021-12-07 | Dalian University Of Technology | Fully automatic natural image matting method |
US11507778B2 (en) * | 2020-01-27 | 2022-11-22 | Fujifilm Business Innovation Corp. | System and method for automated learning from sensors |
WO2021183765A1 (en) * | 2020-03-13 | 2021-09-16 | Genentech, Inc. | Automated detection of tumors based on image processing |
US11430124B2 (en) * | 2020-06-24 | 2022-08-30 | Samsung Electronics Co., Ltd. | Visual object instance segmentation using foreground-specialized model imitation |
-
2020
- 2020-12-29 CN CN202011597039.8A patent/CN112699937B/zh active Active
-
2021
- 2021-01-29 US US17/612,220 patent/US11763542B2/en active Active
- 2021-01-29 WO PCT/CN2021/074273 patent/WO2022141723A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614907A (zh) * | 2018-11-28 | 2019-04-12 | 安徽大学 | 基于特征强化引导卷积神经网络的行人再识别方法及装置 |
CN111932553A (zh) * | 2020-07-27 | 2020-11-13 | 北京航空航天大学 | 基于区域描述自注意力机制的遥感图像语义分割方法 |
Non-Patent Citations (1)
Title |
---|
PUYANG WANG等: "Simultaneous Segmentation and Classification of Bone Surfaces from Ultrasound Using a Multi-feature Guided CNN", 《MICCAI 2018》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516640A (zh) * | 2021-07-05 | 2021-10-19 | 首都师范大学 | 基于分类分支的ct图像细小裂缝分割装置和方法 |
CN113516640B (zh) * | 2021-07-05 | 2022-03-18 | 首都师范大学 | 基于分类分支的ct图像细小裂缝分割装置和方法 |
CN114419327A (zh) * | 2022-01-18 | 2022-04-29 | 北京百度网讯科技有限公司 | 图像检测方法和图像检测模型的训练方法、装置 |
CN114419327B (zh) * | 2022-01-18 | 2023-07-28 | 北京百度网讯科技有限公司 | 图像检测方法和图像检测模型的训练方法、装置 |
CN114898143A (zh) * | 2022-04-19 | 2022-08-12 | 天津大学 | 基于全局与局部视觉特征协同分类方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022141723A1 (zh) | 2022-07-07 |
US20230055256A1 (en) | 2023-02-23 |
US11763542B2 (en) | 2023-09-19 |
CN112699937B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699937B (zh) | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
EP3940591A1 (en) | Image generating method, neural network compression method, and related apparatus and device | |
CN111428718B (zh) | 一种基于图像增强的自然场景文本识别方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN111488985B (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
Jiang et al. | Cascaded subpatch networks for effective CNNs | |
WO2023174098A1 (zh) | 一种实时手势检测方法及装置 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN112288831A (zh) | 基于生成对抗网络的场景图像生成方法和装置 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN114266897A (zh) | 痘痘类别的预测方法、装置、电子设备及存储介质 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、***、设备及介质 | |
CN115512096A (zh) | 基于CNN与Transformer的低分辨率图像分类方法及*** | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
CN114639101A (zh) | 一种乳状液液滴识别***、方法、计算机设备及存储介质 | |
Huang et al. | Attention‐Enhanced One‐Stage Algorithm for Traffic Sign Detection and Recognition | |
CN111753714B (zh) | 基于字符分割的多方向自然场景文本检测方法 | |
Zheng et al. | Transformer-based hierarchical dynamic decoders for salient object detection | |
CN117152438A (zh) | 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法 | |
CN113313127B (zh) | 文本图像识别方法、装置、计算机设备和存储介质 | |
CN111583352B (zh) | 一种用于移动终端的风格化图标智能生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |