CN111027575B - 一种自注意对抗学习的半监督语义分割方法 - Google Patents
一种自注意对抗学习的半监督语义分割方法 Download PDFInfo
- Publication number
- CN111027575B CN111027575B CN201911278533.5A CN201911278533A CN111027575B CN 111027575 B CN111027575 B CN 111027575B CN 201911278533 A CN201911278533 A CN 201911278533A CN 111027575 B CN111027575 B CN 111027575B
- Authority
- CN
- China
- Prior art keywords
- feature map
- layer
- segmentation
- self
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012795 verification Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 60
- 238000005070 sampling Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 13
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 12
- 101150064138 MAP1 gene Proteins 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000003042 antagnostic effect Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000009021 linear effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种自注意对抗学习的半监督语义分割方法,包括如下步骤:1)获取训练集和验证集,对训练集预处理;2)构建自注意半监督语义分割的对抗网络;3)用自注意半监督语义分割的对抗网络对训练集进行训练,得到分割预测模型;4)利用验证集对分割预测模型进行验证,得到最终分割的结果。这种方法生成的分割模型具有更强的可扩展性,生成图像时可协调好每一个位置与远端的细节,而且训练时计算量少且易于集成到现有实现中。
Description
技术领域
本发明涉及计算机视觉技术,具体是一种自注意对抗学习的半监督语义分割方法。
背景技术
语义分割是计算机视觉中最重要也是最有趣的任务之一,近年来,卷积神经网络(Convolutional Neural Networks,简称CNN)的发展有力的推动了语义分割取得了重大进展,现实生活中使用语义分割需要大量的对象类和每个类的标记数据,应用于自动驾驶和图像编辑,然而,这种标记工作的准确性和效率十分昂贵,为解决这个问题,通过将半/弱监督方法应用于语义分割中,使语义分割模型具有更强的可扩展性,然而,当前弱监督分割方法相对于完全监督分割产生较差的结果。
随着生成对抗网络的出现,对抗学习开始应用于一些半/弱监督的语义分割方法中,这些方法取得了显著的进展,一个典型的对抗网络由两个子网络组成,即生成器和判别器,这两个子网络在训练过程中进行最小-最大博弈,生成器和判别器的互相博弈学习产生很好的输出。在此背景下,将分割网络的输出在空间上尽可能地靠近ground truth标签映射,然而,基于深度卷积网络的对抗网络依赖于卷积来对不同图像区域的依赖性进行建模,由于卷积运算符具有局部感受域,因此只能在经过多个卷积层之后处理长距离依赖性,这可能会阻止学习远程依赖性,优化算法可能无法发现仔细协调多个层以捕获这些依赖性的参数值,增加卷积核的大小可以增加网络的表示能力,但这样同时也会使通过使用局部卷积结构获得的计算和统计效率有所损失,并且对抗网络训练中的一个持续挑战是鉴别器的性能控制,在高维空间的训练过程中,由鉴别器进行的密度比估计通常是不准确且不稳定的,当模型分布的支持与目标分布的支持不同时,存在一个鉴别器,可以很好地将模型分布与目标区分开来,在这种情况下,一旦产生这样的鉴别器,生成器的训练就完全停止了,这促使我们对鉴别器的选择引入某种形式的限制。
发明内容
本发明的目的是针对现有技术的不足,而提供一种自注意对抗学习的半监督语义分割方法。这种方法生成的分割模型具有更强的可扩展性,生成图像时可协调好每一个位置与远端的细节,而且训练时计算量少且易于集成到现有实现中。
实现本发明目的的技术方案是:
一种自注意对抗学习的半监督语义分割方法,包括如下步骤:
1)获取训练集和验证集,对训练集预处理:将已知的语义分割数据集Pascal Voc2012和Cityscapes中的图像分别分成训练集和验证集,并对训练集的图像进行预处理,其中数据集中的一部分图像带标记,其余图像不带标记;
2)构建自注意半监督语义分割的对抗网络:对抗网络由分割网络G和鉴别器D组成,其中
分割网络是任意为语义分割设计的网络,如FCN、DeepLab和膨胀网,去掉分割网络的最后一个卷积层,将分割网络最后两个卷积层的步长由2修改为1,使输出特征图的分辨率达到输入图像大小的1/8,然后分别在第四卷积层和第五卷积层中应用扩展卷积,第四卷积层和第五卷积层的步长分别为2和4,在分割网络的第五卷积层使用Atrous空间金字塔池方法,即得到最终的分割网络:64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2,给定一个H×W×3维的输入图像,采用一个上采样层和softmax输出层来匹配输入图像的大小,然后分割网络输出一个大小为H×W×C的类概率图,其中C为语义类别的个数,
分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同,将第三卷积层和第五卷积层中的特征图X∈RC×H×W作为输入,并且第三卷积层和第五卷积层每层各生成两个特征图,即Q、K∈RC×H×W,Q为查询,即从特征图中输入一个像素点,查询到特征图上所有像素点对这一点的影响,K代表字典中的键,相当于所查询的数据库,将Q和K进行转置后执行矩阵乘法,以softmax层来计算注意力图S∈RN×N,N=H×W是像素数:
其中,i为特征图的行数,j为特征图的列数,通过公式(1)得到针对Q的特征图中的某一个位置,计算出特征图K中的所有位置对特征图Q的影响,为学习到更多参数,对特征图X多加了一层卷积映射得到新的特征图V∈RC×H×W,将S和V进行转置后执行矩阵乘法,然后将S和V的相乘结果乘以比例参数α,最后第一自注意力模块和第二自注意力模块逐渐学习到了将注意力加权过的特征图加在特征图X上,得到特征图O:
特征图O为所有位置上的特征与原始特征的加权和,
鉴别器使用全卷积神经网络,鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图In作为输入,最后输出H×W×1的置信图,鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成,步长为2,最后,应用一个上采样层和softmax输出层来匹配输入图像的大小,然后在鉴别器的前四个卷积层上均使用谱归一化,让鉴别器的映射函数满足Lipschitz约束;
3)用自注意半监督语义分割的对抗网络对训练集进行训练,得到分割预测模型;
4)利用验证集对分割预测模型进行验证,得到最终分割的结果。
步骤1)中所述的预处理过程如下:
先对图像进行固定大小的随机裁剪,再将裁剪后的图像进行随机水平翻转和亮度变换,后将翻转后的图像进行归一化。
步骤3)中所述的训练,包括如下步骤:
步骤1、将带标记图像经过鉴别器5000次的迭代训练,然后对分割网络和鉴别器进行联合更新;
步骤2、对训练集中的图像进行随机抽样训练,使用带标记的图像时,分割网络既受带标记图像的标准交叉熵损失Lce的监督,又受带鉴别器的对抗损失Ladv的监督;
步骤3、将未标记图像送入分割网络的64维的1/2倍下采样层中提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图1;
步骤4、将特征图1送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图1的感受野,来获取卷积运算后特征图1的最大池化特征,得到缩小4倍的下采样特征图2;
步骤5、将特征图2送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图2的感受野,来获取积运算后特征图2的最大池化特征,得到缩小8倍的下采样特征图3;
步骤6、将特征图3送入第一个自注意力模块捕获特征图3的位置细节,获取特征图3的全局几何特征图4;
步骤7、将特征图4送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图4的感受野,来获取卷积运算后特征图4的最大池化特征,得到缩小16倍的下采样特征图5;
步骤8、将特征图5送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图5的感受野,来获取卷积运算后特征图5的最大池化特征,得到缩小32倍的下采样特征图6;
步骤9、将特征图6送入第二个自注意力模块捕获特征图6的位置细节,获取特征图6的全局几何特征图7;
步骤10、将特征图7应用一个上采样层和softmax输出来匹配输入图像的大小,从而得到未标记图像的类概率图;
步骤11、将未标记图像的类概率图送入鉴别器进行分割预测,计算出置信图;
步骤12、将置信图作为监控信号,采用自学习的方法训练具有掩蔽交叉熵损失Lsemi的分割网络,该置信图表示预测的分割区域的质量,并使得分割网络在训练过程中可信任;
步骤13、重复步骤1-步骤12的步骤20000次后结束训练,得到分割预测模型。
步骤4)中所述的利用验证集对分割预测模型进行验证,其中验证过程只使用分割网络,验证过程如下:
step1、将验证集中的未标记图像送入分割网络64维的1/2倍下采样层提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图8;
step 2、将特征图8送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图8的感受野,来获取特征图8的最大池化特征,得到缩小4倍的下采样特征图9;
step 3、将特征图9送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图9的感受野,来获取特征图9的最大池化特征,得到缩小8倍的下采样特征图10;
step 4、将特征图10送入第一个自注意力模块捕获特征位置的细节,获取特征图10的全局几何特征图11;
step 5、将特征图11送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图11的感受野,来获取特征图11的最大池化特征,得到缩小16倍的下采样特征图12;
step 6、将特征图12送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图12的感受野,来获取特征图12的最大池化特征,得到缩小32倍的下采样特征图13;
step 7、将特征图13送入第二个自注意力模块捕获特征位置的细节,获取特征图13的全局几何特征图14;
step 8、将特征图14应用一个上采样层和softmax输出来匹配验证集中的未标记输入图像的大小,输出一个分割图15;
step 9、通过平均交并比函数运算来计算分割图15的分割精度,然后同时加入第一个自注意力模块和第二个自注意力模块再谱归一化(Spectral Normalization,简称SN),得到最终的分割结果。
这种方法生成的分割模型具有更强的可扩展性,生成图像时可协调好每一个位置与远端的细节,而且训练时计算量少且易于集成到现有实现中。
附图说明
图1为实施例的结构示意图;
图2为实施例中第一自注意力模块的结构示意图;
图3为实施例的分割结果示意图。
图中,image是原始图像,GT是手工标注的标签图像,AdvSemiSeg是现有方法的分割结果图像,其余图像为实施例的分割结果图像。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
一种自注意对抗学习的半监督语义分割方法,包括如下步骤:
1)获取训练集和验证集,对训练集预处理:将已知的语义分割数据集Pascal Voc2012和Cityscapes中的图像分别分成训练集和验证集,并对训练集的图像进行预处理,预处理过程为:先对图像进行固定大小的随机裁剪,再将裁剪后的图像进行随机水平翻转和亮度变换,然后将翻转后的图像进行归一化,数据集中的一部分图像带标记,其余图像不带标记,
PASCAL VOC 2012数据集包含20个常见对象类,共有12031张图像,利用带注释的图像分割边界数据集获取12031张图像中的10582张图像作为训练集,剩余的1449张图像作为验证集,
Cityscapes数据集包含50个驾驶场景视频,从中提取2975张图像作为训练集,1525张图像作为验证集,并分别用19个类对提取的所有图像进行了注释,用于训练和验证。
2)构建自注意半监督语义分割的对抗网络:如图1所示,对抗网络由分割网络G和鉴别器D组成,其中
本例分割网络G采用DeepLab-v2框架,去掉分割网络的最后一个卷积层,将分割网络最后两个卷积层的步长由2修改为1,使输出特征图的分辨率达到输入图像大小的1/8,然后分别在第四卷积层和第五卷积层中应用扩展卷积,第四卷积层和第五卷积层的步长分别为2和4,在分割网络的第五卷积层使用Atrous空间金字塔池方法,即得到最终的分割网络:64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2,给定一个H×W×3维的输入图像,采用一个上采样层和softmax输出层来匹配输入图像的大小,然后分割网络输出一个大小为H×W×C的类概率图,其中C为语义类别的个数,其中第一自注意力模型和第二自注意力模型能够对图像区域的远程、多级依赖关系进行建模,并使分割网络绘制图像,第一自注意力模型和第二自注意力模型对特征图像素每个位置的精细细节与图像的远处部分中的精细细节进行精心协调,
如图2所示,分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同,将第三卷积层和第五卷积层中的特征图X∈RC×H×W作为输入,并且第三卷积层和第五卷积层每层各生成两个特征图,即Q、K∈RC×H×W,Q为查询,即从特征图中输入一个像素点,查询到特征图上所有像素点对这一点的影响,K代表字典中的键,相当于所查询的数据库,将Q和K进行转置后执行矩阵乘法,以softmax层来计算注意力图S∈RN×N,N=H×W是像素数:
其中,i为特征图的行数,j为特征图的列数,通过公式(1)得到针对Q的特征图中的某一个位置,计算出特征图K中的所有位置对特征图Q的影响,为学习到更多参数,对特征图X多加了一层卷积映射得到新的特征图V∈RC×H×W,将S和V进行转置后执行矩阵乘法,然后将S和V的相乘结果乘以比例参数α,最后第一自注意力模块和第二自注意力模块逐渐学习到了将注意力加权过的特征图加在特征图X上,得到特征图O:
特征图O为所有位置上的特征与原始特征的加权和,
鉴别器使用全卷积神经网络,鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图In作为输入,最后输出H×W×1的置信图,鉴别器输出映射的每个像素p表示该像素是来自步骤1)中数据集带标记的图像即p=1采样还是来自分割网络即p=0,鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成,步长为2,除最后一层外,每个卷积层后面都有一个参数为0.2的Leaky-ReLU,为将模型转化为一个完全卷积的网络,在最后一层增加一个上采样层,将输出缩放到输入映射的大小,最后,应用一个上采样层和softmax输出层来匹配输入图像的大小,然后在鉴别器的前四个卷积层上均使用谱归一化,谱归一化后鉴别器的最优的形式是:
其中qdata为数据分布,pG为要通过对抗性最小-最大优化学习的分割网络的分布,公式(3)没有边界或者无法计算时,需要一定的机制来限定f(x)的导数,
省略鉴别器各个层加上的biase,对于鉴别器的f函数利用一致性有不等式:
其中,σ(W)表示的是W的二范式,利用性质线性,对于任意系数β有||βA||=|β|||A||,那么可以得出f的上界为1,
对于矩阵W的谱归一化:
公式(5)中的每个W代入式(6),如果鉴别器的每层权重W都进行谱归一化,那么将鉴别器看做一个函数隐射f,即将Lipschitz范数约束在1以下,这样就达到了鉴别器的映射函数满足Lipschitz约束的效果,对于鉴别器映射输出的每个像素p,若是来自分割网络则p=0,来自步骤1)中数据集带标记的图像则p=1;
3)用自注意半监督语义分割的对抗网络对训练集进行训练,训练过程如下:
步骤1、将带标记图像经过鉴别器5000次的迭代训练,然后对分割网络和鉴别器进行联合更新;
步骤2、对训练集中部分标记和未标记的图像进行随机抽样训练,使用带标记的图像时,分割网络既受带标记图像的标准交叉熵损失Lce的监督,又受带鉴别器的对抗损失Ladv的监督;
步骤3、将未标记图像送入分割网络的64维的1/2倍下采样层中提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图1;
步骤4、将特征图1送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图1的感受野,来获取卷积运算后特征图1的最大池化特征,得到缩小4倍的下采样特征图2;
步骤5、将特征图2送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图2的感受野,来获取积运算后特征图2的最大池化特征,得到缩小8倍的下采样特征图3;
步骤6、将特征图3送入第一个自注意力模块捕获特征图3的位置细节,获取特征图3的全局几何特征图4;
步骤7、将特征图4送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图4的感受野,来获取卷积运算后特征图4的最大池化特征,得到缩小16倍的下采样特征图5;
步骤8、将特征图5送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图5的感受野,来获取卷积运算后特征图5的最大池化特征,得到缩小32倍的下采样特征图6;
步骤9、将特征图6送入第二个自注意力模块捕获特征图6的位置细节,获取特征图6的全局几何特征图7;
步骤10、将特征图7应用一个上采样层和softmax输出来匹配输入图像的大小,从而得到未标记图像的类概率图;
步骤11、将未标记图像的类概率图送入鉴别器进行分割预测,计算出置信图;
步骤12、将置信图作为监控信号,采用自学习的方法训练具有掩蔽交叉熵损失Lsemi的分割网络,该置信度图表示预测的分割区域的质量,并使得分割网络在训练过程中可信任;
步骤13、重复步骤1-步骤12的步骤20000次后结束训练,得到分割预测模型;
4)利用验证集对分割预测模型进行验证,验证过程只使用分割网络,且验证过程中自动应用分割预测模型的参数,验证过程如下:
step1、将验证集中的未标记图像送入分割网络64维的1/2倍下采样层提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图8;
step 2、将特征图8送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图8的感受野,来获取特征图8的最大池化特征,得到缩小4倍的下采样特征图9;
step 3、将特征图9送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图9的感受野,来获取特征图9的最大池化特征,得到缩小8倍的下采样特征图10;
step 4、将特征图10送入第一个自注意力模块捕获特征位置的细节,获取特征图10的全局几何特征图11;
step 5、将特征图11送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图11的感受野,来获取特征图11的最大池化特征,得到缩小16倍的下采样特征图12;
step 6、将特征图12送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图12的感受野,来获取特征图12的最大池化特征,得到缩小32倍的下采样特征图13;
step 7、将特征图13送入第二个自注意力模块捕获特征位置的细节,获取特征图13的全局几何特征图14;
step 8、将特征图14应用一个上采样层和softmax输出来匹配验证集中的未标记输入图像的大小,输出一个分割图15;
step 9、通过平均交并比函数(mean cross-over-union,mean IU)运算来计算分割图15的分割精度,其中Pascal Voc 2012数据集和Cityscapes数据集的计算结果分别如表1和表2所示,
表1
表2
然后加入第一自注意力模块和第二自注意力模块再谱归一化,得到最终的分割结果。
将最终的分割结果与现有的方法得到的分割结果进行对比,本例方法得到的最终分割结果精度比现有的方法得到的分割结果得到较大提升,如图3所示。
Claims (4)
1.一种自注意对抗学习的半监督语义分割方法,其特征在于,包括如下步骤:
1)获取训练集和验证集,对训练集预处理:将已知的语义分割数据集Pascal Voc 2012和Cityscapes中的图像分别分成训练集和验证集,并对训练集的图像进行预处理,其中数据集中的一部分图像带标记,其余图像不带标记;
2)构建自注意半监督语义分割的对抗网络:对抗网络由分割网络G和鉴别器D组成,其中分割网络是任意为语义分割的网络,去掉分割网络的最后一个卷积层,将分割网络最后两个卷积层的步长由2修改为1,使输出特征图的分辨率达到输入图像大小的1/8,然后分别在第四卷积层和第五卷积层中应用扩展卷积,第四卷积层和第五卷积层的步长分别为2和4,在分割网络的第五卷积层使用Atrous空间金字塔池方法,即得到最终的分割网络:64维的1/2倍下采样层即第一卷积层、128维的1/4倍下采样层即第二卷积层、256维的1/8倍下采样层即第三卷积层、第一个自注意力模块SA1、512维的1/16倍下采样层即第四卷积层、1028维的1/32倍下采样层即第五卷积层、第二个自注意力模块SA2,给定一个H×W×3维的输入图像,采用一个上采样层和softmax输出层来匹配输入图像的大小,然后分割网络输出一个大小为H×W×C的类概率图,其中C为语义类别的个数,
分割网络中的第一自注意力模块SA1与第二自注意力模块SA2的结构相同,将第三卷积层和第五卷积层中的特征图X∈RC×H×W作为输入,并且第三卷积层和第五卷积层各生成两个特征图,即Q、K∈RC×H×W,Q为查询,即从特征图中输入一个像素点,查询到特征图上所有像素点对这一点的影响,K代表字典中的键,相当于所查询的数据库,将Q和K进行转置后执行矩阵乘法,以softmax层来计算注意力图S∈RN×N,N=H×W是像素数:
其中,i为特征图的行数,j为特征图的列数,通过公式(1)得到针对Q的特征图中的某一个位置,计算出特征图K中的所有位置对特征图Q的影响,对特征图X多加了一层卷积映射得到新的特征图V∈RC×H×W,将S和V进行转置后执行矩阵乘法,然后将S和V的相乘结果乘以比例参数α,第一自注意力模块和第二自注意力模块逐渐学习到了将注意力加权过的特征图加在特征图X上,得到特征图O:
特征图O为所有位置上的特征与原始特征的加权和,
鉴别器使用全卷积神经网络,鉴别器以分割网络输出的H×W×C的类概率图或步骤1)中数据集带标记的图像获取类概率图In作为输入,然后输出H×W×1的置信图,鉴别器由5个4×4核卷积层和{64,128,256,512,1}通道组成,步长为2,最后应用一个上采样层和softmax输出层来匹配输入图像的大小,然后在鉴别器的前四个卷积层上均使用谱归一化,让鉴别器的映射函数满足Lipschitz约束;
3)用自注意半监督语义分割的对抗网络对训练集进行训练,得到分割预测模型;
4)利用验证集对分割预测模型进行验证,得到最终分割的结果。
2.根据权利要求1所述的自注意对抗学习的半监督语义分割方法,其特征在于,步骤1)中所述的预处理过程如下:
先对数据集中的图像进行固定大小的随机裁剪,再将裁剪后的图像进行随机水平翻转和亮度变换,后将翻转后的图像进行归一化。
3.根据权利要求1所述的自注意对抗学习的半监督语义分割方法,其特征在于,步骤3)中所述的训练,包括如下步骤:
步骤1、将带标记图像经过鉴别器5000次的迭代训练,然后对分割网络和鉴别器进行联合更新;
步骤2、对训练集中的图像进行随机抽样训练,使用带标记的图像时,分割网络既受带标记图像的标准交叉熵损失Lce的监督,又受带鉴别器的对抗损失Ladv的监督;
步骤3、将未标记图像送入分割网络的64维的1/2倍下采样层中提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图1;
步骤4、将特征图1送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图1的感受野,来获取卷积运算后特征图1的最大池化特征,得到缩小4倍的下采样特征图2;
步骤5、将特征图2送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图2的感受野,来获取积运算后特征图2的最大池化特征,得到缩小8倍的下采样特征图3;
步骤6、将特征图3送入第一个自注意力模块捕获特征图3的位置细节,获取特征图3的全局几何特征图4;
步骤7、将特征图4送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图4的感受野,来获取卷积运算后特征图4的最大池化特征,得到缩小16倍的下采样特征图5;
步骤8、将特征图5送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图5的感受野,来获取卷积运算后特征图5的最大池化特征,得到缩小32倍的下采样特征图6;
步骤9、将特征图6送入第二个自注意力模块捕获特征图6的位置细节,获取特征图6的全局几何特征图7;
步骤10、将特征图7应用一个上采样层和softmax输出来匹配输入图像的大小,从而得到未标记图像的类概率图;
步骤11、将未标记图像的类概率图送入鉴别器进行分割预测,计算出置信图;
步骤12、将置信图作为监控信号,采用自学习的方法训练具有掩蔽交叉熵损失Lsemi的分割网络,该置信图表示预测的分割区域的质量,并使得分割网络在训练过程中可信任;
步骤13、重复步骤1-步骤12的步骤20000次后结束训练,得到分割预测模型。
4.根据权利要求1所述的自注意对抗学习的半监督语义分割方法,其特征在于,步骤4)中所述的利用验证集对分割预测模型进行验证,其中验证过程只使用分割网络,验证过程如下:
step1、将验证集中的未标记图像送入分割网络64维的1/2倍下采样层提取图像的卷积特征,再将提取的卷积特征送入最大池化层提取图像的最大池化特征,得到缩小2倍的下采样特征图8;
step2、将特征图8送入128维的1/4倍下采样层进行卷积运算,并应用最大池化层来扩大特征图8的感受野,来获取特征图8的最大池化特征,得到缩小4倍的下采样特征图9;
step3、将特征图9送入256维的1/8倍下采样层进行卷积运算,并应用最大池化层来扩大特征图9的感受野,来获取特征图9的最大池化特征,得到缩小8倍的下采样特征图10;
step4、将特征图10送入第一个自注意力模块捕获特征位置的细节,获取特征图10的全局几何特征图11;
step5、将特征图11送入512维的1/16倍下采样层进行卷积运算,并应用最大池化层来扩大特征图11的感受野,来获取特征图11的最大池化特征,得到缩小16倍的下采样特征图12;
step6、将特征图12送入1028维的1/32倍下采样层进行卷积运算,并应用最大池化层来扩大特征图12的感受野,来获取特征图12的最大池化特征,得到缩小32倍的下采样特征图13;
step7、将特征图13送入第二个自注意力模块捕获特征位置的细节,获取特征图13的全局几何特征图14;
step8、将特征图14应用一个上采样层和softmax输出来匹配验证集中的未标记输入图像的大小,输出一个分割图15;
step9、通过平均交并比函数运算来计算分割图15的分割精度,然后同时加入第一个自注意力模块和第二个自注意力模块再谱归一化,得到最终的分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911278533.5A CN111027575B (zh) | 2019-12-13 | 2019-12-13 | 一种自注意对抗学习的半监督语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911278533.5A CN111027575B (zh) | 2019-12-13 | 2019-12-13 | 一种自注意对抗学习的半监督语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027575A CN111027575A (zh) | 2020-04-17 |
CN111027575B true CN111027575B (zh) | 2022-06-17 |
Family
ID=70206739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911278533.5A Expired - Fee Related CN111027575B (zh) | 2019-12-13 | 2019-12-13 | 一种自注意对抗学习的半监督语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027575B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678244B2 (en) | 2017-03-23 | 2020-06-09 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
SG11202103493QA (en) | 2018-10-11 | 2021-05-28 | Tesla Inc | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
CN111563468B (zh) * | 2020-05-13 | 2023-04-07 | 电子科技大学 | 一种基于神经网络注意力的驾驶员异常行为检测方法 |
CN111627080B (zh) * | 2020-05-20 | 2022-11-18 | 广西师范大学 | 基于卷积神经与条件生成对抗性网络的灰度图像上色方法 |
CN111666953B (zh) * | 2020-06-04 | 2022-07-01 | 电子科技大学 | 一种基于语义分割的潮汐带测绘方法及设备 |
CN111738922A (zh) * | 2020-06-19 | 2020-10-02 | 新希望六和股份有限公司 | 密度网络模型的训练方法、装置、计算机设备和存储介质 |
CN112132777B (zh) * | 2020-08-11 | 2024-06-18 | 浙江工业大学 | 一种基于多分辨率感知学习的中心静脉导管分割和尖端定位方法 |
CN112017192B (zh) * | 2020-08-13 | 2024-02-02 | 杭州师范大学 | 基于改进U-Net网络的腺体细胞图像分割方法及*** |
CN112132149B (zh) * | 2020-09-10 | 2023-09-05 | 武汉汉达瑞科技有限公司 | 一种遥感影像语义分割方法及装置 |
CN112132006B (zh) * | 2020-09-21 | 2022-08-26 | 西南交通大学 | 一种面向耕地保护的林地和建筑物智能提取方法 |
CN112270644B (zh) * | 2020-10-20 | 2024-05-28 | 饶金宝 | 基于空间特征变换和跨尺度特征集成的人脸超分辨方法 |
CN113096133A (zh) * | 2021-04-30 | 2021-07-09 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于注意力机制的语义分割网络的构建方法 |
CN113902758B (zh) * | 2021-10-14 | 2024-05-24 | 吉林大学 | 一种基于双路径胶囊网络的脑部mr图像分割方法 |
CN116129117B (zh) * | 2023-02-03 | 2023-07-14 | 中国人民解放军海军工程大学 | 基于多头注意力的声呐小目标半监督语义分割方法及*** |
CN116703905B (zh) * | 2023-08-04 | 2023-11-24 | 聚时科技(深圳)有限公司 | 空料检测方法、装置、电子设备和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549895A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗网络的半监督语义分割方法 |
CN109615632A (zh) * | 2018-11-09 | 2019-04-12 | 广东技术师范学院 | 一种基于半监督条件生成式对抗网络的眼底图视盘和视杯分割方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110443815A (zh) * | 2019-08-07 | 2019-11-12 | 中山大学 | 结合生成对抗网络的半监督视网膜oct图像层分割方法 |
-
2019
- 2019-12-13 CN CN201911278533.5A patent/CN111027575B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549895A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗网络的半监督语义分割方法 |
CN109615632A (zh) * | 2018-11-09 | 2019-04-12 | 广东技术师范学院 | 一种基于半监督条件生成式对抗网络的眼底图视盘和视杯分割方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110443815A (zh) * | 2019-08-07 | 2019-11-12 | 中山大学 | 结合生成对抗网络的半监督视网膜oct图像层分割方法 |
Non-Patent Citations (4)
Title |
---|
Adversarial learning for semi-supervised semantic segmentation;Wei Chih Hung 等;《29th British Machine Vision Conference, BMVC 2018》;20180906;1-12 * |
Semi-Supervised Deep Learning Using Pseudo Labels for Hyperspectral Image Classification;Hao Wu 等;《IEEE Transactions on Image Processing》;20180331;第27卷(第3期);1259-1270 * |
基于生成对抗网络的语义分割方法研究;潘国峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815(第8期);I138-1014 * |
基于编码器-解码器的半监督图像语义分割;刘贝贝 等;《计算机***应用 》;20191115;第28卷(第11期);182-187 * |
Also Published As
Publication number | Publication date |
---|---|
CN111027575A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027575B (zh) | 一种自注意对抗学习的半监督语义分割方法 | |
CN111462126B (zh) | 一种基于边缘增强的语义图像分割方法及*** | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别***及方法 | |
CN109359725B (zh) | 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质 | |
CN109086405B (zh) | 基于显著性和卷积神经网络的遥感图像检索方法及*** | |
He et al. | A dual global–local attention network for hyperspectral band selection | |
WO2020036124A1 (ja) | 物体認識装置、物体認識学習装置、方法、及びプログラム | |
CN110929080A (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN110348531B (zh) | 具有分辨率适应性的深度卷积神经网络构建方法及应用 | |
Tomită et al. | Convsequential-slam: A sequence-based, training-less visual place recognition technique for changing environments | |
WO2019230666A1 (ja) | 特徴量抽出装置、方法、及びプログラム | |
CN111984817A (zh) | 一种基于自注意力机制加权的细粒度图像检索方法 | |
CN113642445A (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
CN112597919A (zh) | 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法 | |
CN116416441A (zh) | 基于多层次变分自动编码器的高光谱图像特征提取方法 | |
CN116503399A (zh) | 基于yolo-afps的绝缘子污闪检测方法 | |
Gao et al. | SHREC’15 Track: 3D object retrieval with multimodal views | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN113536986B (zh) | 一种基于代表特征的遥感图像中的密集目标检测方法 | |
CN107193979B (zh) | 一种同源图片检索的方法 | |
CN111597367B (zh) | 基于视图和哈希算法的三维模型检索方法 | |
CN116703996A (zh) | 基于实例级自适应深度估计的单目三维目标检测算法 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN113807400B (zh) | 一种基于对抗攻击的高光谱图像分类方法、***和设备 | |
CN110580503A (zh) | 一种基于ai的双光谱目标自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220617 |