CN111008979A - 一种鲁棒的夜晚图像语义分割方法 - Google Patents

一种鲁棒的夜晚图像语义分割方法 Download PDF

Info

Publication number
CN111008979A
CN111008979A CN201911250296.1A CN201911250296A CN111008979A CN 111008979 A CN111008979 A CN 111008979A CN 201911250296 A CN201911250296 A CN 201911250296A CN 111008979 A CN111008979 A CN 111008979A
Authority
CN
China
Prior art keywords
semantic segmentation
night
data set
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911250296.1A
Other languages
English (en)
Inventor
孙磊
杨恺伦
李华兵
汪凯巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Lingxiang Technology Co ltd
Original Assignee
Hangzhou Lingxiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Lingxiang Technology Co ltd filed Critical Hangzhou Lingxiang Technology Co ltd
Priority to CN201911250296.1A priority Critical patent/CN111008979A/zh
Publication of CN111008979A publication Critical patent/CN111008979A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种夜晚语义分割的鲁棒性增强方法。该方法通过训练一个对抗生成网络,将含有语义分割标签的正常光照条件下的道路街景数据集中的部分图像转化为人造夜晚道路街景图像,用得到的含有部分夜晚图像的道路街景数据集训练语义分割网络模型,该模型对于夜晚图像语义分割预测具有较强的鲁棒性。该方法具有实时性高,价格低廉,不需要标注大量夜晚数据集的优点。

Description

一种鲁棒的夜晚图像语义分割方法
技术领域
本发明属于模式识别技术、图像处理技术、计算机视觉技术、深度学习技术领域,涉及一种鲁棒的夜晚图像语义分割方法。
背景技术
自动驾驶在智能交通行业的重要地位,使得图像语义分割正逐渐成为计算机视觉领域的研究热点,语义分割可以实现对交通场景的像素级分类标注。由于深度卷积神经网络的强大特征表征能力,基于深度卷积神经网络的语义分割方法获得了巨大进步。
目前,绝大多数针对道路场景的语义分割数据集都是在晴朗的天气下采集的,由这些数据集训练得到的语义分割模型在正常光照条件下表现良好,但当面对夜晚道路场景图像时,由于光照条件差,杂散光多,图像提取的特征与正常光照条件下提取的特征相差较大,这些方法的精度大大降低,不能满足自动驾驶的要求。为了解决这一问题,我们急需提高语义分割在夜晚的鲁棒性
发明内容
本发明的目的在于:为了解决现有语义分割技术面对夜晚图像精确度较低的问题,本发明提供一种基于生成对抗网络的鲁棒的夜晚图像语义分割方法。
本发明的目的是通过以下技术方案实现的:将部分部分含有语义分割标签的数据集中的白天图像通过对抗生成网络模型转化为人造夜晚图像,产生一个有一定比例人造夜晚图像的数据集;用这个数据训练语义分割神经网络;将实际采集的夜晚图像通过上述训练得到的语义分割神经网络模型就可以得到更加精确的物体类别预测结果。具体地,包括以下步骤:
步骤1:获取用于训练生成对抗网络模型的数据集,所述数据集包含同等数量夜晚道路场景图像和白天道路场景图像;
步骤2:构建生成对抗网络模型,模型包括一对生成器和判别器;
步骤3:将步骤1获取的数据集输入生成对抗网络进行训练,得到夜晚图像转化为白天图像和白天图像转化为夜晚图像的两个生成器;
步骤4:获取用于训练语义分割网络模型的含有语义分割标签的数据集;
步骤5:利用步骤3得到的白天图像转化为夜晚图像的生成器,将含有语义分割标签的数据集中部分的白天图像转化为人造夜晚图像得到含有人造夜晚图像的数据集;
步骤6:采用步骤5得到的含有人造夜晚图像的数据集输入语义分割网络模型进行训练,得到鲁棒的夜晚图像语义分割模型;
步骤7:将实际采集的夜晚图像输入到步骤6得到的语义分割模型即能实现鲁棒的夜晚图像语义分割。
进一步地,所述语义分割网络模型为ERF-PSPNet语义分割网络模型,该模型由编码器和解码器组成,其中编码器为残差分解卷积网络,包括分解卷积层Non-bottleneck-1D,减少运算量同时保持精度,解码器为空间金字塔池化网络,每一层网络如下表所示:
模块 输出通道数 输出分辨率
1 下采样模块 3 320×240
2 下采样模块 16 160×120
3-7 5×Non-bt-1D 64 80×60
8 下采样模块 128 40×30
9 Non-bt-1D(dilated 2) 128 40×30
10 Non-bt-1D(dilated 4) 128 40×30
11 Non-bt-1D(dilated 8) 128 40×30
12 Non-bt-1D(dilated 16) 128 40×30
13 Non-bt-1D(dilated 2) 128 40×30
14 Non-bt-1D(dilated 4) 128 40×30
15 Non-bt-1D(dilated 8) 128 40×30
16 Non-bt-1D(dilated 16) 128 40×30
17 Non-bt-1D(dilated 2) 128 40×30
18a 17层特征图 128 40×30
18b 池化、卷积 32 40×30
18c 池化、卷积 32 20×15
18d 池化、卷积 32 10×8
18e 池化、卷积 32 5×4
19 卷积 类别数 40×30
20 上采样 类别数 640×480
ERF-PSPNet可以将RGB输入图像逐像素分类,产生相对应的标签图。
进一步地,所述用于训练生成对抗网络模型的数据集为自动驾驶数据集,包括cityscapes,bdd。
进一步地,所述生成对抗网络模型为CycleGAN。
进一步地,CycleGAN训练过程如下:
将夜晚道路场景图像和白天道路场景图像分别输入CycleGAN的两个生成器进行训练,其中,200个epoch,学习率设置为0.0002,随机裁剪尺寸设置为256×256。
进一步地,所述步骤5中,含有人造夜晚图像的数据集中,人造夜晚图像的比例为30%。
进一步地,所述步骤6中,语义分割模型采用的损失函数是focal loss,其公式如下:
loss(p)=-(1-p)γlog p
其中,p为判定该像素为某类别的概率,γ为调制系数,本发明中设定γ=2。
本发明相对于其他增强语义分割鲁棒性方法的优点在于:
不需要大量标签数据集,可以节省大量人力物力。仅仅通过生成对抗网络生成人造夜晚数据集,通过混合人造夜晚图像和白天图像输入语义分割网络进行训练,提高其鲁棒性;
实时性高。由于训练得到的模型在推理阶段不需要加额外操作处理,没有额外增加运算量,故语义分割模型保持了原本的实时性,支持高实时性的夜晚道路信息预测。
价格低廉。由于方法都是基于算法层面,不需要额外使用红外相机或雷达等其他传感器,相比于其他夜晚环境感知方法,不需要额外硬件成本。
预测准确率高。本方法训练得到的语义分割网络模型对于夜晚街景图像的信息预测准确率高于其他类似方法,而且能都实时运行。
附图说明
图1为本发明的流程图;
图2为Non-bottleneck-1D模块图;
图3为语义分割网络ERF-PSPNet模型图;
图4为生成对抗网络中ResnetBlock模型图;
图5为实际采集的夜晚图像;
图6为未采用提出的方法语义分割网络预测图;
图7为采用提出的方法语义分割预测图;
图8为语义分割真值标签图;
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施与和附图,对本发明作进一步详细说明。
本方法涉及一种增强夜晚图像语义分割鲁棒性增强的方法,该方法的核心在于利用对抗生成网络对用于语义分割训练的数据集的预处理,图1展示了方案框架,具体实施步骤如下:
步骤1:获取用于训练生成对抗网络的数据集,该数据集必须包含一定数量的夜晚图像,该数据集可以采用自动驾驶数据集,如cityscapes,bdd等,选出其中分别为夜晚道路场景图像和白天道路场景图像的等量图片,构成用于训练生成对抗网络的数据集;
步骤2:构建非配对生成对抗网络模型,模型包括一对生成器和判别器;
步骤3:将步骤1获取得到的数据集输入生成对抗网络进行训练,得到夜晚图像转化为白天图像和白天图像转化为夜晚图像的两个生成器;本实施例中,采用的生成对抗网络模型为CycleGAN,具体地,其中生成器的模型结构为:
模块 输出通道数
1 7×7卷积层 64
2 ReLU激活函数 64
3 3×3卷积层 128
4 BatchNorm层 128
5 ReLU激活函数 128
6 3×3卷积层 256
7 BatchNorm层 256
8 ReLU激活函数 256
9~17 9×ResnetBlock 256
18 3×3反卷积层 128
19 BatchNorm层 128
20 ReLU激活函数 128
21 3×3反卷积层 64
22 BatchNorm层 64
23 ReLU激活函数 64
24 7×7卷积层 3
25 Tanh激活函数 3
其中ResnetBlock结构如图4所示。
CycleGAN训练时,将夜晚道路场景图像和白天道路场景图像分别输入CycleGAN的两个生成器进行训练,其中,200个epoch,学习率设置为0.0002,随机裁剪尺寸设置为256×256。最后得到夜晚图像转化为白天图像和白天图像转化为夜晚图像的两个生成器;
步骤4:获取用于训练语义分割网络模型的含有语义分割标签的数据集;
步骤5:利用步骤3得到的训练好的生成对抗网络中白天图像转化为夜晚图像的生成器,把提供给语义分割网络模型的数据集中部分白天图像转化为人造夜晚图像得到含有人造夜晚图像的数据集,经测试证明,含有人造夜晚图像的数据集中,人造夜晚图像的比例为30%时,其语义分割结果最为接近真值,本实施例中,采用的比例即为30%;
步骤6:采用步骤5得到的含有部分人造夜晚图像的语义分割数据集输入语义分割网络模型进行训练,该语义分割网络可以是SegNet(参考论文:Badrinarayanan,V.,Kendall,A.,and Cipolla,R.,“Segnet:Adeep convolutional encoder-decoderarchitecture for image segmentation,”IEEE transactions on pattern analysisand machine intelligence 39(12),2481–2495(2017)),ERFNet(参考论文:Romera,E.,Alvarez,J.M.,Bergasa,L.M.,and Arroyo,R.,“Erfnet:Efficient residual factorizedconvnet for real-time semantic segmentation,”IEEE Transactions on IntelligentTransportation Systems 19(1),263–272(2017)),Enet(参考论文:Paszke,A.,Chaurasia,A.,Kim,S.,and Culurciello,E.,“Enet:Adeep neural networkarchitecture for real-time semantic segmentation,”arXiv preprint arXiv:1606.02147(2016))、ERF-PSPNet、Swiftnet(参考论文:Orsic M,Kreso I,Bevandic P,etal.In Defense of Pre-trained ImageNet Architectures for Real-time SemanticSegmentation of Road-driving Images[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019:12607-12616.)等实时语义分割网络;本实施例中,采用ERF-PSPNet,该模型由编码器和解码器组成,如图3所示,其中编码器为残差分解卷积网络,包括分解卷积层Non-bottleneck-1D,解码器为空间金字塔池化网络,ERF-PSPNet语义分割网络模型每一层网络如下表所示:
模块 输出通道数 输出分辨率
1 下采样模块 3 320×240
2 下采样模块 16 160×120
3-7 5×Non-bt-1D 64 80×60
8 下采样模块 128 40×30
9 Non-bt-1D(dilated 2) 128 40×30
10 Non-bt-1D(dilated 4) 128 40×30
11 Non-bt-1D(dilated 8) 128 40×30
12 Non-bt-1D(dilated 16) 128 40×30
13 Non-bt-1D(dilated 2) 128 40×30
14 Non-bt-1D(dilated 4) 128 40×30
15 Non-bt-1D(dilated 8) 128 40×30
16 Non-bt-1D(dilated 16) 128 40×30
17 Non-bt-1D(dilated 2) 128 40×30
18a 17层特征图 128 40×30
18b 池化、卷积 32 40×30
18c 池化、卷积 32 20×15
18d 池化、卷积 32 10×8
18e 池化、卷积 32 5×4
19 卷积 类别数 40×30
20 上采样 类别数 640×480
采用的损失函数是focal loss,其公式如下:
loss(p)=-(1-p)γlog p
其中,p为判定该像素为某类别的概率,γ为调制系数,本实施例中设定γ=2。
步骤7:将实际采集的夜晚图像输入至步骤6训练得到的语义分割模型中,进行分类预测,ERF-PSPNet可以将RGB输入图像逐像素分类,产生相对应的标签图,即得到分类预测结果。
图5为实际采集的夜晚图像,图8为该夜晚图像的分类真值,图6为未使用本发明提出的方法的模型对夜晚图像语义分割图像分类预测结果,图7为使用本发明方法的模型对图像语义分割图像分类预测,可以看出,通过本发明方法预测的分类结果与实际夜晚图像的分类真值更为接近,预测准确率高,并且鲁棒性得到提高。

Claims (7)

1.一种鲁棒的夜晚图像语义分割方法,其特征在于,该方法为:将部分含有语义分割标签的数据集中的白天图像通过对抗生成网络模型转化为人造夜晚图像,产生一个含有人造夜晚图像的数据集并将其用于训练语义分割神经网络模型;将实际采集的夜晚图像输入上述训练得到的语义分割神经网络模型即可得到夜晚图像语义分割预测结果。具体地,包括以下步骤:
步骤1:获取用于训练生成对抗网络模型的数据集,所述数据集包含同等数量夜晚道路场景图像和白天道路场景图像;
步骤2:构建生成对抗网络模型,模型包括一对生成器和判别器;
步骤3:将步骤1获取的数据集输入生成对抗网络进行训练,得到夜晚图像转化为白天图像和白天图像转化为夜晚图像的两个生成器;
步骤4:获取用于训练语义分割网络模型的含有语义分割标签的数据集;
步骤5:利用步骤3得到的白天图像转化为夜晚图像的生成器,将含有语义分割标签的数据集中部分的白天图像转化为人造夜晚图像得到含有人造夜晚图像的数据集;
步骤6:采用步骤5得到的含有人造夜晚图像的数据集输入语义分割网络模型进行训练,得到鲁棒的夜晚图像语义分割模型;
步骤7:将实际采集的夜晚图像输入到步骤6得到的语义分割模型即能实现鲁棒的夜晚图像语义分割。
2.根据权利要求1所述的方法,其特征在于,所述语义分割网络模型为ERF-PSPNet,该模型由编码器和解码器组成,其中编码器为残差分解卷积网络,包括分解卷积层Non-bottleneck-1D,解码器为空间金字塔池化网络,ERF-PSPNet语义分割网络模型每一层网络如下表所示:
Figure FDA0002308831070000011
Figure FDA0002308831070000021
3.根据权利要求1所述的方法,其特征在于,所述用于训练生成对抗网络模型的数据集为自动驾驶数据集,包括cityscapes,bdd等。
4.根据权利要求1所述的方法,其特征在于,所述生成对抗网络模型为CycleGAN。
5.根据权利要求4所述的方法,其特征在于,CycleGAN训练过程如下:
将夜晚道路场景图像和白天道路场景图像分别输入CycleGAN的两个生成器进行训练,其中,200个epoch,学习率设置为0.0002,随机裁剪尺寸设置为256×256。
6.根据权利要求1所述的方法,其特征在于,所述步骤5中,含有人造夜晚图像的数据集中,人造夜晚图像的比例为30%。
7.根据权利要求1所述的方法,其特征在于,所述步骤6中,语义分割模型采用的损失函数是focal loss,其公式如下:
loss(p)=-(1-p)γlog p
其中,p为判定该像素为某类别的概率,γ为调制系数。
CN201911250296.1A 2019-12-09 2019-12-09 一种鲁棒的夜晚图像语义分割方法 Withdrawn CN111008979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911250296.1A CN111008979A (zh) 2019-12-09 2019-12-09 一种鲁棒的夜晚图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911250296.1A CN111008979A (zh) 2019-12-09 2019-12-09 一种鲁棒的夜晚图像语义分割方法

Publications (1)

Publication Number Publication Date
CN111008979A true CN111008979A (zh) 2020-04-14

Family

ID=70114053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911250296.1A Withdrawn CN111008979A (zh) 2019-12-09 2019-12-09 一种鲁棒的夜晚图像语义分割方法

Country Status (1)

Country Link
CN (1) CN111008979A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111504331A (zh) * 2020-04-29 2020-08-07 杭州环峻科技有限公司 一种由粗到细的全景智能车辆定位方法和装置
CN112287938A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种文本分割方法、***、设备以及介质
CN112756742A (zh) * 2021-01-08 2021-05-07 南京理工大学 一种基于ERFNet网络的激光视觉焊缝跟踪***
CN113537228A (zh) * 2021-07-07 2021-10-22 中国电子科技集团公司第五十四研究所 一种基于深度特征的实时图像语义分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670409A (zh) * 2018-11-28 2019-04-23 浙江大学 一种语义棒状像素的场景表示***及方法
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670409A (zh) * 2018-11-28 2019-04-23 浙江大学 一种语义棒状像素的场景表示***及方法
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAILUN YANG等: "Unifying terrain awareness through real-time semantic segmentation" *
LEI SUN等: "See Clearer at Night: Towards Robust Nighttime Semantic Segmentation through Day-Night Image Conversion" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111504331A (zh) * 2020-04-29 2020-08-07 杭州环峻科技有限公司 一种由粗到细的全景智能车辆定位方法和装置
CN112287938A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种文本分割方法、***、设备以及介质
CN112287938B (zh) * 2020-10-29 2022-12-06 苏州浪潮智能科技有限公司 一种文本分割方法、***、设备以及介质
CN112756742A (zh) * 2021-01-08 2021-05-07 南京理工大学 一种基于ERFNet网络的激光视觉焊缝跟踪***
CN113537228A (zh) * 2021-07-07 2021-10-22 中国电子科技集团公司第五十四研究所 一种基于深度特征的实时图像语义分割方法
CN113537228B (zh) * 2021-07-07 2022-10-21 中国电子科技集团公司第五十四研究所 一种基于深度特征的实时图像语义分割方法

Similar Documents

Publication Publication Date Title
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN111008979A (zh) 一种鲁棒的夜晚图像语义分割方法
CN108334881B (zh) 一种基于深度学习的车牌识别方法
CN110147794A (zh) 一种基于深度学习的无人车室外场景实时分割方法
CN110728200A (zh) 一种基于深度学习的实时行人检测方法及***
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN111967313B (zh) 一种深度学习目标检测算法辅助的无人机图像标注方法
CN109509156B (zh) 一种基于生成对抗模型的图像去雾处理方法
CN108154102A (zh) 一种道路交通标志识别方法
CN109670555B (zh) 基于深度学习的实例级行人检测和行人重识别***
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN112800906A (zh) 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法
CN115331183A (zh) 改进YOLOv5s的红外目标检测方法
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与***
CN116385958A (zh) 一种用于电网巡检和监控的边缘智能检测方法
CN113011308A (zh) 一种引入注意力机制的行人检测方法
CN112084897A (zh) 一种gs-ssd的交通大场景车辆目标快速检测方法
CN115713546A (zh) 移动终端设备用的轻量化目标跟踪算法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN112164065B (zh) 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN113902753A (zh) 基于双通道和自注意力机制的图像语义分割方法及***
Aldabbagh et al. Classification of chili plant growth using deep learning
CN111353509B (zh) 一种视觉slam***的关键点提取器生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200414

WW01 Invention patent application withdrawn after publication