CN109446933B - 一种基于卷积神经网络的道路场景语义分割方法 - Google Patents

一种基于卷积神经网络的道路场景语义分割方法 Download PDF

Info

Publication number
CN109446933B
CN109446933B CN201811186863.7A CN201811186863A CN109446933B CN 109446933 B CN109446933 B CN 109446933B CN 201811186863 A CN201811186863 A CN 201811186863A CN 109446933 B CN109446933 B CN 109446933B
Authority
CN
China
Prior art keywords
layer
convolution
twenty
activation
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811186863.7A
Other languages
English (en)
Other versions
CN109446933A (zh
Inventor
周武杰
顾鹏笠
潘婷
吕思嘉
钱亚冠
向坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201811186863.7A priority Critical patent/CN109446933B/zh
Publication of CN109446933A publication Critical patent/CN109446933A/zh
Application granted granted Critical
Publication of CN109446933B publication Critical patent/CN109446933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明公开了一种基于卷积神经网络的道路场景语义分割方法,其在训练阶段,构建卷积神经网络,其隐层包括5个神经网络块、5个过渡用卷积层、5个跳跃反卷积块、4个级联层;使用原始的道路场景图像输入到卷积神经网络中进行训练,得到对应的12幅语义分割预测图;再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,得到预测语义分割图像;优点是提高了道路场景图像的语义分割效率和准确度。

Description

一种基于卷积神经网络的道路场景语义分割方法
技术领域
本发明涉及一种深度学习的语义分割方法,尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。
背景技术
智能交通行业的兴起,使得语义分割在智能交通***中有着越来越多的应用,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的道路场景语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法,其分割效率高,且分割准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0001826422280000021
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure BDA0001826422280000022
处理成的12幅独热编码图像构成的集合记为
Figure BDA0001826422280000023
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001826422280000031
表示
Figure BDA0001826422280000032
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸为2,P1中的每幅特征图的宽度为
Figure BDA0001826422280000033
高度为
Figure BDA0001826422280000034
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为
Figure BDA0001826422280000041
高度为
Figure BDA0001826422280000042
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为
Figure BDA0001826422280000043
高度为
Figure BDA0001826422280000044
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为
Figure BDA0001826422280000045
高度为
Figure BDA0001826422280000046
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为
Figure BDA0001826422280000051
高度为
Figure BDA0001826422280000052
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为
Figure BDA0001826422280000053
高度为
Figure BDA0001826422280000054
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为
Figure BDA0001826422280000055
高度为
Figure BDA0001826422280000056
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为
Figure BDA0001826422280000057
高度为
Figure BDA0001826422280000058
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为
Figure BDA0001826422280000061
高度为
Figure BDA0001826422280000062
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为
Figure BDA0001826422280000063
高度为
Figure BDA0001826422280000064
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为
Figure BDA0001826422280000065
高度为
Figure BDA0001826422280000066
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256,U1中的每幅特征图的宽度为
Figure BDA0001826422280000071
高度为
Figure BDA0001826422280000072
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为
Figure BDA0001826422280000073
高度为
Figure BDA0001826422280000074
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256,U2中的每幅特征图的宽度为
Figure BDA0001826422280000075
高度为
Figure BDA0001826422280000076
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为
Figure BDA0001826422280000081
高度为
Figure BDA0001826422280000082
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256,U3中的每幅特征图的宽度为
Figure BDA0001826422280000083
高度为
Figure BDA0001826422280000084
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为
Figure BDA0001826422280000091
高度为
Figure BDA0001826422280000092
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256,U4中的每幅特征图的宽度为
Figure BDA0001826422280000093
高度为
Figure BDA0001826422280000094
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H;
对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0001826422280000101
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0001826422280000102
Figure BDA0001826422280000103
之间的损失函数值记为
Figure BDA0001826422280000104
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0001826422280000105
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001826422280000106
的宽度,H'表示
Figure BDA0001826422280000107
的高度,
Figure BDA0001826422280000108
表示
Figure BDA0001826422280000109
中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将
Figure BDA00018264222800001010
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA0001826422280000111
对应的预测语义分割图像,记为
Figure BDA0001826422280000112
其中,
Figure BDA0001826422280000113
表示
Figure BDA0001826422280000114
中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_4中,
Figure BDA0001826422280000115
采用分类交叉熵获得。
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,预测得到道路场景图像对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时结合了过渡用卷积层和跳跃反卷积块的特点,因此能够比较准确地描述道路场景中各种分类目标,从而有效地提高了道路场景图像的语义分割精确度。
2)本发明方法采用过渡用卷积层,减少训练参数量;采用跳跃反卷积块,使得卷积神经网络能反复利用低层特征,减少了细节特征丢失,物体边缘能更好还原。
3)本发明方法在搭建卷积神经网络中的较深的卷积层中使用级联层(concatenation),重复利用低层特征,进而在训练集与测试集上都能得到较好效果。
附图说明
图1为本发明方法的总体实现框图;
图2a为第1幅原始的道路场景图像;
图2b为利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图3a为第2幅原始的道路场景图像;
图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图4a为第3幅原始的道路场景图像;
图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图5a为第4幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0001826422280000121
然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure BDA0001826422280000122
处理成的12幅独热编码图像构成的集合记为
Figure BDA0001826422280000123
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=480、H=360,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001826422280000131
表示
Figure BDA0001826422280000132
中坐标位置为(i,j)的像素点的像素值;在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块。
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个神经网络块,其由依次设置的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层、第一最大池化层(Maxpooling,Pool)组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、补零(padding)参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸(pool_size)为2,P1中的每幅特征图的宽度为
Figure BDA0001826422280000133
高度为
Figure BDA0001826422280000134
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为
Figure BDA0001826422280000141
高度为
Figure BDA0001826422280000142
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为
Figure BDA0001826422280000143
高度为
Figure BDA0001826422280000144
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为
Figure BDA0001826422280000145
高度为
Figure BDA0001826422280000146
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为
Figure BDA0001826422280000151
高度为
Figure BDA0001826422280000152
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为
Figure BDA0001826422280000153
高度为
Figure BDA0001826422280000154
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为
Figure BDA0001826422280000155
高度为
Figure BDA0001826422280000156
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为
Figure BDA0001826422280000157
高度为
Figure BDA0001826422280000158
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为
Figure BDA0001826422280000161
高度为
Figure BDA0001826422280000162
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为
Figure BDA0001826422280000163
高度为
Figure BDA0001826422280000164
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加(add)操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长(strides)为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为
Figure BDA0001826422280000171
高度为
Figure BDA0001826422280000172
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过现有的Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256(128+128=256),U1中的每幅特征图的宽度为
Figure BDA0001826422280000173
高度为
Figure BDA0001826422280000174
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加(add)操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为
Figure BDA0001826422280000175
高度为
Figure BDA0001826422280000176
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过现有的Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256(128+128=256),U2中的每幅特征图的宽度为
Figure BDA0001826422280000181
高度为
Figure BDA0001826422280000182
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加(add)操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为
Figure BDA0001826422280000183
高度为
Figure BDA0001826422280000184
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过现有的Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256(128+128=256),U3中的每幅特征图的宽度为
Figure BDA0001826422280000185
高度为
Figure BDA0001826422280000186
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加(add)操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为
Figure BDA0001826422280000191
高度为
Figure BDA0001826422280000192
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过现有的Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256(128+128=256),U4中的每幅特征图的宽度为
Figure BDA0001826422280000193
高度为
Figure BDA0001826422280000194
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加(add)操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H。
对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式(activation)为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0001826422280000201
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0001826422280000202
Figure BDA0001826422280000203
之间的损失函数值记为
Figure BDA0001826422280000204
Figure BDA0001826422280000205
采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0001826422280000211
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001826422280000212
的宽度,H'表示
Figure BDA0001826422280000213
的高度,
Figure BDA0001826422280000214
表示
Figure BDA0001826422280000215
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA0001826422280000216
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA0001826422280000217
对应的预测语义分割图像,记为
Figure BDA0001826422280000218
其中,
Figure BDA0001826422280000219
表示
Figure BDA00018264222800002110
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学***均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
Figure BDA0001826422280000221
图2a给出了第1幅原始的道路场景图像;图2b给出了利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图3a给出了第2幅原始的道路场景图像;图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了第3幅原始的道路场景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图5a给出了第4幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图2a和图2b,对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (2)

1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure FDA0001826422270000011
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure FDA0001826422270000012
处理成的12幅独热编码图像构成的集合记为
Figure FDA0001826422270000013
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure FDA0001826422270000014
表示
Figure FDA0001826422270000015
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸为2,P1中的每幅特征图的宽度为
Figure FDA0001826422270000021
高度为
Figure FDA0001826422270000022
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为
Figure FDA0001826422270000023
高度为
Figure FDA0001826422270000024
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为
Figure FDA0001826422270000025
高度为
Figure FDA0001826422270000026
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为
Figure FDA0001826422270000031
高度为
Figure FDA0001826422270000032
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为
Figure FDA0001826422270000033
高度为
Figure FDA0001826422270000034
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为
Figure FDA0001826422270000035
高度为
Figure FDA0001826422270000036
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出 128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为
Figure FDA0001826422270000041
高度为
Figure FDA0001826422270000042
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为
Figure FDA0001826422270000043
高度为
Figure FDA0001826422270000044
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为
Figure FDA0001826422270000045
高度为
Figure FDA0001826422270000046
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为
Figure FDA0001826422270000047
高度为
Figure FDA0001826422270000048
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为
Figure FDA0001826422270000051
高度为
Figure FDA0001826422270000052
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256,U1中的每幅特征图的宽度为
Figure FDA0001826422270000053
高度为
Figure FDA0001826422270000054
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为
Figure FDA0001826422270000061
高度为
Figure FDA0001826422270000062
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256,U2中的每幅特征图的宽度为
Figure FDA0001826422270000063
高度为
Figure FDA0001826422270000064
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为
Figure FDA0001826422270000071
高度为
Figure FDA0001826422270000072
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256,U3中的每幅特征图的宽度为
Figure FDA0001826422270000073
高度为
Figure FDA0001826422270000074
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为
Figure FDA0001826422270000075
高度为
Figure FDA0001826422270000076
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256,U4中的每幅特征图的宽度为
Figure FDA0001826422270000081
高度为
Figure FDA0001826422270000082
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H;
对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure FDA0001826422270000083
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure FDA0001826422270000091
Figure FDA0001826422270000092
之间的损失函数值记为
Figure FDA0001826422270000093
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA0001826422270000094
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA0001826422270000095
的宽度,H'表示
Figure FDA0001826422270000096
的高度,
Figure FDA0001826422270000097
表示
Figure FDA0001826422270000098
中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将
Figure FDA0001826422270000099
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure FDA00018264222700000910
对应的预测语义分割图像,记为
Figure FDA00018264222700000911
其中,
Figure FDA00018264222700000912
表示
Figure FDA00018264222700000913
中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法,其特征在于所述的步骤1_4中,
Figure FDA00018264222700000914
采用分类交叉熵获得。
CN201811186863.7A 2018-10-12 2018-10-12 一种基于卷积神经网络的道路场景语义分割方法 Active CN109446933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811186863.7A CN109446933B (zh) 2018-10-12 2018-10-12 一种基于卷积神经网络的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811186863.7A CN109446933B (zh) 2018-10-12 2018-10-12 一种基于卷积神经网络的道路场景语义分割方法

Publications (2)

Publication Number Publication Date
CN109446933A CN109446933A (zh) 2019-03-08
CN109446933B true CN109446933B (zh) 2021-10-12

Family

ID=65546478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811186863.7A Active CN109446933B (zh) 2018-10-12 2018-10-12 一种基于卷积神经网络的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN109446933B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009700B (zh) * 2019-03-13 2020-10-20 浙江科技学院 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN110930383A (zh) * 2019-11-20 2020-03-27 佛山市南海区广工大数控装备协同创新研究院 基于深度学习语义分割和图像分类的注射器缺陷检测方法
CN111275711B (zh) * 2020-01-08 2023-04-07 西安电子科技大学 基于轻量级卷积神经网络模型的实时图像语义分割方法
CN112733934B (zh) * 2021-01-08 2024-07-05 浙江科技学院 复杂环境下的多模态特征融合道路场景语义分割方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550259A (zh) * 2018-04-19 2018-09-18 何澜 道路拥堵判断方法、终端设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550259A (zh) * 2018-04-19 2018-09-18 何澜 道路拥堵判断方法、终端设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN109446933A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN112070779B (zh) 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法
CN108765506B (zh) 基于逐层网络二值化的压缩方法
CN110782462A (zh) 一种基于双流特征融合的语义分割方法
CN111091555B (zh) 闸瓦折断目标检测方法
CN105930402A (zh) 基于卷积神经网络的视频检索方法及***
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN113486897A (zh) 一种卷积注意力机制上采样解码的语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN111523546A (zh) 图像语义分割方法、***及计算机存储介质
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111860233B (zh) 基于选择注意力网络的sar图像复杂建筑物提取方法及***
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN114638836B (zh) 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN111401436A (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112508956A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110751195A (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN110782458A (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant