CN108876805A - 一种端对端无监督场景可通行区域认知与理解方法 - Google Patents
一种端对端无监督场景可通行区域认知与理解方法 Download PDFInfo
- Publication number
- CN108876805A CN108876805A CN201810636311.5A CN201810636311A CN108876805A CN 108876805 A CN108876805 A CN 108876805A CN 201810636311 A CN201810636311 A CN 201810636311A CN 108876805 A CN108876805 A CN 108876805A
- Authority
- CN
- China
- Prior art keywords
- network
- traffic areas
- probability distribution
- fcn
- road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000019771 cognition Effects 0.000 title description 12
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 230000008602 contraction Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 21
- 239000003550 marker Substances 0.000 claims description 11
- 230000008034 disappearance Effects 0.000 claims description 5
- 230000008439 repair process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种端到端无监督场景路面区域确定方法,通过构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中,构建一种融合位置先验特征的卷积网络框架,然后结合全卷积网络和U‑NET构建深度网络架构—UC‑FCN网络,将构建的可通行区域位置先验概率分布图作为深度网络架构‑UC‑FCN网络的一种特征图映射,生成UC‑FCN‑L网络;基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC‑FCN‑L网络进行训练,得到用于可行驶区域提取的深度网络模型,解决了可通行区域标签困难的问题,适用性强,可在多种道路环境下稳定工作,且实时性较好,本方法检测准确率高,适应性、实时性与鲁棒性好,方法简单有效。
Description
技术领域
本发明属于交通控制技术领域,具体涉及一种基于视频数据集的端对端自监督场景可通行区域认知与理解方法。
背景技术
随着社会的发展,汽车已经成为人类日常生活不可替代的交通工具。然而,其带来的安全问题也日益突出。《全球道路安全状况报告》指出,由交通事故造成的死亡人数每年高达124万,而造成事故的主要原因是司机的疏忽与疲劳驾驶,为了缓解这种情况,汽车智能化技术的发展显得尤为重要,在基于计算机视觉的自动驾驶和高级辅助驾驶研究中,车辆前方可行驶区域的实时认知与理解是必不可少的环节,车辆的可行驶区域包括了结构化的路面、半结构化的路面、非结构化的路面。结构化的路面一般是有道路边缘线,路面结构单一,比如城市主干道,高速、国道、省道等;半结构化的路面是指一般的非标准化的路面,路面面层是颜色和材质差异较大,比如停车场,广场等,还有一些分支道路;非结构化的路面没有结构层,天然的道路场景。目前智能化汽车主要是结合雷达与摄像机进行可行驶区域的认知与理解,然而雷达(激光雷达、毫米波雷达、超声波雷达)通常成本较高,功耗较大且易产生相互干扰。
基于视觉的可行驶区域认知与理解方法主要是基于路面颜色、道路模型、路面纹理特征等获取路面的基本结构特征,通过这些特征进一步的获得灭点、道路边缘线、道路的基本方向(直走、左转、右转、左急转、右急转)等潜在信息,对这些特征使用传统的分割提取方法进行可行驶区域的最终提取,然而这种利用传统分割的方法往往效果不理想,可能会把部分车辆、行人等交通参与者提取到可行驶区域中,为智能汽车后一步的行进造成不良影响。
发明内容
本发明的目的在于提供一种端对端无监督场景可通行区域认知与理解方法,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种端到端无监督场景路面区域确定方法,包括以下步骤:
步骤1)、构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中,从而构建位置先验信息在实际道路交通环境中能够灵活应用的可通行区域位置先验概率分布图;
步骤2)、结合全卷积网络和U-NET构建深度网络架构—UC-FCN网络,作为实现检测的主体网络模型;
步骤3)、将构建的可通行区域位置先验概率分布图作为深度网络架构-UC-FCN网络的一种特征图映射,获取最佳附加位置,直接附加到全卷积层最佳附加位置中,生成UC-FCN-L网络;
步骤4)、基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练,得到用于可行驶区域提取的深度网络模型。
进一步的,步骤1)中,利用道路区域在空间及图像中的分布规律,基于统计构建可通行区域位置先验概率分布图。
进一步的,步骤1)中基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,分别得到两种道路情况下的可通行区域位置先验概率分布图,再对两种道路情况下得到的可通行区域位置先验概率分布图进行融合,得到可通行区域位置先验概率分布图。
进一步的,基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,统计每一个坐标位置被判定为可通行区域的次数并对其求均值,分别得到两种道路情况下的可通行区域位置先验概率分布图,在概率分布图中,每个像素点的亮度表示该像素点属于目标的概率,像素点的亮度越高,其属于目标的概率越大;反之,亮度越低,其属于目标的概率越小;通过概率分布图像,将可通行区域从场景中分离出来,再对两种先验概率分布图进行融合,得到可通行区域位置先验概率分布图。
进一步的,步骤2)中,UC-FCN网络包括收缩结构和膨胀结构,收缩结构进行卷积与池化操作,逐渐减少空间维度,使得得到的图像越来越小,分辨率越来越低;然后通过膨胀结构在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作,在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上,增加输出的分辨率,逐步修复物体的细节和空间维度。
进一步的,膨胀结构采用上采样卷积的重复架构,重复架构中的上采样具体为上采样加ReLU激活函数结构,使用双线性插值将输入上采样2倍,之后使用ReLU解决梯度消失问题,上采样过后,使用卷积操作实现特征图的通道数改变,卷积层中卷积核大小均为3*3,将卷积后的结果与收缩结构中对应步骤的特征图融合起来,最后经过softmax层,得到高精度识别结果。
进一步的,步骤3)中,将可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同,将调整后的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射附加到其相应位置中,生成UC-FCN-L网络。
进一步的,对采集到的训练图像基于消失点方法进行可通行区域检测并将其检测结果作为训练数据的真值GT,在网络训练过程中,通过不断改进网络参数以减小提出的网络模型实现检测结果与基于消失点得到检测结果的差值对网络进行训练,得到最终可用于可通行区域检测的网络架构。
进一步的,步骤4)中对UC-FCN-L网络采用无监督的方式进行训练,得到用于可行驶区域提取的深度网络模型。
进一步的,无监督方式训练,即将样本分为标记样本与未标记样本,标记样本就是训练样本集Dl={(x1,y1),(x2,y2),K(xl,yl)}中这l个类别标记为已知的样本,未标记样本就是训练样本集Du={xl+1,xl+2,xl+u}中这u个类别标记未知的样本,u远大于l,基于有标记样本Dl的训练来构建模型,未标记样本Du所包含的信息未被利用这样的训练方式被称为监督学习,如果缺少标记样本Dl样例的话,需要考虑从未标记样本Du中实现对模型的学习。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种端到端无监督场景路面区域确定方法,通过构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中,从而构建位置先验信息在实际道路交通环境中能够灵活应用的可通行区域位置先验概率分布图,构建一种融合位置先验特征的卷积网络框架,然后结合全卷积网络和U-NET构建深度网络架构—UC-FCN网络,作为实现检测的主体网络模型;将构建的可通行区域位置先验概率分布图作为深度网络架构-UC-FCN网络的一种特征图映射,获取最佳附加位置,直接附加到全卷积层最佳附加位置中,生成UC-FCN-L网络;基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练,得到用于可行驶区域提取的深度网络模型,采用自监督的学习方式,解决了可通行区域标签困难的问题,适用性强,可在多种道路环境下稳定工作,且实时性较好,可广泛用于智能汽车和辅助驾驶***,相比于已有可行驶区域认知与理解方法,本方法检测准确率高,适应性、实时性与鲁棒性好,方法简单有效。
进一步的,基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,分别得到两种道路情况下的可通行区域位置先验概率分布图,再对两种道路情况下得到的可通行区域位置先验概率分布图进行融合,得到可通行区域位置先验概率分布图,从而消除传统卷积神经网络对位置先验不敏感而造成的将具有相似外观特征前景与后景错误检测的问题。
进一步的,采用收缩结构进行卷积与池化操作,逐渐减少空间维度,使得得到的图像越来越小,分辨率越来越低;然后通过膨胀结构在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作,在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上,增加输出的分辨率,逐步修复物体的细节和空间维度,实现检测速度提升同时检测精度较高的目的。
附图说明
图1是场景可通行区域认知与理解方法整体框架图。
图2是位置先验与位置先验特征示意图,(a)为实际交通场景中物体的空间分布;(b)为基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图。
图3是UC-FCN网络架构示意图。
图4是不同连接可通行区域位置先验概率分布图对比示意。
图5是UC-FCN-L网络整体示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1所示,一种端到端无监督场景路面区域确定方法,具体包括以下步骤:
1)、利用道路区域在空间及图像中的分布规律,基于统计构建道路位置先验概率分布图并将其作为检测网络的一种特征映射直接附加到卷积层中,构建位置先验信息在实际道路交通环境中可以灵活应用的可通行区域位置先验概率分布图;
2)、针对可通行区域认知与理解方法,既路面检测和分割问题,结合全卷积网络(FCN)和U-NET构建新的深度网络架构—UC-FCN网络,作为实现检测的主体网络模型;
3)、将构建的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射,通过实验验证其最佳附加位置,直接附加到全卷积层最佳附加位置中,生成UC-FCN-L网络;
4)、针对自采交通场景视频数据集获得训练数据对应的像素级语义标签难度大的问题,提出一种无监督训练方法,基于传统的消失点检测方法对可通行区域进行粗检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练,得到用于可行驶区域提取的深度网络模型。
步骤1)中,为消除传统卷积神经网络对位置先验不敏感而造成的将具有相似外观特征前景与后景错误检测的问题,基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,分别得到两种道路情况下的可通行区域位置先验概率分布图,再对两种先验概率分布图进行融合,得到可通行区域位置先验概率分布图;如图2(a)所示,在实际交通场景中物体的空间分布具有特定的规律,例如,天空分布在图像顶部,建筑物分布在图像两侧,而道路区域分布在图像底部。传统的卷积神经网络只对目标局部外观特征敏感,并不能利用位置先验信息,可能会将建筑区域错误地认定为与其具有相似外观特征的道路区域,若合理利用位置先验可以有效地消除此类错误检测。为了使位置先验信息在实际道路交通环境中灵活应用,不同的输入图像应拥有同样的位置特征表达,因此将位置先验作为检测网络的一种特征映射直接附加到卷积层中。如图2(b)所示,基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,统计每一个坐标位置被判定为可通行区域的次数并对其求均值,分别得到两种道路情况下的可通行区域位置先验概率分布图,在概率分布图中,每个像素点的亮度表示该像素点属于目标的概率,像素点的亮度越高,其属于目标的概率越大;反之,亮度越低,其属于目标的概率越小。通过概率分布图像,可以将可通行区域从场景中分离出来。再对两种先验概率分布图进行融合,得到可通行区域位置先验概率分布图。
步骤2)中,基于全卷积神经网络提出一种新的深度网络架构—UC-FCN网络。卷积神经网络(CNN)自2012年以来,在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。传统的CNN方法以像素块为感知区域,只能提取一些局部的特征,从而导致分类的性能受到限制。针对这个问题,UC Berkeley的Jonathan Long等人提出了FullyConvolutional Networks(FCN)用于图像的分割,试图从抽象的特征中恢复出每个像素所属的类别。FCN将传统CNN中的全连接层转化成一个个的卷积层,所有的层都是卷积层,故称为全卷积网络。
以FCN网络架构方式为基础,改进构建我们的网络:
UC-FCN网络包括收缩结构和膨胀结构,收缩结构进行卷积与池化操作,逐渐减少空间维度,使得得到的图像越来越小,分辨率越来越低,为了从这个分辨率低的粗略图像恢复到原图的分辨率,使用膨胀结构,具体为在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作,增加输出的分辨率,逐步修复物体的细节和空间维度,为了使用局部信息,在两模块间设置连接以帮助膨胀结构更好地修复目标的细节,具体为在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上。
基于FCN网络构建由卷积与池化操作为主,逐渐减少空间维度,使得得到图像越来越小的收缩结构与上采样、卷积操作为主,增加输出分辨率,逐步修复物体细节和空间维度的膨胀结构组成的UC-FCN网络,为了使用局部信息,在两结构间设置连接以帮助膨胀结构更好地修复目标的细节,具体为把在网络收缩结构中产生的高分辨率特征连接至膨胀结构卷积后的结果上,通过对两部分结构的改善,实现检测速度提升同时检测精度较高的目的。
具体的,如图3所示,由于特征图的高度与宽度比输入的要小,所以可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同。将可通行区域位置先验概率分布图连接至33*33或15*15两种特征图后面,前者比后者拥有更准确的位置先验信息,可以描述更多样化、更不规则的形状,更能较好地体现出远距离的道路及小型拐角等细节信息,可以取得更准确的检测结果。将最终的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射附加到其相应位置中,生成UC-FCN-L网络;
收缩结构是典型的卷积网络架构,它的架构是一种重复结构,每次重复中都有2个卷积层和一个池化层,卷积层中卷积核大小均为3*3,激活函数使用ReLU,两个卷积层之后是一个2*2的步长为2的最大池化层,每一次下采样后特征通道的数量都会加倍,5次卷积池化重复结构后是全卷积卷积结构,有2层卷积层,FCN的改进就是将CNN这里的全连接层换成卷积层,FCN在特征提取阶段(收缩结构)使用VGG16作为基础,这个网络在全卷积卷积结构有4096个7*7的滤波器,大量的大尺寸滤波器使得计算量较大,我们将全卷积卷积结构的滤波器数量从4096降低到1024,滤波器尺寸由7*7变为3*3,这样网络的参数减少一些,计算量相应降低,精度也有所下降,为保持网络的识别精度,在膨胀结构做相应改进;
具体的,膨胀结构采用上采样卷积的重复架构,重复架构中的上采样具体为上采样加ReLU激活函数结构,使用双线性插值将输入上采样2倍,之后使用ReLU解决梯度消失问题,每次使用上采样都将特征图大小加倍,上采样过后,使用卷积操作实现特征图的通道数改变,卷积层中卷积核大小均为3*3,将卷积后的结果与收缩结构中对应步骤的特征图融合起来,最后经过softmax层,得到识别结果。
为了使收缩结构滤波器数量减少不影响识别精度,在膨胀结构中具体改进为:
1)在收缩结构与膨胀结构间增加conv-Ncl层,conv-Ncl层卷积核大小为1*1,经过conv-Ncl层特征图通道数由1024转化为特定数量,特征图大小转化为1*1,为了简化后续分类计算量,直接将转化通道数量设为分类数;
2)为使膨胀结构卷积结果与收缩结构特征图通道数匹配,膨胀结构的所有架构层都使用多个卷积核,为避免网络参数的大量增加,使用标量值C作为卷积核数量系数,新网络的膨胀部分具有C*Ncl个卷积核,根据不同的相应特征图位置对C进行调整,使之与相应收缩结构卷积核数量相同。
步骤3)中,将构建的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射,直接附加到全卷积层中,对位置特征进行提取,生成UC-FCN-L网络。如步骤1)中所述,合理利用位置先验可以有效地避免一些错误检测,由于特征图的高度与宽度比输入的要小,所以可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同。从UC-FCN网络中不难看出,生成特征图的卷积是一种重复结构,这种结构重复出现7次,输出宽高分别为259*259,130*130,65*65,33*33,17*17,15*15(最后两次全卷积特征图大小不变),可通行区域位置先验概率分布图经过用于特征提取的卷积层数量的不同会导致生成结果有所差异,卷积层数越多,提取到的特征信息越具体,越细节性,卷积层数越少,提取到的特征信息月轮廓型,更能涵盖整体信息。可通行区域位置先验概率分布图作为可通行区域检测的辅助信息,在一定程度上对检测结果做了适当矫正,对可通行区域位置先验概率分布图特征的提取既要保留轮廓信息,有要包含细节信息,因此将可通行区域位置先验概率分布图连接至33*33的特征图后面,此时可通行区域位置先验概率分布图可以描述更多样化、更不规则的形状,其提取的特征既能体现道路大体形状、位置等轮廓信息,又能较好地体现出远距离的道路及小型拐角等细节信息,可以取得更准确的检测结果,将最终的可通行区域位置先验概率分布图置于其相应位置,得到用于可行驶区域提取的深度网络模型,如图5所示。
步骤4)中对UC-FCN-L网络采用无监督的方式进行训练,得到用于可行驶区域提取的深度网络模型。样本在深度学习的训练过程中不可或缺,主要分为标记样本与未标记样本,标记样本就是训练样本集Dl={(x1,y1),(x2,y2),K(xl,yl)}中这l个类别标记为已知的样本,未标记样本就是训练样本集Du={xl+1,xl+2,xl+u}(u远大于l)中这u个类别标记未知的样本。基于有标记样本Dl的训练来构建模型,未标记样本Du所包含的信息未被利用这样的训练方式被称为监督学习,如果缺少标记样本Dl样例的话,需要考虑从未标记样本Du中实现对模型的学习,这种仅有且仅利用未标记样本的训练方式被称为无监督学习。
本发明提出的用于场景可通行区域认知与理解的网络架构基于自采交通场景视频数据集,如图4所示,包含市区、乡村和高速公路等场景采集的真实图像数据,选取其中的部分图像数据进行训练和测试,可通行区域认知与理解方法本质上是对图片进行像素级分割,若要获得图像分割真值,需要使得训练数据获得其对应的像素级语义标签,然而采集的大量实景数据对其进行像素级标签难度极大,须采用无监督的方法对网络进行训练。
具体的,首先用传统方法对采集到的训练图像基于消失点方法进行可通行区域检测。消失点就是空间一组平行直线在图像平面上所成像的唯一交点。基于消失点的可通行区域检测主要有以下步骤:使用Gabor小波在多个尺度上进行纹理分析,舍弃纹理不显著的点;考察每个点与纹理信息的关系,使用纹理投票的方法计算每个点的得分;根据消失点寻找道路边缘,得到路面区域。基于消失点的可通行区域检测效果,将基于消失点得到的检测结果作为训练数据的真值GT,在网络训练过程中,通过不断改进网络参数以减小提出的网络模型实现检测结果与基于消失点得到检测结果的差值对网络进行训练,得到最终可用于可通行区域检测的网络架构。
Claims (10)
1.一种端到端无监督场景路面区域确定方法,其特征在于,包括以下步骤:
步骤1)、构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中,从而构建位置先验信息在实际道路交通环境中能够灵活应用的可通行区域位置先验概率分布图;
步骤2)、结合全卷积网络和U-NET构建深度网络架构—UC-FCN网络,作为实现检测的主体网络模型;
步骤3)、将构建的可通行区域位置先验概率分布图作为深度网络架构-UC-FCN网络的一种特征图映射,获取最佳附加位置,直接附加到全卷积层最佳附加位置中,生成UC-FCN-L网络;
步骤4)、基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练,得到用于可行驶区域提取的深度网络模型。
2.根据权利要求1所述的一种端到端无监督场景路面区域确定方法,其特征在于,步骤1)中,利用道路区域在空间及图像中的分布规律,基于统计构建可通行区域位置先验概率分布图。
3.根据权利要求1或2所述的一种端到端无监督场景路面区域确定方法,其特征在于,步骤1)中基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,分别得到两种道路情况下的可通行区域位置先验概率分布图,再对两种道路情况下得到的可通行区域位置先验概率分布图进行融合,得到可通行区域位置先验概率分布图。
4.根据权利要求3所述的一种端到端无监督场景路面区域确定方法,其特征在于,基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图,对其可通行区域进行统计,统计每一个坐标位置被判定为可通行区域的次数并对其求均值,分别得到两种道路情况下的可通行区域位置先验概率分布图,在概率分布图中,每个像素点的亮度表示该像素点属于目标的概率,像素点的亮度越高,其属于目标的概率越大;反之,亮度越低,其属于目标的概率越小;通过概率分布图像,将可通行区域从场景中分离出来,再对两种先验概率分布图进行融合,得到可通行区域位置先验概率分布图。
5.根据权利要求1所述的一种端到端无监督场景路面区域确定方法,其特征在于,步骤2)中,UC-FCN网络包括收缩结构和膨胀结构,收缩结构进行卷积与池化操作,逐渐减少空间维度,使得得到的图像越来越小,分辨率越来越低;然后通过膨胀结构在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作,在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上,增加输出的分辨率,逐步修复物体的细节和空间维度。
6.根据权利要求5所述的一种端到端无监督场景路面区域确定方法,其特征在于,膨胀结构采用上采样卷积的重复架构,重复架构中的上采样具体为上采样加ReLU激活函数结构,使用双线性插值将输入上采样2倍,之后使用ReLU解决梯度消失问题,上采样过后,使用卷积操作实现特征图的通道数改变,卷积层中卷积核大小均为3*3,将卷积后的结果与收缩结构中对应步骤的特征图融合起来,最后经过softmax层,得到高精度识别结果。
7.根据权利要求1所述的一种端到端无监督场景路面区域确定方法,其特征在于,步骤3)中,将可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同,将调整后的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射附加到其相应位置中,生成UC-FCN-L网络。
8.根据权利要求1所述的一种端到端无监督场景路面区域确定方法,其特征在于,对采集到的训练图像基于消失点方法进行可通行区域检测并将其检测结果作为训练数据的真值GT,在网络训练过程中,通过不断改进网络参数以减小提出的网络模型实现检测结果与基于消失点得到检测结果的差值对网络进行训练,得到最终可用于可通行区域检测的网络架构。
9.根据权利要求1所述的一种端到端无监督场景路面区域确定方法,其特征在于,步骤4)中对UC-FCN-L网络采用无监督的方式进行训练,得到用于可行驶区域提取的深度网络模型。
10.根据权利要求9所述的一种端到端无监督场景路面区域确定方法,其特征在于,无监督方式训练,即将样本分为标记样本与未标记样本,标记样本就是训练样本集Dl={(x1,y1),(x2,y2),K(xl,yl)}中这l个类别标记为已知的样本,未标记样本就是训练样本集Du={xl+1,xl+2,xl+u}中这u个类别标记未知的样本,u远大于l,基于有标记样本Dl的训练来构建模型,未标记样本Du所包含的信息未被利用这样的训练方式被称为监督学习,如果缺少标记样本Dl样例的话,需要考虑从未标记样本Du中实现对模型的学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636311.5A CN108876805B (zh) | 2018-06-20 | 2018-06-20 | 一种端对端无监督场景可通行区域认知与理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636311.5A CN108876805B (zh) | 2018-06-20 | 2018-06-20 | 一种端对端无监督场景可通行区域认知与理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108876805A true CN108876805A (zh) | 2018-11-23 |
CN108876805B CN108876805B (zh) | 2021-07-27 |
Family
ID=64340750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810636311.5A Active CN108876805B (zh) | 2018-06-20 | 2018-06-20 | 一种端对端无监督场景可通行区域认知与理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108876805B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415187A (zh) * | 2019-07-04 | 2019-11-05 | 深圳市华星光电技术有限公司 | 图像处理方法及图像处理*** |
CN111369566A (zh) * | 2018-12-25 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 确定路面消隐点位置的方法、装置、设备及存储介质 |
CN113221826A (zh) * | 2021-05-31 | 2021-08-06 | 浙江工商大学 | 一种基于自监督学习显著性估计像素嵌入的道路检测方法 |
CN113392809A (zh) * | 2019-02-21 | 2021-09-14 | 百度在线网络技术(北京)有限公司 | 一种自动驾驶信息处理方法、装置及存储介质 |
WO2022087853A1 (zh) * | 2020-10-27 | 2022-05-05 | 深圳市深光粟科技有限公司 | 一种图像分割方法、装置及计算机可读存储介质 |
US11473927B2 (en) * | 2020-02-05 | 2022-10-18 | Electronic Arts Inc. | Generating positions of map items for placement on a virtual map |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034862A (zh) * | 2012-12-14 | 2013-04-10 | 北京诚达交通科技有限公司 | 基于特征信息分类的道路雨雪状态自动识别方法 |
CN106650690A (zh) * | 2016-12-30 | 2017-05-10 | 东华大学 | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 |
CN107492071A (zh) * | 2017-08-17 | 2017-12-19 | 京东方科技集团股份有限公司 | 医学图像处理方法及设备 |
CN107808140A (zh) * | 2017-11-07 | 2018-03-16 | 浙江大学 | 一种基于图像融合的单目视觉道路识别算法 |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
-
2018
- 2018-06-20 CN CN201810636311.5A patent/CN108876805B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034862A (zh) * | 2012-12-14 | 2013-04-10 | 北京诚达交通科技有限公司 | 基于特征信息分类的道路雨雪状态自动识别方法 |
CN106650690A (zh) * | 2016-12-30 | 2017-05-10 | 东华大学 | 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法 |
CN107492071A (zh) * | 2017-08-17 | 2017-12-19 | 京东方科技集团股份有限公司 | 医学图像处理方法及设备 |
CN107808140A (zh) * | 2017-11-07 | 2018-03-16 | 浙江大学 | 一种基于图像融合的单目视觉道路识别算法 |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
Non-Patent Citations (1)
Title |
---|
STIAAN WIEHMAN.ETC: ""Unsupervised Pre-training for Fully Convolutional Neural Networks"", 《2016 PATTERN RECOGNITION ASSOCIATION OF SOUTH AFRICA AND ROBOTICS AND MECHATRONICS INTERNATIONAL CONFERENCE》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369566A (zh) * | 2018-12-25 | 2020-07-03 | 杭州海康威视数字技术股份有限公司 | 确定路面消隐点位置的方法、装置、设备及存储介质 |
CN111369566B (zh) * | 2018-12-25 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 确定路面消隐点位置的方法、装置、设备及存储介质 |
CN113392809A (zh) * | 2019-02-21 | 2021-09-14 | 百度在线网络技术(北京)有限公司 | 一种自动驾驶信息处理方法、装置及存储介质 |
CN113392809B (zh) * | 2019-02-21 | 2023-08-15 | 百度在线网络技术(北京)有限公司 | 一种自动驾驶信息处理方法、装置及存储介质 |
CN110415187A (zh) * | 2019-07-04 | 2019-11-05 | 深圳市华星光电技术有限公司 | 图像处理方法及图像处理*** |
CN110415187B (zh) * | 2019-07-04 | 2021-07-23 | Tcl华星光电技术有限公司 | 图像处理方法及图像处理*** |
US11473927B2 (en) * | 2020-02-05 | 2022-10-18 | Electronic Arts Inc. | Generating positions of map items for placement on a virtual map |
US20220412765A1 (en) * | 2020-02-05 | 2022-12-29 | Electronic Arts Inc. | Generating Positions of Map Items for Placement on a Virtual Map |
US11668581B2 (en) * | 2020-02-05 | 2023-06-06 | Electronic Arts Inc. | Generating positions of map items for placement on a virtual map |
WO2022087853A1 (zh) * | 2020-10-27 | 2022-05-05 | 深圳市深光粟科技有限公司 | 一种图像分割方法、装置及计算机可读存储介质 |
CN113221826A (zh) * | 2021-05-31 | 2021-08-06 | 浙江工商大学 | 一种基于自监督学习显著性估计像素嵌入的道路检测方法 |
CN113221826B (zh) * | 2021-05-31 | 2023-05-02 | 浙江工商大学 | 一种基于自监督学习显著性估计像素嵌入的道路检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108876805B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876805A (zh) | 一种端对端无监督场景可通行区域认知与理解方法 | |
CN109934163A (zh) | 一种基于场景先验和特征再融合的航空图像车辆检测方法 | |
CN113936139B (zh) | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及*** | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN106408015A (zh) | 基于卷积神经网络的岔路口识别及深度估计方法 | |
CN110263833A (zh) | 基于编码-解码结构的图像语义分割方法 | |
CN110853057B (zh) | 基于全局和多尺度全卷积网络的航拍图像分割方法 | |
CN104318569A (zh) | 基于深度变分模型的空间显著性区域提取方法 | |
CN108256464A (zh) | 基于深度学习的高分辨率遥感影像城市道路提取方法 | |
US20220315243A1 (en) | Method for identification and recognition of aircraft take-off and landing runway based on pspnet network | |
CN106355643A (zh) | 一种高速公路三维实景道路模型的生成方法 | |
CN111027430A (zh) | 一种面向无人车智能评估的交通场景复杂度计算方法 | |
CN114943902A (zh) | 基于多尺度特征感知网络的城市植被无人机遥感分类方法 | |
CN113505842A (zh) | 一种适用于大尺度区域遥感影像城市建筑物自动提取方法 | |
Cao et al. | MCS-YOLO: A multiscale object detection method for autonomous driving road environment recognition | |
CN111599007B (zh) | 一种基于无人机航拍的智慧城市cim道路贴图方法 | |
CN106295491A (zh) | 车道直线检测方法及装置 | |
CN102254162B (zh) | 基于最小直线比率的sar图像机场跑道检测方法 | |
CN115661032A (zh) | 一种适用于复杂背景的路面病害智能检测方法 | |
Tian et al. | Road marking detection based on mask R-CNN instance segmentation model | |
CN115292913A (zh) | 一种面向车路协同的路测感知仿真*** | |
CN113361528A (zh) | 一种多尺度目标检测方法及*** | |
CN114708560B (zh) | 一种基于yolox算法的违章停车检测方法及*** | |
CN103886289A (zh) | 方向自适应的水上桥梁目标识别方法及*** | |
CN116385716A (zh) | 一种基于遥感图的三维地图地物数据自动化生产方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240207 Address after: 710200 Jingwei Industrial Park, economic development zone, Xi'an City, Shaanxi Province Patentee after: SHAANXI HEAVY DUTY AUTOMOBILE Co.,Ltd. Country or region after: China Address before: 710064 No. 33, South Second Ring Road, Shaanxi, Xi'an Patentee before: CHANG'AN University Country or region before: China |
|
TR01 | Transfer of patent right |