CN112364822B - 一种自动驾驶视频语义分割***及方法 - Google Patents

一种自动驾驶视频语义分割***及方法 Download PDF

Info

Publication number
CN112364822B
CN112364822B CN202011373273.2A CN202011373273A CN112364822B CN 112364822 B CN112364822 B CN 112364822B CN 202011373273 A CN202011373273 A CN 202011373273A CN 112364822 B CN112364822 B CN 112364822B
Authority
CN
China
Prior art keywords
video
video data
semantic segmentation
key frames
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011373273.2A
Other languages
English (en)
Other versions
CN112364822A (zh
Inventor
王姗
王俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing College of Electronic Engineering
Original Assignee
Chongqing College of Electronic Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing College of Electronic Engineering filed Critical Chongqing College of Electronic Engineering
Priority to CN202011373273.2A priority Critical patent/CN112364822B/zh
Publication of CN112364822A publication Critical patent/CN112364822A/zh
Application granted granted Critical
Publication of CN112364822B publication Critical patent/CN112364822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频处理技术领域,具体为一种自动驾驶视频语义分割***及方法,该方法包括S100:获取待处理的视频数据;S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;S300:基于卷积神经网络构建分类模型;S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果;所述S100包括:S101:采集多路视频数据;S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据。本申请的一种自动驾驶视频语义分割***及方法,能够极大降低非关键帧的计算量,具有更新速度快、算法简单、计算量小、运行速度快、准确度高、适用场景范围广等优点。

Description

一种自动驾驶视频语义分割***及方法
技术领域
本发明涉及视频处理技术领域,具体为一种自动驾驶视频语义分割***及方法。
背景技术
目前自动驾驶领域在实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。通过对车载感知视频的分析与处理,即让计算机自动的对入库视频进行分割与组织,通过分析提取必要的信息,输入车辆行为决策***,实现车辆自动驾驶操作。
视频正常的播放速度是每秒15-30帧,每个待识别对象,都会出现一段时间,对每帧视频图像都进行分析与语义提取,会增加计算量,使得计算机资源的开销相当巨大且没有价值。
发明内容
本发明意在提供一种自动驾驶视频语义分割***及方法,能够极大降低非关键帧的计算量,运行速度快、准确度高、适用场景范围广。
本申请提供如下技术方案:
一种自动驾驶视频语义分割方法,包括:
S100:获取待处理的视频数据;
S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;
S300:基于卷积神经网络构建分类模型;
S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果。
进一步,所述S100包括:
S101:采集多路视频数据;
S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据。
进一步,所述S200包括:
S201:通过帧差法计算视频数据中相邻两帧图像之间的差异度;
S202:根据差异度将视频数据分割为若干视频段;
S203:从每个视频段中选取若干帧图像作为关键帧。
进一步,所述S203包括:
S2031:从视频段中随机选取第一个关键帧;
S2032:从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧。
进一步,所述S201通过对像素的时间差分进行闭值化来提取相邻帧的差异度。
进一步,所述S201包括:
S2011:将相邻帧图像对应像素值相减得到差分图像;
S2012:对差分图像进行二值化;
S2013:根据二值化后的差分图像,计算差异度。
进一步,所述S300包括:
S301:建立卷积神经网络的卷积层、池化层以及全连接层;
S302:构建训练集,通过训练集对卷积神经网络进行训练。
进一步,所述S301包括:
S3011:构建卷积层,卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器;
S3012:构建池化层,池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置,池化算法采用平均值池化、最大值池化或随机池化算法;
S3013:构建全连接层,全连接层使用了Softmax激活函数作为分类器。
进一步,S400包括:
S401:通过分类模型对关键帧进行语义识别,生成各个分类的概率;
S402:根据各个分类的概率,将关键帧语义分类至概率最大的分类中;
S403:根据各个关键帧的语义识别结果,对语义识别结果相同的相邻关键帧的语义识别结果进行融合;
S404:根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注,形成语义分割结果。
进一步,本申请还公开了一种自动驾驶视频语义分割***,该***使用了上述的自动驾驶视频语义分割方法。
本发明技术方案利用帧差法实现关键帧的提取,在图像序列相邻两帧间采用基于像素的时间差分通过闭值化来提取出图像中的差异度,进而提取关键帧。然后构建卷积神经网络模型架构,采用CNN卷积神经网络识别图像,对关键帧以及对应的视频段进行语义标记,最终实现视频语义分割。本发明技术方案可以大大降低非关键帧的计算量,具有更新速度快、算法简单、计算量小、运行速度快、准确度高、适用场景范围广等优点。
附图说明
图1为本申请一种自动驾驶视频语义分割方法实施例中的流程图。
具体实施方式
下面通过具体实施方式对本申请技术方案进行进一步详细说明:
实施例一
如图1所示,本实施例公开的一种自动驾驶视频语义分割方法,应用于自动驾驶领域,用于对自动驾驶汽车感知摄像头拍摄的视频进行视频语义分割和识别,可以实现对道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测等五种情况类型的识别。
该方法包括:
S100:获取待处理的视频数据;
S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;
S300:基于卷积神经网络构建分类模型;
S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果。
本实施例中,视频数据由车辆上的多个摄像头拍摄得到,S100包括:
S101:通过车辆摄像头采集多路视频数据;
S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据,预处理包括畸变矫正、色相调整等。
S200包括:
S201:通过帧差法计算视频数据中相邻两帧图像之间的差异度;
S202:根据差异度将视频数据分割为若干视频段;
S203:从每个视频段中选取若干帧图像作为关键帧。本实施中,从视频段中随机选取一个帧作为关键帧。
本实施例中,通过对像素的时间差分进行闭值化来提取相邻帧的差异度。具体的,S201包括:
S2011:将相邻帧图像对应像素值相减得到差分图像;
S2012:对差分图像进行二值化;
S2013:根据二值化后的差分图像,计算差异度,本实施例中,将大于差异大于阈值的像素二值化为黑色,然后根据二值化后图像黑色像素的数量计算差异度。
S300包括:
S301:建立卷积神经网络的卷积层、池化层以及全连接层;
具体包括:
S3011:构建卷积层,卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器;
S3012:构建池化层,池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置,池化算法采用平均值池化、最大值池化或随机池化算法;
S3013:构建全连接层,全连接层使用了Softmax激活函数作为分类器。
S302:构建训练集,通过训练集对卷积神经网络进行训练。
S400包括:
S401:通过分类模型对关键帧进行语义识别,生成各个分类的概率;
S402:根据各个分类的概率,将关键帧语义分类至概率最大的分类中;
S403:根据各个关键帧的语义识别结果,对语义识别结果相同的相邻关键帧的语义识别结果进行融合;
S404:根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注,形成语义分割结果。
本实施例中,设置道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测五种类别的分类,并预先采集上述五类的图片,其中前4种类型图像数据为各70张,交通信号灯对红、绿、黄灯各拍摄70张。使用这些图像训练模型的步骤是:将收集到的图像数据集中的图像数据读取到程序中,图像数据包括图片和图片的标签,并且是它们是一一对应的关系。数据集分为两大类,一种是训练数据集,设置为training文件夹,在里面再分为7个文件夹,包括:道路检测、行人检测、车辆检测、交通标志检测、交通信号红灯、交通信号绿灯、交通信号黄灯,每种类别分别是50张图片,另一种就是测试数据集,设置为test文件夹,test文件夹里是5种类别的相应的图片数据文件夹,每种类别文件夹中有20张图片。已经将图像的数据分成了训练集和测试集。
将图像数据读取到程序中。读取文件夹下的图像数据,将它们读取到images数组中,同时将这些图片的数据所对应的标签读取到labels数组中,并且images和labels中的数据都是一对一的关系。本实施例采用CNN模型对数据集进行训练。CNN模型的前三层是卷积操作,第一层是一个5x5的卷积核,2、3层则用的是3x3的卷积核。卷积操作主要是提取特征,之后再进行分类,将每一个图片变成一个一维向量。进行全连接操作,训练CNN模型并保存图片训练结果。其中训练模型的迭代次数为350次。
本实施中还公开了一种自动驾驶视频语义分割***,该***应用于无人驾驶车辆上,使用了本实施例的自动驾驶视频语义分割方法,能够基于自动驾驶汽车采集拍摄的视频数据进行场景语义的识别分析,如道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测等。
实施例二
本实施例与实施例一的区别在于,本实施例中S203包括:
S2031:从视频段中随机选取第一个关键帧;
S2032:从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧。
实施例三
本实施例与实施例一的区别在于,本实施例中S203包括:
S2031:从视频段中选取第一帧作为第一个关键帧;
S2032:逐帧计算每一帧与上一关键帧的差异度,若差异度大于预设值,则选取当前帧为关键帧,直至视频段的帧全部计算完毕。
以上的仅是本发明的实施例,该发明不限于此实施案例涉及的领域,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (3)

1.一种自动驾驶视频语义分割方法,其特征在于:包括:
S100:获取待处理的视频数据;
S200:通过视频稀疏采样算法对待处理的视频数据进行关键帧提取;
S300:基于卷积神经网络构建分类模型;
S400:通过分类模型对关键帧进行语义识别分类,生成视频数据的语义分割结果;
所述S200包括:
S201:通过帧差法计算视频数据中相邻两帧图像之间的差异度;
S202:根据差异度将视频数据分割为若干视频段;
S203:从每个视频段中选取若干帧图像作为关键帧;
所述S203包括:
S2031:从视频段中随机选取第一个关键帧;
S2032:从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧;
所述S201通过对像素的时间差分进行闭值化来提取相邻帧的差异度;
所述S201包括:
S2011:将相邻帧图像对应像素值相减得到差分图像;
S2012:对差分图像进行二值化;
S2013:根据二值化后的差分图像,计算差异度;
所述S300包括:
S301:建立卷积神经网络的卷积层、池化层以及全连接层;
S302:构建训练集,通过训练集对卷积神经网络进行训练;
所述S301包括:
S3011:构建卷积层,卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器;
S3012:构建池化层,池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置,池化算法采用平均值池化、最大值池化或随机池化算法;
S3013:构建全连接层,全连接层使用了Softmax激活函数作为分类器;
S400包括:
S401:通过分类模型对关键帧进行语义识别,生成各个分类的概率;
S402:根据各个分类的概率,将关键帧语义分类至概率最大的分类中;
S403:根据各个关键帧的语义识别结果,对语义识别结果相同的相邻关键帧的语义识别结果进行融合;
S404:根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注,形成语义分割结果。
2.根据权利要求1所述的一种自动驾驶视频语义分割方法,其特征在于:所述S100包括:
S101:采集多路视频数据;
S102:对多路视频数据进行预处理和数据融合,形成待处理视频数据。
3.一种自动驾驶视频语义分割***,其特征在于:使用了如权利要求1-2中任一项所述的自动驾驶视频语义分割方法。
CN202011373273.2A 2020-11-30 2020-11-30 一种自动驾驶视频语义分割***及方法 Active CN112364822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011373273.2A CN112364822B (zh) 2020-11-30 2020-11-30 一种自动驾驶视频语义分割***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011373273.2A CN112364822B (zh) 2020-11-30 2020-11-30 一种自动驾驶视频语义分割***及方法

Publications (2)

Publication Number Publication Date
CN112364822A CN112364822A (zh) 2021-02-12
CN112364822B true CN112364822B (zh) 2022-08-19

Family

ID=74536602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011373273.2A Active CN112364822B (zh) 2020-11-30 2020-11-30 一种自动驾驶视频语义分割***及方法

Country Status (1)

Country Link
CN (1) CN112364822B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
WO2019228211A1 (zh) * 2018-05-31 2019-12-05 上海商汤智能科技有限公司 基于车道线的智能驾驶控制方法和装置、电子设备
CN110956219A (zh) * 2019-12-09 2020-04-03 北京迈格威科技有限公司 视频数据的处理方法、装置和电子***
CN111062395A (zh) * 2019-11-27 2020-04-24 北京理工大学 一种实时的视频语义分割方法
CN111523442A (zh) * 2020-04-21 2020-08-11 东南大学 视频语义分割中的自适应关键帧选择方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117824676A (zh) * 2016-12-09 2024-04-05 通腾全球信息公司 用于基于视频的定位及映射的方法及***
CN110111335B (zh) * 2019-05-08 2021-04-16 南昌航空大学 一种自适应对抗学习的城市交通场景语义分割方法及***
CN110796662B (zh) * 2019-09-11 2022-04-19 浙江大学 一种实时的语义视频分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019228211A1 (zh) * 2018-05-31 2019-12-05 上海商汤智能科技有限公司 基于车道线的智能驾驶控制方法和装置、电子设备
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
CN111062395A (zh) * 2019-11-27 2020-04-24 北京理工大学 一种实时的视频语义分割方法
CN110956219A (zh) * 2019-12-09 2020-04-03 北京迈格威科技有限公司 视频数据的处理方法、装置和电子***
CN111523442A (zh) * 2020-04-21 2020-08-11 东南大学 视频语义分割中的自适应关键帧选择方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Video Dehazing With Semantic Segmentation;Wenqi Ren等;《IEEE Transactions on Image Processing》;20181015;第1895 - 1908页 *
基于深度卷积神经网络的视频语义分割方法研究;樊如愿;《cnki优秀硕士学位论文全文库 工程科技Ⅱ辑》;20200215;第C035-363页 *
自动驾驶中的视频语义分割技术研究;王蒲;《cnki优秀硕士学位论文全文库 工程科技Ⅱ辑》;20200715;第C035-310页 *

Also Published As

Publication number Publication date
CN112364822A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN111368687B (zh) 一种基于目标检测和语义分割的人行道车辆违停检测方法
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN111274976B (zh) 基于视觉与激光雷达多层次融合的车道检测方法及***
CN108694386B (zh) 一种基于并联卷积神经网络的车道线检测方法
CN110263706B (zh) 一种雾霾天气车载视频动态目标检测和识别的方法
Abdullah et al. YOLO-based three-stage network for Bangla license plate recognition in Dhaka metropolitan city
CN106971155B (zh) 一种基于高度信息的无人车车道场景分割方法
CN110310241B (zh) 一种融合深度区域分割的多大气光值交通图像去雾方法
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN113723377B (zh) 一种基于ld-ssd网络的交通标志检测方法
CN111027475A (zh) 一种基于视觉的实时交通信号灯识别方法
CN114693924A (zh) 一种基于多模型融合的道路场景语义分割方法
CN112784834A (zh) 一种自然场景下的车牌自动识别方法
CN112766056A (zh) 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN116597270A (zh) 基于注意力机制集成学习网络的道路损毁目标检测方法
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法
CN114639067A (zh) 一种基于注意力机制的多尺度全场景监控目标检测方法
CN113221760A (zh) 一种高速公路摩托车检测方法
CN111160274B (zh) 一种基于二值化Faster RCNN网络的行人检测方法
CN112700653A (zh) 一种车辆违法变道的判定方法、装置、设备及存储介质
CN112364822B (zh) 一种自动驾驶视频语义分割***及方法
CN115147450B (zh) 基于运动帧差图像的移动目标检测方法及检测装置
bin Che Mansor et al. Emergency vehicle type classification using convolutional neural network
CN114255450A (zh) 一种基于前向全景图像的近场车辆加塞行为预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant