CN112364822B

CN112364822B - 一种自动驾驶视频语义分割***及方法

Info

Publication number: CN112364822B
Application number: CN202011373273.2A
Authority: CN
Inventors: 王姗; 王俊峰
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-08-19
Anticipated expiration: 2040-11-30
Also published as: CN112364822A

Abstract

本发明涉及视频处理技术领域，具体为一种自动驾驶视频语义分割***及方法，该方法包括S100：获取待处理的视频数据；S200：通过视频稀疏采样算法对待处理的视频数据进行关键帧提取；S300：基于卷积神经网络构建分类模型；S400：通过分类模型对关键帧进行语义识别分类，生成视频数据的语义分割结果；所述S100包括：S101：采集多路视频数据；S102：对多路视频数据进行预处理和数据融合，形成待处理视频数据。本申请的一种自动驾驶视频语义分割***及方法，能够极大降低非关键帧的计算量，具有更新速度快、算法简单、计算量小、运行速度快、准确度高、适用场景范围广等优点。

Description

一种自动驾驶视频语义分割***及方法

技术领域

本发明涉及视频处理技术领域，具体为一种自动驾驶视频语义分割***及方法。

背景技术

目前自动驾驶领域在实用化方面都取得了突破性的进展，其对于汽车行业甚至是交通运输业有着深远的影响。通过对车载感知视频的分析与处理，即让计算机自动的对入库视频进行分割与组织，通过分析提取必要的信息，输入车辆行为决策***，实现车辆自动驾驶操作。

视频正常的播放速度是每秒15-30帧，每个待识别对象，都会出现一段时间，对每帧视频图像都进行分析与语义提取，会增加计算量，使得计算机资源的开销相当巨大且没有价值。

发明内容

本发明意在提供一种自动驾驶视频语义分割***及方法，能够极大降低非关键帧的计算量，运行速度快、准确度高、适用场景范围广。

本申请提供如下技术方案：

一种自动驾驶视频语义分割方法，包括：

S100：获取待处理的视频数据；

S200：通过视频稀疏采样算法对待处理的视频数据进行关键帧提取；

S300：基于卷积神经网络构建分类模型；

S400：通过分类模型对关键帧进行语义识别分类，生成视频数据的语义分割结果。

进一步，所述S100包括：

S101：采集多路视频数据；

S102：对多路视频数据进行预处理和数据融合，形成待处理视频数据。

进一步，所述S200包括：

S201：通过帧差法计算视频数据中相邻两帧图像之间的差异度；

S202：根据差异度将视频数据分割为若干视频段；

S203：从每个视频段中选取若干帧图像作为关键帧。

进一步，所述S203包括：

S2031：从视频段中随机选取第一个关键帧；

S2032：从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧。

进一步，所述S201通过对像素的时间差分进行闭值化来提取相邻帧的差异度。

进一步，所述S201包括：

S2011：将相邻帧图像对应像素值相减得到差分图像；

S2012：对差分图像进行二值化；

S2013：根据二值化后的差分图像，计算差异度。

进一步，所述S300包括：

S301：建立卷积神经网络的卷积层、池化层以及全连接层；

S302：构建训练集，通过训练集对卷积神经网络进行训练。

进一步，所述S301包括：

S3011：构建卷积层，卷积层采用同一化核、边缘检测核、均值模糊核、高斯滤波核、图像锐化核以及浮雕核中的一种或多种作为卷积层的特征提取器；

S3012：构建池化层，池化层的池化窗口大小根据输入图片大小以及特征提取器的大小配置，池化算法采用平均值池化、最大值池化或随机池化算法；

S3013：构建全连接层，全连接层使用了Softmax激活函数作为分类器。

进一步，S400包括：

S401：通过分类模型对关键帧进行语义识别，生成各个分类的概率；

S402：根据各个分类的概率，将关键帧语义分类至概率最大的分类中；

S403：根据各个关键帧的语义识别结果，对语义识别结果相同的相邻关键帧的语义识别结果进行融合；

S404：根据各个关键帧的语义识别结果对关键帧对应的视频段进行语义标注，形成语义分割结果。

进一步，本申请还公开了一种自动驾驶视频语义分割***，该***使用了上述的自动驾驶视频语义分割方法。

本发明技术方案利用帧差法实现关键帧的提取，在图像序列相邻两帧间采用基于像素的时间差分通过闭值化来提取出图像中的差异度，进而提取关键帧。然后构建卷积神经网络模型架构，采用CNN卷积神经网络识别图像，对关键帧以及对应的视频段进行语义标记，最终实现视频语义分割。本发明技术方案可以大大降低非关键帧的计算量，具有更新速度快、算法简单、计算量小、运行速度快、准确度高、适用场景范围广等优点。

附图说明

图1为本申请一种自动驾驶视频语义分割方法实施例中的流程图。

具体实施方式

下面通过具体实施方式对本申请技术方案进行进一步详细说明：

实施例一

如图1所示，本实施例公开的一种自动驾驶视频语义分割方法，应用于自动驾驶领域，用于对自动驾驶汽车感知摄像头拍摄的视频进行视频语义分割和识别，可以实现对道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测等五种情况类型的识别。

该方法包括：

S100：获取待处理的视频数据；

S300：基于卷积神经网络构建分类模型；

本实施例中，视频数据由车辆上的多个摄像头拍摄得到，S100包括：

S101：通过车辆摄像头采集多路视频数据；

S102：对多路视频数据进行预处理和数据融合，形成待处理视频数据，预处理包括畸变矫正、色相调整等。

S200包括：

S202：根据差异度将视频数据分割为若干视频段；

S203：从每个视频段中选取若干帧图像作为关键帧。本实施中，从视频段中随机选取一个帧作为关键帧。

本实施例中，通过对像素的时间差分进行闭值化来提取相邻帧的差异度。具体的，S201包括：

S2011：将相邻帧图像对应像素值相减得到差分图像；

S2012：对差分图像进行二值化；

S2013：根据二值化后的差分图像，计算差异度，本实施例中，将大于差异大于阈值的像素二值化为黑色，然后根据二值化后图像黑色像素的数量计算差异度。

S300包括：

S301：建立卷积神经网络的卷积层、池化层以及全连接层；

具体包括：

S302：构建训练集，通过训练集对卷积神经网络进行训练。

S400包括：

本实施例中，设置道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测五种类别的分类，并预先采集上述五类的图片，其中前4种类型图像数据为各70张，交通信号灯对红、绿、黄灯各拍摄70张。使用这些图像训练模型的步骤是：将收集到的图像数据集中的图像数据读取到程序中，图像数据包括图片和图片的标签，并且是它们是一一对应的关系。数据集分为两大类，一种是训练数据集，设置为training文件夹，在里面再分为7个文件夹，包括：道路检测、行人检测、车辆检测、交通标志检测、交通信号红灯、交通信号绿灯、交通信号黄灯，每种类别分别是50张图片，另一种就是测试数据集，设置为test文件夹，test文件夹里是5种类别的相应的图片数据文件夹，每种类别文件夹中有20张图片。已经将图像的数据分成了训练集和测试集。

将图像数据读取到程序中。读取文件夹下的图像数据，将它们读取到images数组中，同时将这些图片的数据所对应的标签读取到labels数组中，并且images和labels中的数据都是一对一的关系。本实施例采用CNN模型对数据集进行训练。CNN模型的前三层是卷积操作，第一层是一个5x5的卷积核，2、3层则用的是3x3的卷积核。卷积操作主要是提取特征，之后再进行分类，将每一个图片变成一个一维向量。进行全连接操作，训练CNN模型并保存图片训练结果。其中训练模型的迭代次数为350次。

本实施中还公开了一种自动驾驶视频语义分割***，该***应用于无人驾驶车辆上，使用了本实施例的自动驾驶视频语义分割方法，能够基于自动驾驶汽车采集拍摄的视频数据进行场景语义的识别分析，如道路检测、行人检测、车辆检测、交通标志检测和交通信号灯检测等。

实施例二

本实施例与实施例一的区别在于，本实施例中S203包括：

S2031：从视频段中随机选取第一个关键帧；

实施例三

本实施例与实施例一的区别在于，本实施例中S203包括：

S2031：从视频段中选取第一帧作为第一个关键帧；

S2032：逐帧计算每一帧与上一关键帧的差异度，若差异度大于预设值，则选取当前帧为关键帧，直至视频段的帧全部计算完毕。

以上的仅是本发明的实施例，该发明不限于此实施案例涉及的领域，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种自动驾驶视频语义分割方法，其特征在于：包括：

S100：获取待处理的视频数据；

S300：基于卷积神经网络构建分类模型；

S400：通过分类模型对关键帧进行语义识别分类，生成视频数据的语义分割结果；

所述S200包括：

S202：根据差异度将视频数据分割为若干视频段；

S203：从每个视频段中选取若干帧图像作为关键帧；

所述S203包括：

S2031：从视频段中随机选取第一个关键帧；

S2032：从第一个关键帧开始按照固定的间隔从视频段中选取帧图像作为关键帧；

所述S201通过对像素的时间差分进行闭值化来提取相邻帧的差异度；

所述S201包括：

S2011：将相邻帧图像对应像素值相减得到差分图像；

S2012：对差分图像进行二值化；

S2013：根据二值化后的差分图像，计算差异度；

所述S300包括：

S301：建立卷积神经网络的卷积层、池化层以及全连接层；

S302：构建训练集，通过训练集对卷积神经网络进行训练；

所述S301包括：

S3013：构建全连接层，全连接层使用了Softmax激活函数作为分类器；

S400包括：

2.根据权利要求1所述的一种自动驾驶视频语义分割方法，其特征在于：所述S100包括：

S101：采集多路视频数据；

3.一种自动驾驶视频语义分割***，其特征在于：使用了如权利要求1-2中任一项所述的自动驾驶视频语义分割方法。