CN109766828A

CN109766828A - 一种车辆目标分割方法、装置及通信设备

Info

Publication number: CN109766828A
Application number: CN201910015899.7A
Authority: CN
Inventors: 张睿; 赵启阳; 张红龙; 郑佩洪
Original assignee: Chongqing Tongji Tonghe Information Technology Co Ltd
Current assignee: Chongqing Tongji Tonghe Information Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-05-17

Abstract

本发明提供一种车辆目标分割方法、装置及通信设备，该方法包括将各交通视频帧划分为强日光场景或弱日光场景；根据交通视频帧的场景类型，转换到与场景类型对应的色彩空间内；构建交通视频帧的背景帧；基于各交通视频帧与背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果；采用目标检测模型获取车辆目标检测定位结果；将车辆目标第一分割结果与车辆目标检测定位结果进行融合，得到车辆目标第二分割结果；以车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型，获取待预测的交通视频帧，将待预测的交通视频帧输入到车辆目标分割模型，得到预测结果；实现了交通视频中车辆目标的自动标注，具有较高的准确性和效率。

Description

一种车辆目标分割方法、装置及通信设备

技术领域

本发明涉及智能交通技术领域，尤其涉及一种车辆目标分割方法、装置及通信设备。

背景技术

随着计算机技术的不断发展，机器学习，模式识别，数据挖掘等方面的技术对智能交通产生了至关重要的作用。目前根据机器学习的形式，可以把交通图像目标识别算法主要分为两类：无监督的目标自动识别算法和有监督目标自动识别算法。所谓无监督目标自动识别算法，就是在没有任何标注的训练数据中，由算法寻求目标的潜在特性，从而完成视频图像中的目标自动检测与识别。而有监督目标检测算法则是对已经由人工标注完全的正负训练样本集进行训练学习，使计算机找出特定目标的一类特征，然后根据训练结果对测试数据中的目标进行自动检测和识别。

在海量精准人工标注的基础上，有监督深度学***，在智能交通领域也得到了广泛的关注。国际上已经提出了若干公开的交通视频数据集，也开展了多项交通视频智能分析方面的竞赛，取得了一定的进展。

有监督深度学习依赖于大量、准确的像素级人工标注，而准确的像素级人工标注需要投入大量的时间成本和人力成本。交通视频数据具有采集频率高、采集不间断、分辨率较高等特点，而且在光照变化、特殊气候、自然环境等方面具有很强的地区差异性，这对人工标注工作提出了更加严峻的挑战：可供标注的数据规模非常庞大，而较小规模的人工标注数据又难具有足够的代表性。因此在能够保证车辆目标分割性能的前提下，降低投入的人工标注成本与时间成本，显得极其重要。

发明内容

本发明提供的一种车辆目标分割方法、装置及通信设备，主要解决的技术问题是：当前车辆目标分割识别过程所需投入的人工、时间成本高。

为解决上述技术问题，本发明提供一种车辆目标分割方法，包括：

获取固定长度时间窗口的交通视频帧，根据预先设定的自适应划分规则，将各所述交通视频帧划分为强日光场景或弱日光场景；

根据所述交通视频帧的场景类型，将所述交通视频帧转换到与所述场景类型对应的色彩空间内；

构建所述交通视频帧的背景帧；

基于各所述交通视频帧与所述背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果；

采用目标检测模型获取各所述交通视频帧的车辆目标检测定位结果；

将所述车辆目标第一分割结果与所述车辆目标检测定位结果进行融合，得到车辆目标第二分割结果；

以所述车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型以及相应的损失函数，训练得到车辆目标分割模型；

在进行预测时，获取待预测的交通视频帧，将所述待预测的交通视频帧输入到所述车辆目标分割模型，得到预测结果；

将所述预测结果进行二值化处理，得到所述待预测的交通视频帧的车辆目标分割结果。

可选的，所述自适应划分规则包括：

根据所述交通视频帧的色彩空间分布，建立亮度、色度与饱和度的联合概率分布模型，将所述交通视频帧划分为强日光场景或弱日光场景。

可选的，所述根据所述交通视频帧的场景类型，将所述交通视频帧转换到与所述场景类型对应的色彩空间内，包括：

对于场景类型为强日光场景的交通视频帧，将其由RGB色彩空间转换到 Lab色彩空间；对于场景类型为弱日光场景的交通视频帧，将其由RGB色彩空间转换到灰度空间。

可选的，所述在将所述交通视频帧转换到与所述场景类型对应的色彩空间内之前，还包括：

将各所述交通视频帧的分辨率调整为设定的目标分辨率。

可选的，所述构建所述交通视频帧的背景帧包括：

对于转换到Lab色彩空间的各交通视频帧，逐像素针对同一坐标位置的各像素点，使用算术平均构造出第一背景帧；对于转换到灰度空间的各交通视频帧，逐像素针对同一坐标位置的各像素点，取最小灰度值构造出第二背景帧。

可选的，所述各基于所述交通视频帧与所述背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果包括：

针对各所述交通视频帧，分别逐像素针对同一坐标位置的像素点，计算其与对应的所述背景帧所对应坐标位置的像素点之间的欧氏距离D、以及二范数之最小值，将所述二范数之最小值作为所述像素点的图像噪声概率模型的均方差σ；

获取设定参数阈值τ，逐像素判断所述D是否大于所述σ与所述τ之积。如是，则判定所述像素点存在车辆目标，记为“1”；如否，则判定所述像素点不存在车辆目标，记为“0”；得到所述交通视频帧的矩阵M；所述车辆目标第一分割结果包括所述矩阵M。

可选的，所述将所述车辆目标第一分割结果与所述车辆目标检测定位结果进行融合，得到车辆目标第二分割结果包括：

将所述矩阵M中为“1”的各像素点位置，与所述车辆目标检测定位结果进行比较，判断所述为“1”的像素点位置是否位于所述车辆目标检测定位结果的框选区域内，如是，则仍置为“1”，如否，则置为“0”；得到矩阵M*，所述车辆目标第二分割结果包括所述矩阵M*；所述框选区域内的像素点表征所述车辆目标检测定位结果为存在车辆目标的像素点。

进一步的，本发明还提供一种车辆目标分割装置，包括：

场景划分模块，用于获取固定长度时间窗口的交通视频帧，根据预先设定的自适应划分规则，将各所述交通视频帧划分为强日光场景或弱日光场景；

色彩空间转换模块，用于根据所述交通视频帧的场景类型，将所述交通视频帧转换到与所述场景类型对应的色彩空间内；

构建模块，用于构建所述交通视频帧的背景帧；

第一分割模块，用于基于各所述交通视频帧与所述背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果；

车辆目标检测定位模块，用于采用目标检测模型获取各所述交通视频帧的车辆目标检测定位结果；

第二分割模块，用于将所述车辆目标第一分割结果与所述车辆目标检测定位结果进行融合，得到车辆目标第二分割结果；

分割模型训练模块，用于以所述车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型以及相应的损失函数，训练得到车辆目标分割模型；

预测执行模块，用于在进行预测时，获取待预测的交通视频帧，将所述待预测的交通视频帧输入到所述车辆目标分割模型，得到预测结果；

预测结果处理模块，用于将所述预测结果进行二值化处理，得到所述待预测的交通视频帧的车辆目标分割结果。

进一步的，本发明还提供一种通信设备，包括处理器、存储器以及通信总线，所述通信总线用于实现所述处理器与所述存储器之间的通信连接，所述存储器中存储有一个或者多个计算机程序，所述计算机程序可被所述处理器执行，以实现如上任一项所述的车辆目标分割方法的步骤。

本发明的有益效果是：

根据本发明提供的一种车辆目标分割方法、装置及通信设备，该方法包括获取固定长度时间窗口的交通视频帧，根据预先设定的自适应划分规则，将各交通视频帧划分为强日光场景或弱日光场景；根据交通视频帧的场景类型，将交通视频帧转换到与场景类型对应的色彩空间内；构建交通视频帧的背景帧；基于各交通视频帧与背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果；采用目标检测模型获取各交通视频帧的车辆目标检测定位结果；将车辆目标第一分割结果与车辆目标检测定位结果进行融合，得到车辆目标第二分割结果；以车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型以及相应的损失函数，训练得到车辆目标分割模型；在进行预测时，获取待预测的交通视频帧，将待预测的交通视频帧输入到车辆目标分割模型，得到预测结果；将预测结果进行二值化处理，得到待预测的交通视频帧的车辆目标分割结果；实现了交通视频中车辆目标的自动标注，在此基础上设计具有标注噪声抑制能力的深度神经网络模型，可实时地对交通视频中的车辆目标进行像素级分割，并具有较高的准确性和计算效率：在实际测试中的准确率不低于95％，漏检率不高于5％；模型的存储规模不超过10MB；单帧平均处理时间不超过10ms。

附图说明

图1为本发明实施例一的车辆目标分割方法流程示意图；

图2为本发明实施例一的第一分割结果示意图；

图3为本发明实施例一的车辆目标检测定位结果示意图；

图4为本发明实施例一的车辆目标第二分割结果示意图；

图5为本发明实施例二的车辆目标分割装置结构示意图；

图6为本发明实施例三的通信设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

为了解决当前车辆目标分割识别过程所需投入的人工、时间成本高的问题，本实施例从有监督深度学习入手，提出可自动产生车辆目标标注的训练方法，以及具备一定的标注噪声纠正能力的深度神经网络模型。可实时地对交通视频中的车辆目标进行像素级分割，并具有较高的准确性和计算效率。

请参见图1，图1为本实施例的车辆目标分割方法流程示意图，该方法包括如下步骤：

S101、获取固定长度时间窗口的交通视频帧，根据预先设定的自适应划分规则，将各交通视频帧划分为强日光场景或弱日光场景。

例如取60s内的视频帧，假设帧率为25帧/s，总计1500帧。固定时长长度窗口可以根据实际情况灵活设置，例如1小时、1天、1周等，本实施例对此不做限制。

将选取的交通视频帧，按照光照条件，确定每一帧图像的场景类型。场景类型包括强日光场景(白天)、弱日光场景(夜晚)。

自适应划分规则为根据交通视频帧的色彩空间分布，建立亮度、色度与饱和度的联合概率分布模型，将交通视频帧划分为强日光场景或弱日光场景。

例如，在统计时间窗口内，计算每个像素的亮度标准差s_i。取所有像素标准差的均值S和方差σ，计算出视频前景区域F_(si>S+σ)和背景区域B_(si<S+σ)。

在统计时间窗口内，计算每个像素的最大亮度L_max、最大色度U_max、最大饱和度V_max，构建最大图像I_max，并以同样方式构建最小图像I_min。设待划分场景类型的图像为I，针对前景区域I∈F计算d₀＝|I-I_min|，针对背景区域I∈B计算 d₁＝|I-I_min|以及背景平均亮度L_mean。如果d₀-d₁>50且L_mean>100，I为强日光场景，否则I为弱日光场景。

S102、根据交通视频帧的场景类型，将交通视频帧转换到与场景类型对应的色彩空间内。

对于场景类型为强日光场景的交通视频帧，将其由RGB(Red Green Blue，红绿蓝)色彩空间转换到Lab(Lab color space，颜色-对立空间)色彩空间；对于场景类型为弱日光场景的交通视频帧，将其由RGB色彩空间转换到灰度空间。

RGB色彩空间中，R、G、B的取值范围为[0,255]。Lab色彩空间中的L分量用于表示像素的亮度，取值范围是[0,100]，表示从纯黑到纯白；a表示从红色到绿色的范围，取值范围是[127,-128]；b表示从黄色到蓝色的范围，取值范围是[127,-128]。应当理解的是，转换的方式可以采用现有任意方式，本实施例对此不做限制。

可选的，在将交通视频帧转换到与场景类型对应的色彩空间内之前，将各交通视频帧的分辨率调整为设定的目标分辨率。例如640*360。

S103、构建交通视频帧的背景帧。

假设，转换到Lab色彩空间的交通视频帧有100张，则根据这100张交通视频帧的L、a、b值，例如第一张为L1、a1、b1，第二张为L2、a2、b2，……，第100张为L100、a100、b100，那么将得到第一背景帧为L^*、a^*、b^*，其中 L^*＝(L1+L2+…+L100)/100，a^*＝(a1+a2+…+a100)/100，b^*＝(b1+b2+…+b100)/100。

假设，转换到灰度空间的交通视频帧有100张，则根据这100张交通视频帧的灰度值g1、g2、……、g100，可以得到第二背景帧的灰度值g^*＝min(g1、 g2、……、g100)。

S104、基于各交通视频帧与背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果。

针对各交通视频帧，分别逐像素针对同一坐标位置的像素点，计算其与对应的背景帧所对应坐标位置的像素点之间的欧氏距离D、以及2-范数之最小值，将该2-范数之最小值作为该像素点的图像噪声概率模型的均方差σ；获取设定参数阈值τ，逐像素判断D是否大于所述σ与所述τ之积。如是，则判定所述像素点存在车辆目标，记为“1”；如否，则判定所述像素点不存在车辆目标，记为“0”；得到所述交通视频帧的矩阵M；所述车辆目标第一分割结果包括所述矩阵M。

其中，对于转换到Lab色彩空间的交通视频帧与第一背景帧在同一坐标位置的两像素点的欧氏距离其中L、a、b为转换到Lab色彩空间的交通视频帧的Lab值，L^*、a^*、b^*为第一背景帧的Lab值。

对于转换到灰度空间的交通视频帧与第二背景帧在同一坐标位置的两像素点的欧氏距离D2＝g-g^*，其中g为转换到灰度空间的交通视频帧的灰度值，g^*为第二背景帧的灰度值。

其中，对于转换到Lab色彩空间的交通视频帧与第一背景帧在同一坐标位置的两像素点的2-范数之最小值，可以按照如下方式计算得到：

min(||p_img||₂,||p_bg||₂)，其中p_img＝[L_img,a_img,b_img]^T和p_bg＝[L_bg,a_bg,b_bg]^T分别是视频帧和背景帧的同一位置像素的Lab三通道向量。

对于转换到灰度空间的交通视频帧与第二背景帧在同一坐标位置的两像素点的2-范数之最小值，可以按照如下方式计算得到：

min(p_img,p_bg)，其中p_img和p_bg分别是视频帧和背景帧的同一位置像素的灰度。

参数阈值τ，，推荐取值范围为0.01～0.1，默认取0.05。

车辆目标第一分割结果可以参见如图2所示，图中每一个方格代表一个像素点。

S105、采用目标检测模型获取各交通视频帧的车辆目标检测定位结果。

目标检测模型可以采用现有任意的检测模型，包括但不限于检测模型 YOLO-v3。

车辆目标检测定位结果可以参见如图3所示，其中框选区域31表示该区域内存在车辆目标的像素点。

S106、将车辆目标第一分割结果与车辆目标检测定位结果进行融合，得到车辆目标第二分割结果。

继续参见图2与图3，将矩阵M中为“1”的各像素点位置，与车辆目标检测定位结果进行比较，判断为“1”的像素点位置是否位于车辆目标检测定位结果的框选区域31内，如是，则仍置为“1”，如否，则置为“0”；得到矩阵M*，车辆目标第二分割结果包括矩阵M*；框选区域内的像素点表征车辆目标检测定位结果为存在车辆目标的像素点。

其中，车辆目标第二分割结果可以参见图4所示。

S107、以车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型以及相应的损失函数，训练得到车辆目标分割模型。

可以参照图像语义分割领域的经典模型U-Net，设计用于车辆目标检测的深度神经网络。

深度神经网络模型的损失函数设计为预测值Y与标签Z的加权平方和：

其中权值w_ij的设置如下：

这里的λ取某个大于1的值(默认为10.00)。

S108、在进行预测时，获取待预测的交通视频帧，将待预测的交通视频帧输入到车辆目标分割模型，得到预测结果。

可以实时获取从交通摄像头采集的视频图像帧作为待预测的交通视频帧。

S109、将预测结果进行二值化处理，得到待预测的交通视频帧的车辆目标分割结果。

这里pre为预测值，pre_bin为预测值的二值化结果。

本发明提供的车辆目标分割方法，获取固定长度时间窗口的交通视频帧，根据预先设定的自适应划分规则，将各交通视频帧划分为强日光场景或弱日光场景；根据交通视频帧的场景类型，将交通视频帧转换到与场景类型对应的色彩空间内；构建交通视频帧的背景帧；基于各交通视频帧与背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果；采用目标检测模型获取各交通视频帧的车辆目标检测定位结果；将车辆目标第一分割结果与车辆目标检测定位结果进行融合，得到车辆目标第二分割结果；以车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型以及相应的损失函数，训练得到车辆目标分割模型；在进行预测时，获取待预测的交通视频帧，将待预测的交通视频帧输入到车辆目标分割模型，得到预测结果；将预测结果进行二值化处理，得到待预测的交通视频帧的车辆目标分割结果；实现了交通视频中车辆目标的自动标注，在此基础上设计具有标注噪声抑制能力的深度神经网络模型，可实时地对交通视频中的车辆目标进行像素级分割，并具有较高的准确性和计算效率：在实际测试中的准确率不低于95％，漏检率不高于5％；模型的存储规模不超过10MB；单帧平均处理时间不超过10ms。

实施例二：

本实施例在实施例一的基础上，提供一种车辆目标分割装置，用以实现上述实施例一所述的车辆目标分割方法的步骤。

请参见图5，车辆目标分割装置50包括场景划分模块51、色彩空间转换模块52、构建模块53、第一分割模块54、车辆目标检测定位模块55、第二分割模块56、分割模型训练模块57、预测执行模块58、预测结果处理模块59；其中

场景划分模块51用于获取固定长度时间窗口的交通视频帧，根据预先设定的自适应划分规则，将各交通视频帧划分为强日光场景或弱日光场景。

色彩空间转换模块52用于根据交通视频帧的场景类型，将交通视频帧转换到与场景类型对应的色彩空间内。

构建模块53用于构建交通视频帧的背景帧。

假设，转换到Lab色彩空间的交通视频帧有100张，则根据这100张交通视频帧的L、a、b值，例如第一张为L1、a1、b1，第二张为L2、a2、b2，……，第100张为L100、a100、b100，那么将得到第一背景帧为L^*、a^*、b^*，其中L^*＝ (L1+L2+…+L100)/100，a^*＝(a1+a2+…+a100)/100，b^*＝(b1+b2+…+b100)/100。

第一分割模块54用于基于各交通视频帧与所述背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果。

参数阈值τ按照如下方式设置：

车辆目标检测定位模块55用于采用目标检测模型获取各交通视频帧的车辆目标检测定位结果。

第二分割模块56用于将车辆目标第一分割结果与车辆目标检测定位结果进行融合，得到车辆目标第二分割结果。

将矩阵M中为“1”的各像素点位置，与车辆目标检测定位结果进行比较，判断为“1”的像素点位置是否位于车辆目标检测定位结果的框选区域31内，如是，则仍置为“1”，如否，则置为“0”；得到矩阵M*，车辆目标第二分割结果包括矩阵M*；框选区域内的像素点表征车辆目标检测定位结果为存在车辆目标的像素点。

分割模型训练模块57用于以车辆目标第二分割结果为基础，设计具有噪声抑制能力的深度神经网络模型以及相应的损失函数，训练得到车辆目标分割模型。

预测执行模块58用于在进行预测时，获取待预测的交通视频帧，将待预测的交通视频帧输入到车辆目标分割模型，得到预测结果。

预测结果处理模块59用于将预测结果进行二值化处理，得到待预测的交通视频帧的车辆目标分割结果。

实施例三：

本实施例在实施例一的基础上，提供一种通信设备，用以实现上述实施例一所述的车辆目标分割方法的步骤。

请参见图6，该通信设备包括处理器61、存储器62以及通信总线63，其中通信总线63用于实现处理器61与存储器62之间的通信连接，存储器62中存储有一个或者多个计算机程序，计算机程序可被处理器61执行，以实现如上实施例一所述的车辆目标分割方法的步骤。具体请参见实施例一中的描述，在此不再赘述。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种车辆目标分割方法，其特征在于，包括：

构建所述交通视频帧的背景帧；

2.如权利要求1所述的车辆目标分割方法，其特征在于，所述自适应划分规则包括：

3.如权利要求1所述的车辆目标分割方法，其特征在于，所述根据所述交通视频帧的场景类型，将所述交通视频帧转换到与所述场景类型对应的色彩空间内，包括：

对于场景类型为强日光场景的交通视频帧，将其由RGB色彩空间转换到Lab色彩空间；对于场景类型为弱日光场景的交通视频帧，将其由RGB色彩空间转换到灰度空间。

4.如权利要求3所述的车辆目标分割方法，其特征在于，所述在将所述交通视频帧转换到与所述场景类型对应的色彩空间内之前，还包括：

将各所述交通视频帧的分辨率调整为设定的目标分辨率。

5.如权利要求3所述的车辆目标分割方法，其特征在于，所述构建所述交通视频帧的背景帧包括：

6.如权利要求1-5任一项所述的车辆目标分割方法，其特征在于，所述各基于所述交通视频帧与所述背景帧，采用差分法与图像噪声概率模型构建车辆目标第一分割结果包括：

7.如权利要求6所述的车辆目标分割装置，其特征在于，所述将所述车辆目标第一分割结果与所述车辆目标检测定位结果进行融合，得到车辆目标第二分割结果包括：

将所述矩阵M中为“1”的各像素点位置，与所述车辆目标检测定位结果进行比较，判断所述为“1”的像素点位置是否位于所述车辆目标检测定位结果的框选区域内，如是，则仍置为“1”，如否，则置为“0”；得到矩阵M^*，所述车辆目标第二分割结果包括所述矩阵M^*；所述框选区域内的像素点表征所述车辆目标检测定位结果为存在车辆目标的像素点。

8.一种车辆目标分割装置，其特征在于，所述车辆目标分割装置包括：

构建模块，用于构建所述交通视频帧的背景帧；

9.一种通信设备，其特征在于，所述通信设备包括处理器、存储器以及通信总线，所述通信总线用于实现所述处理器与所述存储器之间的通信连接，所述存储器中存储有一个或者多个计算机程序，所述计算机程序可被所述处理器执行，以实现如上权利要求1-7任一项所述的车辆目标分割方法的步骤。