CN112364793A

CN112364793A - 基于长短焦多相机车辆环境下的目标检测和融合方法

Info

Publication number: CN112364793A
Application number: CN202011288888.5A
Authority: CN
Inventors: 冯明驰; 王鑫; 孙博望; 刘景林
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-12

Abstract

本发明请求保护一种基于长短焦多相机车辆环境下的目标检测和融合方法。该方法包括以下几个步骤：1.采用卷积神经网络对长短焦双目相机采集的图像进行目标检测，得到同一时刻下不同焦距相机所得图像中的目标框位置。2.根据相机成像原理和相机标定所得的内外参数K、R、T，可得到空间目标点P在长、短焦相机像素坐标系下的映射关系f。3.将长焦相机图像中的目标框位置，通过映射关系f,得到短焦相机图像中相应目标框的位置，再与原短焦相机图像中的目标进行融合，实现了不同距离条件下的目标检测任务。本发明克服了单一焦距相机不能适应不同距离下目标检测任务的局限，提高了车辆环境下目标检测的准确度。同时，本方法简单易用，成本低，实时性高。

Description

基于长短焦多相机车辆环境下的目标检测和融合方法

技术领域

本发明属于智能汽车环境感知技术领域，具体涉及到一种长短焦距多相机车辆环境下的目标检测和融合方法。

背景技术

近些年来，随着人工智能、机器视觉等领域的快速发展，自动驾驶成为了学术界、工业界研究的重要领域。环境感知技术是自动驾驶***中的关键技术之一，也是最基础的模块，它像车的眼睛告诉车辆周围的环境。目标检测、定位、运动状态估计是环境感知模块中最基本的功能。

随着深度学习的广泛应用，以及计算设备计算能力的大幅提高，基于深度学习的环境感知技术成为环境感知模块的重要支撑。基于视觉的环境感知主要实现了行人检测、障碍物检测、车道线检测、可行驶区域检测、交通标志识别等功能，结合立体视觉技术可实现目标的定位。在当前，国内外研究者一直聚焦于不断提升单一焦距相机的目标检测性能。但是在复杂的工作环境中，单一焦距相机获取的信息有局限性，仅仅依靠单一焦距的相机不能对不同距离处的目标进行正确的检测，往往会发生漏检的情况。而采用不同焦距的相机，恰好能弥补两者之间的缺点，集合两者的优点，准确地检测到车辆环境下的目标。例如，短焦相机视野广，远处目标成像较小，难以通过深度学习检测到；近处目标较大，容易检测到。长焦相机视野窄，远处目标较大，容易被检测到；但是近处目标可能由于相机视野的原因，并不能采集到。因此综合短焦和长焦相机图像各自的优点，能实现不同距离下的目标检测任务，可以更准确的对车辆环境下目标进行检测，有效避免目标漏检情况的发生。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于长短焦多相机车辆环境下的目标检测和融合方法。本发明的技术方案如下：

一种基于长短焦多相机车辆环境下的目标检测和融合方法，其包括以下步骤：

步骤1、分别安装长焦相机、短焦双目相机，对双目***进行标定。并将长、短焦相机采集到的图像序列输入到深度学习卷积神经网络，通过目标检测得到同一时刻下长短焦双目相机在广视野和窄视野中的目标框位置；

步骤2、根据长焦相机窄视野中的目标位置和双目标定的内外部参数，利用相机成像原理，得到空间目标点P在长短焦相机像素坐标系下的映射关系f，得到长焦相机窄视野中的目标位置p₁在短焦相机宽视野中对应的目标位置p₂；

步骤3、通过分析短焦相机广视野中检测到的目标位置，以及步骤2得到的长焦相机窄视野中的目标位置在短焦相机宽视野中对应的目标位置，对长短焦图像中的目标框进行融合处理。

进一步的，所述步骤1)具体包括以下步骤：

步骤2-1.设置好长短焦相机的不同焦距，并将双目相机***安装至车辆上方同一高度上，双目相机之间留有一定的基线距离；

步骤2-2.使用张正友标定法进行标定，得到双目***的内部参数K，以及外部参数R、T；其中K是包含相机焦距、光心等信息的内参矩阵，R和T分别是长焦相机相对于短焦相机的旋转矩阵和平移矩阵。

步骤2-3.采用深度学习目标检测，采用轻量级的卷积神经网络YOLOv3-Tiny对长短焦双目相机采集的同一时刻图像进行目标检测，具体包括步骤：数据集制作、迁移学习、网络推理及目标检测，获得不同焦距相机下的目标框位置。

进一步的，所述步骤2-1设置相机焦距以及安装相机***，采用不同焦距的两个相机，短焦距相机放置于左，长焦距相机置于右，两相机之间的基线长度为b，构成长短焦双目视觉***，并将该双目***至于车辆顶部前方。

进一步的，所述步骤2-2)标定长短焦双目相机，在双目相机前方放置一张棋盘格标定板，且必须要求棋盘格同时出现在长短焦相机的视野中；使用双目相机捕获棋盘格标定板的角点，利用张正友标定法计算各自相机的内参K₁,K₂，以及双目相机之间的外参R和T。

进一步的，所述步骤2-3数据集制作的具体过程是，将自行采集并完成标签制作的重庆市交通数据集与开源的Pascal VOC 2012数据集合并，然后对合并后的数据集进行数据增强，获得更多训练样本；

所述迁移学习的具体过程是，在已有的预训练模型基础上，再利用YOLOv3_Tiny网络加载合并后的数据集进行训练；

所述的网络推理及目标检测，是指在智能车正常的运行过程中YOLOv3_Tiny网络加载已经训练好的网络模型权重进行前向推理计算，完成目标检测任务。

进一步的，所述步骤2由相机成像原理建立长焦相机像素坐标系与短焦相机像素坐标系对应关系，可由如下公式计算：

s₁p₁＝K₁P,s₂p₂＝K₂(RP+T)

P表示实际空间中的一点，p₁,p₂表示空间中的点P在长短焦相机像素坐标系中分别对应的像素点，K₁,K₂分别表示长焦相机和短焦相机的内部参数，R、T表示长短焦双目相机间的外部参数；s₁,s₂分别表示点P在长、短焦相机坐标系中的深度信息。

当使用齐次坐标时，将上式写成如下形式：

p₁＝K₁P,p₂＝K₂(RP+T)

通过上式，从而可以得到p₁,p₂之间的映射关系f如下：

p₂＝K₂RK₁-¹p₁+K₂T

进一步的，所述步骤3具体包括以下步骤：

步骤3-1.对于长焦相机中检测出来的第i个目标框B_l的位置(x_l,y_l,w_l,h_l)根据映射关系f，可以得出其在短焦相机图像中对应的目标框B_s′位置(x′_s,y′_s,w′_s,h′_s)；其中，x_l,y_l,w_l,h_l分别表示目标所在的中心位置横、纵坐标以及目标框的宽、高；x′_s,y′_s,w′_s,h′_s分别表示经映射后的目标所在的中心位置横、纵坐标以及目标框的宽、高。

步骤3-2.计算经映射后的目标框B′_s(x′_s,y′_s,w′_s,h′_s)与短焦相机中检测得到的目标框B_s(x_s,y_s,w_s,h_s)之间的交并比IOU，当IOU>阈值t时，说明长短焦相机均检测出目标框；否则，至少有一个相机没有检测出目标，IOU的计算公式如下：

步骤3-3.当IOU>阈值t时，表明该目标在长短焦相机中都检测到，考虑到实际映射结果的偏差，需要计算目标框B′_s、B_s的缩放比例Δw、Δh和偏移比例Δx、Δy，计算公式如下：

Δx＝x_s-x′_s

Δy＝y_s-y′_s

步骤3-4.当IOU<阈值t时，表明短焦相机没有检测出该目标，这时需要B′_s还原B_s，即计算B_s在短焦相机中的位置，还原计算公式如下：

w_s＝w′_s*Δw

h_s＝h′_s*Δh

x_s＝x′_s+Δx

y_s＝y′_s+Δy

步骤3-5.重复上述3-1到3-4的所有步骤，根据长、短焦相机中的目标位置以及类别，完成目标融合。

本发明的优点及有益效果如下：

本发明提出了一种基于长短焦多相机车辆环境下的目标检测和融合方法。在无人驾驶领域，基于单目视觉的目标检测技术应用广泛。这些方法往往会出现近处目标检测效果良好，远处目标检测效果不佳的问题。这是由于单一相机采取固定的焦距，不能很好地适应不同位置处目标的检测，例如，短焦相机视野广，远处目标成像较小，所以通过深度学习难以检测到。长焦相机视野窄，远处目标成像清晰，有利于深度学习进行检测，但是近处的目标可能会不在长焦视野中，因此检测不到。

所以，本发明采用长短焦多相机在车辆环境下进行目标检测和融合的方法，成为了解决这些难题的有效方法。其优越性表现在以下几个方面：

(1)本发明采用短焦相机和长焦相机作为传感器的目标检测和融合技术，与基于单一焦距相机的目标检测方法相比准确度更高，实际应用效果更好。该方法结合了短焦相机和长焦相机各自的优点，弥补了单一焦距相机的缺陷，提高了车辆环境下目标检测的准确度。

(2)本发明采用了双目长短焦相机，相比于单目相机，在车辆环境下能够获得更加丰富的视觉信息，能够更好地实现目标在不同距离下的检测任务。

(3)本发明在自制的重庆交通数据集的基础上，采用了轻量级的卷积神经网络YOLOv3-Tiny对图像中的目标进行检测，相比于常用的YOLOv3算法，本方法的检测速度更快，能够在嵌入式等边缘设备上实时运行，且能达到不错的检测精度。

(4)IOU常用于深度学习目标检测来衡量目标框的置信度，本发明创新地采用IOU作为目标匹配的评判标准，大大提升了目标匹配的准确性，同时该方法的计算时间复杂度低，比传统方法速度更快。

附图说明

图1是本发明提供优选实施例方法基于长短焦多相机车辆环境下的目标检测和融合方法的流程简图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明的目的是提供一种基于长短焦多相机车辆环境下的目标检测和融合方法。通过在智能车顶部安装两个不同焦距的独立相机(之间保留一定的基线距离)，利用基于深度学习的目标检测和融合技术，克服了不同距离下目标检测任务的局限，有效的避免了目标漏检情况的发生，提出此技术方案，如图1所示，包括如下步骤：

步骤1、安装长短焦双目相机，对双目***进行标定。并将长短焦相机采集到的图像序列输入到深度学习卷积神经网络，通过目标检测得到同一时刻下长短焦双目相机在广视野和窄视野中的目标框位置。具体步骤如下：

本发明中短焦相机和长焦相机安装在车辆顶部，设置相机焦距以及安装相机***，采用不同焦距的两个相机，短焦距相机放置于左，长焦距相机置于右，两相机之间的基线长度为b，构成长短焦双目视觉***，并将该双目***至于车辆顶部前方。

(2)标定长短焦双目相机，在双目相机前方放置一张棋盘格标定板，且必须要求棋盘格同时出现在长短焦相机的视野中；使用双目相机捕获棋盘格标定板的角点，利用张正友标定法计算各自相机的内参K，以及双目相机之间的外参R和T。其中K是包含相机焦距、光心等信息的内参矩阵，R和T分别是长焦相机相对于短焦相机的旋转矩阵和平移矩阵。

(3)深度学习目标检测，采用轻量级的卷积神经网络YOLOv3-Tiny对长短焦双目相机采集的同一时刻图像进行目标检测，获得不同焦距相机下的目标框位置。

步骤2、根据长焦相机窄视野中的目标位置和双目标定的内外部参数，利用相机成像原理，得到空间目标点P在长短焦相机像素坐标系下的映射关系f，进一步得到长焦相机窄视野中的目标位置p₁在短焦相机宽视野中对应的目标位置p₂。具体步骤如下：

(1)根据所相机成像原理，建立空间中一点P在长短焦相机像素坐标系中的像素坐标p₁,p₂之间的关系，从而可以通过长焦相机像素坐标系上的目标位置还原在短焦相机像素坐标系中并未检测出的目标位置。

(2)由相机成像原理建立长焦相机像素坐标系与短焦相机像素坐标系对应关系，可由如下公式计算：

s₁p₁＝K₁P,s₂p₂＝K₂(RP+T)

P表示实际空间中的一点，p₁,p₂表示空间中的点P在长短焦相机像素坐标系中分别对应的像素点。K₁,K₂分别表示长焦相机和短焦相机的内部参数。R、T表示长短焦双目相机间的外部参数。s₁,s₂分别表示点P在长、短焦相机坐标系中的深度信息。

如果使用齐次坐标，可以将上式写成如下形式：

p₁＝K₁P,p₂＝K₂(RP+T)

(3)通过上式，从而可以得到p₁,p₂之间的映射关系f如下：

p₂＝K₂RK₁-1p₁+K₂T

步骤3、通过分析短焦相机广视野中检测到的目标位置，以及步骤2得到的长焦相机窄视野中的目标位置在短焦相机宽视野中对应的目标位置，进而对长短焦图像中的目标框进行融合处理。具体步骤如下：

(1)对于长焦相机中检测出来的第i个目标框B_l的位置(x_l,y_l,w_l,h_l)根据映射关系f，可以得出其在短焦相机图像中对应的目标框B′_s位置(x′_s,y′_s,w′_s,h′_s)。其中，x_l,y_l,w_l,h_l分别表示目标所在的中心位置横、纵坐标以及目标框的宽、高；x′_s,y′_s,w′_s,h′_s分别表示经映射后的目标所在的中心位置横、纵坐标以及目标框的宽、高。

(2)计算经映射后的目标框B′_s(x′_s,y′_s,w′_s,h′_s)与短焦相机中检测得到的目标框B_s(x_s,y_s,w_s,h_s)之间的交并比IOU。当IOU>阈值t时，说明长短焦相机均检测出目标框；否则，至少有一个相机没有检测出目标。IOU的计算公式如下：

(3)当IOU>阈值t时，表明该目标在长短焦相机中都检测到，考虑到实际映射结果的偏差，需要计算目标框B′_s、B_s的缩放比例Δw、Δh和偏移比例Δx、Δy。计算公式如下：

Δx＝x_s-x′_s

Δy＝y_s-y′_s

(4)当IOU<阈值t时，表明短焦相机没有检测出该目标，这时需要B′_s还原B_s，即计算B_s在短焦相机中的位置，还原计算公式如下：

w_s＝w′_s*Δw

h_s＝h′_s*Δh

x_s＝x′_s+Δx

y_s＝y′_s+Δy

(5)重复上述3-1到3-4的所有步骤，根据长、短焦相机中的目标位置以及类别，完成目标融合。

上述实施例阐明的方法，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，包括以下步骤：

步骤2、根据长焦相机窄视野中的目标位置和双目标定的内、外部参数，利用相机成像原理，得到空间目标点P在长短焦相机像素坐标系下的映射关系f，得到长焦相机窄视野中的目标位置p₁在短焦相机宽视野中对应的目标位置p₂；

2.根据权利要求1所述的一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，所述步骤1)具体包括以下步骤：

步骤2-2.使用张正友标定法进行标定，得到双目***的内部参数K，以及外部参数R、T；其中K是包含相机焦距、光心等信息的内参矩阵，R和T分别是长焦相机相对于短焦相机的旋转矩阵和平移矩阵；

3.根据权利要求2所述的一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，所述步骤2-1设置相机焦距以及安装相机***，采用不同焦距的两个相机，短焦距相机放置于左，长焦距相机置于右，两相机之间的基线长度为b，构成长短焦双目视觉***，并将该双目***至于车辆顶部前方。

4.根据权利要求2所述的一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，所述步骤2-2)标定长短焦双目相机，在双目相机前方放置一张棋盘格标定板，且必须要求棋盘格同时出现在长短焦相机的视野中；使用双目相机捕获棋盘格标定板的角点，利用张正友标定法计算各自相机的内参K₁,K₂，以及双目相机之间的外参R和T。

5.根据权利要求2所述的一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，所述步骤2-3数据集制作的具体过程是，将自行采集并完成标签制作的重庆市交通数据集与开源的Pascal VOC 2012数据集合并，然后对合并后的数据集进行数据增强，获得更多训练样本；

6.根据权利要求1-5之一所述的一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，所述步骤2由相机成像原理建立长焦相机像素坐标系与短焦相机像素坐标系对应关系，可由如下公式计算：

s₁p₁＝K₁P,s₂p₂＝K₂(RP+T)

P表示实际空间中的一点，p₁,p₂表示空间中的点P在长短焦相机像素坐标系中分别对应的像素点，K₁,K₂分别表示长焦相机和短焦相机的内部参数，R、T表示长短焦双目相机间的外部参数，s₁,s₂分别表示点P在长、短焦相机坐标系中的深度信息；

当使用齐次坐标时，将上式写成如下形式：

p₁＝K₁P,p₂＝K₂(RP+T)

通过上式，从而可以得到p₁,p₂之间的映射关系f如下：

。

7.根据权利要求6所述的一种基于长短焦多相机车辆环境下的目标检测和融合方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3-1.对于长焦相机中检测出来的第i个目标框B_l的位置(x_l,y_l,w_l,h_l)根据映射关系f，可以得出其在短焦相机图像中对应的目标框B′_s位置(x′_s,y′_s,w′_s,h′_s)；其中，x_l,y_l,w_l,h_l分别表示目标所在的中心位置横、纵坐标以及目标框的宽、高；x′_s,y′_s,w′_s,h′_s分别表示经映射后的目标所在的中心位置横、纵坐标以及目标框的宽、高；

Δx＝x_s-x′_s

Δy＝y_s-y′_s

w_s＝w′_s*Δw

h_s＝h′_s*Δh

x_s＝x′_s+Δx

y_s＝y′_s+Δy