CN111914715A

CN111914715A - 一种基于仿生视觉的智能车目标实时检测与定位方法

Info

Publication number: CN111914715A
Application number: CN202010721224.7A
Authority: CN
Inventors: 安成刚; 张立国; 李巍; 李会祥; 吴程飞; 张志强; 王增志; 张旗; 史明亮
Original assignee: Langfang Heyi Life Network Technology Co ltd
Current assignee: Langfang Heyi Life Network Technology Co ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-10
Anticipated expiration: 2040-07-24
Also published as: CN111914715B

Abstract

本发明涉及一种基于仿生视觉的智能车目标实时检测与定位方法，包括：实时获取智能车的多目成像装置中各不同焦距镜头的图像；检测每一图像中各目标的类别及位置信息；根据各镜头的物象空间齐次坐标系变换关系，将基准图像划分为共视区和非共视区；针对每一图像的共视区，采用双目异焦距立体视觉重建方法对共视区中的目标进行三维重建定位，获得目标的三维定位信息及类别标签语义信息；针对基准图像的非共视区，获取每一非共视区中目标的角度定位信息，以构建用于智能车的具有语义信息的矢量地图。上述方法解决了现有技术中无法在线实时构建三维语义地图，且无法降低无人驾驶中视觉点云数据的计算量和计算复杂度的技术问题。

Description

一种基于仿生视觉的智能车目标实时检测与定位方法

技术领域

本发明涉及视觉检测定位技术领域，尤其涉及一种基于仿生视觉的智能车目标实时检测与定位方法。

背景技术

近年来，随着人类对生物仿生技术研究不断深入，人工智能技术正以前所未有的速度向前发展并实现突破。通过模拟人眼视觉***和昆虫复眼成像机理构建仿生视觉传感器和高效计算机视觉解决方案，并实现目标的实时检测与定位是当前仿生视觉人工智能技术的研究热点。与激光雷达只能实现距离的感知不同，视觉传感器还可以实现交通标志、红绿灯以及车道线等复杂语义信息的识别，因此基于仿生视觉的无人驾驶汽车技术研究具有重大理论意义和应用价值。

当前基于视觉三维定位与地图构建(SLAM)的无人驾驶解决方案(如ORB-SLAM，VINS-MONO，DSO)都是通过对整幅图像特征点提取和匹配，建立若干图像序列对应的三维点云稀疏或稠密地图，由于计算量大、实时性低，因此只能在PC平台下离线构建三维点云地图，并不能满足当前无人驾驶在嵌入式处理平台实时处理工程化需求。

此外，当前视觉SLAM研究多是基于单目运动+惯性导航或平行双目立体视觉模型，即利用同一台运动或者两台参数完全相同的摄像机通过两幅图像的视差进行目标三维重建，这种单一视角的成像模式缺点是很难满足视场角，分辨率以及检测速度三者之间的平衡。

由此可见，在大视场、高精度、快速感知的前提下，如何有效降低视觉定位算法的复杂度和三维点云数据的计算量，同时能够在线构建语义SLAM成为无人驾驶技术工程化的难点所在。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种基于仿生视觉的智能车目标实时检测与定位方法，其解决了现有技术中无法降低无人驾驶中视觉数据的计算量，从而无法在线实时构建语义SLAM的技术问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种基于仿生视觉的智能车目标实时检测与定位方法，包括：

步骤S1、实时获取智能车的多目成像装置中各不同焦距镜头的图像；

步骤S2、检测每一镜头的图像中各目标的类别及位置信息；

步骤S3、以焦距最小的镜头的图像为基准图像，根据不同焦距镜头对应的物象空间齐次坐标系变换关系，将基准图像划分为共视区和非共视区；

步骤S4、针对每一图像的共视区，采用双目异焦距立体视觉重建方法对共视区中的目标进行三维重建定位，获得基准图像中共视区所有目标的三维定位信息及类别标签语义信息；

针对基准图像的非共视区，根据该图像所属摄像装置的第一视角划分上下左右四个区域，以透视网格划分的方式获取每一非共视区中目标的角度定位信息；

所述三维定位信息及类别标签语义信息和非共视区对应的角度定位信息构建用于智能车的具有语义信息的矢量地图。

具体地，在实际应用中，上述步骤S3属于二维坐标系下的坐标变换关系，步骤S4是属于三维坐标系的重建方法，进而构建的矢量地图包含所有焦距图像中的目标的关键信息，其实现在线实时构建，进而可进行真正的工程化应用，具有较高的实用性。

可选地，所述步骤S2包括：

采用YOLOv5目标实时检测算法检测每一镜头的图像中各目标的类别及位置信息；

和/或，所述目标包括：红绿灯、限速牌、行人、小动物、车辆或车道线等；

所述类别及位置信息包括：目标在各图像中的位置信息、尺寸信息和类别信息。

可选地，所述步骤S3包括：

在所述焦距镜头大于等于3个时，将不同焦距镜头划分为长焦距镜头和短焦距镜头；

针对短焦距镜头，以短焦距镜头中焦距最小镜头的图像作为基准图像一，将短焦距镜头中其他镜头视场角对应基准图像一的成像区间划分为共视区一和非共视区一；

针对长焦距镜头，以长焦距镜头中焦距最小的镜头的图像作为基准图像二，将长焦距镜头中其他镜头视场角对应基准图像二的成像区间划分为共视区二和非共视区二。

可选地，所述步骤S4包括：

采用双目异焦距立体视觉重建方法，获取基准图像一中共视区一所有目标的三维定位信息及类别标签语义信息；

以透视网格划分的方式，获取基准图像一中非共视区一中各目标的角度定位信息；

采用双目异焦距立体视觉重建方法，获取基准图像二中共视区二所有目标的三维定位信息及类别标签语义信息；

以透视网格划分的方式，获取基准图像二中非共视区二中各目标的角度定位信息；

相应地，所述方法还包括步骤S5，

步骤S5包括：

将获取的所有三维定位信息及类别标签语义信息、所有的角度定位信息与多目成像装置中的三维点云数据进行融合，构建用于智能车的三维语义地图。

可选地，所述步骤S4包括：

采用双目异焦距立体视觉重建方法，获取基准图像一中共视区一所有目标的三维定位信息及类别标签语义信息；以透视网格划分的方式，获取基准图像一中非共视区一中各目标的角度定位信息；

采用双目异焦距立体视觉重建方法，获取基准图像二中共视区二所有目标的三维定位信息及类别标签语义信息；以透视网格划分的方式，获取基准图像二中非共视区二中各目标的角度定位信息；

将基准图像一和基准图像二中共视区所有目标的三维定位信息及类别标签语义信息以及非共视区中各目标的角度定位信息通过一系列坐标变换转到预定的全局坐标系下(大地坐标系下经纬度)。

可选地，所述步骤S3，包括：

若步骤S2中检测到同一个目标在任一焦距的镜头的图像中存在对应的角点为a,b,c,d；焦距最小的镜头的图像中存在的对应的角点a′,b′,c′,d′；

在上述两个镜头的坐标系不重合和/或镜头焦距不相同时，基于物象空间齐次坐标系变换关系，则将焦距最小镜头作为基准图像并划分为a,b,c,d和a′,b′,c′,d′八个角点组成的回字形区域；

其中，回字形区域的中心“口”字形为重叠的成像区域作为共视区；

中心“口”字形a,b,c,d至回字形的边界区域a′,b′,c′,d′为非重叠的成像区域作为非共视区。

可选地，所述步骤S4，包括：

S4-1、根据下述的两像面坐标关系式(A1)确定建立多目标图像的每一目标在各图像中坐标的一一映射关系；

S4-2、借助于多个分辨率和焦距不同的相机，并依据双目平行视觉模型，检测空间点M这个目标在三维空间的深度信息Z值；

具体地，空间点M的坐标(X,Y,Z)为：

其中，两相机镜头的焦距f₁、f₂以及基线距离b属于预先标定的参数，通过公式(A1)获取像素坐标的对应关系x₁、y₁和x₂、y₂；

S4-3、根据上述空间点M的三维坐标关系式(A2)在基准图像的共视区对检测目标进行重建，并标记检测目标区域的平均深度值。

可选地，短焦镜头为8mm焦距镜头和12mm焦距镜头，长焦镜头为16mm焦距镜头和25mm焦距镜头；

8mm和12mm短焦镜头用来监控90°大视场角内5-35m近距离目标，

16mm和25mm长焦镜头用来监控40°小视场角内10-60m远距离目标。

第二方面，本发明实施例提供一种智能车驾驶***，包括：控制装置和与控制装置连接的多目成像装置，所述多目成像装置包括：至少一个短焦距镜头、至少一个长焦距镜头；

所述控制装置接收所述短焦距镜头、长焦距镜头采集的图像后，采用上述第一方面任一所述的智能车实时检测与定位方法实时在线构建智能车的三维语义地图。

第三方面，本发明实施例还提供一种智能车，包括上述第二方面所述的智能车驾驶***。

(三)有益效果

本发明的有益效果是：本发明的方法并不需要对全部的点云数据进行处理，是通过获取目标所在区域的数据，通过坐标转换及三维重建的方式获取目标的三维定位信息，可以有效降低视觉点云匹配定位算法数据处理的计算量及提高目标定位精度，不仅能够实现大小不同视场、远近不同距离的目标精确定位，还能大幅度提高无人车视觉点云匹配定位算法数据处理的工作效率，具有视场角大，定位精度高，处理速度快等优势，可以满足当前基于视觉的无人驾驶技术在嵌入式处理器工程化应用需求。

需要说明的是，本发明实施例的方法模拟昆虫复眼成像***快速感知特性，可利用深度学习方法进行目标的分类与识别，进而利用摄像机坐标系与世界坐标系的空间变换关系将各摄像机像面空间划分为共视区和非共视区，共视区采用多目异焦距三维重建算法对目标进行精确定位，非共视区域对应的物空间划分为透视网格对目标进行粗略定位，从而增大观测视角，增强智能车视觉***处理效率，实现了在线构建语义地图，该方法构建的语义地图包含了各镜头内监测的所有目标的关键信息，可以进行真正的工程化应用，具有很强的实用性。

附图说明

图1为本申请一实施例提供的基于仿生视觉的智能车目标实时检测与定位方法的流程图；

图2为多目成像装置的结构示意图；

图3为YOLOv5算法对目标实时检测和分割效果图；

图4为8mm和12mm短焦镜头组对应的共视区域和非共视区域的示意图；

图5为16mm和25mm长焦镜头组对应的共视区域和非共视区域的示意图；

图6为双目异焦距立体视觉示意图；

图7为短焦相机像面误差Dx随测试距离L增大的变化曲线的示意图；

图8为根据下述实施例二中公式(4)建立图像中分割目标区域映射关系示意图；

图9为本发明一实施例提供的基于仿生视觉的智能车目标实时检测与定位方法的流程示意图；

图10为根据下述实施例二中公式(2)重建得到的检测目标区域在三维空间中平均深度示意图；

图11为本发明一实施例示出的以图1所示的方法构建的实时三维语义地图的示意图。

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

以下实施例中的镜头可以是摄像机的镜头也可以是相机的镜头，在具体描述过程中，部分实施例的描述采用镜头，部分实施例的描述采用相机或相机镜头、摄像机或摄像机镜头，其含义均是采集图像的设备，其每一镜头具有固定的焦距。

实施例一

如图1所示，本实施例提供一种基于仿生视觉的智能车目标实时检测与定位方法，该方法具体包括下述步骤：

步骤S2、检测每一镜头的图像中各目标的类别及位置信息。

举例来说，可采用YOLOv5目标实时检测算法检测每一镜头的图像中各目标的类别及位置信息。

本实施例的目标可包括：红绿灯、限速牌、行人、小动物、车辆或车道线等；本实施例仅为举例说明，并不对其限定，根据实际的图像确定。

上述的类别及位置信息包括：目标在各图像中的位置信息、尺寸信息和类别信息等，类别信息可为各目标的类别，尺寸信息可为目标所在区域的尺寸。

步骤S3、以焦距最小的镜头的图像为基准图像，根据不同焦距镜头对应的物象空间齐次坐标系变换关系，将基准图像划分为共视区和非共视区。

在本步骤中，是对图像进行二维坐标系的目标区域进行映射。

举例来说，同样分辨率的镜头中，其焦距不同，即长焦距和短焦距物象不同，进而基于不同焦距镜头对应的物象空间齐次坐标系变换关系确定基准图像，并依据其他镜头视场角将基准图像划分为共视区和非共视区。

为更好的理解，结合图4进行说明，假设空间存在四个目标点(A,B,C,D)分别成像于摄像机1所对应像面的四个对角点(a,b,c,d)和摄像机2所对应像面的四个对角点(a′,b′,c′,d′)，则根据物像齐次坐标系变换关系可知，如果摄像机1和摄像机2坐标系不重合或者摄像机1和摄像机2所对应的焦距不相同，则空间的四个目标点(A,B,C,D)对应的四个像点坐标所包围的区域将会把焦距较小摄像机对应的基准图像划分为如图4所示的回字形区域，中心方块区域表示摄像机1和摄像机2重叠视场所对应的成像区域，即共视区。中心方块四周至边界区域表示摄像机1和摄像机2非重叠视场所对应的成像区域，即非共视区。

为了更好的理解步骤S4，以下结合实施例二中的公式对共视区的三维重建定位进行说明。

S4-1、在三维重建定位之前，需要先获取待重建的目标在各图像中的坐标映射关系，即属于多目标检测和匹配问题，最鲁棒性的方法就是利用线性搜索方法来求解两幅图像中多目标间的每一个目标对应其他目标一一映射关系，例如，三个目标在图像1中为A，B，C，三个目标在图像2中为A’，B’，C’，则需要建立A-A’，B-B’，C-C’三对一一映射关系；

现有技术中需要分别计算AA’，AB’，AC’，BA’，BB’，BC’，CA’，CB’，CC’九对匹配关系的相似度误差值，且随着目标N个数增加，时间复杂度是多项式时间O(n²)，非常耗时。尽管现有技术中采用K-D树最邻近搜索方法可以加速匹配过程，时间复杂度仍为线性对数时间O(nlogn)，由此，并不能减少计算量。

而本申请中使用下述实施例二中给出的公式(3)中两像面坐标关系式，进而建立多目标图像坐标的一一映射关系，即已知目标在图像坐标系1中坐标(x₁，y₁)，通过摄像机归一化焦距α和β以及检测目标的深度值Z就可以唯一确定目标在图像坐标系2中坐标(x₂，y₂)，无需建立每一个目标对应其它目标一一映射关系，而是直接通过像面坐标关系式确定同一个目标在两幅图像中对应的像面坐标，且运行时间与匹配目标数量无关(常数时间O(1))，有效降低图像匹配过程的时间复杂度。

S4-2、三维重建定位，主要的是指检测目标在三维空间的深度信息Z值(三维空间)。

立体视觉重建方法主要有两种，一种是通过单目运动产生多视图进行三维重建，另一种方法就是通过两个完全相同的相机(一对)并排放置即双目平行视觉模型进行三维重建。而平行双目视觉模型缺陷是：由于采用两个参数相同的摄像机进行图像采集和计算，分辨率和视场都是完全相同的，因此为了满足实时性需求，分辨率高的相机视场就会小，视场大分辨率就会小。为了达到分辨率、视场和实时性三者之间的平衡，就只能用多分辨率相机来处理，多分辨率相机有两种，一种是物理方式，通过模仿人眼视网膜制造空间变分辨率传感器，即通过改变传感器感光芯片的排列方式来改变图像的分辨率分布，这种通过改变传感器制造工艺来改变图像分辨率方法成本太高，且需要转换为极坐标系下才能正常成像，很难实现大规模使用。另一种方法就是使用多个分辨率或者焦距不同摄像机组合而成，这种方法成本低，可操作性好，适用范围广。因此本实施例中可利用第二种方法来实现分辨率和视场之间平衡。

具体地，结合图6所示的双目异焦距三维重建模型，可以得到，基于三角形相似原理在已知两个相机的焦距后，空间点M离相机的距离(深度值)公式如下：

上式(1)说明如果要计算目标深度Z，必须要知道两相机的焦距f₁和f₂以及基线距离b，这些先验参数可以通过相机标定得到，此外还需要知道两相机中像素坐标的对应关系x₁和x₂。通过以上参数可以精确重建目标点M的三维坐标：

本实施例中对图像中分割出目标区域内点云进行重建，并且对分割目标区域内点云X，Y轴坐标取平均值，深度值Z取的是目标区域点云深度值出现频率最高的值。也就是说对于每个检测出的目标对应的三维点云集只是用一个平均三维坐标值作为代表，如图10所示。

需要说明的是，在本实施例中，上述构建矢量地图的方式是实时在线构建的，且构建的地图不同于现有技术中点云语义地图，其仅对目标的边界和类别进行标注，而不要用点云数据重建目标的具体颜色和形状特征，如图11所示。

在本实施例中，基于上述图1所示的方法，还包括下述的步骤S5：

步骤S5：将获取的所有三维定位信息及类别标签语义信息、所有的角度定位信息与多目成像装置中的三维点云数据进行融合，构建用于智能车的三维语义地图。

举例来说，多目成像装置中的点云数据包括激光雷达获取的点云数据或视觉成像的点云数据等，本实施例根据实际需要选择并融合。本实施例中是在线方式构建的三维语义地图。

也就是说，本实施例的方法可以实时性构建语义地图，本实施例的方法构建的地图为在线构建的语义地图，其相对于现有技术中的离线方式基于点云+人工标注地图构建方法构建的地图，操作简便，不需要后续人工标注，可以满足嵌入式处理器的工程化应用，具有很强的实用性。

另外，需要说明的是，本实施例的方法可以实现实时在线构建语义SLAM，即通过图像采集设备实时采集的数据进行构建的局部地图或完整地图。

在具体实现过程中，上述步骤S3可包括：

针对长焦距镜头，以长焦距镜头中焦距最小的镜头的图像作为基准图像二，将长焦距镜头中其他镜头视场角对应基准图像二的成像区间划分为共视区二和非共视区二。在下述实施例二中可采用四个焦距镜头进行说明。

此外，焦距镜头的数量大于等于3时，上述的步骤S4可包括：

将基准图像一和基准图像二中共视区所有目标的三维定位信息及类别标签语义信息、非共视区中各目标的角度定位信息通过一系列坐标变换转到预定的全局坐标系下。

全局坐标系即指构建语义地图中所有目标所在的坐标系，与图像坐标系，摄像机坐标系等假想坐标系不同，全局坐标系是一个真实存在的地点，可以建在一个固定的地点，其通过GPS-RTK测量得到。

此外，在执行步骤S5时，将获取的所有三维定位信息及类别标签语义信息、所有的角度定位信息与多目成像装置中激光雷达的三维点云数据进行融合，构建用于智能车的三维语义地图。

当然，若上述图1的方法不执行步骤S5时，则可将基准图像二作为基准图像，将共视区一所有目标的三维定位信息及类别标签语义信息在共视区二中进行三维重建定位，获得基准图像中共视区所有目标的三维定位信息及类别标签语义信息；以及以透视网格划分的方式获取每一非共视区中目标的角度定位信息。

由此，本实施例的方法可以有效降低视觉点云匹配定位算法数据处理的计算量及提高目标定位精度，不仅能够实现大小不同视场、远近不同距离的目标精确定位，还能大幅度提高智能车视觉点云匹配定位算法数据处理的工作效率，具有视场角大，定位精度高，处理速度快优势，可以满足当前基于视觉的无人驾驶技术在嵌入式处理器工程化应用需求。

需要说明的是，本实施例的方法构建的语义地图包括检测目标的类别和三维位置信息。其中，类别信息不是通过具体的颜色，形状及纹理特征填写的，而是通过带标签的边界框体现的(可以通过目标边界框上的标签通过语义信息来判断目标类别)。另外，语义地图中的三维信息也不是指的是每个特征点的三维信息，而是指的检测目标边界框区域内平均三维信息。可理解的是，把检测目标图像边界框看成一个质心点来处理。因此通过对高精地图的海量点云信息进行降维处理，即在语义地图上仅保留目标的本质含义，而不需要精确还原外貌形状，以此来达到实时地图构建的目的。

实施例二

本发明实施例面向无人驾驶在嵌入式平台实时检测与定位的工程化需求，为大幅度提高无人驾驶视觉信息处理***的目标检测与定位效率，提供了一种基于仿生视觉的智能车目标实时检测与定位方法，如图9所示。

本发明实施例的方法模拟昆虫复眼成像***组成多目成像***增大视野范围，并利用YOLOv5深度学习目标检测方法对多目标进行分类与识别，在整幅图像中一一分割出感兴趣的目标位置并进行标注；然后，将多目成像***的子视场像面重叠和非重叠区域划分为共视和非共视区域，对共视和非共视区域分别进行数据坐标转换。

具体地，针对于两视图像面重叠区域即共视区域：利用多目成像装置各焦距镜头的图像(下述称：子像面)对应的像素坐标之间位置关系式，快速建立两幅图像中分割出的多目标区域一一映射关系(如下述的公式4)，即预先定位两幅待匹配目标图像的特征点提取区域，减少检测目标遍历全局搜索区域；再利用SURF算法对预先定位的目标图像特征点提取区域进行特征点匹配；最后采用多目异焦距三维重建算法对检测目标进行精确定位(如下述的公式2)。

针对两视图像面非重叠区域即非共视区域：根据相机第一视角划分为上下左右四个区间；并将每个区间划分为角度透视网格对检测目标的方向角进行粗略定位；方便后续激光雷达快速精确定位。

上述方法有效降低视觉定位算法数据处理的计算量及提高远近不同距离目标定位精度，增强视觉***的实时性和可靠性，满足基于视觉的无人驾驶技术工程化需要。

为更好的理解本发明实施例的技术方案，结合图9所示，对上述的各步骤进行详细说明：

步骤A1：如图2所示，采集多目成像装置中每一个视觉传感器图像数据。也就是说，实时获取智能车的多目成像装置中各不同焦距镜头的图像。

在本实施例中，采用8mm、12mm、16mm以及25mm四个焦距不同的相机组成视场不同的多目成像***：8mm和12mm短焦镜头用来监控90°视场角内5-35m近距离目标，例如，行人和车辆。16mm和25mm长焦镜头用来监控40°视场角内10-60m远距离目标，例如，红绿灯和限速牌。

步骤A2：检测每一镜头的图像中各目标的类别及位置信息。

在本实施例中，为了降低两帧或者多帧图像点云数据之间的计算量，使用YOLOv5目标实时检测算法获得不同类型目标在各图像中的位置及尺寸信息、类别信息。

不同类型目标可包括图像中存在的行人、车辆等动态目标以及车道线、红绿灯等静态目标，并把每一个识别目标在图像中分割出来进行标记，该过程可以去除图像中无关区域，减少整幅图像特征点的计算数量。如图3所示为YOLOv5算法对目标实时检测和分割效果图。

步骤A3：将多目成像装置的各镜头视场重叠区域和非重叠区域对应的各相机像平面坐标划分为共视区域和非共视区域。

具体地，以焦距最小的镜头的图像为基准图像，根据不同焦距镜头对应的物象空间齐次坐标系变换关系，将基准图像划分为共视区和非共视区。

在本实施例中，将不同焦距镜头划分为长焦距镜头和短焦距镜头；针对短焦距镜头，以短焦距镜头中焦距最小镜头的图像作为基准图像一，将短焦距镜头中其他镜头视场角对应基准图像一的成像区间划分为共视区一和非共视区一，如图4所示；

针对长焦距镜头，以长焦距镜头中焦距最小的镜头的图像作为基准图像二，将长焦距镜头中其他镜头视场角对应基准图像二的成像区间划分为共视区二和非共视区二，如图5所示。

可理解的是，已知短焦和长焦相机CMOS大小都为1/2.7，分辨率为1920×1080pixel，如图4所示为8mm和12mm短焦镜头组对应的90°大视场像面中的共视区域一和非共视区域一。共视长方形区域端点坐标为(-666,360)，(-666,-360)，(638,360)，(638,-360)，共视区域一在X轴和Y轴方向分别占整个像面坐标的67.6％和66.7％，占整个短焦大视场像平面面积的45.28％，且由于两相机存在基线距离，共视区域一在水平方向并非严格对称，而是向X轴方向略有偏移。

如图5所示为16mm和25mm长焦镜头组对应的40°小视场像面中的共视区域二和非共视区域二。共视长方形区域端点坐标为(-641,345)，(-641,-345)，(610,345)，(610,-345)，共视区域二在X轴和Y轴方向分别占整个像面坐标的65.2％和63.9％，占整个长焦小视场像平面面积的41.63％。

具体地，图像坐标系1(x₁,y₁)与世界坐标系(X,Y,Z)空间变换关系可以表示为：

图像坐标系2(x₂,y₂)与世界坐标系(X,Y,Z)空间变换关系可以表示为：

图像坐标系1和图像坐标系2都对同一个目标M(X,Y,Z)拍照成像，则已知归一化焦距α，β值就可以推出两个相机图像坐标系像面坐标x,y之间的关系。

例如已知两相机分辨率都是1280×1024，则根据以上两相机坐标系与同一个世界坐标系的空间变换关系(也就是公式3的推导结果)就可以将子像面划分为非共视区和共视区。

步骤A4：针对共视区，采用SURF特征点提取和匹配算法在指定区域实现目标特征点匹配，最后利用双目异焦距立体视觉算法对检测目标进行三维重建(如下公式2)。

由图6中两相机像面坐标与空间点M存在的几何关系，可以推导焦距不同时理想平行双目摄像机成像模型。

假设左右两个相机光轴平行(Y轴值是相同的)，由于焦距不同像平面不在一个平面上，设12mm镜头和8mm镜头对应的有效焦距分别为f₁和f₂，由三角形相似原理可以得到空间点M离相机的距离(深度值)公式如下：

同样根据(1)式还可以得到两相机对应的像素坐标之间位置关系式：

其中，α₁和α₂，β₁和β₂分别表示分别是图像水平轴u和垂直轴v的尺度因子，也称为归一化焦距。当α₂<α₁，β₂<β₁，由上式(3)可知12mm焦距相机对应像素坐标偏移量y₁大于8mm焦距相机对应像素坐标偏移量y₂，即同一目标在长焦相机的像平面移动速度大于在短焦相机的像平面移动速度。同时两相机像面坐标在X轴方向偏移量还与基线距离d与深度Z的比值有关，因此需要进一步研究d/Z值对(3)式两相机对应的像素坐标x₁与x₂位置关系的影响。

设Dx＝α₂·d/Z为两相机对应的像素坐标像面位置误差值，8mm镜头工作距离Z为5—25m，归一化焦距α₁＝β₁＝4000pixel，α₂＝β₂＝2666pixel,基线距离d＝0.05m。则8mm和12mm两相机间像素坐标像面位置误差Dx随测试距离L增大的变化曲线，如图7所示。当监控距离大于5m时，Dx误差值在26pixel内，由于我们只关注目标检测区域内像素坐标的平均值，因此可以忽略此时d/Z值对像素坐标x₂影响，记为常数D，因此公式(3)可以进一步近似表示为：

如图8所示，通过(4)式就可以根据检测目标在12mm焦距相机像素坐标系下平均位置信息x₁估算得到的对应目标在8mm焦相机像素坐标系下的大致位置x₂，可以避免多目标区域一一对应关系的线性搜索过程，提升特征点匹配算法的工作效率。也就是说，可有效减少检测目标遍历全局搜索区域，减少特征点提取、匹配和点云重建算法计算量，加速了匹配索引过程，降低目标特征点匹配的计算复杂度。

步骤A5：针对非共视区，以透视网格划分的方式获取每一非共视区中目标的角度定位信息。

例如，针对多相机成像装置的非共视区域，如图4所示将非共视区域根据相机第一视角划分为上下左右四个区域，并将每个区间划分为角度透视网格对检测目标的方向角进行粗略定位，从而方便后续激光雷达点云数据精确定位和聚类。

例如，上述共视区在水平方向并非严格对称，而是向X轴方向略有偏移。非共视区域按上下左右分为四个部分，对应空间视场角分别为[7.7°,12.4°]，[-7.7°,-12.4°]，[-13.5°,-19.3°]，[13.5°,20.3°]，将其每个子视场角划分为透视网格，可以对检测目标的方位进行粗略估计，从而方便后续激光雷达点云数据精确定位和聚类。

需要说明的是，本发明实施例中利用角度值而不是三维点云对非共视区内的检测目标进行实时定位，加快了感知图像目标信息的处理速度。例如上下区域对应空间视场分别用来检测红绿灯和防撞桶大致方向角，为后续激光雷达点云数据聚类和定位提供先验类别和方位信息。

步骤A6：将多目成像装置检测与定位得到的诸如车辆，行人等静态目标以及红绿灯、车道线等动态目标三维数据融合到激光雷达点云数据，构建实时三维语义地图，从而实现基于仿生视觉的无人驾驶技术在嵌入式处理平台工程化应用。

需要说明的是，本实施例中要构建的三维语义地图和现有技术中点云语义地图不同，本实施例中只需要对目标的边界框和类别进行标注，而不要用点云数据重建目标的具体颜色和形状特征，如图11所示。

本实施例的方法可以实时性构建语义地图，本实施例的方法构建的地图为在线构建的语义地图，其相对于现有技术中的基于点云+人工标注离线地图构建方法，操作简便，不需要后续人工标注，可以满足嵌入式处理器的工程化应用，具有很强的实用性。

实施例三

根据本发明实施例的另一方面，本发明实施例还提供一种智能车驾驶***，该智能驾驶***包括：控制装置和与控制装置连接的多目成像装置，所述多目成像装置包括：至少一个短焦距镜头、至少一个长焦距镜头；

所述控制装置接收所述短焦距镜头、长焦距镜头采集的图像后，采用上述实施例一或实施例二任一所述的智能车实时检测与定位方法实时在线构建智能车的三维语义地图。

在实际应用中，本实施例中多目成像装置的短焦镜头为8cm焦距镜头和12cm焦距镜头，长焦镜头为16cm焦距镜头和25cm焦距镜头；

8cm和12cm短焦镜头用来监控90°大视场角内5-35m近距离目标，

16cm和25cm长焦镜头用来监控40°小视场角内10-60m远距离目标。

在实际应用中，智能车可以是无人驾驶车辆，也可以是自动驾驶车辆，该智能车可以包括上述的智能车驾驶***。具体地，上述8cm焦距镜头、12cm焦距镜头、16cm焦距镜头和25cm焦距镜头并排放置在同一水平面且处于车辆驾驶室的前方，其中长焦距和短焦距镜头穿插设置，相邻短焦距镜头的轴间距是12cm。

本实施例的智能车驾驶***可以在线实时构建语义地图，实现工程化应用，提高了实用性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种仿生视觉的智能车目标实时检测与定位方法，其特征在于，包括：

步骤S2、检测每一镜头的图像中各目标的类别及位置信息；

2.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：

和/或，所述目标包括：红绿灯、限速牌、行人、小动物、车辆或车道线；

3.根据权利要求1所述的方法，其特征在于，所述步骤S3包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤S4包括：

相应地，所述方法还包括步骤S5，

步骤S5包括：

5.根据权利要求3所述的方法，其特征在于，所述步骤S4包括：

将基准图像一和基准图像二中共视区所有目标的三维定位信息及类别标签语义信息、非共视区中各目标的角度定位信息通过坐标变换转到预定的全局坐标系下。

6.根据权利要求1所述的方法，其特征在于，所述步骤S3，包括：

在上述两个镜头的坐标系不重合和/或镜头焦距不相同时，基于物象空间齐次坐标系变换关系，则将焦距最小镜头的图像作为基准图像并划分为a,b,c,d和a′,b′,c′,d′八个角点组成的回字形区域；

7.根据权利要求1至6任一所述的方法，其特征在于，所述步骤S4，包括：

具体地，空间点M的坐标(X,Y,Z)为：

8.根据权利要求4所述的方法，其特征在于，短焦镜头为8mm焦距镜头和12mm焦距镜头，长焦镜头为16mm焦距镜头和25mm焦距镜头；

8mm和12mm短焦镜头用来监控90°大视场角内5-35m近距离目标，

16mm和25mm长焦镜头用来监控40°小视场角内10-60m远距离目标。

9.一种智能车驾驶***，其特征在于，包括：控制装置和与控制装置连接的多目成像装置，所述多目成像装置包括：至少一个短焦距镜头、至少一个长焦距镜头；

所述控制装置接收所述短焦距镜头、长焦距镜头采集的图像后，采用上述权利要求1至8任一所述的智能车实时检测与定位方法实时在线构建智能车的三维语义地图。

10.一种智能车，其特征在于，包括上述权利要求9所述的智能车驾驶***。