CN111239684A

CN111239684A - 一种基于YoloV3深度学习的双目快速距离测量方法

Info

Publication number: CN111239684A
Application number: CN202010053241.8A
Authority: CN
Inventors: 郎立国; 康涛; 李旭; 张阳
Original assignee: Avic East China Photoelectric Shanghai Co ltd
Current assignee: Avic East China Photoelectric Shanghai Co ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05

Abstract

本发明公开了一种基于YoloV3深度学习的双目快速距离测量方法，包含以下步骤：A、图像采集；B、双目图像校正；C、目标识别定位；D、立体匹配与视差计算；E、计算实际距离，本发明提出一中基于Yolov3的深度学习的双目快速距离测量方法，在图像校正后，先通过Yolov3进行性目标识别定位，识别出目标并且定位出目标在图像中的位置及所占用的图片大小，提取目标图片，然后再进行双目匹配，大大减少目标匹配的计算量，达到实时距离测量的目的。

Description

一种基于YoloV3深度学习的双目快速距离测量方法

技术领域

本发明涉及图像处理技术领域，具体是一种基于YoloV3深度学习的双目快速距离测量方法。

背景技术

目前视觉测距方法主要有单目测距和双目测距方法。单目测距，先通过图像匹配进行目标识别，再通过目标在图像中的大小去估算目标距离。这就要求在估算距离之前首先对目标进行准确识别，准确识别是准确估算距离的第一步。要做到这一点，就需要建立维护样本特征数据库，保证这个数据库包含待识别目标的全部特征数据。

双目摄像头的原理与人眼相似，人眼能够感知物体的远近，是由于两只眼睛对同一个物体呈现的图像存在差异，也称“视差”。物体距离越远，视差越小；反之，视差越大。

单目***的优势在于成本较低，对计算资源的要求不高，***结构相对简单；缺点是：(1)需要不断更新和维护一个庞大的样本数据库，才能保证***达到较高的识别率；(2)距离并非真正意义上的测量，准确度较低。

双目***优势：(1)成本比单目***要高，但尚处于可接受范围内，并且与激光雷达等方案相比成本较低；(2)直接利用视差计算距离，精度比单目高；(3)无需维护样本数据库，因为对于双目没有样本的概念。

双目***的难点：(1)计算复杂度高。该方法需要逐像素匹配，为保证匹配结果的鲁棒性，需要在算法中增加大量的错误剔除策略，计算量较大，很难实现实时测量。(2)对环境光照非常敏感。双目立体视觉法依赖环境中的自然光线采集图像，而由于光照角度变化、光照强度变化等环境因素的影响，拍摄的两张图片亮度差别会比较大，这会对匹配算法提出很大的挑战。(3)相机基线限制了测量范围。测量范围和基线(两个摄像头间距)关系很大：基线越大，测量范围越远；基线越小，测量范围越近。所以基线在一定程度上限制了该深度相机的测量范围。

发明内容

本发明的目的在于提供一种基于YoloV3深度学习的双目快速距离测量方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于YoloV3深度学习的双目快速距离测量方法，包含以下步骤：

A、图像采集；

B、双目图像校正；

C、目标识别定位；

D、立体匹配与视差计算；

E、计算实际距离。

作为本发明的进一步方案：所述步骤A具体是：图像采集模块从左右摄像头中采集图片，作为测距***的输入。

作为本发明的进一步方案：所述步骤B包括相机标定和双目校正。

作为本发明的进一步方案：所述步骤C通过YoloV3算法目标识别定位算法，找出目标图像在分别在左右图形中的位置与大小。

作为本发明的进一步方案：所述YoloV3算法采用单独的CNN模型实现端到端的目标检测，对输入图像直接预测目标的类别与位置。

作为本发明的进一步方案：所述步骤D具体是：目标识别定位后对识别出来的左右目标图像进行立体匹配与视差计算，立体匹配完成匹配左右摄像机拍摄的图像的相同特征，并得到视差图，视差值是匹配是左右目标图像相同特征点在x坐标轴上的差值。

作为本发明的进一步方案：所述立体匹配算法选择SGBM立体匹配算法。

与现有技术相比，本发明的有益效果是：本发明提出一中基于Yolov3的深度学习的双目快速距离测量方法，在图像校正后，先通过Yolov3进行性目标识别定位，识别出目标并且定位出目标在图像中的位置及所占用的图片大小，提取目标图片，然后再进行双目匹配，大大减少目标匹配的计算量，达到实时距离测量的目的。

附图说明

图1为双目测距原理图。

图2为双目测距***处理流程图。

图3为Yolov3的深度学习的双目测距***处理流程图。

图4为双目图像校正流程图。

图5为目标识别定位图。

图6为YoloV3识别定位原理图。

图7为YoloV3模型结构图。

图8为Convolutional层结构图。

图9为Residual层结构图。

图10为目标边界框图。

图11为目标识别定位流程图。

图12为目标识别定位效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1-12，本发明实施例中，一种基于YoloV3深度学习的双目快速距离测量方法，包含以下步骤：

A、图像采集；图像采集模块从左右摄像头中采集图片，作为测距***的输入；

B、双目图像校正；图像采集模块采集图像后，对双目图像进行校正，双目图像校正流程如图4所示；

相机标定：摄像头由于光学透镜的特性使得成像存在着径向畸变，由于装配方面的误差，传感器与光学镜头之间并非完全平行，成像存在切向畸变，所以需要对相机进行标定。单个摄像头的定标主要是计算出摄像头的内参(焦距f和成像原点cx,cy、畸变参数))以及外参(标定物的世界坐标)。而双目摄像头定标不仅要得出每个摄像头的内部参数，还需要通过标定来测量两个摄像头之间的相对位置(即右摄像头相对于左摄像头的旋转矩阵R、平移向量t)。相机标定一般只需要标定一次，标定完成后，保存内参数据及外参数据供以后使用。

双目校正：双目校正是根据摄像头定标后获得的单目内参数据(焦距、成像原点、畸变系数)和双目相对位置关系(旋转矩阵和平移向量)，分别对左右视图进行消除畸变和行对准，使得左右视图的成像原点坐标一致、两摄像头光轴平行、左右成像平面共面、对极线行对齐。这样一幅图像上任意一点与其在另一幅图像上的对应点就必然具有相同的行号，只需在该行进行一维搜索即可匹配到对应点。

关于双目校正的具体理论和方法采用成熟的技术，不是本发明重点，不再赘述。

C、目标识别定位；双目图像校正后，分别对左右图像进行目标识别定位。如图5所示，通过目标识别定位算法，找出目标图像在分别在左右图形中的位置与大小，即图中的L_TAG_IMG和R_TAG_IMG，然后对L_TAG_IMG和R_TAG_IMG进行双目匹配，因为L_TAG_IMG和R_TAG_IMG只是原图的一小部分，所以会极大减少双目匹配计算量；

目标识别定位是具有挑战性的计算机视觉任务，其可以看成图像分类与定位的结合，给定一张图片，要能够识别出图片的目标并给出其位置。YoloV3仅使用一个CNN网络直接预测不同目标的类别与位置，结构简单速度快，比Fast R-CNN快100倍，图像输入分辨率为416x416时处理速度可以达到29帧/秒，可以达到实时处理，所以本文选择YoloV3深度学习进行目标识别定位。

YOLOv3输入图像典型分辨率可以为608X608，416x416，320X320，图像分辨率越高，识别精度越高，计算花费时间越长，综合考虑我们选择输入图像典型分辨率为416*416，兼顾速度和识别精确度。

YoloV3算法采用单独的CNN模型实现端到端的目标检测，对输入图像直接预测目标的类别与位置。

YoloV3的CNN网络将输入的图片分割成S×S网格(实际上是通过卷积下采样得到S×S网格，这里为了便于说明，描述为将输入的图片分割成S×S网格)，然后每个单元格负责去检测那些中心点落在该格子内的目标，如图6所示，可以看到六角形这个目标的中心落在图中橙色单元格内，那么该单元格负责预测这个六角形。每个单元格会预测B(YOLOv3通过聚类算法得到了3组先验框，即预训练得到的3组默认预设边界框，称之为锚点，所以B取值为3)个预设边界框的预测值(t_x,t_y,t_w,t_h,p_O,p₁,p₂,…,p_c)，其中(t_x,t_y,t_w,t_h)为预测边界框的大小与位置(实际上为中心偏移量以及宽高缩放比)，p_O为预测目标边界框内包含目标的概率，(p₁,p₂,…,p_c)为预测边界框对应c个目标类别的概率。

每个单元格需要预测(B×(5+C))个值。如果将输入图片划分为S×S网格，那么最终预测值为S×S×(B×(5+C))大小的张量。

因为目标物体离摄像头的距离是变化的，目标离摄像头越近，目标成像尺寸就越大，距离越远，目标成像尺寸越小，为了能够更好的识别定位大尺寸和小尺寸的成像目标，YOLOv3在三个尺度等级上进行预测，通过分别将输入图像的尺寸下采样32、16、8来实现，即将图片划分为三种网格，如果输入图像尺寸为416*416，划分为三种特征图即三种S×S的网格，分别为13×13网格、26×26网格、52×52网格，其中13×13网格可以识别成像尺寸比较大的目标，26×26网格可以识别成像尺寸中等的目标，52×52网格可以识别成像尺寸比较小的目标。

本发明中，假设只需要测量一种目标的距离，目标类别为1，即c为1，13×13网格预测值为13×13×(3×(5+1))大小的张量，26×26网格预测值为13×13×(3×(5+1))大小的张量，52×52网格预测值为52×52×(3×(5+1))大小的张量，最后YoloV3分析上面所有的预测值概率，得到最终目标的位置信息与大小信息。

YOLOv3采用Darknet-53的网络结构，其模型结构如图7所示，网络主要是由一系列的1x1和3x3的Convolutional层以及Residual层组成。

其中，Convolutional层是Darknet-53网络基本单元，由conv卷积层、BN层、LeakyReLU层组成，其结构如图8所示。Residual层为darknet-53残差模块，其结构如图9所示，这里使用残差的结构的好处：(1)深度模型一个关键的点就是能否正常收敛，使用残差结构能保证网络结构在很深的情况下，仍能收敛。(2)网络越深，表达的特征越好，可以提升目标识别定位的效果。

从图7中可以看到，在第86层，将第61层和第85层进行了张量拼接，在第98层，将第36层和第97层进行了张量拼接，其中第61层为和第36层为浅层特征，第85层和第97层为深层特征，这里同时利用了深层和浅层特征，进一步提高了网络的效果。网络最后预测三种特征图，分别13×13网格特征图、26×26网格特征图、52×52网格特征图，我们这里只需要识别一种目标，所以13×13网格特征图预测张量尺寸为13×13×(3×(5+1))，26×26网格特征图预测张量尺寸为26×26×(3×(5+1))，52×52网格特征图预测预测张量尺寸为52×52×(3×(5+1))。然后根据概率最大值得到最终预测值。

YoloV3得到最终预测值(t_x,t_y,t_w,t_h,p_O,p₁,p₂,…,p_c)后，因为得到的(t_x,t_y,t_w,t_h)实际上为网络预测的边界框中心偏移量以及宽高缩放比，所以还需要计算出目标边界框。计算原理如图10所示，图中虚线矩形框为预设边界框即锚点，实线矩形框为通过网络预测的偏移量计算得到的预测目标边界框。其中(p_w,p_h)为预设边界框在特征图上的宽和高，(t_x,t_y,t_w,t_h)分别为网络预测的边界框中心偏移量以及宽高缩放比，(b_x,b_y,b_w,b_h)为最终预测的目标边界框。从预设边界框到最终预测目标边界框的公式如式(5)、式(6)、式(7)和式(8)，其中σ(x)函数是sigmoid函数，其目的是将预测偏移量缩放到0到1之间。

b_x＝σ(t_x)+c_x＝sigmoid(t_x)+c_x (5)

b_y＝σ(t_y)+c_y＝sigmoid(t_y)+c_y (6)

因为网络预测目标边界框坐标为(b_x,b_y,b_w,b_h)，(b_x,b_y)为预测目标边界框的中心坐标，(b_w,b_h)为目标边界框的宽和高，所以目标左上角位置(x_ta,y_ta)可以由(b_x,b_y,b_w,b_h)通过式(9)和式(10)计算得到。

x_ta＝b_x-(b_w/2) (9)

y_ta＝b_y-(b_h/2) (10)

YOLOv3训练采用的损失函数如式11，其主要分为三个部分：目标置信度损失L_conf(o,c)，目标分类损失L_cla(O,C)，目标定位偏移量损失L_loc(l,g)，其中λ₁、λ₂、λ₃是平衡系数。

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g) (11)

目标置信度可以理解为预测目标矩形框内存在目标的概率，目标置信度损失采用的是二值交叉熵损失(Binary Cross Entropy)，其中o_i∈{0,1}，表示预测目标边界框i中是否真实存在目标，0表示不存在，1表示存在。

表示预测目标矩形框i内是否存在目标的Sigmoid概率(将预测值c_i通过sigmoid函数得到)。

目标类别损失同样采用的是二值交叉熵损失，其中,O_ij∈{0,1}表示预测目标边界框i中是否真实存在第j类目标，0表示不存在，1表示存在。

表示网络预测目标边界框i内存在第j类目标的Sigmoid概率(将预测值C_ij通过sigmoid函数得到)。

目标定位损失采用的是真实偏差值与预测偏差值差的平方和，其中

表示预测矩形框坐标偏移量(注意YoloV3网络预测的是偏移量，不是直接预测坐标)，

表示与之匹配的box与默认框之间的坐标偏移量，(b^x,b^y,b^w,b^h)为预测的目标矩形框参数，(c^x,c^y,c^w,c^h)为默认矩形框参数，(g^x,g^y,g^w,g^h)为与之匹配的真实目标矩形框参数，这些参数都是映射在预测特征图上的。

目标识别定位分为训练模型和目标识别定位两个部分，其流程如图11所示。

训练模型：采集待测目标图像(为了提高识别效果，尽量采集不同光照条件、不同背景条件、不同角度、不同距离的目标图像，图像采集尽量多，最好不少于10000张)，然后进行训练，得到训练后的模型特征。

目标识别定位：首先读入经过校正的图像，图像分辨率转换为416x416，然后读取模型特征，进行目标识别定位，最后得到目标类型与位置。

利用YoloV3定位识别算法对目标进行识别定位，输入原图像即可通过算法获得目标图像在原图中的位置信息及宽度高度信息。定位效果图如图12所示，对L_REC_IMG目标识别定位，定位出目标图片L_TAG_IMG，在原图L_REC_IMG中的位置(x_lta,y_lta)，宽度为w_lta，高度为h_lta，对R_REC_IMG目标识别定位，定位出目标图片R_TAG_IMG，在原图R_REC_IMG中的位置(x_rta,y_rta)，宽度为w_rta，高度为h_rta。

D、立体匹配与视差计算；目标识别定位后对识别出来的左右目标图像进行立体匹配与视差计算，立体匹配完成匹配左右摄像机拍摄的图像的相同特征，并得到视差图，视差值是匹配是左右目标图像相同特征点在x坐标轴上的差值，例如如图12中的六角形目标的每个角都是特征点。得到视差图后可通过三角相似的原理得到目标物体的距离。

立体匹配算法主要有SAD匹配算法、BM算法、SGBM算法、GC算法等算法。SGBM算法是一种全局匹配算法，GC算法精度最高，但是速度最慢；SAD算法、BM算法精度比较差，不适合实际工程应用；所以这里选择SGBM立体匹配算法。

本文首先利用YoloV3算法对校正后的左右摄像机拍摄的图像进行目标识别定位，如图12所示，对L_REC_IMG目标识别定位，定位出目标图片L_TAG_IMG,对R_REC_IMG目标识别定位，定位出目标图片R_TAG_IMG；然后利用SGBM算法对识别出来的目标图像L_TAG_IMG和R_REC_IMG进行立体匹配，可以得到视差x_ltaoff-x_rtaoff。由于目标所占的图像只是原始图像的一小部分，如图12中识别出来的目标图像L_TAG_IMG和R_TAG_IMG，再利用SGBM算法对识别出来的目标图像L_TAG_IMG和R_TAG_IMG进行立体匹配，因为目标图像L_TAG_IMG和R_TAG_IMG是从原图像切割出的一部分，可以大大减少计算时间，达到实时处理的目的。

因为我们计算距离需要的目标视差是相对于原图L_REC_IMG和R_REC_IMG，即x_l-x_r，而通过立体匹配算法得到的视差为x_ltaoff-x_rtaoff，因为识别的图像L_TAG_IMG在原图L_REC_IMG中的位置(x_lta,y_lta)，识别的图像R_TAG_IMG在原图R_REC_IMG中的位置(x_rta,y_rta)，所以最终视差为

x_l-x_r＝(x_lta+x_ltaoff)-(x_rta+x_rtaoff)＝(x_lta-x_rta)+(x_ltaoff-x_rtaoff)(21)

E、计算实际距离：最终计算出的视差d＝x_l-x_r，然后将即d带入公式(4)即可计算出目标实际距离。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，包含以下步骤：

A、图像采集；

B、双目图像校正；

C、目标识别定位；

D、立体匹配与视差计算；

E、计算实际距离。

2.根据权利要求1所述的一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，所述步骤A具体是：图像采集模块从左右摄像头中采集图片，作为测距***的输入。

3.根据权利要求1所述的一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，所述步骤B包括相机标定和双目校正。

4.根据权利要求1所述的一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，所述步骤C通过YoloV3算法目标识别定位算法，找出目标图像在分别在左右图形中的位置与大小。

5.根据权利要求4所述的一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，所述YoloV3算法采用单独的CNN模型实现端到端的目标检测，对输入图像直接预测目标的类别与位置。

6.根据权利要求1所述的一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，所述步骤D具体是：目标识别定位后对识别出来的左右目标图像进行立体匹配与视差计算，立体匹配完成匹配左右摄像机拍摄的图像的相同特征，并得到视差图，视差值是匹配是左右目标图像相同特征点在x坐标轴上的差值。

7.根据权利要求6所述的一种基于YoloV3深度学习的双目快速距离测量方法，其特征在于，所述立体匹配算法选择SGBM立体匹配算法。