CN115471542A

CN115471542A - 一种基于YOLO v5的包装物双目识别定位方法

Info

Publication number: CN115471542A
Application number: CN202210479182.XA
Authority: CN
Inventors: 艾长胜; 张传斌
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-12-13

Abstract

本发明公开了一种基于YOLO v5的包装物双目识别定位方法，本发明主要包含以下步骤：A.双目相机标定；B.图像采集并立体校正；C.利用YOLO v5进行包装物识别与定位；D.立体匹配；F.获取包装物的三维坐标，本发明提出的一种基于YOLO v5的包装物双目识别定位方法，首先使用标定后的双目相机采集图像，将获取的左右图像进行立体校正，将图像校正成理想成像下的双目图像，然后输入到目标检测模型中，对识别出的目标包装通过立体匹配算法对左右图像进行匹配，根据左右图像的视差值计算目标包装物的距离值，最后把包装物的三维坐标发送给机器人，可用于引导机器人对包装袋或包装盒等包装物抓取分拣的自动化场景。

Description

一种基于YOLO v5的包装物双目识别定位方法

技术领域

本发明涉及机器视觉检测领域，具体涉及一种基于YOLO v5的包装物双目识别定位方法。

背景技术

随着现代化工业的发展以及自动化技术的成熟，机器人代替人工的应用场景越来越普遍。对于流水线上的包装盒和包装袋等包装物的分拣以及集装箱中袋装或盒装等包装物料搬运工作枯燥乏味，长期以来耗费了大量的人力资源。

人工智能与深度学习的发展，使得目标检测技术得到迅速发展，YOLO v5是一种端到端的单阶段目标检测算法，使用回归的方法直接计算目标的类别和位置。通过对YOLOv5使用大量的数据迭代训练，可以实现对包装物的精准识别和定位。

获取包装物相对于机器人的空间位置坐标对机器人的分拣和搬运工作极为重要。双目视觉定位方法是模仿生物***的视觉距离估计和景物重建过程，即由存在一定间距的两个彩色摄像头拍摄同一物体，同一物体在两个摄像头中的成像像素点具有对应关系，根据成像变换矩阵和对应像素点在像空间中的位置就可以求出目标的空间位置。

发明内容

为解决人工分拣搬运包装物工作效率低下的问题，本发明提出一种基于YOLO v5的包装物双目识别定位方法，该方法可用于流水线中包装物的识别定位，适用于机器人自动化分拣搬运场景。

为了达到上述发明目的，本发明采用的技术方案包含以下步骤：

A、双目相机标定；

B、图像采集并进行立体校正；

C、使用YOLO v5进行包装物识别与定位；

D、对左右图像立体匹配；

E、计算包装物的三维坐标。

进一步地，所述步骤A的具体操作为使用双目相机拍摄20张左右相机的棋盘格图像，使用张氏标定法标定左右相机，获取左右相机的内外参数和左右相机的相对位置变换矩阵，根据变换矩阵和对应像素点在像空间中的位置就可以求出物体的空间位置。

进一步地，所述步骤B地具体操作是使用双目相机获取左右图像，然后根据步骤A获取的相机参数对左右图像进行立体校正，最后将左右图像作为目标检测模型的输入，立体校正示意图如图3所示。

进一步地，所述步骤C的具体操作是首先采集包装物的图像数据集训练YOLO v5检测模型，然后使用训练后的模型检测包装物在图像中的Bounding Boxs(中心点坐标和预测框的宽高和类别。

进一步地，所述步骤C中YOLO v5是一种优秀的单阶段目标检测模型，直接使用回归的方式识别定位包装物，满足实时性的要求。

进一步地，所述步骤D的具体操作是使用立体匹配算法对左右图像检测到的包装物目标匹配，得到视差图，立体匹配算法采用SGBM算法，该算法在精度和速度上比其他匹配算法更优。

进一步地，所属步骤E的具体操作是根据相机变换矩阵和对应包装物像素点在像空间中的位置以求出包装物的空间位置坐标。

与现有技术相比，本发明具有以下有益效果：

本发明提出一种基于YOLO v5的包装物双目识别定位方法利用深度学习目标检测模型识别包装物，基于数据驱动的深度学习模型，通过足够的数据训练可以达到比传统方式的目标检测更高的精度，使用卷积神经网络可以提取更高的鲁棒性，对于单阶段的YOLOv5模型使其可以部署到嵌入式设备和移动设备上运行，降低了深度学习模型使用的门槛。

附图说明

图1是双目相机测距原理图。

图2是双目相机标定流程图。

图3是图像立体校正示意图。

图4是双目相机障碍物检测流程图。

图5是YOLOv5包装物识别定位流程图。

图6是YOLOv5结构图。

图7是CSP1_X结构图。

图8是CSP2_X结构图。

具体实施方式

为了使本技术领域的人员更好的理解本发明方案，下面将结合实施例附图对本发明中的技术方案进行完整地、详尽地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

A、双目相机标定。

B、图像采集并进行立体校正。

C、使用YOLO v5进行包装物识别与定位。

D、对左右图像立体匹配。

E、计算包装物的三维坐标。

下面结合附图对本发明做进一步详细描述：一种基于YOLO v5的包装物双目识别定位方法包含以下步骤。

A、相机标定：在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数。相机标定的目的是获取相机的内外参数和畸变参数，求出这些参数相当于找到了三维到二维的映射关系模型。本发明中采用传统的标定方式，通过在相机前方以各种角度摆放二维标定板，将拍摄的标定板输入到标定程序中可得出左右相机的内参数、畸变参数以及左相机相对右相机的平移矩阵和旋转矩阵，标定流程如附图2所示。

B、图像校正：通过双目相机采集图像作为包装物识别定位***的输入，然后对图像进行消除畸变的预处理操作，由于光学透镜固有的透视失真，使得相机拍摄的图片存在着径向畸变和切向畸变，根据相机标定的畸变参数可以缓解这种畸变的程度。

双目相机主要的任务就是测量深度，而视差求距离公式是在双目***处于理想情况下推导的，所以就要将实际的双目***校正为理想的双目***：两摄像机图像平面平行，光轴和图像平面垂直，极点处于无线远处。本发明具体采用Bouguet立体校正算法，其核心原理是通过像素平面透视变换，使左右图像重投影误差最小，使双目***最接近理想状态，立体校正最终效果如附图3所示。

C、使用Yolo v5模型进行包装物识别与定位。

目标检测通常分为两个任务的组合：图像分类和图像定位。YOLO是一种单阶段的目标检测算法，它将输入的图像通过CNN进行特征提取，然后使用直接回归的方式推理得出目标的类别和目标在图像中的位置；与两阶段的目标检测算法不同，它的速度更快，参数量更少；与传统的人工设计的特征提取器提取特征的方式相比，它通过卷积神经网络的方式提取的特征鲁棒性更强，因此本发明采用单阶段的YOLO v5作为目标检测的框架对包装物识别与定位。

YOLO工作的原理是将输入的图像划分为多个网格，如果目标的中心点落入某个网格中，则就由该网格预测这个目标。但这样就会出现一个问题，如果有两个不同类别的目标落入同一个网格，则网络就不知道该预测哪个目标，因此给YOLO引入Anchor机制，用来解决一个网格存在两个物体类别的问题。在YOLO v5算法中，针对不同的数据集，都会有初始设定长宽的锚框，但是为了适应本发明的应用场景，需要计算新的Anchor尺寸，获取新的 Anchor可以用K-means聚类的方式获取。Anchor机制可以提高目标的召回率，提升算法训练的稳定性。YOLO v5采用自适应锚框机制，根据数据集自动生成锚框。对于生成的锚框尺寸不精确问题，取消自动生成锚框，使用K-means算法生成锚框。

本发明中，包装物分为三个类别即盒装包装物，袋装包装物，瓶装包装物。根据YOLOv5 的多尺度检测的网络结构，对输入的图片分别进行8倍，16倍，32倍的下采样。假设输入的训练图片608*608，则该图像会被划分为76*76网格、38*38网格以及19*19的网格，76*76 预测小目标，38*38预测中目标，19*19预测大目标，每个网格假设有B个预设Anchor，每个Anchor会得出预测目标的中心点坐标(p_x,p_y)和预测框宽高(p_w,p_h)以及类别的置信度 (p_x,p_y,p_w,p_h,c1,c2)共五个值。因此，根据上面分析，76*76的网格输出的张量为 76*76*(B*(5+3)),38*38的网格输出的张量为38*38*(B*(5+3)),19*19的网格输出的张量为19*19*(B*(5+3))。

YOLOv5的网络结构同常见的目标检测算法相同，整个网络结构分为输入端，提取特征层(BackBone)，特征融合层(Neck),目标检测层(Head)。

Yolov5的输入端采用了一种Mosaic数据增强的方式，通过对输入图像随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果相当不错。通过对图像的增强不仅丰富了数据集而且减少了计算量。

输入的图像进入Backbone前首先经过一个Focus结构，该结构对输入的图像进行切片，比如输入608*608*3的图像，采用Focus的切片操作，先变成304*304*12的特征图，再经过一次32个卷积核的卷积操作，最终变成304*304*32的特征图。

YOLO v5借鉴CSPNet网络结构，将CSP1_X应用到Backbone层，将CSP2_X应用到Neck层，如图6，图7所示。CSPNet从网络结构设计的角度解决推理中从计算量很大的问题，采用CSP模块先将基础层的特征映射划分为两部分，然后通过跨阶段层次结构将它们合并，在减少了计算量的同时可以保证准确率，在YOLOv5中使用CSP结构主要优点是增强 CNN的学习能力，使得在轻量化的同时保持准确性；降低计算瓶颈和降低内存成本。

YOLO v5的损失函数由目标置信度损失L_conf(objectness loss)、目标分类损失L_cla(class loss)和目标定位损失L_loc(bounding box loss)组成。YOLOv5采用BEC Logits损失函数计算目标置信度损失，目标分类损失采用了交叉熵损失函数(BCEclsloss)，目标定位损失采用了GIOU Loss，其中λ₁，λ₂，λ₃是平衡系数。

L＝λ₁L_obj+λ₂L_cls+λ₂L_box。

目标置信度为预测框内存在目标的概率值，YOLOv5采用二值交叉熵损失函数，其中 y_i∈{0,1}，表示预测目标框i中是否真实存在目标，0表示不存在，1表示存在；p_i表示预测目标框i内是否存在目标的Sigmoid概率。

p_i＝sigmod(w^Tx+b)。

目标分类损失为同样采用二值交叉熵损失函数，其中y_i∈{0,1}，表示预测目标框i中是否真实存在目标，0表示不存在，1表示存在；p_i表示预测目标框i内是否存在目标的Sigmoid 概率。

p_i＝sigmod(w^Tx+b)。

目标定位损失采用CIOU作为定位的损失函数，CIOU_Loss考虑了预测框和真实框之间的重叠面积和中心点的距离，当真实框包围预测框时，直接度量两个框的距离，从而考虑了边界框中心点距离的信息与边界框宽高比的尺度信息，与此同时也考虑了预测框和目标框的长宽比，使边界框回归结果更好。

其中，预测框中心点用b表示，真实框中心点用b^gt表示，ρ代表欧式距离，c代表相交的预测框与真实框的最小外接矩形的中心线的距离，α一个权重系数，ν代表长宽比一致性的参数，计算公式如下：

该发明对包装物的识别定位分为YOLOv5模型的训练和包装物识别定位两个部分，具体如流程图4所示。

训练模型：使用相机采集包装物数据集2000张，数据集的采集应在不同场景、不同角度、不同光照下采集，来提高模型的泛化能力，使用GPU对模型加速训练，得到训练后的模型。

包装识别定位：对双目相机采集的图像进行校正，得到共线的两张左右图像，图像输入到YOLOv5模型中，对左图像推理，得到左图中目标的类别和对应每个目标的边界框Bounding Box(x_L,y_L,w_L,h_L)，对右图像推理，得到右图中目标的类别和对应每个目标的边界框 Bounding Box(x_R,y_R,w_R,h_R)。

D、立体匹配。

使用模型可以计算得出左右图像的包装物在图像中的位置和类别，但是根据双目相机计算距离的原理，还需要知道左右图像的视差值，因此需要对左右图像进行立体匹配，目的是在左右图像中寻找相同的特征，生成当前左右图像的视差图，视差图中每个像素点就是左右图像的视差值，根据视差值再双目测距原理即可知道包装物距离相机的距离。

进一步地，由于对包装物的识别定位需要实时性，因此立体匹配算法需要满足精度和速度兼优，因此本发明采用SGBM算法对左右图像立体匹配。

E、计算包装物的三维坐标。

在模型推理阶段已经知道所有包装物的中心点坐标和包装物的长宽值，中心点坐标在视差图中相应位置坐标的像素值即为包装物的视差值，将视差值带入公式即可计算得到包装物的三维坐标(X,Y,Z)。

其中，B是相机的基线距离，X_L是包装物在左图像中像素坐标系下的横坐标，Y_L是包装物在左图像中像素坐标系下的纵坐标，f是双目相机的焦距，d是左右图中包装物的视差值。

在本发明中，首先对双目相机采集到的左右图像极线校正，使左右图像满足理想双目成像***下的图像，方便后面的立体匹配，然后将图像输入到YOLO v5目标检测模型中，对于左图像获得包装物在图像中的中心坐标，以及预测框的长宽，对于右图像获得包装物在图像中的中心坐标，以及预测框的长宽；其次，对左右图像采用SGBM算法获得视差图，由此可以获得包装物的视差值，因为视差图中的像素点值即为左右图像的视差值；对于上一步中 YOLO v5推理的包装物，获得的中心点坐标在视差图中该点的像素值即为视差值X_dis＝X_L-X_R，把视差值代入公式[3]即可得到距离值。

Claims

1.一种基于YOLO v5的包装物双目识别定位方法，其特征在于，包含以下步骤：

A、双目相机标定；

B、图像采集并立体校正；

C、利用YOLO v5进行包装物识别与定位；

D、立体匹配；

E、获取包装物的三维坐标。

2.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法，其特征在于，所述步骤A的具体要求是使用双目相机拍摄20张左右相机的棋盘格图像，使用张氏标定法标定左右相机，获取左右相机的内外参数和左右相机的相对位置变换矩阵，根据变换矩阵和对应像素点在像空间中的位置就可以求出物体的空间位置坐标。

3.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法，其特征在于，所述步骤B的具体要求是使用双目相机获取左右图像，然后根据步骤A获取的相机参数对左右图像进行立体校正，最后将左右图像作为目标检测模型的输入。

4.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法，其特征在于，所述步骤C的具体要求为首先训练YOLO v5检测模型，然后使用训练好的模型检测包装物在图像中的中心点坐标和包围框的宽高位置。

5.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法，其特征在于，所述步骤D具体操作为根据目标检测的结果使用立体匹配算法对左右图像检测到的包装物匹配，得到左右图中相匹配包装物的视差值。

6.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法，其特征在于，所述步骤E具体操作为，根据相机变换关系矩阵和对应包装物像素点在像空间中的位置以求出包装物的空间位置坐标。