CN115471542A - 一种基于YOLO v5的包装物双目识别定位方法 - Google Patents

一种基于YOLO v5的包装物双目识别定位方法 Download PDF

Info

Publication number
CN115471542A
CN115471542A CN202210479182.XA CN202210479182A CN115471542A CN 115471542 A CN115471542 A CN 115471542A CN 202210479182 A CN202210479182 A CN 202210479182A CN 115471542 A CN115471542 A CN 115471542A
Authority
CN
China
Prior art keywords
yolo
binocular
images
positioning
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210479182.XA
Other languages
English (en)
Inventor
艾长胜
张传斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202210479182.XA priority Critical patent/CN115471542A/zh
Publication of CN115471542A publication Critical patent/CN115471542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于YOLO v5的包装物双目识别定位方法,本发明主要包含以下步骤:A.双目相机标定;B.图像采集并立体校正;C.利用YOLO v5进行包装物识别与定位;D.立体匹配;F.获取包装物的三维坐标,本发明提出的一种基于YOLO v5的包装物双目识别定位方法,首先使用标定后的双目相机采集图像,将获取的左右图像进行立体校正,将图像校正成理想成像下的双目图像,然后输入到目标检测模型中,对识别出的目标包装通过立体匹配算法对左右图像进行匹配,根据左右图像的视差值计算目标包装物的距离值,最后把包装物的三维坐标发送给机器人,可用于引导机器人对包装袋或包装盒等包装物抓取分拣的自动化场景。

Description

一种基于YOLO v5的包装物双目识别定位方法
技术领域
本发明涉及机器视觉检测领域,具体涉及一种基于YOLO v5的包装物双目识别定位 方法。
背景技术
随着现代化工业的发展以及自动化技术的成熟,机器人代替人工的应用场景越来越普 遍。对于流水线上的包装盒和包装袋等包装物的分拣以及集装箱中袋装或盒装等包装物料搬 运工作枯燥乏味,长期以来耗费了大量的人力资源。
人工智能与深度学习的发展,使得目标检测技术得到迅速发展,YOLO v5是一种端到 端的单阶段目标检测算法,使用回归的方法直接计算目标的类别和位置。通过对YOLOv5使 用大量的数据迭代训练,可以实现对包装物的精准识别和定位。
获取包装物相对于机器人的空间位置坐标对机器人的分拣和搬运工作极为重要。双目 视觉定位方法是模仿生物***的视觉距离估计和景物重建过程,即由存在一定间距的两个彩 色摄像头拍摄同一物体,同一物体在两个摄像头中的成像像素点具有对应关系,根据成像变 换矩阵和对应像素点在像空间中的位置就可以求出目标的空间位置。
发明内容
为解决人工分拣搬运包装物工作效率低下的问题,本发明提出一种基于YOLO v5的 包装物双目识别定位方法,该方法可用于流水线中包装物的识别定位,适用于机器人自动化 分拣搬运场景。
为了达到上述发明目的,本发明采用的技术方案包含以下步骤:
A、双目相机标定;
B、图像采集并进行立体校正;
C、使用YOLO v5进行包装物识别与定位;
D、对左右图像立体匹配;
E、计算包装物的三维坐标。
进一步地,所述步骤A的具体操作为使用双目相机拍摄20张左右相机的棋盘格图像, 使用张氏标定法标定左右相机,获取左右相机的内外参数和左右相机的相对位置变换矩阵, 根据变换矩阵和对应像素点在像空间中的位置就可以求出物体的空间位置。
进一步地,所述步骤B地具体操作是使用双目相机获取左右图像,然后根据步骤A获 取的相机参数对左右图像进行立体校正,最后将左右图像作为目标检测模型的输入,立体校 正示意图如图3所示。
进一步地,所述步骤C的具体操作是首先采集包装物的图像数据集训练YOLO v5检测模型,然后使用训练后的模型检测包装物在图像中的Bounding Boxs(中心点坐标和预测框 的宽高和类别。
进一步地,所述步骤C中YOLO v5是一种优秀的单阶段目标检测模型,直接使用回归的方式识别定位包装物,满足实时性的要求。
进一步地,所述步骤D的具体操作是使用立体匹配算法对左右图像检测到的包装物目 标匹配,得到视差图,立体匹配算法采用SGBM算法,该算法在精度和速度上比其他匹配算 法更优。
进一步地,所属步骤E的具体操作是根据相机变换矩阵和对应包装物像素点在像空间 中的位置以求出包装物的空间位置坐标。
与现有技术相比,本发明具有以下有益效果:
本发明提出一种基于YOLO v5的包装物双目识别定位方法利用深度学习目标检测模型识别 包装物,基于数据驱动的深度学习模型,通过足够的数据训练可以达到比传统方式的目标检 测更高的精度,使用卷积神经网络可以提取更高的鲁棒性,对于单阶段的YOLOv5模型使其 可以部署到嵌入式设备和移动设备上运行,降低了深度学习模型使用的门槛。
附图说明
图1是双目相机测距原理图。
图2是双目相机标定流程图。
图3是图像立体校正示意图。
图4是双目相机障碍物检测流程图。
图5是YOLOv5包装物识别定位流程图。
图6是YOLOv5结构图。
图7是CSP1_X结构图。
图8是CSP2_X结构图。
具体实施方式
为了使本技术领域的人员更好的理解本发明方案,下面将结合实施例附图对本发明中 的技术方案进行完整地、详尽地描述。显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都属于本发明保护的范围。
A、双目相机标定。
B、图像采集并进行立体校正。
C、使用YOLO v5进行包装物识别与定位。
D、对左右图像立体匹配。
E、计算包装物的三维坐标。
下面结合附图对本发明做进一步详细描述:一种基于YOLO v5的包装物双目识别定 位方法包含以下步骤。
A、相机标定:在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三 维几何位置与其在图像中对应点之间的相互关系,必须建立相机成像的几何模型,这些几何 模型参数就是相机参数。相机标定的目的是获取相机的内外参数和畸变参数,求出这些参数 相当于找到了三维到二维的映射关系模型。本发明中采用传统的标定方式,通过在相机前方 以各种角度摆放二维标定板,将拍摄的标定板输入到标定程序中可得出左右相机的内参数、 畸变参数以及左相机相对右相机的平移矩阵和旋转矩阵,标定流程如附图2所示。
B、图像校正:通过双目相机采集图像作为包装物识别定位***的输入,然后对图像 进行消除畸变的预处理操作,由于光学透镜固有的透视失真,使得相机拍摄的图片存在着径 向畸变和切向畸变,根据相机标定的畸变参数可以缓解这种畸变的程度。
双目相机主要的任务就是测量深度,而视差求距离公式是在双目***处于理想情况下 推导的,所以就要将实际的双目***校正为理想的双目***:两摄像机图像平面平行,光轴 和图像平面垂直,极点处于无线远处。本发明具体采用Bouguet立体校正算法,其核心原理 是通过像素平面透视变换,使左右图像重投影误差最小,使双目***最接近理想状态,立体 校正最终效果如附图3所示。
C、使用Yolo v5模型进行包装物识别与定位。
目标检测通常分为两个任务的组合:图像分类和图像定位。YOLO是一种单阶段的目 标检测算法,它将输入的图像通过CNN进行特征提取,然后使用直接回归的方式推理得出目 标的类别和目标在图像中的位置;与两阶段的目标检测算法不同,它的速度更快,参数量更 少;与传统的人工设计的特征提取器提取特征的方式相比,它通过卷积神经网络的方式提取 的特征鲁棒性更强,因此本发明采用单阶段的YOLO v5作为目标检测的框架对包装物识别与 定位。
YOLO工作的原理是将输入的图像划分为多个网格,如果目标的中心点落入某个网格 中,则就由该网格预测这个目标。但这样就会出现一个问题,如果有两个不同类别的目标落 入同一个网格,则网络就不知道该预测哪个目标,因此给YOLO引入Anchor机制,用来解 决一个网格存在两个物体类别的问题。在YOLO v5算法中,针对不同的数据集,都会有初始 设定长宽的锚框,但是为了适应本发明的应用场景,需要计算新的Anchor尺寸,获取新的 Anchor可以用K-means聚类的方式获取。Anchor机制可以提高目标的召回率,提升算法训 练的稳定性。YOLO v5采用自适应锚框机制,根据数据集自动生成锚框。对于生成的锚框尺 寸不精确问题,取消自动生成锚框,使用K-means算法生成锚框。
本发明中,包装物分为三个类别即盒装包装物,袋装包装物,瓶装包装物。根据YOLOv5 的多尺度检测的网络结构,对输入的图片分别进行8倍,16倍,32倍的下采样。假设输入的 训练图片608*608,则该图像会被划分为76*76网格、38*38网格以及19*19的网格,76*76 预测小目标,38*38预测中目标,19*19预测大目标,每个网格假设有B个预设Anchor,每 个Anchor会得出预测目标的中心点坐标(px,py)和预测框宽高(pw,ph)以及类别的置信度 (px,py,pw,ph,c1,c2)共五个值。因此,根据上面分析,76*76的网格输出的张量为 76*76*(B*(5+3)),38*38的网格输出的张量为38*38*(B*(5+3)),19*19的网格输出的张量为19*19*(B*(5+3))。
YOLOv5的网络结构同常见的目标检测算法相同,整个网络结构分为输入端,提取特 征层(BackBone),特征融合层(Neck),目标检测层(Head)。
Yolov5的输入端采用了一种Mosaic数据增强的方式,通过对输入图像随机缩放、随机 裁剪、随机排布的方式进行拼接,对于小目标的检测效果相当不错。通过对图像的增强不仅 丰富了数据集而且减少了计算量。
输入的图像进入Backbone前首先经过一个Focus结构,该结构对输入的图像进行切 片,比如输入608*608*3的图像,采用Focus的切片操作,先变成304*304*12的特征图,再经过一次32个卷积核的卷积操作,最终变成304*304*32的特征图。
YOLO v5借鉴CSPNet网络结构,将CSP1_X应用到Backbone层,将CSP2_X应用 到Neck层,如图6,图7所示。CSPNet从网络结构设计的角度解决推理中从计算量很大的 问题,采用CSP模块先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将它们 合并,在减少了计算量的同时可以保证准确率,在YOLOv5中使用CSP结构主要优点是增强 CNN的学习能力,使得在轻量化的同时保持准确性;降低计算瓶颈和降低内存成本。
YOLO v5的损失函数由目标置信度损失Lconf(objectness loss)、目标分类损失Lcla(class loss)和目标定位损失Lloc(bounding box loss)组成。YOLOv5采用BEC Logits损失函数计算目 标置信度损失,目标分类损失采用了交叉熵损失函数(BCEclsloss),目标定位损失采用了GIOU Loss,其中λ1,λ2,λ3是平衡系数。
L=λ1Lobj2Lcls2Lbox
目标置信度为预测框内存在目标的概率值,YOLOv5采用二值交叉熵损失函数,其中 yi∈{0,1},表示预测目标框i中是否真实存在目标,0表示不存在,1表示存在;pi表示预测目 标框i内是否存在目标的Sigmoid概率。
Figure RE-GDA0003902350200000051
pi=sigmod(wTx+b)。
目标分类损失为同样采用二值交叉熵损失函数,其中yi∈{0,1},表示预测目标框i中 是否真实存在目标,0表示不存在,1表示存在;pi表示预测目标框i内是否存在目标的Sigmoid 概率。
Figure RE-GDA0003902350200000052
pi=sigmod(wTx+b)。
目标定位损失采用CIOU作为定位的损失函数,CIOU_Loss考虑了预测框和真实框之 间的重叠面积和中心点的距离,当真实框包围预测框时,直接度量两个框的距离,从而考虑 了边界框中心点距离的信息与边界框宽高比的尺度信息,与此同时也考虑了预测框和目标框 的长宽比,使边界框回归结果更好。
Figure RE-GDA0003902350200000061
其中,预测框中心点用b表示,真实框中心点用bgt表示,ρ代表欧式距离,c代表相交的预测框与真实框的最小外接矩形的中心线的距离,α一个权重系数,ν代表长宽比一致性的参数,计算公式如下:
Figure RE-GDA0003902350200000062
Figure RE-GDA0003902350200000063
该发明对包装物的识别定位分为YOLOv5模型的训练和包装物识别定位两个部分,具 体如流程图4所示。
训练模型:使用相机采集包装物数据集2000张,数据集的采集应在不同场景、不同角度、不同光照下采集,来提高模型的泛化能力,使用GPU对模型加速训练,得到训练后的模型。
包装识别定位:对双目相机采集的图像进行校正,得到共线的两张左右图像,图像输 入到YOLOv5模型中,对左图像推理,得到左图中目标的类别和对应每个目标的边界框Bounding Box(xL,yL,wL,hL),对右图像推理,得到右图中目标的类别和对应每个目标的边界框 Bounding Box(xR,yR,wR,hR)。
D、立体匹配。
使用模型可以计算得出左右图像的包装物在图像中的位置和类别,但是根据双目相机 计算距离的原理,还需要知道左右图像的视差值,因此需要对左右图像进行立体匹配,目的 是在左右图像中寻找相同的特征,生成当前左右图像的视差图,视差图中每个像素点就是左 右图像的视差值,根据视差值再双目测距原理即可知道包装物距离相机的距离。
进一步地,由于对包装物的识别定位需要实时性,因此立体匹配算法需要满足精度和 速度兼优,因此本发明采用SGBM算法对左右图像立体匹配。
E、计算包装物的三维坐标。
在模型推理阶段已经知道所有包装物的中心点坐标和包装物的长宽值,中心点坐标在 视差图中相应位置坐标的像素值即为包装物的视差值,将视差值带入公式即可计算得到包装 物的三维坐标(X,Y,Z)。
Figure RE-GDA0003902350200000071
Figure RE-GDA0003902350200000072
Figure RE-GDA0003902350200000073
其中,B是相机的基线距离,XL是包装物在左图像中像素坐标系下的横坐标,YL是包装物在左图像中像素坐标系下的纵坐标,f是双目相机的焦距,d是左右图中包装物的视差 值。
在本发明中,首先对双目相机采集到的左右图像极线校正,使左右图像满足理想双目 成像***下的图像,方便后面的立体匹配,然后将图像输入到YOLO v5目标检测模型中,对 于左图像获得包装物在图像中的中心坐标,以及预测框的长宽,对于右图像获得包装物在图 像中的中心坐标,以及预测框的长宽;其次,对左右图像采用SGBM算法获得视差图,由此 可以获得包装物的视差值,因为视差图中的像素点值即为左右图像的视差值;对于上一步中 YOLO v5推理的包装物,获得的中心点坐标在视差图中该点的像素值即为视差值Xdis=XL-XR, 把视差值代入公式[3]即可得到距离值。

Claims (6)

1.一种基于YOLO v5的包装物双目识别定位方法,其特征在于,包含以下步骤:
A、双目相机标定;
B、图像采集并立体校正;
C、利用YOLO v5进行包装物识别与定位;
D、立体匹配;
E、获取包装物的三维坐标。
2.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法,其特征在于,所述步骤A的具体要求是使用双目相机拍摄20张左右相机的棋盘格图像,使用张氏标定法标定左右相机,获取左右相机的内外参数和左右相机的相对位置变换矩阵,根据变换矩阵和对应像素点在像空间中的位置就可以求出物体的空间位置坐标。
3.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法,其特征在于,所述步骤B的具体要求是使用双目相机获取左右图像,然后根据步骤A获取的相机参数对左右图像进行立体校正,最后将左右图像作为目标检测模型的输入。
4.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法,其特征在于,所述步骤C的具体要求为首先训练YOLO v5检测模型,然后使用训练好的模型检测包装物在图像中的中心点坐标和包围框的宽高位置。
5.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法,其特征在于,所述步骤D具体操作为根据目标检测的结果使用立体匹配算法对左右图像检测到的包装物匹配,得到左右图中相匹配包装物的视差值。
6.根据权利要求1所述的一种基于YOLO v5的包装物双目识别定位方法,其特征在于,所述步骤E具体操作为,根据相机变换关系矩阵和对应包装物像素点在像空间中的位置以求出包装物的空间位置坐标。
CN202210479182.XA 2022-05-05 2022-05-05 一种基于YOLO v5的包装物双目识别定位方法 Pending CN115471542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210479182.XA CN115471542A (zh) 2022-05-05 2022-05-05 一种基于YOLO v5的包装物双目识别定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210479182.XA CN115471542A (zh) 2022-05-05 2022-05-05 一种基于YOLO v5的包装物双目识别定位方法

Publications (1)

Publication Number Publication Date
CN115471542A true CN115471542A (zh) 2022-12-13

Family

ID=84364702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210479182.XA Pending CN115471542A (zh) 2022-05-05 2022-05-05 一种基于YOLO v5的包装物双目识别定位方法

Country Status (1)

Country Link
CN (1) CN115471542A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681778A (zh) * 2023-06-06 2023-09-01 固安信通信号技术股份有限公司 一种基于单目相机的距离测量方法
CN116740334A (zh) * 2023-06-23 2023-09-12 河北大学 一种基于双目视觉和改进yolo的无人机入侵检测定位方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681778A (zh) * 2023-06-06 2023-09-01 固安信通信号技术股份有限公司 一种基于单目相机的距离测量方法
CN116681778B (zh) * 2023-06-06 2024-01-09 固安信通信号技术股份有限公司 一种基于单目相机的距离测量方法
CN116740334A (zh) * 2023-06-23 2023-09-12 河北大学 一种基于双目视觉和改进yolo的无人机入侵检测定位方法
CN116740334B (zh) * 2023-06-23 2024-02-06 河北大学 一种基于双目视觉和改进yolo的无人机入侵检测定位方法

Similar Documents

Publication Publication Date Title
CN111462135B (zh) 基于视觉slam与二维语义分割的语义建图方法
US11205298B2 (en) Method and system for creating a virtual 3D model
CN103959307B (zh) 从灰度图像中检测和描述特征的方法
CN113436258B (zh) 基于视觉与激光雷达融合的海上浮码头检测方法及***
CN113537208A (zh) 一种基于语义orb-slam技术的视觉定位方法及***
CN115471542A (zh) 一种基于YOLO v5的包装物双目识别定位方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
Shen A survey of object classification and detection based on 2d/3d data
US20220319146A1 (en) Object detection method, object detection device, terminal device, and medium
CN114693661A (zh) 一种基于深度学习的快速分拣方法
CN112580434B (zh) 一种基于深度相机的人脸误检优化方法、***及人脸检测设备
CN111239684A (zh) 一种基于YoloV3深度学习的双目快速距离测量方法
CN114399675A (zh) 一种基于机器视觉与激光雷达融合的目标检测方法和装置
US20220301176A1 (en) Object detection method, object detection device, terminal device, and medium
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与***
CN114119992A (zh) 基于图像与点云融合的多模态三维目标检测方法及装置
CN114298151A (zh) 一种基于点云数据与图像数据融合的3d目标检测方法
Gählert et al. Single-shot 3d detection of vehicles from monocular rgb images via geometrically constrained keypoints in real-time
CN114494248B (zh) 基于点云和不同视角下的图像的三维目标检测***及方法
CN114140527A (zh) 一种基于语义分割的动态环境双目视觉slam方法
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
CN111626241A (zh) 一种人脸检测方法及装置
Wietrzykowski et al. Stereo plane R-CNN: Accurate scene geometry reconstruction using planar segments and camera-agnostic representation
Gählert et al. Single-shot 3d detection of vehicles from monocular rgb images via geometry constrained keypoints in real-time
CN112529917A (zh) 一种三维目标分割方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination