CN116061187A

CN116061187A - 一种复合机器人对货架商品识别、定位和抓取方法

Info

Publication number: CN116061187A
Application number: CN202310206998.XA
Authority: CN
Inventors: 吴波; 张春生; 董芹鹏; 郑随兵
Original assignee: Ruiman Intelligent Technology Jiangsu Co ltd
Current assignee: Ruiman Intelligent Technology Jiangsu Co ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-05
Anticipated expiration: 2043-03-07
Also published as: CN116061187B

Abstract

本发明是一种复合机器人对货架商品识别、定位和抓取方法，属于机器人控制技术领域。本发明通过机械臂末端配置的双目结构光红外相机采集货架商品图像，将每一种商品的每个品牌的每个规格的商品作为一个类别，使用深度学习方法搭建目标检测网络，使用训练好的目标检测网络对相机实时采集的图像进行推理，使用均值哈希算法和三直方图算法验证目标检测网络的预测结果，当找到目标商品时，将从RGB图像获取的商品位置坐标结合从深度图像获取的商品的深度值转换到世界坐标系下，并传递给机械臂执行目标商品抓取任务。本发明方法可有效识别并检测出种类繁多且摆放密集的货架商品，经验证对光照变化不敏感同时针对外观差异小的货架商品检测准确率高。

Description

一种复合机器人对货架商品识别、定位和抓取方法

技术领域

本发明属于机器人控制技术领域，特别涉及一种复合机器人对货架商品识别、定位和抓取方法。

背景技术

抓取目标物体是生产中的常见动作也是机器人要具备的基础功能，对目标物体的正确的识别与精准的定位是成功抓取的前提。在目标物体的识别与定位中，传统方法按照提前编写的程序流程抓取位于固定区域的物品，且物品种类较少，当物品实际摆放位置与程序设定位置有偏差时，便容易出现抓取失败的情况。

货架商品种类繁多且摆放密集，相同品牌不同口味或不同容量的商品往往在外观上差异极小，仅在包装上注明其对应的口味，容量。现有的机器人抓取方法针对种类多，摆放位置不固定的货架商品无法实现精确的抓取。

发明内容

基于此，本发明提出了一种复合机器人货架商品识别、定位和抓取方法，用于实现对种类多、摆放位置不固定的货架商品的精确抓取。

为实现上述目的，本发明提供如下技术方案：一种本发明提供的一种复合机器人对货架商品识别、定位和抓取方法，包括如下步骤：

S1：复合机器人的机械臂的末端配置双目结构光红外相机和两指手抓装置；使用双目结构光红外相机采集不同种类、不同光线环境、不同视角的货架商品图像数据集，生成训练集和测试集；

其中，每个样本包括货架商品的一张RGB图像、一张深度图像以及图像的标注结果，RGB图像的标注结果存储为txt文件，txt文件中每行包括目标商品的类别代号、目标商品中心点的u坐标、目标商品中心点的v坐标、目标商品在图像中的水平长度比例和竖直高度比例；将每一种商品的每个品牌的每个规格的货架商品作为一个类别，并具有唯一类别代号；

S2：使用深度学习方法搭建目标检测网络并进行训练；

目标检测网络的输入是货架商品的RGB图像，输出商品的类别代号以及商品位置，商品位置为商品中心在图像中的坐标(u,v)；

目标检测网络选择yolov5网络，并在目标检测网络的数据集加载类DataLoader中删除变换商品尺寸的Resize函数；

S3：搭建目标检测推理框架，使用训练好的目标检测网络进行推理；

所述目标检测推理框架接入双目结构光红外相机的输入以及经训练得到最佳权重的目标检测网络，实时获取双目结构光红外相机采集的RGB图像和深度图像，将RGB图像输入目标检测网络进行货架商品类别和位置预测；

S4：使用均值哈希算法和三直方图算法验证目标检测网络的预测结果，均验证通过时，表示预测准确，继续下一步骤，若验证不通过，表示预测错误，转S3继续检测下一帧图像；

预先针对每一类别货架商品，采集一张正面的RGB图像作为该类商品的模板；

所述均值哈希算法验证是指，对当前RGB图像与目标检测网络预测类别的货架商品模板使用均值哈希算法计算汉明距离，当汉明距离小于4时表示预测正确，否则表示预测错误；

所述三直方图算法验证是指，对当前RGB图像与目标检测网络预测类别的货架商品模板使用三直方图算法计算相识度，使用三个通道的巴氏系数取均值作为相似度值，当相似度大于0.8时表示预测正确，否则表示预测错误；

S5：判断当前货架商品是否为用户所需的目标商品，若否，继续转S3检测下一帧图像；若是，由当前深度图像获取货架商品的深度值Z，将货架商品在图像中的坐标转换到世界坐标系下，并传递给复合机器人的机械臂，由两指手抓装置执行目标商品抓取任务。

所述步骤S3中，复合机器人预先获取每个货架上每层所摆放的商品种类，当复合机器人接收到用户的商品需求时，首先根据目标商品的种类确定对应的货架及所在层，移动复合机器人到对应货架，移动复合机器人的机械臂，将使用双目结构光红外相机拍摄目标商品所在货架层中商品图像，查找目标商品。

所述步骤S2中，对目标检测网络进行训练时，设置损失函数由边界框回归损失、目标置信度损失和类别损失三部分构成；其中，边界框回归损失CIoULoss使用CIoU损失函数计算，目标置信度损失BCELoss使用二元交叉熵损失函数计算，类别损失FocalLoss使用Focal Loss损失函数计算；总损失函数Loss为：Loss=CIoULoss+BCELoss+FocalLoss。

所述步骤S5中，预先获取双目结构光红外相机的内参，，，，然后将货架商品在图像中的坐标(u,v)转换到相机坐标系下，得到坐标(X,Y,Z)，其中Z由所获取的深度值得到，转换矩阵如下：

。

再将货架商品的相机坐标系下的坐标(X,Y,Z)转换到世界坐标系下，传递给机械臂；其中，世界坐标系原点设定在机械臂装载平面的中心，z轴垂直装载平面向外，y轴垂直水平面向上。

综上所述，本发明主要具有以下有益效果：

本发明通过本发明方法基于机器视觉抓取货架商品，结合深度学习方法和传统图像处理方法检测，输出目标商品在图像中坐标，使用深度图像输出目标商品在图像中深度值，经过坐标转换输出目标商品在世界坐标系中精确坐标给机械臂抓取，有效避免了物品实际摆放位置与程序设定位置有偏差时抓取失败的情况，极大提高了机械臂的抓取准确率；

本发明通过本发明方法针对所要识别的商品特点，结合深度学习方法和传统图像处理方法进行目标识别，可有效识别并检测出种类繁多且摆放密集的货架商品，经验证对光照变化不敏感同时针对外观差异小的货架商品检测准确率高；

本发明方法采用复合机器人升降移动平台装载机械臂，能够实现机械臂长行程的升降，水平方向的移动、转向和抓取后移动到目标位置的放置、操作等任务，进一步提升工作效率。本发明方法末端抓取机构模拟人类两指抓取物体的装置，采用一个独立的高精密电机驱动和抓取力反馈，可抓取不同大小，不同形状，不同材质的货架商品同时不对商品造成损害。

附图说明

图1为本发明的复合机器人进行商品抓取的示意图；

图2为本发明的复合机器人定位抓取机构的示意图；

图3为本发明的复合机器人对商品进行检测定位的流程示意图；

图4为本发明所使用的像素坐标系、相机坐标系和世界坐标系的关系示意图。

图中：1、货架；2、复合机器人升降平台；3、复合机器人移动平台；4、机械臂；5、双目结构光红外相机；6、两指手抓装置。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1和图2所示，本发明的复合机器人对货架商品识别、定位和抓取方法，对货架1上商品进行抓取所使用的复合机器人包括升降平台2、移动平台3和机械臂4，机械臂4安装在升降平台2上，由升降平台2实现机械臂4的上下空间移动，升降平台2搭载在移动平台3上，由移动平台3移动实现机械臂在前后左右空间的移动。机械臂4的末端上配置双目结构光红外相机5和两指手抓装置6。

本发明的复合机器人对货架商品识别、定位和抓取方法，实现的一个主要流程如图3所示，下面分为5个步骤来说明。

步骤1：预先使用双目光红外相机采集不同种类、不同光线环境、不同视角的货架商品图像数据集。

本发明实施例双目光红外相机使用Intel公司推出的RealSense系列下的D435i相机。

本发明实施例采集不同种类、不同光线环境、不同视角的货架商品图像数据集的具体实施为：使用Intel公司推出的RealSense系列下的D435i相机对不同种类的货架商品分别在光线充足和光线不足的环境下采集两张正面，一张侧面，一张背面的RGB图像和对应的深度图像。使用LabelImg标注软件将RGB图像中不同种类的货架商品框选出来并分别赋予编号：0、1、2 ... n-1，n为商品总的类别数量，每张RGB图像标注的结果导出为一个txt文件。本发明中将每种商品的每个品牌的每个规格的商品作为一个类别，赋予不同代码编号。txt文件中每一行表示图像中的一个商品，每一行内容分别为：商品的类别代号、商品中心点的u坐标、商品中心点的v坐标、商品在图像中水平长度的比例和商品在图像中竖直高度的比例。本发明将由RGB图像获取商品在图像中的(u,v)坐标，由深度图像获取商品在图像中的z坐标。

本发明实施例中，每一层货架摆放不同品牌的相同种类的商品，不同层的货架摆放不同种类的商品。本发明实施例中，对10类货架商品进行采样，对每一类别商品选取20个相同品牌相同规格的商品在光线充足和光线不足的环境下，分别对每个商品采样5张RGB图像和5张深度图像，得到2000张图像组成的货架商品数据集，将其划分为训练集1800张图像，测试集200张图像。本发明实施例在图像采集过程中，相机水平方向与商品保持30cm的距离，竖直方向比每一层的货架平面高出15cm。

步骤2：使用深度学习方法搭建并训练目标检测网络。

本发明实施例中，将步骤1制作好的货架商品图像数据集直接输入给目标检测网络进行训练，其中目标检测网络选择yolov5的6.0版本。目标检测网络的输入是RGB图像和深度图像，输出货架商品的类别代号以及商品位置，商品位置为货架商品中心在图像中的坐标(u,v)。

由于卷积神经网络具有尺度不变性的特性，而不同商品又经常出现外观相同容量不同的情况，因此在目标检测网络的数据集加载类 DataLoader 中删除变换训练数据集中商品尺寸的Resize函数，提升模型对不同尺寸商品的检测准确率。在模型训练过程中，根据可视化工具Tensorboard记录的精度-损失曲线找到模型过拟合的临界点，将临界点保存的训练权重保存为最佳权重，用于步骤3目标检测网络的推理过程。

本发明实施例中，目标检测网络进行训练时，损失函数由边界框回归损失、目标置信度损失和类别损失三部分构成，其中边界框回归损失使用CIoU损失函数计算，目标置信度损失使用二元交叉熵损失函数计算。由于货架商品类别数量巨大且夹杂许多外观相似难以区分的样本，因此本发明使用Focal Loss损失函数替换二元交叉熵损失函数计算类别损失，使类别损失更加聚焦于难区分的样本，提升模型的整体性能。其中，Focal Loss的计算公式如下所示：

。

Focal Loss也可表示为：

。

其中，Lfl表示Focal Loss损失函数值；为预测概率大小；y为标签，在二分类中y=0表示负样本，y=1表示正样本；a为类别权重，用来权衡正负样本不均衡问题，通过调节a可以抑制正负样本的数量失衡；表示难分样本权重，用来衡量难分样本和易分样本，通过调节可以控制简单/难区分样本数量失衡；概率反映了与真实类别y的接近程度，越大说明分类越准确。

本发明总损失函数Loss如下：

Loss=CIoULoss+BCELoss+FocalLoss

其中，CIoUloss为边界框回归损失，BCELoss为目标置信度损失，FocalLoss为类别损失。

本发明实施例中，训练目标检测网络时设置总迭代次为90个epoch，每批次大小batch_size设置为16，优化器选择Adam。目标检测模型在训练过程中使用Warmup预热训练，避免训练刚开始时学习率过大对原有权重造成破坏，以确保模型的稳定性。具体过程为：训练开始的前5个epoch，偏置层的学习率由0.1迅速下降至0.01，其他参数的学习率则由0缓慢增加至0.01，从第6个epoch开始，使用余弦退火学习算法更新学习率，使学习率按余弦曲线变化。

步骤3：搭建目标检测推理框架，使用训练好的目标检测网络进行推理。

本发明实施例中，基于yolov5的detect脚本搭建目标检测推理框架，下载Intel公司推出的RealSense系列下的D435i相机的python SDK（python 软件开发工具包），并将其接入到目标检测推理框架中，使推理框架能实时获取相机采集的RGB图像和深度图像。

本发明实施例中，使用训练好的目标检测网络进行推理的具体实施为：首先在目标检测推理框架中加载步骤2训练得到的最佳权重，将双目相机实时采集到的RGB图像直接输入到目标检测推理框架中，经过目标检测网络的推理得到当前货架商品的预测类别和当前货架商品在RGB图像中的二维坐标(u,v)。

本发明实施例中，每层货架摆放相同种类的不同品牌不同规格的商品，例如一层货架都是矿泉水，有不同品牌下不同大小规格的矿泉水，复合机器人预先获取每个货架上每层所摆放的商品的种类信息，如某个货架的第一层是矿泉水，第二层是碳酸饮料等等，当复合机器人接收到用户的商品需求时，首先根据所需商品的种类获取对应的货架及所在层，移动复合机器人到对应货架，将使用双目结构光红外相机5拍摄所需商品所在货架层的各商品图像，每拍摄一个商品图像时，移动机械臂4使得双目结构光红外相机5达到设定拍摄角度，即相机水平方向与商品保持30cm的距离，竖直方向比所拍摄货架层的平面高出15cm。

步骤4：使用传统图像处理方法验证目标检测网络的检测结果。当且仅当检测结果通过均值哈希算法和三直方图算法的验证时，表示检测结果正确。当只通过均值哈希算法验证或两种算法都未通过时，表示检测结果错误，***继续检测下一帧图像。

由于卷积天然具有平移不变性，将货架商品旋转一定角度，变换灯光颜色后网络可能识别不出该货架商品，因此本发明使用传统图像处理方法验证目标检测网络的检测结果，使网络模型更加具有鲁棒性。

本发明实施例中，在步骤2结束后，对每类货架商品都采集一张正面的RGB图像作为该类商品的模板，该类商品的模板图像与当前商品RGB图像的相似程度作为判断检测结果是否正确的主要依据。在网络模型推理过程中，当目标检测网络识别出该货架商品的类别时，使用均值哈希算法计算该货架商品RGB图像与其对应模板图像的相似度，当汉明距离小于4时视为预测正确，否则表示预测错误。本发明实施例中，均值哈希算法的计算步骤为：首先将两图像缩放为8*8像素的图像设定长度图像并转化为灰度图，然后计算灰度图的像素平均值，将其中像素值大于等于平均值的记作1，小于平均值的记作0，然后统计两图中有多少位数字不同，即得到汉明距离。

本发明实施例中，网络模型推理过程中，当该货架商品通过均值哈希算法验证后，使用三直方图算法计算该货架商品与其对应模板照片的相似度，当两张图像的相似度大于0.8时视为预测正确，即网络的检测结果通过了均值哈希算法和三直方图算法的验证。相似度使用巴氏系数ρ计算，计算公式如下：。

其中分别代表源图像与候选的图像直方图数据，i表示每个像素点位置，N表示图像中像素点的总数量。对每个相同像素点位置i的数据点乘积开平方以后相加，得出的结果即为巴氏系数图像相似度值，范围为0到1之间。

三直方图算法的计算步骤为：对两图像的RGB通道进行分离，统计每个通道的直方图，计算两图像在各通道下的直方图的巴氏系数，对三个通道的巴氏系数取均值作为两图像的相识度值。

步骤5：若当前目标检测网络识别的货架商品是用户所需的目标商品，则进行坐标转换，否则，继续转步骤3，使用双目结构光红外相机5拍摄下一个商品图像。进行坐标转换是将货架商品在图像中的二维坐标和深度值转换为世界坐标系中坐标，并传递给机械臂，由两指手抓装置6执行目标商品抓取任务。

本发明应用场景中涉及三个坐标系，像素坐标系，相机坐标系和世界坐标系，如图4所示。其中，像素坐标系为建立在相机所拍摄的图像中，像素坐标系u轴和v轴的原点位于图像的左上角，u轴水平向右，v轴竖直向下；相机坐标系是以双目结构光红外相机的聚焦中心为原点O，以光轴为Z轴建立的三维直角坐标系O-XYZ；本发明的世界坐标系原点o设定在机械臂装载平面的中心，z轴垂直装载平面向外，y轴垂直水平面向上，x轴与z轴、y轴呈右手系。世界坐标系用于定义立体空间的客观位置，是对立体空间中其他点或其他坐标系进行测量的参考。

本发明通过目标检测网络从RGB图像中识别出的商品中心位置为像素坐标系中坐标(u,v)，从深度图像中获取目标商品的深度值，进行在像素坐标系与相机坐标系下的转换，如下：

。

写成矩阵的形式如下：。

其中，(X,Y,Z)为目标货架商品在相机坐标系下的坐标，为像素坐标在轴上的缩放系数，为像素坐标在轴上的缩放系数，，，，均为相机的内参。相机坐标系中坐标Z由所获取的深度值直接得到。

将目标货架商品在像素坐标系下的坐标(u,v)转换为相机坐标系下的坐标(X,Y,Z)后，再转换为在世界坐标系下的坐标(x,y,z)，将转换后的坐标传递给机械臂执行目标商品抓取任务。

当不关注抓取货架商品姿态时，相机坐标系到世界坐标系的转换矩阵由下式表示：。

当关注抓取货架商品姿态时，相机坐标系到世界坐标系的转换矩阵由下式表示：。

其中，A表示世界坐标系，B表示相机坐标系。当不考虑抓取的货架商品姿态时，相机坐标系到世界坐标系的坐标转换矩阵可由表示，其中表示货架商品在世界坐标系下坐标，表示货架商品在相机坐标系下坐标，为相机坐标系相对于世界坐标系的姿态矩阵，为相机坐标系相对于世界坐标系的位置矩阵。当考虑抓取的货架商品姿态时，将目标货架商品视为物体坐标系C，此时相机坐标系到世界坐标系的坐标转换矩阵由表示，即相机坐标系到世界坐标系的坐标转换矩阵与物体坐标系到相机坐标系的坐标转换矩阵的乘积。本发明实例中，姿态矩阵、和位置矩阵、使用机械臂内置的相关函数实时更新。

本发明实施例的测试平台和实验环境为： Windows 10 专业版操作***， NVIDIAGeForce RTX 3060 Ti显卡，显存大小为8GB，CPU配置为英特尔® 酷睿™ i5-12400 处理器，CUDA版本为11 .3 .1，Pytorch版本为1 .12 .0，Python语言环境为3 .8 .1。

为了验证本发明方法的有效性，将本发明方法与传统方法、仅使用深度学习方法和仅使用传统图像处理方法在摆放10个不同种类的商品且摆放位置不固定的场景上进行测试，不同方法性能指标比较的结果如下表1所示。

表1 不同方法识别效果对比

方法	识别准确率/%	FPS	Times/s
				传统方法仅使用传统图像处理方法仅使用深度学习方法本文方法	20408099	—58.644.230.4	—0.0180.0260.043

从表中可以看出，相较于传统方法、仅使用深度学习方法和仅使用传统图像处理方法，本发明方法识别准确率最高，在测试场景正确识别出全部10个不同种类的商品。本发明方法既包含深度学习方法又包含传统图像处理方法，因此在识别速度上不及其他方法，相比仅使用深度学习方法FPS下降了13.8，处理每一张图像的时间增加了17ms，但在从种类多、摆放位置不固定的货架商品中进行精确抓取的实现前提下，所增加的时间并不长，并不会影响用户体验。

尽管已经示出和描述了本发明的实施例，但本具体实施例仅仅是对本发明的解释，其并不是对发明的限制，描述的具体特征、结构、材料或者特点可以在任何一个或多个实施例或示例中以合适的方式结合，本领域技术人员在阅读完本说明书后可在不脱离本发明的原理和宗旨的情况下，可以根据需要对实施例做出没有创造性贡献的修改、替换和变型等，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种复合机器人对货架商品识别、定位和抓取方法，其特征在于，包括如下步骤：

其中，每个样本包括货架商品的一张RGB图像、一张深度图像以及图像的标注结果，RGB图像的标注结果存储为txt文件，txt文件中每行包括货架商品的类别代号、货架商品中心点的u坐标、货架商品中心点的v坐标、货架商品在图像中的水平长度比例和竖直高度比例；将每一种商品的每个品牌的每个规格的商品作为一个类别，并具有唯一类别代号；

S2：使用深度学习方法搭建目标检测网络并进行训练；

2.根据权利要求1所述的方法，其特征在于，所述的方法，设置双目结构光红外相机采集图像时，相机水平方向与商品保持30cm的距离，竖直方向比当前拍摄商品所在货架层的平面高出15cm。

3.根据权利要求1或2所述的方法，其特征在于，所述的步骤S3中，复合机器人预先获取每个货架上每层所摆放的商品种类，当复合机器人接收到用户的商品需求时，首先根据目标商品的种类确定对应的货架及所在层，移动复合机器人到对应货架，移动复合机器人的机械臂，将使用双目结构光红外相机拍摄目标商品所在货架层中商品图像。

4.根据权利要求1所述的方法，其特征在于，所述的步骤S2中，对目标检测网络进行训练时，设置损失函数由边界框回归损失、目标置信度损失和类别损失三部分构成；其中，边界框回归损失CIoULoss使用CIoU损失函数计算，目标置信度损失BCELoss使用二元交叉熵损失函数计算，类别损失FocalLoss使用Focal Loss损失函数计算；总损失函数Loss为：Loss=CIoULoss+BCELoss+FocalLoss。

5.根据权利要求1或2所述的方法，其特征在于，所述的步骤S5中，预先获取双目结构光红外相机的内参，，，，然后将货架商品在图像中的坐标(u,v)转换到相机坐标系下，得到坐标(X,Y,Z)，其中Z由所获取的深度值得到，转换矩阵如下：