CN113370217B

CN113370217B - 基于深度学习的物体姿态识别和抓取的智能机器人的方法

Info

Publication number: CN113370217B
Application number: CN202110732696.7A
Authority: CN
Inventors: 杜广龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-06-16
Anticipated expiration: 2041-06-29
Also published as: CN113370217A

Abstract

本发明公开了基于深度学***台模型；基于搭建的虚拟环境，对机械臂工作平台虚拟模型上的物体进行随机化处理，并得到摄像机拍摄图像，获取数据集；构建物体姿态检测器；基于构建的物体姿态检测器，构建神经网络，用获取得到的数据集对其进行训练；将训练完成的物体姿态检测器迁移到现实平台本发明通过在虚拟环境模拟产生随机物体得到大量数据作为训练数据集，采用特殊的训练方法得到一个泛化能力较强的物体姿态检测器，然后迁移到现实平台，实现对基本物体的姿态识别和抓取。

Description

基于深度学习的物体姿态识别和抓取的智能机器人的方法

技术领域

本发明涉及智能机器人抓取领域，具体涉及智能机器人基于深度学习实现物体姿态识别和抓取的方法。

背景技术

在工业4.0的今天，形形色色的机器人开始走进工厂进行辅助生产，它们代替人类完成危险或反复的工作任务。显而易见的是，智能机器人并不会感到疲倦，只会遵循着已经训练好的神经网络或规则进行运作，优秀的智能机器人获得了工业的青睐，并大量运用于生产之中。

然而，随着工业机器人的普及，关于智能机器人的训练时长以及抓取效率的问题也被提出。尽管研究人员们在对机器人的神经网络训练方面已经尽可能地保证训练的迅速及简易，但如何缩短神经网络的训练时长和提高机器人的抓取效率仍然是研究人员们较为关心的问题。

目前主流智能机器人的训练方式仍是基于实际场景进行训练，即在现实生活中实际进行训练场景的随机化，并获取场景进行神经网络的训练。但这种方法存在一个较大的缺陷便是，现实生活中进行训练场景的随机化会损耗大量时间，每一单位训练数据的产生损耗的时间较计算机感知而言是相对漫长的。对于智能机器人的训练而言，训练过程中所损耗的时间相对而言反而是可忽略不计的，但用于生成训练用的数据集所耗费的时间是较为巨大的，对于智能机器人的使用来说，耗费更大比例时间用于生产训练用数据集而不是用于具体训练智能机器人是不可接受的。

当然目前智能机器人的训练方式也存在使用仿真来进行智能机器人神经网络据训练的方案,如《Using Simulation and Domain Adaptation to Improve Efficiency ofDeep Robotic Grasping》出自IEEE International Conference on Robotics andAutomation,2018。该文献中提出了一种吸引人的替代方法是使用现成的模拟器来呈现合成虚拟数据集，并为其自动生成底层真值注释。但该文章认为单纯根据模拟数据训练的模型常常不能推广到现实世界。该文献研究如何将随机模拟环境和领域适应方法扩展到训练抓取***从原始单眼RGB图像中抓取新的目标。该文章表示，通过使用虚拟合成数据和领域适应，能够将实现给定性能水平所需的真实世界样本数量将大幅减少，主要使用随机生成的虚拟数据集。但该技术不能完全不使用真实环境数据集进行训练，对于现实世界的数据集还存在着需求，并且对于机器人神经网络过拟合的问题并没有进行优化。

发明内容

因此针对现有技术的不足，本发明公开了基于深度学习的物体姿态识别和抓取的智能机器人的方法，在虚拟的环境中，使用随机算法使训练场景在更多的场景及目标物体因素中产生不同，以此产生更多可能的训练数据，用于尽可能覆盖工业生产过程中所面对的不同工作场景。并且由于借助于计算机搭建的虚拟环境，在产生数据集的速度和数据量方面会比传统产生数据集的方式更具有优势。这种方式下进行智能机器人的训练，训练速度会较传统训练方式更快，并且将此模型迁移到现实机器人进行使用时，由于数据集覆盖的更广泛，并且针对过拟合问题进行了优化，模型具有更好的泛化能力，在更短的时间提供更强的使用效果。本发明对于智能机器人神经网络的训练将完全基于虚拟数据集，不必对现实世界数据集产生依赖，以此提高神经网络的训练效率，并且强迫神经网络关注物体对象的位姿特征，而不是位姿和训练数据集背景的关系，以此减弱过拟合问题。

本发明的目的至少通过如下技术方案之一实现。

基于深度学习的物体姿态识别和抓取的智能机器人的方法，包括以下步骤：

S1：搭建虚拟环境，构建机械臂工作平台模型；

S2：基于步骤S1搭建的虚拟环境，对机械臂工作平台虚拟模型上的物体进行随机化处理，并得到摄像机拍摄图像，获取数据集；

S3：构建物体姿态检测器；

S4：基于步骤S3构建的物体姿态检测器，构建神经网络，用步骤S2获取得到的数据集对其进行训练；

S5：将步骤S4中训练完成的物体姿态检测器迁移到现实平台。

进一步地，步骤S1包括以下步骤：

S1.1、获取现实环境中的机械臂工作平台的大小与形状，在虚拟环境中一比一构建机械臂和机械臂工作平台；同时构建多个物体模型；

S1.2、对步骤S1.1中得到的物体模型在虚拟环境中拼接，模拟真实的机械臂工作平台及实际基本环境。

进一步地，步骤S2中，随机化处理包括：

随机化多种不同的物体模型的出现以及掉落位置；

随机化物体模型的颜色和材质；

随机化环境光照。

进一步地，步骤S2中，随机化处理后，获取虚拟环境中摄像机镜头角度的RGB图片作为数据集，获取数据集中的图片中物体模型的具***置，用于后续验证。

进一步地，步骤S3中，物体姿态检测器的构建采用EPnP算法和Ransac算法实现，PnP(pespective-n-point)是已知的n个空间3D点与图像2D点对应的点对，计算相机位姿、或者物***姿的一类问题，它有很多种解法，例如：直接线性变换(DLT)，P3P，EPnP，UPnP以及非线性优化方法；Ransac(Random sample consensus，随机抽样一致算法)是从一组包含‘局外点’的观测数据集中，通过迭代方式估计数学模型的参数，其在计算机视觉中被广泛使用，该算法能有效提高EPnP物体姿态估计的准确度；包括以下步骤：

S3.1、采用EPnP算法，先在虚拟环境中的工作台至摄像机之间的空间内随机选取n个参考点。获取这些参考点在世界坐标系下的3D坐标，记为

i＝1,…,n，同时获取这些参考点在摄像机所拍摄的投影平面的2D坐标，记为/>

i＝1,…,n；

S3.2、通过选取的n个参考点，采用主成分分析(PCA)方法分别在世界坐标系和摄像机投影平面内选取4个控制点，分别记为：

j＝1,…,4和/>

j＝1,…,4。满足：

其中，a_ij是齐次重心坐标；该条件即表示所选取的4个控制点可以通过加权表示任何一个世界坐标系下的3D参考点；在投影平面内，参考点和控制点存在同样的加权关系；

S3.3、由步骤S3.1和步骤S3.2得到4个控制点在世界坐标系和相机坐标系下的坐标，利用3D-3D算法，得出旋转矩阵R和平移矩阵t，称为相机外参矩阵；

S3.3、利用Ransac算法，采用由步骤S3.3得到的相机外参矩阵作为Ransac算法中的初始假设模型来测试所有其他数据集中所选取的参考点，即把参考点的3D空间坐标经过相机外参矩阵的变换得到的估计2D屏幕坐标和由步骤S3.1中所获取的参考点实际2D屏幕坐标进行比较，得到估计-实际坐标距离差值，记为d_mn，其中m为数据集中单个数据中所选取的参考点序号，n为数据在数据集中的序号；根据实际精度要求设定一个域值d₀，若d_mn<＝d₀，则认定该参考点为局内点，否则为局外点；

S3.4、在第一次迭代中，随机选取数据集中一份数据开始迭代，将得到的相机外参矩阵设定为最佳外参矩阵；

S3.5、重复Ransac算法进行多次Ransac迭代。在进行迭代之前，设定一个域值k，用于确定在一次迭代中获得的局内点的数量是否达到精度要求。同时为了防止过拟合，域值k不能设置过高。每次Ransac迭代中，如果局内点的数量的占参考点总数量的比例大于域值k，并且局内点的数量多于之前最佳外参矩阵的局内点数量，则把该次迭代的相机外参矩阵设为最佳外参矩阵；不断进行Ransac迭代，直到迭代结束，得出该数据集下的相机的最佳外参矩阵；迭代次数可以根据实际情况来设定，通常情况下，迭代次数越多，准确度越高，但时间代价也更高，需要根据实际情况来确定一个合理数值；

S3.6、得到最佳外参矩阵即可得到相机的位姿，进而可求得物体模型在相机坐标系下的位姿。

进一步地，步骤S4包括以下步骤：

S4.1、采用Python作为编程语言，同时考虑灵活性和程序的大小，采用开源的PyTorch深度学习框架来构建神经网络；

S4.2、本发明的目标是适用多个场景，应具备较强的泛化能力，步骤S2中产生的数据集比较单一，为有效防止过拟合，强迫神经网络更关注估计物体对象的位姿的特征，而不是位姿和背景的联系，对步骤S2中产生的数据集进行增广处理，得到增广数据集；

S4.3、用步骤S4.2中得到的增广数据集来训练步骤S4.1中构建的神经网络，其中20％的数据用于训练，这部分数据成为训练数据集；80％数据用于评估，这部分数据称为评估数据集；

S4.4、设定一个标准来评估最终效果。通过步骤S4.3的训练和评估，得到评估数据集中物体模型的估计位姿；在步骤S2中，已经得到了物体模型的实际具体坐标位置，所以两组数据存在一一对应的关系。分别利用步骤S2得到的物体模型的实际具体坐标位置和评估数据集中物体模型的估计位姿两组数据采用K-DOP算法构建物体模型的包围盒，称为实际包围盒和估计包围盒；采用包围盒碰撞算法得到对应的估计包围盒和实际包围盒之间的重叠关系，判断是否达到准确率标准。

进一步地，步骤S4.2具体包括以下步骤：

S4.2.1、用步骤S2中得到的数据集提供的真实数据得到物体模型的位姿，然后裁剪物体模型；

S4.2.2、将裁剪出来的物体模型与其他图片进行合成，达到更换背景图的目的；

S4.2.3、对合成的图像进行图像处理，包括改变饱和度、改变亮度和添加噪声，得到增广数据集。

进一步地，步骤S5中，将训练完成的物体姿态检测器应用到实验室中的机械臂上，按照步骤S1～步骤S4进行构建和训练之后需要根据物体的姿态计算出抓取点，以实现现实平台中机械臂或智能机器人对物体的识别与抓取。

进一步地，计算抓取点的步骤如下：

S5.1、根据物体模型的位姿，采用K-DOP算法计算出包围盒。

S5.2、根据机械臂的机械爪的实际类型在包围盒上选取抓取点。

相比于现有技术，本发明的优点在于：

本发明对于智能机器人神经网络的训练将完全基于虚拟数据集，不必对现实世界数据集产生依赖，以此提高神经网络的训练效率，并且强迫神经网络关注物体对象的位姿特征，而不是位姿和训练数据集背景的关系，以此减弱过拟合问题。本发明可适用于多个场景，具有较强的泛化性。

附图说明

图1为本发明一种基于虚拟环境训练的物体姿态识别和抓取的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。

实施例：

基于深度学习的物体姿态识别和抓取的智能机器人的方法，如图1所示，包括以下步骤：

S1：搭建虚拟环境，构建机械臂工作平台模型，包括以下步骤：

随机化处理包括：

随机化多种不同的物体模型的出现以及掉落位置；

随机化物体模型的颜色和材质；

随机化环境光照。

随机化处理后，获取虚拟环境中摄像机镜头角度的RGB图片作为数据集，获取数据集中的图片中物体模型的具***置，用于后续验证。

S3：构建物体姿态检测器；

物体姿态检测器的构建采用EPnP算法和Ransac算法实现，PnP(pespective-n-point)是已知的n个空间3D点与图像2D点对应的点对，计算相机位姿、或者物***姿的一类问题，它有很多种解法，例如：直接线性变换(DLT)，P3P，EPnP，UPnP以及非线性优化方法。Ransac(Random sample consensus，随机抽样一致算法)是从一组包含“局外点”的观测数据集中，通过迭代方式估计数学模型的参数，其在计算机视觉中被广泛使用，该算法能有效提高EPnP物体姿态估计的准确度；包括以下步骤：

i＝1,…,n；本实施例中，选取10个参考点，可根据具体实施情况进行调整。

j＝1,…,4和/>

j＝1,…,4。满足：

S3.3、利用Ransac算法，采用由步骤S3.3得到的相机外参矩阵作为Ransac算法中的初始假设模型来测试所有其他数据集中所选取的参考点，即把参考点的3D空间坐标经过相机外参矩阵的变换得到的估计2D屏幕坐标和由步骤S3.1中所获取的参考点实际2D屏幕坐标进行比较，得到估计-实际坐标距离差值，记为d_mn，其中m为数据集中单个数据中所选取的参考点序号，n为数据在数据集中的序号；根据实际精度要求设定一个域值d₀，若d_mn<＝d₀，则认定该参考点为局内点，否则为局外点；本实施例中，选取d₀＝1mm。

S3.5、重复Ransac算法进行多次Ransac迭代。在进行迭代之前，设定一个域值k，用于确定在一次迭代中获得的局内点的数量是否达到精度要求。同时为了防止过拟合，域值k不能设置过高。每次Ransac迭代中，如果局内点的数量的占参考点总数量的比例大于域值k，并且局内点的数量多于之前最佳外参矩阵的局内点数量，则把该次迭代的相机外参矩阵设为最佳外参矩阵。本实施例中，根据精度要求，域值k设置为80％，即局内点和局外点的比例为4：1，则该条件下的相机外参矩阵即可有资格入选最佳外参矩阵；不断进行Ransac迭代，直到迭代结束，得出该数据集下的相机的最佳外参矩阵；迭代次数可以根据实际情况来设定，通常情况下，迭代次数越多，准确度越高，但时间代价也更高，需要根据实际情况来确定一个合理数值；本实施例中，根据精度要求，选取迭代次数为10000。

S4：基于步骤S3构建的物体姿态检测器，构建神经网络，用步骤S2获取得到的数据集对其进行训练，包括以下步骤：

S4.2、本发明的目标是适用多个场景，应具备较强的泛化能力。步骤S2中产生的数据集比较单一，为有效防止过拟合，强迫神经网络更关注估计物体对象的位姿的特征，而不是位姿和背景的联系，对步骤S2中产生的数据集进行增广处理，得到增广数据集，具体包括以下步骤：

S4.4、设定一个标准来评估最终效果。通过步骤S4.3的训练和评估，得到评估数据集中物体模型的估计位姿；在步骤S2中，已经得到了物体模型的实际具体坐标位置，所以两组数据存在一一对应的关系。分别利用步骤S2得到的物体模型的实际具体坐标位置和评估数据集中物体模型的估计位姿两组数据采用K-DOP算法构建物体模型的包围盒，称为实际包围盒和估计包围盒；采用包围盒碰撞算法得到对应的估计包围盒和实际包围盒之间的重叠关系，判断是否达到准确率标准；准确率标准根据精度要求来设定，本实施例中，将准确率设定为包围盒重叠90％。

S5：将步骤S4中训练完成的物体姿态检测器迁移到现实平台；

将训练完成的物体姿态检测器应用到实验室中的机械臂上，按照步骤S1～步骤S4进行构建和训练之后需要根据物体的姿态计算出抓取点，以实现现实平台中机械臂或智能机器人对物体的识别与抓取，计算抓取点的步骤如下：

S5.1、根据物体模型的位姿，采用K-DOP算法计算出包围盒。

Claims

1.基于深度学习的物体姿态识别和抓取的智能机器人的方法，其特征在于，包括以下步骤：

S1：搭建虚拟环境，构建机械臂工作平台模型；包括以下步骤：

S1.2、对步骤S1.1中得到的物体模型在虚拟环境中拼接，模拟真实的机械臂工作平台及实际环境；

S2：基于步骤S1搭建的虚拟环境，对机械臂工作平台虚拟模型上的物体进行随机化处理，并得到摄像机拍摄图像，获取数据集；随机化处理包括：

随机化多种不同的物体模型的出现以及掉落位置；

随机化物体模型的颜色和材质；

随机化环境光照；

随机化处理后，获取虚拟环境中摄像机镜头角度的RGB图片作为数据集，获取数据集中的图片中物体模型的具***置，用于后续验证；

S3：构建物体姿态检测器；物体姿态检测器的构建采用EPnP算法和Ransac算法实现，包括以下步骤：

S3.1、采用EPnP算法，先在虚拟环境中的工作台至摄像机之间的空间内随机选取n个参考点；获取这些参考点在世界坐标系下的3D坐标，记为

…,n，同时获取这些参考点在摄像机所拍摄的投影平面的2D坐标，记为/>

…,n；

和/>

满足：

S3.4、利用Ransac算法，采用由步骤S3.3得到的相机外参矩阵作为Ransac算法中的初始假设模型来测试所有其他数据集中所选取的参考点，即把参考点的3D空间坐标经过相机外参矩阵的变换得到的估计2D屏幕坐标和由步骤S3.1中所获取的参考点实际2D屏幕坐标进行比较，得到估计-实际坐标距离差值，记为d_mn，其中m为数据集中单个数据中所选取的参考点序号，n为数据在数据集中的序号；根据实际精度要求设定一个域值d₀，若d_mn<＝d₀，则认定该参考点为局内点，否则为局外点；

S3.5、在第一次迭代中，随机选取数据集中一份数据开始迭代，将得到的相机外参矩阵设定为最佳外参矩阵；

S3.6、重复Ransac算法进行多次Ransac迭代得出该数据集下的相机的最佳外参矩阵；

S3.7、得到最佳外参矩阵即可得到相机的位姿，进而可求得物体模型在相机坐标系下的位姿；

S5：将步骤S4中训练完成的物体姿态检测器迁移到现实平台。

2.根据权利要求1所述的基于深度学习的物体姿态识别和抓取的智能机器人的方法，其特征在于，步骤S3.5中，在进行迭代之前，设定一个域值k，用于确定在一次迭代中获得的局内点的数量是否达到精度要求；每次Ransac迭代中，如果局内点的数量占参考点总数量的比例大于域值k，并且局内点的数量多于之前最佳外参矩阵的局内点数量，则把该次迭代的相机外参矩阵设为最佳外参矩阵；不断进行Ransac迭代，直到迭代结束，得出该数据集下的相机的最佳外参矩阵；迭代次数根据实际情况来设定。

3.根据权利要求2所述的基于深度学习的物体姿态识别和抓取的智能机器人的方法，其特征在于，步骤S4包括以下步骤：

S4.2、对步骤S2中产生的数据集进行增广处理，得到增广数据集；

S4.4、设定一个标准来评估最终效果，通过步骤S4.3的训练和评估，得到评估数据集中物体模型的估计位姿；分别利用步骤S2得到的物体模型的实际具体坐标位置和评估数据集中物体模型的估计位姿两组数据采用K-DOP算法构建物体模型的包围盒，称为实际包围盒和估计包围盒；采用包围盒碰撞算法得到对应的估计包围盒和实际包围盒之间的重叠关系，判断是否达到准确率标准。

4.根据权利要求3所述的基于深度学习的物体姿态识别和抓取的智能机器人的方法，其特征在于，步骤S4.2具体包括以下步骤：

5.根据权利要求4所述的基于深度学***台中机械臂或智能机器人对物体的识别与抓取。

6.根据权利要求5所述的基于深度学习的物体姿态识别和抓取的智能机器人的方法，其特征在于，计算抓取点的步骤如下：

S5.1、根据物体模型的位姿，采用K-DOP算法计算出包围盒；