CN109903323A

CN109903323A - 用于透明物体识别的训练方法、装置、存储介质及终端

Info

Publication number: CN109903323A
Application number: CN201910167767.6A
Authority: CN
Inventors: 张�成; 龙宇; 王语诗; 蔡自立; 郑子璇; 吉守龙
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-06-18
Anticipated expiration: 2039-03-06
Also published as: CN109903323B

Abstract

本发明提供了一种用于透明物体识别的训练方法、装置、存储介质及终端，该方法包括以下步骤：S1、建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应；S2、建立多模态融合的深度卷积神经网络结构N1；S3、建立多模态共享的深度卷积网络结构N2，将所述第一特征信息以及所述第二特征信息输入所述N2进行融合训练，以输出物体的分类参数信息以及位置坐标信息并得到网络权重模型M2；S4、重新输入其他多对RGB图像和深度图像对所述网络权重模型M1以及所述网络权重模型M2对进行参数调节以得到优化后的网络权重模型M11以及M22。

Description

用于透明物体识别的训练方法、装置、存储介质及终端

技术领域

本发明涉及图像识别技术领域，特别涉及一种用于透明物体识别的训练方法、装置、存储介质及终端。

背景技术

如今科技高速发展，工业机器人的普及不仅解放了劳动力，还加快了生产速度，提高了生产质量。其中，机器视觉的引入更加使得机器人抓取效率提升。但是，对于某些特别物品如透明物体，机器视觉还存在识别精度不高或者耗时长等困难。

由于透明物体的图像容易受到不同因素等的影响，这些因素在一定程度上影响了单模态物体识别***的稳定性及准确性。目前常用的方法是通过改变环境，增加物体主要特征，但是这一类方法针对的也是半透明之类的物体，如专利CN104180772A，其识别的要求是透明物体的粗糙面，且只能识别平板透明物体。同时，往往这些方法设备配置要求高，或者计算复杂都难以满足工业上生存要求，如专利CN102753933B，其设置环境苛刻，需要屏蔽外界光源，在工业上不具有实际应用价值，无法适应多变复杂环境。

因此，现有技术存在缺陷，急需改进。

发明内容

本发明实施例提供一种用于透明物体识别的训练方法、装置、存储介质及终端，可以提高透明物体识别的准确性与效率。

本发明实施例提供一种用于透明物体识别的训练方法，包括以下步骤：

S1、建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应；

S2、建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1；

S3、建立多模态共享的深度卷积网络结构N2，将所述第一特征信息以及所述第二特征信息输入所述N2进行融合训练，以输出物体的分类参数信息以及位置坐标信息并得到网络权重模型M2；

S4、重新输入其他多对RGB图像和深度图像对所述网络权重模型M1以及所述网络权重模型M2对进行参数调节以得到优化后的网络权重模型M11以及M22。

在本发明所述的用于透明物体识别的训练方法中，所述建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应的步骤包括：

采集多张待训练物体的RGB图像以及深度图像，该多张RGB图像分别与该多张深度图像一一对应；

对所述RGB图像中的待训练物体进行边界标定，并设置所述待训练物体的第一分类参数信息以及所述待训练物体在所述RGB图像中的第一位置坐标信息；

根据所述第一分类参数信息、所述第一位置坐标信息建立具有多张RGB图像的第一数据集；

根据所述RGB图像与所述深度图像的对应关系对所述深度图像中的待训练物体进行边界标定，并设置所述待训练物体的第二分类参数信息以及所述待训练物体在所述深度图像中的第二位置坐标信息；

根据所述第二分类参数信息、所述第二位置坐标信息建立具有多张深度图像的第二数据集。

在本发明所述的用于透明物体识别的训练方法中，所述建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1的步骤包括：

建立多模态融合的深度卷积神经网络结构N1，所述N1包括两个独立的卷积神经网络分支，该两个独立的卷积神经网络分支用于分别单独对所述RGB图像和深度图像进行训练；其中，在训练时，每次从第一数据集和第二数据集中随机抽取相互对应的RGB图像和深度图像作为输入，利用卷积神经网络分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1。

在本发明所述的用于透明物体识别的训练方法中，所述相互对应的RGB图像和深度图像为分别采用彩色RGB相机与深度相机采集的同一个物体的图像。

在本发明所述的用于透明物体识别的训练方法中，在所述步骤S2中，采用反向回传算法并通过回传损失层的误差来更新每一层的参数，使得网络权重模型得以更新优化，最终收敛。

一种用于透明物体识别的训练装置，包括：

第一建立模块，用于建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应；

第二建立模块，用于建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1；

第三建立模块，用于建立多模态共享的深度卷积网络结构N2，将所述第一特征信息以及所述第二特征信息输入所述N2进行融合训练，以输出物体的分类参数信息以及位置坐标信息并得到网络权重模型M2；

优化模块，用于重新输入其他多对RGB图像和深度图像对所述网络权重模型M1以及所述网络权重模型M2对进行参数调节以得到优化后的网络权重模型M11以及M22。

在本发明所述的用于透明物体识别的训练装置中，所述第一建立模块包括：

采集单元，用于采集多张待训练物体的RGB图像以及深度图像，该多张RGB图像分别与该多张深度图像一一对应；

第一标定单元，用于对所述RGB图像中的待训练物体进行边界标定，并设置所述待训练物体的第一分类参数信息以及所述待训练物体在所述RGB图像中的第一位置坐标信息；

第一建立单元，用于根据所述第一分类参数信息、所述第一位置坐标信息建立具有多张RGB图像的第一数据集；

第二标定单元，用于根据所述RGB图像与所述深度图像的对应关系对所述深度图像中的待训练物体进行边界标定，并设置所述待训练物体的第二分类参数信息以及所述待训练物体在所述深度图像中的第二位置坐标信息；

第二建立单元，用于根据所述第二分类参数信息、所述第二位置坐标信息建立具有多张深度图像的第二数据集。

在本发明所述的用于透明物体识别的训练装置中，所述相互对应的RGB图像和深度图像为分别采用彩色RGB相机与深度相机采集的同一个物体的图像。

一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一项所述的方法。

一种终端，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行上述任一项所述的方法。

本发明通过让不同模态的数据（RGB图像和深度图像）单独训练，通过一系列神经网络，学习到模态自身的特征，然后通过融合连接起来，经过一系列共享卷积层，对各模态的特征进行互补学习，RGB信息和深度信息的融合可以达到提升透明物体识别的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的用于透明物体识别的训练方法的流程示意图。

图2是本发明实施例提供的用于透明物体识别的训练装置的结构示意图。

图3是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应当理解，这样描述的对象在适当情况下可以互换。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤的过程、方法或包含了一系列模块或单元的装置、高级辅助驾驶***、***不必限于清楚地列出的那些步骤或模块或单元，还可以包括没有清楚地列出的步骤或模块或单元，也可以包括对于这些过程、方法、装置、高级辅助驾驶***或***固有的其它步骤或模块或单元。

参考图1，图1为一种用于透明物体识别的训练方法的流程图。该用于透明物体识别的训练方法，包括以下步骤：

S1、建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应。

其中，使用真实场景中拍摄的待训练图像的图片作为训练样本。

具体地，该步骤S1包括：

S11、采集多张待训练物体的RGB图像以及深度图像，该多张RGB图像分别与该多张深度图像一一对应；S12、对所述RGB图像中的待训练物体进行边界标定，并设置所述待训练物体的第一分类参数信息以及所述待训练物体在所述RGB图像中的第一位置坐标信息；S13、根据所述第一分类参数信息、所述第一位置坐标信息建立具有多张RGB图像的第一数据集；S14、根据所述RGB图像与所述深度图像的对应关系对所述深度图像中的待训练物体进行边界标定，并设置所述待训练物体的第二分类参数信息以及所述待训练物体在所述深度图像中的第二位置坐标信息；S15、根据所述第二分类参数信息、所述第二位置坐标信息建立具有多张深度图像的第二数据集。

其中，相互对应的RGB图像和深度图像为分别采用彩色RGB相机与深度相机采集的同一个物体的图像。

在步骤S1中，彩色RGB模块与深度图像模块处于传感器的不同位置。所以，即使是在同一时间对同一物体，所取得的图像信息都不一样。由于我们需要对边界框进行统一化，所以需要将彩色RGB图像和深度图像信息进行矩阵变换，使其坐标一一对应。这里，需要考虑两个矩阵，一个是平移矩阵，一个是旋转矩阵。

假定深度图像某一点为（x，y），其在彩色RGB图像上对应的点为（X，Y），因此，通过平移矩阵，我们可以得到X=x+dx ,Y=y+dy，以矩阵表示如下。

dx和dy分别是x，y在其方向上移动的距离。平移矩阵表示如下：

同时，还有一个旋转矩阵，设某点与原点连线和X轴夹角为b度，以原点为圆心，逆时针转过a度，原点与该点连线长度为R，[x,y]为深度图像坐标，[X,Y]为彩色RGB图像坐标，因此，可得：

；

。

因此，可以计算得到旋转矩阵如下：

。

S2、建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1。

其中，该步骤S2包括:建立多模态融合的深度卷积神经网络结构N1，所述N1包括两个独立的卷积神经网络分支，该两个独立的卷积神经网络分支用于分别单独对所述RGB图像和深度图像进行训练；其中，在训练时，每次从第一数据集和第二数据集中随机抽取相互对应的RGB图像和深度图像作为输入，利用卷积神经网络分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1。

其中，可以采用反向回传算法并通过回传损失层的误差来更新每一层的参数，使得网络权重模型得以更新优化，最终收敛。

S3、建立多模态共享的深度卷积网络结构N2，将所述第一特征信息以及所述第二特征信息输入所述N2进行融合训练，以输出物体的分类参数信息以及位置坐标信息并得到网络权重模型M2。

其中，该N2包含多个卷积神经网络，然后连接多个全连接网络，输出包括两个参数，一个是物体的坐标位置参数，一个是物体的分类参数。

利用训练好的网络权重模型M1和M2，重新从数据集中抽取新的数据输入网络，重新对全局网络进行参数微调，实现找到输入与输出的隐藏关系。通过两部分网络分开训练，可以减少训练时间代价。

在本申请中，N1和N2的网络结构，包括单不限于卷积层，池化层，非线性函数层，全连接层，归一化层，并且包括但不限于这些层的任意组合，网络的结构不是保护的范围。

请参照图2，一种用于透明物体识别的训练装置，包括：第一建立模块201、第二建立模块202、第三建立模块203以及优化模块204。

其中，该第一建立模块201用于建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应。其中，相互对应的RGB图像和深度图像为分别采用彩色RGB相机与深度相机采集的同一个物体的图像。

其中，该第一建立模块包括：采集单元，用于采集多张待训练物体的RGB图像以及深度图像，该多张RGB图像分别与该多张深度图像一一对应；第一标定单元，用于对所述RGB图像中的待训练物体进行边界标定，并设置所述待训练物体的第一分类参数信息以及所述待训练物体在所述RGB图像中的第一位置坐标信息；第一建立单元，用于根据所述第一分类参数信息、所述第一位置坐标信息建立具有多张RGB图像的第一数据集；第二标定单元，用于根据所述RGB图像与所述深度图像的对应关系对所述深度图像中的待训练物体进行边界标定，并设置所述待训练物体的第二分类参数信息以及所述待训练物体在所述深度图像中的第二位置坐标信息；第二建立单元，用于根据所述第二分类参数信息、所述第二位置坐标信息建立具有多张深度图像的第二数据集。

其中，该第二建立模块202用于建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1。其中，该第二建立模块202建立多模态融合的深度卷积神经网络结构N1，所述N1包括两个独立的卷积神经网络分支，该两个独立的卷积神经网络分支用于分别单独对所述RGB图像和深度图像进行训练；其中，在训练时，每次从第一数据集和第二数据集中随机抽取相互对应的RGB图像和深度图像作为输入，利用卷积神经网络分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1。

其中，该第三建立模块203用于建立多模态共享的深度卷积网络结构N2，将所述第一特征信息以及所述第二特征信息输入所述N2进行融合训练，以输出物体的分类参数信息以及位置坐标信息并得到网络权重模型M2。其中，该N2包含多个卷积神经网络，然后连接多个全连接网络，输出包括两个参数，一个是物体的坐标位置参数，一个是物体的分类参数。

其中，该优化模块204用于重新输入其他多对RGB图像和深度图像对所述网络权重模型M1以及所述网络权重模型M2对进行参数调节以得到优化后的网络权重模型M11以及M22。

最终，在得到优化后的网络权重模型M11以及M22后，可以利用该网络权重模型M11以及M22来对透明物体进行识别，且具高准确度以及高效率。

本发明还提供了一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一实施例所述的用于透明物体识别的训练。

请参照图3，本发明还提供了一种终端，终端包括处理器301和存储器302。其中，处理器301与存储器302电性连接。

处理器301是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或调用存储在存储器302内的计算机程序，以及调用存储在存储器302内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。

在本实施例中，终端中的处理器301会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的计算机程序，从而实现各种功能：建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应；建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1；建立多模态共享的深度卷积网络结构N2，将所述第一特征信息以及所述第二特征信息输入所述N2进行融合训练，以输出物体的分类参数信息以及位置坐标信息并得到网络权重模型M2；重新输入其他多对RGB图像和深度图像对所述网络权重模型M1以及所述网络权重模型M2对进行参数调节以得到优化后的网络权重模型M11以及M22。

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，该存储介质可以包括但不限于：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁盘或光盘等。

以上对本发明实施例所提供的基于高级驾驶辅助的提醒方法、装置、存储介质及高级辅助驾驶***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于透明物体识别的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于透明物体识别的训练方法，其特征在于，所述建立具有多张RGB图像的第一数据集以及具有多张深度图像的第二数据集，该多张RGB图像分别与该多张深度图像一一对应的步骤包括：

3.根据权利要求1所述的用于透明物体识别的训练方法，其特征在于，所述建立多模态融合的深度卷积神经网络结构N1，该N1用于提取多张RGB图像进行单独训练以及提取多张深度图像进行单独训练，以分别提取RGB图像的第一特征信息以及深度图像的第二特征信息而得到网络权重模型M1的步骤包括：

4.根据权利要求1所述的用于透明物体识别的训练方法，其特征在于，所述相互对应的RGB图像和深度图像为分别采用彩色RGB相机与深度相机采集的同一个物体的图像。

5.根据权利要求1所述的用于透明物体识别的训练方法，其特征在于，在所述步骤S2中，采用反向回传算法并通过回传损失层的误差来更新每一层的参数，使得网络权重模型得以更新优化，最终收敛。

6.一种用于透明物体识别的训练装置，其特征在于，包括：

7.根据权利要求6所述的用于透明物体识别的训练装置，其特征在于，所述第一建立模块包括：

8.根据权利要求6所述的用于透明物体识别的训练装置，其特征在于，所述相互对应的RGB图像和深度图像为分别采用彩色RGB相机与深度相机采集的同一个物体的图像。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至5任一项所述的方法。

10.一种终端，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1至5任一项所述的方法。