CN108491880B

CN108491880B - 基于神经网络的物体分类和位姿估计方法

Info

Publication number: CN108491880B
Application number: CN201810243399.4A
Authority: CN
Inventors: 张向东; 张泽宇
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2021-09-03
Anticipated expiration: 2038-03-23
Also published as: CN108491880A

Abstract

本发明公开了一种基于神经网络的物体分类和位姿估计方法，主要解决现有技术在利用卷积神经网络进行物体检测和姿态估计时精度低的问题。其实现方案是：1)获得数据集中每个CAD模型多视角图像；2)根据CAD模型的多视角图像构建联合检测的数学模型；3)构建卷积神经网络并利用CAD模型的多视角图像训练卷积神经网络；(4)将测试集中每个CAD模型的多视角图像输入到神经网络，输出神经网络预测的类别标签和位姿标签。本发明结合了神经网络浅层特征图与深层特征图，使得结合以后的特征图既保留了丰富的位姿信息，也保留了良好的分类信息，提高了分类和位姿估计的精确度。可用于智能机械手臂和机器人抓取。

Description

基于神经网络的物体分类和位姿估计方法

技术领域

本发明属于人工智能领域，涉及一种物体分类和位姿估计方法，可用于智能机械手臂和机器人抓取。

背景技术

卷积神经网络CNN是一种前馈神经网络，其由卷积层、全连接层、池化层、和激活层组成。相比于传统全连接的神经网络，卷积神经网络通过应用局部连接和权值共享技术，使得同一特征映射面上的神经元权值相同，大大减少了网络的参数个数，降低了网络的复杂度。激活函数也由sigmoid逐渐演化为单侧抑制的ReLU。激活函数的不断改进，使得神经元更加接近生物神经元激活的特性。此外，CNN避免了对图像的复杂的前期处理，包括复杂的特征提取和数据重构，可以直接输入原始图像。梯度下降和链式求导法则的应用，使得神经网络能够良好的进行前向传播和反向传播的相互迭代，不断提高检测精度。而在众多的深度学习框架中，caffe是比较常见的一种，在视频、图像处理方面应用较多。Caffe的模块化、表示与实现分离，gpu和cpu之间的方便切换以及提供的Python和Matlab接口，使得我们可以使用Caffe方便的进行网络结构调整和网络训练。

近几年，深度学习在图像分类、物体检测、语义分割、实例分割等方面取得了显著的进展。一般的视觉***需要解决两个问题：物体分类和物体的姿态估计，所谓姿态估计，是指物体相对于照相机的姿态。物***姿估计在很多应用中都至关重要，比如机器人抓取等等。但是物体分类和位姿估计又是互相矛盾的，分类***需要不论物体在任何姿态，都可以正确分类。因此分类***学习的是与视点不相关的特征。而对于物***姿估计，***需要学习保持物体几何和视觉的特征，用以区分其位姿。对于卷积神经网络，浅层的特征图趋向于更加一般的、类别不确定的特征，但是包含了更多的不同位姿之间的特征。深层特征图更加抽象，类别特征更加明显，但具***姿的信息因为高度抽象而不明显。现有的检测方法一般都是选择一个中间的层的特征，这个层的特征在分类和位姿估计的表现上都较为良好，因此是一种折衷的方法，不能使物体检测和姿态估计的精度同时达到最佳。

2015年由Hang Su等人提出的一种物体分类和位姿估计的方法MVCNN，该方法提出了将样本3D数据转化为2D的多视角图片，在保证检测精度的前提下进行数据降维，虽然可以简化处理过程，但又需要对物体所有视角的图片进行特征提取，再合并各个视角图片的信息。这在实际场景中，因为目标对象存在遮挡、截断等现象，给从所有预定义视点采集物体多视角图片带来困难，不符合实际场景中的需求。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于神经网络的物体分类和位姿估计方法，以提高物体检测和位姿估计的精度，加快检测速度，满足实际场景的需求。

本发明的技术思路是：通过结合卷积神经网络中浅层特征和深层特征来提高物体检测和位姿估计精度；通过对检测物体部分视角的图像的迭代，加快检测的速度。其实现方案包括如下：

(1)获得训练集和测试集，设定CAD模型对应的图像：

从ModelNet10数据集中取出3429个CAD模型作为训练集，取出1469个CAD作为测试集；

对ModelNet10数据集中每个样本的CAD模型，依次进行两种策略的预处理：第一种是在CAD模型所在的视角圆上均匀地设置12个预定义的视点，在这12个预定义的每一个视点采集CAD模型对应的图像；第二种是将CAD模型放置在正十二面体中心，将正十二面体的20个顶点设置为预定义的视点，在这20个预定义的每一个视点采集CAD模型对应的图像；

(2)根据对数据集中每个CAD模型预处理得到的多视角图像，构建联合检测的数学模型：

(2a)将每个CAD模型的位姿标签作为隐变量，记为{v_i}；

(2b)将CAD模型不同视角的M个图像

和CAD模型的类别标签y∈{1,..,N}，定义为训练样本，其中N为CAD模型的总类别数，每个视角图像x_i，分别对应一个视角标签v_i∈{1,..,M}；

(2c)根据以上对训练样本的定义，将物体识别和位姿估计任务抽象为如下的优化问题：

其中R是神经网络权值参数，

为神经网络预测的类别标签，

是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率；

(3)构建并训练卷积神经网络CNN：

(3a)在现有AlexNet网络的基础上，增加了Eltwise1层、fc_a1层、fc_a2层、Eltwise2层，得到一个含有16个层卷积神经网络CNN，其中：

该Eltwise1层用于将AlexNet网络中Conv3层与Conv4层的特征图对应位置进行融合；

该fc_a1层用于将Eltwise1层特征图映射为特征向量；

该fc_a2将AlexNet网络中Pool5层特征映射为特征向量；

该Eltwise2层用于对fc_a1层、fc_a2层和Eltwise1层的特征图对应位置进行融合；

(3b)将训练集中的每个CAD模型的多视角图像

输入到卷积网络中，迭代卷积神经网络CNN的前向计算和反向传播训练神经网络，优化神经网络参数R，直到神经网络的损失函数J(θ)≤0.0001为止，得到训练好的神经网络CNN；

(4)测试网络

将ModelNet10测试集中每一个CAD模型的多视角图像

输入到训练好的神经网络中，统计物体分类和姿态估计的精度。

本发明与现有技术相比具有以下优点：

1.本发明由于将卷积神经网络中不同深度的特征图相对位置的元素进行融合，融合得到的新的特征图既包含了浅层特征图中丰富的位姿信息，也包含了深层特征图中抽象明确的分类信息，因此提高了检测的精度。

2.本发明由于对数据集中每一个3D CAD模型，均生成了其对应的多视角图像，即将3D的样本数据转化为2D的多视角图像，对数据进行降维处理，因此降低了数据的复杂度，减少了特征提取的计算量，加快了检测的速度。

附图说明

图1是本发明的实现流程图；

图2是本发明中两种预定义视点策略示意图；

图3是本发明中构建的卷积神经网络CNN结构图。

具体实施方式

下面结合附图，对本发明的实例及效果作进一步的详细描述。

参照图1，本发明的实现步骤如下：

步骤1，获得CAD模型多视角图像。

对ModelNet10数据集中每个样本的CAD模型,依次进行两种策略的预处理。

如图2(a)所示，第一种预处理策略在CAD模型所在的视角圆上均匀地设置12个预定义的视点，即先固定一个轴作为旋转轴，再在物体所在的视角圆上每隔30度设置一个观察点，就可在360度的视角圆上，得到每个CAD模型对应12个不同视角的图像；

如图2(b)所示，第二种预处理策略是将CAD模型放置在正十二面体中心，将正十二面体的20个顶点设置为预定义的视点，在这20个预定义的每一个视点采集CAD模型对应的图像。

步骤2，根据对数据集中每个CAD模型预处理得到的多视角图像，构建联合检测的数学模型。

(2a)将每个CAD模型的位姿标签作为隐变量，记为{v_i}；

(2b)将CAD模型不同视角的M个图像

和CAD模型的类别标签y∈{1,..,N}定义为训练样本，其中N为CAD模型的总类别数，x_i为视角图像，每个视角图像x_i分别对应一个视角标签v_i∈{1,..,M}；

其中R是神经网络权值参数，

为神经网络预测的类别标签，

是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率；

将

记为

则优化问题表达为如下的形式：

其中(i)表示输入图像x_i，k表示图像x_i的类别标签，j表示图像x_i是从第j个预定义视点观察到的。

步骤3，构建卷积神经网络CNN。

(3a)构建如图3所示的含有16个层的卷积神经网络CNN，这16层依次是第一卷积层Conv1、第一池化层Pool1、第二卷积层Conv2、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第一特征融合层Eltwise1、第五卷积层Conv5、第五池化层Pool5、第一全连接层fc_a1、第二全连接层fc_a2、第三全连接层fc6、第四全连接层fc7、第二特征融合层Eltwise2、第五全连接层fc8、分类层Softmax，每层的特征提取细节如下：

(3a1)将227*227像素大小的图像输入到第一卷积层Conv1，对其进行卷积核大小为11*11像素和步长为4像素的卷积操作，总共用96个卷积核，得到96张55*55像素大小的特征图；

(3a2)将第一卷积层Conv1输出的96张特征图输入到第一池化层Pool1，对其进行最大池化操作，池化块的大小为3*3像素，步长为2像素，得到96张27*27像素大小的特征图；

(3a3)将第一池化层Pool1输出的96张特征图输入到第二卷积层Conv2，对其进行卷积核大小为5*5像素和步长为1的卷积操作，总共用256个卷积核，得到256张27*27像素大小的特征图；

(3a4)将第二卷积层Conv2输出的256张特征图输入到第二池化层Pool2，对其进行最大池化操作，池化块的大小为3*3像素，步长为2像素，得到256张13*13像素大小的特征图；

(3a5)将第二池化层Pool2输出的256张特征图输入到第三卷积层Conv3，对其进行卷积核大小为3*3像素和步长为1像素的卷积操作，即共用384个卷积核，得到384张13*13像素大小的特征图；

(3a6)将第三卷积层Conv3输出的384张特征图输入到第四卷积层Con4，对其进行卷积核大小为3*3像素和步长为1像素的卷积操作，即共用384个卷积核，得到384张13*13像素大小的特征图；

(3a7)将第三卷积层Conv3和第四卷积层Conv4的特征图输入到第一Eltwise1层进行特征图融合，得到384张13*13像素大小的特征图；

(3a8)将第四卷积层Conv4输出的384张特征图输入到第五卷积层Conv5，对其进行卷积核大小为3*3像素和步长为1像素的卷积操作，即用256个卷积核，得到256张13*13像素大小的特征图；

(3a9)将第五卷积层Conv5输出的256张特征图输入到第五池化层Pool5，对其进行最大池化操作，池化块大小为3*3像素大小，步长为2像素，得到256张6*6像素大小的特征图；

(3a10)将第一Eltwise1层输出的384张特征图输入到第一全连接层fc_a1，将特征图映射为1*1*4096像素大小的特征向量；

(3a11)将第五池化层Pool5层输出的256张特征图输入到第二全连接层fc_a2，将特征图映射为1*1*4096像素大小的特征向量；

(3a12)将第五池化层Pool5层输出的256张特征图输入到第三全连接层fc6，将特征图映射为1*1*4096像素大小的特征向量；

(3a13)将第三全连接层fc6层输出的1*1*4096像素大小的特征向量输入到第四全连接层fc7继续进行特征提取，得到1*1*4096像素大小的特征向量；

(3a14)将第一全连接层fc_a1、第二全连接fc_a2和第四全连接fc7层的特征向量输入到第二Eltwise2层，进行特征向量的融合，得到1*1*4096像素大小的特征向量；

(3a15)将第二Eltwise2层输出的1*1*4096像素大小的特征图输入到第五全连接层fc8，将特征向量映射为1*1*11*M像素大小的特征向量，其中M为多视角图像数，符号“*”表示相乘；

(3a16)将1*1*11*M)素大小的特征向量输入到分类层Softmax，得到图像x_i的类别标签，选择使得类别概率最大的视角标签v_i作为其位姿标签；

步骤4，对卷积神经网络CNN训练进行。

(3b1)在前向传播阶段，从训练集中取一个训练样本，将该训练样本的多视角图像

输入到卷积神经网络CNN的输入层，经过特征提取和特征映射，由Softmax层输出最终结果；

(3b2)在反向传播阶段，计算卷积神经网络CNN实际输出与训练样本的理想输出的差，按极小化误差的方法，反向传播调整卷积神经网络的权值参数R；

(3b3)重复(3b1)和(3b2)的操作，直到卷积神经网络CNN损失函数J(θ)≤0.0001为止，得到训练好的神经网络。

步骤5，测试网络。

将ModelNet10测试集中每一个CAD模型的多视角图像

输入到训练好的神经网络中，输出神经网络预测的类别标签和位姿标签；

分别统计测试集中类别标签和位姿标签错误的CAD模型数占测试集中所有CAD模型数量的百分比，得到物体分类和姿态估计精度。

下面结合仿真，对本发明的效果做进一步的描述：

1、仿真条件

本发明的仿真实验所用计算机操作***为64为的Ubuntu***，CPU为Intel Corei3 4.2GHz，内存为16.00GB，GPU为GeForce GTX 1070，使用的深度学习框架为Caffe2。

2、实验内容与结果

实验中，利用ModelNet10数据集进行网络的训练和测试。ModelNet10数据集中包含10个类别的4898个CAD模型，其中训练集中CAD模型个数为3429，测试集中CAD模型为1469，对数据集中的每一个CAD模型，生成其多视角图像；

将测试集中样本的多视角图像输入到训练好的卷积网络中，其中神经网络预测的类别标签错误的CAD模型个数为77，位姿标签错误的CAD模型个数为609。统计得到网络的分类和姿态估计精度，并与几种现有的检测方法进行了比较，如下表所示：

表1

方法	分类精度	姿态估计精度
			本发明	94.76	58.52
Rotationnet	94.38	58.33
			MVCNN	92.10	-
FusionNet	90.80	-

其中，RotationNet为旋转迭代算法，

MVCNN为多视角合并算法，

FusionNet为特征融合算法，它是现有的几种比较先进的物体识别和位姿估计的方法。

从表1可见，本发明中提出的将网络不同深度层的特征图进行融合的方法，可以提高分类和姿态估计的精度。

Claims

1.基于神经网络的物体分类和位姿估计的方法，包括：

(1)获得训练集和测试集，设定CAD模型对应的图像：

(2a)将每个CAD模型的视角标签作为隐变量，记为{v_i}；

(2b)将CAD模型不同视角的M个图像

其中R是神经网络权值参数，

为神经网络预测的类别标签，

是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率；

(3)构建并训练卷积神经网络CNN：

该fc_a1层用于将Eltwise1层特征图映射为特征向量；

该fc_a2层将AlexNet网络中Pool5层特征映射为特征向量；

(3b)将训练集中的每个CAD模型的多视角图像

输入到卷积网络中，迭代卷积神经网络CNN的前向计算和反向传播训练神经网络，优化神经网络参数R，直到神经网络的损失函数J≤0.0001为止，得到训练好的神经网络CNN；

(4)测试网络

将ModelNet10测试集中每一个CAD模型的多视角图像

2.根据权利要求1所述的方法，其中步骤(1)的第一种预处理策略在CAD模型所在的视角圆上均匀地设置12个预定义的视点，是先固定一个轴作为旋转轴，再在物体所在的视角圆上每隔30度设置一个观察点，即在360度的视角圆上，得到每个CAD模型对应12个不同视角的图像。

3.根据权利要求1所述的方法，其中步骤(2c)中优化问题，其实现如下：

将

记为

则优化问题表达为如下的形式：

其中(i)表示输入图像x_i，k表示图像x_i的类别标签，j表示图像x_i是从第j个预定义视点观察到的,R是神经网络权值参数。

4.根据权利要求1所述的方法，其中步骤(3a)中构建含16个层的卷积神经网络CNN，步骤如下：

(3a16)将1*1*11*M)像素大小的特征向量输入到分类层Softmax，得到图像x_i的类别标签，选择使得类别概率最大的视角标签v_i作为其位姿标签。

5.根据权利要求1所述的方法，其中步骤(3b)中训练卷积神经网络CNN，按如下步骤进行：

(3b3)重复(3b1)和(3b2)的操作，直到卷积神经网络CNN损失函数J≤0.0001为止。