CN109740539A

CN109740539A - 基于超限学习机和融合卷积网络的3d物体识别方法

Info

Publication number: CN109740539A
Application number: CN201910007340.XA
Authority: CN
Inventors: 黄强; 王永雄; 谈咏东
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-10
Anticipated expiration: 2039-01-04
Also published as: CN109740539B

Abstract

本发明涉及一种基于超限学习机和融合卷积网络的3D物体识别方法，模型以3D物体的多视角投影图作为输入，经过多层融合卷积网络提取特征，利用半随机的ELM网络进行分类；卷积网络由提出的融合卷积单元组成，是一种改进的残差单元，多个并行残差通道上的卷积核个数依次增加，相同大小的卷积核参数共享。半数卷积核参数以高斯分布随机产生，其余通过训练寻优得到，使其能拟合更复杂的非线性函数，增加低层网络的特征提取能力。方法中使用了半随机的超限学习机分类层，既降低了模型训练的时间又增加了网络的稀疏性；结合了超限学习机和融合卷积网络，以2D视角图作为输入，其识别3D物体的准确率高于现有的深度学习的方法，网络实现更简单。

Description

基于超限学习机和融合卷积网络的3D物体识别方法

技术领域

本发明涉及一种3D物体识别技术，特别涉及一种基于超限学习机和融合卷积网络的3D物体识别方法。

背景技术

3D物体识别是人工智能最重要的研究和应用方向之一，也是自然场景理解最具挑战性的任务之一。在图像处理中，二维图像被离散化为多个像素点。一般，3D模型的处理与之类似，被离散化为多个三维体素(volume pixel)点。3D模型分类和3D物体识别的重点是提取三维结构的内部特征。很多研究者利用深度学习网络结构自动提取3D物体的特征并进行分类。现有的“一种RGB-D物体识别方法”发明专利中采集3D物体的RGB图像信息和深度信息，提取物体的特征矢量进行识别。这种方法需要用到能采集深度信息的摄像头，并且需要预先训练大量的特征数据库以进行对比。现有的国内外论文中，使用RGB-D信息识别3D物体的准确率并不高。

上述专利中的识别方法包括以下步骤：获取由彩色图像生成的灰度图像、由深度图像生成的表面法向量，将彩色图像、灰度图像、深度图像和表面法向量共同作为多数据模式信息；通过卷积-递归神经网络分别提取彩色图像、灰度图像和表面法向量中的高层特征；利用卷积-费舍尔向量-递归神经网络提取深度图像的高层特征；将上述多个高层特征进行特征融合，得到物体的总特征，将物体的总特征输入特征分类器中实现物体识别任务。

现有的拍照识别物体的技术多是获取物体的单个2D图像信息。这种方式受光照、视角、背景等影响较大。识别技术所训练的模型让计算机识别的仍是“2D”物体。而加入了深度信息的3D物体识别往往计算复杂，识别率低，并且获取物体的RGB-D信息成本较高。

发明内容

本发明是针对3D物体识别存在的问题，提出了一种基于超限学习机和融合卷积网络的3D物体识别方法，获取3D物体在6种不同视角下的图像；利用融合卷积网络分别提取每个图像的特征；根据提取的特征和训练的半随机超限学习机分类层对物体进行分类和识别。

本发明的技术方案为：一种基于超限学习机和融合卷积网络的3D物体识别方法，其特征在于，具体包括如下步骤：

1)建立基于超限学习机和融合卷积网络的预测网络模型：

1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型，每个视角图对应一个特征提取通道；

1.2)训练融合卷积网络提取特征：融合卷积网络包含多个串并联的融合卷积单元，每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层；

1.3)训练多残差通道卷积层提取3D特征，使用mask层消除背景和干扰特征；Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像，其大小与输入图像相同，mask二值图像被用于和卷积后的图像进行像素矩阵运算；

1.4)池化层进行均值池化操作，降低维度并增加旋转和平移不变性；

1.5)训练多层融合卷积网络，提取高层语义特征；

1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征，再经过半随机的超限学习机分类层进行有监督的学习，训练后得到网络的所有参数，预测网络模型即训练完成；

2)3D物体识别:获得3D物体的多视角图，输入到预测网络模型，提取特征后，在分类层输出，在输出中找到概率最大的类别，即为网络的识别类型。

所述步骤1.1)中获得3D物体的多视角图方法为，先使用Kinect采集3D物体或者真实场景的3维扫描模型，再利用OpenGL以3维模型的中心为中心点，构造一个正多面体，以正多面体的顶点为投影视角点，对3维模型进行多视角投影，获得不同视角的图像。

所述步骤1.2)所述多个串并联的融合卷积单元，融合卷积单元分为随机单元和稀疏单元两种，使用交叉网络结构进行组合；网络的第i层包含2^i-1个随机融合卷积单元和2^i-1个稀疏融合卷积单元。

所述步骤1.3)中多个不同残差通道的卷积层输出图像为G_p,q，M_p,q是mask二值图像经过和G_p,q相同的下采样后得到的图像；G_p,q和M_p,q图像矩阵对应的元素值相乘得到mask层输出图像。

所述步骤1.4)中池化层位于mask层之后，且所有的池化操作均为2*2均值池化。

本发明的有益效果在于：本发明基于超限学习机和融合卷积网络的3D物体识别方法，3D物体的特征提取采用新型的融合卷积网络，这种网络能拟合更复杂的非线性残差项函数，大大提高了低层网络的特征表达能力；方法中使用了半随机的超限学习机分类层，既降低了模型训练的时间又增加了网络的稀疏性；本发明结合了超限学习机和融合卷积网络，其识别3D物体的准确率高于现有的深度学习的方法，网络实现更简单，并且其直接以2D视角图作为输入，无需深度信息也能获得物体的3D特征。

附图说明

图1为本发明基于超限学习机和融合卷积网络识别3D物体的网络结构图；

图2为本发明K通道的融合卷积单元图；

图3为本发明基于超限学习机的融合卷积网络图；

图4为本发明方法识别3D物体过程图。

具体实施方式

本发明提出了一种基于超限学***移不变性；5、将每个视图通道提取的特征进行融合后得到3D物体的总特征，再经过半随机的超限学习机分类层进行有监督的学习，训练后得到网络的参数，得到预测网络模型。6、识别时，将3D物体的多视角图输入预测网络模型，提取特征后，在分类层进行识别。

获得3D物体的多视角图方法为，先使用Kinect采集3D物体或者真实场景的3维扫描模型，再利用OpenGL以3维模型的中心为中心点，构造一个正多面体，以正多面体的顶点为投影视角点，对3维模型进行多视角投影，获得不同视角的图像。

CCN-ELM结合了融合卷积网络(CCN)和超限学习机(ELM)网络。CCN-ELM网络有3个主要特点：1)同一个视图通道的融合卷积单元里，相同大小的卷积核参数共享；2)融合卷积层中一半的卷积核参数由高斯分布随机产生并经过了归一化处理，另一半则通过构造稀疏矩阵加高斯白噪声寻优的方法获得；3)多残差通道卷积层和mask层提取特征，ELM层分类。

CCN-ELM的训练过程分为两步：融合卷积网络提取特征和ELM网络进行矩阵运算训练分类层参数。

融合卷积网络包含多个串并联的融合卷积单元(CCB)，融合卷积单元结构如图2所示，由k个不同残差通道的卷积层加上mask层和池化层构成；融合卷积单元分为随机单元和稀疏单元两种，它们在网络中的组合方式如图3所示，网络的第i层包含2ⁱ个融合卷积单元。这种交叉网络结构可以有效增强网络的特征提取能力，并能缓解过拟合现象。

下面具体讨论特征提取的方法。引入残差后的映射对输出的变化更敏感。受残差网络的启发，我们提出了一种多通道融合卷积单元，典型的k通道融合卷积单元图如图2所示，假设期望的最优映射为H(x)，我们求取的残差映射为F(x)。则F(x)＝H(x)-x。对于不同大小的融合卷积单元，F(x)的数学形式也不同。在k通道融合卷积单元中，每个通道输出分别为：

F₁＝W₁₁x，F₂＝W₂₂σ(W₂₁x)，F₃＝W₃₃(W₃₂σ(W₃₁x))，...，F(x)＝F₁+F₂+F₃+...+F_k。

其中，x为输入图像，W为卷积核，σ为RELU激活函数。

输出g(x)＝σ(F(x)+x)，设为G_p,q，加上mask层和池化层，就构成了一个多通道融合卷积单元。

Mask层的计算为：

其中，表示图像矩阵对应的元素值相乘，M_p,q是原mask二值图像经过和G_p,q相同的下采样后得到的图像(保持维度相同)。再对G'_p,q进行均值池化操作，得到融合卷积单元的输出，所有的池化操作均为2*2均值池化。

图3为基于超限学习机的融合卷积网络图。其中，随机CCB为随机融合卷积单元，这个单元里的所有卷积核参数均以高斯分布随机产生并经过了归一化处理，这样给隐含层通道的特征提取带来了好处，同时也降低了特征扩散的风险；稀疏CCB为稀疏融合卷积单元，这个单元里的卷积核由稀疏矩阵加高斯白噪声寻优的方法获得。

在ELM分类层中，将所有的特征矩阵合并为一个行向量，假设大小为1*n。D个视角图的特征向量则为1*m(m＝D*n)。若训练数据数量为N，可以得到特征矩阵H∈R^N*m。每个输入模型对应一个标签类别，设共有L个类别，进行标号形成标签矩阵T∈R^N*L，再经过训练优化处理得到预测网络模型。将测试集数据进行多视角投影预处理后输入到预测网络模型中，就可以预测样本的类别，在输出预测的类别中找出概率最大类别，即为识别类型。图4为本发明方法识别3D物体过程图。

最后应说明的是：以上所述，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，如本发明中的视角数、融合卷积单元通道数、网络层数等可根据实际应用来设定。本发明并不局限于此，尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明技术方案的精神和范围。

Claims

1.一种基于超限学习机和融合卷积网络的3D物体识别方法，其特征在于，具体包括如下步骤：

1)建立基于超限学习机和融合卷积网络的预测网络模型：

1.5)训练多层融合卷积网络，提取高层语义特征；

2.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法，其特征在于，所述步骤1.1)中获得3D物体的多视角图方法为，先使用Kinect采集3D物体或者真实场景的3维扫描模型，再利用OpenGL以3维模型的中心为中心点，构造一个正多面体，以正多面体的顶点为投影视角点，对3维模型进行多视角投影，获得不同视角的图像。

3.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法，其特征在于，所述步骤1.2)所述多个串并联的融合卷积单元，融合卷积单元分为随机单元和稀疏单元两种，使用交叉网络结构进行组合；网络的第i层包含2^i-1个随机融合卷积单元和2^i-1个稀疏融合卷积单元。

4.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法，其特征在于，所述步骤1.3)中多个不同残差通道的卷积层输出图像为G_p,q，M_p,q是mask二值图像经过和G_p,q相同的下采样后得到的图像；G_p,q和M_p,q图像矩阵对应的元素值相乘得到mask层输出图像。

5.根据权利要求1所述于超限学习机和融合卷积网络的3D物体识别方法，其特征在于，所述步骤1.4)中池化层位于mask层之后，且所有的池化操作均为2*2均值池化。