CN109740539A - 基于超限学习机和融合卷积网络的3d物体识别方法 - Google Patents
基于超限学习机和融合卷积网络的3d物体识别方法 Download PDFInfo
- Publication number
- CN109740539A CN109740539A CN201910007340.XA CN201910007340A CN109740539A CN 109740539 A CN109740539 A CN 109740539A CN 201910007340 A CN201910007340 A CN 201910007340A CN 109740539 A CN109740539 A CN 109740539A
- Authority
- CN
- China
- Prior art keywords
- network
- fusion
- learning machine
- convolutional network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种基于超限学习机和融合卷积网络的3D物体识别方法,模型以3D物体的多视角投影图作为输入,经过多层融合卷积网络提取特征,利用半随机的ELM网络进行分类;卷积网络由提出的融合卷积单元组成,是一种改进的残差单元,多个并行残差通道上的卷积核个数依次增加,相同大小的卷积核参数共享。半数卷积核参数以高斯分布随机产生,其余通过训练寻优得到,使其能拟合更复杂的非线性函数,增加低层网络的特征提取能力。方法中使用了半随机的超限学习机分类层,既降低了模型训练的时间又增加了网络的稀疏性;结合了超限学习机和融合卷积网络,以2D视角图作为输入,其识别3D物体的准确率高于现有的深度学习的方法,网络实现更简单。
Description
技术领域
本发明涉及一种3D物体识别技术,特别涉及一种基于超限学习机和融合卷积网络的3D物体识别方法。
背景技术
3D物体识别是人工智能最重要的研究和应用方向之一,也是自然场景理解最具挑战性的任务之一。在图像处理中,二维图像被离散化为多个像素点。一般,3D模型的处理与之类似,被离散化为多个三维体素(volume pixel)点。3D模型分类和3D物体识别的重点是提取三维结构的内部特征。很多研究者利用深度学习网络结构自动提取3D物体的特征并进行分类。现有的“一种RGB-D物体识别方法”发明专利中采集3D物体的RGB图像信息和深度信息,提取物体的特征矢量进行识别。这种方法需要用到能采集深度信息的摄像头,并且需要预先训练大量的特征数据库以进行对比。现有的国内外论文中,使用RGB-D信息识别3D物体的准确率并不高。
上述专利中的识别方法包括以下步骤:获取由彩色图像生成的灰度图像、由深度图像生成的表面法向量,将彩色图像、灰度图像、深度图像和表面法向量共同作为多数据模式信息;通过卷积-递归神经网络分别提取彩色图像、灰度图像和表面法向量中的高层特征;利用卷积-费舍尔向量-递归神经网络提取深度图像的高层特征;将上述多个高层特征进行特征融合,得到物体的总特征,将物体的总特征输入特征分类器中实现物体识别任务。
现有的拍照识别物体的技术多是获取物体的单个2D图像信息。这种方式受光照、视角、背景等影响较大。识别技术所训练的模型让计算机识别的仍是“2D”物体。而加入了深度信息的3D物体识别往往计算复杂,识别率低,并且获取物体的RGB-D信息成本较高。
发明内容
本发明是针对3D物体识别存在的问题,提出了一种基于超限学习机和融合卷积网络的3D物体识别方法,获取3D物体在6种不同视角下的图像;利用融合卷积网络分别提取每个图像的特征;根据提取的特征和训练的半随机超限学习机分类层对物体进行分类和识别。
本发明的技术方案为:一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:
1)建立基于超限学习机和融合卷积网络的预测网络模型:
1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;
1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;
1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;
1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;
1.5)训练多层融合卷积网络,提取高层语义特征;
1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;
2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。
所述步骤1.1)中获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。
所述步骤1.2)所述多个串并联的融合卷积单元,融合卷积单元分为随机单元和稀疏单元两种,使用交叉网络结构进行组合;网络的第i层包含2i-1个随机融合卷积单元和2i-1个稀疏融合卷积单元。
所述步骤1.3)中多个不同残差通道的卷积层输出图像为Gp,q,Mp,q是mask二值图像经过和Gp,q相同的下采样后得到的图像;Gp,q和Mp,q图像矩阵对应的元素值相乘得到mask层输出图像。
所述步骤1.4)中池化层位于mask层之后,且所有的池化操作均为2*2均值池化。
本发明的有益效果在于:本发明基于超限学习机和融合卷积网络的3D物体识别方法,3D物体的特征提取采用新型的融合卷积网络,这种网络能拟合更复杂的非线性残差项函数,大大提高了低层网络的特征表达能力;方法中使用了半随机的超限学习机分类层,既降低了模型训练的时间又增加了网络的稀疏性;本发明结合了超限学习机和融合卷积网络,其识别3D物体的准确率高于现有的深度学习的方法,网络实现更简单,并且其直接以2D视角图作为输入,无需深度信息也能获得物体的3D特征。
附图说明
图1为本发明基于超限学习机和融合卷积网络识别3D物体的网络结构图;
图2为本发明K通道的融合卷积单元图;
图3为本发明基于超限学习机的融合卷积网络图;
图4为本发明方法识别3D物体过程图。
具体实施方式
本发明提出了一种基于超限学***移不变性;5、将每个视图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的参数,得到预测网络模型。6、识别时,将3D物体的多视角图输入预测网络模型,提取特征后,在分类层进行识别。
获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。
CCN-ELM结合了融合卷积网络(CCN)和超限学习机(ELM)网络。CCN-ELM网络有3个主要特点:1)同一个视图通道的融合卷积单元里,相同大小的卷积核参数共享;2)融合卷积层中一半的卷积核参数由高斯分布随机产生并经过了归一化处理,另一半则通过构造稀疏矩阵加高斯白噪声寻优的方法获得;3)多残差通道卷积层和mask层提取特征,ELM层分类。
CCN-ELM的训练过程分为两步:融合卷积网络提取特征和ELM网络进行矩阵运算训练分类层参数。
融合卷积网络包含多个串并联的融合卷积单元(CCB),融合卷积单元结构如图2所示,由k个不同残差通道的卷积层加上mask层和池化层构成;融合卷积单元分为随机单元和稀疏单元两种,它们在网络中的组合方式如图3所示,网络的第i层包含2i个融合卷积单元。这种交叉网络结构可以有效增强网络的特征提取能力,并能缓解过拟合现象。
下面具体讨论特征提取的方法。引入残差后的映射对输出的变化更敏感。受残差网络的启发,我们提出了一种多通道融合卷积单元,典型的k通道融合卷积单元图如图2所示,假设期望的最优映射为H(x),我们求取的残差映射为F(x)。则F(x)=H(x)-x。对于不同大小的融合卷积单元,F(x)的数学形式也不同。在k通道融合卷积单元中,每个通道输出分别为:
F1=W11x,F2=W22σ(W21x),F3=W33(W32σ(W31x)),...,F(x)=F1+F2+F3+...+Fk。
其中,x为输入图像,W为卷积核,σ为RELU激活函数。
输出g(x)=σ(F(x)+x),设为Gp,q,加上mask层和池化层,就构成了一个多通道融合卷积单元。
Mask层的计算为:
其中,表示图像矩阵对应的元素值相乘,Mp,q是原mask二值图像经过和Gp,q相同的下采样后得到的图像(保持维度相同)。再对G'p,q进行均值池化操作,得到融合卷积单元的输出,所有的池化操作均为2*2均值池化。
图3为基于超限学习机的融合卷积网络图。其中,随机CCB为随机融合卷积单元,这个单元里的所有卷积核参数均以高斯分布随机产生并经过了归一化处理,这样给隐含层通道的特征提取带来了好处,同时也降低了特征扩散的风险;稀疏CCB为稀疏融合卷积单元,这个单元里的卷积核由稀疏矩阵加高斯白噪声寻优的方法获得。
在ELM分类层中,将所有的特征矩阵合并为一个行向量,假设大小为1*n。D个视角图的特征向量则为1*m(m=D*n)。若训练数据数量为N,可以得到特征矩阵H∈RN*m。每个输入模型对应一个标签类别,设共有L个类别,进行标号形成标签矩阵T∈RN*L,再经过训练优化处理得到预测网络模型。将测试集数据进行多视角投影预处理后输入到预测网络模型中,就可以预测样本的类别,在输出预测的类别中找出概率最大类别,即为识别类型。图4为本发明方法识别3D物体过程图。
最后应说明的是:以上所述,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,如本发明中的视角数、融合卷积单元通道数、网络层数等可根据实际应用来设定。本发明并不局限于此,尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明技术方案的精神和范围。
Claims (5)
1.一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:
1)建立基于超限学习机和融合卷积网络的预测网络模型:
1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;
1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;
1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;
1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;
1.5)训练多层融合卷积网络,提取高层语义特征;
1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;
2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。
2.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.1)中获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。
3.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.2)所述多个串并联的融合卷积单元,融合卷积单元分为随机单元和稀疏单元两种,使用交叉网络结构进行组合;网络的第i层包含2i-1个随机融合卷积单元和2i-1个稀疏融合卷积单元。
4.根据权利要求1所述基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.3)中多个不同残差通道的卷积层输出图像为Gp,q,Mp,q是mask二值图像经过和Gp,q相同的下采样后得到的图像;Gp,q和Mp,q图像矩阵对应的元素值相乘得到mask层输出图像。
5.根据权利要求1所述于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,所述步骤1.4)中池化层位于mask层之后,且所有的池化操作均为2*2均值池化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007340.XA CN109740539B (zh) | 2019-01-04 | 2019-01-04 | 基于超限学习机和融合卷积网络的3d物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007340.XA CN109740539B (zh) | 2019-01-04 | 2019-01-04 | 基于超限学习机和融合卷积网络的3d物体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740539A true CN109740539A (zh) | 2019-05-10 |
CN109740539B CN109740539B (zh) | 2021-07-13 |
Family
ID=66361572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910007340.XA Active CN109740539B (zh) | 2019-01-04 | 2019-01-04 | 基于超限学习机和融合卷积网络的3d物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740539B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034446A (zh) * | 2021-03-08 | 2021-06-25 | 国网山东省电力公司平邑县供电公司 | 一种变电站设备缺陷自动识别方法及*** |
CN113077388A (zh) * | 2021-04-25 | 2021-07-06 | 中国人民解放军国防科技大学 | 一种数据增广的深度半监督超限学习图像分类方法及*** |
CN113361703A (zh) * | 2020-03-06 | 2021-09-07 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法及装置 |
CN113487607A (zh) * | 2021-09-06 | 2021-10-08 | 深圳新视智科技术有限公司 | 基于多视场图像的缺陷检测方法及装置 |
US11416994B2 (en) * | 2019-05-05 | 2022-08-16 | Keyamed Na, Inc. | Method and system for detecting chest x-ray thoracic diseases utilizing multi-view multi-scale learning |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103338A (zh) * | 2017-05-19 | 2017-08-29 | 杭州电子科技大学 | 融合卷积特征和集成超限学习机的sar目标识别方法 |
CN107665352A (zh) * | 2017-09-07 | 2018-02-06 | 浙江工业大学 | 一种基于多通道残差网络的珍珠分类方法 |
-
2019
- 2019-01-04 CN CN201910007340.XA patent/CN109740539B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107103338A (zh) * | 2017-05-19 | 2017-08-29 | 杭州电子科技大学 | 融合卷积特征和集成超限学习机的sar目标识别方法 |
CN107665352A (zh) * | 2017-09-07 | 2018-02-06 | 浙江工业大学 | 一种基于多通道残差网络的珍珠分类方法 |
Non-Patent Citations (3)
Title |
---|
IGI ARDIYANTO 等: "Deep residual coalesced convolutional network for efficient semantic road segmentation", 《IPSJ TRANSACTIONS ON COMPUTER VISION AND APPLICATIONS》 * |
MINGXING DUAN 等: "A hybrid deep learning CNN–ELM for age and gender classification", 《NEUROCOMPUTING》 * |
ZHI-XIN YANG 等: "Multi-View CNN Feature Aggregation with ELM Auto-Encoder for 3D Shape Recognition", 《COGNITIVE COMPUTATION》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11416994B2 (en) * | 2019-05-05 | 2022-08-16 | Keyamed Na, Inc. | Method and system for detecting chest x-ray thoracic diseases utilizing multi-view multi-scale learning |
CN113361703A (zh) * | 2020-03-06 | 2021-09-07 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法及装置 |
CN113361703B (zh) * | 2020-03-06 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法及装置 |
CN113034446A (zh) * | 2021-03-08 | 2021-06-25 | 国网山东省电力公司平邑县供电公司 | 一种变电站设备缺陷自动识别方法及*** |
CN113077388A (zh) * | 2021-04-25 | 2021-07-06 | 中国人民解放军国防科技大学 | 一种数据增广的深度半监督超限学习图像分类方法及*** |
CN113077388B (zh) * | 2021-04-25 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种数据增广的深度半监督超限学习图像分类方法及*** |
CN113487607A (zh) * | 2021-09-06 | 2021-10-08 | 深圳新视智科技术有限公司 | 基于多视场图像的缺陷检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109740539B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Performance evaluation of deep feature learning for RGB-D image/video classification | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Garcia-Garcia et al. | A review on deep learning techniques applied to semantic segmentation | |
CN109740539A (zh) | 基于超限学习机和融合卷积网络的3d物体识别方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
Bai et al. | Subset based deep learning for RGB-D object recognition | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN111368896A (zh) | 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法 | |
CN110458249A (zh) | 一种基于深度学习与概率影像组学的病灶分类*** | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN106845527A (zh) | 一种菜品识别方法 | |
Trigeorgis et al. | Face normals" in-the-wild" using fully convolutional networks | |
CN108764316A (zh) | 基于深度卷积神经网络和多核学习的遥感图像场景分类方法 | |
Funk et al. | Beyond planar symmetry: Modeling human perception of reflection and rotation symmetries in the wild | |
CN107066916A (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN110852182A (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN108596195B (zh) | 一种基于稀疏编码特征提取的场景识别方法 | |
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN116824485A (zh) | 一种基于深度学习的开放场景伪装人员小目标检测方法 | |
CN116279592A (zh) | 一种用于无人物流车的可行驶区域划分方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |