CN108491880B - 基于神经网络的物体分类和位姿估计方法 - Google Patents

基于神经网络的物体分类和位姿估计方法 Download PDF

Info

Publication number
CN108491880B
CN108491880B CN201810243399.4A CN201810243399A CN108491880B CN 108491880 B CN108491880 B CN 108491880B CN 201810243399 A CN201810243399 A CN 201810243399A CN 108491880 B CN108491880 B CN 108491880B
Authority
CN
China
Prior art keywords
layer
pixels
size
neural network
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810243399.4A
Other languages
English (en)
Other versions
CN108491880A (zh
Inventor
张向东
张泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810243399.4A priority Critical patent/CN108491880B/zh
Publication of CN108491880A publication Critical patent/CN108491880A/zh
Application granted granted Critical
Publication of CN108491880B publication Critical patent/CN108491880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络的物体分类和位姿估计方法,主要解决现有技术在利用卷积神经网络进行物体检测和姿态估计时精度低的问题。其实现方案是:1)获得数据集中每个CAD模型多视角图像;2)根据CAD模型的多视角图像构建联合检测的数学模型;3)构建卷积神经网络并利用CAD模型的多视角图像训练卷积神经网络;(4)将测试集中每个CAD模型的多视角图像输入到神经网络,输出神经网络预测的类别标签和位姿标签。本发明结合了神经网络浅层特征图与深层特征图,使得结合以后的特征图既保留了丰富的位姿信息,也保留了良好的分类信息,提高了分类和位姿估计的精确度。可用于智能机械手臂和机器人抓取。

Description

基于神经网络的物体分类和位姿估计方法
技术领域
本发明属于人工智能领域,涉及一种物体分类和位姿估计方法,可用于智能机械手臂和机器人抓取。
背景技术
卷积神经网络CNN是一种前馈神经网络,其由卷积层、全连接层、池化层、和激活层组成。相比于传统全连接的神经网络,卷积神经网络通过应用局部连接和权值共享技术,使得同一特征映射面上的神经元权值相同,大大减少了网络的参数个数,降低了网络的复杂度。激活函数也由sigmoid逐渐演化为单侧抑制的ReLU。激活函数的不断改进,使得神经元更加接近生物神经元激活的特性。此外,CNN避免了对图像的复杂的前期处理,包括复杂的特征提取和数据重构,可以直接输入原始图像。梯度下降和链式求导法则的应用,使得神经网络能够良好的进行前向传播和反向传播的相互迭代,不断提高检测精度。而在众多的深度学习框架中,caffe是比较常见的一种,在视频、图像处理方面应用较多。Caffe的模块化、表示与实现分离,gpu和cpu之间的方便切换以及提供的Python和Matlab接口,使得我们可以使用Caffe方便的进行网络结构调整和网络训练。
近几年,深度学习在图像分类、物体检测、语义分割、实例分割等方面取得了显著的进展。一般的视觉***需要解决两个问题:物体分类和物体的姿态估计,所谓姿态估计,是指物体相对于照相机的姿态。物***姿估计在很多应用中都至关重要,比如机器人抓取等等。但是物体分类和位姿估计又是互相矛盾的,分类***需要不论物体在任何姿态,都可以正确分类。因此分类***学习的是与视点不相关的特征。而对于物***姿估计,***需要学习保持物体几何和视觉的特征,用以区分其位姿。对于卷积神经网络,浅层的特征图趋向于更加一般的、类别不确定的特征,但是包含了更多的不同位姿之间的特征。深层特征图更加抽象,类别特征更加明显,但具***姿的信息因为高度抽象而不明显。现有的检测方法一般都是选择一个中间的层的特征,这个层的特征在分类和位姿估计的表现上都较为良好,因此是一种折衷的方法,不能使物体检测和姿态估计的精度同时达到最佳。
2015年由Hang Su等人提出的一种物体分类和位姿估计的方法MVCNN,该方法提出了将样本3D数据转化为2D的多视角图片,在保证检测精度的前提下进行数据降维,虽然可以简化处理过程,但又需要对物体所有视角的图片进行特征提取,再合并各个视角图片的信息。这在实际场景中,因为目标对象存在遮挡、截断等现象,给从所有预定义视点采集物体多视角图片带来困难,不符合实际场景中的需求。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于神经网络的物体分类和位姿估计方法,以提高物体检测和位姿估计的精度,加快检测速度,满足实际场景的需求。
本发明的技术思路是:通过结合卷积神经网络中浅层特征和深层特征来提高物体检测和位姿估计精度;通过对检测物体部分视角的图像的迭代,加快检测的速度。其实现方案包括如下:
(1)获得训练集和测试集,设定CAD模型对应的图像:
从ModelNet10数据集中取出3429个CAD模型作为训练集,取出1469个CAD作为测试集;
对ModelNet10数据集中每个样本的CAD模型,依次进行两种策略的预处理:第一种是在CAD模型所在的视角圆上均匀地设置12个预定义的视点,在这12个预定义的每一个视点采集CAD模型对应的图像;第二种是将CAD模型放置在正十二面体中心,将正十二面体的20个顶点设置为预定义的视点,在这20个预定义的每一个视点采集CAD模型对应的图像;
(2)根据对数据集中每个CAD模型预处理得到的多视角图像,构建联合检测的数学模型:
(2a)将每个CAD模型的位姿标签作为隐变量,记为{vi};
(2b)将CAD模型不同视角的M个图像
Figure BDA0001605901570000021
和CAD模型的类别标签y∈{1,..,N},定义为训练样本,其中N为CAD模型的总类别数,每个视角图像xi,分别对应一个视角标签vi∈{1,..,M};
(2c)根据以上对训练样本的定义,将物体识别和位姿估计任务抽象为如下的优化问题:
Figure BDA0001605901570000031
其中R是神经网络权值参数,
Figure BDA0001605901570000032
为神经网络预测的类别标签,
Figure BDA0001605901570000033
是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率;
(3)构建并训练卷积神经网络CNN:
(3a)在现有AlexNet网络的基础上,增加了Eltwise1层、fc_a1层、fc_a2层、Eltwise2层,得到一个含有16个层卷积神经网络CNN,其中:
该Eltwise1层用于将AlexNet网络中Conv3层与Conv4层的特征图对应位置进行融合;
该fc_a1层用于将Eltwise1层特征图映射为特征向量;
该fc_a2将AlexNet网络中Pool5层特征映射为特征向量;
该Eltwise2层用于对fc_a1层、fc_a2层和Eltwise1层的特征图对应位置进行融合;
(3b)将训练集中的每个CAD模型的多视角图像
Figure BDA0001605901570000034
输入到卷积网络中,迭代卷积神经网络CNN的前向计算和反向传播训练神经网络,优化神经网络参数R,直到神经网络的损失函数J(θ)≤0.0001为止,得到训练好的神经网络CNN;
(4)测试网络
将ModelNet10测试集中每一个CAD模型的多视角图像
Figure BDA0001605901570000035
输入到训练好的神经网络中,统计物体分类和姿态估计的精度。
本发明与现有技术相比具有以下优点:
1.本发明由于将卷积神经网络中不同深度的特征图相对位置的元素进行融合,融合得到的新的特征图既包含了浅层特征图中丰富的位姿信息,也包含了深层特征图中抽象明确的分类信息,因此提高了检测的精度。
2.本发明由于对数据集中每一个3D CAD模型,均生成了其对应的多视角图像,即将3D的样本数据转化为2D的多视角图像,对数据进行降维处理,因此降低了数据的复杂度,减少了特征提取的计算量,加快了检测的速度。
附图说明
图1是本发明的实现流程图;
图2是本发明中两种预定义视点策略示意图;
图3是本发明中构建的卷积神经网络CNN结构图。
具体实施方式
下面结合附图,对本发明的实例及效果作进一步的详细描述。
参照图1,本发明的实现步骤如下:
步骤1,获得CAD模型多视角图像。
对ModelNet10数据集中每个样本的CAD模型,依次进行两种策略的预处理。
如图2(a)所示,第一种预处理策略在CAD模型所在的视角圆上均匀地设置12个预定义的视点,即先固定一个轴作为旋转轴,再在物体所在的视角圆上每隔30度设置一个观察点,就可在360度的视角圆上,得到每个CAD模型对应12个不同视角的图像;
如图2(b)所示,第二种预处理策略是将CAD模型放置在正十二面体中心,将正十二面体的20个顶点设置为预定义的视点,在这20个预定义的每一个视点采集CAD模型对应的图像。
步骤2,根据对数据集中每个CAD模型预处理得到的多视角图像,构建联合检测的数学模型。
(2a)将每个CAD模型的位姿标签作为隐变量,记为{vi};
(2b)将CAD模型不同视角的M个图像
Figure BDA0001605901570000041
和CAD模型的类别标签y∈{1,..,N}定义为训练样本,其中N为CAD模型的总类别数,xi为视角图像,每个视角图像xi分别对应一个视角标签vi∈{1,..,M};
(2c)根据以上对训练样本的定义,将物体识别和位姿估计任务抽象为如下的优化问题:
Figure BDA0001605901570000051
其中R是神经网络权值参数,
Figure BDA0001605901570000052
为神经网络预测的类别标签,
Figure BDA0001605901570000053
是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率;
Figure BDA0001605901570000054
记为
Figure BDA0001605901570000055
则优化问题表达为如下的形式:
Figure BDA0001605901570000056
其中(i)表示输入图像xi,k表示图像xi的类别标签,j表示图像xi是从第j个预定义视点观察到的。
步骤3,构建卷积神经网络CNN。
(3a)构建如图3所示的含有16个层的卷积神经网络CNN,这16层依次是第一卷积层Conv1、第一池化层Pool1、第二卷积层Conv2、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第一特征融合层Eltwise1、第五卷积层Conv5、第五池化层Pool5、第一全连接层fc_a1、第二全连接层fc_a2、第三全连接层fc6、第四全连接层fc7、第二特征融合层Eltwise2、第五全连接层fc8、分类层Softmax,每层的特征提取细节如下:
(3a1)将227*227像素大小的图像输入到第一卷积层Conv1,对其进行卷积核大小为11*11像素和步长为4像素的卷积操作,总共用96个卷积核,得到96张55*55像素大小的特征图;
(3a2)将第一卷积层Conv1输出的96张特征图输入到第一池化层Pool1,对其进行最大池化操作,池化块的大小为3*3像素,步长为2像素,得到96张27*27像素大小的特征图;
(3a3)将第一池化层Pool1输出的96张特征图输入到第二卷积层Conv2,对其进行卷积核大小为5*5像素和步长为1的卷积操作,总共用256个卷积核,得到256张27*27像素大小的特征图;
(3a4)将第二卷积层Conv2输出的256张特征图输入到第二池化层Pool2,对其进行最大池化操作,池化块的大小为3*3像素,步长为2像素,得到256张13*13像素大小的特征图;
(3a5)将第二池化层Pool2输出的256张特征图输入到第三卷积层Conv3,对其进行卷积核大小为3*3像素和步长为1像素的卷积操作,即共用384个卷积核,得到384张13*13像素大小的特征图;
(3a6)将第三卷积层Conv3输出的384张特征图输入到第四卷积层Con4,对其进行卷积核大小为3*3像素和步长为1像素的卷积操作,即共用384个卷积核,得到384张13*13像素大小的特征图;
(3a7)将第三卷积层Conv3和第四卷积层Conv4的特征图输入到第一Eltwise1层进行特征图融合,得到384张13*13像素大小的特征图;
(3a8)将第四卷积层Conv4输出的384张特征图输入到第五卷积层Conv5,对其进行卷积核大小为3*3像素和步长为1像素的卷积操作,即用256个卷积核,得到256张13*13像素大小的特征图;
(3a9)将第五卷积层Conv5输出的256张特征图输入到第五池化层Pool5,对其进行最大池化操作,池化块大小为3*3像素大小,步长为2像素,得到256张6*6像素大小的特征图;
(3a10)将第一Eltwise1层输出的384张特征图输入到第一全连接层fc_a1,将特征图映射为1*1*4096像素大小的特征向量;
(3a11)将第五池化层Pool5层输出的256张特征图输入到第二全连接层fc_a2,将特征图映射为1*1*4096像素大小的特征向量;
(3a12)将第五池化层Pool5层输出的256张特征图输入到第三全连接层fc6,将特征图映射为1*1*4096像素大小的特征向量;
(3a13)将第三全连接层fc6层输出的1*1*4096像素大小的特征向量输入到第四全连接层fc7继续进行特征提取,得到1*1*4096像素大小的特征向量;
(3a14)将第一全连接层fc_a1、第二全连接fc_a2和第四全连接fc7层的特征向量输入到第二Eltwise2层,进行特征向量的融合,得到1*1*4096像素大小的特征向量;
(3a15)将第二Eltwise2层输出的1*1*4096像素大小的特征图输入到第五全连接层fc8,将特征向量映射为1*1*11*M像素大小的特征向量,其中M为多视角图像数,符号“*”表示相乘;
(3a16)将1*1*11*M)素大小的特征向量输入到分类层Softmax,得到图像xi的类别标签,选择使得类别概率最大的视角标签vi作为其位姿标签;
步骤4,对卷积神经网络CNN训练进行。
(3b1)在前向传播阶段,从训练集中取一个训练样本,将该训练样本的多视角图像
Figure BDA0001605901570000071
输入到卷积神经网络CNN的输入层,经过特征提取和特征映射,由Softmax层输出最终结果;
(3b2)在反向传播阶段,计算卷积神经网络CNN实际输出与训练样本的理想输出的差,按极小化误差的方法,反向传播调整卷积神经网络的权值参数R;
(3b3)重复(3b1)和(3b2)的操作,直到卷积神经网络CNN损失函数J(θ)≤0.0001为止,得到训练好的神经网络。
步骤5,测试网络。
将ModelNet10测试集中每一个CAD模型的多视角图像
Figure BDA0001605901570000072
输入到训练好的神经网络中,输出神经网络预测的类别标签和位姿标签;
分别统计测试集中类别标签和位姿标签错误的CAD模型数占测试集中所有CAD模型数量的百分比,得到物体分类和姿态估计精度。
下面结合仿真,对本发明的效果做进一步的描述:
1、仿真条件
本发明的仿真实验所用计算机操作***为64为的Ubuntu***,CPU为Intel Corei3 4.2GHz,内存为16.00GB,GPU为GeForce GTX 1070,使用的深度学习框架为Caffe2。
2、实验内容与结果
实验中,利用ModelNet10数据集进行网络的训练和测试。ModelNet10数据集中包含10个类别的4898个CAD模型,其中训练集中CAD模型个数为3429,测试集中CAD模型为1469,对数据集中的每一个CAD模型,生成其多视角图像;
将测试集中样本的多视角图像输入到训练好的卷积网络中,其中神经网络预测的类别标签错误的CAD模型个数为77,位姿标签错误的CAD模型个数为609。统计得到网络的分类和姿态估计精度,并与几种现有的检测方法进行了比较,如下表所示:
表1
方法 分类精度 姿态估计精度
本发明 94.76 58.52
Rotationnet 94.38 58.33
MVCNN 92.10 -
FusionNet 90.80 -
其中,RotationNet为旋转迭代算法,
MVCNN为多视角合并算法,
FusionNet为特征融合算法,它是现有的几种比较先进的物体识别和位姿估计的方法。
从表1可见,本发明中提出的将网络不同深度层的特征图进行融合的方法,可以提高分类和姿态估计的精度。

Claims (5)

1.基于神经网络的物体分类和位姿估计的方法,包括:
(1)获得训练集和测试集,设定CAD模型对应的图像:
从ModelNet10数据集中取出3429个CAD模型作为训练集,取出1469个CAD作为测试集;
对ModelNet10数据集中每个样本的CAD模型,依次进行两种策略的预处理:第一种是在CAD模型所在的视角圆上均匀地设置12个预定义的视点,在这12个预定义的每一个视点采集CAD模型对应的图像;第二种是将CAD模型放置在正十二面体中心,将正十二面体的20个顶点设置为预定义的视点,在这20个预定义的每一个视点采集CAD模型对应的图像;
(2)根据对数据集中每个CAD模型预处理得到的多视角图像,构建联合检测的数学模型:
(2a)将每个CAD模型的视角标签作为隐变量,记为{vi};
(2b)将CAD模型不同视角的M个图像
Figure FDA0003154178030000011
和CAD模型的类别标签y∈{1,..,N},定义为训练样本,其中N为CAD模型的总类别数,每个视角图像xi,分别对应一个视角标签vi∈{1,..,M};
(2c)根据以上对训练样本的定义,将物体识别和位姿估计任务抽象为如下的优化问题:
Figure FDA0003154178030000012
其中R是神经网络权值参数,
Figure FDA0003154178030000013
为神经网络预测的类别标签,
Figure FDA0003154178030000014
是卷积神经网络CNN中的Softmax层输出的类别标签为y的概率;
(3)构建并训练卷积神经网络CNN:
(3a)在现有AlexNet网络的基础上,增加了Eltwise1层、fc_a1层、fc_a2层、Eltwise2层,得到一个含有16个层卷积神经网络CNN,其中:
该Eltwise1层用于将AlexNet网络中Conv3层与Conv4层的特征图对应位置进行融合;
该fc_a1层用于将Eltwise1层特征图映射为特征向量;
该fc_a2层将AlexNet网络中Pool5层特征映射为特征向量;
该Eltwise2层用于对fc_a1层、fc_a2层和Eltwise1层的特征图对应位置进行融合;
(3b)将训练集中的每个CAD模型的多视角图像
Figure FDA0003154178030000021
输入到卷积网络中,迭代卷积神经网络CNN的前向计算和反向传播训练神经网络,优化神经网络参数R,直到神经网络的损失函数J≤0.0001为止,得到训练好的神经网络CNN;
(4)测试网络
将ModelNet10测试集中每一个CAD模型的多视角图像
Figure FDA0003154178030000022
输入到训练好的神经网络中,统计物体分类和姿态估计的精度。
2.根据权利要求1所述的方法,其中步骤(1)的第一种预处理策略在CAD模型所在的视角圆上均匀地设置12个预定义的视点,是先固定一个轴作为旋转轴,再在物体所在的视角圆上每隔30度设置一个观察点,即在360度的视角圆上,得到每个CAD模型对应12个不同视角的图像。
3.根据权利要求1所述的方法,其中步骤(2c)中优化问题,其实现如下:
Figure FDA0003154178030000023
记为
Figure FDA0003154178030000024
则优化问题表达为如下的形式:
Figure FDA0003154178030000025
其中(i)表示输入图像xi,k表示图像xi的类别标签,j表示图像xi是从第j个预定义视点观察到的,R是神经网络权值参数。
4.根据权利要求1所述的方法,其中步骤(3a)中构建含16个层的卷积神经网络CNN,步骤如下:
(3a1)将227*227像素大小的图像输入到第一卷积层Conv1,对其进行卷积核大小为11*11像素和步长为4像素的卷积操作,总共用96个卷积核,得到96张55*55像素大小的特征图;
(3a2)将第一卷积层Conv1输出的96张特征图输入到第一池化层Pool1,对其进行最大池化操作,池化块的大小为3*3像素,步长为2像素,得到96张27*27像素大小的特征图;
(3a3)将第一池化层Pool1输出的96张特征图输入到第二卷积层Conv2,对其进行卷积核大小为5*5像素和步长为1的卷积操作,总共用256个卷积核,得到256张27*27像素大小的特征图;
(3a4)将第二卷积层Conv2输出的256张特征图输入到第二池化层Pool2,对其进行最大池化操作,池化块的大小为3*3像素,步长为2像素,得到256张13*13像素大小的特征图;
(3a5)将第二池化层Pool2输出的256张特征图输入到第三卷积层Conv3,对其进行卷积核大小为3*3像素和步长为1像素的卷积操作,即共用384个卷积核,得到384张13*13像素大小的特征图;
(3a6)将第三卷积层Conv3输出的384张特征图输入到第四卷积层Con4,对其进行卷积核大小为3*3像素和步长为1像素的卷积操作,即共用384个卷积核,得到384张13*13像素大小的特征图;
(3a7)将第三卷积层Conv3和第四卷积层Conv4的特征图输入到第一Eltwise1层进行特征图融合,得到384张13*13像素大小的特征图;
(3a8)将第四卷积层Conv4输出的384张特征图输入到第五卷积层Conv5,对其进行卷积核大小为3*3像素和步长为1像素的卷积操作,即用256个卷积核,得到256张13*13像素大小的特征图;
(3a9)将第五卷积层Conv5输出的256张特征图输入到第五池化层Pool5,对其进行最大池化操作,池化块大小为3*3像素大小,步长为2像素,得到256张6*6像素大小的特征图;
(3a10)将第一Eltwise1层输出的384张特征图输入到第一全连接层fc_a1,将特征图映射为1*1*4096像素大小的特征向量;
(3a11)将第五池化层Pool5层输出的256张特征图输入到第二全连接层fc_a2,将特征图映射为1*1*4096像素大小的特征向量;
(3a12)将第五池化层Pool5层输出的256张特征图输入到第三全连接层fc6,将特征图映射为1*1*4096像素大小的特征向量;
(3a13)将第三全连接层fc6层输出的1*1*4096像素大小的特征向量输入到第四全连接层fc7继续进行特征提取,得到1*1*4096像素大小的特征向量;
(3a14)将第一全连接层fc_a1、第二全连接fc_a2和第四全连接fc7层的特征向量输入到第二Eltwise2层,进行特征向量的融合,得到1*1*4096像素大小的特征向量;
(3a15)将第二Eltwise2层输出的1*1*4096像素大小的特征图输入到第五全连接层fc8,将特征向量映射为1*1*11*M像素大小的特征向量,其中M为多视角图像数,符号“*”表示相乘;
(3a16)将1*1*11*M)像素大小的特征向量输入到分类层Softmax,得到图像xi的类别标签,选择使得类别概率最大的视角标签vi作为其位姿标签。
5.根据权利要求1所述的方法,其中步骤(3b)中训练卷积神经网络CNN,按如下步骤进行:
(3b1)在前向传播阶段,从训练集中取一个训练样本,将该训练样本的多视角图像
Figure FDA0003154178030000041
输入到卷积神经网络CNN的输入层,经过特征提取和特征映射,由Softmax层输出最终结果;
(3b2)在反向传播阶段,计算卷积神经网络CNN实际输出与训练样本的理想输出的差,按极小化误差的方法,反向传播调整卷积神经网络的权值参数R;
(3b3)重复(3b1)和(3b2)的操作,直到卷积神经网络CNN损失函数J≤0.0001为止。
CN201810243399.4A 2018-03-23 2018-03-23 基于神经网络的物体分类和位姿估计方法 Active CN108491880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810243399.4A CN108491880B (zh) 2018-03-23 2018-03-23 基于神经网络的物体分类和位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810243399.4A CN108491880B (zh) 2018-03-23 2018-03-23 基于神经网络的物体分类和位姿估计方法

Publications (2)

Publication Number Publication Date
CN108491880A CN108491880A (zh) 2018-09-04
CN108491880B true CN108491880B (zh) 2021-09-03

Family

ID=63319473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810243399.4A Active CN108491880B (zh) 2018-03-23 2018-03-23 基于神经网络的物体分类和位姿估计方法

Country Status (1)

Country Link
CN (1) CN108491880B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902675B (zh) * 2018-09-17 2021-05-04 华为技术有限公司 物体的位姿获取方法、场景重构的方法和装置
CN109493417B (zh) * 2018-10-31 2023-04-07 深圳大学 三维物体重建方法、装置、设备和存储介质
CN109598339A (zh) * 2018-12-07 2019-04-09 电子科技大学 一种基于栅格卷积网络的车辆姿态检测方法
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109934864B (zh) * 2019-03-14 2023-01-20 东北大学 面向机械臂抓取位姿估计的残差网络深度学习方法
CN109978907A (zh) * 2019-03-22 2019-07-05 南京邮电大学 一种面向家居场景的学生坐姿检测方法
CN111860039B (zh) * 2019-04-26 2022-08-02 四川大学 一种基于跨连cnn+svr的街道空间品质量化方法
CN110322510B (zh) * 2019-06-27 2021-08-27 电子科技大学 一种利用轮廓信息的6d位姿估计方法
CN112396077A (zh) * 2019-08-15 2021-02-23 瑞昱半导体股份有限公司 全连接卷积神经网络图像处理方法与电路***
CN110728187B (zh) * 2019-09-09 2022-03-04 武汉大学 一种基于容错性深度学习的遥感影像场景分类方法
CN110728192B (zh) * 2019-09-16 2022-08-19 河海大学 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN110728222B (zh) * 2019-09-30 2022-03-25 清华大学深圳国际研究生院 一种用于机械臂抓取***中目标物体的位姿估计方法
CN111126441B (zh) * 2019-11-25 2023-04-07 西安工程大学 一种分类检测网络模型的构建方法
CN111259735B (zh) * 2020-01-08 2023-04-07 西安电子科技大学 基于多级预测特征增强卷积神经网络的单人姿态估计方法
CN111325166B (zh) * 2020-02-26 2023-07-07 南京工业大学 基于投影重构和多输入多输出神经网络的坐姿识别方法
EP3885970A1 (en) * 2020-03-23 2021-09-29 Toyota Jidosha Kabushiki Kaisha System for processing an image having a neural network with at least one static feature map
CN111738220B (zh) * 2020-07-27 2023-09-15 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质
CN112163477B (zh) * 2020-09-16 2023-09-22 厦门市特种设备检验检测院 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及***
CN112381879A (zh) * 2020-11-16 2021-02-19 华南理工大学 基于图像和三维模型的物体姿态估计方法、***及介质
CN112528941B (zh) * 2020-12-23 2021-11-19 芜湖神图驭器智能科技有限公司 基于神经网络的自动化参数设定***
CN112634367A (zh) * 2020-12-25 2021-04-09 天津大学 一种基于深度神经网络的抗遮挡的物***姿估计方法
CN112857215B (zh) * 2021-01-08 2022-02-08 河北工业大学 一种基于正二十面体的单目6d位姿估计方法
CN113129370B (zh) * 2021-03-04 2022-08-19 同济大学 结合生成数据和无标注数据的半监督物***姿估计方法
CN113705480A (zh) * 2021-08-31 2021-11-26 新东方教育科技集团有限公司 基于姿态识别神经网络的姿态识别方法、设备和介质
CN114742212A (zh) * 2022-06-13 2022-07-12 南昌大学 一种电子数字信息重采样率估算方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375831B (zh) * 2010-08-13 2014-09-10 富士通株式会社 三维模型检索装置及其方法和模型库生成装置及其方法
US20160327653A1 (en) * 2014-02-03 2016-11-10 Board Of Regents, The University Of Texas System System and method for fusion of camera and global navigation satellite system (gnss) carrier-phase measurements for globally-referenced mobile device pose determination
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
CN106372648B (zh) * 2016-10-20 2020-03-13 中国海洋大学 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN106845510B (zh) * 2016-11-07 2020-04-07 中国传媒大学 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN106845515B (zh) * 2016-12-06 2020-07-28 上海交通大学 基于虚拟样本深度学习的机器人目标识别和位姿重构方法
CN107169421B (zh) * 2017-04-20 2020-04-28 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107330463B (zh) * 2017-06-29 2020-12-08 南京信息工程大学 基于cnn多特征联合和多核稀疏表示的车型识别方法
CN107527068B (zh) * 2017-08-07 2020-12-25 南京信息工程大学 基于cnn和域自适应学习的车型识别方法
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN107808146B (zh) * 2017-11-17 2020-05-05 北京师范大学 一种多模态情感识别分类方法

Also Published As

Publication number Publication date
CN108491880A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN110837778B (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
Cheng et al. Jointly network: a network based on CNN and RBM for gesture recognition
CN109816725B (zh) 一种基于深度学习的单目相机物***姿估计方法及装置
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN108062569B (zh) 一种基于红外和雷达的无人车驾驶决策方法
CN106951923B (zh) 一种基于多视角信息融合的机器人三维形状识别方法
CN111563446A (zh) 一种基于数字孪生的人-机交互安全预警与控制方法
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN107705322A (zh) 运动目标识别跟踪方法和***
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN113436227A (zh) 一种基于倒残差的孪生网络目标跟踪方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及***
CN110827304A (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和***
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN109508686A (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及***
CN114492634A (zh) 一种细粒度装备图片分类识别方法及***
CN114494594A (zh) 基于深度学习的航天员操作设备状态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant