CN108280481A

CN108280481A - 一种基于残差网络的联合目标分类和三维姿态估计方法

Info

Publication number: CN108280481A
Application number: CN201810077747.5A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-07-13

Abstract

本发明中提出的一种基于残差网络的联合目标分类和三维姿态估计方法，其主要内容包括：联合目标分类和三维姿态估计、损失函数、训练，其过程为，首先，将ResNet‑50第四阶段作为特征网络，将ResNet‑50第五阶段作为分类网络，以及使用三层姿态网络作为姿态网络，并且利用基于架构的残差网络来联合目标分类和三维姿态估计，然后，对三维姿态提出新的数学表达式和新的损失函数，即用姿态损失函数和分类损失函数之和表征实况姿态、实况分类标签与所提出的网络输出之间的损失函数，最后对Pascal3D+数据库进行最新的训练。本发明利用基于架构的残差网络，以及构造新的损失函数，达到了联合目标分类和三维姿态估计的目的，实现了减少算法损耗时间的效果。

Description

一种基于残差网络的联合目标分类和三维姿态估计方法

技术领域

本发明涉及目标分类及姿态估计领域，尤其是涉及了一种基于残差网络的联合目标分类和三维姿态估计方法。

背景技术

环境感知是计算机视觉科学的一个核心问题，也是现代视觉挑战的一个重要部分。理解一幅场景图像的一种方式是将其描述为场景里面的目标，这就涉及目标分类以及姿态估计。目标分类是将被测目标与已知目标的训练样本一一比较，回答同或异(真或假)；姿态估计则是对不同目标的形态、动作等属性进行估计。目标分类与姿态估计在许多领域都具有广泛的应用，比如安防领域的人脸识别、行人检测、行人跟踪、智能视频分析等，交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测与识别，以及互联网领域的基于内容的图像检索、相册自动归类等等。可以说，目标分类与姿态估计已经应用于人们日常生活的方方面面。随着深度学习等新兴科学技术在图像分类和二维目标探测当中的成功应用，许多现阶段的工作利用卷积神经网络来处理目标分类以及姿态估计的问题。但是，这些工作都用二维目标探测***的输出作为三维姿态估计***的输入。实际上，现有的方法就像流水线般依次估计目标物体、探测目标的位置、估计目标的三维姿态。这就造成了消耗更多的时间等一系列的问题。

本发明提出一种基于残差网络的联合目标分类和三维姿态估计方法，首先，将ResNet-50第四阶段作为特征网络，将ResNet-50第五阶段作为分类网络，以及使用三层姿态网络作为姿态网络，并且利用基于架构的残差网络来联合目标分类和三维姿态估计，然后，对三维姿态提出新的数学表达式和新的损失函数，即用姿态损失函数和分类损失函数之和表征实况姿态、实况分类标签与所提出的网络输出之间的损失函数，最后对Pascal3D+数据库进行最新的训练。本发明达到了联合目标分类和三维姿态估计的目的，并且实现了减少算法损耗时间的效果。

发明内容

针对耗时更多等问题，本发明旨在提供一种联合目标分类和三维姿态估计的方法，首先，将ResNet-50第四阶段作为特征网络，将ResNet-50第五阶段作为分类网络，以及使用三层姿态网络作为姿态网络，并且利用基于架构的残差网络来联合目标分类和三维姿态估计，然后，对三维姿态提出新的数学表达式和新的损失函数，即用姿态损失函数和分类损失函数之和表征实况姿态、实况分类标签与所提出的网络输出之间的损失函数，最后对Pascal3D+数据库进行最新的训练。

具体来说，本发明的主要内容包括：

(一)联合目标分类以及三维姿态估计；

(二)损失函数；

(三)训练。

其中，所述的联合目标分类以及三维姿态估计，可以应用于目标分类标签未知的情况，并使用残差网络ResNet-50作为特征网络。

进一步地，所述的分类，把特征网络的特征当作其输入、用于估计目标分类标签。

进一步地，所述的使用残差网络ResNet-50作为特征网络，将ResNet-50第四阶段作为特征网络，将ResNet-50第五阶段作为分类网络，以及使用三层姿态网络作为姿态网络。

其中，所述的损失函数，当目标分类标签未知时，本发明对三维姿态构造新的数学表达式以及新的损失函数。首先，用姿态损失函数和分类损失函数之和表征实况姿态R^*、实况分类标签c^*与所提出的网络输出(R,c)之间的损失函数，即：

其中，分类损失函数使用标准的分类互熵损失函数；而姿态损失函数则依赖于旋转矩阵R的表示方式。

进一步地，所述的旋转矩阵R，R使用轴线角的表示方式，即＝expm(θ[v]_×)，其中，v对应旋转轴，[v]_×表示由v＝[v₁,v₂,v₃]^T生成的反对称矩阵，即：

而θ对应旋转角，限定θ∈[0,π)，获得旋转矩阵R与轴线角矢量y＝θv之间的一一对应关系。

进一步地，所述的旋转矩阵与轴线角矢量之间的对应关系，其中，y₁和y₂是两个轴线角矢量；

旋转矩阵所在空间的对地损失函数如上式所示。

进一步地，所述的轴线角矢量，设定y_i是第i个姿态网络的输出，当目标分类已知时，可以根据正确的分类标签选择姿态输出，即：

当实况目标分类标签未知时，可以使用加权损失函数或者最高损失函数估计姿态输出。

进一步地，所述的加权损失函数以及最高损失函数，假设分类网络的输出是随机矢量，那么估计的姿态为y_wgt(c)＝∑iyip(c＝i)，损失函数为：

而如果认为预定的目标分类标签是具有最大概率的一个标签，那么估计的姿态为y_{argmaxip(c＝i)}；

损失函数如上式所示。

其中，所述的训练，使用以下几个步骤来训练网络：

第一步，固定特征网络，对ImageNet的图像进行分类预训练并求其权值；

第二步，获知分类网络和特定类别的网络与其他网络无关；

第三步，把上面两步得到的信息作为整个网络的初始值，然后利用新的损失函数，以较低的学习速率对整个网络进行优化，实现联合目标分类和姿态估计的任务。

附图说明

图1是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的***流程图。

图2是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的网络架构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的***流程图。主要包括联合目标分类和三维姿态估计、损失函数、训练。

联合目标分类和三维姿态估计，可以应用于目标分类标签未知的情况，并使用残差网络ResNet-50作为特征网络。

损失函数，用姿态损失函数和分类损失函数之和表征实况姿态R^*、实况分类标签c^*与所提出的网络输出(R,c)之间的损失函数，即：

其中，分类损失函数使用标准的分类互熵损失函数，而姿态损失函数依赖于旋转矩阵R的表示方式。

旋转矩阵R使用轴线角的表示方式，即R＝expm(θ[v]_×)，其中，v对应旋转轴，[v]_×表示由v＝[v₁,v₂,v₃]^T生成的反对称矩阵，即：

旋转矩阵与轴线角矢量之间的对应关系，其中，y₁和y₂是两个轴线角矢量；

旋转矩阵所在空间的对地损失函数如上式所示。

设定y_i是第i个姿态网络的输出，当目标分类已知时，可以根据正确的分类标签选择姿态输出，即：

加权损失函数以及最高损失函数，假设分类网络的输出是随机矢量，那么估计的姿态为y_wgt(c)＝∑iyip(c＝i)，损失函数为：

损失函数如上式所示。

使用以下几个步骤来训练网络：

第二步，获知分类网络和特定类别的网络与其他网络无关；

图2是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的网络架构图。把特征网络的特征作为输入，用于估计目标分类标签。将ResNet-50第四阶段作为特征网络，将ResNet-50第五阶段作为分类网络，以及使用三层姿态网络作为姿态网络。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于残差网络的联合目标分类和三维姿态估计方法，其特征在于，主要包括联合目标分类和三维姿态估计(一)；损失函数(二)；训练(三)。

2.基于权利要求书1所述的联合目标分类和三维姿态估计(一)，其特征在于，可以应用于目标分类标签未知的情况，并使用残差网络ResNet-50作为特征网络。

3.基于权利要求书2所述的分类，其特征在于，把特征网络的特征作为输入，用于估计目标分类标签。

4.基于权利要求书2所述的使用残差网络ResNet-50作为特征网络，其特征在于，将ResNet-50第四阶段作为特征网络，将ResNet-50第五阶段作为分类网络，以及使用三层姿态网络作为姿态网络。

5.基于权利要求书1所述的损失函数(二)，其特征在于，用姿态损失函数和分类损失函数之和表征实况姿态R^*、实况分类标签c^*与所提出的网络输出(R,c)之间的损失函数，即：

6.基于权利要求书5所述的旋转矩阵R，其特征在于，R使用轴线角的表示方式，即R＝expm(θ[v]_×)，其中，v对应旋转轴，[v]_×表示由v＝[v₁,v₂,v₃]^T生成的反对称矩阵，即：

7.基于权利要求书6所述的旋转矩阵与轴线角矢量之间的对应关系，其特征在于，其中，y₁和y₂是两个轴线角矢量；

旋转矩阵所在空间的对地损失函数如上式所示。

8.基于权利要求书7所述的轴线角矢量，其特征在于，设定y_i是第i个姿态网络的输出，当目标分类已知时，可以根据正确的分类标签选择姿态输出，即：

9.基于权利要求书8所述的加权损失函数以及最高损失函数，其特征在于，假设分类网络的输出是随机矢量，那么估计的姿态为y_wgt(c)＝∑_iy_ip(c＝i)，损失函数为：

而如果认为预定的目标分类标签是具有最大概率的一个标签，那么估计的姿态为

损失函数如上式所示。

10.基于权利要求书1所述的训练(三)，其特征在于，使用以下几个步骤来训练网络：

第二步，获知分类网络和特定类别的网络与其他网络无关；