CN108280481A - 一种基于残差网络的联合目标分类和三维姿态估计方法 - Google Patents

一种基于残差网络的联合目标分类和三维姿态估计方法 Download PDF

Info

Publication number
CN108280481A
CN108280481A CN201810077747.5A CN201810077747A CN108280481A CN 108280481 A CN108280481 A CN 108280481A CN 201810077747 A CN201810077747 A CN 201810077747A CN 108280481 A CN108280481 A CN 108280481A
Authority
CN
China
Prior art keywords
network
loss function
classification
posture
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810077747.5A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810077747.5A priority Critical patent/CN108280481A/zh
Publication of CN108280481A publication Critical patent/CN108280481A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于残差网络的联合目标分类和三维姿态估计方法,其主要内容包括:联合目标分类和三维姿态估计、损失函数、训练,其过程为,首先,将ResNet‑50第四阶段作为特征网络,将ResNet‑50第五阶段作为分类网络,以及使用三层姿态网络作为姿态网络,并且利用基于架构的残差网络来联合目标分类和三维姿态估计,然后,对三维姿态提出新的数学表达式和新的损失函数,即用姿态损失函数和分类损失函数之和表征实况姿态、实况分类标签与所提出的网络输出之间的损失函数,最后对Pascal3D+数据库进行最新的训练。本发明利用基于架构的残差网络,以及构造新的损失函数,达到了联合目标分类和三维姿态估计的目的,实现了减少算法损耗时间的效果。

Description

一种基于残差网络的联合目标分类和三维姿态估计方法
技术领域
本发明涉及目标分类及姿态估计领域,尤其是涉及了一种基于残差网络的联合目标分类和三维姿态估计方法。
背景技术
环境感知是计算机视觉科学的一个核心问题,也是现代视觉挑战的一个重要部分。理解一幅场景图像的一种方式是将其描述为场景里面的目标,这就涉及目标分类以及姿态估计。目标分类是将被测目标与已知目标的训练样本一一比较,回答同或异(真或假);姿态估计则是对不同目标的形态、动作等属性进行估计。目标分类与姿态估计在许多领域都具有广泛的应用,比如安防领域的人脸识别、行人检测、行人跟踪、智能视频分析等,交通领域的交通场景物体识别、车辆计数、逆行检测、车牌检测与识别,以及互联网领域的基于内容的图像检索、相册自动归类等等。可以说,目标分类与姿态估计已经应用于人们日常生活的方方面面。随着深度学习等新兴科学技术在图像分类和二维目标探测当中的成功应用,许多现阶段的工作利用卷积神经网络来处理目标分类以及姿态估计的问题。但是,这些工作都用二维目标探测***的输出作为三维姿态估计***的输入。实际上,现有的方法就像流水线般依次估计目标物体、探测目标的位置、估计目标的三维姿态。这就造成了消耗更多的时间等一系列的问题。
本发明提出一种基于残差网络的联合目标分类和三维姿态估计方法,首先,将ResNet-50第四阶段作为特征网络,将ResNet-50第五阶段作为分类网络,以及使用三层姿态网络作为姿态网络,并且利用基于架构的残差网络来联合目标分类和三维姿态估计,然后,对三维姿态提出新的数学表达式和新的损失函数,即用姿态损失函数和分类损失函数之和表征实况姿态、实况分类标签与所提出的网络输出之间的损失函数,最后对Pascal3D+数据库进行最新的训练。本发明达到了联合目标分类和三维姿态估计的目的,并且实现了减少算法损耗时间的效果。
发明内容
针对耗时更多等问题,本发明旨在提供一种联合目标分类和三维姿态估计的方法,首先,将ResNet-50第四阶段作为特征网络,将ResNet-50第五阶段作为分类网络,以及使用三层姿态网络作为姿态网络,并且利用基于架构的残差网络来联合目标分类和三维姿态估计,然后,对三维姿态提出新的数学表达式和新的损失函数,即用姿态损失函数和分类损失函数之和表征实况姿态、实况分类标签与所提出的网络输出之间的损失函数,最后对Pascal3D+数据库进行最新的训练。
具体来说,本发明的主要内容包括:
(一)联合目标分类以及三维姿态估计;
(二)损失函数;
(三)训练。
其中,所述的联合目标分类以及三维姿态估计,可以应用于目标分类标签未知的情况,并使用残差网络ResNet-50作为特征网络。
进一步地,所述的分类,把特征网络的特征当作其输入、用于估计目标分类标签。
进一步地,所述的使用残差网络ResNet-50作为特征网络,将ResNet-50第四阶段作为特征网络,将ResNet-50第五阶段作为分类网络,以及使用三层姿态网络作为姿态网络。
其中,所述的损失函数,当目标分类标签未知时,本发明对三维姿态构造新的数学表达式以及新的损失函数。首先,用姿态损失函数和分类损失函数之和表征实况姿态R*、实况分类标签c*与所提出的网络输出(R,c)之间的损失函数,即:
其中,分类损失函数使用标准的分类互熵损失函数;而姿态损失函数则依赖于旋转矩阵R的表示方式。
进一步地,所述的旋转矩阵R,R使用轴线角的表示方式,即=expm(θ[v]×),其中,v对应旋转轴,[v]×表示由v=[v1,v2,v3]T生成的反对称矩阵,即:
而θ对应旋转角,限定θ∈[0,π),获得旋转矩阵R与轴线角矢量y=θv之间的一一对应关系。
进一步地,所述的旋转矩阵与轴线角矢量之间的对应关系,其中,y1和y2是两个轴线角矢量;
旋转矩阵所在空间的对地损失函数如上式所示。
进一步地,所述的轴线角矢量,设定yi是第i个姿态网络的输出,当目标分类已知时,可以根据正确的分类标签选择姿态输出,即:
当实况目标分类标签未知时,可以使用加权损失函数或者最高损失函数估计姿态输出。
进一步地,所述的加权损失函数以及最高损失函数,假设分类网络的输出是随机矢量,那么估计的姿态为ywgt(c)=∑iyip(c=i),损失函数为:
而如果认为预定的目标分类标签是具有最大概率的一个标签,那么估计的姿态为yargmaxip(c=i)
损失函数如上式所示。
其中,所述的训练,使用以下几个步骤来训练网络:
第一步,固定特征网络,对ImageNet的图像进行分类预训练并求其权值;
第二步,获知分类网络和特定类别的网络与其他网络无关;
第三步,把上面两步得到的信息作为整个网络的初始值,然后利用新的损失函数,以较低的学习速率对整个网络进行优化,实现联合目标分类和姿态估计的任务。
附图说明
图1是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的***流程图。
图2是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的网络架构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的***流程图。主要包括联合目标分类和三维姿态估计、损失函数、训练。
联合目标分类和三维姿态估计,可以应用于目标分类标签未知的情况,并使用残差网络ResNet-50作为特征网络。
损失函数,用姿态损失函数和分类损失函数之和表征实况姿态R*、实况分类标签c*与所提出的网络输出(R,c)之间的损失函数,即:
其中,分类损失函数使用标准的分类互熵损失函数,而姿态损失函数依赖于旋转矩阵R的表示方式。
旋转矩阵R使用轴线角的表示方式,即R=expm(θ[v]×),其中,v对应旋转轴,[v]×表示由v=[v1,v2,v3]T生成的反对称矩阵,即:
而θ对应旋转角,限定θ∈[0,π),获得旋转矩阵R与轴线角矢量y=θv之间的一一对应关系。
旋转矩阵与轴线角矢量之间的对应关系,其中,y1和y2是两个轴线角矢量;
旋转矩阵所在空间的对地损失函数如上式所示。
设定yi是第i个姿态网络的输出,当目标分类已知时,可以根据正确的分类标签选择姿态输出,即:
当实况目标分类标签未知时,可以使用加权损失函数或者最高损失函数估计姿态输出。
加权损失函数以及最高损失函数,假设分类网络的输出是随机矢量,那么估计的姿态为ywgt(c)=∑iyip(c=i),损失函数为:
而如果认为预定的目标分类标签是具有最大概率的一个标签,那么估计的姿态为yargmaxip(c=i)
损失函数如上式所示。
使用以下几个步骤来训练网络:
第一步,固定特征网络,对ImageNet的图像进行分类预训练并求其权值;
第二步,获知分类网络和特定类别的网络与其他网络无关;
第三步,把上面两步得到的信息作为整个网络的初始值,然后利用新的损失函数,以较低的学习速率对整个网络进行优化,实现联合目标分类和姿态估计的任务。
图2是本发明一种基于残差网络的联合目标分类和三维姿态估计方法的网络架构图。把特征网络的特征作为输入,用于估计目标分类标签。将ResNet-50第四阶段作为特征网络,将ResNet-50第五阶段作为分类网络,以及使用三层姿态网络作为姿态网络。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于残差网络的联合目标分类和三维姿态估计方法,其特征在于,主要包括联合目标分类和三维姿态估计(一);损失函数(二);训练(三)。
2.基于权利要求书1所述的联合目标分类和三维姿态估计(一),其特征在于,可以应用于目标分类标签未知的情况,并使用残差网络ResNet-50作为特征网络。
3.基于权利要求书2所述的分类,其特征在于,把特征网络的特征作为输入,用于估计目标分类标签。
4.基于权利要求书2所述的使用残差网络ResNet-50作为特征网络,其特征在于,将ResNet-50第四阶段作为特征网络,将ResNet-50第五阶段作为分类网络,以及使用三层姿态网络作为姿态网络。
5.基于权利要求书1所述的损失函数(二),其特征在于,用姿态损失函数和分类损失函数之和表征实况姿态R*、实况分类标签c*与所提出的网络输出(R,c)之间的损失函数,即:
其中,分类损失函数使用标准的分类互熵损失函数,而姿态损失函数依赖于旋转矩阵R的表示方式。
6.基于权利要求书5所述的旋转矩阵R,其特征在于,R使用轴线角的表示方式,即R=expm(θ[v]×),其中,v对应旋转轴,[v]×表示由v=[v1,v2,v3]T生成的反对称矩阵,即:
而θ对应旋转角,限定θ∈[0,π),获得旋转矩阵R与轴线角矢量y=θv之间的一一对应关系。
7.基于权利要求书6所述的旋转矩阵与轴线角矢量之间的对应关系,其特征在于,其中,y1和y2是两个轴线角矢量;
旋转矩阵所在空间的对地损失函数如上式所示。
8.基于权利要求书7所述的轴线角矢量,其特征在于,设定yi是第i个姿态网络的输出,当目标分类已知时,可以根据正确的分类标签选择姿态输出,即:
当实况目标分类标签未知时,可以使用加权损失函数或者最高损失函数估计姿态输出。
9.基于权利要求书8所述的加权损失函数以及最高损失函数,其特征在于,假设分类网络的输出是随机矢量,那么估计的姿态为ywgt(c)=∑iyip(c=i),损失函数为:
而如果认为预定的目标分类标签是具有最大概率的一个标签,那么估计的姿态为
损失函数如上式所示。
10.基于权利要求书1所述的训练(三),其特征在于,使用以下几个步骤来训练网络:
第一步,固定特征网络,对ImageNet的图像进行分类预训练并求其权值;
第二步,获知分类网络和特定类别的网络与其他网络无关;
第三步,把上面两步得到的信息作为整个网络的初始值,然后利用新的损失函数,以较低的学习速率对整个网络进行优化,实现联合目标分类和姿态估计的任务。
CN201810077747.5A 2018-01-26 2018-01-26 一种基于残差网络的联合目标分类和三维姿态估计方法 Withdrawn CN108280481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810077747.5A CN108280481A (zh) 2018-01-26 2018-01-26 一种基于残差网络的联合目标分类和三维姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810077747.5A CN108280481A (zh) 2018-01-26 2018-01-26 一种基于残差网络的联合目标分类和三维姿态估计方法

Publications (1)

Publication Number Publication Date
CN108280481A true CN108280481A (zh) 2018-07-13

Family

ID=62805107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810077747.5A Withdrawn CN108280481A (zh) 2018-01-26 2018-01-26 一种基于残差网络的联合目标分类和三维姿态估计方法

Country Status (1)

Country Link
CN (1) CN108280481A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063607A (zh) * 2018-07-17 2018-12-21 北京迈格威科技有限公司 用于重识别的损失函数确定的方法及装置
CN110263638A (zh) * 2019-05-16 2019-09-20 山东大学 一种基于显著信息的视频分类方法
CN110428464A (zh) * 2019-06-24 2019-11-08 浙江大学 基于深度学习的多类别乱序工件机器人抓取位姿估计方法
CN110929242A (zh) * 2019-11-20 2020-03-27 上海交通大学 基于无线信号进行姿态无关的连续用户认证方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177443A (zh) * 2013-03-07 2013-06-26 中国电子科技集团公司第十四研究所 基于随机hough变换的SAR目标姿态角估计方法
CN103345744A (zh) * 2013-06-19 2013-10-09 北京航空航天大学 一种基于多图像的人体目标部件自动解析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177443A (zh) * 2013-03-07 2013-06-26 中国电子科技集团公司第十四研究所 基于随机hough变换的SAR目标姿态角估计方法
CN103345744A (zh) * 2013-06-19 2013-10-09 北京航空航天大学 一种基于多图像的人体目标部件自动解析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIDDHARTH MAHENDRAN ET AL: ""Joint Object Category and 3D Pose Estimation from 2D Images"", 《ARXIV.ORG》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063607A (zh) * 2018-07-17 2018-12-21 北京迈格威科技有限公司 用于重识别的损失函数确定的方法及装置
CN109063607B (zh) * 2018-07-17 2022-11-25 北京迈格威科技有限公司 用于重识别的损失函数确定的方法及装置
CN110263638A (zh) * 2019-05-16 2019-09-20 山东大学 一种基于显著信息的视频分类方法
CN110428464A (zh) * 2019-06-24 2019-11-08 浙江大学 基于深度学习的多类别乱序工件机器人抓取位姿估计方法
CN110428464B (zh) * 2019-06-24 2022-01-04 浙江大学 基于深度学习的多类别乱序工件机器人抓取位姿估计方法
CN110929242A (zh) * 2019-11-20 2020-03-27 上海交通大学 基于无线信号进行姿态无关的连续用户认证方法及***
CN110929242B (zh) * 2019-11-20 2020-07-10 上海交通大学 基于无线信号进行姿态无关的连续用户认证方法及***

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN110569886B (zh) 一种双向通道注意力元学习的图像分类方法
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
Sun et al. Deep learning face representation by joint identification-verification
JP4999101B2 (ja) 効率的なマルチクラス対象物検出のためにブースト分類器を組み合わせる方法
CN108280481A (zh) 一种基于残差网络的联合目标分类和三维姿态估计方法
CN110580460A (zh) 基于行人身份和属性特征联合识别验证的行人再识别方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN108492298B (zh) 基于生成对抗网络的多光谱图像变化检测方法
Gruhl et al. A building block for awareness in technical systems: Online novelty detection and reaction with an application in intrusion detection
CN109800643A (zh) 一种活体人脸多角度的身份识别方法
CN111079847A (zh) 一种基于深度学习的遥感影像自动标注方法
WO2006105541A2 (en) Object identification between non-overlapping cameras without direct feature matching
CN111582178B (zh) 基于多方位信息和多分支神经网络车辆重识别方法及***
CN111209799B (zh) 基于部分共享网络和余弦间隔损失函数的行人搜索方法
JP4221430B2 (ja) 識別器及びその方法
KR20180038169A (ko) 딥 러닝 기반의 데이터특징을 이용한 도시영상의 안전도 분류방법
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN107145852A (zh) 一种基于同源余弦损失函数的人物识别方法
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
WO2021079451A1 (ja) 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
CN106709442A (zh) 一种人脸识别方法
CN115630361A (zh) 一种基于注意力蒸馏的联邦学习后门防御方法
Ishiguro et al. Multi-class Boosting for Early Classification of Sequences.
Vicen-Bueno et al. Complexity reduction in neural networks applied to traffic sign recognition tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180713