CN109598197A - 基于密集连接模块的沙漏模型的设计方法 - Google Patents
基于密集连接模块的沙漏模型的设计方法 Download PDFInfo
- Publication number
- CN109598197A CN109598197A CN201811283711.9A CN201811283711A CN109598197A CN 109598197 A CN109598197 A CN 109598197A CN 201811283711 A CN201811283711 A CN 201811283711A CN 109598197 A CN109598197 A CN 109598197A
- Authority
- CN
- China
- Prior art keywords
- response
- link block
- intensive
- design method
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013461 design Methods 0.000 title claims abstract description 9
- 230000004044 response Effects 0.000 claims abstract description 47
- 238000010586 diagram Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 3
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及姿态估计领域,提出了基于密集连接模块的的沙漏模型的设计方法,实现了基于自底向上结构的姿态估计的人体关节点的预测。本发明利用密集连接网络模块实现关节点特征的提取,通过融合高斯模板函数和残差模块提取的特征图形成总响应图。通过将上一阶段的总响应图作为下一阶段的输入,实现对各关节点空间信息特征的充分学习,从而提升关节点的预测准确率。用深度学习框架中对模型进行训练,训练结果证明该模型相较原模型在部分关节点的预测准确率上有了提升。说明了该发明中新构造的模型的有效性。
Description
技术领域
本发明涉及姿态估计领域,是一种基于密集连接模块的的沙漏模型的设计方法。具体涉及到利用密集连接模块构造一种类似沙漏结构的神经网络模型,通过训练后实现对人体关节点的预测。
背景技术
由于深度卷积神经网络在特征提取方面有着极大的优势,越来越多的学者将卷积网络应用于处理计算机视觉任务,人体姿态估计作为视觉任务的一个分支由此得到了极大的进展,在图像处理技术高速发展的今天,姿态估计由于图像背景,拍摄视角,人体衣物遮挡等因素影响关节点预测精度,故而人体姿态估计仍旧是视觉任务的一大难题。
Tompson等人通过在图像的某个小区域用一个“位置精调”来估计关节偏移位置的方法来构建模型,这个网络模型使用先进的卷积网络来级联训练这样可以提高人体关节定位精度;Wei,Shih-En等人提出的CPM方法使用了顺序化的卷积架构来表达空间信息和纹理信息,该方法对每一阶段都监督训练,采用中继监督防训练止了梯度弥散问题,提高了关节点定位的精度;Newell等人提出了Stacked Hourglass结构,使用类似沙漏状的网络形状,重复使用自顶向下到自下向上方法来推断人体的关节点位置,使得定位进度得到极大的提升。G.Huang等人提出的密集连接网络模型将网络中的所有层都互相连接,使得网络中的每一层都接受它之前的所有层的连接,从而最大化了网络中的信息流,可以学习到更丰富的特征。以解决当前人体姿态图像中在复杂关节点定位为精度不高的问题。
尽管前人在基于深度神经网络的人体姿态估计设计了多种模型,提出了很多以中继监督思想为指导的模型算法,但是在人体姿态估计领域中,对前人的沙漏模型网络的改进,新的网络架构的研究仍然有重大意义。
发明内容
本发明的目的在于提出一种就密集连接模块构造一种类似沙漏结构的神经网络模型,将密集连接网络模型与跳级网络模型相结合,通过特征融合实现对参数较少,预测结果准确的神经网络结构模型。
本发明的技术方案为:首先对图像数据预处理,通过卷积层提取64*64的图像作为输入,将该图像分两路进行处理,一路通过跳级结构处理保留图像的原始信息,一路对通过密集连接网络学习图像特征,进行图像推理,将两路的处理结果与事前生成的高斯模板函数进行融合得到总响应图,然后将得到的总响应图作为下一阶段的输入,通过之前的操作步骤,最后得到的总响应图,实现关节点预测的功能。
基于密集连接模块的沙漏模型的设计方法,具体包括以下步骤:
步骤1:加载人体姿态图像数据集;
步骤2:对数据集进行数据预处理,处理方法为,对图像数据进行卷积处理,过滤器的大小为7*7,步长为2;
步骤3:计算不同尺度下的不同部位的响应图,响应图分为两部分:经过密集连接网络处理之后再进行升采样操作所形成的特征响应图,以及密集连接模块在原尺寸上提取的特征响应图;
步骤4:融合不同部位的响应图为总体响应图,并找到各部位的最大响应点为预测值;所述的总体响应图,是由一个高斯模板函数、以及步骤3提取的特征响应图相加所得;
步骤5:将上一阶段预测的特征图作为下一阶段的输入,重复步骤2、3、4;
步骤6:每输出一次总体响应图为一个阶段,本方法总共为四个阶段。
本发明的有益效果是:
1、本发明相较于原模型在训练的每一阶段都使用权重共享,减少了训练的参数量,降低了对计算资源的需求。
2、本发明在特征提取阶段使用密集连接网络模块,相较于原模型可以获取更丰富的特征与各关节的空间信息。
3、本发明中通过对原沙漏模型的改进,将上一阶段的总响应图作为下一阶段的输入,减少了计算过程,而且提升关节点预测的准确率。
附图说明
图1为基于密集连接模块的沙漏模型的整体程序流程图;
图2为沙漏模型的特征提取模块说明图;
图3为密集连接网络模块说明图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
结合图1的整体程序流程图,以及图2的特征提取模块图和图3的密集连接网络模块图下面进行详细步骤介绍:
步骤1:加载人体姿态图像数据集Z;
步骤2:对数据集Z进行数据预处理,输入为图像的高*宽*通道数表示为H*W*3,过滤器的大小为7*7,步长为2,得到64*64的特征图;
步骤3:原始特征图经过降采样之后,输入到密集连接模块的沙漏模型子网络中,输出结果经过线性单元处理之后,得到输出通道为256的特征图,最后经过卷积核数量k=1,卷积步长s=1的卷积过滤后得到H/2*W/2*K的响应图;
步骤4:将步骤3得到的响应图与残差模块在原尺寸上提取的特征响应图以及事先生成的高斯响应模板函数相加,得到总响应图,通过最小化函数ft找到各部位的最大响应点为预测值。
其中z为数据集Z的子集,p为第p个关节点,某个关节点的响应图,为该关阶段的真值。
步骤5:本方法总共为四个阶段,每输出一次总体响应图为一个阶段,将上一阶段预测的特征图作为下一阶段的输入如将stage1的输出结果作为stage2的输入,重复步骤2、3、4。
实施例1
本发明的实施例是在以本发明技术方案为前提下进行实施的,在深度学习框架TensorFlow下运行,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。本实施例以在数据集FLIC以及处理后的MPII数据集下运行
步骤1:加载人体姿态图像数据集Z;
步骤2:对数据集Z进行数据预处理,输入为H*W*3,过滤器的大小为7*7,步长为2,得到64*64的特征图;
步骤3:原始特征图经过降采样之后,输入到密集连接模块的沙漏模型子网络中,输出结果经过线性单元处理之后,得到输出通道为256的特征图,最后经过k=1,s=1的卷积过滤后得到H/2*W/2*K的响应图;
步骤4:将步骤3得到的响应图与残差模块在原尺寸上提取的特征响应图以及事先生成的高斯响应模板函数相加,得到总响应图,通过最小化函数ft找到各部位的最大响应点为预测值。
其中p为第p个关节点,为某个关节点的响应图,为该关阶段的真值。
步骤5:本方法总共为四个阶段,每输出一次总体响应图为一个阶段,将上一阶段预测的特征图作为下一阶段的输入如将stage1的输出结果作为stage2的输入,重复步骤2、3、4。
步骤6:程序结束。
综上所述,利用密集连接网络模块构造的沙漏模型,通过密集连接网络模块进行特征提取,并与保留关节点原始信息的特征进行融合,通过最小化所有关节点的真值与预测值组成的L2范式,生成了总特征响应图,并通过深度学习框架TensorFlow在FLIC和MPII数据集上进行训练,实验结果进一步证明了改进后的沙漏模型的有效性,由此证明该方法是有效可行的。
表1:为在FLIC数据集上本方法与原方法对关节点的预测准确率对比
表2:为在MPII数据集上本方法与原方法对关节点的预测准确率对比
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围内。
Claims (4)
1.基于密集连接模块的沙漏模型的设计方法,其特征在于,包括以下步骤:
步骤1:加载人体姿态图像数据集;
步骤2:对数据集进行数据预处理;
步骤3:计算不同尺度下的不同部位的响应图;
步骤4:融合不同部位的响应图为总体响应图,并找到各部位的最大响应点为预测值;
步骤5:将上一阶段预测的特征图作为下一阶段的输入,重复步骤2、3、4;
步骤6:每输出一次总体响应图为一个阶段,本方法总共为四个阶段。
2.根据权利要求1所述的基于密集连接模块的沙漏模型的设计方法,其特征在于:步骤2所述的数据预处理方法为,对图像数据进行卷积处理,过滤器的大小为7*7,步长为2。
3.根据权利要求1所述的基于密集连接模块的沙漏模型的设计方法,其特征在于:步骤3所述的计算不同尺寸下部件的响应图分为两部分:经过密集连接网络处理之后再进行升采样操作所形成的特征响应图,以及密集连接模块在原尺寸上提取的特征响应图。
4.根据权利要求1所述的基于密集连接模块的沙漏模型的设计方法,其特征在于:步骤4的具体操作方法为:将步骤3得到的响应图与残差模块在原尺寸上提取的特征响应图以及事先生成的高斯响应模板函数相加,得到总响应图;
通过最小化函数ft找到各部位的最大响应点为预测值:
其中z为数据集Z的子集,p为第p个关节点,为某个关节点的响应图,为该关阶段的真值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811283711.9A CN109598197A (zh) | 2018-10-31 | 2018-10-31 | 基于密集连接模块的沙漏模型的设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811283711.9A CN109598197A (zh) | 2018-10-31 | 2018-10-31 | 基于密集连接模块的沙漏模型的设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109598197A true CN109598197A (zh) | 2019-04-09 |
Family
ID=65958338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811283711.9A Pending CN109598197A (zh) | 2018-10-31 | 2018-10-31 | 基于密集连接模块的沙漏模型的设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598197A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503063A (zh) * | 2019-08-28 | 2019-11-26 | 东北大学秦皇岛分校 | 基于沙漏卷积自动编码神经网络的跌倒检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991646A (zh) * | 2017-03-28 | 2017-07-28 | 福建帝视信息科技有限公司 | 一种基于密集连接网络的图像超分辨率方法 |
CN107818302A (zh) * | 2017-10-20 | 2018-03-20 | 中国科学院光电技术研究所 | 基于卷积神经网络的非刚性多尺度物体检测方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
-
2018
- 2018-10-31 CN CN201811283711.9A patent/CN109598197A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991646A (zh) * | 2017-03-28 | 2017-07-28 | 福建帝视信息科技有限公司 | 一种基于密集连接网络的图像超分辨率方法 |
CN107818302A (zh) * | 2017-10-20 | 2018-03-20 | 中国科学院光电技术研究所 | 基于卷积神经网络的非刚性多尺度物体检测方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503063A (zh) * | 2019-08-28 | 2019-11-26 | 东北大学秦皇岛分校 | 基于沙漏卷积自动编码神经网络的跌倒检测方法 |
CN110503063B (zh) * | 2019-08-28 | 2021-12-17 | 东北大学秦皇岛分校 | 基于沙漏卷积自动编码神经网络的跌倒检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106127684B (zh) | 基于双向递归卷积神经网络的图像超分辨率增强方法 | |
CN104978580B (zh) | 一种用于无人机巡检输电线路的绝缘子识别方法 | |
CN108090403A (zh) | 一种基于3d卷积神经网络的人脸动态识别方法及*** | |
CN109271933A (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN106897714A (zh) | 一种基于卷积神经网络的视频动作检测方法 | |
CN106683048A (zh) | 一种图像超分辨率方法及设备 | |
CN106780543A (zh) | 一种基于卷积神经网络的双框架估计深度和运动方法 | |
CN110889343A (zh) | 基于注意力型深度神经网络的人群密度估计方法及装置 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN109902548A (zh) | 一种对象属性识别方法、装置、计算设备及*** | |
CN108776971A (zh) | 一种基于分层最近邻域的变分光流确定方法及*** | |
CN109299732A (zh) | 无人驾驶行为决策及模型训练的方法、装置及电子设备 | |
CN110188667B (zh) | 一种基于三方对抗生成网络的人脸摆正方法 | |
CN110473284A (zh) | 一种基于深度学习的运动物体三维模型重建方法 | |
CN109783887A (zh) | 一种面向三维加工特征的智能识别与检索方法 | |
CN108154104A (zh) | 一种基于深度图像超像素联合特征的人体姿态估计方法 | |
CN110276768A (zh) | 图像分割方法、图像分割装置、图像分割设备及介质 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
Zhang et al. | Dilated hourglass networks for human pose estimation | |
Jiang et al. | Multi-level memory compensation network for rain removal via divide-and-conquer strategy | |
CN113449878B (zh) | 数据分布式的增量学习方法、***、设备及存储介质 | |
CN115797808A (zh) | 一种无人机巡检缺陷图像的识别方法、***、装置及介质 | |
CN109598197A (zh) | 基于密集连接模块的沙漏模型的设计方法 | |
CN104537694A (zh) | 一种基于关键帧的在线学习的离线视频跟踪方法 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |