CN112712015B - 一种人体关键点识别方法、装置、智能终端及存储介质 - Google Patents

一种人体关键点识别方法、装置、智能终端及存储介质 Download PDF

Info

Publication number
CN112712015B
CN112712015B CN202011595172.XA CN202011595172A CN112712015B CN 112712015 B CN112712015 B CN 112712015B CN 202011595172 A CN202011595172 A CN 202011595172A CN 112712015 B CN112712015 B CN 112712015B
Authority
CN
China
Prior art keywords
human body
network model
convolution
convolution layer
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011595172.XA
Other languages
English (en)
Other versions
CN112712015A (zh
Inventor
曹晟
言宏亮
伍广彬
卢瑶
钟浩
于波
张华�
杨波
梁兴伟
杨卫国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
Shenzhen Hit Technology Innovation Industry Development Co ltd
Konka Group Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
Shenzhen Hit Technology Innovation Industry Development Co ltd
Konka Group Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd, Shenzhen Hit Technology Innovation Industry Development Co ltd, Konka Group Co Ltd, Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
Priority to CN202011595172.XA priority Critical patent/CN112712015B/zh
Publication of CN112712015A publication Critical patent/CN112712015A/zh
Application granted granted Critical
Publication of CN112712015B publication Critical patent/CN112712015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人体关键点识别方法、装置、智能终端及存储介质,其中,上述人体关键点识别方法包括:获取待检测人体图像;获取压缩高分辨率特征网络模型;基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;输出上述人体关键点位置信息。本发明方案提供的人体关键点识别方法对现有的高分辨率特征网络模型进行压缩并基于压缩高分辨率特征网络模型检测获取人体关键点位置信息,相对于现有技术,有利于减少参数量、计算量,缩短预测时长,且有利于将该模型移植到移动端等嵌入式平台上进行使用。

Description

一种人体关键点识别方法、装置、智能终端及存储介质
技术领域
本发明涉及深度神经网络技术领域,尤其涉及的是一种人体关键点识别方法、装置、智能终端及存储介质。
背景技术
随着计算机技术的发展,目前可以从包含人体的图像中检测出人体的关键点。人体关键点检测也称人体姿态估计,需要在给定的图片中定位人体的身体关键部位,例如头部、颈部、肩部、手部等。进一步的,随着人们需求的发展,目前人体关键点检测的任务不但要获取包含人体纹理信息的高层语义信息,同时还要收集检测目标与周围环境的关联度,从而达到较好的识别效果。
现有技术中,通常基于深度神经网络模型进行人体关键点检测,例如,基于高分辨率特征网络(HRNet,High-Resolution Net)模型进行人体关键点检测。HRNet自提出后备受关注,在人体关键点检测任务上,可以利用其高分辨率特征解决人员遮挡、高难度动作识别等难题。现有技术的问题在于,以HRNet模型为代表的深度神经网络模型通常参数量大、计算量大,因此预测耗时长且不利于移植到移动端等嵌入式平台上进行使用。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种人体关键点识别方法、装置、智能终端及存储介质,旨在解决现有技术中以HRNet模型为代表的深度神经网络模型参数量大、计算量大、预测耗时长且不利于移植到移动端等嵌入式平台上进行使用的问题。
为了实现上述目的,本发明第一方面提供一种人体关键点识别方法,其中,上述方法包括:
获取待检测人体图像;
获取压缩高分辨率特征网络模型;
基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;
输出上述人体关键点位置信息。
可选的,上述获取压缩高分辨率特征网络模型,包括:
获取高分辨率特征网络模型;
对上述高分辨率特征网络模型的基础模块进行压缩;
对上述高分辨率特征网络模型的瓶颈模块进行压缩;
获取压缩后的上述高分辨率特征网络模型,并作为上述压缩高分辨率特征网络模型。
可选的,上述对上述高分辨率特征网络模型的基础模块进行压缩,包括:
将上述基础模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;
对分解获得的上述3×3卷积层进行卷积核内参数共享;
在相邻的两个上述基础模块间共享第一层上述1×1卷积层和上述3×3卷积层。
可选的,上述对上述高分辨率特征网络模型的基础模块进行压缩,还包括:
先对卷积核内参数共享的上述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作。
可选的,上述对上述高分辨率特征网络模型的基础模块进行压缩,还包括:
在上述高分辨率特征网络模型的偶数分支中,卷积时同组内各个通道互相连接;
在上述高分辨率特征网络模型的奇数分支中,卷积时同组内各个通道间不相连。
可选的,上述对上述高分辨率特征网络模型的瓶颈模块进行压缩,包括:
将上述瓶颈模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;
对分解获得的上述3×3卷积层进行卷积核内参数共享;
在相邻的两个上述瓶颈模块间共享第一层上述1×1卷积层和上述3×3卷积层。
本发明第二方面提供一种人体关键点识别装置,其中,上述装置包括:
图像获取模块,用于获取待检测人体图像;
网络模型获取模块,用于获取压缩高分辨率特征网络模型;
检测模块,用于基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;
输出模块,用于输出上述人体关键点位置信息。
可选的,上述网络模型获取模块包括:
高分辨率特征网络模型获取单元,用于获取高分辨率特征网络模型;
基础模块压缩单元,用于对上述高分辨率特征网络模型的基础模块进行压缩;
瓶颈模块压缩单元,用于对上述高分辨率特征网络模型的瓶颈模块进行压缩;
网络模型获取单元,用于获取压缩后的上述高分辨率特征网络模型,并作为上述压缩高分辨率特征网络模型。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的人体关键点识别程序,上述人体关键点识别程序被上述处理器执行时实现任意一项上述人体关键点识别方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有人体关键点识别程序,上述人体关键点识别程序被处理器执行时实现任意一项上述人体关键点识别方法的步骤。
由上可见,本发明方案获取待检测人体图像;获取压缩高分辨率特征网络模型;基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;输出上述人体关键点位置信息。本发明方案提供的人体关键点识别方法对现有的高分辨率特征网络模型进行压缩并基于压缩高分辨率特征网络模型检测获取人体关键点位置信息,相对于现有技术,有利于减少参数量、计算量,缩短预测时长,且有利于将该模型移植到移动端等嵌入式平台上进行使用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种人体关键点识别方法的流程示意图;
图2是本发明实施例图1中步骤S200的具体流程示意图;
图3是本发明实施例提供的一种HRNet的网络整体框架示意图;
图4是本发明实施例图2中步骤S202的具体流程示意图;
图5是本发明实施例提供的一种压缩示意图;
图6是本发明实施例提供的一种共享卷积和分组卷积核相加示意图;
图7是本发明实施例提供的一种分支网络结构图;
图8是本发明实施例图2中步骤S203的具体流程示意图;
图9是本发明实施例提供的一种人体关键点识别装置的结构示意图;
图10是本发明实施例图9中网络模型获取模块920的具体结构示意图;
图11是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
人体关键点识别技术作为安防领域与智能家居领域中十分重要的图像信息处理技术,近年来受到越来越多的关注。在进行人体关键点识别任务的过程中,不但要获取包含人体纹理信息的高层语意信息,同时也要收集检测目标与周围环境的关联度,从而达到较好的识别效果。现有技术中,通常基于深度神经网络模型进行人体关键点检测。深度神经网络技术领域中,可以利用现有的人工标记数据进行训练得到预测效果较好的深度神经网络并完成各项任务。然而深度神经网络通常参数量大、计算量多,使用现有的网络直接训练得到的模型难以在移动端等嵌入式平台上直接使用,需进一步针对特定深度神经网络模型进行模型压缩任务。现有技术中,通常基于HRNet模型进行人体关键点检测,可以使用其高分辨率特征解决人员遮挡、高难度动作识别等难题,但是由于引入不同尺度的特征图,导致整个网络的参数量与网络运算较为庞大。即HRNet模型存在模型参数量大、计算量大,因此预测耗时长且不利于移植到移动端等嵌入式平台上进行使用的问题。因此,需要为用户提供一种更好的人体关键点识别方法。
为了解决现有技术的问题,本发明实施例提供一种人体关键点识别方法,在本发明实施例中,获取待检测人体图像;获取压缩高分辨率特征网络模型;基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;输出上述人体关键点位置信息。本发明方案提供的人体关键点识别方法对现有的高分辨率特征网络模型进行压缩并基于压缩高分辨率特征网络模型检测获取人体关键点位置信息,相对于现有技术,有利于减少参数量、计算量,缩短预测时长,且有利于将该模型移植到移动端等嵌入式平台上进行使用。
示例性方法
如图1所示,本发明实施例提供一种人体关键点识别方法,具体的,上述方法包括如下步骤:
步骤S100,获取待检测人体图像。
其中,上述待检测人体图像为需要进行人体关键点识别的图像。可选的,上述待检测人体图像可以通过摄像头实时采集获得,也可以是预先采集好的图像,取决于实际需求和具体应用场景,在此不做具体限定。
步骤S200,获取压缩高分辨率特征网络模型。
本实施例中,上述压缩高分辨率特征网络模型是对现有技术中的HRNet模型进行压缩后获得,具体的,可以采用局部压缩与全局压缩结合的方案对HRNet模型进行压缩。
步骤S300,基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息。
具体的,可以在获取上述压缩高分辨率特征网络模型后,基于预先获取的训练集对该模型进行训练,获取训练后的压缩高分辨率特征网络模型,再将上述待检测人体图像输入上述训练后的压缩高分辨率特征网络模型,以进行检测,识别获取上述待检测人体图像中的人体关键点位置信息。
步骤S400,输出上述人体关键点位置信息。
可选的,可以在上述待检测人体图像中标记出对应的人体关键点位置并进行输出,以便观察对应的人体关键点。当然,还可以有其它输出方式,在此不做具体限定。
由上可见,本发明实施例提供的人体关键点识别方法获取待检测人体图像;获取压缩高分辨率特征网络模型;基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;输出上述人体关键点位置信息。本发明方案提供的人体关键点识别方法对现有的高分辨率特征网络模型进行压缩并基于压缩高分辨率特征网络模型检测获取人体关键点位置信息,相对于现有技术,有利于减少参数量、计算量,缩短预测时长,且有利于将该模型移植到移动端等嵌入式平台上进行使用。
具体的,本实施例中,如图2所示,上述步骤S200包括:
步骤S201,获取高分辨率特征网络模型。
步骤S202,对上述高分辨率特征网络模型的基础模块进行压缩。
步骤S203,对上述高分辨率特征网络模型的瓶颈模块进行压缩。
步骤S204,获取压缩后的上述高分辨率特征网络模型,并作为上述压缩高分辨率特征网络模型。
其中,上述高分辨率特征网络模型为现有技术中的HRNet模型,图3为对应的HRNet的网络整体框架示意图。如图3所示,图3中的方块代表网络所处理的特征图(featuremaps),即对输入图片进行运算后的中间产物,水平箭头代表卷积运算(conv.unit),斜下箭头代表数据下采样(down samp.),斜上箭头代表数据上采样(up samp.)。其中,横向从左到右的特征传递为一个分支。如此,对现有技术中的HRNet模型进行压缩,在基本保证原预测准确率的同时,尽可能减少网络的参数量、计算量,同时缩短网络推理时间,且有利于实现模型的移植。
具体的,本实施例中,如图4所示,上述步骤S202包括:
步骤S2021,将上述基础模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层。
步骤S2022,对分解获得的上述3×3卷积层进行卷积核内参数共享。
步骤S2023,在相邻的两个上述基础模块间共享第一层上述1×1卷积层和上述3×3卷积层。
其中,上述基础模块(Basicblock)为HRNet的基本组成单元,通常由两个3×3的卷积配合相应的池化层网络组成。图5是本实施例提供的一种压缩示意图,如图5所示,本实施例中,通过深度神经网络中的瓶颈结构对上述基础模块进行重新设计,将3×3卷积层分解为1×1卷积层-3×3卷积层-1×1卷积层。使用1×1逐点卷积扩张特征图通道,然后对逐通道3×3卷积层进行卷积核内参数共享,最后在相邻的两个基础模块中共享第一层1×1卷积层和3×3卷积层。如此,通过共享卷积核内参数,可以实现通过更少的计算量达到相同的预测效果,且减少计算量,缩短预测时长。本实施例图5中,Shared 1×1conv和Shared 3×3conv为对应共享的1×1卷积层和3×3卷积层,其卷积核参数共享,图5中其余模块的卷积核参数不共享。图5中,K为在该卷积中,特征图的通道数,M为分组数,即将K个通道均匀分成M组,N为组内分组数,即组内每N个通道参数为共享,P为输入图片(或上层网络输入的特征图)的通道数。groups为分组数,即将该卷积上特征图数目分为groups组,其值与M相等;basic groups为分组数,与groups相同,命名为basic groups仅为与tiny groups做区分,其值也与M相等;tiny groups为组内分组数,即组内每tiny groups个通道参数为共享,其值与N相等。
进一步的,本实施例中,上述步骤S202还包括:先对卷积核内参数共享的上述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作。具体的,对分支操作可以进一步优化,先对共享3×3卷积层和分组1×1卷积层(图5中Group 1×1conv)相加,然后再进行卷积操作。如此,可以降低浮点计算数,缩短计算所需时间。图6为本发明实施例提供的一种共享卷积和分组卷积核相加示意图,图6中,相同水平方向为同一数据通道(不同的网络所采用的数据通道不同,此处仅作为示意,不作具体限定),灰度不同的细长方框代表共享卷积核,每个细长方框代表所有的卷积核参数是共享的,即使用相同参数,短粗方框代表分组卷积核。通过将N个通道划分为一组,只有组间的特征图才会相互连接,从而大幅度减少计算量。在分组卷积核中,相同灰度的短粗方框仅仅代表组别相同,不代表使用相同参数。
进一步的,本实施例中,上述步骤S202还包括:在上述高分辨率特征网络模型的偶数分支中,卷积时同组内各个通道互相连接;在上述高分辨率特征网络模型的奇数分支中,卷积时同组内各个通道间不相连。
具体的,本实施例中,在对上述基础模块(Basicblock)的改进中,将其优化为BasicBlock_compress(压缩模块)和BasicBlock_compress_inverse(反置压缩模块),其中,两者的区别为BasicBlock_compress_inverse采用了逐通道卷积,即每个通道间不相连,减少计算量,而BasicBlock_compress采用的的正常卷积过程中,同组内的各个通道是互相连接的。本实施例中,对HRNet模型进行全局压缩,即在网络的偶数分支(如第2、4分支)中使用BasicBlock_compress压缩方案,奇数分支(如第1、3分支)中使用BasicBlock_compress_inverse方案。当然,也可以结合使用上述压缩两种方案,在此不做具体限定。图7是本发明实施例提供的一种分支网络结构图,图3所示的HRNet模型中的每个分支都会采用图7中的网络结构来组成神经网络。图7中,奇数分支与偶数分支对应的虚线框代表在不同的奇偶分支中选用不同压缩方案对应的网络模块。
具体的,本实施例中,如图8所示,上述步骤S203包括:
步骤S2031,将上述瓶颈模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层。
步骤S2032,对分解获得的上述3×3卷积层进行卷积核内参数共享。
步骤S2033,在相邻的两个上述瓶颈模块间共享第一层上述1×1卷积层和上述3×3卷积层。
其中,上述瓶颈模块(Bottleneck)为HRNet中常用的瓶颈模块,用于对输入图像的通道数进行缩放与增加达到提取高级语义信息的目的。本实施例中,将上述瓶颈模块(Bottleneck)压缩为瓶颈压缩模块(Bottleneck_compress)。其中,上述瓶颈模块中也包含3×3卷积,而图5中所示的压缩示意图是对3×3卷积的优化示意,因此,对上述瓶颈模块的压缩改进也如图5所示:将3×3卷积层分解为1×1卷积层-3×3卷积层-1×1卷积层。使用1×1逐点卷积扩张特征图通道,然后对逐通道3×3卷积层进行卷积核内参数共享,最后在相邻的两个瓶颈模块中共享第一层1×1卷积层和3×3卷积层。如此,通过共享卷积核内参数,可以实现通过更少的计算量达到相同的预测效果,且减少计算量,缩短预测时长。本实施例图5中,Shared 1×1conv和Shared 3×3conv为对应共享的1×1卷积层和3×3卷积层,其卷积核参数共享,图5中其余模块的卷积核参数不共享。
进一步的,本实施例中,上述步骤S203还包括:先对卷积核内参数共享的上述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作。具体的,对分支操作可以进一步优化,先对共享3×3卷积层和分组1×1卷积层(图5中Group 1×1conv)相加,然后再进行卷积操作。如此,可以降低浮点计算数,缩短计算所需时间。其具体共享卷积和分组卷积核相加的流程与对基础模块进行压缩改进时采用的方法相似,具体示意图也如图6所示,在此不再赘述。
本实施例中,对HRNet模型的局部压缩分别包括对于基础模块和瓶颈模块的压缩改进,对HRNet模型的全局压缩包括在HRNet的网络整体结构的偶数分支和奇数分支中采用不同的压缩方案,其中,在偶数分支采用上述BasicBlock_compress方案,在奇数分支上采用上述BasicBlock_compress_inverse方案。常规的轻量化卷积网络很难保留图像高分辨率的特征;而普通的HRNet在特征处理中虽然可以融合多种分辨率特征,但其浮点运算量较大,在移动端与嵌入式平台下难以有效部署。本发明方案基于分组间共享卷积、深度可分离卷积、逆瓶颈结构设计等方法,针对HRNet中的BasicBlock(基础模块)和Bottleneck(瓶颈模块)两个基本模块进行重新设计,在HRNet网络整体结构的偶数分支和奇数分支中采用不同的压缩方案。其中,分组间共享卷积可以在达到准确度的前提下大幅减少计算量;深度可分离卷积可以扩大卷积的感受野,从而使每个卷积核更有效的提取信息,最终减少网络的深度;逆瓶颈结构设计通过对数据通道的缩放加速了整个模块的处理速度。本方案可在基本保证原预测准确率的同时,尽可能减少网络的参数量、计算量,同时缩短网络推理时间。
示例性设备
如图9中所示,对应于上述人体关键点识别方法,本发明实施例还提供一种人体关键点识别装置,上述人体关键点识别装置包括:
图像获取模块910,用于获取待检测人体图像。
其中,上述待检测人体图像为需要进行人体关键点识别的图像。可选的,上述待检测人体图像可以通过摄像头实时采集获得,也可以是预先采集好的图像,取决于实际需求和具体应用场景,在此不做具体限定。
网络模型获取模块920,用于获取压缩高分辨率特征网络模型。
本实施例中,上述压缩高分辨率特征网络模型是对现有技术中的HRNet模型进行压缩后获得,具体的,可以采用局部压缩与全局压缩结合的方案对HRNet模型进行压缩。
检测模块930,用于基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息。
具体的,可以在获取上述压缩高分辨率特征网络模型后,基于预先获取的训练集对该模型进行训练,获取训练后的压缩高分辨率特征网络模型,再将上述待检测人体图像输入上述训练后的压缩高分辨率特征网络模型,以进行检测,识别获取上述待检测人体图像中的人体关键点位置信息。
输出模块940,用于输出上述人体关键点位置信息。
可选的,可以在上述待检测人体图像中标记出对应的人体关键点位置并进行输出,以便观察对应的人体关键点。当然,还可以有其它输出方式,在此不做具体限定。
由上可见,本发明实施例提供的人体关键点识别装置通过图像获取模块910获取待检测人体图像;通过网络模型获取模块920获取压缩高分辨率特征网络模型;通过检测模块930基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;通过输出模块940输出上述人体关键点位置信息。本发明方案提供的人体关键点识别装置对现有的高分辨率特征网络模型进行压缩并基于压缩高分辨率特征网络模型检测获取人体关键点位置信息,相对于现有技术,有利于减少参数量、计算量,缩短预测时长,且有利于将该模型移植到移动端等嵌入式平台上进行使用。
具体的,本实施例中,如图10所示,上述网络模型获取模块920包括:
高分辨率特征网络模型获取单元921,用于获取高分辨率特征网络模型。
基础模块压缩单元922,用于对上述高分辨率特征网络模型的基础模块进行压缩。
瓶颈模块压缩单元923,用于对上述高分辨率特征网络模型的瓶颈模块进行压缩。
网络模型获取单元924,用于获取压缩后的上述高分辨率特征网络模型,并作为上述压缩高分辨率特征网络模型。
其中,上述高分辨率特征网络模型为现有技术中的HRNet模型,图3为对应的HRNet的网络整体框架示意图。如图3所示,图3中的方块代表网络所处理的特征图(featuremaps),即对输入图片进行运算后的中间产物,水平箭头代表卷积运算(conv.unit),斜下箭头代表数据下采样(down samp.),斜上箭头代表数据上采样(up samp.)。其中,横向从左到右的特征传递为一个分支。如此,对现有技术中的HRNet模型进行压缩,在基本保证原预测准确率的同时,尽可能减少网络的参数量、计算量,同时缩短网络推理时间,且有利于实现模型的移植。
可选的,上述基础模块压缩单元922具体用于:将上述基础模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;对分解获得的上述3×3卷积层进行卷积核内参数共享;在相邻的两个上述基础模块间共享第一层上述1×1卷积层和上述3×3卷积层。
其中,上述基础模块(Basicblock)为HRNet的基本组成单元,通常由两个3×3的卷积配合相应的池化层网络组成。图5是本实施例提供的一种压缩示意图,如图5所示,本实施例中,通过深度神经网络中的瓶颈结构对上述基础模块进行重新设计,将3×3卷积层分解为1×1卷积层-3×3卷积层-1×1卷积层。使用1×1逐点卷积扩张特征图通道,然后对逐通道3×3卷积层进行卷积核内参数共享,最后在相邻的两个基础模块中共享第一层1×1卷积层和3×3卷积层。如此,通过共享卷积核内参数,可以实现通过更少的计算量达到相同的预测效果,且减少计算量,缩短预测时长。本实施例图5中,Shared 1×1conv和Shared 3×3conv为对应共享的1×1卷积层和3×3卷积层,其卷积核参数共享,图5中其余模块的卷积核参数不共享。
进一步的,上述基础模块压缩单元922还用于:先对卷积核内参数共享的上述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作。具体的,对分支操作可以进一步优化,先对共享3×3卷积层和分组1×1卷积层(图5中Group 1×1conv)相加,然后再进行卷积操作。如此,可以降低浮点计算数,缩短计算所需时间。图6为本发明实施例提供的一种共享卷积和分组卷积核相加示意图,图6中,相同水平方向为同一数据通道(不同的网络所采用的数据通道不同,此处仅作为示意,不作具体限定),灰度不同的细长方框代表共享卷积核,每个细长方框代表所有的卷积核参数是共享的,即使用相同参数,短粗方框代表分组卷积核。通过将N个通道划分为一组,只有组间的特征图才会相互连接,从而大幅度减少计算量。在分组卷积核中,相同灰度的短粗方框仅仅代表组别相同,不代表使用相同参数。
进一步的,上述基础模块压缩单元922还用于:在上述高分辨率特征网络模型的偶数分支中,卷积时同组内各个通道互相连接;在上述高分辨率特征网络模型的奇数分支中,卷积时同组内各个通道间不相连。
具体的,本实施例中,在对上述基础模块(Basicblock)的改进中,将其优化为BasicBlock_compress(压缩模块)和BasicBlock_compress_inverse(反置压缩模块),其中,两者的区别为BasicBlock_compress_inverse采用了逐通道卷积,即每个通道间不相连,减少计算量,而BasicBlock_compress采用的的正常卷积过程中,同组内的各个通道是互相连接的。本实施例中,对HRNet模型进行全局压缩,即在网络的偶数分支(如第2、4分支)中使用BasicBlock_compress压缩方案,奇数分支(如第1、3分支)中使用BasicBlock_compress_inverse方案。当然,也可以结合使用上述压缩两种方案,在此不做具体限定。图7是本发明实施例提供的一种分支网络结构图,图3所示的HRNet模型中的每个分支都会采用图7中的网络结构来组成神经网络。图7中,奇数分支与偶数分支对应的虚线框代表在不同的奇偶分支中选用不同压缩方案对应的网络模块。
具体的,本实施例中,上述瓶颈模块压缩单元923具体用于:将上述瓶颈模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;对分解获得的上述3×3卷积层进行卷积核内参数共享;在相邻的两个上述瓶颈模块间共享第一层上述1×1卷积层和上述3×3卷积层。
其中,上述瓶颈模块(Bottleneck)为HRNet中常用的瓶颈模块,用于对输入图像的通道数进行缩放与增加达到提取高级语义信息的目的。本实施例中,将上述瓶颈模块(Bottleneck)压缩为瓶颈压缩模块(Bottleneck_compress)。其中,上述瓶颈模块中也包含3×3卷积,而图5中所示的压缩示意图是对3×3卷积的优化示意,因此,对上述瓶颈模块的压缩改进也如图5所示:将3×3卷积层分解为1×1卷积层-3×3卷积层-1×1卷积层。使用1×1逐点卷积扩张特征图通道,然后对逐通道3×3卷积层进行卷积核内参数共享,最后在相邻的两个瓶颈模块中共享第一层1×1卷积层和3×3卷积层。如此,通过共享卷积核内参数,可以实现通过更少的计算量达到相同的预测效果,且减少计算量,缩短预测时长。本实施例图5中,Shared 1×1conv和Shared 3×3conv为对应共享的1×1卷积层和3×3卷积层,其卷积核参数共享,图5中其余模块的卷积核参数不共享。
进一步的,上述瓶颈模块压缩单元923还用于:先对卷积核内参数共享的上述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作。具体的,对分支操作可以进一步优化,先对共享3×3卷积层和分组1×1卷积层(图5中Group 1×1conv)相加,然后再进行卷积操作。如此,可以降低浮点计算数,缩短计算所需时间。其具体共享卷积和分组卷积核相加的流程与对基础模块进行压缩改进时采用的方法相似,具体示意图也如图6所示,在此不再赘述。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图11所示。上述智能终端包括通过***总线连接的处理器、存储器、网络模型接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和人体关键点识别程序。该内存储器为非易失性存储介质中的操作***和人体关键点识别程序的运行提供环境。该智能终端的网络模型接口用于与外部的终端通过网络模型连接通信。该人体关键点识别程序被处理器执行时实现上述任意一种人体关键点识别方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图11中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的人体关键点识别程序,上述人体关键点识别程序被上述处理器执行时进行以下操作指令:
获取待检测人体图像;
获取压缩高分辨率特征网络模型;
基于上述压缩高分辨率特征网络模型对上述待检测人体图像进行检测,获取上述待检测人体图像中的人体关键点位置信息;
输出上述人体关键点位置信息。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有人体关键点识别程序,上述人体关键点识别程序被处理器执行时实现本发明实施例提供的任意一种人体关键点识别方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种人体关键点识别方法,其特征在于,所述方法包括:
获取待检测人体图像;
获取压缩高分辨率特征网络模型;
所述获取压缩高分辨率特征网络模型,包括:
获取高分辨率特征网络模型;
对所述高分辨率特征网络模型的基础模块进行压缩;
对所述高分辨率特征网络模型的瓶颈模块进行压缩;
获取压缩后的所述高分辨率特征网络模型,并作为所述压缩高分辨率特征网络模型;
所述对所述高分辨率特征网络模型的基础模块进行压缩,包括:
将所述基础模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;
使用1×1逐点卷积扩张特征图通道对分解获得的所述3×3卷积层进行卷积核内参数共享;
在相邻的两个所述基础模块间共享第一层所述1×1卷积层和所述3×3卷积层;
所述对所述高分辨率特征网络模型的基础模块进行压缩,还包括:
先对卷积核内参数共享的所述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作;
基于所述压缩高分辨率特征网络模型对所述待检测人体图像进行检测,获取所述待检测人体图像中的人体关键点位置信息;
输出所述人体关键点位置信息。
2.根据权利要求1所述的人体关键点识别方法,其特征在于,所述对所述高分辨率特征网络模型的基础模块进行压缩,还包括:
在所述高分辨率特征网络模型的偶数分支中,卷积时同组内各个通道互相连接;
在所述高分辨率特征网络模型的奇数分支中,卷积时同组内各个通道间不相连。
3.根据权利要求1所述的人体关键点识别方法,其特征在于,所述对所述高分辨率特征网络模型的瓶颈模块进行压缩,包括:
将所述瓶颈模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;
使用1×1逐点卷积扩张特征图通道对分解获得的所述3×3卷积层进行卷积核内参数共享;
在相邻的两个所述瓶颈模块间共享第一层所述1×1卷积层和所述3×3卷积层;
所述对所述高分辨率特征网络模型的基础模块进行压缩,还包括:
先对卷积核内参数共享的所述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作。
4.一种人体关键点识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取待检测人体图像;
网络模型获取模块,用于获取压缩高分辨率特征网络模型;
所述网络模型获取模块包括:
高分辨率特征网络模型获取单元,用于获取高分辨率特征网络模型;
基础模块压缩单元,用于对所述高分辨率特征网络模型的基础模块进行压缩;
瓶颈模块压缩单元,用于对所述高分辨率特征网络模型的瓶颈模块进行压缩;
网络模型获取单元,用于获取压缩后的所述高分辨率特征网络模型,并作为所述压缩高分辨率特征网络模型;
所述对所述高分辨率特征网络模型的基础模块进行压缩,包括:
将所述基础模块中的3×3卷积层分解为依次连接的1×1卷积层、3×3卷积层和1×1卷积层;
使用1×1逐点卷积扩张特征图通道对分解获得的所述3×3卷积层进行卷积核内参数共享;
在相邻的两个所述基础模块间共享第一层所述1×1卷积层和所述3×3卷积层;
所述对所述高分辨率特征网络模型的基础模块进行压缩,还包括:
先对卷积核内参数共享的所述3×3卷积层的卷积核和卷积核内参数不共享的分组1×1卷积核相加,然后再进行卷积操作;
检测模块,用于基于所述压缩高分辨率特征网络模型对所述待检测人体图像进行检测,获取所述待检测人体图像中的人体关键点位置信息;
输出模块,用于输出所述人体关键点位置信息。
5.一种智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的人体关键点识别程序,所述人体关键点识别程序被所述处理器执行时实现如权利要求1-3任意一项所述人体关键点识别方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有人体关键点识别程序,所述人体关键点识别程序被处理器执行时实现如权利要求1-3任意一项所述人体关键点识别方法的步骤。
CN202011595172.XA 2020-12-28 2020-12-28 一种人体关键点识别方法、装置、智能终端及存储介质 Active CN112712015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011595172.XA CN112712015B (zh) 2020-12-28 2020-12-28 一种人体关键点识别方法、装置、智能终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011595172.XA CN112712015B (zh) 2020-12-28 2020-12-28 一种人体关键点识别方法、装置、智能终端及存储介质

Publications (2)

Publication Number Publication Date
CN112712015A CN112712015A (zh) 2021-04-27
CN112712015B true CN112712015B (zh) 2024-05-28

Family

ID=75546348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011595172.XA Active CN112712015B (zh) 2020-12-28 2020-12-28 一种人体关键点识别方法、装置、智能终端及存储介质

Country Status (1)

Country Link
CN (1) CN112712015B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240107B (zh) * 2021-05-08 2024-06-25 北京字跳网络技术有限公司 图像处理方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476184A (zh) * 2020-04-13 2020-07-31 河南理工大学 一种基于双注意力机制的人体关键点检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476184A (zh) * 2020-04-13 2020-07-31 河南理工大学 一种基于双注意力机制的人体关键点检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卷积神经网络算法模型的压缩与加速算法比较;李思奇;信息与电脑(第第11期期);第21-23页 *

Also Published As

Publication number Publication date
CN112712015A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN111369440B (zh) 模型训练、图像超分辨处理方法、装置、终端及存储介质
CN110866509B (zh) 动作识别方法、装置、计算机存储介质和计算机设备
CN111754396B (zh) 脸部图像处理方法、装置、计算机设备和存储介质
CN111860398B (zh) 遥感图像目标检测方法、***及终端设备
CN113159143B (zh) 基于跳跃连接卷积层的红外与可见光图像融合方法和装置
CN112668588B (zh) 车位信息生成方法、装置、设备和计算机可读介质
US11935213B2 (en) Laparoscopic image smoke removal method based on generative adversarial network
US20230334893A1 (en) Method for optimizing human body posture recognition model, device and computer-readable storage medium
CN113468996A (zh) 一种基于边缘细化的伪装物体检测方法
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN112712015B (zh) 一种人体关键点识别方法、装置、智能终端及存储介质
CN113496228B (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN114493971A (zh) 媒体数据转换模型训练、数字水印嵌入方法和装置
CN115731588B (zh) 模型处理方法及装置
CN113128253B (zh) 一种三维人脸模型的重建方法及装置
CN116858541B (zh) 基于密集特征重用的轴承早期故障诊断方法及***
US20230298326A1 (en) Image augmentation method, electronic device and readable storage medium
CN116958563A (zh) 图像识别方法、装置、设备及存储介质
CN118212130A (zh) 获取光学图像的sar图像超分辨率方法、及相关设备
CN117877097A (zh) 基于类别一致性约束的面部表情识别模型训练方法及装置
CN118196677A (zh) 视频内容的识别方法、***、设备和介质
CN116050498A (zh) 网络训练方法、装置、电子设备及存储介质
CN118262137A (zh) 基于轻量化模型的数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant