CN111767792A - 一种基于教室场景的多人关键点检测网络和方法 - Google Patents
一种基于教室场景的多人关键点检测网络和方法 Download PDFInfo
- Publication number
- CN111767792A CN111767792A CN202010439222.9A CN202010439222A CN111767792A CN 111767792 A CN111767792 A CN 111767792A CN 202010439222 A CN202010439222 A CN 202010439222A CN 111767792 A CN111767792 A CN 111767792A
- Authority
- CN
- China
- Prior art keywords
- human body
- key point
- module
- detection
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000010354 integration Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims 1
- 210000003414 extremity Anatomy 0.000 description 11
- 210000000746 body region Anatomy 0.000 description 6
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于教室场景的多人关键点检测网络和方法。网络包括人体目标检测模块、人体目标区域融合模块、人体目标区域特征提取模块和关键点检测与集成模块。本发明利用多个stage进行高效特征融合,基于多尺度特征融合策略对OpenPose和YoloV3网络分别做了改进。本发明提出基于空洞卷积的Inception模块代替OpenPose的特征提取网络,能获取更大感受野的局部信息,将密集连接模块融入YOLOV3的浅层网络中,使浅层与高层特征进行特征融合,并用GIOU损失函数代替YOLO v3的边界框回归损失函数来提升检测精度,再通过人体预测框融合策略进行区域融合输出检测区域。将这两个网络级联为一个框架进行关键点检测,有效改善了教室后排小尺度学生定位难和误检关键点的问题。
Description
技术领域
本发明涉及一种人体关键点检测,特别是一种基于教室场景的多人关键点检测网络和方法。
背景技术
人体关键点检测,又称人体姿态估计,是计算机视觉中一个很基础的问题,是人体动作识别、行为分析、人机交互等的前置任务,可以理解为对人体的关键点,如头,手肘,手腕,膝盖等位置的估计。人体姿态估计又可分为2D/3D关键点检测、单人/多人关键点检测,在完成关键点检测之后还能进行关键点的跟踪,也被称为人体姿态跟踪。人体关键点检测也面临了很多挑战,比如灵活、小而几乎看不见的关节、遮挡、衣服和光线变化都为人体关键点检测增加了难度。本发明主要涉及2D多人关键点检测,目的在于检测课堂上的学生的关键点,用于后续进行姿态识别。给定一张RGB图像,精确地定位出多个人体的关键点,并确定其隶属的人体。
目前对于多人关键点检测,有两个主流方法:
(1)Top-down:先进行目标(人体)检测,再对每个检测到的人体进行单人姿态估计的两阶段方法(如CPM、Stacked Hourglass、HRnet等网络)。自上而下的方法必然会受到目标检测任务的约束,因为基于bounding box的单人姿态估计,在面对遮挡问题和小尺度人体目标时容易受挫。
(2)Bottom-up:先检测所有人的关键点,再用算法将这些关键点关联匹配到相关人体(如OpenPose的动态规划,Associative Embedding的tag匹配,PersonLab的贪婪算法等)。遮挡问题仍然是个挑战,同时由于图像上人体尺度大小不一,关键点特征的提取难度大于Top-down方法。
一般来说,Top-down方法精度更高但实时性能较差,Bottom-up方法精度不如Top-down高,但速度更快,实时性能较好。
发明内容
本发明的技术解决问题是:对教室场景下的学生进行姿态估计,针对教室场景下的遮挡、后排小尺寸目标的定位检测困难以及在非人区域误检出关键点的问题,本发明提供一种基于教室场景的多人关键点检测网络和方法,其网络是一种Top-down和Bottom-up相结合的多人关键点检测网络。
为达到上述目的,本发明采用如下技术方案:
一种基于教室场景的多人关键点检测网络,包括人体目标区域检测模块、人体目标区域融合模块、人体目标区域特征提取模块、关键点检测与集成模块;
所述人体目标区域检测模块依次连接人体目标区域融合模块、人体目标区域特征提取模块和关键点检测与集成模块。
所述人体目标区域检测模块,用于检测图片中每个学生的区域。
所述人体目标区域融合模块,用于将所述人体目标区域检测模块中检测出的学生的区域进行融合。
所述人体目标区域特征提取模块,用于对所述人体目标区域融合模块中融合后的学生区域进行特征提取。
所述关键点检测与集成模块,用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。
所述人体目标区域检测模块是在浅层网络引入了密集连接模块的YOLO V3网络,用密集连接卷积对输入图像提取特征,并且使用GIOU损失函数代替YOLO V3的边界框回归损失函数,使浅层特征和深层特征可以更好更快地进行融合,提升检测精度,改善对教室后排低分辨率学生检测难的问题。
所述人体目标区域融合模块,将由YOLO-DesNet检测出的人体框,先对人体框进行放大,确保放大后的人体预测框边界不超过原始图像的边界。对任意两个人体预测框进行融合时,先判断这两个预测框是否存在交集,若存在交集,根据借鉴IOU的思想定义IOUconcat,当两个人体预测框的IOUconcat大于0.5时,就将这两个区域进行融合。
所述人体目标区域特征提取模块,是基于空洞卷积的Inception网络,通过引入不同尺度的空洞卷积,获得更大感受野的局部信息,提高网络对局部信息的感知能力。对输入的图片首先使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换。然后使用1*1和3*3的标准卷积核对输出的特征进行二次卷积,增加网络对不同人体尺度的适应性。接着,使用不同扩张率的空卷积再次前一步的输出特征进行卷积,获取更大感受野的局部信息,提升对小尺寸人体目标的检测性能。再将不同分支输出的卷积特征按照像素点级别相加,并使用1*1的标准卷积对相加之后的特征再次卷积,消除由于使用不同大小卷积核的卷积造成的混叠效应。最后将输出的融合卷积特征通过ReLu函数进行非线性激活。
所述关键点检测与集成模块是一个级联的multi-stage的网络,同时对人体关键点置信图和部位关系图进行预测,并且在每一个stage后都设置了损失函数,最终输出关键点置信度图和部位关系图并进行肢体匹配,得到最后的多人关键点检测结果。
一种基于教室场景的多人关键点检测方法,具体操作步骤如下:
步骤1:人体目标区域检测,检测图片中每个学生的区域,这里的学生目标检测不需要太过精细。
步骤2:人体目标区域融合,将所述人体目标区域检测模块中粗略检测出的学生的区域进行融合。
步骤3:人体目标区域特征提取,对人体目标区域融合模块融合后的学生区域进行特征提取。
步骤4:关键点检测与集成模块,对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。
所述步骤1的具体步骤为:
步骤1.1:对输入图像进行1次密集连接卷积和3次残差卷积提取特征,可更好地实现网络多层特征的复用和融合;
步骤1.2:通过3组残差模块加深特征提取网络的结构,提高模型对图像深层特征的选择和提取能力;
步骤1.3:使用多尺度金字塔结构,通过2次上采样并与网络上层中相同尺寸的特征图进行张量拼接,进行3次回归预测,实现对不同尺寸目标的多尺度检测;
步骤1.4:使用GIOU损失函数代替YOLO V3的边界框回归损失函数;
步骤1.5:目标置信度损失、目标类别损失以及目标边界框回归损失同时参加反向传播,设置迭代次数为50000,学习率为0.0001,权重衰减为0.0004,帮助网络完成训练。
所述步骤2的具体步骤为:
步骤2.1:先对步骤1中检测到的人体框进行放大,并且保证放大后的人体框边界不超过图像的边界。
步骤2.2:先通过人体预测框的坐标关系,判断任意两个人体框是否存在交集,如果存在,就计算这两个人体框的IOUconcat值。当两个人体框的IOUconcat大于一定的阈值(设置为0.5),就进行区域融合。这里,IOUconcat的定义为任意两个人体预测框的交集与两个预测框较小的框的比值。
所述步骤3的具体步骤为:
步骤3.1:对输入的图片,使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换。
步骤3.2:使用1*1和3*3的标准卷积核对步骤3.1中输出的特征进行二次卷积,增加网络对不同人体尺度的适应性。
步骤3.3:使用不同扩张率的空卷积对步骤3.2中的输出特征进行卷积,获取更大感受野的局部信息,提升对小尺寸人体目标的检测性能。
步骤3.4:将不同分支输出的卷积特征按照像素点级别相加,并使用1*1的标准卷积对相加之后的特征再次卷积,消除由于使用不同大小卷积核的卷积造成的混叠效应。
步骤3.5:将步骤3.4输出的融合卷积特征通过ReLu函数进行非线性激活,得到最终提取的特征。
所述步骤4的具体步骤为:
步骤4.1:将步骤3中输出的特征图输入到stage1,分别预测关键点置信度图S1和部位亲和矢量场L1;
步骤4.2:将步骤4.1中预测得到的S1和L1加上原始步骤3中输出的特征图输入到stage2中进行预测得到S2和L2;
步骤4.3:之后的stage都以前一个stage输出的S和L加上步骤3输出的特征图作为输入,一直到stage6,得到最终预测的结果;
步骤4.4:对步骤4.3中最终得到的人体关键点置信度图使用非极大值抑制NMS得到离散的关键点集,可得到由这些离散点组合的候选肢体段;
步骤4.5:根据步骤4.3中得到的部位关系图对步骤4.4中的候选肢体段进行打分,通过匈牙利算法进行最大二部图匹配,得到最终的关键点检测结果。
本发明与现有技术相比,具有如下显而易见的突出实质性和显著的技术进步:
1)本发明提出了一个Top-Down和Bottom-up相结合的多人关键点检测网络。针对教室场景下的遮挡、后排小尺寸学生的定位检测难以及在非人区域检测到关键点的问题,本发明利用多个stage进行高效特征融合,基于多尺度特征融合策略对OpenPose和YoloV3网络分别做了一些改进,并将这两个网络融合进一个框架。本发明包括4个模块,分别是:人体区域检测模块、人体区域融合模块、人体区域特征提取模块、关键点的检测与集成模块。
2)本发明借鉴密集连接的思想,在浅层网络使用密集连接卷积块,用密集连接卷积对输入图像提取特征,并使用GIOU损失函数代替YOLO V3的边界框回归损失函数,使浅层特征可以更好更快地传达到深层网络,提升检测精度,改善了对教室后排低分辨率学生定位难的问题。
3)本发明提出了基于空洞卷积的InceptionNet网络(Inception-DCNet),并用Inception-DCNet替换OpenPose的backbone部分(VGG-19),目的是为了获得更大感受野的局部信息,提高网络对局部信息的感知能力,改善教室后排小目标学生的定位检测问题。
附图说明
图1是本发明基于教室场景的多人关键点检测网络结构示意图。
图2是教室场景下多人关键点检测的效果图
图3是步骤1融合了密集连接块的YOLO-DesNet网络的结构示意图。
图4是步骤3基于空洞卷积的InceptionNet(Inception-DCNet)网络的结构示意图。
图5是步骤4预测关键点置信度图和部位关系图的网络结构示意图。
具体实施方案
以下结合附图和优选实施例对本发明进行详细描述:
实施例一:
在本实施例中,如图1所示,一种基于教室场景的多人关键点检测网络,包括人体目标区域检测模块1、人体目标区域融合模块2、人体目标区域特征提取模块3、关键点检测与集成模块4;所述人体目标区域检测模块1依次连接人体目标区域融合模块2、人体目标区域特征提取模块3和关键点检测与集成模块4;所述人体目标区域检测模块1,用于检测图片中每个学生的区域;所述人体目标区域融合模块2,用于将所述人体目标区域检测模块1中粗略检测出的学生的区域进行融合;所述人体目标区域特征提取模块3,用于对所述人体目标区域融合模块2中融合后的学生区域进行特征提取;所述关键点检测与集成模块4,用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。
实施例二:
本实施例与实施例一基本相同,特别之处如下:
本实施例比实施例一更加具体,所述人体目标区域检测模块,用于检测图片中每个学生的区域,这里的学生目标检测不需要太过精细,允许一个检测框中包含多个学生,参见附图3。
所述人体目标区域融合模块,用于将所述人体目标区域检测模块中检测出的学生的区域进行融合。
所述人体目标区域特征提取模块,用于对所述人体目标区域融合模块中融合后的学生区域进行特征提取,参见附图4。
所述关键点检测与集成模块,用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果,参见附图5。
所述人体目标区域检测模块是在浅层网络引入了密集连接模块的YOLO V3网络,用密集连接卷积对输入图像提取特征,并且使用GIOU损失函数代替YOLO V3的边界框回归损失函数,使浅层特征和深层特征可以更好更快地进行融合,提升检测精度,改善对教室后排低分辨率学生检测难的问题,参见附图3。
所述人体目标区域融合模块,先对由人体目标区域检测模块检测出的人体框进行放大,确保放大后的人体预测框边界不超过原始图像的边界。对任意两个人体预测框进行融合时,先判断这两个预测框是否存在交集,若存在交集,根据借鉴IOU的思想定义IOUmax,当两个人体预测框的IOUmax大于0.5时,就将这两个区域进行融合。
所述人体目标区域特征提取模块,是基于空洞卷积的Inception网络,通过引入不同尺度的空洞卷积,获得更大感受野的局部信息,提高网络对局部信息的感知能力。对输入的图片首先使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换。然后使用1*1和3*3的标准卷积核对输出的特征进行二次卷积,增加网络对不同人体尺度的适应性。接着,使用不同扩张率的空卷积再次前一步的输出特征进行卷积,获取更大感受野的局部信息,提升对小尺寸人体目标的检测性能。再将不同分支输出的卷积特征按照像素点级别相加,并使用1*1的标准卷积对相加之后的特征再次卷积,消除由于使用不同大小卷积核的卷积造成的混叠效应。最后将输出的融合卷积特征通过ReLu函数进行非线性激活,参见附图4。
所述关键点检测与集成模块是一个级联的multi-stage的网络,同时对人体关键点置信图和部位关系图进行预测,并且在每一个stage后都设置了损失函数,最终输出关键点置信度图和部位关系图并进行肢体匹配,得到最后的多人关键点检测结果,参见附图5。
实施例三:
如图1所示,一种基于教室场景的多人关键点检测方法,采用上述网络进行操作,具体网络流程步骤如下:
步骤1:人体目标区域检测,检测图片中每个学生的区域,这里的学生目标检测不需要太过精细。
步骤2:人体目标区域融合,将所述人体目标区域检测模块中粗略检测出的学生的区域进行融合。
步骤3:人体目标区域特征提取,对人体目标区域融合模块融合后的学生区域进行特征提取。
步骤4:关键点检测与集成模块,对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。
实施例四:
本实施例与实施例三基本相同,特别之处如下:
如图3所示,所述步骤1的具体步骤为:
步骤1.1:对输入图像进行1次密集连接卷积和3次残差卷积提取特征,可以更好地实现网络多层特征的复用和融合。
步骤1.2:通过3组残差模块加深特征提取网络的结构,提高模型对图像深层特征的选择和提取能力。
步骤1.3:使用多尺度金字塔结构,通过2次上采样并与网络上层中相同尺寸的特征图进行张量拼接,进行3次回归预测,实现对不同尺寸目标的多尺度检测。
步骤1.4:使用GIOU损失函数代替YOLO V3的边界框回归损失函数。
步骤1.5:目标置信度损失、目标类别损失以及目标边界框回归损失同时参加反向传播,设置迭代次数为50000,学习率为0.0001,权重衰减为0.0004,帮助网络完成训练。
所述步骤2的具体步骤为:
步骤2.1:先对步骤1中检测到的人体框进行放大,并且保证放大后的人体框边界不超过图像的边界。
步骤2.2:先通过人体预测框的坐标关系,判断任意两个人体框是否存在交集,如果存在,就计算这两个人体框的IOUconcat值。当两个人体框的IOUconcat大于一定的阈值(设置为0.5),就进行区域融合。这里,IOUconcat的定义为任意两个人体预测框的交集与两个预测框较小的框的比值。
如图4所示,所述步骤3的具体步骤为:
步骤3.1:对输入的图片,使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换。
步骤3.2:使用1*1和3*3的标准卷积核对步骤3.1中输出的特征进行二次卷积,增加网络对不同人体尺度的适应性。
步骤3.3:使用不同扩张率的空洞卷积对步骤3.2中的输出特征进行卷积,获取更大感受野的局部信息,提升对小尺寸人体目标的检测性能。
步骤3.4:将不同分支输出的卷积特征按照像素点级别相加,并使用1*1的标准卷积对相加之后的特征再次卷积,消除由于使用不同大小卷积核的卷积造成的混叠效应。
步骤3.5:将步骤3.4输出的融合卷积特征通过ReLu函数进行非线性激活,得到最终提取的特征。
如图5所示,所述步骤4的具体步骤为:
步骤4.1:将步骤3中输出的特征图输入到stage1,分别预测关键点置信度图S1和部位亲和矢量场L1。
步骤4.2:将步骤4.1中预测得到的S1和L1加上原始步骤3中输出的特征图输入到stage2中进行预测得到S2和L2。
步骤4.3:之后的stage都以前一个stage输出的S和L加上步骤3输出的特征图作为输入,一直到stage6,得到最终预测的结果。
步骤4.4:对步骤4.3中最终得到的人体关键点置信度图使用NMS(非极大值抑制)得到离散的关键点集,可得到由这些离散点组合的候选肢体段。
步骤4.5:根据步骤4.3中得到的部位关系图对步骤4.4中的候选肢体段进行打分,通过匈牙利算法进行最大二部图匹配,得到最终的关键点检测结果。
本发明提出了一个Top-Down和Bottom-up相结合的多人关键点检测网络,包括4个模块,分别是:人体区域检测模块、人体区域融合模块、人体区域特征提取模块、关键点的检测与集成模块。针对教室场景下的遮挡、后排小尺寸学生的定位检测难以及在非人区域检测到关键点的问题,本发明基于多尺度特征融合策略对OpenPose和YoloV3网络分别做了一些改进,并将这两个网络融合进一个框架。利用多个stage进行高效特征融合,获取局部更大的感受野信息,针对误检关键点、小目标学生的定位检测问题,取得了不错的效果。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明基于教室场景的多人关键点检测网络和方法的技术原理和发明构思,都属于本发明的保护范围。
Claims (10)
1.一种基于教室场景的多人关键点检测网络,包括人体目标区域检测模块(1)、人体目标区域融合模块(2)、人体目标区域特征提取模块(3)、关键点检测与集成模块(4);其特征在于:
所述人体目标区域检测模块(1)依次连接人体目标区域融合模块(2)、人体目标区域特征提取模块(3)和关键点检测与集成模块(4);
所述人体目标区域检测模块(1),用于检测图片中每个学生的区域;
所述人体目标区域融合模块(2),用于将所述人体目标区域检测模块(1)中粗略检测出的学生的区域进行融合;
所述人体目标区域特征提取模块(3),用于对所述人体目标区域融合模块(2)中融合后的学生区域进行特征提取;
所述关键点检测与集成模块(4),用于对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的多人关键点检测结果。
2.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述人体目标区域检测模块(1)是在浅层网络引入了密集连接模块的YOLO V3网络,并且使用GIOU损失函数代替YOLO V3的边界框回归损失函数,使浅层特征和深层特征可以更好更快地进行融合,提升检测精度,改善对教室后排低分辨率学生检测难的问题。
3.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述人体目标区域融合模块(2)用于对所述人体目标区域检测模块(1)中检测到的人体框区域进行融合,旨在减少后续在非人处检测出关键点的情况。
4.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述人体目标区域特征提取模块(3)是基于空洞卷积的InceptionNet网络,目的是获取更大感受野的局部信息,提高对小尺寸学生的检测性能。
5.根据权利要求1所述的基于教室场景的多人关键点检测网络,其特征在于:所述关键点检测与集成模块(4)是一个级联的多stage的网络,同时对人体关键点置信图和部位关系图进行预测,并且在每一个stage后都设置了损失函数,最终输出关键点置信度图和部位关系图并进行肢体匹配,得到最后的多人关键点检测结果。
6.一种基于教室场景的多人关键点检测方法,采用权利要求1所述基于教室场景的多人关键点检测网络进行操作,其特征在于具体操作步骤如下:
步骤1:人体目标区域检测,粗略检测图片中每个学生的区域;
步骤2:人体检测区域融合,对步骤1中检测得到的学生区域进行区域融合;
步骤3:人体目标区域特征提取,对步骤2中得到的融合后的学生目标区域进行特征提取;
步骤4:关键点检测,用对存在学生的区域进行关键点置信度和部位关系亲和度的预测,再进行肢体匹配,得到最终的关键点检测结果。
7.根据权利要求6所述的基于教室场景的多人关键点检测方法,其特征在于,所述步骤1的具体步骤为:
步骤1.1:对输入图像进行1次密集连接卷积和3次残差卷积提取特征,可更好地实现网络多层特征的复用和融合;
步骤1.2:通过3组残差模块加深特征提取网络的结构,提高模型对图像深层特征的选择和提取能力;
步骤1.3:使用多尺度金字塔结构,通过2次上采样并与网络上层中相同尺寸的特征图进行张量拼接,进行3次回归预测,实现对不同尺寸目标的多尺度检测;
步骤1.4:使用GIOU损失函数代替YOLO V3的边界框回归损失函数;
步骤1.5:目标置信度损失、目标类别损失以及目标边界框回归损失同时参加反向传播,设置迭代次数为50000,学习率为0.0001,权重衰减为0.0004,帮助网络完成训练。
8.根据权利要求6所述的基于教室场景的多人关键点检测方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1:先对步骤1中检测到的人体框进行放大,并且保证放大后的人体框边界不超过图像的边界;
步骤2.2:先通过人体预测框的坐标关系,判断任意两个人体框是否存在交集,如果存在,就计算这两个人体框的IOUconcat值;当两个人体框的IOUconcat大于一定的阈值,就进行区域融合;这里,IOUconcat值的定义为任意两个人体预测框的交集与两个预测框较小的框的比值。
9.根据权利要求6所述的基于教室场景的多人关键点检测方法,其特征在于,所述步骤3的具体步骤为:
步骤3.1:对输入的图片,使用1*1标准卷积跨通道组织信息,提高网络的表达能力,并且提供更多的非线性变换;
步骤3.2:使用1*1和3*3的标准卷积核对步骤3.1中输出的特征进行二次卷积,增加网络对不同人体尺度的适应性;
步骤3.3:使用不同扩张率的空卷积对步骤3.2中的输出特征进行卷积,获取更大感受野的局部信息,提升对小尺寸人体目标的检测性能;
步骤3.4:将不同分支输出的卷积特征按照像素点级别相加,并使用1*1的标准卷积对相加之后的特征再次卷积,消除由于使用不同大小卷积核的卷积造成的混叠效应;
步骤3.5:将步骤3.4输出的融合卷积特征通过ReLu函数进行非线性激活,得到最终提取的特征。
10.根据权利要求6所述的基于教室场景的多人关键点检测方法,其特征在于,所述步骤4的具体步骤为:
步骤4.1:将步骤3中输出的特征图输入到stage1,分别预测关键点置信度图S1和部位亲和矢量场L1;
步骤4.2:将步骤4.1中预测得到的S1和L1加上原始步骤3中输出的特征图输入到stage2中进行预测得到S2和L2;
步骤4.3:之后的stage都以前一个stage输出的S和L加上步骤3输出的特征图作为输入,一直到stage6,得到最终预测的结果;
步骤4.4:对步骤4.3中最终得到的人体关键点置信度图使用非极大值抑制NMS得到离散的关键点集,可得到由这些离散点组合的候选肢体段;
步骤4.5:根据步骤4.3中得到的部位关系图对步骤4.4中的候选肢体段进行打分,通过匈牙利算法进行最大二部图匹配,得到最终的关键点检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439222.9A CN111767792A (zh) | 2020-05-22 | 2020-05-22 | 一种基于教室场景的多人关键点检测网络和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439222.9A CN111767792A (zh) | 2020-05-22 | 2020-05-22 | 一种基于教室场景的多人关键点检测网络和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767792A true CN111767792A (zh) | 2020-10-13 |
Family
ID=72719526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010439222.9A Pending CN111767792A (zh) | 2020-05-22 | 2020-05-22 | 一种基于教室场景的多人关键点检测网络和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767792A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507904A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112949379A (zh) * | 2020-12-30 | 2021-06-11 | 南京佑驾科技有限公司 | 一种基于视觉的安全带检测方法及*** |
CN112966762A (zh) * | 2021-03-16 | 2021-06-15 | 南京恩博科技有限公司 | 一种野生动物检测方法、装置、存储介质及电子设备 |
CN113158756A (zh) * | 2021-02-09 | 2021-07-23 | 上海领本智能科技有限公司 | 基于HRNet深度学习的姿态、行为分析模块及分析方法 |
CN113297910A (zh) * | 2021-04-25 | 2021-08-24 | 云南电网有限责任公司信息中心 | 一种配网现场作业安全带识别方法 |
CN113537014A (zh) * | 2021-07-06 | 2021-10-22 | 北京观微科技有限公司 | 基于改进darknet网络的地空导弹阵地目标检测与识别方法 |
CN115272648A (zh) * | 2022-09-30 | 2022-11-01 | 华东交通大学 | 用于小目标检测的多层级感受野扩展方法与*** |
CN115471773A (zh) * | 2022-09-16 | 2022-12-13 | 北京联合大学 | 一种面向智慧教室的学生跟踪方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657631A (zh) * | 2018-12-25 | 2019-04-19 | 上海智臻智能网络科技股份有限公司 | 人体姿态识别方法及装置 |
CN110532984A (zh) * | 2019-09-02 | 2019-12-03 | 北京旷视科技有限公司 | 关键点检测方法、手势识别方法、装置及*** |
CN110781765A (zh) * | 2019-09-30 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种人体姿态识别方法、装置、设备及存储介质 |
-
2020
- 2020-05-22 CN CN202010439222.9A patent/CN111767792A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657631A (zh) * | 2018-12-25 | 2019-04-19 | 上海智臻智能网络科技股份有限公司 | 人体姿态识别方法及装置 |
CN110532984A (zh) * | 2019-09-02 | 2019-12-03 | 北京旷视科技有限公司 | 关键点检测方法、手势识别方法、装置及*** |
CN110781765A (zh) * | 2019-09-30 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种人体姿态识别方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
RONG FU ET AL: "Learning Behavior Analysis in Classroom Based on Deep Learning", 《10TH INTERNATIONAL CONFERENCE ON INTELLIGENT CONTROL AND INFORMATION PROCESSING》 * |
YAYUN QI ET AL: "Vehicle Detection Under Unmanned Aerial Vehicle Based on Improved YOLOv3", 《2019 12TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》 * |
ZHE CAO ET AL: "Real time Multi-Person 2D Pose Estimation using Part Affinity Fields", 《ARXIV:1611.08050V2》 * |
汤林 等: "拥挤条件下的人体姿态检测算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
董洪义: "《深度学习之PyTorch物体检测实战》", 31 January 2020 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507904A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112507904B (zh) * | 2020-12-15 | 2022-06-03 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112949379A (zh) * | 2020-12-30 | 2021-06-11 | 南京佑驾科技有限公司 | 一种基于视觉的安全带检测方法及*** |
CN113158756A (zh) * | 2021-02-09 | 2021-07-23 | 上海领本智能科技有限公司 | 基于HRNet深度学习的姿态、行为分析模块及分析方法 |
CN112966762A (zh) * | 2021-03-16 | 2021-06-15 | 南京恩博科技有限公司 | 一种野生动物检测方法、装置、存储介质及电子设备 |
CN112966762B (zh) * | 2021-03-16 | 2023-12-26 | 南京恩博科技有限公司 | 一种野生动物检测方法、装置、存储介质及电子设备 |
CN113297910A (zh) * | 2021-04-25 | 2021-08-24 | 云南电网有限责任公司信息中心 | 一种配网现场作业安全带识别方法 |
CN113537014A (zh) * | 2021-07-06 | 2021-10-22 | 北京观微科技有限公司 | 基于改进darknet网络的地空导弹阵地目标检测与识别方法 |
CN115471773A (zh) * | 2022-09-16 | 2022-12-13 | 北京联合大学 | 一种面向智慧教室的学生跟踪方法及*** |
CN115471773B (zh) * | 2022-09-16 | 2023-09-15 | 北京联合大学 | 一种面向智慧教室的学生跟踪方法及*** |
CN115272648A (zh) * | 2022-09-30 | 2022-11-01 | 华东交通大学 | 用于小目标检测的多层级感受野扩展方法与*** |
CN115272648B (zh) * | 2022-09-30 | 2022-12-20 | 华东交通大学 | 用于小目标检测的多层级感受野扩展方法与*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767792A (zh) | 一种基于教室场景的多人关键点检测网络和方法 | |
US20210326597A1 (en) | Video processing method and apparatus, and electronic device and storage medium | |
CN111340814B (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN111898709B (zh) | 一种图像分类方法及设备 | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN108399362A (zh) | 一种快速行人检测方法及装置 | |
CN111291739B (zh) | 面部检测、图像检测神经网络训练方法、装置和设备 | |
CN110059598B (zh) | 基于姿态关节点的长时程快慢网络融合的行为识别方法 | |
CN109492627B (zh) | 一种基于全卷积网络的深度模型的场景文本擦除方法 | |
US11494938B2 (en) | Multi-person pose estimation using skeleton prediction | |
CN109446922B (zh) | 一种实时鲁棒的人脸检测方法 | |
CN111104930B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN110322509B (zh) | 基于层级类激活图的目标定位方法、***及计算机设备 | |
CN113095106A (zh) | 一种人体姿态估计方法、装置 | |
WO2021249114A1 (zh) | 目标跟踪方法和目标跟踪装置 | |
CN113673354B (zh) | 一种基于上下文信息与联合嵌入的人体关键点检测方法 | |
CN110705566A (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN112329861B (zh) | 一种面向移动机器人多目标检测的分层特征融合方法 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN111401192A (zh) | 基于人工智能的模型训练方法和相关装置 | |
CN114764870A (zh) | 对象定位模型处理、对象定位方法、装置及计算机设备 | |
Ma et al. | Layn: Lightweight multi-scale attention yolov8 network for small object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201013 |
|
RJ01 | Rejection of invention patent application after publication |