CN116682178A - 密集场景下的多人姿态检测方法 - Google Patents
密集场景下的多人姿态检测方法 Download PDFInfo
- Publication number
- CN116682178A CN116682178A CN202310649852.2A CN202310649852A CN116682178A CN 116682178 A CN116682178 A CN 116682178A CN 202310649852 A CN202310649852 A CN 202310649852A CN 116682178 A CN116682178 A CN 116682178A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- positioning
- feature map
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 3
- 230000010355 oscillation Effects 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims 1
- 239000010410 layer Substances 0.000 description 63
- 230000011218 segmentation Effects 0.000 description 11
- 230000006399 behavior Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 101100441251 Arabidopsis thaliana CSP2 gene Proteins 0.000 description 3
- 102100027557 Calcipressin-1 Human genes 0.000 description 3
- 101100247605 Homo sapiens RCAN1 gene Proteins 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 101150064416 csp1 gene Proteins 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 101100222091 Arabidopsis thaliana CSP3 gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101100222092 Caenorhabditis elegans csp-3 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种密集场景下的多人姿态检测方法,主要解决现有技术检测鲁棒性差和分类精度低的问题,其实现方案为:取公开的密集场景下多人姿态的图像集,将其分为训练集和测试集;构建包括浅CNN模块和特征融合模块的定位分类任务并行分支网络;定义定位分类任务并行分支网络中的目标数量损失函数、动态难度权重函数和动态类别权重函数;对定位分类任务并行分支网络进行训练;将测试集输入到训练好的定位分类任务并行分支网络中得到多人姿态检测结果。本发明避免了目标检测中定位任务对分类任务的约束,缓解了前景背景类不平衡和前景类别不平衡问题,提升了目标检测的鲁棒性和分类精度,可用于密集场景下目标识别。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种多人姿态检测方法,可用于密集场景下目标识别。
背景技术
当前行为识别的研究方法可分为单人姿态检测和多人姿态检测。单人姿态检测的研究已经取得了很好的成果,但多人姿态检测的研究仍存在一些障碍,例如:人体的体积小、目标遮挡、姿态相似等。
多人姿态检测是定位和识别图像中所有人的姿态,是人体动作识别和人机交互的基础研究课题。随着深度学习在计算机视觉领域的成功应用,人体姿态检测在计算机视觉领域越来越重要。人体姿态检测的目的是捕捉视频或图像序列中的行为目标,并判断其行为类别。人体姿态检测方法可以分为自顶向下结构和自底向上结构。在自顶向下方法中,首先使用对象检测方法如YOLO、SSD和FPN对目标进行定位,然后提取目标进行姿态检测。自顶向下方法更像是人眼视觉对目标行为从粗到细的感知过程,具有较好的识别性能。自底向上的方法是通过检测整张图像中的所有身体关节,将关节分组匹配到完整的行为类别。
现有的多人姿态检测方法主要有两大类:第一类是基于人体识别关键点和点运动规律分析的姿态检测方法,第二类是基于目标定位和图像分类的姿态检测方法。其中:
在第一类方法中,自顶向下需要对每个检测到的目标进行单目标姿态检测,当面对图像目标数增加时会导致计算代价激增。相比之下,自底向上的方法更有吸引力,其仅依赖于上下文信息和身体内部关节的关系识别目标行为。然而,当感兴趣的对象处于密集场景,例如拥挤教室中的学生、大厅中的会议参与者或大型体育场中的观众,若将该技术直接应用则很难检测到严重遮挡的关节,且姿态提取不完整会阻碍进一步的行为分析,故在密集场景下自底向上的方法是不可行的。
第二类方法不像第一类方法直接针对姿态的完整性,而是依赖更可靠的目标位置来对目标行为进行分类,现有技术方案大多基于此类方法来对多人姿态检测方法进行研究。
电子科技大学在其申请号CN201910289577.1的专利文献中公开了一种“基于掩码-RCNN进行稠密人体姿态估计的***及方法”,其主要包括目标检测模块、语义分割模块和实例分割模块。其中,目标检测模块用于获取精确的目标检测框;语义分割模块定义了语义分割损失函数,该损失函数在训练时将图片中所有的人当作前景来对网络进行监督,得到语义分割掩码;实例分割模块根据得到的语义分割掩码进行前景背景的进一步分类,生成实例分割掩码。该***通过语义分割模块和实例分割模块两者结合使得分割结果更加精细。该方法在实例分割时解决了传统技术存在由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题,提升了在密集场景下检测的整体准确率,但对于像素数少、分辨率低、特征表达能力弱的小目标的检测精度低。
Tang等人在IET Image Processing发表的论文“Pose detection in complexclassroom environment based on improved Faster R-CNN”中提出了一种感兴趣区域ROI池化模块,该模块合并语义特征和来自卷积特征图最后两层的高分辨率特征,使组合的特征比单层特征更具表现力。此外,该方法在特征提取的最后一个全连接层保留了局部特征,使得特征空间中属于同一类的目标特征距离更近,从而具有更强的分类能力。但该方法由于未考虑前景背景类之间的不平衡,阻碍其检测精度的提升。
Gao等人在Knowledge-Based Systems发表的论文“Multi-scale single-stagepose detection with adaptive sample training in the classroom scene”中提出了一种基于单阶段目标检测器的姿态检测方法。其提出了一个多尺度特征增强分支,以获得平衡且鲁棒的特征;采用自适应融合机制学***衡问题,但还依然存在正样本中的类别分布不平衡问题,导致部分类检测精度低。
所述这些现有技术在目标检测时,其使用的网络架构主要由主干网络、任务特征网络和任务头网络组成。其中主干部分负责提取颜色、形状和纹理这些通用性特征。任务特征网络对主干提取的通用特征进行特征增强,提取特定任务的特征。任务头网络对提取到的特征输出不同形式的结果,完成目标定位和分类两个任务。这些网络架构在推理成本和检测精度上仍可提升,近年来新提出的YOLOv5网络架构,相比于传统的网络架构取得了最先进的目标检测效果。Tang等人发表的论文“Classroom Behavior Detection Based onImproved YOLOv5 Algorithm Combining Multi-Scale Feature Fusion and AttentionMechanism”将YOLOv5应用于密集场景下的目标检测,提出了空间和通道卷积注意力机制来提取深度语义特征,明显提高了检测精度。但由于实际中目标密集且类别相似,使得该方法仍存在检测鲁棒性低的问题。
上述现有技术由于忽视了定位任务和细粒度分类任务的彼此矛盾及细粒度分类中类别间差异小的问题,因而会导致定位任务对分类任务的约束,降低目标分类精度。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种密集场景下的多人姿态检测方法,以避免定位任务对分类任务的约束,缓解前景背景类不平衡问题和前景类别不平衡问题,提高目标检测的鲁棒性和目标分类精度。
实现本发明目的的技术方案包括如下:
(1)选取公开的密集场景下多人姿态的图像集,将其按8:1:1的比例分为训练集、验证集和测试集;
(2)构建定位分类任务并行分支网络:
(2a)构建与现有目标检测网络YOLOv5主干网络相同的共用主干网络;
(2b)构建两个由两个传统卷积层、两个扩张卷积层和一个传统卷积层依次级联的浅CNN模块;
(2c)构建两个由反卷积层和上采样层组成的特征融合模块,分别为第一特征融合模块和第二特征模块,用于进一步提取两个浅CNN模块和共用主干网络的特征,得到提取特征后的浅CNN模块N层特征图和共用主干网络N层特征图,N≥3;
(2d)将提取特征后的两个浅CNN模块N层特征图分别与共用主干网络N层特征图进行逐层匹配,并对每层逐元素进行相乘得到定位和分类的N层特征图;
(2e)在现有的任务特征网络上新增一个与其结构相同的任务特征网络,以构成并行的定位分支和分类分支,并将定位和分类的N层特征图分别输入到对应分支中生成定位特征金字塔和分类特征金字塔;
(2f)构建与现有目标检测网络YOLOv5定位任务头和分类任务头相同的定位任务头和分类任务头;
(2g)将共用主干网络、(2b)中一个浅CNN模块、第一特征融合模块、定位分支、定位任务头依次级联,将共用主干网络、(2b)中另一个浅CNN模块、第二特征融合模块、分类分支、分类任务头依次级联,构成定位分类任务并行分支网络;
(3)定义定位分类任务并行分支网络中需要用到的函数:
(3a)定义目标数量损失函数Lnum为:
Lnum=LMSE(np,n′p),
其中np为第p张图像中预测目标数,n′p为第p张图像中真实目标数,LMSE(np,n′p)表示计算np和n′p两者之间的均方误差;
(3b)定义动态类别权重函数ωi和动态难度权重函数dp为:
其中,ci表示第p张图像中第i类的预测数量;
表示t张图像的平均目标预测数量;
(4)根据选择的公开图像集设定相应的训练代数,将训练集中的图像输入定位分类任务并行分支网络对其进行训练:
(4a)使用(2c)中的共用主干网络N层特征图对目标数量进行回归预测,得到预测目标数np,再根据训练集中已有的真实目标数n′p和(3a)中定义的函数计算目标数量损失值Lnum;
(4b)将(2e)中得到的定位特征金字塔和分类特征金字塔分别输入到(2f)中构建的定位任务头和分类任务头中进行目标定位和分类,得到定位和分类的预测结果,并根据(3b)中定义的函数计算每张图像的动态难度权重dp和动态类别权重ωi,以优化任务特征网络中的特征学习;
(4c)由现有回归损失函数和分类损失函数分别计算回归损失值Lreg和分类损失值Lcls,根据Lcls、Lreg、目标数量损失值Lnum和现有总损失计算函数,计算得到总损失值L,通过反向传播逐代更新定位分类任务并行分支网络中的权值直到达到设定的训练代数,得到初步训练好的定位分类任务并行分支网络;
(4d)将图像集中的验证集输入初步训练好的定位分类任务并行分支网络中,调整其与现有目标检测网络定义相同的超参数后,并再次进行训练,
(4e)重复(4d)直到使其达到最佳检测效果,得到最终训练好的定位分类任务并行分支网络;
(5)将测试集输入到最终训练好的定位分类任务并行分支网络中,得到在该数据集上的检测结果。
本发明与现有技术相比,具有如下优点:
第一,由于在定位分类任务并行分支网络中设置了两个浅CNN模块和特征融合模块,且两个独立的浅层CNN模块使用卷积和扩张卷积来提取图像的特征信息,再分别与主干网络提取的特征信息融合,从而丰富了提取特征中的语义信息,提高目标检测的鲁棒性;
第二,本发明由于将目标定位任务和目标分类任务构建成两个并行分支结构,并设置这两个分支具有相同的结构但参数不共享,避免了定位任务对分类任务的约束;
第三,本发明通过定义目标数量损失、动态难度权重和动态分类权重的计算公式,计算目标数量损失来反向传播训练定位分类任务并行分支网络结构,同时根据预测得到的目标数量分别计算动态类别权重和动态难度权重来优化特征学***衡问题和前景类别不平衡问题,提升了目标分类精度。
附图说明
图1是本发明实现流程图;
图2是本发明中构建的定位分类任务并行分支网络结构图。
具体实施方式
结合附图对本发明的实施例作进一步详细描述。
本实例是基于密集场景下对多人姿态的检测,检测目标主要包括拥挤教室中的学生、大厅中的会议参与者或大型体育场中的观众。
参照图1,本实例的实现步骤如下:
步骤1,选取公开图像集并对其进行划分。
从公开的密集场景下多人姿态图像数据库中选取图像集,将其按8:1:1的比例分为训练集、验证集和测试集。
步骤2,构建定位分类任务并行分支网络。
参照图2,对本步骤的实现如下:
2.1)构建与现有目标检测网络YOLOv5主干网络相同的共用主干网络;
所述的YOLOv5主干网络,其由第一交叉阶段模块CSP1,第二交叉阶段模块CSP2,第三交叉阶段模块CSP3及自适应池化模块SSP级联组成。其中:
第一交叉阶段模块CSP1,用于提取小尺度特征;
第二交叉阶段模块CSP2,用于提取中尺度特征;
第三交叉阶段模块CSP3,用于提取大尺度特征;
自适应池化模块SSP,用于对第一交叉阶段模块CSP1、第二交叉阶段模块CSP2和第三交叉阶段模块CSP3提取到的特征进行特征池化操作。
2.2)构建两个由两个传统卷积层、两个扩张卷积层和一个传统卷积层依次级联的浅CNN模块;
所述前两个传统卷积层,其卷积核大小分别为3×3和1×1,步长均为1;
所述两个扩张卷积层,其扩张率分别为3和2、步长均为1;
所述最后一个传统卷积层,其卷积核大小为1×1、步长为1;
2.3)构建两个均由卷积核大小为3×3、步长为1的反卷积层和上采样倍数为2的上采样层组成的特征融合模块,分别为第一特征融合模块和第二特征模块,用于进一步提取两个浅CNN模块和共用主干网络的特征,得到提取特征后的浅CNN模块N层特征图和共用主干网络N层特征图,N≥3;
2.4)将提取特征后的两个浅CNN模块N层特征图分别与提取特征后的主干网络N层特征图进行逐层匹配,并对每层逐元素进行相乘得到定位和分类的N层特征图;
2.5)在现有的任务特征网络上新增一个与其结构相同的任务特征网络,以构成并行的定位分支和分类分支;
2.6)将步骤2.4)中定位N层特征图输入到定位分支中生成定位特征金字塔:
2.6.1)设定N=3,则输入的定位N层特征图由三层特征图组成;
2.6.2)生成定位特征金字塔:
设三层定位特征图分别分为小尺寸特征图S1、中尺寸特征图S2、大尺寸特征图S3,将S1输入到倍数为2的上采样层进行上采样,将经过上采样后的特征图再输入到步长为1、卷积核大小为1×1的第一传统卷积层,得到第一特征图S1→2,再将其与中尺寸特征图S2相加得到第二特征图S′2;
将S2输入到倍数为2的上采样层进行上采样,将经过上采样后的特征图再输入到步长为1、卷积核大小为1×1的第二传统卷积层,得到第三特征图S2→3,再将其与大尺寸特征图S3相加得到金字塔大尺存特征图S′3;
将S′3输入到倍数为2的下采样层进行下采样,将经过下采样后的特征图再输入到步长为1、卷积核大小为1×1的第三传统卷积层,得到第四特征图S′3→2,再将其与第二特征图S′2相加得到金字塔中尺存特征图
将输入到倍数为2的下采样层进行下采样,将经过下采样后的特征图再输入到步长为1、卷积核大小为1×1的第四传统卷积层,得到第五特征图/>再将其与小尺寸特征图S1相加得到金字塔小尺存特征图/>
将金字塔小尺存特征图金字塔中尺存特征图/>金字塔大尺存特征图S′3自上到下排列,组成定位特征金字塔;
2.7)将步骤2.4)中分类N层特征图输入到分类分支中生成分类特征金字塔:
2.7.1)设定N=3,则输入的分类N层特征图由三层特征图组成;
2.7.2)生成分类特征金字塔:
将三层分类特征图分别分为小尺寸特征图Sa、中尺寸特征图Sb、大尺寸特征图Sc,将Sa输入到倍数为2的上采样层进行上采样,将经过上采样后的特征图再输入到步长为1、卷积核大小为1×1的第I传统卷积层,得到第一特征图Sa→b,再将其与中尺寸特征图Sb相加得到第二特征图S′b;
将Sb输入到倍数为2的上采样层进行上采样,将经过上采样后的特征图再输入到步长为1、卷积核大小为1×1的第II传统卷积层,得到第三特征图Sb→c,再将其与大尺寸特征图Sc相加得到金字塔大尺存特征图S′c;
将S′c输入到倍数为2的下采样层进行下采样,将经过下采样后的特征图再输入到步长为1、卷积核大小为1×1的第III传统卷积层,得到第四特征图S′c→b,再将其与第二特征图S′b相加得到金字塔中尺存特征图
将输入到倍数为2的下采样层进行下采样,将经过下采样后的特征图再输入到步长为1、卷积核大小为1×1的第IV传统卷积层,得到第五特征图/>再将其与小尺寸特征图Sa相加得到金字塔小尺存特征图/>
将金字塔小尺存特征图金字塔中尺存特征图/>金字塔大尺存特征图S′c自上到下排列,组成分类特征金字塔;
2.8)构建与现有目标检测网络YOLOv5定位任务头和分类任务头相同的定位任务头和分类任务头;
所述定位任务头由两层全连接层级联组成;
所述分类任务头由第一全连接层、第二全连接层和软最大激活softmax层依次级联组成;
2.9)将共用主干网络、2.2)中一个浅CNN模块、第一特征融合模块、定位分支、定位任务头依次级联,将共用主干网络、2.2)中另一个浅CNN模块、第二特征融合模块、分类分支、分类任务头依次级联,构成定位分类任务并行分支网络。
步骤3,定义定位分类任务并行分支网络中需要用到的函数。
3.1)定义目标数量损失函数Lnum为:
Lnum=LMSE(np,n′p),
其中np为第p张图像中预测目标数,n′p为第p张图像中真实目标数,LMSE(np,n′p)表示计算np和n′p两者之间的均方误差;
3.2)定义动态类别权重函数ωi和动态难度权重函数dp分别为:
其中,ci表示第p张图像中第i类的预测数量;
表示t张图像的平均目标预测数量。
步骤4,对定位分类任务并行分支网络进行训练。
4.1)将步骤2.3)中的共用主干网络N层特征图输入到步长为1、卷积核大小为1×1的传统卷积层,得到特征通道数为256的N层特征图,再将特征通道数为256的N层特征图同时输入到两个步长均为1、卷积核大小均为3×3级联的传统卷积层,得到预测目标数np,再根据训练集中已有的真实目标数n′p和步骤3.1)中定义的函数计算目标数量损失值Lnum;
4.2)将步骤2.6)和步骤2.7)中得到的定位特征金字塔和分类特征金字塔分别输入到2.8)中构建的定位任务头和分类任务头中进行目标定位和分类,由定位任务头和分类任务头分别得到定位和分类的预测结果,并根据步骤3.2)中定义的函数计算每张图像的动态难度权重dp和动态类别权重ωi,以优化任务特征网络中的特征学习,其中:
4.3)由现有回归损失函数和分类损失函数分别计算回归损失值Lreg和分类损失值Lcls,根据Lcls、Lreg、目标数量损失值Lnum和现有总损失计算函数,计算得到总损失值L,通过反向传播逐代更新定位分类任务并行分支网络中的权值,直到达到设定的训练代数,得到初步训练好的定位分类任务并行分支网络;
所述回归损失值Lreg和分类损失值Lcls的计算公式如下:
Lreg=LMAE(bi,b′i),
Lcls=Lfocal(ci,c′i),
其中bi为第i个目标的预测框,b′i为第i个目标的真实框,LMAE(bi,b′i)表示计算bi与b′i两者之间的绝对误差;ci为第i个目标的预测类别,c′i为第i个目标的真实类别,Lfocal(ci,c′i)表示计算ci与c′i两者之间的焦点损失;
本实例设置训练代数为200;
4.4)将图像集中的验证集输入初步训练好的定位分类任务并行分支网络中,调整其与现有目标检测网络定义相同的超参数后,并再次进行训练:
4.4.1)定位分类任务并行分支网络的总损失值L中待调超参数为:分类损失Lcls的超参数rcls、回归损失Lreg的超参数rreg和数量损失Lnum的超参数rnum,将这三个超参数的初始值均初始化为1,计算定位分类任务并行分支网络的总损失值L:
L=rcls·Lcls+rreg·Lreg+rnum·Lnum;
4.4.2)调整超参数rcls、rreg和rnum这三个超参数各自的大小,得到使总损失值L尽可能小的最优超参数和/>
4.4.3)设置定位分类任务并行分支网络的学习率初始值为0.001,再对其进行调整:
当网络初步训练完成时得到的总损失值曲线振荡幅度超过0.3时,调整学习率为原学习率的二分之一后再次对定位分类任务并行分支网络进行训练;
当网络初步训练完成时得到的总损失值曲线没有收敛时,调整学习率为原学习率的二倍后再次对定位分类任务并行分支网络进行训练;
4.5)重复步骤4.4)直到使定位分类任务并行分支网络达到最佳检测效果,得到最终训练好的定位分类任务并行分支网络。
步骤5,检测测试集中的多人姿态。
将测试集输入到最终训练好的定位分类任务并行分支网络中,得到在该数据集上的检测结果。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (8)
1.一种密集场景下的多人姿态检测方法,其特征在于,包括如下步骤:
(1)选取公开的密集场景下多人姿态的图像集,将其按8:1:1的比例分为训练集、验证集和测试集;
(2)构建定位分类任务并行分支网络:
(2a)构建与现有目标检测网络YOLOv5主干网络相同的共用主干网络;
(2b)构建两个由两个传统卷积层、两个扩张卷积层和一个传统卷积层依次级联的浅CNN模块;
(2c)构建两个由反卷积层和上采样层组成的特征融合模块,分别为第一特征融合模块和第二特征模块,用于进一步提取两个浅CNN模块和共用主干网络的特征,得到提取特征后的浅CNN模块N层特征图和共用主干网络N层特征图,N≥3;
(2d)将提取特征后的两个浅CNN模块N层特征图分别与共用主干网络N层特征图进行逐层匹配,并对每层逐元素进行相乘得到定位和分类的N层特征图;
(2e)在现有的任务特征网络上新增一个与其结构相同的任务特征网络,以构成并行的定位分支和分类分支,并将定位和分类的N层特征图分别输入到对应分支中生成定位特征金字塔和分类特征金字塔;
(2f)构建与现有目标检测网络YOLOv5定位任务头和分类任务头相同的定位任务头和分类任务头;
(2g)将共用主干网络、(2b)中一个浅CNN模块、第一特征融合模块、定位分支、定位任务头依次级联,将共用主干网络、(2b)中另一个浅CNN模块、第二特征融合模块、分类分支、分类任务头依次级联,构成定位分类任务并行分支网络;
(3)定义定位分类任务并行分支网络中需要用到的函数:
(3a)定义目标数量损失函数Lnum为:
Lnum=LMSE(np,n′p),
其中np为第p张图像中预测目标数,n′p为第p张图像中真实目标数,LMSE(np,n′p)表示计算np和n′p两者之间的均方误差;
(3b)定义动态类别权重函数ωi和动态难度权重函数dp为:
其中,ci表示第p张图像中第i类的预测数量;
表示t张图像的平均目标预测数量;
(4)根据选择的公开图像集设定相应的训练代数,将训练集中的图像输入定位分类任务并行分支网络对其进行训练:
(4a)使用(2c)中的共用主干网络N层特征图对目标数量进行回归预测,得到预测目标数np,再根据训练集中已有的真实目标数n′p和(3a)中定义的函数计算目标数量损失值Lnum;
(4b)将(2e)中得到的定位特征金字塔和分类特征金字塔分别输入到(2f)中构建的定位任务头和分类任务头中进行目标定位和分类,得到定位和分类的预测结果,并根据(4b)中定义的函数计算每张图像的动态难度权重dp和动态类别权重ωi,以优化任务特征网络中的特征学习;
(4c)由现有回归损失函数和分类损失函数分别计算回归损失值Lreg和分类损失值Lcls,根据Lcls、Lreg、目标数量损失值Lnum和现有总损失计算函数,计算得到总损失值L,通过反向传播逐代更新定位分类任务并行分支网络中的权值直到达到设定的训练代数,得到初步训练好的定位分类任务并行分支网络;
(4d)将图像集中的验证集输入初步训练好的定位分类任务并行分支网络中,调整其与现有目标检测网络定义相同的超参数后,并再次进行训练,
(4e)重复(4d)直到使其达到最佳检测效果,得到最终训练好的定位分类任务并行分支网络;
(5)将测试集输入到最终训练好的定位分类任务并行分支网络中,得到在该数据集上的检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤(2b)所建立的浅CNN模块中;各层参数设置如下:
所述前两个传统卷积层,其卷积核大小分别为3×3和1×1,步长均为1;
所述两个扩张卷积层,其扩张率分别为3和2、步长均为1;
所述最后一个传统卷积层,其步长为1、卷积核大小为1×1。
3.根据权利要求1所述的方法,其特征在于,步骤(2c)所建立的特征融合模块中;各层参数设置如下:
所述反卷积层,其卷积核大小为3×3、步长为1;
所述上采样层的上采样倍数为2。
4.根据权利要求1所述的方法,其特征在于,步骤(2e)中将定位N层特征图输入到定位分支中生成定位特征金字塔,实现如下:
(2e1)设定N=3,则输入的定位N层特征图由三层特征图组成;
(2e2)生成定位特征金字塔:
设三层定位特征图分别为小尺寸特征图S1、中尺寸特征图S2、大尺寸特征图S3,将S1输入到倍数为2的上采样层,将经过上采样层后的特征图再输入到步长为1、卷积核大小为1×1的第一传统卷积层,得到第一特征图S1→2,再将其与中尺寸特征图S2相加得到第二特征图S′2;
将S2输入到倍数为2的上采样层,将经过上采样层后的特征图再输入到步长为1、卷积核大小为1×1的第二传统卷积层,得到第三特征图S2→3,再将其与大尺寸特征图S3相加得到金字塔大尺存特征图S′3;
将S′3输入到倍数为2的下采样层,将经过下采样层后的特征图再输入到步长为1、卷积核大小为1×1的第三传统卷积层,得到第四特征图S′3→2,再将其与第二特征图S′2相加得到金字塔中尺存特征图
将输入到倍数为2的下采样层,将经过下采样层后的特征图再输入到步长为1、卷积核大小为1×1的第四传统卷积层,得到第五特征图/>再将其与小尺寸特征图S1相加得到金字塔小尺存特征图/>
将金字塔小尺存特征图金字塔中尺存特征图/>金字塔大尺存特征图S′3自上到下排列组成定位特征金字塔。
5.根据权利要求1所述的方法,其特征在于,步骤(2e)中将分类N层特征图输入到分类分支中生成分类特征金字塔,实现如下:
(2ea)设定N=3,则输入的分类N层特征图由三层特征图组成;
(2eb)生成分类特征金字塔:
三层分类特征图分别为小尺寸特征图Sa、中尺寸特征图Sb、大尺寸特征图Sc,将Sa输入到倍数为2的上采样层,将经过上采样层后的特征图再输入到步长为1、卷积核大小为1×1的第I传统卷积层,得到第一特征图Sa→b,再将其与中尺寸特征图Sb相加得到第二特征图S′b;
将Sb输入到倍数为2的上采样层,将经过上采样层后的特征图再输入到步长为1、卷积核大小为1×1的第II传统卷积层,得到第三特征图Sb→c,再将其与大尺寸特征图Sc相加得到金字塔大尺存特征图S′c;
将S′c输入到倍数为2的下采样层,将经过下采样层后的特征图再输入到步长为1、卷积核大小为1×1的第III传统卷积层,得到第四特征图S′c→b,再将其与第二特征图S′b相加得到金字塔中尺存特征图
将输入到倍数为2的下采样层,将经过下采样层后的特征图再输入到步长为1、卷积核大小为1×1的第IV传统卷积层,得到第五特征图/>再将其与小尺寸特征图Sa相加得到金字塔小尺存特征图/>
将金字塔小尺存特征图金字塔中尺存特征图/>金字塔大尺存特征图S′c自上到下排列组成分类特征金字塔。
6.根据权利要求1所述的方法,其特征在于,步骤(4a)中使用(2c)中的共用主干网络N层特征图对目标数量进行回归预测,实现如下:
(4a1)将共用主干网络N层特征图输入到步长为1、卷积核大小为1×1的传统卷积层,得到特征通道数为256的N层特征图;
(4a2)将特征通道数为256的N层特征图同时输入到两个步长均为1、卷积核大小均为3×3级联的传统卷积层,得到目标数量的预测结果。
7.根据权利要求1所述的方法,其特征在于,步骤(4c)中计算回归损失值Lreg和分类损失值Lcls,公式分别如下:
Lreg=LMAE(bi,b′i),
Lcls=Lfocal(ci,c′i),
其中bi为第i个目标的预测框,b′i为第i个目标的真实框,LMAE(bi,b′i)表示计算bi与b′i两者之间的绝对误差;ci为第i个目标的预测类别,c′i为第i个目标的真实类别,Lfocal(ci,c′i)表示计算ci与c′i两者之间的焦点损失。
8.根据权利要求1所述的方法,其特征在于,步骤(4d)中调整定位分类任务并行分支网络中与现有目标检测网络定义相同的超参数,实现如下:
(4d1)设置定位分类任务并行分支网络总损失中的待调超参数为:分类损失Lcls的超参数rcls、回归损失Lreg的超参数rreg和数量损失Lnum的超参数rnum,并将这三个超参数的初始值均初始化为1,计算定位分类任务并行分支网络的总损失值L:
L=rcls·Lcls+rreg·Lreg+rnum·Lnum;
(4d2)调整超参数rcls、rreg和rnum这三个超参数各自的大小,使总损失值L尽可能小,得到最优超参数和1/>
(4d3)调整定位分类任务并行分支网络的学习率:
当网络初步训练完成时得到的总损失值曲线振荡幅度超过0.3时,调整学习率为原来学习率的二分之一;
当网络初步训练完成时得到的总损失值曲线没有收敛时,调整学习率为原来学习率的二倍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310649852.2A CN116682178A (zh) | 2023-06-02 | 2023-06-02 | 密集场景下的多人姿态检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310649852.2A CN116682178A (zh) | 2023-06-02 | 2023-06-02 | 密集场景下的多人姿态检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116682178A true CN116682178A (zh) | 2023-09-01 |
Family
ID=87790301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310649852.2A Pending CN116682178A (zh) | 2023-06-02 | 2023-06-02 | 密集场景下的多人姿态检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116682178A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710351A (zh) * | 2023-12-22 | 2024-03-15 | 北京市市政工程研究院 | 一种基于目标检测网络的病害检测方法和*** |
-
2023
- 2023-06-02 CN CN202310649852.2A patent/CN116682178A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710351A (zh) * | 2023-12-22 | 2024-03-15 | 北京市市政工程研究院 | 一种基于目标检测网络的病害检测方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN107624189A (zh) | 用于生成预测模型的方法和设备 | |
Liu et al. | Action recognition based on 3d skeleton and rgb frame fusion | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及*** | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN111582091A (zh) | 基于多分支卷积神经网络的行人识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN116682178A (zh) | 密集场景下的多人姿态检测方法 | |
CN112507893A (zh) | 一种基于边缘计算的分布式无监督行人重识别方法 | |
CN115661611A (zh) | 一种基于改进Yolov5网络的红外小目标检测方法 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN110633645A (zh) | 一种基于增强型三流式架构的视频行为检测方法 | |
CN111738099B (zh) | 基于视频图像场景理解的人脸自动检测方法 | |
CN117788810A (zh) | 一种无监督语义分割的学习*** | |
CN113011359A (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
Zhu et al. | Road scene layout reconstruction based on CNN and its application in traffic simulation | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |