CN113920468B - 一种基于跨尺度特征增强的多分支行人检测方法 - Google Patents

一种基于跨尺度特征增强的多分支行人检测方法 Download PDF

Info

Publication number
CN113920468B
CN113920468B CN202111516697.4A CN202111516697A CN113920468B CN 113920468 B CN113920468 B CN 113920468B CN 202111516697 A CN202111516697 A CN 202111516697A CN 113920468 B CN113920468 B CN 113920468B
Authority
CN
China
Prior art keywords
feature
pedestrian
scale
candidate
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111516697.4A
Other languages
English (en)
Other versions
CN113920468A (zh
Inventor
刘寒松
王永
王国强
刘瑞
翟贵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202111516697.4A priority Critical patent/CN113920468B/zh
Publication of CN113920468A publication Critical patent/CN113920468A/zh
Application granted granted Critical
Publication of CN113920468B publication Critical patent/CN113920468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能智慧社区应用技术领域,涉及一种基于跨尺度特征增强的多分支行人检测方法,先引入基于多路径的候选区域感知策略,根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成候选目标区域集,再根据相邻卷积特征层在视觉语义上的互补性,设计跨尺度特征聚合模块,将跨尺度的卷积特征通过视觉注意力机制聚合在一起提高行人语义特征的表征能力,然后生成具有尺度感知能力的多分支行人检测模型,最后通过动态非极大值抑制对各分支行人检测结果进行筛选;检测错误率小,而且使用动态的置信度对检测结果进行筛选,检测结果准确。

Description

一种基于跨尺度特征增强的多分支行人检测方法
技术领域
本发明属于人工智能智慧社区应用技术领域,涉及一种基于跨尺度特征增强的多分支行人检测方法,能够有效的处理智慧社区监控视频中行人目标的多尺度变化。
背景技术
随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视,智能视频监控技术已经发展成为当前的研究热点;行人检测、跟踪、再识别与检索是智能化视频监控***中的核心关键技术,还可以为后续的更高层次的场景理解、行为分析和异常事件监控提供可靠的数据支持。行人检测技术作为所有技术的基础工作,直接影响着智能视频监控的智能化水平,具有重要的研究意义和应用价值。
视频中行人空间尺度的变化(几倍甚至几十倍尺度差异)是行人检测的主要瓶颈之一。由于运动的行人距离摄像装置的距离会不断变化,造成行人在图像中的成像具有多尺度性,这种行人的多尺度对于神经网络的特征提取和识别都会造成不利影响,为智能视频监控的行人检测任务带来极大的挑战性。
目前,在行人检测过程中行人的多尺度性检测难问题主要体现在极端尺度行人的漏检、误检,网络模型不能够在多尺度行人检测中达到很好的平衡。不同分辨率的特征层对于不同尺度的行人具有不同的响应已经被研究者们所验证,不同分辨率的特征层即由原始图像尺度经卷积神经网络模型下采样不同的倍数。由于小尺度的行人分辨率较低,如果使用和大尺度的行人相同的特征层进行特征提取,会造成小尺度行人特征信息的严重丢失、不足甚至该层特征层已经完全不包含该行人特征信息,因此造成行人漏检。
计算机视觉的研究者们在深度学习的计算机视觉的研究中,证明了不同分辨率的特征层具有不同层次的语义特征信息和位置特征信息,即高层次的特征层具有丰富的语义信息,能够有效的描述行人目标的全局信息,但是丢失了详细特征信息,不能够很好的描述行人目标的边缘特征;低层次的特征层具有足够的位置信息,能够有效体现出边缘特征信息,但是语义信息不够丰富。
基于单分支行人检测模型在面临行人尺度变化差异大的情况下,由于单特征层对不同尺度行人特征的刻画能力有限,不可避免的导致其行人检测能力有限。基于多分支的行人检测模型虽然采用了多特征层对行人特征不同粒度的表征能力,但是多分支之间存在大量的冗余检测,未能充分发挥不同层次特征对不同尺度行人的感知能力。另一方面,在现有的多分支行人检测模型中,最终都是将各分支的检测结果汇总再一起通过非极大值抑制后筛选出最终的行人检测结果。但是,由于不同检测分支检测到的行人尺度相差较大,统一在一起后使用非极大值抑制忽略了不同分支之间的差异性。
发明内容
本发明的目的在于解决行人检测中多尺度变化情况下行人检测性能严重下降的问题,设计提供一种基于跨尺度特征增强的多分支行人检测方法。
为实现上述目的,本发明所述基于跨尺度特征增强的多分支行人检测方法通过以下步骤实现:
(1)为提高特征提取效率和候选框生成质量,将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率(Wmax×Hmax);
(2)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层{Conv1,Conv2,Conv3,Conv4,Conv5};
(3)在深度卷积特征层上引入基于多路径的候选区域网络,根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集,以提高不同尺度行人目标的召回率;
(4)鉴于相邻卷积特征层在视觉语义上的互补性,在相邻卷积特征层上采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征,聚合形成特征金字塔提高行人语义特征的表征能力;
(5)在步骤(4)跨尺度特征聚合后的特征金字塔上,根据步骤(3)多路径行人候选区域网络生成的行人候选区域集,训练生成具有尺度感知能力的多分支行人检测模型,其中各检测分支使用独立的损失函数进行联合学习,以最小化不同尺度行人的检测错误率;
(6)根据步骤(5)中训练生成的多分支行人检测模型,将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理,筛选出疑似行人目标;再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理,以减少虚警检测,优化最终的行人检测结果。
进一步的,所述步骤(1)具体包括如下步骤:
(11)将输入图像等比例缩放到统一宽度像素Wmax或者高度像素Hmax,提高候选框对应的特征提取效率;
(12)在图像缩放等比例缩放后,使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率Wmax×Hmax以满足行人候选框区域与其特征相对齐。
进一步的,所述步骤(2)具体包括如下步骤:
(21)加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
(22)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征层{Conv1,Conv2,Conv3,Conv4,Conv5}。
进一步的,所述步骤(3)具体包括如下步骤:
(31)在深度卷积特征层{Conv3,Conv4,Conv5}上分别引入一个独立的候选区域生成候选区域网络,各候选区域网络路径根据不同卷积特征层的有效感受野大小与行人高度进行最佳匹配,将行人目标按照行人高度分配到不同的候选框生成路径中,以分别感知行人真实标注框的高度范围分别为[inf,64]、[32,256]、[128,inf]的候选区域,并生成长宽比例为1:1和2:1的行人初始候选框,其中inf表示在不同图像中行人目标像素高度可能存在的数量;
(32)不同特征层候选区域网络路径针对不同尺寸范围大小的行人候选框独立地开展行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归得到行人候选框;
(33)对各候选区域网络路径生成的行人候选框分别进行非极大值抑制,以生成不同尺度行人的最优候选区域集。
进一步的,所述步骤(4)具体包括如下步骤:
(41)为增强不同尺度的特征信息,通过通道注意力机制强化不同层次特征,训练学习生成针对各特征层的加权融合矩阵Ai,生成注意力增强后的视觉语义特征Ei
(42)采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的注意力增强后的卷积层特征Ei通过加权融合方式进行特征聚合,形成含有丰富语义信息的视觉强化特征Pi
(43)根据卷积神经网络各特征层感受野大小的差异,以通道注意力增强后的视觉强化特征Ei为基础,逐层形成特征金字塔{P3,P4,P5}提高行人语义特征的表征能力。
进一步的,所述步骤(5)具体包括如下步骤:
(51)在特征金字塔{P3,P4,P5}上,以步骤(3)多路径行人候选区域网络生成的行人候选框为基础,在各特征层上分别选取以置信度为排序依据的前300个候选框,并对每个候选框区域对应的特征金字塔{P3,P4,P5}进行特征提取,训练生成多分支行人检测模型;
(52)将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中,各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归训练,最小化不同尺度行人的检测错误率。
本发明先引入基于多路径的候选区域感知策略,根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成一系列合理的候选目标区域集,以提高不同尺度行人目标的召回率,再根据相邻卷积特征层在视觉语义上的互补性,设计跨尺度特征聚合模块,将跨尺度的卷积特征通过视觉注意力机制聚合在一起提高行人语义特征的表征能力,然后生成具有尺度感知能力的多分支行人检测模型,以最小化不同尺度行人的检测错误率,最后,通过动态非极大值抑制对各分支行人检测结果进行筛选,以减少假阳性案例,优化最终检测结果。
本发明与现有技术相比,具有以下优点:
(1)采用的跨尺度特征聚合模块首次实现了在不同尺度特征融合之前,首先通过视觉注意力机制强化不同尺度特征的有效语义信息,然后再通过横向连接,自上而下路径和自下而上路径来融合相邻尺度卷积层特征进行增强表示;
(2)引入基于多路径的候选区域感知策略,根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成一系列合理的候选区域集,并设计具有尺度感知能力的多分支行人检测模型,以最小化不同尺度行人的检测错误率;
(3)考虑到不同尺度行人目标受背景因素影响的差异性,检测结果的置信度分布范围的不同,使用动态的置信度对检测结果进行筛选,检测结果准确。
附图说明
图1为本发明所述基于跨尺度特征增强的多分支行人检测过程框架图;
图2为本发明步骤(4)采用的通道注意力示意图;
图3为本发明所述跨尺度特征聚合模块工作示意图;
图4为本发明所述多分支行人检测示意图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明。
实施例
本实施例所述基于跨尺度特征增强的多分支行人检测方法流程如图1所示,主要包括以下六个步骤:
(1)为提高特征提取效率和候选框生成质量,将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率(Wmax×Hmax);
(2)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层{Conv1,Conv2,Conv3,Conv4,Conv5};
(3)在深度卷积特征层上引入基于多路径的候选区域网络,根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集,以提高不同尺度行人目标的召回率;
(4)鉴于相邻卷积特征层在视觉语义上的互补性,在相邻卷积特征层上采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征,聚合形成特征金字塔提高行人语义特征的表征能力;
(5)在步骤(4)跨尺度特征聚合后的特征金字塔上,根据步骤(3)多路径行人候选区域网络生成的行人候选区域集,训练生成具有尺度感知能力的多分支行人检测模型,其中各检测分支使用独立的损失函数进行联合学习,以最小化不同尺度行人的检测错误率;
(6)根据步骤(5)中训练生成的多分支行人检测模型,将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理,筛选出疑似行人目标;再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理,以减少虚警检测,优化最终的行人检测结果。
本实施例所述方法可有效处理视频监控中行人空间尺度的变化,并且弥补了现有方法的缺点,在不影响行人检测效率的前提下提高了对于极端尺度行人的检测效果,使网络模型具有良好的鲁棒性,下面做出进一步详细说明:
对于步骤(1),为提高特征提取效率,将输入图像等比例缩放到统一宽度像素Wmax或者高度像素Hmax,提高候选框对应的特征提取效率,本实施例中Wmax=1000,Hmax=600,在图像缩放等比例缩放后,为提高多路径候选框生成质量,使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率Wmax×Hmax以满足行人候选框区域与其特征相对齐。
对于步骤(2),首先加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50,再将步骤(1)得到的图像输入到深度残差卷积神经网络ResNet50中提取不同深度层次下不同尺度的特征层{Conv1,Conv2,Conv3,Conv4,Conv5}。
对于步骤(3),先引入基于多路径候选区域网络的尺度补偿策略,根据{Conv3,Conv4,Conv5}卷积特征层的有效感受野大小和行人高度的最佳匹配方式,将行人目标按照行人高度分配到不同候选区域网络路径中,自适应地生成一系列针对特定目标尺度的候选区域集,其中,每个候选区域网络路径设置的有效真实标注框的范围分别为[inf,64],[32,256],[128,inf],其中inf表示在不同图像中行人目标像素高度可能存在的数量;对不同的候选区域网络路径生成的初始候选框进行筛选,限制该路径生成的初始候选框的有效范围,依次为分别取值为[32 48 64]∈C3,[32 64 128 256]∈C4,[128 256 512]∈C5,并生成长宽比例为1:1和2:1的行人初始候选框;
其次,由于每个候选区域生成路径针对不同尺度的行人目标进行训练,所以每个候选区域网络路径使用单独的多任务损失函数,其定义如下:
Figure GDA0003486602930000061
Figure GDA0003486602930000062
Figure GDA0003486602930000063
Figure GDA0003486602930000064
其中,(Xi,Yi)表示行人候选目标训练样本数据,W当表示通过行人候选集学***方向和垂直方向的像素点位置,w和h表示目标候选框在图像中的宽度和高度,Lcls表示判别目标候选区域是否为行人正样本的目标分类损失函数,目标定位损失函数Lloc是由目标类别u在图像中的边框四元组v=(vx,vy,vw,vh)和其预测值
Figure GDA0003486602930000074
的L1范数来定义,piLloc意味着回归损失函数只在目标真实标注框为行人正样本的情况下被激活,λ是一个损失平衡因子,表示行人目标分类损失和行人候选框回归损失的偏向大小;
再次,对生成的初始候选目标框进行筛选,各候选区域网络路径通过非极大值抑制操作来减少目标候选区域,各个候选区域路径选取分数排在前100个的行人候选区域。
对于步骤(4),跨尺度特征聚合模块主要由以下三个步骤完成,如图3所示:
(41)为增强不同尺度的特征信息,通过通道注意力机制强化不同层次特征,训练学习生成针对各特征层的加权融合矩阵Ai,生成注意力增强后的视觉语义特征Ei,假定不同尺度特征层输出特征Ci∈iD×W×H,将其进行卷积核为1×1的降维和下采样为Vi∈iD′×W×H,并将其特征维度重写为Vi∈iD′×N,N=W×H;通道注意力矩阵Ai定义为:
Ai=Softmax(ViVi T)
其中,Vi T∈iN×D′表示Vi∈iD′×N的转置矩阵;
经过通道注意力增强后的视觉语义特征Ei定义为:
Ei=vAiVi+Vi
其中,v是离线训练的尺度超参数,初始化为0,这样加权融合了通道注意力特征和原始尺度的卷积特征,以突出相应尺度的特征语义信息;
步骤(42)为聚合相邻卷积特征层上有效特征信息,设计一种相邻尺度特征聚合模块(如图3所示),通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的注意力增强后的卷积层特征Ei通过加权融合方式进行特征聚合,形成含有丰富语义信息的视觉强化特征Pi
Pi=Conv(Pooling(Ei-1)+Ei+UpSampling(Ei+1))
其中,Pooling(·)表示自下而上低层特征通过平均池化操作的连接,UpSampling(·)表示自上而下高层特征通过双线性插值的上采样连接,Conv(·)表示1×1卷积核;
步骤(43)为发挥相邻卷积特征层在视觉语义上的互补性,根据卷积神经网络各特征层感受野大小的差异,以通道注意力增强后的视觉强化特征Ei为基础,通过跨尺度特征聚合模块融合相邻特征层形成特征金字塔{P3,P4,P5}:
P3=Conv(Pooling(E2)+E3+UpSampling(E4))
P4=Conv(Pooling(E3)+E4+UpSampling(E5))
P5=Conv(Pooling(E4)+E5)
其中,P5的特征生成不需要经过高层特征的上采样,因为本实施例采用的残差卷积神经网络模型ResNet50只经过了5次下采样,故特征层P5不需要上采样操作。
对于步骤(5),基于步骤(3)根据不同分辨率的特征层生成不同尺度候选目标的有效性,使用步骤(4)跨尺度聚合特征层来处理不同尺度的候选目标区域;多分支行人检测分为多尺度特征提取和目标检测两个部分,具体实现过程如下:
步骤(51)、在步骤(4)不同尺度特征聚合增强后的特征金字塔{P3,P4,P5}上,以步骤(3)多路径行人候选区域网络生成的行人候选框为基础,在各特征层上分别选取以置信度为排序依据的前300个候选框,并对每个候选框区域对应的特征金字塔{P3,P4,P5}进行特征提取,
在跨尺度特征聚合后的特征金字塔Pi={P3,P4,P5}上提取不同尺度行人特征,为统一特征维度,本实施例把各层金字塔特征对应的候选区域通过最大池化方式提取5×5的特征分辨率,并使用两个全连接层将特征映射到1024维,以输入到行人检测的分类和回归任务中;
步骤(52)、将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中,各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归训练,最小化不同尺度行人的检测错误率,
对于不同尺度集的候选区域使用对应的检测分支,每个分支使用各自的损失函数,实现对不同尺度目标的并行检测,在多路径行人候选区域推荐网络的基础上,根据行人目标尺度对应于Pi={P3,P4,P5}注意力增强后聚合特征的有效性,设计了基于尺度感知的多任务损失函数,具体的,基于行人目标尺度从多路径行人候选区域推荐网络中自适应选择的卷积特征层,并从训练数据中学习多任务损失函数对不同尺度目标在不同的卷积神经网络特征层上的权重参数,有效地融合不同尺度目标在不同特征层上的多任务损失,生成行人目标的候选框区域,以获取行人目标的较高召回率,本实施例所述基于尺度感知的多任务损失函数定义为:
Figure GDA0003486602930000091
Figure GDA0003486602930000092
Figure GDA0003486602930000093
其中M表示步骤(4)中注意力增强的特征金字塔Pi={P3,P4,P5}的层数,分别应于步骤(3)多路径行人候选区域推荐网络的路径数量,本实施例中M取值为3,Dm表示在不同空间分辨率下的行人训练数据集,ωm表示不同空间分辨率下的行人目标在相应卷积特征层上损失函数Lm(Xi,Yi|W)的尺度感知权重,其值是根据Gaussian函数求取;本实施例根据行人目标尺度在深度残差神经网络ResNet-50的不同卷积特征层上为行人目标像素高度在ResNet-50上{C3,C4,C5}的高度平均值取值分别为
Figure GDA0003486602930000094
Figure GDA0003486602930000095
其对应的行人目标高度覆盖范围取值为γ1=16,γ2=128和γ3=256。
对于步骤(6),将步骤(5)不同尺度聚合特征层上的检测结果做非极大值抑制处理,针对不同尺度的目标区域使用相应的非极大值抑制阈值处理,对于最后产生的结果再次经行筛选,具体实现过程如下:
步骤(61)由于上述不同分支网络模型的检测结果对应不同尺度的检测目标,因此使用动态非极大值抑制阈值对每个分支精细化检测结果,同时,由于不同尺度行人目标受背景因素影响的差异性,检测结果的置信度分布范围应不同,因此使用动态的置信度对检测结果进行筛选。
步骤(62)融合上述多分支行人检测的结果,由于不同分支检测结果可能存在交集,使用非极大值抑制方法解决此问题。
以上公开的仅为本发明的具体实施例,根据本发明提供的技术思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。

Claims (5)

1.一种基于跨尺度特征增强的多分支行人检测方法,其特征在于,通过以下步骤实现:
(1)为提高特征提取效率和候选框生成质量,将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率;
(2)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层;
(3)在深度卷积特征层上引入基于多路径的候选区域网络,根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集,以提高不同尺度行人目标的召回率;
(4)鉴于相邻卷积特征层在视觉语义上的互补性,在相邻卷积特征层上采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征,聚合形成特征金字塔提高行人语义特征的表征能力,具体为:(41)为增强不同尺度的特征信息,通过通道注意力机制强化不同层次特征,训练学习生成针对各特征层的加权融合矩阵Ai,生成注意力增强后的视觉语义特征Ei,假定不同尺度特征层输出特征Ci∈iD×W×H,将其进行卷积核为1×1的降维和下采样为Vi∈iD′×W×H,并将其特征维度重写为Vi∈iD′×N,N=W×H;通道注意力矩阵Ai定义为:
Ai=Softmax(ViVi T)
其中,Vi T∈iN×D′表示Vi∈iD′×N的转置矩阵;
经过通道注意力增强后的视觉语义特征Ei定义为:
Ei=νAiVi+Vi
其中,v是离线训练的尺度超参数,初始化为0,这样加权融合了通道注意力特征和原始尺度的卷积特征,以突出相应尺度的特征语义信息;
步骤(42)为聚合相邻卷积特征层上有效特征信息,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的注意力增强后的视觉语义特征Ei通过加权融合方式进行特征聚合,形成含有丰富语义信息的视觉强化特征Pi:Pi=Conv(Pooling(Ei-1)+Ei+UpSampling(Ei+1))
其中,Pooling(·)表示自下而上低层特征通过平均池化操作的连接,UpSampling(·)表示自上而下高层特征通过双线性插值的上采样连接,Conv(·)表示1×1卷积核;
步骤(43)为发挥相邻卷积特征层在视觉语义上的互补性,根据卷积神经网络各特征层感受野大小的差异,以通道注意力增强后的视觉语义特征Ei为基础,通过跨尺度特征聚合模块融合相邻特征层形成特征金字塔{P3,P4,P5}:
P3=Conv(Pooling(E2)+E3+UpSampling(E4))
P4=Conv(Pooling(E3)+E4+UpSampling(E5))
P5=Conv(Pooling(E4)+E5)
其中,P5的特征生成不需要经过高层特征的上采样;
(5)在步骤(4)跨尺度特征聚合后的特征金字塔上,根据步骤(3)多路径行人候选区域网络生成的行人候选区域集,训练生成具有尺度感知能力的多分支行人检测模型,其中各检测分支使用独立的损失函数进行联合学习,以最小化不同尺度行人的检测错误率;
(6)根据步骤(5)中训练生成的多分支行人检测模型,将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理,筛选出疑似行人目标;再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理,以减少虚警检测,优化最终的行人检测结果。
2.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(1)具体包括如下步骤:
(11)将输入图像等比例缩放到统一宽度像素Wmax或者高度像素Hmax,提高候选框对应的特征提取效率;
(12)在图像等比例缩放后,使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率Wmax×Hmax以满足行人候选框区域与其特征相对齐。
3.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(2)具体包括如下步骤:
(21)加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
(22)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征层{Conv1,Conv2,Conv3,Conv4,Conv5}。
4.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(3)具体包括如下步骤:
(31)在深度卷积特征层{Conv3,Conv4,Conv5}上分别引入一个独立的候选区域生成候选区域网络,各候选区域网络路径根据不同卷积特征层的有效感受野大小与行人高度进行最佳匹配,将行人目标按照行人高度分配到不同的候选框生成路径中,以分别感知行人真实标注框的高度范围分别为[inf,64]、[32,256]、[128,inf]的候选区域,并生成长宽比例为1:1和2:1的行人初始候选框,其中inf表示在不同图像中行人目标像素高度可能存在的数量;
(32)不同特征层候选区域网络路径针对不同尺寸范围大小的行人候选框独立地开展行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归得到行人候选框;
(33)对各候选区域网络路径生成的行人候选框分别进行非极大值抑制,以生成不同尺度行人的最优候选区域集。
5.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(5)具体包括如下步骤:
(51)在特征金字塔{P3,P4,P5}上,以步骤(3)多路径行人候选区域网络生成的行人候选框为基础,在各特征层上分别选取以置信度为排序依据的前300个候选框,并对每个候选框区域对应的特征金字塔{P3,P4,P5}进行特征提取,训练生成多分支行人检测模型;
(52)将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中,各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归训练,最小化不同尺度行人的检测错误率。
CN202111516697.4A 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法 Active CN113920468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111516697.4A CN113920468B (zh) 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111516697.4A CN113920468B (zh) 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法

Publications (2)

Publication Number Publication Date
CN113920468A CN113920468A (zh) 2022-01-11
CN113920468B true CN113920468B (zh) 2022-03-15

Family

ID=79249025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111516697.4A Active CN113920468B (zh) 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法

Country Status (1)

Country Link
CN (1) CN113920468B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639171B (zh) * 2022-05-18 2022-07-29 松立控股集团股份有限公司 一种停车场全景安全监控方法
CN115082902B (zh) * 2022-07-22 2022-11-11 松立控股集团股份有限公司 一种基于激光雷达点云的车辆目标检测方法
CN115375677B (zh) * 2022-10-24 2023-04-18 山东省计算中心(国家超级计算济南中心) 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN113743521A (zh) * 2021-09-10 2021-12-03 中国科学院软件研究所 一种基于多尺度上下文感知的目标检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108867B1 (en) * 2017-04-25 2018-10-23 Uber Technologies, Inc. Image-based pedestrian detection
CN109522958A (zh) * 2018-11-16 2019-03-26 中山大学 基于跨尺度特征融合的深度卷积神经网络目标检测方法
CN110781744A (zh) * 2019-09-23 2020-02-11 杭州电子科技大学 一种基于多层次特征融合的小尺度行人检测方法
FR3103938B1 (fr) * 2019-12-03 2021-11-12 Idemia Identity & Security France Procédé de détection d’au moins un élément d’intérêt visible dans une image d’entrée au moyen d’un réseau de neurones à convolution
CN111160249A (zh) * 2019-12-30 2020-05-15 西北工业大学深圳研究院 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN111860693A (zh) * 2020-07-31 2020-10-30 元神科技(杭州)有限公司 一种轻量级视觉目标检测方法及***
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN113743521A (zh) * 2021-09-10 2021-12-03 中国科学院软件研究所 一种基于多尺度上下文感知的目标检测方法

Also Published As

Publication number Publication date
CN113920468A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
WO2021244079A1 (zh) 智能家居环境中图像目标检测方法
WO2021139069A1 (zh) 自适应注意力指导机制的一般性目标检测方法
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111008633B (zh) 一种基于注意力机制的车牌字符分割方法
CN112766188B (zh) 一种基于改进yolo算法的小目标行人检测方法
Wang et al. Small-object detection based on yolo and dense block via image super-resolution
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及***
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
Fan et al. A novel sonar target detection and classification algorithm
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN117853955A (zh) 一种基于改进YOLOv5的无人机小目标检测方法
CN113344005B (zh) 一种基于优化小尺度特征的图像边缘检测方法
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN114283431A (zh) 一种基于可微分二值化的文本检测方法
CN115331254A (zh) 一种免锚框的实例人像语义解析方法
CN114387489A (zh) 电力设备识别方法、装置和终端设备
CN109614841B (zh) 嵌入式***中的快速人脸检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant