CN113312995B - 基于中轴线的无锚点车载行人检测方法 - Google Patents
基于中轴线的无锚点车载行人检测方法 Download PDFInfo
- Publication number
- CN113312995B CN113312995B CN202110542621.2A CN202110542621A CN113312995B CN 113312995 B CN113312995 B CN 113312995B CN 202110542621 A CN202110542621 A CN 202110542621A CN 113312995 B CN113312995 B CN 113312995B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- characteristic
- central axis
- feature
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了基于中轴线的无锚点车载行人检测方法。所述方法包括以下步骤:利用ResNet‑50网络提取车载图像特征并实施多次上采样和横向连接操作,构建特征金字塔;监督定位网络对特征金字塔每一层依次采样,获取特征采样点集合;对特征采样点集合进行分类,获得行人特征,根据行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整行人特征采样点位置,获得校正后的行人特征,再由校正后的行人特征采样点位置精准定位行人中轴线;将精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。本发明计算开销较小,车载行人检测鲁棒性较强。
Description
技术领域
本发明涉及计算机视觉的行人检测领域,具体涉及一种基于中轴线的无锚点车载行人检测方法。
背景技术
行人检测是计算机视觉研究领域的热门研究话题,是人体识别、自动驾驶、动作识别等应用的必要前提和关键组件,因此成为了业界的迫切需求。目前绝大多数行人检测器采用锚点框架,首先对输入图像铺设一系列尺度、长宽比例的锚点框作为粗略的目标假设,然后不断调整锚点框的位置和尺度,得到最终预测结果。但是锚点框架存在两方面不足:(1)与锚点框相关的超参数调优困难,不同超参数组合显著影响检测器精度;(2)车载视角行人分布不均匀,密集铺设锚点框引发严重冗余,计算开销大。因此,在时间要求和实时计算资源紧张情况下,采用无锚点框架是更好的选择,能够简化网络学习且计算开销较小。
在基准检测框架的选择上,现有文献(Wang X,Xiao T,Jiang Y,et al.Repulsionloss:Detecting pedestrians in a crowd[C].Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2018:7774-7783.)中所提RepPoints为通用目标检测框架,其核心思路是为每个目标学习一组特征采样点,再根据采样点位置估计目标外接矩形的位置和尺度。然而,车载视角下道路场景行人间或行人与其他物体间遮挡频发,部分行人分辨率较低,采用RepPoints方法难以精确地定位特征采样点,检测精度较低。因此,如何简洁、精确地定义行人位置和尺度是行人目标表示方法和网络学习目标设计的关键。
此外,RepPoints方法中采用可变形卷积在每个目标的规则网格采样位置增加一项二维的偏移量,使卷积核感受域具有自适应性,用于行人检测任务中有利于建模行人运动导致的形变,可用于对行人特征采样点位置进行校正,该可变形卷积初始化形状为正方形,因而初始采样范围也为正方形。然而,在车载视角下,行人目标大多接近“瘦高”的矩形,与可变形卷积初始采样范围宽高比例不匹配,难以使得所有行人特征点都能在网络训练的同一次反向传播中得到合适的校正。因此,对可变形卷积初始化方式进行适当调整,是提升特征采样准确度的关键。
发明内容
本发明的目的在于克服现有技术的缺点,提出基于中轴线的无锚点车载行人检测方法,包括利用ResNet-50提取车载图像特征并构建特征金字塔;设计行人中轴线及中轴线回归损失函数,监督网络采样特征金字塔,获取特征采样点集合;分类特征采样点集合,获得行人特征,初步定位行人中轴线;设计可变形卷积调整行人特征点位置,并精准定位行人中轴线;设计行人中轴线至行人外接矩形的转换算法,定位车载图像中的行人。本方法基于无锚点深度学习算法,计算开销较小,车载行人检测鲁棒性较强。。
本发明的目的至少通过如下技术方案之一实现。
基于中轴线的无锚点车载行人检测方法,包括以下步骤:
S1、利用ResNet-50网络提取车载图像特征,对ResNet-50网络输出的特征图实施多次上采样和横向连接操作,构建特征金字塔;
S2、设计行人中轴线及中轴线回归损失函数,监督定位网络对特征金字塔每一层依次采样,以各层特征图中每个像素点为中心位置学习特征采样点,获取特征采样点集合;
S3、对特征采样点集合进行分类,获得行人特征,根据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;
S4、设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整步骤S3中行人特征采样点位置,获得校正后的行人特征,再依据步骤S2中行人中轴线表达式由校正后的行人特征采样点位置精准定位行人中轴线;
S5、设计行人中轴线至行人外接矩形转换算法,将步骤S4中所得精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。
进一步地,步骤S1中,ResNet-50网络包括第一阶段C1至第五阶段C5,其中第二阶段C2至第五阶段C5均由指定数量相似的残差块串联而成,同一阶段内各残差块输出的特征图的分辨率相同,每个残差块由标准卷积块(Conv Block)和识别块(Identity Block)组成;标准卷积块的输入和输出维度不同,其作用是改变特征向量的维度;识别块的输入和输出维度相同,因此可以实现串联结构;
ResNet-50网络的核心思想是通过重复叠加残差块以加深网络深度,使得网络能够应对更加复杂的学习任务;
ResNet-50网络中各相邻阶段间存在二倍的下采样关系,每次下采样后特征图尺度在长宽维度上均缩小为前一阶段的二分之一;最终提取的车载图像特征的集合为第二阶段C2至第五阶段C5四个阶段最后输出的特征图组成的集合。
进一步地,步骤S1中,所述上采样操作为两倍上采样操作,是指通过最邻近插值法将特征图的长度和宽度均扩展至原始尺寸的两倍;将ResNet-50网络的第五阶段C5输出的特征图通过1×1卷积操作后得到的特征图记为第五特征图M5,对第五特征图M5自顶向下实施三次两倍的上采样操作得到三张特征图,分别与ResNet-50网络第四阶段C4、第三阶段C3和第二阶段C2输出的特征图的分辨率保持一致;
所述横向连接操作指将三次两倍上采样操作所得特征图分别与ResNet-50中第四阶段C4、第三阶段C3和第二阶段C2输出的特征图经1×1卷积操作统一通道数后进行元素相加,分别得到第四特征图M4、第三特征图M3和第二特征图M2。
进一步地,步骤S1中,所述特征金字塔共有四个层级,构建过程为:对第二特征图M2、第三特征图M3第四特征图M4和第五特征图M5分别进行3×3卷积计算,分别得到包括第一层级P2至第四层级P5的四层特征金字塔。
进一步地,步骤S2中,所述定位网络包括三个三个堆叠的标准3×3缓冲卷积层、一个3×3的标准卷积层和一个1×1卷积层;
三个堆叠的标准3×3缓冲卷积层的输出维度都是256,后接一个输出维度为256的3×3的标准卷积层和一个1×1卷积层,卷积层的输出维度为2n,其中n为一组特征采样点的个数;
定位网络以特征金字塔的第一层级P2至第四层级P5的特征图为输入,分别进行采样,输出的特征图中每个像素点位置包括2n维的特征向量,表示以该位置为初始化中心点的偏移量;接下来定位网络通过若干卷积层获取特征采样点集合;特征采样点集合中每个元素为一组特征采样点,记为其中(xk,yk)为特征采样点组中第k个点的坐标,一组共包括n个特征采样点。
进一步地,步骤S2中,假设l表示行人的中轴线,则其具体表达式如下:
l=(xcenter,ytop,ybottom);
其中,以输入的车载图像的左上角为坐标系原点,xcenter表示行人中轴线的几何中心点在x轴方向上的坐标值,ytop和ybottom分别表示行人中轴线的上顶点和下顶点在y轴方向上的坐标值;
采用中轴线回归损失函数监督定位网络采样特征金字塔,定位网络的训练过程具体如下:
S2.1、对边界框形式的行人原始标注作出转换,获取中轴线标注;假设G=(xtl,ytl,w,h)为原始矩形标注框,其中xtl和ytl分别表示标注框左上角点的横、纵坐标值,w和h分别表示宽度和高度,则通过如下公式得到与行人的中轴线l形式相同的中轴线标注g:
S2.2、对预测所得全部中轴线l与对应标注g计算回归损失,所述中轴线回归损失函数公式如下:
其中,Np表示正样本总数,i表示正样本集合中样本序号,所采用的SmoothL1回归损失函数的表达式如下:
进一步地,步骤S3具体包括以下步骤:
S3.1、构造分类网络,首先包括三个堆叠的标准3×3缓冲卷积层,输出维度都是256;三个缓冲卷积层后接一个输出维度为256的3×3的可变形卷积层和一个输出维度为2的1×1卷积层,即输出的分类得分图通道数为2,分别对应于当前位置目标属于‘行人类’和‘非行人类’的概率;
S3.2、将步骤S2中得到的特征采样点集合输入分类网络,对应分类输出结果为‘行人类’的特征采样点组构成的行人特征,行人特征的输出通道数与分类网络的输入通道数保持一致;每组特征采样点记为其中(xk,yk)为行人特征采样点组中第k个点的坐标;分类网络的训练过程中分类阶段所使用的损失函数为焦点损失函数,其计算公式如下:
其中,(x,y)为步骤S2中特征采样点组在分类网络输入特征图上的初始化中心点位置,px,y为分类网络的输出,表示该组特征采样点属于‘行人类’的概率,cx,y表示该组特征采样点对应的真实标签,当真实标签为‘行人类’时cx,y的值为1,否则为-1;α为用于平衡正负样本数量的权重因子,γ为用于平衡难易样本数量的衰减因子;
S3.3、依据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线。
进一步地,步骤S3.3中,以一个行人样本为例,分别提取一组特征采样点Rinitial中所有元素的横坐标和纵坐标构成初步定位x坐标集合和初步定位y坐标集合再对中轴线几何中心点横坐标、上顶点和下顶点的纵坐标分别进行估计,初步定位行人中轴线公式如下:
进一步地,步骤S4中,所述可变形卷积指根据行人样本宽高比例统计结果调整基础偏移量初始化参数后的可变形卷积,具体如下:
假设dx表示可变形卷积基础偏移量中沿x轴方向偏移单位距离的大小,dy表示可变形卷积基础偏移量中沿y轴方向的偏移单位距离大小,定义λ=dy/dx为可变形卷积的初始偏移比例系数,在调整过程中固定dx的值,只改变dy的值,使得λ值为4,实现对可变形卷积基础偏移量的初始化,此时可变形卷积的初始采样范围比例与行人宽高比例对齐;
基于可变形卷积构建特征校正模块,对步骤S3中所得到的行人特征采样点的位置进行调整,获得校正后的行人特征,具体如下:
特征校正模块首先包括一层输出维度为256的3×3的可变形卷积层,后接一层输出维度为2n的1×1的卷积层,其中n为一组特征采样点的个数。
进一步地,以一个行人样本为例,以表示步骤S3中所获的一组行人特征采样点,采用特征校正模块在Rinitial基础上沿x轴和y轴方向学习一组二维偏移量,记校正后的一组行人特征采样点为Rrefine,则其表达式如下:
其中,n代表一组行人特征采样点中特征点的个数,Δxk和Δyk分别表示在x轴方向和y轴方向上学习的偏移量;校正后的行人特征通道数与校正前的行人特征通道数保持一致;
依据步骤S2中行人中轴线的表达式由校正后的行人特征采样点的位置精准定位行人中轴线,具体如下:
首先分别提取校正后的行人特征采样点组Rrefine中所有元素的横坐标和纵坐标构成精准定位x坐标集合和精准定位x坐标集合再将精准定位x坐标集合Rx+Δx中所有元素的平均值、精准定位x坐标集合Ry+Δy中所有元素的极小值和极大值,分别作为行人中轴线几何中心点的横坐标值、上顶点和下顶点的纵坐标值,得到精准定位的行人中轴线l2,其表达式为三项坐标的具体计算公式如下:
进一步地,步骤S5中,所述行人中轴线至行人外接矩形转换算法,是指基于步骤S2中行人中轴线表达式l=(xcenter,ytop,ybottom),根据行人统一宽高比例r接近0.41的先验知识将步骤S4中得到的精准定位的行人中轴线转换得到精准的行人外接矩形,完成车载图像中行人的定位,具体如下:
假设行人外接矩形表达式为BBox=(xb,yb,wb,hb),其中wb=r·hb,则行人外接矩形左上角点的横坐标xb,纵坐标yb和高度hb通过下列公式求解:
本发明与现有技术相比,具有如下优点与有益效果:
1)设计三维中轴线表示行人并将其作为回归目标,在特征采样环节不引入非目标信息,利于检测遮挡行人;与四维行人外接矩形表示相比简化网络学习目标,利于检测小尺度行人;
2)对原始可变形卷积的初始化方式进行调整,使其采样范围与行人宽高比例对齐,提升特征采样位置学习的均衡性,为检测精度带来增益;
3)采用无锚点深度学习框架,无需进行锚点超参数调优,计算开销较小,车载行人检测鲁棒性较强。
附图说明
图1为发明实施例中基于中轴线的无锚点车载行人检测方法原理图;
图2为发明实施例中由ResNet-50网络提取图像特征并构建特征金字塔示意图;
图3为本发明实施例中行人检测网络结构图;
图4为本发明实施例中可变形卷积初始化示意图。
具体实施方式
提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解,但是这些被认为仅仅是示例性的。
在下面的描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用使得能够清楚和一致地理解本公开。因此,本领域技术人员应该清楚,提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求及其等同物限定的本公开。
实施例:
基于中轴线的无锚点车载行人检测方法,如图1所示,包括以下步骤:
S1、利用ResNet-50网络提取车载图像特征,如图2所示,ResNet-50网络包括第一阶段C1至第五阶段C5,其中第二阶段C2至第五阶段C5均由指定数量相似的残差块串联而成,同一阶段内各残差块输出的特征图的分辨率相同,每个残差块由标准卷积块(ConvBlock)和识别块(Identity Block)组成;标准卷积块的输入和输出维度不同,其作用是改变特征向量的维度;识别块的输入和输出维度相同,因此可以实现串联结构;
ResNet-50网络的核心思想是通过重复叠加残差块以加深网络深度,使得网络能够应对更加复杂的学习任务;
ResNet-50网络中各相邻阶段间存在二倍的下采样关系,每次下采样后特征图尺度在长宽维度上均缩小为前一阶段的二分之一;最终提取的车载图像特征的集合为第二阶段C2至第五阶段C5四个阶段最后输出的特征图组成的集合。
对ResNet-50网络输出的特征图实施多次上采样和横向连接操作,构建特征金字塔;
所述上采样操作为两倍上采样操作,是指通过最邻近插值法将特征图的长度和宽度均扩展至原始尺寸的两倍;将ResNet-50网络的第五阶段C5输出的特征图通过1×1卷积操作后得到的特征图记为第五特征图M5,对第五特征图M5自顶向下实施三次两倍的上采样操作得到三张特征图,分别与ResNet-50网络第四阶段C4、第三阶段C3和第二阶段C2输出的特征图的分辨率保持一致;
所述横向连接操作指将三次两倍上采样操作所得特征图分别与ResNet-50中第四阶段C4、第三阶段C3和第二阶段C2输出的特征图经1×1卷积操作统一通道数后进行元素相加,分别得到第四特征图M4、第三特征图M3和第二特征图M2。
所述特征金字塔共有四个层级,构建过程为:对第二特征图M2、第三特征图M3第四特征图M4和第五特征图M5分别进行3×3卷积计算,分别得到包括第一层级P2至第四层级P5的四层特征金字塔。
S2、设计行人中轴线及中轴线回归损失函数,监督定位网络对特征金字塔每一层依次采样,以各层特征图中每个像素点为中心位置学习特征采样点,获取特征采样点集合;
如图3所示,所述定位网络包括三个三个堆叠的标准3×3缓冲卷积层、一个3×3的标准卷积层和一个1×1卷积层;
三个堆叠的标准3×3缓冲卷积层的输出维度都是256,后接一个输出维度为256的3×3的标准卷积层和一个1×1卷积层,卷积层的输出维度为2n,其中n为一组特征采样点的个数;
定位网络以特征金字塔的第一层级P2至第四层级P5的特征图为输入,分别进行采样,输出的特征图中每个像素点位置包括2n维的特征向量,表示以该位置为初始化中心点的偏移量;接下来定位网络通过若干卷积层获取特征采样点集合;特征采样点集合中每个元素为一组特征采样点,记为其中(xk,yk)为特征采样点组中第k个点的坐标,一组共包括n个特征采样点。
假设l表示行人的中轴线,则其具体表达式如下:
l=(xcenter,ytop,ybottom);
其中,以输入的车载图像的左上角为坐标系原点,xcenter表示行人中轴线的几何中心点在x轴方向上的坐标值,ytop和ybottom分别表示行人中轴线的上顶点和下顶点在y轴方向上的坐标值;
采用中轴线回归损失函数监督定位网络采样特征金字塔,定位网络的训练过程具体如下:
S2.1、对边界框形式的行人原始标注作出转换,获取中轴线标注;假设G=(xtl,ytl,w,h)为原始矩形标注框,其中xtl和ytl分别表示标注框左上角点的横、纵坐标值,w和h分别表示宽度和高度,则通过如下公式得到与行人的中轴线l形式相同的中轴线标注g:
S2.2、对预测所得全部中轴线l与对应标注g计算回归损失,所述中轴线回归损失函数公式如下:
其中,Np表示正样本总数,i表示正样本集合中样本序号,所采用的SmoothL1回归损失函数的表达式如下:
本实施例中,一组特征采样点共包含9个特征采样点。
S3、对特征采样点集合进行分类,获得行人特征,根据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线,具体包括以下步骤:
S3.1、构造分类网络,如图3所示,首先包括三个堆叠的标准3×3缓冲卷积层,输出维度都是256;三个缓冲卷积层后接一个输出维度为256的3×3的可变形卷积层和一个输出维度为2的1×1卷积层,即输出的分类得分图通道数为2,分别对应于当前位置目标属于‘行人类’和‘非行人类’的概率;
S3.2、将步骤S2中得到的特征采样点集合输入分类网络,对应分类输出结果为‘行人类’的特征采样点组构成的行人特征,行人特征的输出通道数与分类网络的输入通道数保持一致;每组特征采样点记为其中(xk,yk)为行人特征采样点组中第k个点的坐标;分类网络的训练过程中分类阶段所使用的损失函数为焦点损失函数,其计算公式如下:
其中,(x,y)为步骤S2中特征采样点组在分类网络输入特征图上的初始化中心点位置,px,y为分类网络的输出,表示该组特征采样点属于‘行人类’的概率,cx,y表示该组特征采样点对应的真实标签,当真实标签为‘行人类’时cx,y的值为1,否则为-1;α为用于平衡正负样本数量的权重因子,γ为用于平衡难易样本数量的衰减因子;
本实施例中,权重因子α的值设为0.25,衰减因子γ的值设为2。
S3.3、依据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;
以一个行人样本为例,分别提取一组行人特征采样点Rinitial中所有元素的横坐标和纵坐标构成初步定位x坐标集合和初步定位y坐标集合再对中轴线几何中心点横坐标、上顶点和下顶点的纵坐标分别进行估计,初步定位行人中轴线公式如下:
S4、设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整步骤S3中行人特征采样点位置,获得校正后的行人特征,再依据步骤S2中行人中轴线表达式由校正后的行人特征采样点位置精准定位行人中轴线;
所述可变形卷积指根据行人样本宽高比例统计结果调整基础偏移量初始化参数后的可变形卷积,如图4所示,具体如下:
假设dx表示可变形卷积基础偏移量中沿x轴方向偏移单位距离的大小,dy表示可变形卷积基础偏移量中沿y轴方向的偏移单位距离大小,定义λ=dy/dx为可变形卷积的初始偏移比例系数,原始可变形卷积的初始比例为正方形,如图4中左图所示;在调整过程中固定dx的值,只改变dy的值,使得λ值为4,实现对可变形卷积基础偏移量的初始化,此时可变形卷积的初始采样范围比例与行人宽高比例对齐;
本实施例中,可变形卷积的沿x轴方向偏移单位距离dx的值设为1,沿y轴方向偏移单位距离dy的值设为4,因此初始偏移比例系数λ的值为4。
基于可变形卷积构建特征校正模块,对步骤S3中所得到的行人特征采样点的位置进行调整,获得校正后的行人特征,具体如下:
特征校正模块首先包括一层输出维度为256的3×3的可变形卷积层,后接一层输出维度为2n的1×1的卷积层,其中n为一组特征采样点的个数。
以一个行人样本为例,以表示步骤S3中所获的一组行人特征采样点,采用特征校正模块在Rinitial基础上沿x轴和y轴方向学习一组二维偏移量,记校正后的一组行人特征采样点为Rrefine,则其表达式如下:
其中,n代表一组行人特征采样点中特征点的个数,Δxk和Δyk分别表示在x轴方向和y轴方向上学习的偏移量;校正后的行人特征通道数与校正前的行人特征通道数保持一致;
依据步骤S2中行人中轴线的表达式由校正后的行人特征采样点的位置精准定位行人中轴线,具体如下:
首先分别提取校正后的行人特征采样点组Rrefine中所有元素的横坐标和纵坐标构成精准定位x坐标集合和精准定位x坐标集合再将精准定位x坐标集合Rx+Δx中所有元素的平均值、精准定位x坐标集合Ry+Δy中所有元素的极小值和极大值,分别作为行人中轴线几何中心点的横坐标值、上顶点和下顶点的纵坐标值,得到精准定位的行人中轴线l2,其表达式为三项坐标的具体计算公式如下:
S5、设计行人中轴线至行人外接矩形转换算法,将步骤S4中所得精准行人中轴线转换至行人外接矩形,定位车载图像中的行人;
所述行人中轴线至行人外接矩形转换算法,是指基于步骤S2中行人中轴线表达式l=(xcenter,ytop,ybottom),根据行人统一宽高比例r接近0.41的先验知识将步骤S4中得到的精准定位的行人中轴线转换得到精准的行人外接矩形,完成车载图像中行人的定位,具体如下:
假设行人外接矩形表达式为BBox=(xb,yb,wb,hb),其中wb=r·hb,则行人外接矩形左上角点的横坐标xb,纵坐标yb和高度hb通过下列公式求解:
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.基于中轴线的无锚点车载行人检测方法,其特征在于,包括以下步骤:
S1、利用ResNet-50网络提取车载图像特征,对ResNet-50网络输出的特征图实施多次上采样和横向连接操作,构建特征金字塔;ResNet-50网络包括第一阶段C1至第五阶段C5,其中第二阶段C2至第五阶段C5均由指定数量相似的残差块串联而成,同一阶段内各残差块输出的特征图的分辨率相同,每个残差块由标准卷积块(Conv Block)和识别块(IdentityBlock)组成;所述上采样操作为两倍上采样操作,是指通过最邻近插值法将特征图的长度和宽度均扩展至原始尺寸的两倍;将ResNet-50网络的第五阶段C5输出的特征图通过1×1卷积操作后得到的特征图记为第五特征图M5,对第五特征图M5自顶向下实施三次两倍的上采样操作得到三张特征图,分别与ResNet-50网络第四阶段C4、第三阶段C3和第二阶段C2输出的特征图的分辨率保持一致;
所述横向连接操作指将三次两倍上采样操作所得特征图分别与ResNet-50中第四阶段C4、第三阶段C3和第二阶段C2输出的特征图经1×1卷积操作统一通道数后进行元素相加,分别得到第四特征图M4、第三特征图M3和第二特征图M2;
所述特征金字塔共有四个层级,构建过程为:对第二特征图M2、第三特征图M3第四特征图M4和第五特征图M5分别进行3×3卷积计算,分别得到包括第一层级P2至第四层级P5的四层特征金字塔;
ResNet-50网络中各相邻阶段间存在二倍的下采样关系,每次下采样后特征图尺度在长宽维度上均缩小为前一阶段的二分之一;最终提取的车载图像特征的集合为第二阶段C2至第五阶段C5四个阶段最后输出的特征图组成的集合;
S2、设计行人中轴线及中轴线回归损失函数,监督定位网络对特征金字塔每一层依次采样,以各层特征图中每个像素点为中心位置学习特征采样点,获取特征采样点集合;所述定位网络包括三个三个堆叠的标准3×3缓冲卷积层、一个3×3的标准卷积层和一个1×1卷积层;
三个堆叠的标准3×3缓冲卷积层的输出维度都是256,后接一个输出维度为256的3×3的标准卷积层和一个1×1卷积层,卷积层的输出维度为2n,其中n为一组特征采样点的个数;
定位网络以特征金字塔的第一层级P2至第四层级P5的特征图为输入,分别进行采样,输出的特征图中每个像素点位置包括2n维的特征向量,表示以该位置为初始化中心点的偏移量;接下来定位网络通过若干卷积层获取特征采样点集合;特征采样点集合中每个元素为一组特征采样点,记为其中(xk,yk)为特征采样点组中第k个点的坐标,一组共包括n个特征采样点;假设l表示行人的中轴线,则其具体表达式如下:
l=(xcenter,ytop,ybottom);
其中,以输入的车载图像的左上角为坐标系原点,xcenter表示行人中轴线的几何中心点在x轴方向上的坐标值,ytop和ybottom分别表示行人中轴线的上顶点和下顶点在y轴方向上的坐标值;
采用中轴线回归损失函数监督定位网络采样特征金字塔,定位网络的训练过程具体如下:
S2.1、对边界框形式的行人原始标注作出转换,获取中轴线标注;假设G=(xtl,ytl,w,h)为原始矩形标注框,其中xtl和ytl分别表示标注框左上角点的横、纵坐标值,w和h分别表示宽度和高度,则通过如下公式得到与行人的中轴线l形式相同的中轴线标注g:
S2.2、对预测所得全部中轴线l与对应标注g计算回归损失,所述中轴线回归损失函数公式如下:
其中,Np表示正样本总数,i表示正样本集合中样本序号,所采用的SmoothL1回归损失函数的表达式如下:
S3、对特征采样点集合进行分类,获得行人特征,根据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;具体包括以下步骤:
S3.1、构造分类网络,首先包括三个堆叠的标准3×3缓冲卷积层,输出维度都是256;三个缓冲卷积层后接一个输出维度为256的3×3的可变形卷积层和一个输出维度为2的1×1卷积层,即输出的分类得分图通道数为2,分别对应于当前位置目标属于‘行人类’和‘非行人类’的概率;
S3.2、将步骤S2中得到的特征采样点集合输入分类网络,对应分类输出结果为‘行人类’的特征采样点组构成的行人特征,行人特征的输出通道数与分类网络的输入通道数保持一致;每组特征采样点记为其中(xk,yk)为行人特征采样点组中第k个点的坐标;分类网络的训练过程中分类阶段所使用的损失函数为焦点损失函数,其计算公式如下:
其中,(x,y)为步骤S2中特征采样点组在分类网络输入特征图上的初始化中心点位置,px,y为分类网络的输出,表示该组特征采样点属于‘行人类’的概率,cx,y表示该组特征采样点对应的真实标签,当真实标签为‘行人类’时cx,y的值为1,否则为-1;α为用于平衡正负样本数量的权重因子,γ为用于平衡难易样本数量的衰减因子;
S3.3、依据步骤S2中行人中轴线的表达式由行人特征采样点的位置初步定位行人中轴线;
S4、设计可变形卷积,使其初始采样范围比例与行人宽高比例对齐,并调整步骤S3中行人特征采样点位置,获得校正后的行人特征,再依据步骤S2中行人中轴线表达式由校正后的行人特征采样点位置精准定位行人中轴线;
S5、设计行人中轴线至行人外接矩形转换算法,将步骤S4中所得精准行人中轴线转换至行人外接矩形,定位车载图像中的行人。
3.根据权利要求2所述基于中轴线的无锚点车载行人检测方法,其特征在于,步骤S4中,所述可变形卷积指根据行人样本宽高比例统计结果调整基础偏移量初始化参数后的可变形卷积,具体如下:
假设dx表示可变形卷积基础偏移量中沿x轴方向偏移单位距离的大小,dy表示可变形卷积基础偏移量中沿y轴方向的偏移单位距离大小,定义λ=dy/dx为可变形卷积的初始偏移比例系数,在调整过程中固定dx的值,只改变dy的值,使得λ值为4,实现对可变形卷积基础偏移量的初始化,此时可变形卷积的初始采样范围比例与行人宽高比例对齐;
基于可变形卷积构建特征校正模块,对步骤S3中所得到的行人特征采样点的位置进行调整,获得校正后的行人特征,具体如下:
特征校正模块首先包括一层输出维度为256的3×3的可变形卷积层,后接一层输出维度为2n的1×1的卷积层,其中n为一组行人特征采样点的个数。
4.根据权利要求3所述基于中轴线的无锚点车载行人检测方法,其特征在于,以一个行人样本为例,以表示步骤S3中所获的一组行人特征采样点,采用特征校正模块在Rinitial基础上沿x轴和y轴方向学习一组二维偏移量,记校正后的一组行人特征采样点为Rrefine,则其表达式如下:
其中,n代表校正后的一组行人特征采样点中特征点的个数,Δxk和Δyk分别表示在x轴方向和y轴方向上学习的偏移量;校正后的行人特征通道数与校正前的行人特征通道数保持一致;
依据步骤S2中行人中轴线的表达式由校正后的行人特征采样点的位置精准定位行人中轴线,具体如下:
首先分别提取校正后的行人特征采样点组Rrefine中所有元素的横坐标和纵坐标构成精准定位x坐标集合和精准定位x坐标集合再将精准定位x坐标集合Rx+Δx中所有元素的平均值、精准定位x坐标集合Ry+Δy中所有元素的极小值和极大值,分别作为行人中轴线几何中心点的横坐标值、上顶点和下顶点的纵坐标值,得到精准定位的行人中轴线l2,其表达式为三项坐标的具体计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542621.2A CN113312995B (zh) | 2021-05-18 | 2021-05-18 | 基于中轴线的无锚点车载行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110542621.2A CN113312995B (zh) | 2021-05-18 | 2021-05-18 | 基于中轴线的无锚点车载行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312995A CN113312995A (zh) | 2021-08-27 |
CN113312995B true CN113312995B (zh) | 2023-02-14 |
Family
ID=77373495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110542621.2A Active CN113312995B (zh) | 2021-05-18 | 2021-05-18 | 基于中轴线的无锚点车载行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312995B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110053583A (zh) * | 2019-04-03 | 2019-07-26 | 广州小鹏汽车科技有限公司 | 一种车辆解锁时的人车交互方法、***及车辆 |
CN111461002A (zh) * | 2020-03-31 | 2020-07-28 | 华南理工大学 | 一种面向热成像行人检测的样本处理方法 |
CN111461217A (zh) * | 2020-03-31 | 2020-07-28 | 华南理工大学 | 一种基于特征融合和上采样的航拍图像小目标检测方法 |
WO2020215552A1 (zh) * | 2019-04-26 | 2020-10-29 | 平安科技(深圳)有限公司 | 多目标跟踪方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016006626A (ja) * | 2014-05-28 | 2016-01-14 | 株式会社デンソーアイティーラボラトリ | 検知装置、検知プログラム、検知方法、車両、パラメータ算出装置、パラメータ算出プログラムおよびパラメータ算出方法 |
CN108399362B (zh) * | 2018-01-24 | 2022-01-07 | 中山大学 | 一种快速行人检测方法及装置 |
-
2021
- 2021-05-18 CN CN202110542621.2A patent/CN113312995B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110053583A (zh) * | 2019-04-03 | 2019-07-26 | 广州小鹏汽车科技有限公司 | 一种车辆解锁时的人车交互方法、***及车辆 |
WO2020215552A1 (zh) * | 2019-04-26 | 2020-10-29 | 平安科技(深圳)有限公司 | 多目标跟踪方法、装置、计算机设备及存储介质 |
CN111461002A (zh) * | 2020-03-31 | 2020-07-28 | 华南理工大学 | 一种面向热成像行人检测的样本处理方法 |
CN111461217A (zh) * | 2020-03-31 | 2020-07-28 | 华南理工大学 | 一种基于特征融合和上采样的航拍图像小目标检测方法 |
Non-Patent Citations (2)
Title |
---|
基于Anchor-free架构的行人检测方法;张庆伍等;《信息技术与网络安全》;20200410(第04期);第43-47页 * |
基于该算法细胞拓扑定位和时间定位特征聚合的小规模行人检测方法体;宋涛 等;《arXiv :1807.01438》;20180704;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113312995A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705457B (zh) | 一种遥感影像建筑物变化检测方法 | |
CN109522966B (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN103295239B (zh) | 一种基于平面基准影像的激光点云数据的自动配准方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN109241913A (zh) | 结合显著性检测和深度学习的船只检测方法及*** | |
CN111986240A (zh) | 基于可见光和热成像数据融合的落水人员检测方法及*** | |
CN105809693A (zh) | 基于深度神经网络的sar图像配准方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及*** | |
CN111460894B (zh) | 一种基于卷积神经网络的车标智能检测方法 | |
CN110717493B (zh) | 一种基于深度学习的含堆叠字符的车牌识别方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN111414954A (zh) | 一种岩石图像检索方法及其*** | |
CN112633088B (zh) | 一种基于航拍图像中光伏组件识别的电站容量估测方法 | |
CN116343053B (zh) | 基于光学遥感影像和sar遥感影像融合的固废自动提取方法 | |
CN109376641A (zh) | 一种基于无人机航拍视频的运动车辆检测方法 | |
CN113420619A (zh) | 一种遥感影像建筑物提取方法 | |
CN114494870A (zh) | 一种双时相遥感图像变化检测方法、模型构建方法和装置 | |
CN113160291B (zh) | 一种基于图像配准的变化检测方法 | |
CN103455798B (zh) | 基于最大几何流向直方图的人体检测方法 | |
CN116310837B (zh) | 一种sar舰船目标旋转检测方法及*** | |
CN111144203B (zh) | 一种基于深度学习的行人遮挡检测方法 | |
CN113312995B (zh) | 基于中轴线的无锚点车载行人检测方法 | |
CN117152601A (zh) | 一种基于动态感知区域路由的水下目标检测方法及*** | |
CN116934820A (zh) | 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及*** | |
CN116385477A (zh) | 一种基于图像分割的杆塔图像配准方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |