CN111814755A

CN111814755A - 面向夜间运动场景的多帧图像行人检测方法和装置

Info

Publication number: CN111814755A
Application number: CN202010832374.5A
Authority: CN
Inventors: 陈海波; 罗志鹏; 徐振宇; 姚粤汉
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-10-23

Abstract

本发明提供一种面向夜间运动场景的多帧图像行人检测方法和装置，所述方法包括以下步骤：获取包含多个夜间多帧图像的数据集，并对所述数据集中的夜间多帧图像进行增强处理；构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，得到行人检测模型；通过所述行人检测模型对待检测夜间多帧图像进行行人检测。本发明能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

Description

面向夜间运动场景的多帧图像行人检测方法和装置

技术领域

本发明涉及目标检测技术领域，具体涉及一种面向夜间运动场景的多帧图像行人检测方法、一种面向夜间运动场景的多帧图像行人检测装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。

背景技术

随着计算机存储能力和计算能力大幅提升，视频信息作为一种信息的媒介越来越多地出现日常生活中，因此，对视频的处理和分析也显得尤为重要。作为视频分析中的基本问题，视频目标检测一直都是工业界和商业界的研究热点。视频行人自动检测技术在智能交通、无人驾驶、智能视频监控等领域有着广泛的应用，但由于行人运动时形变较大、姿态各异、遮挡阴影等问题，视频行人检测领域面临着巨大挑战。特别地，夜间视频序列由于其自身光照强度弱、图像噪声大等问题，研究工作更加难取得突出成效。

发明内容

本发明为解决上述技术问题，提供了一种面向夜间运动场景的多帧图像行人检测方法和装置，能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

本发明采用的技术方案如下：

一种面向夜间运动场景的多帧图像行人检测方法，包括以下步骤：获取包含多个夜间多帧图像的数据集，并对所述数据集中的夜间多帧图像进行增强处理；构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据多帧图像的帧间IOU(Intersection Over Union，交并比)值对行人目标进行判断，得到行人检测模型；通过所述行人检测模型对待检测夜间多帧图像进行行人检测。

对所述数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强。

所述主干网络为ResNeXt，所述双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络。

训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，包括：对训练得到的检测框进行过滤操作，将类别得分大于第一阈值θ的检测框留下，设为Boxes1，对于当前帧，首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值，对每个检测框的最大IOU值进行判断，如果最大IOU值大于第二阈值σ，则认为此检测框检测正确，反之，如果最大IOU值小于第二阈值σ，则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε，且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T，如果均大于相应阈值，则当前帧的检测框错误。

训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器，

b＝(b_x,b_y,b_w,b_h)

为保证回归操作对尺度、位置的不变性，L_loc操作对应的向量Δ＝(δ_x,δ_y,δ_w,δ_h)，

对Δ做正则化操作：

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

其中，T表示Cascade RCNN叠加的总分支数，t表示当前的分支，Cascade RCNN中每个分支f_t通过各个分支上的训练数据b_t优化，b_t来源于b₁经过之前所有分支输出后的结果，λ为加权系数，λ＝1，[y^t≥1]表示只在正样本中计算回归损失，y^t是x^t按照上式和u_t计算出来的label。

一种面向夜间运动场景的多帧图像行人检测装置，包括：增强模块，所述增强模块用于获取包含多个夜间多帧图像的数据集，并对所述数据集中的夜间多帧图像进行增强处理；构建模块，所述构建模块用于构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；训练模块，所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，得到行人检测模型；检测模块，所述检测模块用于通过所述行人检测模型对待检测夜间多帧图像进行行人检测。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述面向夜间运动场景的多帧图像行人检测方法。

一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述面向夜间运动场景的多帧图像行人检测方法。

一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行上述面向夜间运动场景的多帧图像行人检测方法。

本发明的有益效果：

本发明通过将增强处理后的多帧图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，在预测网络中设置双分支结构，以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断，所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

附图说明

图1为本发明实施例的面向夜间运动场景的多帧图像行人检测方法的流程图；

图2为本发明一个实施例的特征提取网络的结构示意图；

图3为本发明一个实施例的RPN的结构示意图；

图4为本发明一个实施例的Cascade RCNN的结构示意图；

图5为本发明一个实施例的Double Head的结构示意图

图6为本发明实施例的面向夜间运动场景的多帧图像行人检测装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的面向夜间运动场景的多帧图像行人检测方法包括以下步骤：

S1，获取包含多个夜间多帧图像的数据集，并对数据集中的夜间多帧图像进行增强处理。

其中，数据集中可包含大量的夜间运动场景下拍摄得到的多帧图像，例如可以为对应道路处设置的摄像头在夜间拍摄得到的视频或gif格式的图像等，部分多帧图像中包含走动的行人，部分多帧图像中不包含行人。该数据集作为训练集，在存储和处理能力允许的范围内，所包含的多帧图像数量越大，后续训练出的检测模型精度越高。

在本发明的一个实施例中，可对数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强，以去除图像噪声，不会破坏原有图像的结构信息。

具体地，可随机采样数据集中的多帧图像，对于采样到的多帧图像I_i，比较其自身的宽I_i_w和高I_i_h，选取宽高中的长边max(I_i_w,I_i_h)缩放到L，短边min(I_i_w,I_i_h)缩放至S，S从S₁～S₂之间随机选择。采样的多个多帧图像I_i(i＝1,2,3…n)以batch的形式I送入特征提取网络，batch中所有多帧图像的长边为L，图像的短边为了统一尺寸，则以整个batch中多帧图像短边S_i(i＝1,2,3…n)中最大的值max(S_i)为基准S_base，其余的S_i加padding至S_base。

S_base＝S_i+padding

在本发明的一个具体实施例中，L可为2048，短边S1～S2可为为1024～1536。

S2，构建神经网络，其中，神经网络包括特征提取网络和预测网络，特征提取网络融合多个主干网络，并包括特征金字塔网络，每个主干网络中均融合可变形卷积网络，预测网络包含双分支结构。

在本发明的一个实施例中，主干网络可为ResNeXt，ResNeXt中可加入可变形卷积网络，提升网络的空间信息建模能力，通过增加额外的参数学习目标的形变，能够在一定程度上提高后续训练出的检测模型对物体大小的鲁棒性；使用复合主干网络融合多个ResNeXt网络，以融合高低层语义信息，提取更加有效的特征信息；接入特征金字塔网络，结合浅层语义信息和深层位置信息，融合多尺度特征，有利于模型对多尺度物体的检测。

双分支结构分别为FC-head和Conv-head，针对不同的需求，使用FC-head做分类网络，使用Conv-head做回归网络，不同分支具有不同的偏向性，相比于单Head结构，双Head结构分类和坐标回归的精度更高。

S3，通过增强处理后的数据集对神经网络进行训练，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，得到行人检测模型。

具体地，首先可将增强后数据集中的多帧图像I经过一个7x7的卷积操作，其目的是直接对输入图像降采样，尽可能保留更多原始图像的信息，而不需要增加通道数。然后，如图2所示，将图像依次经四个Stage(Stage₁，Stage₂，Stage₃，Stage₄)，每个Stage由多个残差块Residual Block横向构成。每个Residual Block用于在前一阶段得到的较广泛的特征上更细致地提取特征，它由两个支路构成，其中，一个支路为残差支路，另一个支路依次由三个层组成。三个层依次为1x1的卷积层、可变形卷积层、1x1的卷积层。其中，两个1x1卷积层用于不同Stage之间特征图通道数的转换，可变形卷积层由两个步骤组成，首先通过一个3x3的卷积操作计算可变形卷积所需要的每个像素的位置偏移量，而后将位置偏移量作用在一个卷积核上得到可变形卷积层。残差支路由一个1x1卷积层构成，主要目的是提取图像的残差特征信息。特征图分别经过Residual Block的两个残差支路后，所形成的特征图进行相加操作，作为下一个Stage的输入特征。

特别地，每个Stage进入下一个Stage之前，将此Stage的输出特征作为与其横向并排的Stage的输入特征。具体地，输入的图像经过Stage₁后，产生特征图F₁，F₁作为Stage₁横向并排的Stage(Stage_{1_1})的输入特征，F₁经过Stage_{1_1}后产生特征图F₂；F₁经过Stage₂后，产生特征图F₃，F₃与F₂相加后作为Stage₂横向并排的Stage(Stage_{2_2})的输入特征，经过Stage_{2_2}后产生特征图F₄；F₃经过Stage₃后，产生特征图F₅，F₅与F₄相加后作为Stage₃横向并排的Stage(Stage_{3_3})的输入特征，经过Stage_{3_3}后产生特征图F₆；F₅经过Stage₄后，产生特征图F₇，F₇与F₆相加后作为Stage₄横向并排的Stage(Stage_{4_4})的输入特征，经过Stage_{4_4}后产生特征图F₈。

提取上述过程产生的F₂、F₄、F₆、F₈，令其首先分别经过一个1x1的卷积使他们的通道数相同。而后，F₈经过插值后，形成与F₆相同大小、相同通道的特征图，将它们相加来融合Stage_{4_4}与Stage_{3_3}阶段的特征(记为M₂)；M₂经过插值后，形成与F₄相同大小、相同通道的特征图，将它们相加来融合Stage_{3_3}与Stage_{2_2}阶段的特征(记为M₁)；M₁经过插值后，形成与F₂相同大小、相同通道的特征图，将它们相加来融合Stage_{2_2}与Stage_{1_1}阶段的特征(记为M₀)；将F₈直接作为M₃输出。

接下来，首先可将M₃、M₂、M₁、M₀执行一个3x3卷积，之后将其分别送入两阶段网络中，如RPN(Region Proposal Network，区域生成网络)和Cascade RCNN。第一阶段网络，即RPN的结构如图3所示，首先人为设定固定尺寸、固定比例的多个anchors作为预测的基准框，然后通过分类网络和回归网络从这些anchors中筛选出置信度较高的proposals作为第二阶段网络的基准框。其中，分类网络为二分类网络，只预测anchor之中是否存在目标的概率值，回归网络预测偏移量，即如果某个anchor可能存在目标，那么此anchor与目标真实bounding box之间的偏差。同样地，第二阶段网络将proposals作为预测的基准框，然后通过分类网络和回归网络从这些proposals中筛选出最终的检测框。其中，分类网络为多分类网络，其类别数取决于数据集中所要检测的类别数。回归网络预测所有proposals与真实bounding box之间的偏移量。

第二阶段网络，即Cascade RCNN的结构如图4所示，其包括三级级联网络，即第一级网络Head₁的输出Proposals1作为第二级网络Head₂的输入Proposals，进行筛选之后，第二级网络Head₂的输出Proposals2作为第三级网络Head₃的输入Proposals，第三级网络Head₃的输出值Proposals3即为最终预测结果。每一级网络Head的输出框，即Proposal，是通过将Pooling后的特征和Proposal送入该级网络中，预测Proposal的类别得分和回归偏移量得到的。也就是说每级网络由分类和回归网络构成，本发明实施例中使用FC-head做分类网络、Conv-head做回归网络，双分支结构，即Double Head结构如图5所示，由ROI Align层和两条平行分支(分类分支和回归分支)组成，即总体上分为分类预测分支和回归预测分支。由于分类任务往往需要更多图像语义信息，而回归任务需要更多空间信息。因此，所采用的Double Head结构考虑了不同需求的特性，效果更加明显。

在本发明的一个实施例中，训练网络时的分类损失L_cls使用交叉熵损失，对于每一个ROI(Region Of Interest，感兴趣区域)，经过头结构(Head_i)后得到分类结果C_i(i＝1,2,3)：

其中，h(x)表示Head_i中的分类分支，输出M+1维向量，将ROI预测为M+1中的一个类别，N代表当前Head_i阶段中ROI个数，y对应类别标签，y的类别标签由ROI与对应的标签的IoU大小决定：

其中，Head₁中的IoU阈值u设置为u₁，Head₂和Head₃中的阈值u分别设置为u₂、u₃，x是ROI，g_y是目标x的类别标签，IoU阈值u定义了检测器的质量。通过不同的IOU阈值，有效地解决了检测中的噪声干扰问题。在本发明的一个具体实施例中，u₁、u₂、u₃可分别设置为0.5、0.6、0.7。

训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器：

b＝(b_x,b_y,b_w,b_h)

上式中的数值都比较小，为了提升多任务训练的效率，对Δ做正则化操作：

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

其中，T表示Cascade RCNN叠加的总分支数，t表示当前的分支，Cascade RCNN中每个分支f_t通过各个分支上的训练数据b_t优化，b_t来源于b₁经过之前所有分支输出后的结果，而非直接使用RPN的初始分布b₁来训练f_t，λ为加权系数，[y^t≥1]表示只在正样本中计算回归损失，y^t是x^t按照上式和u_t计算出来的label。在本发明的一个具体实施例中，T取3，λ取1。

进一步地，对于经上述训练过程得到的检测框，首先可进行过滤操作，将类别得分大于第一阈值θ的检测框留下，设为Boxes1，对于当前帧，首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值，对每个检测框的最大IOU值进行判断，如果最大IOU值大于第二阈值σ，则认为此检测框检测正确，反之，如果最大IOU值小于第二阈值σ，则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε，且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T，如果均大于相应阈值，则当前帧的检测框错误。对于使用这种IOU信息辅助追踪的目标，如果当前帧中没有可以匹配上之前帧的检测框，说明当前帧的目标是新出现的，需要再次将其加入追踪队列中。

S4，通过行人检测模型对待检测夜间多帧图像进行行人检测。

根据本发明实施例的面向夜间运动场景的多帧图像行人检测方法，通过将增强处理后的多帧图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，在预测网络中设置双分支结构，以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断，所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

应上述实施例的面向夜间运动场景的多帧图像行人检测方法，本发明还提出一种面向夜间运动场景的多帧图像行人检测装置。

如图6所示，本发明实施例的面向夜间运动场景的多帧图像行人检测装置包括增强模块10、构建模块20、训练模块30和检测模块40。其中，增强模块10用于获取包含多个夜间多帧图像的数据集，并对数据集中的夜间多帧图像进行增强处理；构建模块20用于构建神经网络，其中，神经网络包括特征提取网络和预测网络，特征提取网络融合多个主干网络，并包括特征金字塔网络，每个主干网络中均融合可变形卷积网络，预测网络包含双分支结构；训练模块30用于通过增强处理后的数据集对神经网络进行训练，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，得到行人检测模型；检测模块40用于通过行人检测模型对待检测夜间多帧图像进行行人检测。

在本发明的一个实施例中，增强模块10可对数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强，以去除图像噪声，不会破坏原有图像的结构信息。

S_base＝S_i+padding

训练模块30首先可将增强后数据集中的多帧图像I经过一个7x7的卷积操作，其目的是直接对输入图像降采样，尽可能保留更多原始图像的信息，而不需要增加通道数。然后，如图2所示，将图像依次经四个Stage(Stage₁，Stage₂，Stage₃，Stage₄)，每个Stage由多个残差块Residual Block横向构成。每个Residual Block用于在前一阶段得到的较广泛的特征上更细致地提取特征，它由两个支路构成，其中，一个支路为残差支路，另一个支路依次由三个层组成。三个层依次为1x1的卷积层、可变形卷积层、1x1的卷积层。其中，两个1x1卷积层用于不同Stage之间特征图通道数的转换，可变形卷积层由两个步骤组成，首先通过一个3x3的卷积操作计算可变形卷积所需要的每个像素的位置偏移量，而后将位置偏移量作用在一个卷积核上得到可变形卷积层。残差支路由一个1x1卷积层构成，主要目的是提取图像的残差特征信息。特征图分别经过Residual Block的两个残差支路后，所形成的特征图进行相加操作，作为下一个Stage的输入特征。

接下来，首先可将M₃、M₂、M₁、M₀执行一个3x3卷积，之后将其分别送入两阶段网络中，如RPN和Cascade RCNN。第一阶段网络，即RPN的结构如图3所示，首先人为设定固定尺寸、固定比例的多个anchors作为预测的基准框，然后通过分类网络和回归网络从这些anchors中筛选出置信度较高的proposals作为第二阶段网络的基准框。其中，分类网络为二分类网络，只预测anchor之中是否存在目标的概率值，回归网络预测偏移量，即如果某个anchor可能存在目标，那么此anchor与目标真实bounding box之间的偏差。同样地，第二阶段网络将proposals作为预测的基准框，然后通过分类网络和回归网络从这些proposals中筛选出最终的检测框。其中，分类网络为多分类网络，其类别数取决于数据集中所要检测的类别数。回归网络预测所有proposals与真实bounding box之间的偏移量。

在本发明的一个实施例中，训练模块30训练网络时的分类损失L_cls使用交叉熵损失，对于每一个ROI，经过头结构(Head_i)后得到分类结果C_i(i＝1,2,3)：

训练模块30训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器：

b＝(b_x,b_y,b_w,b_h)

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

根据本发明实施例的面向夜间运动场景的多帧图像行人检测装置，通过将增强处理后的多帧图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，在预测网络中设置双分支结构，以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断，所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

对应上述实施例，本发明还提出一种计算机设备。

本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时，可实现根据本发明上述实施例所述的面向夜间运动场景的多帧图像行人检测方法。

根据本发明实施例的计算机设备，处理器执行存储在存储器上的计算机程序时，通过将增强处理后的多帧图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，在预测网络中设置双分支结构，以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断，所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

对应上述实施例，本发明还提出一种非临时性计算机可读存储介质。

本发明实施例的非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现根据本发明上述实施例所述的面向夜间运动场景的多帧图像行人检测方法。

根据本发明实施例的非临时性计算机可读存储介质，处理器执行存储在其上的计算机程序时，通过将增强处理后的多帧图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，在预测网络中设置双分支结构，以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断，所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

对应上述实施例，本发明还提出一种计算机程序产品。

当本发明实施例的计算机程序产品中的指令由处理器执行时，可执行根据本发明上述实施例所述的面向夜间运动场景的多帧图像行人检测方法。

根据本发明实施例的计算机程序产品，处理器执行其中的指令时，通过将增强处理后的多帧图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，在预测网络中设置双分支结构，以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断，所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测，准确性和鲁棒性较高。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向夜间运动场景的多帧图像行人检测方法，其特征在于，包括以下步骤：

获取包含多个夜间多帧图像的数据集，并对所述数据集中的夜间多帧图像进行增强处理；

构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；

通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，得到行人检测模型；

通过所述行人检测模型对待检测夜间多帧图像进行行人检测。

2.根据权利要求1所述的面向夜间运动场景的多帧图像行人检测方法，其特征在于，对所述数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强。

3.根据权利要求1或2所述的面向夜间运动场景的多帧图像行人检测方法，其特征在于，所述主干网络为ResNeXt，所述双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络。

4.根据权利要求3所述的面向夜间运动场景的多帧图像行人检测方法，其特征在于，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，包括：

对训练得到的检测框进行过滤操作，将类别得分大于第一阈值θ的检测框留下，设为Boxes1，对于当前帧，首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值，对每个检测框的最大IOU值进行判断，如果最大IOU值大于第二阈值σ，则认为此检测框检测正确，反之，如果最大IOU值小于第二阈值σ，则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε，且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T，如果均大于相应阈值，则当前帧的检测框错误。

5.根据权利要求4所述的面向夜间运动场景的多帧图像行人检测方法，其特征在于，训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器，

b＝(b_x,b_y,b_w,b_h)

对Δ做正则化操作：

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

6.一种面向夜间运动场景的多帧图像行人检测装置，其特征在于，包括：

增强模块，所述增强模块用于获取包含多个夜间多帧图像的数据集，并对所述数据集中的夜间多帧图像进行增强处理；

构建模块，所述构建模块用于构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，并包括特征金字塔网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；

训练模块，所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练，训练过程中根据多帧图像的帧间IOU值对行人目标进行判断，得到行人检测模型；

检测模块，所述检测模块用于通过所述行人检测模型对待检测夜间多帧图像进行行人检测。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现根据权利要求1-5中任一项所述的面向夜间运动场景的多帧图像行人检测方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据权利要求1-5中任一项所述的面向夜间运动场景的多帧图像行人检测方法。

9.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行根据权利要求1-5中任一项所述的面向夜间运动场景的多帧图像行人检测方法。