CN111814755A - 面向夜间运动场景的多帧图像行人检测方法和装置 - Google Patents

面向夜间运动场景的多帧图像行人检测方法和装置 Download PDF

Info

Publication number
CN111814755A
CN111814755A CN202010832374.5A CN202010832374A CN111814755A CN 111814755 A CN111814755 A CN 111814755A CN 202010832374 A CN202010832374 A CN 202010832374A CN 111814755 A CN111814755 A CN 111814755A
Authority
CN
China
Prior art keywords
network
frame
night
detection
pedestrian detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010832374.5A
Other languages
English (en)
Inventor
陈海波
罗志鹏
徐振宇
姚粤汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyan Technology Beijing Co ltd
Original Assignee
Shenyan Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyan Technology Beijing Co ltd filed Critical Shenyan Technology Beijing Co ltd
Priority to CN202010832374.5A priority Critical patent/CN111814755A/zh
Publication of CN111814755A publication Critical patent/CN111814755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种面向夜间运动场景的多帧图像行人检测方法和装置,所述方法包括以下步骤:获取包含多个夜间多帧图像的数据集,并对所述数据集中的夜间多帧图像进行增强处理;构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,得到行人检测模型;通过所述行人检测模型对待检测夜间多帧图像进行行人检测。本发明能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。

Description

面向夜间运动场景的多帧图像行人检测方法和装置
技术领域
本发明涉及目标检测技术领域,具体涉及一种面向夜间运动场景的多帧图像行人检测方法、一种面向夜间运动场景的多帧图像行人检测装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
背景技术
随着计算机存储能力和计算能力大幅提升,视频信息作为一种信息的媒介越来越多地出现日常生活中,因此,对视频的处理和分析也显得尤为重要。作为视频分析中的基本问题,视频目标检测一直都是工业界和商业界的研究热点。视频行人自动检测技术在智能交通、无人驾驶、智能视频监控等领域有着广泛的应用,但由于行人运动时形变较大、姿态各异、遮挡阴影等问题,视频行人检测领域面临着巨大挑战。特别地,夜间视频序列由于其自身光照强度弱、图像噪声大等问题,研究工作更加难取得突出成效。
发明内容
本发明为解决上述技术问题,提供了一种面向夜间运动场景的多帧图像行人检测方法和装置,能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
本发明采用的技术方案如下:
一种面向夜间运动场景的多帧图像行人检测方法,包括以下步骤:获取包含多个夜间多帧图像的数据集,并对所述数据集中的夜间多帧图像进行增强处理;构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据多帧图像的帧间IOU(Intersection Over Union,交并比)值对行人目标进行判断,得到行人检测模型;通过所述行人检测模型对待检测夜间多帧图像进行行人检测。
对所述数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强。
所述主干网络为ResNeXt,所述双分支结构分别为FC-head和Conv-head,FC-head做分类网络,Conv-head做回归网络。
训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,包括:对训练得到的检测框进行过滤操作,将类别得分大于第一阈值θ的检测框留下,设为Boxes1,对于当前帧,首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值,对每个检测框的最大IOU值进行判断,如果最大IOU值大于第二阈值σ,则认为此检测框检测正确,反之,如果最大IOU值小于第二阈值σ,则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε,且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T,如果均大于相应阈值,则当前帧的检测框错误。
训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器,
Figure BDA0002638454730000021
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δxywh),
Figure BDA0002638454730000022
对Δ做正则化操作:
δ′x=(δx-ux)/σx
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
Figure BDA0002638454730000031
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,λ为加权系数,λ=1,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。
一种面向夜间运动场景的多帧图像行人检测装置,包括:增强模块,所述增强模块用于获取包含多个夜间多帧图像的数据集,并对所述数据集中的夜间多帧图像进行增强处理;构建模块,所述构建模块用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;训练模块,所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,得到行人检测模型;检测模块,所述检测模块用于通过所述行人检测模型对待检测夜间多帧图像进行行人检测。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述面向夜间运动场景的多帧图像行人检测方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述面向夜间运动场景的多帧图像行人检测方法。
一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行上述面向夜间运动场景的多帧图像行人检测方法。
本发明的有益效果:
本发明通过将增强处理后的多帧图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,在预测网络中设置双分支结构,以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断,所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
附图说明
图1为本发明实施例的面向夜间运动场景的多帧图像行人检测方法的流程图;
图2为本发明一个实施例的特征提取网络的结构示意图;
图3为本发明一个实施例的RPN的结构示意图;
图4为本发明一个实施例的Cascade RCNN的结构示意图;
图5为本发明一个实施例的Double Head的结构示意图
图6为本发明实施例的面向夜间运动场景的多帧图像行人检测装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的面向夜间运动场景的多帧图像行人检测方法包括以下步骤:
S1,获取包含多个夜间多帧图像的数据集,并对数据集中的夜间多帧图像进行增强处理。
其中,数据集中可包含大量的夜间运动场景下拍摄得到的多帧图像,例如可以为对应道路处设置的摄像头在夜间拍摄得到的视频或gif格式的图像等,部分多帧图像中包含走动的行人,部分多帧图像中不包含行人。该数据集作为训练集,在存储和处理能力允许的范围内,所包含的多帧图像数量越大,后续训练出的检测模型精度越高。
在本发明的一个实施例中,可对数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强,以去除图像噪声,不会破坏原有图像的结构信息。
具体地,可随机采样数据集中的多帧图像,对于采样到的多帧图像Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择。采样的多个多帧图像Ii(i=1,2,3…n)以batch的形式I送入特征提取网络,batch中所有多帧图像的长边为L,图像的短边为了统一尺寸,则以整个batch中多帧图像短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base。
S_base=Si+padding
在本发明的一个具体实施例中,L可为2048,短边S1~S2可为为1024~1536。
S2,构建神经网络,其中,神经网络包括特征提取网络和预测网络,特征提取网络融合多个主干网络,并包括特征金字塔网络,每个主干网络中均融合可变形卷积网络,预测网络包含双分支结构。
在本发明的一个实施例中,主干网络可为ResNeXt,ResNeXt中可加入可变形卷积网络,提升网络的空间信息建模能力,通过增加额外的参数学习目标的形变,能够在一定程度上提高后续训练出的检测模型对物体大小的鲁棒性;使用复合主干网络融合多个ResNeXt网络,以融合高低层语义信息,提取更加有效的特征信息;接入特征金字塔网络,结合浅层语义信息和深层位置信息,融合多尺度特征,有利于模型对多尺度物体的检测。
双分支结构分别为FC-head和Conv-head,针对不同的需求,使用FC-head做分类网络,使用Conv-head做回归网络,不同分支具有不同的偏向性,相比于单Head结构,双Head结构分类和坐标回归的精度更高。
S3,通过增强处理后的数据集对神经网络进行训练,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,得到行人检测模型。
具体地,首先可将增强后数据集中的多帧图像I经过一个7x7的卷积操作,其目的是直接对输入图像降采样,尽可能保留更多原始图像的信息,而不需要增加通道数。然后,如图2所示,将图像依次经四个Stage(Stage1,Stage2,Stage3,Stage4),每个Stage由多个残差块Residual Block横向构成。每个Residual Block用于在前一阶段得到的较广泛的特征上更细致地提取特征,它由两个支路构成,其中,一个支路为残差支路,另一个支路依次由三个层组成。三个层依次为1x1的卷积层、可变形卷积层、1x1的卷积层。其中,两个1x1卷积层用于不同Stage之间特征图通道数的转换,可变形卷积层由两个步骤组成,首先通过一个3x3的卷积操作计算可变形卷积所需要的每个像素的位置偏移量,而后将位置偏移量作用在一个卷积核上得到可变形卷积层。残差支路由一个1x1卷积层构成,主要目的是提取图像的残差特征信息。特征图分别经过Residual Block的两个残差支路后,所形成的特征图进行相加操作,作为下一个Stage的输入特征。
特别地,每个Stage进入下一个Stage之前,将此Stage的输出特征作为与其横向并排的Stage的输入特征。具体地,输入的图像经过Stage1后,产生特征图F1,F1作为Stage1横向并排的Stage(Stage1_1)的输入特征,F1经过Stage1_1后产生特征图F2;F1经过Stage2后,产生特征图F3,F3与F2相加后作为Stage2横向并排的Stage(Stage2_2)的输入特征,经过Stage2_2后产生特征图F4;F3经过Stage3后,产生特征图F5,F5与F4相加后作为Stage3横向并排的Stage(Stage3_3)的输入特征,经过Stage3_3后产生特征图F6;F5经过Stage4后,产生特征图F7,F7与F6相加后作为Stage4横向并排的Stage(Stage4_4)的输入特征,经过Stage4_4后产生特征图F8
提取上述过程产生的F2、F4、F6、F8,令其首先分别经过一个1x1的卷积使他们的通道数相同。而后,F8经过插值后,形成与F6相同大小、相同通道的特征图,将它们相加来融合Stage4_4与Stage3_3阶段的特征(记为M2);M2经过插值后,形成与F4相同大小、相同通道的特征图,将它们相加来融合Stage3_3与Stage2_2阶段的特征(记为M1);M1经过插值后,形成与F2相同大小、相同通道的特征图,将它们相加来融合Stage2_2与Stage1_1阶段的特征(记为M0);将F8直接作为M3输出。
接下来,首先可将M3、M2、M1、M0执行一个3x3卷积,之后将其分别送入两阶段网络中,如RPN(Region Proposal Network,区域生成网络)和Cascade RCNN。第一阶段网络,即RPN的结构如图3所示,首先人为设定固定尺寸、固定比例的多个anchors作为预测的基准框,然后通过分类网络和回归网络从这些anchors中筛选出置信度较高的proposals作为第二阶段网络的基准框。其中,分类网络为二分类网络,只预测anchor之中是否存在目标的概率值,回归网络预测偏移量,即如果某个anchor可能存在目标,那么此anchor与目标真实bounding box之间的偏差。同样地,第二阶段网络将proposals作为预测的基准框,然后通过分类网络和回归网络从这些proposals中筛选出最终的检测框。其中,分类网络为多分类网络,其类别数取决于数据集中所要检测的类别数。回归网络预测所有proposals与真实bounding box之间的偏移量。
第二阶段网络,即Cascade RCNN的结构如图4所示,其包括三级级联网络,即第一级网络Head1的输出Proposals1作为第二级网络Head2的输入Proposals,进行筛选之后,第二级网络Head2的输出Proposals2作为第三级网络Head3的输入Proposals,第三级网络Head3的输出值Proposals3即为最终预测结果。每一级网络Head的输出框,即Proposal,是通过将Pooling后的特征和Proposal送入该级网络中,预测Proposal的类别得分和回归偏移量得到的。也就是说每级网络由分类和回归网络构成,本发明实施例中使用FC-head做分类网络、Conv-head做回归网络,双分支结构,即Double Head结构如图5所示,由ROI Align层和两条平行分支(分类分支和回归分支)组成,即总体上分为分类预测分支和回归预测分支。由于分类任务往往需要更多图像语义信息,而回归任务需要更多空间信息。因此,所采用的Double Head结构考虑了不同需求的特性,效果更加明显。
在本发明的一个实施例中,训练网络时的分类损失Lcls使用交叉熵损失,对于每一个ROI(Region Of Interest,感兴趣区域),经过头结构(Headi)后得到分类结果Ci(i=1,2,3):
Figure BDA0002638454730000081
其中,h(x)表示Headi中的分类分支,输出M+1维向量,将ROI预测为M+1中的一个类别,N代表当前Headi阶段中ROI个数,y对应类别标签,y的类别标签由ROI与对应的标签的IoU大小决定:
Figure BDA0002638454730000082
其中,Head1中的IoU阈值u设置为u1,Head2和Head3中的阈值u分别设置为u2、u3,x是ROI,gy是目标x的类别标签,IoU阈值u定义了检测器的质量。通过不同的IOU阈值,有效地解决了检测中的噪声干扰问题。在本发明的一个具体实施例中,u1、u2、u3可分别设置为0.5、0.6、0.7。
训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器:
Figure BDA0002638454730000091
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δxywh),
Figure BDA0002638454730000092
上式中的数值都比较小,为了提升多任务训练的效率,对Δ做正则化操作:
δ′x=(δx-ux)/σx
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
Figure BDA0002638454730000093
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,而非直接使用RPN的初始分布b1来训练ft,λ为加权系数,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。在本发明的一个具体实施例中,T取3,λ取1。
进一步地,对于经上述训练过程得到的检测框,首先可进行过滤操作,将类别得分大于第一阈值θ的检测框留下,设为Boxes1,对于当前帧,首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值,对每个检测框的最大IOU值进行判断,如果最大IOU值大于第二阈值σ,则认为此检测框检测正确,反之,如果最大IOU值小于第二阈值σ,则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε,且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T,如果均大于相应阈值,则当前帧的检测框错误。对于使用这种IOU信息辅助追踪的目标,如果当前帧中没有可以匹配上之前帧的检测框,说明当前帧的目标是新出现的,需要再次将其加入追踪队列中。
S4,通过行人检测模型对待检测夜间多帧图像进行行人检测。
根据本发明实施例的面向夜间运动场景的多帧图像行人检测方法,通过将增强处理后的多帧图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,在预测网络中设置双分支结构,以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断,所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
应上述实施例的面向夜间运动场景的多帧图像行人检测方法,本发明还提出一种面向夜间运动场景的多帧图像行人检测装置。
如图6所示,本发明实施例的面向夜间运动场景的多帧图像行人检测装置包括增强模块10、构建模块20、训练模块30和检测模块40。其中,增强模块10用于获取包含多个夜间多帧图像的数据集,并对数据集中的夜间多帧图像进行增强处理;构建模块20用于构建神经网络,其中,神经网络包括特征提取网络和预测网络,特征提取网络融合多个主干网络,并包括特征金字塔网络,每个主干网络中均融合可变形卷积网络,预测网络包含双分支结构;训练模块30用于通过增强处理后的数据集对神经网络进行训练,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,得到行人检测模型;检测模块40用于通过行人检测模型对待检测夜间多帧图像进行行人检测。
其中,数据集中可包含大量的夜间运动场景下拍摄得到的多帧图像,例如可以为对应道路处设置的摄像头在夜间拍摄得到的视频或gif格式的图像等,部分多帧图像中包含走动的行人,部分多帧图像中不包含行人。该数据集作为训练集,在存储和处理能力允许的范围内,所包含的多帧图像数量越大,后续训练出的检测模型精度越高。
在本发明的一个实施例中,增强模块10可对数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强,以去除图像噪声,不会破坏原有图像的结构信息。
具体地,可随机采样数据集中的多帧图像,对于采样到的多帧图像Ii,比较其自身的宽Ii_w和高Ii_h,选取宽高中的长边max(Ii_w,Ii_h)缩放到L,短边min(Ii_w,Ii_h)缩放至S,S从S1~S2之间随机选择。采样的多个多帧图像Ii(i=1,2,3…n)以batch的形式I送入特征提取网络,batch中所有多帧图像的长边为L,图像的短边为了统一尺寸,则以整个batch中多帧图像短边Si(i=1,2,3…n)中最大的值max(Si)为基准S_base,其余的Si加padding至S_base。
S_base=Si+padding
在本发明的一个具体实施例中,L可为2048,短边S1~S2可为为1024~1536。
在本发明的一个实施例中,主干网络可为ResNeXt,ResNeXt中可加入可变形卷积网络,提升网络的空间信息建模能力,通过增加额外的参数学习目标的形变,能够在一定程度上提高后续训练出的检测模型对物体大小的鲁棒性;使用复合主干网络融合多个ResNeXt网络,以融合高低层语义信息,提取更加有效的特征信息;接入特征金字塔网络,结合浅层语义信息和深层位置信息,融合多尺度特征,有利于模型对多尺度物体的检测。
双分支结构分别为FC-head和Conv-head,针对不同的需求,使用FC-head做分类网络,使用Conv-head做回归网络,不同分支具有不同的偏向性,相比于单Head结构,双Head结构分类和坐标回归的精度更高。
训练模块30首先可将增强后数据集中的多帧图像I经过一个7x7的卷积操作,其目的是直接对输入图像降采样,尽可能保留更多原始图像的信息,而不需要增加通道数。然后,如图2所示,将图像依次经四个Stage(Stage1,Stage2,Stage3,Stage4),每个Stage由多个残差块Residual Block横向构成。每个Residual Block用于在前一阶段得到的较广泛的特征上更细致地提取特征,它由两个支路构成,其中,一个支路为残差支路,另一个支路依次由三个层组成。三个层依次为1x1的卷积层、可变形卷积层、1x1的卷积层。其中,两个1x1卷积层用于不同Stage之间特征图通道数的转换,可变形卷积层由两个步骤组成,首先通过一个3x3的卷积操作计算可变形卷积所需要的每个像素的位置偏移量,而后将位置偏移量作用在一个卷积核上得到可变形卷积层。残差支路由一个1x1卷积层构成,主要目的是提取图像的残差特征信息。特征图分别经过Residual Block的两个残差支路后,所形成的特征图进行相加操作,作为下一个Stage的输入特征。
特别地,每个Stage进入下一个Stage之前,将此Stage的输出特征作为与其横向并排的Stage的输入特征。具体地,输入的图像经过Stage1后,产生特征图F1,F1作为Stage1横向并排的Stage(Stage1_1)的输入特征,F1经过Stage1_1后产生特征图F2;F1经过Stage2后,产生特征图F3,F3与F2相加后作为Stage2横向并排的Stage(Stage2_2)的输入特征,经过Stage2_2后产生特征图F4;F3经过Stage3后,产生特征图F5,F5与F4相加后作为Stage3横向并排的Stage(Stage3_3)的输入特征,经过Stage3_3后产生特征图F6;F5经过Stage4后,产生特征图F7,F7与F6相加后作为Stage4横向并排的Stage(Stage4_4)的输入特征,经过Stage4_4后产生特征图F8
提取上述过程产生的F2、F4、F6、F8,令其首先分别经过一个1x1的卷积使他们的通道数相同。而后,F8经过插值后,形成与F6相同大小、相同通道的特征图,将它们相加来融合Stage4_4与Stage3_3阶段的特征(记为M2);M2经过插值后,形成与F4相同大小、相同通道的特征图,将它们相加来融合Stage3_3与Stage2_2阶段的特征(记为M1);M1经过插值后,形成与F2相同大小、相同通道的特征图,将它们相加来融合Stage2_2与Stage1_1阶段的特征(记为M0);将F8直接作为M3输出。
接下来,首先可将M3、M2、M1、M0执行一个3x3卷积,之后将其分别送入两阶段网络中,如RPN和Cascade RCNN。第一阶段网络,即RPN的结构如图3所示,首先人为设定固定尺寸、固定比例的多个anchors作为预测的基准框,然后通过分类网络和回归网络从这些anchors中筛选出置信度较高的proposals作为第二阶段网络的基准框。其中,分类网络为二分类网络,只预测anchor之中是否存在目标的概率值,回归网络预测偏移量,即如果某个anchor可能存在目标,那么此anchor与目标真实bounding box之间的偏差。同样地,第二阶段网络将proposals作为预测的基准框,然后通过分类网络和回归网络从这些proposals中筛选出最终的检测框。其中,分类网络为多分类网络,其类别数取决于数据集中所要检测的类别数。回归网络预测所有proposals与真实bounding box之间的偏移量。
第二阶段网络,即Cascade RCNN的结构如图4所示,其包括三级级联网络,即第一级网络Head1的输出Proposals1作为第二级网络Head2的输入Proposals,进行筛选之后,第二级网络Head2的输出Proposals2作为第三级网络Head3的输入Proposals,第三级网络Head3的输出值Proposals3即为最终预测结果。每一级网络Head的输出框,即Proposal,是通过将Pooling后的特征和Proposal送入该级网络中,预测Proposal的类别得分和回归偏移量得到的。也就是说每级网络由分类和回归网络构成,本发明实施例中使用FC-head做分类网络、Conv-head做回归网络,双分支结构,即Double Head结构如图5所示,由ROI Align层和两条平行分支(分类分支和回归分支)组成,即总体上分为分类预测分支和回归预测分支。由于分类任务往往需要更多图像语义信息,而回归任务需要更多空间信息。因此,所采用的Double Head结构考虑了不同需求的特性,效果更加明显。
在本发明的一个实施例中,训练模块30训练网络时的分类损失Lcls使用交叉熵损失,对于每一个ROI,经过头结构(Headi)后得到分类结果Ci(i=1,2,3):
Figure BDA0002638454730000141
其中,h(x)表示Headi中的分类分支,输出M+1维向量,将ROI预测为M+1中的一个类别,N代表当前Headi阶段中ROI个数,y对应类别标签,y的类别标签由ROI与对应的标签的IoU大小决定:
Figure BDA0002638454730000142
其中,Head1中的IoU阈值u设置为u1,Head2和Head3中的阈值u分别设置为u2、u3,x是ROI,gy是目标x的类别标签,IoU阈值u定义了检测器的质量。通过不同的IOU阈值,有效地解决了检测中的噪声干扰问题。在本发明的一个具体实施例中,u1、u2、u3可分别设置为0.5、0.6、0.7。
训练模块30训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器:
Figure BDA0002638454730000143
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δxywh),
Figure BDA0002638454730000151
上式中的数值都比较小,为了提升多任务训练的效率,对Δ做正则化操作:
δ′x=(δx-ux)/σx
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
Figure BDA0002638454730000152
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,而非直接使用RPN的初始分布b1来训练ft,λ为加权系数,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。在本发明的一个具体实施例中,T取3,λ取1。
进一步地,对于经上述训练过程得到的检测框,首先可进行过滤操作,将类别得分大于第一阈值θ的检测框留下,设为Boxes1,对于当前帧,首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值,对每个检测框的最大IOU值进行判断,如果最大IOU值大于第二阈值σ,则认为此检测框检测正确,反之,如果最大IOU值小于第二阈值σ,则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε,且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T,如果均大于相应阈值,则当前帧的检测框错误。对于使用这种IOU信息辅助追踪的目标,如果当前帧中没有可以匹配上之前帧的检测框,说明当前帧的目标是新出现的,需要再次将其加入追踪队列中。
根据本发明实施例的面向夜间运动场景的多帧图像行人检测装置,通过将增强处理后的多帧图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,在预测网络中设置双分支结构,以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断,所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本发明上述实施例所述的面向夜间运动场景的多帧图像行人检测方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机程序时,通过将增强处理后的多帧图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,在预测网络中设置双分支结构,以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断,所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现根据本发明上述实施例所述的面向夜间运动场景的多帧图像行人检测方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在其上的计算机程序时,通过将增强处理后的多帧图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,在预测网络中设置双分支结构,以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断,所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
对应上述实施例,本发明还提出一种计算机程序产品。
当本发明实施例的计算机程序产品中的指令由处理器执行时,可执行根据本发明上述实施例所述的面向夜间运动场景的多帧图像行人检测方法。
根据本发明实施例的计算机程序产品,处理器执行其中的指令时,通过将增强处理后的多帧图像输入神经网络中进行训练,并通过在神经网络的特征提取网络融合多个主干网络,在每个主干网络中均融合可变形卷积网络,在预测网络中设置双分支结构,以及在练过程中根据多帧图像的帧间IOU值对行人目标进行判断,所得到的行人检测模型能够实现针对诸如夜间场景多帧图像的行人检测,准确性和鲁棒性较高。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种面向夜间运动场景的多帧图像行人检测方法,其特征在于,包括以下步骤:
获取包含多个夜间多帧图像的数据集,并对所述数据集中的夜间多帧图像进行增强处理;
构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,得到行人检测模型;
通过所述行人检测模型对待检测夜间多帧图像进行行人检测。
2.根据权利要求1所述的面向夜间运动场景的多帧图像行人检测方法,其特征在于,对所述数据集中的夜间多帧图像以批数据的形式执行空间层次的图像增强。
3.根据权利要求1或2所述的面向夜间运动场景的多帧图像行人检测方法,其特征在于,所述主干网络为ResNeXt,所述双分支结构分别为FC-head和Conv-head,FC-head做分类网络,Conv-head做回归网络。
4.根据权利要求3所述的面向夜间运动场景的多帧图像行人检测方法,其特征在于,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,包括:
对训练得到的检测框进行过滤操作,将类别得分大于第一阈值θ的检测框留下,设为Boxes1,对于当前帧,首先计算当前帧的检测框Boxes1与前一帧追踪队列的追踪框的IOU值,对每个检测框的最大IOU值进行判断,如果最大IOU值大于第二阈值σ,则认为此检测框检测正确,反之,如果最大IOU值小于第二阈值σ,则判断该追踪框在之前视频帧中的最大检测得分是否大于第三阈值ε,且此追踪框在之前帧出现的次数是否大于最小出现次数阈值T,如果均大于相应阈值,则当前帧的检测框错误。
5.根据权利要求4所述的面向夜间运动场景的多帧图像行人检测方法,其特征在于,训练网络时的回归损失Lloc使用平滑的L1损失,x是ROI,b是对ROI的预测坐标,g是标签坐标值,f表示回归器,
Figure FDA0002638454720000021
b=(bx,by,bw,bh)
为保证回归操作对尺度、位置的不变性,Lloc操作对应的向量Δ=(δxywh),
Figure FDA0002638454720000022
对Δ做正则化操作:
δ′x=(δx-ux)/σx
检测网络中每个Headi(i=1,2,3)的总损失:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g)
Figure FDA0002638454720000023
bt=ft-1(xt-1,bt-1)
其中,T表示Cascade RCNN叠加的总分支数,t表示当前的分支,Cascade RCNN中每个分支ft通过各个分支上的训练数据bt优化,bt来源于b1经过之前所有分支输出后的结果,λ为加权系数,λ=1,[yt≥1]表示只在正样本中计算回归损失,yt是xt按照上式和ut计算出来的label。
6.一种面向夜间运动场景的多帧图像行人检测装置,其特征在于,包括:
增强模块,所述增强模块用于获取包含多个夜间多帧图像的数据集,并对所述数据集中的夜间多帧图像进行增强处理;
构建模块,所述构建模块用于构建神经网络,其中,所述神经网络包括特征提取网络和预测网络,所述特征提取网络融合多个主干网络,并包括特征金字塔网络,每个所述主干网络中均融合可变形卷积网络,所述预测网络包含双分支结构;
训练模块,所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练,训练过程中根据多帧图像的帧间IOU值对行人目标进行判断,得到行人检测模型;
检测模块,所述检测模块用于通过所述行人检测模型对待检测夜间多帧图像进行行人检测。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-5中任一项所述的面向夜间运动场景的多帧图像行人检测方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1-5中任一项所述的面向夜间运动场景的多帧图像行人检测方法。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行根据权利要求1-5中任一项所述的面向夜间运动场景的多帧图像行人检测方法。
CN202010832374.5A 2020-08-18 2020-08-18 面向夜间运动场景的多帧图像行人检测方法和装置 Pending CN111814755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010832374.5A CN111814755A (zh) 2020-08-18 2020-08-18 面向夜间运动场景的多帧图像行人检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010832374.5A CN111814755A (zh) 2020-08-18 2020-08-18 面向夜间运动场景的多帧图像行人检测方法和装置

Publications (1)

Publication Number Publication Date
CN111814755A true CN111814755A (zh) 2020-10-23

Family

ID=72859207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010832374.5A Pending CN111814755A (zh) 2020-08-18 2020-08-18 面向夜间运动场景的多帧图像行人检测方法和装置

Country Status (1)

Country Link
CN (1) CN111814755A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365497A (zh) * 2020-12-02 2021-02-12 上海卓繁信息技术股份有限公司 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***
CN112528782A (zh) * 2020-11-30 2021-03-19 北京农业信息技术研究中心 水下鱼类目标检测方法及装置
CN112686344A (zh) * 2021-03-22 2021-04-20 浙江啄云智能科技有限公司 一种快速过滤背景图片的检测模型及其训练方法
CN112819858A (zh) * 2021-01-29 2021-05-18 北京博雅慧视智能技术研究院有限公司 基于视频增强的目标跟踪方法、装置、设备及存储介质
CN113313078A (zh) * 2021-07-02 2021-08-27 昆明理工大学 一种基于模型优化的轻量化夜间红外图像行人检测方法及***
CN113378857A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113657467A (zh) * 2021-07-29 2021-11-16 北京百度网讯科技有限公司 模型预训练方法、装置、电子设备和存储介质
CN113780193A (zh) * 2021-09-15 2021-12-10 易采天成(郑州)信息技术有限公司 基于rcnn的牛群目标检测方法及设备
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置
CN114972490A (zh) * 2022-07-29 2022-08-30 苏州魔视智能科技有限公司 一种数据自动标注方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091171A (zh) * 2014-07-04 2014-10-08 华南理工大学 基于局部特征的车载远红外行人检测***及方法
CN110837769A (zh) * 2019-08-13 2020-02-25 广州三木智能科技有限公司 一种图像处理与深度学习的嵌入式远红外行人检测方法
US20200082165A1 (en) * 2016-12-16 2020-03-12 Peking University Shenzhen Graduate School Collaborative deep network model method for pedestrian detection
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091171A (zh) * 2014-07-04 2014-10-08 华南理工大学 基于局部特征的车载远红外行人检测***及方法
US20200082165A1 (en) * 2016-12-16 2020-03-12 Peking University Shenzhen Graduate School Collaborative deep network model method for pedestrian detection
CN110837769A (zh) * 2019-08-13 2020-02-25 广州三木智能科技有限公司 一种图像处理与深度学习的嵌入式远红外行人检测方法
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HE010103: "100kfps多目标追踪器-iou-tracker", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/35291325》 *
HIROSHI FUKUI等: "Pedestrian detection based on deep convolutional neural network with ensemble inference network", 《2015 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV)》 *
宣晓刚等: "一种无监督视频行人检测与估计算法", 《杭州电子科技大学学报》 *
罗志鹏: "CVPR 2020夜间行人检测挑战赛两冠一亚:DeepBlueAI团队获胜方案解读", 《HTTPS://PICTURE.ICZHIKU.COM/WEIXIN/MESSAGE1592815205387.HTML》 *
葛俊锋等: "一种改进的夜间行人检测算法", 《计算机工程》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528782B (zh) * 2020-11-30 2024-02-23 北京农业信息技术研究中心 水下鱼类目标检测方法及装置
CN112528782A (zh) * 2020-11-30 2021-03-19 北京农业信息技术研究中心 水下鱼类目标检测方法及装置
CN112365497A (zh) * 2020-12-02 2021-02-12 上海卓繁信息技术股份有限公司 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和***
CN112819858A (zh) * 2021-01-29 2021-05-18 北京博雅慧视智能技术研究院有限公司 基于视频增强的目标跟踪方法、装置、设备及存储介质
CN112819858B (zh) * 2021-01-29 2024-03-22 北京博雅慧视智能技术研究院有限公司 基于视频增强的目标跟踪方法、装置、设备及存储介质
CN112686344A (zh) * 2021-03-22 2021-04-20 浙江啄云智能科技有限公司 一种快速过滤背景图片的检测模型及其训练方法
CN113378857A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113313078A (zh) * 2021-07-02 2021-08-27 昆明理工大学 一种基于模型优化的轻量化夜间红外图像行人检测方法及***
CN113657467A (zh) * 2021-07-29 2021-11-16 北京百度网讯科技有限公司 模型预训练方法、装置、电子设备和存储介质
CN113657467B (zh) * 2021-07-29 2023-04-07 北京百度网讯科技有限公司 模型预训练方法、装置、电子设备和存储介质
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置
CN113780193A (zh) * 2021-09-15 2021-12-10 易采天成(郑州)信息技术有限公司 基于rcnn的牛群目标检测方法及设备
CN114972490A (zh) * 2022-07-29 2022-08-30 苏州魔视智能科技有限公司 一种数据自动标注方法、装置、设备及存储介质
CN114972490B (zh) * 2022-07-29 2022-12-20 苏州魔视智能科技有限公司 一种数据自动标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111814755A (zh) 面向夜间运动场景的多帧图像行人检测方法和装置
CN111160379B (zh) 图像检测模型的训练方法及装置、目标检测方法及装置
US11062123B2 (en) Method, terminal, and storage medium for tracking facial critical area
Bautista et al. Convolutional neural network for vehicle detection in low resolution traffic videos
CN108960266B (zh) 图像目标检测方法及装置
CN111104903B (zh) 一种深度感知交通场景多目标检测方法和***
Kalsotra et al. Background subtraction for moving object detection: explorations of recent developments and challenges
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及***
Ippalapally et al. Object detection using thermal imaging
Luo et al. Traffic analytics with low-frame-rate videos
Thomas et al. Moving vehicle candidate recognition and classification using inception-resnet-v2
Wu et al. UAV imagery based potential safety hazard evaluation for high-speed railroad using Real-time instance segmentation
CN111814754A (zh) 面向夜间场景的单帧图像行人检测方法和装置
Babaei Vehicles tracking and classification using traffic zones in a hybrid scheme for intersection traffic management by smart cameras
Oğuz et al. A deep learning based fast lane detection approach
Ghasemi et al. A real-time multiple vehicle classification and tracking system with occlusion handling
CN111027482B (zh) 基于运动向量分段分析的行为分析方法及装置
CN111292331B (zh) 图像处理的方法与装置
Anees et al. Deep learning framework for density estimation of crowd videos
Yang et al. High-speed rail pole number recognition through deep representation and temporal redundancy
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN116189286A (zh) 一种视频图像暴力行为检测模型及检测方法
CN113160027A (zh) 一种图像处理模型训练方法及装置
Rotich et al. Resource-constrained simultaneous detection and labeling of objects in high-resolution satellite images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201023

RJ01 Rejection of invention patent application after publication