CN109903339B - 一种基于多维融合特征的视频群体人物定位检测方法 - Google Patents

一种基于多维融合特征的视频群体人物定位检测方法 Download PDF

Info

Publication number
CN109903339B
CN109903339B CN201910235608.5A CN201910235608A CN109903339B CN 109903339 B CN109903339 B CN 109903339B CN 201910235608 A CN201910235608 A CN 201910235608A CN 109903339 B CN109903339 B CN 109903339B
Authority
CN
China
Prior art keywords
video
feature
loss
detection
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910235608.5A
Other languages
English (en)
Other versions
CN109903339A (zh
Inventor
陈志�
掌静
岳文静
周传
陈璐
刘玲
任杰
周松颖
江婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910235608.5A priority Critical patent/CN109903339B/zh
Publication of CN109903339A publication Critical patent/CN109903339A/zh
Application granted granted Critical
Publication of CN109903339B publication Critical patent/CN109903339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种多维融合特征的视频群体人物定位检测方法。该发明首先抽取多层级视频特征图,建立自顶向下和自底向上的双向特征处理通道充分挖掘视频的语义信息,接着融合多层级视频特征图获取多维融合特征,抓取视频候选目标,最后并行处理候选目标位置回归和类别分类,完成视频群体人物定位检测。本发明通过融合多层级特征获得丰富的视频语义信息,同时进行多任务预测操作,有效提升群体人物定位检测的速度,具有良好的准确率和实施性。

Description

一种基于多维融合特征的视频群体人物定位检测方法
技术领域
本发明涉及计算机视觉、模式识别等交叉技术领域,尤其是一种基于多维融合特征的视频群体人物定位检测方法。
背景技术
随着视频采集和图像处理技术的发展,视频群体人物定位检测是当前计算机视觉领域的一个热门的研究方向,具有广泛的应用价值,并且它也是更多高层计算机视觉问题的基础,比如密集人群监控、社交语义分析等。
视频群体人物定位检测的任务内容对人眼来说不是难事,主要是通过对不同颜色区块的感知定位、分类出目标人物的所在位置,但是对于计算机来说处理的是RGB矩阵,如何从场景中分割出群体人物所在的区域位置,并减少背景区域对定位检测的影响是件难事。
视频群体人物定位检测算法的发展经历了边界框回归、深度神经网络兴起、多参考窗口发展、难样本挖掘与聚焦和多尺度多端口检测这几个跨越式技术的进步,按照算法核心可以分为两个类型,一种是基于传统手工特征的定位检测算法,另一种是基于深度学习的定位检测算法。在2013年以前,对视频或图像中人物的定位检测主要基于传统的手工特征,受到特征描述和计算能力的限制,计算机视觉研究人员尽其所能设计多元化的检测算法弥补手工设计特征在图像特征表达能力上的不足,并使用精巧的计算方法对检测模型加速,降低时空消耗。在这其中出现了几种代表的手工特征检测算法,Viola-Jones检测器、HOG检测器、可变形部件模型检测器。
随着深度神经网络的兴起,基于深度学习的检测模型克服了传统手工特征检测算法对特征描述有限的缺点,从大数据中自动学习特征的表示,其中包含成千上万的参数,针对新的应用场景经过训练学习很快能够获取新的有效的特征表示,基于深度学习的检测模型主要分为基于区域提名和基于端到端两个方向。基于区域提名的检测模型首先对待检测图像选出大量的区域候选框,这些候选框中可能包含要检测的目标,再提取每个候选框的特征获取特征向量,分类特征向量获取类别信息,最后进行位置回归得到对应的坐标信息。基于端到端的检测舍弃了候选框提取,直接将特征提取、候选框回归和分类放在一个卷积网络中完成。
由于群体人物行为具有集体性和多元性的特征,是人与人之间的行为交互和人与环境之间的行为交互的集合,所以在群体人物行为发生过程中易发生人与人相互遮挡或人与物的相互遮挡,再加之视频成像时光照变化等因素的干扰,现有的基于深度学习的检测模型在检测过程中会因为这些干扰因素不能准确定位人物位置,甚至造成人物漏检。
发明内容
发明目的:在群体人物场景中,由于同时存在多个人物,为了能够有效地定位检测群体人物,需要对每个人物进行精准地特征描述。现有的基于深度学习的检测模型通常采用单层级顶层视频特征作为检测依据,虽然顶层视频特征包含丰富的视频语义,但是回归出的人物位置比较粗糙。近年来,也出现了一些使用多层级融合视频特征的检测模型,这些模型的视频特征虽然融合底层视频特征以提升检测准确率,但在特征融合的过程中只使用了单向融合结构,这会导致每个层级特征图只包含当前层级以及更高层级的特征信息,不能体现所有层级特征的映射结果,从而使检测结果不能达到最优。为克服现有技术的缺陷,本发明提出一种基于多维融合特征的视频群体人物定位检测方法,该方法提取多层次的视频特征,采用双向处理通道融合多层次视频特征形成多维融合特征,能够有效地利用所有层级的特征信息获得丰富的视频语义信息,从而对视频中的人物特征进行更加全面的描述,同时并行进行多任务预测操作,有效提升群体人物定位检测的速度,具有良好的准确率和实施性。
技术方案:为实现上述目的,本发明提出的技术方案为:
一种基于多维融合特征的视频群体人物定位检测方法,包括顺序执行的步骤(1)至(8):
(1)输入作为训练样本的视频,视频中的物体种类及位置已知,对视频逐帧进行大小归一处理,将每一帧视频帧的尺寸统一缩放为H×W大小,H表示视频帧高度,W表示视频帧宽度;
(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取,得到视频各个层级的图像特征,组成多层级视频特征图F′,F′={Fi′|i=1,2,…,numF},Fi′表示第i层图像特征,numF表示提取出的视频图像特征总层数,F1′表示底层图像特征,F′numF表示顶层图像特征;
(3)对抽取到的多层级视频特征图F′进行特征融合操作,包括依次执行的步骤(3-1)至(3-4):
(3-1)增加一条从F′numF到F1′的融合通道,对多层级视频特征图F′进行从顶层特征向下的特征融合,获得自顶向下视频特征图Ftop-down;特征融合的方法为:自从顶层图像特征F′numF开始,向下遍历每一层图像特征Fi′,对Fi′依次进行卷积核为conv1、步长为stride1的卷积操作和upSample1倍上采样操作,得到
Figure BDA0002007066990000021
最终得到
Figure BDA0002007066990000022
(3-2)增加一条从
Figure BDA0002007066990000023
Figure BDA0002007066990000024
的融合通道,对
Figure BDA0002007066990000025
进行从底层特征向上的特征融合,获得自底向上视频特征图Fbottom-up
Figure BDA0002007066990000031
Figure BDA0002007066990000032
表示自底向上视频特征图Fbottom-up的第i层图像特征;特征融合的方法为:
a.初始化i=1;
b.计算
Figure BDA0002007066990000033
Figure BDA0002007066990000034
进行卷积核为conv2、步长为stride2的卷积操作,得到结果
Figure BDA0002007066990000035
计算
Figure BDA0002007066990000036
c.更新i=i+1;
d.循环执行步骤b至c,直至i>numF,循环结束后,得到:
Figure BDA0002007066990000037
(3-3)对自底向上视频特征图Fbottom-up中的每一层图像特征
Figure BDA0002007066990000038
进行卷积核为conv3、步长为stride3的卷积操作,得到的结果记为Fi,得到的所有Fi构成多维融合特征图F,F={Fi|i=1,2,…,numF};
(4)将多维融合特征图F输入区域候选网络,输出K个检测目标,获得目标位置集合Box={Boxj|j=1,2,…,K}和对应的人物概率集合Person={Personj|j=1,2,…,K},所述Boxj表示第j个检测目标的位置,Personj表示第j个检测目标为人物的概率,Personj∈[0,1],Personj的取值越大表示该检测目标为人物的可能性越大;
(5)根据Person对检测目标进行分类,设置K个检测目标的真实边界框位置为PPerson={PPersonj|j=1,2,…,K},计算群体人物类别损失函数Losscls,计算公式为
Figure BDA0002007066990000039
其中,PPersonj表示第j个检测目标的真实类别,PPersonj取值为0或1,PPersonj=0表示该检测目标不是人物,PPersonj=1表示该检测目标为人物;
(6)根据Box和Person回归目标位置,设置K个检测目标的真实位置为:
BBox={BBoxj|j=1,2,…,K}
计算群体人物位置损失函数为:
Figure BDA00020070669900000310
其中,BBoxj表示第j个检测目标的真实位置;
(7)计算群体人物定位检测损失值Loss,计算公式为Loss=Losscls+λLossloc,若Loss≤Lossmax,则区域候选网络已经训练完毕,输出区域候选网络参数,执行步骤(8);若Loss>Lossmax,则更新区域候选网络每一层的参数
Figure BDA0002007066990000041
然后返回步骤(4),重新进行人物检测;Lossmax是预设的人群定位检测最大损失值,λ是位置回归和人物分类任务的平衡因子,α是随机梯度下降法的学习率,
Figure BDA0002007066990000042
表示群体人物定位检测损失函数的偏导数;
(8)重新获取待检测的视频,对待检测视频依次进行归一化处理、特征抽取和特征融合,得到待检测的视频的多维融合特征图Fnew,将Fnew输入步骤(7)训练好的区域候选网络,得到新视频中的群体人物定位检测结果。
进一步的,所述步骤(1)中,H=720,W=1280。
进一步的,所述步骤(2)中,numF=4。
进一步的,所述步骤(3)中,conv1=1,stride1=1,upSample1=2,conv2=3,stride2=2,conv3=1,stride3=1。
进一步的,所述步骤(4)中,K=12;所述步骤(7)中,Lossmax=0.5,λ=1,α=0.0001。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明抽取视频多层级的视频描述,进行双向特征处理,融合多层级视频特征图获取多维融合特征,抓取视频候选目标,并行处理候选目标位置回归和类别分类,完成视频群体人物定位检测。本发明通过融合多层级特征获得丰富的视频语义信息,同时进行多任务预测操作,有效提升群体人物定位检测的速度,具有良好的准确率和实施性,具体来说:
(1)本发明建立自顶向下和自底向上的双向特征处理通道,充分挖掘视频的语义信息,提高层级特征利用率。
(2)本发明融合多维视频特征,有机结合位置精准的底层特征和语义丰富的顶层特征,能更好地提高检测准确性。
(3)本发明并行处理多个预测任务,并设置任务平衡因子,有利于根据场景特色建立最适宜的检测模型。
附图说明
图1是基于多维融合特征的视频群体人物定位检测方法流程;
图2为本发明中的一种区域候选网络的结构图;
图3是不同方法检测准确率对比图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案做进一步的详细说明:
实施例1:图1是本实施例提出的基于多维融合特征的视频群体人物定位检测方法的流程图,具体包括以下步骤:
一、预处理:输入作为训练样本的视频,视频中的物体种类及位置已知,对视频逐帧进行大小归一处理,将每一帧视频帧的尺寸统一缩放为H×W大小,H表示视频帧高度,W表示视频帧宽度;这一步相当于预处理,有利于后续的检测,在本实施例中,H=720,W=1280。
二、特征抽取:使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取,得到视频各个层级的图像特征,组成多层级视频特征图F′,F′={Fi′|i=1,2,…,numF},Fi′表示第i层图像特征,numF表示提取出的视频图像特征总层数,F1′表示底层图像特征,F′numF表示顶层图像特征,本实施例中,numF=4。
底层特征目标位置信息准确,可以回归出目标详细的定位数据,但是可以表征的语义信息比较少,而且数据量大,操作处理起来需要占用大量的时空消耗。顶层特征虽然包含的语义丰富,但是因为多层处理,目标位置比较粗略,回归出的目标语义不细腻,在群体人物场景中,容易造成误判。每个层级的特征都有各自的优缺点,为了在群体人物场景中抽取出精准的群体人物定位信息,使用InceptionV3模型提取视频多层级的图像特征,形成多层级特征图。在这一步使用InceptionV3模型的原因是,这种特征提取模型不仅性能良好,而且具有强大的计算性能,便于之后的处理。
三、特征融合:对抽取到的多层级视频特征图F′进行特征融合操作,包括依次执行的步骤(3-1)至(3-4):
(3-1)增加一条从F′numF到F1′的融合通道,对多层级视频特征图F′进行从顶层特征向下的特征融合,获得自顶向下视频特征图Ftop-down;特征融合的方法为:自从顶层图像特征F′numF开始,向下遍历每一层图像特征Fi′,对Fi′依次进行卷积核为conv1、步长为stride1的卷积操作和upSample1倍上采样操作,得到
Figure BDA0002007066990000051
最终得到
Figure BDA0002007066990000052
(3-2)增加一条从
Figure BDA0002007066990000053
Figure BDA0002007066990000054
的融合通道,对Ftop-down进行从底层特征向上的特征融合,获得自底向上视频特征图Fbottom-up
Figure BDA0002007066990000055
Figure BDA0002007066990000056
表示自底向上视频特征图Fbottom-up的第i层图像特征;特征融合的方法为:
a.初始化i=1;
b.计算
Figure BDA0002007066990000061
Figure BDA0002007066990000062
进行卷积核为conv2、步长为stride2的卷积操作,得到结果
Figure BDA0002007066990000063
计算
Figure BDA0002007066990000064
c.更新i=i+1;
d.循环执行步骤b至c,直至i>numF,循环结束后,得到:
Figure BDA0002007066990000065
(3-3)对自底向上视频特征图Fbottom-up中的每一层图像特征
Figure BDA0002007066990000066
进行卷积核为conv3、步长为stride3的卷积操作,得到的结果记为Fi,得到的所有Fi构成多维融合特征图F,F={Fi|i=1,2,…,numF}。
步骤三中,conv1=1,stride1=1,upSample1=2,conv2=3,stride2=2,conv3=1,stride3=1。
多层特征的融合不是简单地进行相加,首先要考虑层级特征的尺寸是否一致,其次需要考虑层级特征融合的合理性,会不会导致融合后检测效果反而降低的情况。本发明对已有的特征融合方法进行了改造设计,自顶向下的结构每层包含当前层以及更高层的特征信息,可以直接采用每层的最优尺寸进行检测,为了能够体现所有层级特征的映射结果以达到最优检测效果,特别增加了自底向上通道,对自顶向下处理结果进行反向连接,更加有效地利用了底层位置信息,并在最后采用卷积操作对每个融合结果进行卷积,以消除上采样的混叠效应。
四、区域候选网络训练:
区域候选网络是一种常用的目标检测网络,主要的功能模块如图2所示,首先它会为滑动窗口的每个像素点生成k个矩形窗口以适应不同尺寸目标的需要,接着将每个矩形窗口的位置信息和对应的图像特征输入网络,为每个矩形窗口分别进行分类层和回归层的操作。分类层主要判别当前矩形窗口中存在人物的概率,参数包括人物权重参数WP和背景干扰参数WE。回归层主要获取当前矩形窗口在原尺寸图像中的坐标信息,参数包括矩形窗口坐标和宽高的偏移权值参数Wx、Wy、Wh和Ww。在整个区域候选网络训练过程中,共享所有参数的设置和调整。
区域候选网络的训练过程如下:
(4-1)将多维融合特征图F输入区域候选网络,输出K个检测目标,此处K=12,因此获得目标位置集合Box={Boxj|j=1,2,…,12}和对应的人物概率集合Person={Personj|j=1,2,…,12},所述Boxj表示第j个检测目标的位置,Personj表示第j个检测目标为人物的概率,Personj∈[0,1],Personj的取值越大表示该检测目标为人物的可能性越大;
(4-2)根据Person对检测目标进行分类,设置12个检测目标的真实边界框位置为PPerson={PPersonj|j=1,2,…,12},计算群体人物类别损失函数Losscls,计算公式为
Figure BDA0002007066990000071
其中,PPersonj表示第j个检测目标的真实类别,PPersonj取值为0或1,PPersonj=0表示该检测目标不是人物,PPersonj=1表示该检测目标为人物;
(4-3)根据Box和Person回归目标位置,设置12个检测目标的真实位置为:
BBox={BBoxj|j=1,2,…,12}
计算群体人物位置损失函数为:
Figure BDA0002007066990000072
其中,BBoxj表示第j个检测目标的真实位置;
(4-4)计算群体人物定位检测损失值Loss,计算公式为Loss=Losscls+λLossloc,若Loss≤Lossmax,则区域候选网络已经训练完毕,输出区域候选网络参数,执行步骤(8);若Loss>Lossmax,则更新区域候选网络每一层的参数
Figure BDA0002007066990000073
然后返回步骤(4),重新进行人物检测;Lossmax是预设的人群定位检测最大损失值,λ是位置回归和人物分类任务的平衡因子,α是随机梯度下降法的学习率,
Figure BDA0002007066990000074
表示群体人物定位检测损失函数的偏导数,本实施例中Lossmax=0.5,λ=1,α=0.0001。
五、采用训练好的区域候选网络检测待检测的视频:
重新获取待检测的视频,对待检测视频依次进行归一化处理、特征抽取和特征融合,得到待检测的视频的多维融合特征图Fnew,将Fnew输入步骤(7)训练好的区域候选网络,得到新视频中的群体人物定位检测结果。使用区域候选网络进行目标检测,考虑到群体人物人数较多、任务复杂的特点,并行进行位置回归和类别分类操作,提高检测效率。在类别分类的过程中,因为检测目标明确为人物,将类别二分为人物和非人物两类,减少检测其他类别浪费的时间,并且融入真实分类结果,提高类别分类的准确性。在位置回归的过程中,为了简化计算过程,只回归人物类别的目标位置,精化回归任务。在整体训练的过程中,加入任务平衡因子,根据场景类型,调整最佳的任务比例,完成视频群体人物定位检测。
六、实验仿真
在测试方法性能过程中,选用当前常用目标检测方法Faster-RCNN、FPN和Mask-RCNN作为对比方法,评价标准是检测在不同IoU阈值和不同尺寸下检测准确率。所谓IoU是指检测结果和真实结果的交并比,IoU∈[0,1],IoU值越高,检测的结果越接近真实结果,在测试过程中记IoU≥0.5为AP_50,记IoU≥0.75为AP_75。在评价过程中,将目标尺寸分为小、中、大三个类别,分别记为AP_S、AP_M、AP_L。图3给出了本发明与对比方法Faster-RCNN、FPN、Mask-RCNN的检测准确率对比图。从实验结果可以发现,与仅使用单层级顶层特征的Faster-RCNN相比,使用了多层级融合特征的三种方法得到了较高的检测准确率,说明多层级融合特征相较于单层级顶层特征具有更强的特征表达能力。FPN和Mask-RCNN在特征处理的过程中仅使用单向结构进行融合处理,本发明使用双向处理通道获得了更加精准的检测效果,实验结果也显示本专利方法针对不同IoU阈值和目标尺寸均得到了更佳的检测准确率。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,包括顺序执行的步骤(1)至(8):
(1)输入作为训练样本的视频,视频中的物体种类及位置已知,对视频逐帧进行大小归一处理,将每一帧视频帧的尺寸统一缩放为H×W大小,H表示视频帧高度,W表示视频帧宽度;
(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取,得到视频各个层级的图像特征,组成多层级视频特征图F',F'={Fi'|i=1,2,…,numF},Fi'表示第i层图像特征,numF表示提取出的视频图像特征总层数,F1'表示底层图像特征,F′numF表示顶层图像特征;
(3)对抽取到的多层级视频特征图F'进行特征融合操作,包括依次执行的步骤(3-1)至(3-4):
(3-1)增加一条从F′numF到F1'的融合通道,对多层级视频特征图F'进行从顶层特征向下的特征融合,获得自顶向下视频特征图Ftop-down;特征融合的方法为:自从顶层图像特征F′numF开始,向下遍历每一层图像特征Fi',对Fi'依次进行卷积核为conv1、步长为stride1的卷积操作和upSample1倍上采样操作,得到Fi top-down,最终得到Ftop-down={Fi top-down|i=1,2,…,numF};
(3-2)增加一条从F1 top-down
Figure FDA0002820334800000011
的融合通道,对Ftop-down进行从底层特征向上的特征融合,获得自底向上视频特征图Fbottom-up,Fbottom-up={Fi bottom-up|i=1,2,…,numF},Fi bottom-up表示自底向上视频特征图Fbottom-up的第i层图像特征;特征融合的方法为:
a.初始化i=1;
b.计算Fi bottom-up=Fi top-down,对Fi bottom-up进行卷积核为conv2、步长为stride2的卷积操作,得到结果
Figure FDA0002820334800000012
计算
Figure FDA0002820334800000013
c.更新i=i+1;
d.循环执行步骤b至c,直至i>numF,循环结束后,得到:
Fbottom-up={Fi bottom-up|i=1,2,…,numF}
(3-3)对自底向上视频特征图Fbottom-up中的每一层图像特征Fi bottom-up进行卷积核为conv3、步长为stride3的卷积操作,得到的结果记为Fi,得到的所有Fi构成多维融合特征图F,F={Fi|i=1,2,…,numF};
(4)将多维融合特征图F输入区域候选网络,输出K个检测目标,获得目标位置集合Box={Boxj|j=1,2,…,K}和对应的人物概率集合Person={Personj|j=1,2,…,K},所述Boxj表示第j个检测目标的位置,Personj表示第j个检测目标为人物的概率,Personj∈[0,1],Personj的取值越大表示该检测目标为人物的可能性越大;
(5)根据Person对检测目标进行分类,设置K个检测目标的真实类别为PPerson={PPersonj|j=1,2,…,K},计算群体人物类别损失函数Losscls,计算公式为
Figure FDA0002820334800000021
其中,PPersonj表示第j个检测目标的真实类别,PPersonj取值为0或1,PPersonj=0表示该检测目标不是人物,PPersonj=1表示该检测目标为人物;
(6)根据Box和Person回归目标位置,设置K个检测目标的真实位置为:
BBox={BBoxj|j=1,2,…,K}
计算群体人物位置损失函数为:
Figure FDA0002820334800000022
其中,BBoxj表示第j个检测目标的真实位置;
(7)计算群体人物定位检测损失值Loss,计算公式为Loss=Losscls+λLossloc,若Loss≤Lossmax,则区域候选网络已经训练完毕,输出区域候选网络参数,执行步骤(8);若Loss>Lossmax,则更新区域候选网络每一层的参数
Figure FDA0002820334800000023
然后返回步骤(4),重新进行人物检测;Lossmax是预设的人群定位检测最大损失值,λ是位置回归和人物分类任务的平衡因子,α是随机梯度下降法的学习率,
Figure FDA0002820334800000024
表示群体人物定位检测损失函数的偏导数;
(8)重新获取待检测的视频,对待检测视频依次进行归一化处理、特征抽取和特征融合,得到待检测的视频的多维融合特征图Fnew,将Fnew输入步骤(7)训练好的区域候选网络,得到待检测视频中的群体人物定位检测结果。
2.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,所述步骤(1)中,H=720,W=1280。
3.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,所述步骤(2)中,numF=4。
4.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,所述步骤(3)中,conv1=1,stride1=1,upSample1=2,conv2=3,stride2=2,conv3=1,stride3=1。
5.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,所述步骤(4)中,K=12;所述步骤(7)中,Lossmax=0.5,λ=1,α=0.0001。
CN201910235608.5A 2019-03-26 2019-03-26 一种基于多维融合特征的视频群体人物定位检测方法 Active CN109903339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910235608.5A CN109903339B (zh) 2019-03-26 2019-03-26 一种基于多维融合特征的视频群体人物定位检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910235608.5A CN109903339B (zh) 2019-03-26 2019-03-26 一种基于多维融合特征的视频群体人物定位检测方法

Publications (2)

Publication Number Publication Date
CN109903339A CN109903339A (zh) 2019-06-18
CN109903339B true CN109903339B (zh) 2021-03-05

Family

ID=66953909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910235608.5A Active CN109903339B (zh) 2019-03-26 2019-03-26 一种基于多维融合特征的视频群体人物定位检测方法

Country Status (1)

Country Link
CN (1) CN109903339B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675391B (zh) * 2019-09-27 2022-11-18 联想(北京)有限公司 图像处理方法、装置、计算设备以及介质
CN111488834B (zh) * 2020-04-13 2023-07-04 河南理工大学 一种基于多层级特征融合的人群计数方法
CN111491180B (zh) * 2020-06-24 2021-07-09 腾讯科技(深圳)有限公司 关键帧的确定方法和装置
CN113610056B (zh) * 2021-08-31 2024-06-07 的卢技术有限公司 障碍物检测方法、装置、电子设备及存储介质
CN114494999B (zh) * 2022-01-18 2022-11-15 西南交通大学 一种双分支联合型目标密集预测方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341471A (zh) * 2017-07-04 2017-11-10 南京邮电大学 一种基于双层条件随机场的人体行为识别方法
CN108399435A (zh) * 2018-03-21 2018-08-14 南京邮电大学 一种基于动静特征的视频分类方法
CN108846446A (zh) * 2018-07-04 2018-11-20 国家新闻出版广电总局广播科学研究院 基于多路径密集特征融合全卷积网络的目标检测方法
CN108898078A (zh) * 2018-06-15 2018-11-27 上海理工大学 一种多尺度反卷积神经网络的交通标志实时检测识别方法
CN109472298A (zh) * 2018-10-19 2019-03-15 天津大学 用于小尺度目标检测的深度双向特征金字塔增强网络
CN109508686A (zh) * 2018-11-26 2019-03-22 南京邮电大学 一种基于层次化特征子空间学习的人体行为识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989442B2 (en) * 2013-04-12 2015-03-24 Toyota Motor Engineering & Manufacturing North America, Inc. Robust feature fusion for multi-view object tracking
CN108229319A (zh) * 2017-11-29 2018-06-29 南京大学 基于帧间差异与卷积神经网络融合的船舶视频检测方法
CN108038867A (zh) * 2017-12-22 2018-05-15 湖南源信光电科技股份有限公司 基于多特征融合和立体视觉的火焰检测和定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341471A (zh) * 2017-07-04 2017-11-10 南京邮电大学 一种基于双层条件随机场的人体行为识别方法
CN108399435A (zh) * 2018-03-21 2018-08-14 南京邮电大学 一种基于动静特征的视频分类方法
CN108898078A (zh) * 2018-06-15 2018-11-27 上海理工大学 一种多尺度反卷积神经网络的交通标志实时检测识别方法
CN108846446A (zh) * 2018-07-04 2018-11-20 国家新闻出版广电总局广播科学研究院 基于多路径密集特征融合全卷积网络的目标检测方法
CN109472298A (zh) * 2018-10-19 2019-03-15 天津大学 用于小尺度目标检测的深度双向特征金字塔增强网络
CN109508686A (zh) * 2018-11-26 2019-03-22 南京邮电大学 一种基于层次化特征子空间学习的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Person Re-Identification Based on Multi-Level and Multi-Feature Fusion;Tan Feigang等;《2017 International Conference on Smart City and Systems Engineering (ICSCSE)》;20171201;第184-187页 *
基于卷积神经网络特征共享与目标检测的跟踪算法研究;李贺;《中国优秀硕士学位论文全文数据库》;20180715;第I138-1347页 *

Also Published As

Publication number Publication date
CN109903339A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN109801256B (zh) 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110321813B (zh) 基于行人分割的跨域行人重识别方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN110363182B (zh) 基于深度学习的车道线检测方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN112150821B (zh) 轻量化车辆检测模型构建方法、***及装置
CN111612008B (zh) 基于卷积网络的图像分割方法
CN112861635B (zh) 一种基于深度学习的火灾及烟雾实时检测方法
CN109598231A (zh) 一种视频水印的识别方法、装置、设备及存储介质
CN109800817B (zh) 基于融合语义神经网络的图像分类方法
CN108564012B (zh) 一种基于人体特征分布的行人解析方法
CN111178208A (zh) 基于深度学习的行人检测方法、装置及介质
CN109902558A (zh) 一种基于cnn-lstm的人体健康深度学习预测方法
CN113449660B (zh) 基于自注意增强的时空变分自编码网络的异常事件检测方法
CN112861917B (zh) 基于图像属性学习的弱监督目标检测方法
CN110298297A (zh) 火焰识别方法和装置
CN110738132B (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110633727A (zh) 基于选择性搜索的深度神经网络舰船目标细粒度识别方法
CN112926652A (zh) 一种基于深度学习的鱼类细粒度图像识别方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Hu et al. RGB-D image multi-target detection method based on 3D DSF R-CNN
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant