CN109903339B

CN109903339B - 一种基于多维融合特征的视频群体人物定位检测方法

Info

Publication number: CN109903339B
Application number: CN201910235608.5A
Authority: CN
Inventors: 陈志�; 掌静; 岳文静; 周传; 陈璐; 刘玲; 任杰; 周松颖; 江婧
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-03-05
Anticipated expiration: 2039-03-26
Also published as: CN109903339A

Abstract

本发明公开一种多维融合特征的视频群体人物定位检测方法。该发明首先抽取多层级视频特征图，建立自顶向下和自底向上的双向特征处理通道充分挖掘视频的语义信息，接着融合多层级视频特征图获取多维融合特征，抓取视频候选目标，最后并行处理候选目标位置回归和类别分类，完成视频群体人物定位检测。本发明通过融合多层级特征获得丰富的视频语义信息，同时进行多任务预测操作，有效提升群体人物定位检测的速度，具有良好的准确率和实施性。

Description

一种基于多维融合特征的视频群体人物定位检测方法

技术领域

本发明涉及计算机视觉、模式识别等交叉技术领域，尤其是一种基于多维融合特征的视频群体人物定位检测方法。

背景技术

随着视频采集和图像处理技术的发展，视频群体人物定位检测是当前计算机视觉领域的一个热门的研究方向，具有广泛的应用价值，并且它也是更多高层计算机视觉问题的基础，比如密集人群监控、社交语义分析等。

视频群体人物定位检测的任务内容对人眼来说不是难事，主要是通过对不同颜色区块的感知定位、分类出目标人物的所在位置，但是对于计算机来说处理的是RGB矩阵，如何从场景中分割出群体人物所在的区域位置，并减少背景区域对定位检测的影响是件难事。

视频群体人物定位检测算法的发展经历了边界框回归、深度神经网络兴起、多参考窗口发展、难样本挖掘与聚焦和多尺度多端口检测这几个跨越式技术的进步，按照算法核心可以分为两个类型，一种是基于传统手工特征的定位检测算法，另一种是基于深度学习的定位检测算法。在2013年以前，对视频或图像中人物的定位检测主要基于传统的手工特征，受到特征描述和计算能力的限制，计算机视觉研究人员尽其所能设计多元化的检测算法弥补手工设计特征在图像特征表达能力上的不足，并使用精巧的计算方法对检测模型加速，降低时空消耗。在这其中出现了几种代表的手工特征检测算法，Viola-Jones检测器、HOG检测器、可变形部件模型检测器。

随着深度神经网络的兴起，基于深度学习的检测模型克服了传统手工特征检测算法对特征描述有限的缺点，从大数据中自动学习特征的表示，其中包含成千上万的参数，针对新的应用场景经过训练学习很快能够获取新的有效的特征表示，基于深度学习的检测模型主要分为基于区域提名和基于端到端两个方向。基于区域提名的检测模型首先对待检测图像选出大量的区域候选框，这些候选框中可能包含要检测的目标，再提取每个候选框的特征获取特征向量，分类特征向量获取类别信息，最后进行位置回归得到对应的坐标信息。基于端到端的检测舍弃了候选框提取，直接将特征提取、候选框回归和分类放在一个卷积网络中完成。

由于群体人物行为具有集体性和多元性的特征，是人与人之间的行为交互和人与环境之间的行为交互的集合，所以在群体人物行为发生过程中易发生人与人相互遮挡或人与物的相互遮挡，再加之视频成像时光照变化等因素的干扰，现有的基于深度学习的检测模型在检测过程中会因为这些干扰因素不能准确定位人物位置，甚至造成人物漏检。

发明内容

发明目的：在群体人物场景中，由于同时存在多个人物，为了能够有效地定位检测群体人物，需要对每个人物进行精准地特征描述。现有的基于深度学习的检测模型通常采用单层级顶层视频特征作为检测依据，虽然顶层视频特征包含丰富的视频语义，但是回归出的人物位置比较粗糙。近年来，也出现了一些使用多层级融合视频特征的检测模型，这些模型的视频特征虽然融合底层视频特征以提升检测准确率，但在特征融合的过程中只使用了单向融合结构，这会导致每个层级特征图只包含当前层级以及更高层级的特征信息，不能体现所有层级特征的映射结果，从而使检测结果不能达到最优。为克服现有技术的缺陷，本发明提出一种基于多维融合特征的视频群体人物定位检测方法，该方法提取多层次的视频特征，采用双向处理通道融合多层次视频特征形成多维融合特征，能够有效地利用所有层级的特征信息获得丰富的视频语义信息，从而对视频中的人物特征进行更加全面的描述，同时并行进行多任务预测操作，有效提升群体人物定位检测的速度，具有良好的准确率和实施性。

技术方案：为实现上述目的，本发明提出的技术方案为：

一种基于多维融合特征的视频群体人物定位检测方法，包括顺序执行的步骤(1)至(8)：

(1)输入作为训练样本的视频，视频中的物体种类及位置已知，对视频逐帧进行大小归一处理，将每一帧视频帧的尺寸统一缩放为H×W大小，H表示视频帧高度，W表示视频帧宽度；

(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取，得到视频各个层级的图像特征，组成多层级视频特征图F′，F′＝{F_i′|i＝1，2，…，numF}，F_i′表示第i层图像特征，numF表示提取出的视频图像特征总层数，F₁′表示底层图像特征，F′_numF表示顶层图像特征；

(3)对抽取到的多层级视频特征图F′进行特征融合操作，包括依次执行的步骤(3-1)至(3-4)：

(3-1)增加一条从F′_numF到F₁′的融合通道，对多层级视频特征图F′进行从顶层特征向下的特征融合，获得自顶向下视频特征图F^top-down；特征融合的方法为：自从顶层图像特征F′_numF开始，向下遍历每一层图像特征F_i′，对F_i′依次进行卷积核为conv₁、步长为stride₁的卷积操作和upSample₁倍上采样操作，得到

最终得到

(3-2)增加一条从

到

的融合通道，对

进行从底层特征向上的特征融合，获得自底向上视频特征图F^bottom-up，

表示自底向上视频特征图F^bottom-up的第i层图像特征；特征融合的方法为：

a.初始化i＝1；

b.计算

对

进行卷积核为conv₂、步长为stride₂的卷积操作，得到结果

计算

c.更新i＝i+1；

d.循环执行步骤b至c，直至i＞numF，循环结束后，得到：

(3-3)对自底向上视频特征图F^bottom-up中的每一层图像特征

进行卷积核为conv₃、步长为stride₃的卷积操作，得到的结果记为F_i，得到的所有F_i构成多维融合特征图F，F＝{F_i|i＝1，2，…，numF}；

(4)将多维融合特征图F输入区域候选网络，输出K个检测目标，获得目标位置集合Box＝{Box_j|j＝1，2，…，K}和对应的人物概率集合Person＝{Person_j|j＝1，2，…，K}，所述Box_j表示第j个检测目标的位置，Person_j表示第j个检测目标为人物的概率，Person_j∈[0，1]，Person_j的取值越大表示该检测目标为人物的可能性越大；

(5)根据Person对检测目标进行分类，设置K个检测目标的真实边界框位置为PPerson＝{PPerson_j|j＝1，2，…，K}，计算群体人物类别损失函数Loss_cls，计算公式为

其中，PPerson_j表示第j个检测目标的真实类别，PPerson_j取值为0或1，PPerson_j＝0表示该检测目标不是人物，PPerson_j＝1表示该检测目标为人物；

(6)根据Box和Person回归目标位置，设置K个检测目标的真实位置为：

BBox＝{BBox_j|j＝1，2，…，K}

计算群体人物位置损失函数为：

其中，BBox_j表示第j个检测目标的真实位置；

(7)计算群体人物定位检测损失值Loss，计算公式为Loss＝Loss_cls+λLoss_loc，若Loss≤Loss_max，则区域候选网络已经训练完毕，输出区域候选网络参数，执行步骤(8)；若Loss＞Loss_max，则更新区域候选网络每一层的参数

然后返回步骤(4)，重新进行人物检测；Loss_max是预设的人群定位检测最大损失值，λ是位置回归和人物分类任务的平衡因子，α是随机梯度下降法的学习率，

表示群体人物定位检测损失函数的偏导数；

(8)重新获取待检测的视频，对待检测视频依次进行归一化处理、特征抽取和特征融合，得到待检测的视频的多维融合特征图F_new，将F_new输入步骤(7)训练好的区域候选网络，得到新视频中的群体人物定位检测结果。

进一步的，所述步骤(1)中，H＝720，W＝1280。

进一步的，所述步骤(2)中，numF＝4。

进一步的，所述步骤(3)中，conv₁＝1，stride₁＝1，upSample₁＝2，conv₂＝3，stride₂＝2，conv₃＝1，stride₃＝1。

进一步的，所述步骤(4)中，K＝12；所述步骤(7)中，Loss_max＝0.5，λ＝1，α＝0.0001。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明抽取视频多层级的视频描述，进行双向特征处理，融合多层级视频特征图获取多维融合特征，抓取视频候选目标，并行处理候选目标位置回归和类别分类，完成视频群体人物定位检测。本发明通过融合多层级特征获得丰富的视频语义信息，同时进行多任务预测操作，有效提升群体人物定位检测的速度，具有良好的准确率和实施性，具体来说：

(1)本发明建立自顶向下和自底向上的双向特征处理通道，充分挖掘视频的语义信息，提高层级特征利用率。

(2)本发明融合多维视频特征，有机结合位置精准的底层特征和语义丰富的顶层特征，能更好地提高检测准确性。

(3)本发明并行处理多个预测任务，并设置任务平衡因子，有利于根据场景特色建立最适宜的检测模型。

附图说明

图1是基于多维融合特征的视频群体人物定位检测方法流程；

图2为本发明中的一种区域候选网络的结构图；

图3是不同方法检测准确率对比图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案做进一步的详细说明：

实施例1：图1是本实施例提出的基于多维融合特征的视频群体人物定位检测方法的流程图，具体包括以下步骤：

一、预处理：输入作为训练样本的视频，视频中的物体种类及位置已知，对视频逐帧进行大小归一处理，将每一帧视频帧的尺寸统一缩放为H×W大小，H表示视频帧高度，W表示视频帧宽度；这一步相当于预处理，有利于后续的检测，在本实施例中，H＝720，W＝1280。

二、特征抽取：使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取，得到视频各个层级的图像特征，组成多层级视频特征图F′，F′＝{F_i′|i＝1，2，…，numF}，F_i′表示第i层图像特征，numF表示提取出的视频图像特征总层数，F₁′表示底层图像特征，F′_numF表示顶层图像特征，本实施例中，numF＝4。

底层特征目标位置信息准确，可以回归出目标详细的定位数据，但是可以表征的语义信息比较少，而且数据量大，操作处理起来需要占用大量的时空消耗。顶层特征虽然包含的语义丰富，但是因为多层处理，目标位置比较粗略，回归出的目标语义不细腻，在群体人物场景中，容易造成误判。每个层级的特征都有各自的优缺点，为了在群体人物场景中抽取出精准的群体人物定位信息，使用InceptionV3模型提取视频多层级的图像特征，形成多层级特征图。在这一步使用InceptionV3模型的原因是，这种特征提取模型不仅性能良好，而且具有强大的计算性能，便于之后的处理。

三、特征融合：对抽取到的多层级视频特征图F′进行特征融合操作，包括依次执行的步骤(3-1)至(3-4)：

最终得到

(3-2)增加一条从

到

的融合通道，对F^top-down进行从底层特征向上的特征融合，获得自底向上视频特征图F^bottom-up，

a.初始化i＝1；

b.计算

对

进行卷积核为conv₂、步长为stride₂的卷积操作，得到结果

计算

c.更新i＝i+1；

d.循环执行步骤b至c，直至i＞numF，循环结束后，得到：

(3-3)对自底向上视频特征图F^bottom-up中的每一层图像特征

进行卷积核为conv₃、步长为stride₃的卷积操作，得到的结果记为F_i，得到的所有F_i构成多维融合特征图F，F＝{F_i|i＝1，2，…，numF}。

步骤三中，conv₁＝1，stride₁＝1，upSample₁＝2，conv₂＝3，stride₂＝2，conv₃＝1，stride₃＝1。

多层特征的融合不是简单地进行相加，首先要考虑层级特征的尺寸是否一致，其次需要考虑层级特征融合的合理性，会不会导致融合后检测效果反而降低的情况。本发明对已有的特征融合方法进行了改造设计，自顶向下的结构每层包含当前层以及更高层的特征信息，可以直接采用每层的最优尺寸进行检测，为了能够体现所有层级特征的映射结果以达到最优检测效果，特别增加了自底向上通道，对自顶向下处理结果进行反向连接，更加有效地利用了底层位置信息，并在最后采用卷积操作对每个融合结果进行卷积，以消除上采样的混叠效应。

四、区域候选网络训练：

区域候选网络是一种常用的目标检测网络，主要的功能模块如图2所示，首先它会为滑动窗口的每个像素点生成k个矩形窗口以适应不同尺寸目标的需要，接着将每个矩形窗口的位置信息和对应的图像特征输入网络，为每个矩形窗口分别进行分类层和回归层的操作。分类层主要判别当前矩形窗口中存在人物的概率，参数包括人物权重参数W_P和背景干扰参数W_E。回归层主要获取当前矩形窗口在原尺寸图像中的坐标信息，参数包括矩形窗口坐标和宽高的偏移权值参数W_x、W_y、W_h和W_w。在整个区域候选网络训练过程中，共享所有参数的设置和调整。

区域候选网络的训练过程如下：

(4-1)将多维融合特征图F输入区域候选网络，输出K个检测目标，此处K＝12，因此获得目标位置集合Box＝{Box_j|j＝1，2，…，12}和对应的人物概率集合Person＝{Person_j|j＝1，2，…，12}，所述Box_j表示第j个检测目标的位置，Person_j表示第j个检测目标为人物的概率，Person_j∈[0，1]，Person_j的取值越大表示该检测目标为人物的可能性越大；

(4-2)根据Person对检测目标进行分类，设置12个检测目标的真实边界框位置为PPerson＝{PPerson_j|j＝1，2，…，12}，计算群体人物类别损失函数Loss_cls，计算公式为

(4-3)根据Box和Person回归目标位置，设置12个检测目标的真实位置为：

BBox＝{BBox_j|j＝1，2，…，12}

计算群体人物位置损失函数为：

其中，BBox_j表示第j个检测目标的真实位置；

(4-4)计算群体人物定位检测损失值Loss，计算公式为Loss＝Loss_cls+λLoss_loc，若Loss≤Loss_max，则区域候选网络已经训练完毕，输出区域候选网络参数，执行步骤(8)；若Loss＞Loss_max，则更新区域候选网络每一层的参数

表示群体人物定位检测损失函数的偏导数，本实施例中Loss_max＝0.5，λ＝1，α＝0.0001。

五、采用训练好的区域候选网络检测待检测的视频：

重新获取待检测的视频，对待检测视频依次进行归一化处理、特征抽取和特征融合，得到待检测的视频的多维融合特征图F_new，将F_new输入步骤(7)训练好的区域候选网络，得到新视频中的群体人物定位检测结果。使用区域候选网络进行目标检测，考虑到群体人物人数较多、任务复杂的特点，并行进行位置回归和类别分类操作，提高检测效率。在类别分类的过程中，因为检测目标明确为人物，将类别二分为人物和非人物两类，减少检测其他类别浪费的时间，并且融入真实分类结果，提高类别分类的准确性。在位置回归的过程中，为了简化计算过程，只回归人物类别的目标位置，精化回归任务。在整体训练的过程中，加入任务平衡因子，根据场景类型，调整最佳的任务比例，完成视频群体人物定位检测。

六、实验仿真

在测试方法性能过程中，选用当前常用目标检测方法Faster-RCNN、FPN和Mask-RCNN作为对比方法，评价标准是检测在不同IoU阈值和不同尺寸下检测准确率。所谓IoU是指检测结果和真实结果的交并比，IoU∈[0，1]，IoU值越高，检测的结果越接近真实结果，在测试过程中记IoU≥0.5为AP_50，记IoU≥0.75为AP_75。在评价过程中，将目标尺寸分为小、中、大三个类别，分别记为AP_S、AP_M、AP_L。图3给出了本发明与对比方法Faster-RCNN、FPN、Mask-RCNN的检测准确率对比图。从实验结果可以发现，与仅使用单层级顶层特征的Faster-RCNN相比，使用了多层级融合特征的三种方法得到了较高的检测准确率，说明多层级融合特征相较于单层级顶层特征具有更强的特征表达能力。FPN和Mask-RCNN在特征处理的过程中仅使用单向结构进行融合处理，本发明使用双向处理通道获得了更加精准的检测效果，实验结果也显示本专利方法针对不同IoU阈值和目标尺寸均得到了更佳的检测准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多维融合特征的视频群体人物定位检测方法，其特征在于，包括顺序执行的步骤(1)至(8)：

(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取，得到视频各个层级的图像特征，组成多层级视频特征图F'，F'＝{F_i'|i＝1,2,…,numF}，F_i'表示第i层图像特征，numF表示提取出的视频图像特征总层数，F₁'表示底层图像特征，F′_numF表示顶层图像特征；

(3)对抽取到的多层级视频特征图F'进行特征融合操作，包括依次执行的步骤(3-1)至(3-4)：

(3-1)增加一条从F′_numF到F₁'的融合通道，对多层级视频特征图F'进行从顶层特征向下的特征融合，获得自顶向下视频特征图F^top-down；特征融合的方法为：自从顶层图像特征F′_numF开始，向下遍历每一层图像特征F_i'，对F_i'依次进行卷积核为conv₁、步长为stride₁的卷积操作和upSample₁倍上采样操作，得到F_i ^top-down，最终得到F^top-down＝{F_i ^top-down|i＝1,2,…,numF}；

(3-2)增加一条从F₁ ^top-down到

的融合通道，对F^top-down进行从底层特征向上的特征融合，获得自底向上视频特征图F^bottom-up，F^bottom-up＝{F_i ^bottom-up|i＝1,2,…,numF}，F_i ^bottom-up表示自底向上视频特征图F^bottom-up的第i层图像特征；特征融合的方法为：

a.初始化i＝1；

b.计算F_i ^bottom-up＝F_i ^top-down，对F_i ^bottom-up进行卷积核为conv₂、步长为stride₂的卷积操作，得到结果

计算

c.更新i＝i+1；

d.循环执行步骤b至c，直至i＞numF，循环结束后，得到：

F^bottom-up＝{F_i ^bottom-up|i＝1,2,…,numF}

(3-3)对自底向上视频特征图F^bottom-up中的每一层图像特征F_i ^bottom-up进行卷积核为conv₃、步长为stride₃的卷积操作，得到的结果记为F_i，得到的所有F_i构成多维融合特征图F，F＝{F_i|i＝1,2,…,numF}；

(4)将多维融合特征图F输入区域候选网络，输出K个检测目标，获得目标位置集合Box＝{Box_j|j＝1,2,…,K}和对应的人物概率集合Person＝{Person_j|j＝1,2,…,K}，所述Box_j表示第j个检测目标的位置，Person_j表示第j个检测目标为人物的概率，Person_j∈[0,1]，Person_j的取值越大表示该检测目标为人物的可能性越大；

(5)根据Person对检测目标进行分类，设置K个检测目标的真实类别为PPerson＝{PPerson_j|j＝1,2,…,K}，计算群体人物类别损失函数Loss_cls，计算公式为

BBox＝{BBox_j|j＝1,2,…,K}

计算群体人物位置损失函数为：

其中，BBox_j表示第j个检测目标的真实位置；

表示群体人物定位检测损失函数的偏导数；

(8)重新获取待检测的视频，对待检测视频依次进行归一化处理、特征抽取和特征融合，得到待检测的视频的多维融合特征图F_new，将F_new输入步骤(7)训练好的区域候选网络，得到待检测视频中的群体人物定位检测结果。

2.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法，其特征在于，所述步骤(1)中，H＝720，W＝1280。

3.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法，其特征在于，所述步骤(2)中，numF＝4。

4.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法，其特征在于，所述步骤(3)中，conv₁＝1，stride₁＝1，upSample₁＝2，conv₂＝3，stride₂＝2，conv₃＝1，stride₃＝1。

5.根据权利要求1所述的一种基于多维融合特征的视频群体人物定位检测方法，其特征在于，所述步骤(4)中，K＝12；所述步骤(7)中，Loss_max＝0.5，λ＝1，α＝0.0001。