CN107808376B

CN107808376B - 一种基于深度学习的举手检测方法

Info

Publication number: CN107808376B
Application number: CN201711044722.7A
Authority: CN
Inventors: 林娇娇; 姜飞; 申瑞民
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2022-03-11
Anticipated expiration: 2037-10-31
Also published as: CN107808376A

Abstract

本发明涉及一种基于深度学习的举手检测方法，包括以下步骤：1)收集样本，所述样本为复杂环境样本；2)建立举手检测模型，该举手检测模型基于卷积神经网络结构，并基于所述样本以R‑FCN目标检测算法进行训练；3)利用训练后的举手检测模型对待测视频进行举手检测，获得举手框位置。与现有技术相比，本发明具有能够检测复杂环境中的举手动作、准确率检全率高等优点。

Description

一种基于深度学习的举手检测方法

技术领域

本发明涉及一种视频检测方法，尤其是涉及一种基于深度学习的举手检测方法。

背景技术

视频序列中的运动人体检测与行为识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题，因其在商业、医疗和军事等领域中广泛的应用价值，一直是人们研究的热点。然而，因为人体行为的多样性和非刚性及视频图像固有的复杂性，所以要提出一种稳健而又实时准确的方法仍然是难点。

由于噪声和高度动态的背景，不同的光照条件，以及小尺寸和多个可能的匹配对象，在一个典型的课堂环境中检测人的举手动作是一个具有挑战性的任务。

文献“Haar-Feature Based Gesture Detection of Hand-Raising for MobileRobot in HRI Environments”公开了一种基于Haar特征的举手检测技术，该方法首先训练两个分类器，该方法用人脸检测器扫描输入图像的所有位置以查找人，然后用一个举手检测器扫描人脸周围的特定区域以检测是否有举手。该方法分为训练阶段和检测阶段。训练阶段具体包括：(1)创建样本，训练样本分为正样本和负样本，其中正样本是指待检目标样本，负样本指其它任意图片；(2)特征提取，包括边缘特征、线条特征和中心特征；(3)Cascaded Adaboost训练，通过调用OpenCV的opencv_traincascade程序来完成。训练结束后生成一个.xml模型文件，生成的adaboost级联分类器可以检测举手动作，这也是整个检测技术的关键。检测阶段具体包括：(1)视频切帧并进行人脸检测；(2)基于人脸约束的感兴趣区域选择；(3)利用训练好的级联分类器在感兴趣区域中进行举手检测。

上述方法虽然能获得检测结果，但还存在一些不足：(1)需要进行人脸检测，人脸检测的效果好坏将直接影响最终举手检测的效果；(2)感兴趣区域的选择需要不断尝试，对新的检测环境需要重新制定选择方案，似的检测结果不鲁棒；(3)基于Haar特征的举手检测效果不佳，准确率和检全率均较低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的举手检测方法。

本发明的目的之一是能够检测复杂环境(如教室环境)中的举手动作。

本发明的目的之二是提高举手检测的准确率。

本发明的目的之三是提高举手检测的检全率。

本发明的目的之四是将不同帧的同一举手动作合并，得到更加真实的举手次数。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的举手检测方法，包括以下步骤：

1)收集样本，所述样本为复杂环境样本；

2)建立举手检测模型，该举手检测模型基于卷积神经网络结构，并基于所述样本以R-FCN目标检测算法进行训练；

3)利用训练后的举手检测模型对待测视频进行举手检测，获得举手框位置。

进一步地，所述步骤1)中，样本数量大于3万个。

进一步地，所述步骤1)还包括：保存样本信息，所述样本信息包括视频关键帧图像、关键帧图像信息和关键帧图像信息中举手目标的包围盒坐标。

进一步地，所述步骤1)还包括：对样本尺寸进行聚类，获得训练过程所需的模板尺寸。

进一步地，所述卷积神经网络结构包括中间层次融合层。

进一步地，该方法还包括步骤：

4)使用跟踪算法对不同帧的同一举手动作进行合并。

进一步地，所述步骤4)具体为：

401)获取第一个图像帧及检测到的举手框坐标，各举手框对应建立有一tracklet数组，且状态初始化为ALIVE；

402)获取下一个图像帧，判断是否发生镜头视角变换，若是，则将所有tracklet数组的状态改为DEAD，重新建立新的tracklet数组，返回步骤402)，若否，则执行步骤403)；

403)遍历当前图像帧检测到的所有举手框，利用跟踪算法为每一举手框选择最佳匹配的一个tracklet数组；

404)对于在当前图像帧下未被匹配的tracklet数组，判断其状态是否ALIVE，若是，则状态修改为WAIT，若否，则状态修改为DEAD，返回步骤402)，直至处理完成所有图像帧。

进一步地，所述判断是否发生镜头视角变换具体为：

获取相邻两个图像帧，统计两个图像帧对应像素点变化率超过第一阈值的像素点个数；判断变化的像素点个数是否大于第二阈值，若是，则判定为发生镜头视角变换，若否，则未发生镜头视角变换。

进一步地，该方法还包括步骤：

5)对检测并合并后的举手动作进行计数。

与现有技术相比，本发明具有以下有益效果：

1、本发明采用复杂环境中的视频图像作为样本进行举手检测模型的训练，使得本发明方法能够适用于复杂环境的举手检测，能很好地适应较复杂的背景。

2、本发明所提出的举手检测模型是基于大量(大于3万举手样本)样本训练的深度学习模型，模型的准确率高，经过大量的测试，本发明准确率为90％以上。

3、本发明训练过程所需要的模板尺寸是基于样本的尺寸聚类获得，而不是人工选择，有效提升了模型的效果。

4、本发明的模板尺寸聚类以及网络中间层次融合保证了模型的检全率，经过大量的测试，本发明检全率为70％以上。

5、本发明使用的跟踪算法能有效跟踪不同帧之间的同一举手动作，因此能得到真实举手次数的数据，为进一步分析评估提供依据。

附图说明

图1为本发明的流程示意图；

图2为本发明样本尺寸聚类的流程示意图；

图3为网络中间层层次融合的示意图；

图4为本发明举手检测模型的网络结构示意图；

图5为本发明举手动作的合并流程示意图；

图6为本发明镜头边界判断流程示意图；

图7为实施例中的检测效果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本发明提供一种基于深度学习的举手检测方法，包括以下步骤：

1)收集样本，所述样本为复杂环境样本，样本数量大于3万个。

收集样本后需要保存样本信息，包括视频关键帧图像、关键帧图像信息和关键帧图像信息中举手目标的包围盒坐标等。

样本信息的保存可以按照PASCAL VOC数据集的格式制作。PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，该格式下保存的文件夹包括JPEGImages、Annotations等，其中JPEGImages中存放视频的关键帧图像，Annotations中存放对应图像的详细信息以及图像中举手目标的包围盒坐标，其中举手框位置标记形式由左上角坐标和左下角坐标组成。

模型训练过程中需要用到模板(anchors)，本发明中模板大小通过样本尺寸聚类方式获得。在某些实施例中，采用kmeans算法对样本尺寸进行聚类，选出最具有代表性的9种尺寸作为模板。

k-means中的距离度量公式在这里重新定义为：

d(box,centroid)＝1-IOU(box,centroid)

其中，d(box,centroid)表示包围盒box与质点centroid的距离，IOU(box,centroid)表示对应的交叠率。

上述公式中，IOU(Intersection over Union)表示模板anchors(即box)与预标记举手框ground truth(即centroid)的交叠率，定义为：

如图2所示，聚类的输入具体过程伪代码可描述为：

Require:输入预标定举手框的bounding box

Ensure:输出9种最典型的尺寸作为模板尺寸

1:k＝9

2:选择k个点作为初始质心

3:repeat

4:根据距离公式：d(box,centroid)＝1-IOU(box,centroid)

5:将每个bounding box指派到最近的质心，形成k个簇

6:重新计算每个簇的质心

7:until簇不发生变化

2)建立举手检测模型，该举手检测模型基于卷积神经网络结构，并基于所述样本以R-FCN目标检测算法进行训练。卷积神经网络结构包括中间层次融合层，以丰富卷积神经网络提取到的特征，进而提高检测的准确率。

在某些实施例中，卷积神经网络结构使用的修改版的ResNet-101，用C1,C2,C3,C4,C5分别表示ResNet-101的conv1,conv2,conv3,conv4,conv5输出。随着卷积层数的叠加，每一个卷积核的感受野越来越大，学习到的语义特征也越高级，但是一些细微的特征越容易被忽略。而有些环境中举手动作的分辨率会较小，因此为了正确检测小目标，我们将C3与C5的输出相叠加，使网络在C5层学习到的特征同时具有高级语义特征以及低级细节特征。如图3所示，res5c_relu是C5的输出，C5_topdown是C5的上采样层，使C5上采样到与C3一样的大小，最后C5_topdown与C3叠加得到P3层，P3于是代替res5c_relu成为C5的输出，这就丰富了卷积神经网络提取到的特征。

特征提取网络采用ResNet-101，并做了网络中间层次的特征图融合后，采用R-FCN目标检测算法进行模型训练。首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN网络和detection网络。RPN网络用于生成region proposals，该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors获得精确的proposals。Roi Pooling层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，并计算position-sensitive score maps，然后送入后续detection网络判定目标类别。最后利用proposal feature maps计算proposal的类别，并获得检测框最终的精确位置。

ResNet-101包括5个卷积块，共计101层，原版的R-FCN使用前4个卷积块作为RPN网络和detection网络的共享权值网络，第五个卷积块作为detection网络的特征提取网络，本发明把所有的101层都作为RPN网络和detection网络的共享权值网络，第5个卷积块输出的feature map被共享用于RPN网络和detection网络，这样的处理方式在保证准确率的基础上同时也大大减少了计算量。

举手检测模型的网络如图4所示。

在某些实施例中，该方法还包括步骤：4)根据上一帧的位置，对下一帧的举手动作进行跟踪，使用跟踪算法对不同帧的同一举手动作进行合并。在镜头视角不发生变换的情况下，可以使用跟踪算法对不同帧的同一举手动作进行跟踪。跟踪算法可以采用回溯-剪枝法，为上一帧的举手动作与下一帧的举手动作进行最优匹配。

步骤4)具体为：

403)遍历当前图像帧检测到的所有举手框，利用回溯剪枝法为每一举手框选择最佳匹配的一个tracklet数组；

上述过程的伪代码可概括为：

Require:输入N个图像的集合，以及分别检测到的举手框bounding box

Ensure:输出tracklets

单个图像帧中举手动作的合并过程如图5所示。

基于摄像头的视频拍摄存在镜头视角变换的可能，本发明采用帧差法解决该问题，即连续帧相减。如图6所示，判断是否发生镜头视角变换具体为：

具体判断方法是白色部分(即运动部分)占总体像素是否超过了20％，超过即切换。

基于上述合并过程，该方法还可包括步骤：5)对检测并合并后的举手动作进行计数。

实施例1

本实施例以中小学生教室环境为例说明上述方法。收集4万个样本量，按PASCALVOC数据集的格式制作举手样本。通过样本尺寸的聚类，最终聚类出的9种anchor box尺寸为：

(37，59)(44,72)(53,80)(56,96)(67,105)(75,128)(91,150)(115,184)(177,283)。

本实施例中的训练过程一共迭代了20000次，得到一个效果较好的举手检测模型。所训练的举手检测模型部分效果图如图7所示。

在利用跟踪算法进行不同帧举手动作的合并后，进行数量的统计，记录整个课堂中举手动作的发生次数，完成一个课堂中举手动作的计数，以此评估课堂氛围，为课堂气氛的智能分析提供了依据。

经试验，上述方法的举手检测准确率和检全率较高，准确率90％以上，检全率70％以上。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习的举手检测方法，其特征在于，包括以下步骤：

1）收集样本，所述样本为复杂环境样本，对样本尺寸进行聚类，获得训练过程所需的模板尺寸；

2）建立举手检测模型，该举手检测模型基于卷积神经网络结构，并基于所述样本以R-FCN目标检测算法进行训练；

3）利用训练后的举手检测模型对待测视频进行举手检测，获得举手框位置；

4）使用跟踪算法对不同帧的同一举手动作进行合并；

所述步骤4）具体为：

401）获取第一个图像帧及检测到的举手框坐标，各举手框对应建立有一tracklet数组，且状态初始化为ALIVE；

402）获取下一个图像帧，判断是否发生镜头视角变换，若是，则将所有tracklet数组的状态改为DEAD，重新建立新的tracklet数组，返回步骤402），若否，则执行步骤403）；

403）遍历当前图像帧检测到的所有举手框，利用跟踪算法为每一举手框选择最佳匹配的一个tracklet数组；

404）对于在当前图像帧下未被匹配的tracklet数组，判断其状态是否ALIVE，若是，则状态修改为WAIT，若否，则状态修改为DEAD，返回步骤402），直至处理完成所有图像帧；

所述判断是否发生镜头视角变换具体为：

2.根据权利要求1所述的基于深度学习的举手检测方法，其特征在于，所述步骤1）中，样本数量大于3万个。

3.根据权利要求1所述的基于深度学习的举手检测方法，其特征在于，所述步骤1）还包括：保存样本信息，所述样本信息包括视频关键帧图像、关键帧图像信息和关键帧图像信息中举手目标的包围盒坐标。

4.根据权利要求1所述的基于深度学习的举手检测方法，其特征在于，所述卷积神经网络结构包括中间层次融合层。

5.根据权利要求1所述的基于深度学习的举手检测方法，其特征在于，该方法还包括步骤：

5）对检测并合并后的举手动作进行计数。