CN109977773A

CN109977773A - 基于多目标检测3d cnn的人体行为识别方法及***

Info

Publication number: CN109977773A
Application number: CN201910136442.1A
Authority: CN
Inventors: 董敏; 李永发; 毕盛; 聂宏蓄
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-07-05
Anticipated expiration: 2039-02-18
Also published as: CN109977773B

Abstract

本发明公开了一种基于多目标检测3D CNN的人体行为识别方法及***，该方法包括：1)对视频进行预处理，将视频流转化为图像帧；2)采用目前比较成熟的SSD检测技术对视频中的目标对象进行标定裁剪；3)建立图像帧数据和标定裁剪数据的特征提取网络结构；4)建立特征融合模型，将步骤3)中提取的两种特征进行融合；5)利用Softmax回归模型分类器进行分类；6)根据实际的应用场景或公共数据集，对训练好的模型进行微调。本发明弥补目前深度神经网络模型在时间维度上卷积而造成信息丢失的一种情况，强化在时间维度上的特征的表达，整体提高模型的识别效率，使模型能够更好的理解人体的行为动作。

Description

基于多目标检测3D CNN的人体行为识别方法及***

技术领域

本发明涉及人体行为识别分析的技术领域，尤其是指一种基于多目标检测3D CNN的人体行为识别方法及***。

背景技术

人体行为识别指的是识别真实环境中的人类的行为表现或动作，可以在各个领域中进行应用。目前常见的应用场景有：智能监控、智能家居、人机交互和人体行为属性分析、预判等领域。然而，提升识别的准确率和效率仍然是一项十分具有挑战性的任务，也受到了所有研究人员的广泛关注。

在过去的几十年里，对人体行为特征的提取和表示主要停留在人工阶段，而人工对特征的设计、提取往往又取决了设计者的经验。常见的人工特征提取方法有：时空兴趣点(STIP)，视觉词袋(BOVW)，方向梯度直方图(HOG)，运动历史图形(MHI)，运动能量图像(MEI)等。人工特征的设计往往只是针对某一部分特定的数据即进行的，这样就导致了模型的泛化能力较差，不能够快速的迁移到别的应用上去，大大的增加了人工的成本。传统方法可以说是进入了一个瓶颈期。

深度学习在人体行为识别中的应用可以说是对传统识别方式上存在的不足的一个很大的弥补。主要体现在以下几个方面：(1)避免了人工特征提取的麻烦，简化了特征提取的过程；(2)由于深度神经网络都具有一定的反馈调节作用，在很大程度上加强了模型的泛化能力；(3)能够对复杂的特征进行自动降维；(4)在处理大数据的方面，能够大大的降低计算的开销和提高整体的执行效率；(5)对于无标签数据的识别分类，性能更优；(6)对于基于模态的行为识别的实现较为容易，只需要单独设计对应的深度学习模型进行特征的提取，然后对两个或多个网络模型的特征进行融合即可，这使得识别的准确度得到了很大的提升。

人体行为识别的分析和图像分类检测的一个最大的区别就在于是否包含了时间维度上的信息。因此，对于人体行为识别的分析不仅仅要从空间维度去提取行为特征，还要从其行为的时间维度上去发掘连续性的信息。这样才能够保证对一个连续性的行为动作的正确描述。

发明内容

本发明的目的在于克服目前深度神经网络模型在人体行为识别上时间维度信息捕获的不足，提出了一种基于多目标检测3D CNN的人体行为识别方法及***，弥补其在时间维度上卷积而造成信息丢失的一种情况，强化在时间维度上的特征的表达，整体提高模型的识别效率，使模型能够更好的理解人体的行为动作。

为实现上述目的，本发明所提供的技术方案如下：

基于多目标检测3D CNN的人体行为识别方法，包括以下步骤：

1)对视频进行预处理，将视频流转化为图像帧；

2)采用SSD(全称：Single Shot MultiBox Detector)检测技术对视频中的目标对象进行标定裁剪；

3)建立图像帧数据和标定裁剪数据的特征提取网络结构；

4)建立特征融合模型，将步骤3)中提取的两种特征进行融合；

5)利用Softmax回归模型分类器进行分类；

6)根据实际的应用场景或公共数据集，对训练好的模型进行微调，增强模型的泛化、推广能力。

在步骤1)中，对视频进行预处理，将视频流转化为图像帧，包括以下步骤：

1.1)获取视频数据集，这里主要采用的是公共数据集用于模型的训练，测试数据集为真实环境下摄像头进行采集；

1.2)对视频数据集进行归档操作，同一动作行为的视频数据归档到同一个文件夹下，文件夹的以其行为标签命名；

1.3)对视频数据集进行预处理，通过视频转换脚本程序把所有的视频全部转化为对应的图像帧集；

1.4)采用交叉验证法对步骤1.3)获得的图像帧集进行切割划分，用于模型的训练；

在步骤2)中，采用SSD检测技术对视频中的目标对象进行标定裁剪，包括以下步骤：

2.1)加载训练好的SSD检测模型；

2.2)读取视频流数据，送入SSD检测模型中，对视频的每一帧进行标定检测；

2.3)设置标定数据裁剪的大小，为步骤1.3)帧数据集中每一帧大小的一半，对所有视频进行转换并保存为标定的图像帧集。

在步骤3)中，建立图像帧数据和标定裁剪数据的特征提取网络结构，具体如下：

首先，分别搭建基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型；然后以连续16帧数据作为模型的输入，分别采用5层3D卷积操作、5层最大3D池化操作、1层特征融合层和3层全连接操作；为防止模型训练过拟合，对5层卷积层采用L2正则，在全连接层添加dropout(0.5)；

在步骤4)中，建立特征融合模型，进行特征的融合，包括以下步骤：

4.1)分别获取基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型提取的3D卷积特征，并对获得的特征进行Flatten()操作，作为融合层的输入；

4.2)完成中间特征的融合，作为全连接层的输入。

在步骤5)中，利用Softmax分类器进行分类，包括以下步骤：

5.1)在步骤4)中完成特征的融合后，进过三层全连接层后作为Softmax分类器的输入，然后进行分类；

5.2)设定预警报告的阈值，当判定某一个行为动作的识别率达到其对应的阈值之后，***给出预警提示。

在步骤6)中，根据实际的应用场景或公共数据集，对训练好的模型进行微调，增强模型的泛化、推广能力，包括以下步骤：

6.1)迁移模型至特定的应用场景中，冻结模型的卷积和池化层参数；

6.2)更改模型的输入，输出层；

6.3)加载新场景下的数据集，重新训练全连接层的参数。

基于多目标检测3D CNN的人体行为识别***，包括：

数据采集模块，用于采集人体行为分析的原始视频数据信息，包括公共的行为数据集和实际场景中的视频数据集；

数据预处理模块，用于对原始视频数据进行预处理、分类标定、目标检测、裁剪、以及视频帧转换；

特征提取模块，用于将预处理后的数据送入构建的3D CNN网络模型中，分别提取视频流行为特征信息和标定裁剪的行为主体特征信息；

特征融合模块，用于对特征提取模块获取的特征信息进行融合；

模型训练模块，通过对预处理的训练集进行学习建模，得到训练后的多目标检测的3D CNN人体行为识别模型；

人体行为识别模块，利用多目标检测的3D CNN人体行为识别模型对人体的行为动作进行分类识别。

进一步，所述数据采集模块通过单目摄像头和双目摄像头采集实际场景中的视频数据，并下载公开的人体行为数据集；所述数据预处理模块采用“FFmpeg”工具对视频数据进行处理，转换为图像帧集，同时利用SSD检测算法对视频进行标定、裁剪，生成多目标帧数据集；所述特征提取模块采用3D CNN模型，以连续16帧数据作为模型的输入，采用5层3D卷积操作和5层最大3D池化操作；所述特征融合模块采用1层3D特征融合层结构，融合两种行为特征信息，3层全连接层对特征进行进一步提取和分类；所述模型训练模块使用“UCF-101”和“HMDB51”公共人体行为数据集，以及自己采集的实际数据集结合起来构成训练数据集；所述人体行为识别模块利用Softmax分类器进行分类识别。

本发明与现有技术相比，具有如下优点与有益效果：

1、将视频数据转换为图像帧集，并利用SSD(全称：Single Shot MultiBoxDetector)检测算法对视频流中的人物进行标定、裁剪，不仅能够从全局提取视频中的行为特征信息，还能够针对行为主体进行局部特征的提取，弥补全局特征弱化的弊端，强化模型学习的能力。

2、采用3D CNN模型对两种预处理的数据集进行特征的提取，能够弥补传统2D CNN只能从空间上提取视频特征的不足之处，不用单独在对行为的时序特征做其它的提取、融合，只需要按批量输入图片帧数据即可；模型将自动从时间和空间两个维度上去提取行为特征，极大的降低了时间维度上特征提取的难度。

3、模型学习到的行为特征，不仅可以用来分类识别，还可以用作预警报告的作用，模型将根据设定好的预警阈值，对特殊行为进行预判和报告，增加了模型在实际应用中的场景。

附图说明

图1为本发明方法流程图。

图2为本发明中3D卷积操作结构示意图。

图3为本发明中3D卷积神经网络模型结构设计图。

图4为基于多目标检测3D CNN模型结构示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

参见图1所示，本实施例所提供的基于多目标检测3D CNN的人体行为识别方法，包括以下步骤：

1)建立人体行为识别数据采集***，获取人体行为视频数据集，这里主要采用的是公共数据集用于模型的训练，测试数据集为真实环境下摄像头进行采集；

2)对采集的视频数据集分别转换为帧数据集和利用SSD(全称：Single ShotMultiBox Detector)检测算法标定裁剪的数据集；

3)建立3D CNN学习模型，分别对数据集进行学习，并将各自学习的特征进行融合处理；

4)利用Softmax分类器对融合后的特征进行分类识别；

5)对分类结果行为分类标定识别或预警报告；

6)根据特定应用场景对模型进行微调，增强模型的推广和泛化能力。

在步骤2)中，对步骤1)采集的视频数据集进行预处理。由于该模型是针对多目标的融合识别，因此分为包括以下两个独立的过程：

2.1)对视频数据集直接进行帧裁剪，建立第一个帧数据集，包括以下步骤：

2.1.1)对视频数据集进行归档操作，同一动作行为的视频数据归档到同一个文件夹下，文件夹的以其行为标签命名；

2.1.2)对视频数据集进行预处理，通过视频转换脚本程序把所有的视频全部转化为对应的图像帧集；

2.1.3)采用交叉验证法对2.1.2)获得的图像帧集进行切割划分，用于模型的训练。

2.2)用SSD(全称：Single Shot MultiBox Detector)算法对行为动作的主

体进行检测，提取针对性的动作特征，建立第二个帧数据集，包括以下步骤：

2.2.1)加载训练好的SSD(全称：Single Shot MultiBox Detector)检测模型；

2.2.2)读取视频流数据，送入SSD检测模型中，对视频的每一帧进行标定检测；

2.2.3)设置标定数据裁剪的大小，为2.1.3)帧数据集中每一帧大小的一半，对所有视频进行转换并保存为标定的图像帧集。

参见图2所示，为本发明中设计的3D CNN模型进行卷积操作，提取行为特征的结构示意图。3D CNN能够从空间和时间两个维度去提取行为特征信息，从图2可知，进行卷积操作的时间维度为N，即对连续的N帧图像进行卷积操作。图中的3D卷积是通过堆叠N个连续的图像帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此捕捉运动信息。

参见图3所示，在步骤3)中，建立3D CNN模型，进行特征的学习，包括以下步骤：

3.1)分别搭建基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型。以连续16帧数据作为模型的输入，分别采用5层3D卷积操作(其中卷积核的个数依次为64、128、256,、512、512)、5层最大3D池化操作和1层全连接(个数为2048)操作，获取的特征用作模型融合层的输入，具体如图4所示，它包括以下步骤：

3.1.1)分别获取两个模型提取的3D卷积特征，并对获得的特征进行Flatten()操作，作为融合层的输入；

3.1.2)完成中间特征的融合，作为全连接层的输入。

3.2)为防止模型训练过拟合，对5层卷积层采用L2正则，在全连接层添加dropout(0.5)。

参见图4所示，在步骤4)利用Softmax分类器对步骤3.1)融合后的特征进行分类识别，包括以下步骤：

4.1)完成特征的融合后，进过三层全连接层后作为Softmax分类器的输入，然后进行分类；

4.2)设定预警报告的阈值，当判定某一个行为动作的识别率达到其对应的阈值之后，***给出预警提示。

在步骤6)，根据特定应用场景对模型进行微调，增强模型的推广和泛化能力，包括以下步骤：

6.2)更改模型的输入，输出层；

6.3)加载新场景下的数据集，重新训练全连接层的参数。

下面为本实施例所提供的一种基于多模态3D CNN的人体行为识别***，包括：

数据采集模块：用于采集人体行为分析的原始视频数据信息，包括公共的行为数据集和实际场景中的视频数据集。在本实施方式中，采用单目摄像头和双目摄像头采集实际场景中的视频数据，和下载公开的人体行为数据集，作为采集的总的数据集。

数据预处理模块：用于对原始视频数据进行预处理、分类标定、目标检测、裁剪、以及视频帧转换。在本实施方式中，采用“FFmpeg”工具对视频数据进行处理，转换为图像帧集，同时利用SSD(全称：Single Shot MultiBox Detector)检测算法对视频进行标定、裁剪，生成多目标帧数据集。

特征提取模块：用于将预处理后的数据送入构建的3D CNN网络模型中，分别提取视频流行为特征信息和标定裁剪的行为主体特征信息。在本实施方式中，采用3D CNN模型。以连续16帧数据作为模型的输入，采用5层3D卷积操作和5层最大3D池化操作，提取得两种特征信息作为特征融合模块的输入。

特征融合模块：用于对特征提取模块获取的特征信息进行融合。在本实施方式中，采用1层3D特征融合层结构，融合两种行为特征信息，3层全连接层对特征进行进一步提取，分类。

模型训练模块：通过对预处理的训练集进行学习建模，得到训练后的多目标检测的3D CNN人体行为识别模型。在本实施方式中，使用“UCF-101”，“HMDB51”等公共人体行为数据集，以及自己采集的实际数据集结合起来构成训练数据集。

人体行为识别模块：利用多目标检测的3D CNN人体行为识别模型对人体的行为动作进行分类识别。在本实施方式中，利用Softmax分类器进行分类识别。

在上述实施例中，所包括的各个模块只是按照本发明的功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可，并不用于限制本发明的保护范围。

综上所述，本发明所提供的基于多目标检测3D CNN的人体行为识别方法及***，不仅弥补了2D神经网络在时间维度上提取特征的不足；也采用了多目标检测的方法，引入了SSD(全称：Single Shot MultiBox Detector)目标检测算法对视频流中的行为主体进行标定用于获取更为详细的局部特征，融合到模型中，弥补模型全局特征弱化的弊端；同时模型学***台上进行使用，具有广泛的研究和使用价值，指的推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于多目标检测3D CNN的人体行为识别方法，其特征在于，包括以下步骤：

1)对视频进行预处理，将视频流转化为图像帧；

2)采用SSD检测技术对视频中的目标对象进行标定裁剪；

3)建立图像帧数据和标定裁剪数据的特征提取网络结构；

4)建立特征融合模型，将步骤3)中提取的两种特征进行融合；

5)利用Softmax回归模型分类器进行分类；

2.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法，其特征在于，在步骤1)中，对视频进行预处理，将视频流转化为图像帧，包括以下步骤：

2.1)加载训练好的SSD检测模型；

3.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法，其特征在于，在步骤3)中，建立图像帧数据和标定裁剪数据的特征提取网络结构，具体如下：

4.2)完成中间特征的融合，作为全连接层的输入。

4.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法，其特征在于，在步骤5)中，利用Softmax分类器进行分类，包括以下步骤：

5.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法，其特征在于，在步骤6)中，根据实际的应用场景或公共数据集，对训练好的模型进行微调，增强模型的泛化、推广能力，包括以下步骤：

6.2)更改模型的输入，输出层；

6.3)加载新场景下的数据集，重新训练全连接层的参数。

6.基于多目标检测3D CNN的人体行为识别***，其特征在于，包括：

模型训练模块，通过对预处理的训练集进行学习建模，得到训练后的多目标检测的3DCNN人体行为识别模型；

7.根据权利要求6所述的基于多目标检测3D CNN的人体行为识别***，其特征在于：所述数据采集模块通过单目摄像头和双目摄像头采集实际场景中的视频数据，并下载公开的人体行为数据集；所述数据预处理模块采用“FFmpeg”工具对视频数据进行处理，转换为图像帧集，同时利用SSD检测算法对视频进行标定、裁剪，生成多目标帧数据集；所述特征提取模块采用3D CNN模型，以连续16帧数据作为模型的输入，采用5层3D卷积操作和5层最大3D池化操作；所述特征融合模块采用1层3D特征融合层结构，融合两种行为特征信息，3层全连接层对特征进行进一步提取和分类；所述模型训练模块使用“UCF-101”和“HMDB51”公共人体行为数据集，以及自己采集的实际数据集结合起来构成训练数据集；所述人体行为识别模块利用Softmax分类器进行分类识别。