CN109977773A - 基于多目标检测3d cnn的人体行为识别方法及*** - Google Patents
基于多目标检测3d cnn的人体行为识别方法及*** Download PDFInfo
- Publication number
- CN109977773A CN109977773A CN201910136442.1A CN201910136442A CN109977773A CN 109977773 A CN109977773 A CN 109977773A CN 201910136442 A CN201910136442 A CN 201910136442A CN 109977773 A CN109977773 A CN 109977773A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- video
- cnn
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 230000004044 response Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 21
- 238000013480 data collection Methods 0.000 claims description 20
- 230000003542 behavioural effect Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 238000013442 quality metrics Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract description 2
- 230000000052 comparative effect Effects 0.000 abstract 1
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008018 melting Effects 0.000 description 2
- 238000002844 melting Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000009123 feedback regulation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多目标检测3D CNN的人体行为识别方法及***,该方法包括:1)对视频进行预处理,将视频流转化为图像帧;2)采用目前比较成熟的SSD检测技术对视频中的目标对象进行标定裁剪;3)建立图像帧数据和标定裁剪数据的特征提取网络结构;4)建立特征融合模型,将步骤3)中提取的两种特征进行融合;5)利用Softmax回归模型分类器进行分类;6)根据实际的应用场景或公共数据集,对训练好的模型进行微调。本发明弥补目前深度神经网络模型在时间维度上卷积而造成信息丢失的一种情况,强化在时间维度上的特征的表达,整体提高模型的识别效率,使模型能够更好的理解人体的行为动作。
Description
技术领域
本发明涉及人体行为识别分析的技术领域,尤其是指一种基于多目标检测3D CNN的人体行为识别方法及***。
背景技术
人体行为识别指的是识别真实环境中的人类的行为表现或动作,可以在各个领域中进行应用。目前常见的应用场景有:智能监控、智能家居、人机交互和人体行为属性分析、预判等领域。然而,提升识别的准确率和效率仍然是一项十分具有挑战性的任务,也受到了所有研究人员的广泛关注。
在过去的几十年里,对人体行为特征的提取和表示主要停留在人工阶段,而人工对特征的设计、提取往往又取决了设计者的经验。常见的人工特征提取方法有:时空兴趣点(STIP),视觉词袋(BOVW),方向梯度直方图(HOG),运动历史图形(MHI),运动能量图像(MEI)等。人工特征的设计往往只是针对某一部分特定的数据即进行的,这样就导致了模型的泛化能力较差,不能够快速的迁移到别的应用上去,大大的增加了人工的成本。传统方法可以说是进入了一个瓶颈期。
深度学习在人体行为识别中的应用可以说是对传统识别方式上存在的不足的一个很大的弥补。主要体现在以下几个方面:(1)避免了人工特征提取的麻烦,简化了特征提取的过程;(2)由于深度神经网络都具有一定的反馈调节作用,在很大程度上加强了模型的泛化能力;(3)能够对复杂的特征进行自动降维;(4)在处理大数据的方面,能够大大的降低计算的开销和提高整体的执行效率;(5)对于无标签数据的识别分类,性能更优;(6)对于基于模态的行为识别的实现较为容易,只需要单独设计对应的深度学习模型进行特征的提取,然后对两个或多个网络模型的特征进行融合即可,这使得识别的准确度得到了很大的提升。
人体行为识别的分析和图像分类检测的一个最大的区别就在于是否包含了时间维度上的信息。因此,对于人体行为识别的分析不仅仅要从空间维度去提取行为特征,还要从其行为的时间维度上去发掘连续性的信息。这样才能够保证对一个连续性的行为动作的正确描述。
发明内容
本发明的目的在于克服目前深度神经网络模型在人体行为识别上时间维度信息捕获的不足,提出了一种基于多目标检测3D CNN的人体行为识别方法及***,弥补其在时间维度上卷积而造成信息丢失的一种情况,强化在时间维度上的特征的表达,整体提高模型的识别效率,使模型能够更好的理解人体的行为动作。
为实现上述目的,本发明所提供的技术方案如下:
基于多目标检测3D CNN的人体行为识别方法,包括以下步骤:
1)对视频进行预处理,将视频流转化为图像帧;
2)采用SSD(全称:Single Shot MultiBox Detector)检测技术对视频中的目标对象进行标定裁剪;
3)建立图像帧数据和标定裁剪数据的特征提取网络结构;
4)建立特征融合模型,将步骤3)中提取的两种特征进行融合;
5)利用Softmax回归模型分类器进行分类;
6)根据实际的应用场景或公共数据集,对训练好的模型进行微调,增强模型的泛化、推广能力。
在步骤1)中,对视频进行预处理,将视频流转化为图像帧,包括以下步骤:
1.1)获取视频数据集,这里主要采用的是公共数据集用于模型的训练,测试数据集为真实环境下摄像头进行采集;
1.2)对视频数据集进行归档操作,同一动作行为的视频数据归档到同一个文件夹下,文件夹的以其行为标签命名;
1.3)对视频数据集进行预处理,通过视频转换脚本程序把所有的视频全部转化为对应的图像帧集;
1.4)采用交叉验证法对步骤1.3)获得的图像帧集进行切割划分,用于模型的训练;
在步骤2)中,采用SSD检测技术对视频中的目标对象进行标定裁剪,包括以下步骤:
2.1)加载训练好的SSD检测模型;
2.2)读取视频流数据,送入SSD检测模型中,对视频的每一帧进行标定检测;
2.3)设置标定数据裁剪的大小,为步骤1.3)帧数据集中每一帧大小的一半,对所有视频进行转换并保存为标定的图像帧集。
在步骤3)中,建立图像帧数据和标定裁剪数据的特征提取网络结构,具体如下:
首先,分别搭建基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型;然后以连续16帧数据作为模型的输入,分别采用5层3D卷积操作、5层最大3D池化操作、1层特征融合层和3层全连接操作;为防止模型训练过拟合,对5层卷积层采用L2正则,在全连接层添加dropout(0.5);
在步骤4)中,建立特征融合模型,进行特征的融合,包括以下步骤:
4.1)分别获取基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型提取的3D卷积特征,并对获得的特征进行Flatten()操作,作为融合层的输入;
4.2)完成中间特征的融合,作为全连接层的输入。
在步骤5)中,利用Softmax分类器进行分类,包括以下步骤:
5.1)在步骤4)中完成特征的融合后,进过三层全连接层后作为Softmax分类器的输入,然后进行分类;
5.2)设定预警报告的阈值,当判定某一个行为动作的识别率达到其对应的阈值之后,***给出预警提示。
在步骤6)中,根据实际的应用场景或公共数据集,对训练好的模型进行微调,增强模型的泛化、推广能力,包括以下步骤:
6.1)迁移模型至特定的应用场景中,冻结模型的卷积和池化层参数;
6.2)更改模型的输入,输出层;
6.3)加载新场景下的数据集,重新训练全连接层的参数。
基于多目标检测3D CNN的人体行为识别***,包括:
数据采集模块,用于采集人体行为分析的原始视频数据信息,包括公共的行为数据集和实际场景中的视频数据集;
数据预处理模块,用于对原始视频数据进行预处理、分类标定、目标检测、裁剪、以及视频帧转换;
特征提取模块,用于将预处理后的数据送入构建的3D CNN网络模型中,分别提取视频流行为特征信息和标定裁剪的行为主体特征信息;
特征融合模块,用于对特征提取模块获取的特征信息进行融合;
模型训练模块,通过对预处理的训练集进行学习建模,得到训练后的多目标检测的3D CNN人体行为识别模型;
人体行为识别模块,利用多目标检测的3D CNN人体行为识别模型对人体的行为动作进行分类识别。
进一步,所述数据采集模块通过单目摄像头和双目摄像头采集实际场景中的视频数据,并下载公开的人体行为数据集;所述数据预处理模块采用“FFmpeg”工具对视频数据进行处理,转换为图像帧集,同时利用SSD检测算法对视频进行标定、裁剪,生成多目标帧数据集;所述特征提取模块采用3D CNN模型,以连续16帧数据作为模型的输入,采用5层3D卷积操作和5层最大3D池化操作;所述特征融合模块采用1层3D特征融合层结构,融合两种行为特征信息,3层全连接层对特征进行进一步提取和分类;所述模型训练模块使用“UCF-101”和“HMDB51”公共人体行为数据集,以及自己采集的实际数据集结合起来构成训练数据集;所述人体行为识别模块利用Softmax分类器进行分类识别。
本发明与现有技术相比,具有如下优点与有益效果:
1、将视频数据转换为图像帧集,并利用SSD(全称:Single Shot MultiBoxDetector)检测算法对视频流中的人物进行标定、裁剪,不仅能够从全局提取视频中的行为特征信息,还能够针对行为主体进行局部特征的提取,弥补全局特征弱化的弊端,强化模型学习的能力。
2、采用3D CNN模型对两种预处理的数据集进行特征的提取,能够弥补传统2D CNN只能从空间上提取视频特征的不足之处,不用单独在对行为的时序特征做其它的提取、融合,只需要按批量输入图片帧数据即可;模型将自动从时间和空间两个维度上去提取行为特征,极大的降低了时间维度上特征提取的难度。
3、模型学习到的行为特征,不仅可以用来分类识别,还可以用作预警报告的作用,模型将根据设定好的预警阈值,对特殊行为进行预判和报告,增加了模型在实际应用中的场景。
附图说明
图1为本发明方法流程图。
图2为本发明中3D卷积操作结构示意图。
图3为本发明中3D卷积神经网络模型结构设计图。
图4为基于多目标检测3D CNN模型结构示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1所示,本实施例所提供的基于多目标检测3D CNN的人体行为识别方法,包括以下步骤:
1)建立人体行为识别数据采集***,获取人体行为视频数据集,这里主要采用的是公共数据集用于模型的训练,测试数据集为真实环境下摄像头进行采集;
2)对采集的视频数据集分别转换为帧数据集和利用SSD(全称:Single ShotMultiBox Detector)检测算法标定裁剪的数据集;
3)建立3D CNN学习模型,分别对数据集进行学习,并将各自学习的特征进行融合处理;
4)利用Softmax分类器对融合后的特征进行分类识别;
5)对分类结果行为分类标定识别或预警报告;
6)根据特定应用场景对模型进行微调,增强模型的推广和泛化能力。
在步骤2)中,对步骤1)采集的视频数据集进行预处理。由于该模型是针对多目标的融合识别,因此分为包括以下两个独立的过程:
2.1)对视频数据集直接进行帧裁剪,建立第一个帧数据集,包括以下步骤:
2.1.1)对视频数据集进行归档操作,同一动作行为的视频数据归档到同一个文件夹下,文件夹的以其行为标签命名;
2.1.2)对视频数据集进行预处理,通过视频转换脚本程序把所有的视频全部转化为对应的图像帧集;
2.1.3)采用交叉验证法对2.1.2)获得的图像帧集进行切割划分,用于模型的训练。
2.2)用SSD(全称:Single Shot MultiBox Detector)算法对行为动作的主
体进行检测,提取针对性的动作特征,建立第二个帧数据集,包括以下步骤:
2.2.1)加载训练好的SSD(全称:Single Shot MultiBox Detector)检测模型;
2.2.2)读取视频流数据,送入SSD检测模型中,对视频的每一帧进行标定检测;
2.2.3)设置标定数据裁剪的大小,为2.1.3)帧数据集中每一帧大小的一半,对所有视频进行转换并保存为标定的图像帧集。
参见图2所示,为本发明中设计的3D CNN模型进行卷积操作,提取行为特征的结构示意图。3D CNN能够从空间和时间两个维度去提取行为特征信息,从图2可知,进行卷积操作的时间维度为N,即对连续的N帧图像进行卷积操作。图中的3D卷积是通过堆叠N个连续的图像帧组成一个立方体,然后在立方体中运用3D卷积核。在这个结构中,卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连,因此捕捉运动信息。
参见图3所示,在步骤3)中,建立3D CNN模型,进行特征的学习,包括以下步骤:
3.1)分别搭建基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型。以连续16帧数据作为模型的输入,分别采用5层3D卷积操作(其中卷积核的个数依次为64、128、256,、512、512)、5层最大3D池化操作和1层全连接(个数为2048)操作,获取的特征用作模型融合层的输入,具体如图4所示,它包括以下步骤:
3.1.1)分别获取两个模型提取的3D卷积特征,并对获得的特征进行Flatten()操作,作为融合层的输入;
3.1.2)完成中间特征的融合,作为全连接层的输入。
3.2)为防止模型训练过拟合,对5层卷积层采用L2正则,在全连接层添加dropout(0.5)。
参见图4所示,在步骤4)利用Softmax分类器对步骤3.1)融合后的特征进行分类识别,包括以下步骤:
4.1)完成特征的融合后,进过三层全连接层后作为Softmax分类器的输入,然后进行分类;
4.2)设定预警报告的阈值,当判定某一个行为动作的识别率达到其对应的阈值之后,***给出预警提示。
在步骤6),根据特定应用场景对模型进行微调,增强模型的推广和泛化能力,包括以下步骤:
6.1)迁移模型至特定的应用场景中,冻结模型的卷积和池化层参数;
6.2)更改模型的输入,输出层;
6.3)加载新场景下的数据集,重新训练全连接层的参数。
下面为本实施例所提供的一种基于多模态3D CNN的人体行为识别***,包括:
数据采集模块:用于采集人体行为分析的原始视频数据信息,包括公共的行为数据集和实际场景中的视频数据集。在本实施方式中,采用单目摄像头和双目摄像头采集实际场景中的视频数据,和下载公开的人体行为数据集,作为采集的总的数据集。
数据预处理模块:用于对原始视频数据进行预处理、分类标定、目标检测、裁剪、以及视频帧转换。在本实施方式中,采用“FFmpeg”工具对视频数据进行处理,转换为图像帧集,同时利用SSD(全称:Single Shot MultiBox Detector)检测算法对视频进行标定、裁剪,生成多目标帧数据集。
特征提取模块:用于将预处理后的数据送入构建的3D CNN网络模型中,分别提取视频流行为特征信息和标定裁剪的行为主体特征信息。在本实施方式中,采用3D CNN模型。以连续16帧数据作为模型的输入,采用5层3D卷积操作和5层最大3D池化操作,提取得两种特征信息作为特征融合模块的输入。
特征融合模块:用于对特征提取模块获取的特征信息进行融合。在本实施方式中,采用1层3D特征融合层结构,融合两种行为特征信息,3层全连接层对特征进行进一步提取,分类。
模型训练模块:通过对预处理的训练集进行学习建模,得到训练后的多目标检测的3D CNN人体行为识别模型。在本实施方式中,使用“UCF-101”,“HMDB51”等公共人体行为数据集,以及自己采集的实际数据集结合起来构成训练数据集。
人体行为识别模块:利用多目标检测的3D CNN人体行为识别模型对人体的行为动作进行分类识别。在本实施方式中,利用Softmax分类器进行分类识别。
在上述实施例中,所包括的各个模块只是按照本发明的功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可,并不用于限制本发明的保护范围。
综上所述,本发明所提供的基于多目标检测3D CNN的人体行为识别方法及***,不仅弥补了2D神经网络在时间维度上提取特征的不足;也采用了多目标检测的方法,引入了SSD(全称:Single Shot MultiBox Detector)目标检测算法对视频流中的行为主体进行标定用于获取更为详细的局部特征,融合到模型中,弥补模型全局特征弱化的弊端;同时模型学***台上进行使用,具有广泛的研究和使用价值,指的推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (7)
1.基于多目标检测3D CNN的人体行为识别方法,其特征在于,包括以下步骤:
1)对视频进行预处理,将视频流转化为图像帧;
2)采用SSD检测技术对视频中的目标对象进行标定裁剪;
3)建立图像帧数据和标定裁剪数据的特征提取网络结构;
4)建立特征融合模型,将步骤3)中提取的两种特征进行融合;
5)利用Softmax回归模型分类器进行分类;
6)根据实际的应用场景或公共数据集,对训练好的模型进行微调,增强模型的泛化、推广能力。
2.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法,其特征在于,在步骤1)中,对视频进行预处理,将视频流转化为图像帧,包括以下步骤:
1.1)获取视频数据集,这里主要采用的是公共数据集用于模型的训练,测试数据集为真实环境下摄像头进行采集;
1.2)对视频数据集进行归档操作,同一动作行为的视频数据归档到同一个文件夹下,文件夹的以其行为标签命名;
1.3)对视频数据集进行预处理,通过视频转换脚本程序把所有的视频全部转化为对应的图像帧集;
1.4)采用交叉验证法对步骤1.3)获得的图像帧集进行切割划分,用于模型的训练;
在步骤2)中,采用SSD检测技术对视频中的目标对象进行标定裁剪,包括以下步骤:
2.1)加载训练好的SSD检测模型;
2.2)读取视频流数据,送入SSD检测模型中,对视频的每一帧进行标定检测;
2.3)设置标定数据裁剪的大小,为步骤1.3)帧数据集中每一帧大小的一半,对所有视频进行转换并保存为标定的图像帧集。
3.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法,其特征在于,在步骤3)中,建立图像帧数据和标定裁剪数据的特征提取网络结构,具体如下:
首先,分别搭建基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型;然后以连续16帧数据作为模型的输入,分别采用5层3D卷积操作、5层最大3D池化操作、1层特征融合层和3层全连接操作;为防止模型训练过拟合,对5层卷积层采用L2正则,在全连接层添加dropout(0.5);
在步骤4)中,建立特征融合模型,进行特征的融合,包括以下步骤:
4.1)分别获取基于图像帧数据集的3D卷积神经网络模型和人体检测模块数据集的3D卷积神经网络模型提取的3D卷积特征,并对获得的特征进行Flatten()操作,作为融合层的输入;
4.2)完成中间特征的融合,作为全连接层的输入。
4.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法,其特征在于,在步骤5)中,利用Softmax分类器进行分类,包括以下步骤:
5.1)在步骤4)中完成特征的融合后,进过三层全连接层后作为Softmax分类器的输入,然后进行分类;
5.2)设定预警报告的阈值,当判定某一个行为动作的识别率达到其对应的阈值之后,***给出预警提示。
5.根据权利要求1所述的基于多目标检测3D CNN的人体行为识别方法,其特征在于,在步骤6)中,根据实际的应用场景或公共数据集,对训练好的模型进行微调,增强模型的泛化、推广能力,包括以下步骤:
6.1)迁移模型至特定的应用场景中,冻结模型的卷积和池化层参数;
6.2)更改模型的输入,输出层;
6.3)加载新场景下的数据集,重新训练全连接层的参数。
6.基于多目标检测3D CNN的人体行为识别***,其特征在于,包括:
数据采集模块,用于采集人体行为分析的原始视频数据信息,包括公共的行为数据集和实际场景中的视频数据集;
数据预处理模块,用于对原始视频数据进行预处理、分类标定、目标检测、裁剪、以及视频帧转换;
特征提取模块,用于将预处理后的数据送入构建的3D CNN网络模型中,分别提取视频流行为特征信息和标定裁剪的行为主体特征信息;
特征融合模块,用于对特征提取模块获取的特征信息进行融合;
模型训练模块,通过对预处理的训练集进行学习建模,得到训练后的多目标检测的3DCNN人体行为识别模型;
人体行为识别模块,利用多目标检测的3D CNN人体行为识别模型对人体的行为动作进行分类识别。
7.根据权利要求6所述的基于多目标检测3D CNN的人体行为识别***,其特征在于:所述数据采集模块通过单目摄像头和双目摄像头采集实际场景中的视频数据,并下载公开的人体行为数据集;所述数据预处理模块采用“FFmpeg”工具对视频数据进行处理,转换为图像帧集,同时利用SSD检测算法对视频进行标定、裁剪,生成多目标帧数据集;所述特征提取模块采用3D CNN模型,以连续16帧数据作为模型的输入,采用5层3D卷积操作和5层最大3D池化操作;所述特征融合模块采用1层3D特征融合层结构,融合两种行为特征信息,3层全连接层对特征进行进一步提取和分类;所述模型训练模块使用“UCF-101”和“HMDB51”公共人体行为数据集,以及自己采集的实际数据集结合起来构成训练数据集;所述人体行为识别模块利用Softmax分类器进行分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910136442.1A CN109977773B (zh) | 2019-02-18 | 2019-02-18 | 基于多目标检测3d cnn的人体行为识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910136442.1A CN109977773B (zh) | 2019-02-18 | 2019-02-18 | 基于多目标检测3d cnn的人体行为识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977773A true CN109977773A (zh) | 2019-07-05 |
CN109977773B CN109977773B (zh) | 2021-01-19 |
Family
ID=67077264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910136442.1A Expired - Fee Related CN109977773B (zh) | 2019-02-18 | 2019-02-18 | 基于多目标检测3d cnn的人体行为识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977773B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348420A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
CN110414415A (zh) * | 2019-07-24 | 2019-11-05 | 北京理工大学 | 面向课堂场景的人体行为识别方法 |
CN110414421A (zh) * | 2019-07-25 | 2019-11-05 | 电子科技大学 | 一种基于连续帧图像的行为识别方法 |
CN110532909A (zh) * | 2019-08-16 | 2019-12-03 | 成都电科慧安科技有限公司 | 一种基于三维uwb定位的人体行为识别方法 |
CN111259838A (zh) * | 2020-01-20 | 2020-06-09 | 山东大学 | 服务机器人服务环境下深度理解人体行为的方法及*** |
CN111382677A (zh) * | 2020-02-25 | 2020-07-07 | 华南理工大学 | 基于3d注意力残差模型的人体行为识别方法及*** |
CN112016461A (zh) * | 2020-08-28 | 2020-12-01 | 深圳市信义科技有限公司 | 一种多目标的行为识别方法及*** |
CN112232190A (zh) * | 2020-10-15 | 2021-01-15 | 南京邮电大学 | 面向居家场景的老人异常行为检测方法 |
CN112613428A (zh) * | 2020-12-28 | 2021-04-06 | 杭州电子科技大学 | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 |
CN112766151A (zh) * | 2021-01-19 | 2021-05-07 | 北京深睿博联科技有限责任公司 | 一种用于导盲眼镜的双目目标检测方法和*** |
CN113052059A (zh) * | 2021-03-22 | 2021-06-29 | 中国石油大学(华东) | 一种基于时空特征融合的实时动作识别方法 |
CN113221658A (zh) * | 2021-04-13 | 2021-08-06 | 卓尔智联(武汉)研究院有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN113420703A (zh) * | 2021-07-03 | 2021-09-21 | 西北工业大学 | 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 |
CN113515986A (zh) * | 2020-07-02 | 2021-10-19 | 阿里巴巴集团控股有限公司 | 视频处理、数据处理方法及设备 |
CN113536847A (zh) * | 2020-04-17 | 2021-10-22 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于深度学习的工业场景视频分析***及其方法 |
CN115601714A (zh) * | 2022-12-16 | 2023-01-13 | 广东汇通信息科技股份有限公司(Cn) | 基于多模态数据分析的校园暴力行为识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899561A (zh) * | 2015-05-27 | 2015-09-09 | 华南理工大学 | 一种并行化的人体行为识别方法 |
US20180032846A1 (en) * | 2016-08-01 | 2018-02-01 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN108108652A (zh) * | 2017-03-29 | 2018-06-01 | 广东工业大学 | 一种基于字典学习的跨视角人体行为识别方法及装置 |
CN108647591A (zh) * | 2018-04-25 | 2018-10-12 | 长沙学院 | 一种基于视觉-语义特征的视频中行为识别方法和*** |
CN108985173A (zh) * | 2018-06-19 | 2018-12-11 | 奕通信息科技(上海)股份有限公司 | 面向有标记噪声表观年龄数据库的深度网络迁移学习方法 |
CN109002808A (zh) * | 2018-07-27 | 2018-12-14 | 高新兴科技集团股份有限公司 | 一种人体行为识别方法及*** |
-
2019
- 2019-02-18 CN CN201910136442.1A patent/CN109977773B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899561A (zh) * | 2015-05-27 | 2015-09-09 | 华南理工大学 | 一种并行化的人体行为识别方法 |
US20180032846A1 (en) * | 2016-08-01 | 2018-02-01 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN108108652A (zh) * | 2017-03-29 | 2018-06-01 | 广东工业大学 | 一种基于字典学习的跨视角人体行为识别方法及装置 |
CN108647591A (zh) * | 2018-04-25 | 2018-10-12 | 长沙学院 | 一种基于视觉-语义特征的视频中行为识别方法和*** |
CN108985173A (zh) * | 2018-06-19 | 2018-12-11 | 奕通信息科技(上海)股份有限公司 | 面向有标记噪声表观年龄数据库的深度网络迁移学习方法 |
CN109002808A (zh) * | 2018-07-27 | 2018-12-14 | 高新兴科技集团股份有限公司 | 一种人体行为识别方法及*** |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348420A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
CN110348420B (zh) * | 2019-07-18 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
US11749029B2 (en) | 2019-07-18 | 2023-09-05 | Tencent Technology (Shenzhen) Company Limited | Gesture language recognition method and apparatus, computer-readable storage medium, and computer device |
CN110414415A (zh) * | 2019-07-24 | 2019-11-05 | 北京理工大学 | 面向课堂场景的人体行为识别方法 |
CN110414421B (zh) * | 2019-07-25 | 2023-04-07 | 电子科技大学 | 一种基于连续帧图像的行为识别方法 |
CN110414421A (zh) * | 2019-07-25 | 2019-11-05 | 电子科技大学 | 一种基于连续帧图像的行为识别方法 |
CN110532909A (zh) * | 2019-08-16 | 2019-12-03 | 成都电科慧安科技有限公司 | 一种基于三维uwb定位的人体行为识别方法 |
CN111259838A (zh) * | 2020-01-20 | 2020-06-09 | 山东大学 | 服务机器人服务环境下深度理解人体行为的方法及*** |
CN111259838B (zh) * | 2020-01-20 | 2023-02-03 | 山东大学 | 服务机器人服务环境下深度理解人体行为的方法及*** |
CN111382677A (zh) * | 2020-02-25 | 2020-07-07 | 华南理工大学 | 基于3d注意力残差模型的人体行为识别方法及*** |
CN111382677B (zh) * | 2020-02-25 | 2023-06-20 | 华南理工大学 | 基于3d注意力残差模型的人体行为识别方法及*** |
CN113536847A (zh) * | 2020-04-17 | 2021-10-22 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于深度学习的工业场景视频分析***及其方法 |
CN113515986A (zh) * | 2020-07-02 | 2021-10-19 | 阿里巴巴集团控股有限公司 | 视频处理、数据处理方法及设备 |
CN112016461A (zh) * | 2020-08-28 | 2020-12-01 | 深圳市信义科技有限公司 | 一种多目标的行为识别方法及*** |
CN112232190B (zh) * | 2020-10-15 | 2023-04-18 | 南京邮电大学 | 面向居家场景的老人异常行为检测方法 |
CN112232190A (zh) * | 2020-10-15 | 2021-01-15 | 南京邮电大学 | 面向居家场景的老人异常行为检测方法 |
CN112613428A (zh) * | 2020-12-28 | 2021-04-06 | 杭州电子科技大学 | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 |
CN112613428B (zh) * | 2020-12-28 | 2024-03-22 | 易采天成(郑州)信息技术有限公司 | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 |
CN112766151B (zh) * | 2021-01-19 | 2022-07-12 | 北京深睿博联科技有限责任公司 | 一种用于导盲眼镜的双目目标检测方法和*** |
CN112766151A (zh) * | 2021-01-19 | 2021-05-07 | 北京深睿博联科技有限责任公司 | 一种用于导盲眼镜的双目目标检测方法和*** |
CN113052059A (zh) * | 2021-03-22 | 2021-06-29 | 中国石油大学(华东) | 一种基于时空特征融合的实时动作识别方法 |
CN113221658A (zh) * | 2021-04-13 | 2021-08-06 | 卓尔智联(武汉)研究院有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN113420703A (zh) * | 2021-07-03 | 2021-09-21 | 西北工业大学 | 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法 |
CN115601714A (zh) * | 2022-12-16 | 2023-01-13 | 广东汇通信息科技股份有限公司(Cn) | 基于多模态数据分析的校园暴力行为识别方法 |
CN115601714B (zh) * | 2022-12-16 | 2023-03-10 | 广东汇通信息科技股份有限公司 | 基于多模态数据分析的校园暴力行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109977773B (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977773A (zh) | 基于多目标检测3d cnn的人体行为识别方法及*** | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
Mees et al. | Choosing smartly: Adaptive multimodal fusion for object detection in changing environments | |
Yin et al. | Recurrent convolutional network for video-based smoke detection | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
WO2018107760A1 (zh) | 一种用于行人检测的协同式深度网络模型方法 | |
CN103871079B (zh) | 基于机器学习和光流的车辆跟踪方法 | |
CN107247956B (zh) | 一种基于网格判断的快速目标检测方法 | |
US20170185872A1 (en) | Automatic detection of objects in video images | |
CN109543697A (zh) | 一种基于深度学习的rgbd图像目标识别方法 | |
CN109948557B (zh) | 多网络模型融合的烟雾检测方法 | |
CN108108688B (zh) | 一种基于低维时空特征提取与主题建模的肢体冲突行为检测方法 | |
CN113255443B (zh) | 一种基于金字塔结构的图注意力网络时序动作定位方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
Chen et al. | An improved Yolov3 based on dual path network for cherry tomatoes detection | |
CN104504395A (zh) | 基于神经网络实现人车分类的方法和*** | |
CN108875555B (zh) | 基于神经网络的视频兴趣区域和显著目标提取与定位*** | |
CN111382677A (zh) | 基于3d注意力残差模型的人体行为识别方法及*** | |
US20210081676A1 (en) | Method for generating video synopsis through scene understanding and system therefor | |
Lu et al. | Multi-object detection method based on YOLO and ResNet hybrid networks | |
CN110688938A (zh) | 一种集成注意力机制的行人重识别方法 | |
Yang et al. | Counting crowds using a scale-distribution-aware network and adaptive human-shaped kernel | |
CN105469050A (zh) | 基于局部时空特征描述与金字塔词汇树的视频行为识别方法 | |
CN116503776A (zh) | 一种基于时间自适应的时空注意力视频行为识别方法 | |
CN113255464A (zh) | 一种飞机动作识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210119 |
|
CF01 | Termination of patent right due to non-payment of annual fee |