CN111414781A

CN111414781A - 一种联合人员识别和行为识别的多人实时处理方法

Info

Publication number: CN111414781A
Application number: CN201910008480.9A
Authority: CN
Inventors: 谢良; 李恒涛
Original assignee: Shanghai Uwoo Technology Co ltd
Current assignee: Shanghai Uwoo Technology Co ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2020-07-14

Abstract

本发明提供一种联合人员识别和行为识别的多人实时处理方法，图像处理领域，所述方法包括S1：获取教室内课堂监控图像；S2：利用基础神经网络模型进行特征图提取；S3：在特征图提取的基础上进行目标检测和提取，并进行人员身份识别和行为识别；S4：针对每个目标利用ROI‑Pooling操作进行特征图抽取和重排列，选取概率最大的目标；S5：将概率最大的目标输入时序信息处理LSTM网络，结合时序信息进行人员身份识别和行为识别优化。本发明在有大量人员遮挡、移动的教室场景内，对所有人员的身份信息和行为信息进行实时联合检测识别。

Description

一种联合人员识别和行为识别的多人实时处理方法

技术领域

本发明涉及图像处理领域，尤其涉及一种联合人员识别和行为识别的多人实时处理方法。

背景技术

目前，学生课堂行为监控统计是指让机器检测并理解教室内部每个学生的身份信息和行为信息，进一步对每个学员的行为进行统计分析，为其学习情况进行量化分析指导。群体行为检测分析监控在K12教育领域内具有较大的应用潜力，监控教室内每个学生的学习定量分析情况，并及时反馈给教师、家长，是目前K12教育中的热点研究问题。

基于监控视频同时识别教室内每个学生的身份信息和行为信息，在当前图像处理领域属于相对较为困难的问题，特别是面对教室场景内：人员数量较多、遮挡较为严重、环境较为复杂，目前还没有能够同时进行人员识别和行为识别的处理方法。

发明内容

鉴于K12教育中的学生课堂行为监控统计实际应用问题，本发明的目的在于提供一种联合人员识别和行为识别的多人实时处理方法，在有大量人员遮挡、移动的教室场景内，对所有人员的身份信息和行为信息进行实时联合检测识别。

本发明提供一种联合人员识别和行为识别的多人实时处理方法，所述方法包括以下步骤：

S1：获取教室内课堂监控图像；

S2：利用基础神经网络模型进行特征图提取；

S3：在特征图提取的基础上进行目标检测和提取，并进行人员身份识别和行为识别；

S4：针对每个目标利用ROI-Pooling操作进行特征图抽取和重排列，选取概率最大的目标；

S5：将概率最大的目标输入时序信息处理LSTM网络，结合时序信息进行人员身份识别和行为识别优化。

进一步的，所述特征图提取是采用Yolo-v3基础神经网络模型，使用卷积层对监控图像进行特征图提取。

进一步的，所述人员身份识别和行为识别步骤如下：

S3.1：对不同尺度的特征图进行目标检测，并进行目标提取；

S3.2：利用人员识别模型和行为识别模型对目标进行人员身份识别和行为识别。

进一步的，所述概率最大的目标选取步骤如下：

S4.1：对前后帧图像的目标的人员身份识别和行为识别信息，进行特征抽取和重排列；

S4.2：选取重排列后概率最大的目标输出。

如上所述，本发明的一种联合人员识别和行为识别的多人实时处理方法，具有以下有益效果：

1、本发明中，联合人员识别和行为识别任务，融合、精简、加速多识别任务处理流程，对所有人员的身份信息和行为信息能够进行联合检测识别；且结合时序人员跟踪处理技术能够应对人员遮挡、移动等复杂应用场景。

2、本发明中，将处理算法嵌入到摄像机前端处理硬件内部，可在像机端进行实时识别信息处理，减少服务器的处理压力，提升整体方案的处理速度。

3、本发明中，将处理获得的行为信息按照身份信息进行数据统计，并根据人员身份信息为其对应家长进行课堂信息投送，可为教师、家长提供辅助教学手段，提高课堂教育质量。

附图说明

图1显示为本发明实施例中公开单帧图像处理流程示意图；

图2显示为本发明实施例中公开单帧图像处理流程图；

图3显示为本发明实施例中公开时序图像识别处理流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

S1：获取教室内课堂监控图像；

S2：利用基础神经网络模型进行特征图提取；

其中，基础神经网络模型采用Yolo-v3基础神经网络模型。

如图1和图2所示，首先使用多个重复卷积层对监控图像进行特征图提取；然后在不同尺度的特征图上进行目标检测，对不同大小的目标进行目标提取；在每个目标位置预测框的后续增加行为识别模型和人员识别模型分支，进行人员身份识别和行为识别。

人员身份识别和行为识别过程是对单帧图像进行处理的，与大部分的人员识别模型不同，现有的人员识别框架都需要先对图像中的人员进行特征图提取，再做图像修正，进而利用人员识别模型进行人员识别，本发明对整幅图像中的人员进行同步识别，速度快，而且可以利用不同人员之间的差异信息进行多人识别，识别率高。

步骤3：针对每个目标利用ROI-Pooling操作进行特征图抽取和重排列，选取概率最大的目标；

如图3所示，利用RoI-pooling操作对每个目标抽取固定大小图像特征，每个检测获取的目标框可以获取固定尺寸s×s的特征描述，可设定s＝7；在特征抽取后增加归一化操作，使得不同尺度的特征归一化到单位空间。

通过特征提取，针对每个目标框，抽取s×s个描述特征值，将所有目标的特征描述连接在一起，从而对每帧图像形成N×D大小的二维描述矩阵，其中D＝s×s，N为教室人数，当检测获得目标小于N时，用0填充剩余部分，如果目标大于N时，则选择概率最大的N目标，获得的N×D大小的二位矩阵用来输入到LSTM网络中；

利用ROI-Pooling操作进行特征图抽取和重排列，是对时序图像进行处理，即对前后帧图像中识别获得的人员身份和行为信息，进行特征的抽取及重排列(Stackedtensor)。

步骤4：将概率最大的目标输入时序信息处理LSTM网络，结合时序信息进行人员身份识别和行为识别优化。

其中，行为识别优化是采用Softmax损失函数进行计算，人员身份识别优化是采用三阶损失函数计算，三阶损失函数具体为：

其中，θ_ji∈0,1，1表示t-1时刻的第i个目标同t时刻的第j个目标是同一人员，为了训练时序信息处理LSTM网络，将前后帧图像中同一人员的特征描述进行关联，并设定同一人员的特征描述尽量相似。

综上，本发明在单帧图像处理的基础上，结合前后帧图像之间的时序信息，因此能够识别处于遮挡、移动中的人员身份信息和行为信息，具体步骤如下：

前后帧图像按照单帧图像处理流程，分别进行人员身份识别和行为识别；

对前后帧图像中识别获得的人员身份和行为信息，进行特征的抽取及重排列(Stacked tensor)；

将抽取和重排列的特征输入时序信息处理LSTM网络，结合时序信息进行人员身份识别和行为识别优化；

本发明将处理方法对应算法嵌入摄像机前端处理硬件中，使得算法能够在摄像机采集图像的同时进行处理，减少服务器处理压力，其中，应用的嵌入式硬件采用JetsonTx2。

Claims

1.一种联合人员识别和行为识别的多人实时处理方法，其特征在于，所述方法包括以下步骤：

S1：获取教室内课堂监控图像；

S2：利用基础神经网络模型进行特征图提取；

2.根据权利要求1所述的联合人员识别和行为识别的多人实时处理方法，其特征在于：所述特征图提取是采用Yolo-v3基础神经网络模型，使用卷积层对监控图像进行特征图提取。

3.根据权利要求1所述的联合人员识别和行为识别的多人实时处理方法，其特征在于，所述人员身份识别和行为识别步骤如下：

S3.1：对不同尺度的特征图进行目标检测，并进行目标提取；

4.根据权利要求1所述的联合人员识别和行为识别的多人实时处理方法，其特征在于，所述概率最大的目标选取步骤如下：

S4.2：选取重排列后概率最大的目标输出。