CN114783043A

CN114783043A - 一种儿童行为轨迹定位方法和***

Info

Publication number: CN114783043A
Application number: CN202210721671.1A
Authority: CN
Inventors: 郝永富; 赵钺; 戴卓学; 王潇
Original assignee: Hangzhou Angor Intelligent Technology Co ltd
Current assignee: Hangzhou Angor Intelligent Technology Co ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-07-22
Anticipated expiration: 2042-06-24
Also published as: CN114783043B

Abstract

本发明公开了一种儿童行为轨迹定位方法和***，其中，儿童行为轨迹定位方法包括，构建模型库，并对模型库中的图像进行特征提取得到第一特征库；对采集的视频分别进行人脸检测和人体检测，从而生成人脸检测框和人体检测框；人脸检测框与第一特征库进行第一次匹配，并基于第一次匹配结果对人体检测框进行特征提取从而得到第二特征库，对第一次匹配成功的待识别对象进行人脸跟踪匹配，以及，基于人脸跟踪匹配结果，进行基于第二特征库的第二次匹配；记录图像序列中第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的坐标位置，从而生成轨迹；通过综合人脸和人体信息识别，解决了人脸遮挡和身体背对摄像头问题，准确跟踪儿童在教室内的行为轨迹。

Description

一种儿童行为轨迹定位方法和***

技术领域

本发明涉及一种教育信息智能化技术领域，更具体地，涉及一种儿童行为轨迹定位方法和***。

背景技术

面向1-6岁儿童的幼教机构，以托班和幼儿园为主，一方面，此阶段儿童的上课形式多样且比较不固定，儿童在教室的活动范围会比较大，因为会出现比较多的遮挡现象和非正脸情况，另一方面，目前通用人脸识别算法由于主要是面向成人的，导致对儿童的识别率不高。而准确的跟踪定位每一个儿童在教室内的活动分布情况，可以方便老师分析儿童对教室内不同区角的逗留时间，从而推断出儿童的兴趣点，辅助老师准确客观的完成对儿童继续观察分析，让家长老师更了解儿童，进而做到因材施教，因此需要准确的跟踪定位每一个儿童在教室内的活动分布情况。现有的面向固定上课课堂的分析技术主要依靠人脸识别技术，识别准确度就不能满足要求，并且班级场景儿童人员固定，准确对每一个儿童进行跟踪定位是长期识别的过程。现有的例如商场场景等***较大的应用场景不适用于教室内的儿童跟踪定位的应用。

发明内容

本发明为了克服以上技术的不足，提供了一种儿童行为轨迹定位方法和***，一方面，通过综合人脸和人体信息识别，解决了人脸遮挡和身体背对摄像头问题，另一方面，采用了动态更新的识别训练算法，把当前班级儿童的数据加入训练数据集中，算法能自适应与当前班级儿童，随着时间积累，算法准确度会越来越高，通过训练样本生成策略，使得模型对人脸角度，年龄变化，身体姿态和衣服穿着不敏感，从而可以准确跟踪儿童在教室内的行为轨迹。

本发明克服其技术问题所采用的技术方案是：本发明第一个方面提出了一种儿童行为轨迹定位方法，包括：构建对应待识别对象的模型库，并对模型库中的每一个待识别对象通过第一动态卷积神经网络进行特征提取得到第一特征库；对采集的视频分别进行人脸检测和人体检测，从而得到对应视频的图像序列内一一对应的人脸检测框和人体检测框；图像序列内的人脸检测框与第一特征库进行第一次匹配，并基于第一次匹配结果对人体检测框进行归一化处理后，通过第二动态卷积神经网络进行特征提取，从而得到第二特征库；对第一次匹配成功的待识别对象进行人脸跟踪匹配，以及，基于人脸跟踪匹配结果，进行基于第二特征库的第二次匹配；实时记录图像序列中第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的坐标位置，从而对应生成待识别对象的轨迹。以及，基于第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的图像，对应更新第一动态卷积神经网络或第二动态卷积神经网络的训练样本库；基于训练样本库中的训练样本，以及人脸或人体属性，增加训练样本，从而更新第一动态卷积神经网络和第二动态卷积神经网络。

进一步的，所述构建对应待识别对象的模型库，并对模型库中的每一个待识别对象通过第一动态卷积神经网络进行特征提取得到第一特征库，具体包括：基于待识别对象的身份信息Y和对应身份信息Y的若干照片P构建人脸模型库；处理人模型库中的所有照片得到图像矩阵I；对图像矩阵I输入至第一动态卷积神经网络进行卷积处理，并将处理后得到的特征向量来表示对应身份信息Y的人脸图像，其中，人脸图像的集合作为第一特征库。

进一步的，分别对采集的图像进行人脸检测和人体检测，从而得到对应视频的图像序列内一一对应的人脸检测框和人体检测框，具体包括：采集的视频记录至少包括若干二维图像序列X={X1，X2，……，Xt-1，Xt，...}，其中Xt为任意时间t的二维图像；对二维图像序列进行人脸检测和人体检测，从而得到m个人脸检测框FaceBoxset=(F1,F2,...,Fm)和n个人体检测框BodyBoxset=(B1,B2,...Bn)，其中，m大于等于0，n大于等于0；计算人脸检测框FaceBoxset中任意人脸检测框Fi与人体检测框BodyBoxset中人体检测框Bj的重合度

，其中i≤m，j≤n；基于预设重合度阈值和重合度U得到k个一一对应的人脸和人体检测框对Boxset={(F1,B1),(F2,B2),...,(Fk,Bk)}，其中,k小于等于m和n的最小值。

由于对于人脸检测和人体检测的算法的不同，以及，儿童的姿势的不同，得到的m个人脸检测框和n个人体检测框并不是绝对一一对应。

进一步的，所述图像内的人脸检测框与第一特征库进行第一次匹配，具体包括：第一时间点对应的二维图像序列的第一人脸检测框与第一特征库进行了第一次匹配，若第一次匹配成功，则确认了第一人脸检测框对应的待识别对象，若第一次匹配不成功，则重复执行后续时间点对应的二维图像序列与第一特征库进行第一次匹配。

与人脸特征库的人脸匹配成功后确认了儿童身份，从而进行后续人脸跟踪。

进一步的，所述对第一次匹配成功的待识别对象进行人脸跟踪匹配，具体包括：在t时间点图像序列上的第i个人脸检测框

与t+1时间点图像序列上的第j个人脸检测框

进行相似度判断，其中，相似度

=

,

和

分别表示两个检测框的图像相似度和运动轨迹预测相似度，

为权重系数；若相似度

大于等于人脸相似度阈值，则人脸跟踪匹配成功。

根据相似度判断进行人脸跟踪的计算量相比较仅根据人脸识别进行跟踪少很多，因此通过相似度判断提高了人脸跟踪效率。

进一步的，所述基于第一次匹配结果对人体检测框进行归一化处理后，通过第二动态卷积神经网络进行特征提取，从而得到第二特征库，具体包括：若第一次匹配成功，则对第一人脸检测框对应的人体检测框B_i进行裁剪得到人体图像；并对人体图像进行姿态识别得到人体关键点集

；通过基准点集

得到人体关键点集

的变换矩阵T，其中，

是标准直立姿态下的基准点集；基于变换矩阵T对人体图像归一化处理；归一化处理的人体图像输入至第二动态卷积神经网络，并将得到的特征向量作为人体特征，其中，人体特征的集合作为第二特征库。

考虑到儿童的动作特点，因此需要对人体的姿态归一化处理。

进一步的，还包括，若人脸跟踪匹配不成功，则基于第一人体检测框进行特征提取得到第一人体特征，并将第一人体特征与第二特征库的人体特征进行人体相似度比较，若相似度比较结果大于等于人体相似度阈值，则第二次匹配成功。

进一步的，还包括，若第一次匹配成功，则截取对应人脸检测框的人脸图像，并对其进行特征提取得到新的人脸特征，以及，更新对应的人脸特征库。

进一步的，所述运动轨迹预测相似度

，其中di和dj分别表示第i个和第j个检测框的状态信息，其中，状态信息至少包括（u,v,w,h,

,

），（u,v）是检测框中心点坐标，（w，h）分别对应检测框的宽度和高度,

,

分别对应其在图像序列中速度，可由时间t的检测框的状态信息得到出时间t+1的检测框的状态信息

。

进一步的，所述基于训练样本库中的样本，以及，人脸或人体属性增加训练样本具体包括：基于人脸和人体属性分类器分别对训练样本库中的人脸样本库和人体样本库中的图像进行分类，从而分别得到对应图像的若干种人脸属性和若干种人体属性；将不同种人脸属性对应的图像融合增加至人脸样本库，以及，将不同种人体属性对应的图像融合增加至人体样本库。

增加了样本的丰富度，从而使得动态卷积神经网络模型对人脸角度，年龄变化，身体姿态和衣服穿着不敏感，即使人脸角度，年龄，姿态等改变，也不影响识别准确度。

进一步的，所述第一动态卷积神经网络和第二动态卷积神经网络预设为ResNet神经网络，训练过程更新最后两层的网络权重，其他层的权重固定。

本发明第二个方面还提出了一种儿童行为轨迹定位***，包括：依次耦接的数据采集模块，数据存储模块，数据处理模块和结果呈现模块，以及与数据处理模块耦接的身份信息录入模块，所述数据采集模块，至少包括用于采集教室内儿童行为的视频数据，并将采集的视频数据输出至数据存储模块；所述数据存储模块，所述数据存储模块至少用于存储视频数据；所述身份信息录入模块，用于存储待识别对象的身份信息；

所述数据处理模块用于基于输入的身份信息和视频数据对待识别对象进行身份识别和视频数据处理；所述结果呈现模块用于基于数据处理模块的处理结果显示儿童行为轨迹。

本发明的有益效果是：

1、综合利用人脸，人体信息进行识别，以解决人脸遮挡和身体背对摄像头问题，从而获得高精度的识别；

2、将人脸跟踪和人脸识别结合，提高了跨时间段的识别准确率；

3、根据匹配结果动态更新特征库，从而实现了多角度多方位的人脸识别，提高了识别精度；

4、每次匹配成功后的轨迹进行实时记录，并不仅仅是人脸和人体轨迹跟踪后才进行关联，降低了由于跟踪运算速度较快，准确率较低，轨迹错串到他人身上的可能；

5、设计了动态更新的识别训练算法，把当前班级儿童的数据加入训练数据集中，算法能自适应与当前班级儿童，随着时间积累，算法准确度会越来越高，人脸识别和人体识别的准确度也越来越高；

6、提出一种训练样本生成策略，使得模型对人脸角度，年龄变化，身体姿态和衣服穿着不敏感，即使人脸角度，年龄，姿态等改变，也不影响识别准确度；

7、针对儿童在教室内的行为特点，保证稳定识别，对人体特征库进行姿态归一化处理。

附图说明

图1为本发明实施例儿童行为轨迹定位方法的流程图；

图2为本发明实施例儿童行为轨迹定位方法的示意图；

图3为本发明实施例儿童行为轨迹定位***的动态卷积神经网络的更新方法；

图4为本发明实施例儿童行为轨迹定位***的原理框图。

具体实施方式

为了进一步理解本发明，首先对本发明提到的部分术语进行解释：

人脸检测：针对任意一幅给定的图像，采用一定的方法策略对图片进行搜索以确定其中是否含有人脸，并返回每一张人脸的位置和大小，一般是以矩形框的形式输出。

人脸识别：在图像中检测出人脸后，通过比较人脸的特征信息对其身份进行鉴定的技术。

人脸跟踪：针对视频中的图像序列，在当前图像中检测到人脸的前提下，在后续的图像序列中继续获取对应人脸的位置和大小。

为了便于本领域人员更好的理解本发明，下面结合附图和具体实施例对本发明做进一步详细说明，下述仅是示例性的不限定本发明的保护范围。

本发明所述的一种儿童行为轨迹定位方法，包括构建对应待识别对象的模型库，并对模型库中的每一个待识别对象通过第一动态卷积神经网络进行特征提取得到第一特征库；对采集的视频分别进行人脸检测和人体检测，从而得到对应视频的图像序列内一一对应的人脸检测框和人体检测框；图像序列内的人脸检测框与第一特征库进行第一次匹配，并基于第一次匹配结果对人体检测框进行归一化处理后，通过第二动态卷积神经网络进行特征提取，从而得到第二特征库；对第一次匹配成功的待识别对象进行人脸跟踪匹配，以及，基于人脸跟踪匹配结果，进行基于第二特征库的第二次匹配；实时记录图像序列中第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的坐标位置，从而对应生成待识别对象的轨迹。以及，基于第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的图像，对应更新至第一动态卷积神经网络或第二动态卷积神经网络的训练样本库；其中，第一动态卷积神经网络和第二动态卷积神经网络基于训练样板库中的样本，基于训练样本库中的训练样本，以及人脸或人体属性，增加训练样本，从而更新第一动态卷积神经网络和第二动态卷积神经网络。

如图1所示，本实施例所述的一种儿童行为轨迹定位方法的流程图，以学前教育，儿童在教室内的应用场景为例进行对本发明的儿童行为轨迹定位方法进行说明。本实施例所述的一种儿童行为轨迹定位方法的示意图如图2所示。

S1，构建对应待识别对象的模型库，并对模型库中的每一个待识别对象进行特征提取得到第一特征库。具体包括如下步骤。

S11，基于待识别对象的身份信息Y和对应身份信息Y的若干照片P构建人脸的模型库。

在学前教育的应用场景中，老师可通过电脑或手机录入班级内儿童身份信息，为班级内儿童创建身份档案，包括儿童的姓名，身份证等身份信息，用Y表示，同时为每个儿童上传p张包括人脸的照片，构建了班级内所有儿童的模型库。

S12，处理人模型库中的所有照片得到图像矩阵I。

对每张照片进行裁剪Crop()操作，从而生成长度和宽度固定的图像矩阵I。

S13，对图像矩阵I进行卷积处理，并将处理后得到的特征向量来表示对应身份信息Y的人脸图像，其中，人脸图像的集合作为第一特征库。

把图像矩阵Ｉ作为输入，经过第一动态卷积神经网络处理,把获得的最后一层固定长度的特征来表示对应的人脸图像，从而得到可用于表示对应儿童身份的人脸特征的集合，得到人脸特征库Fset={FV1,FV2,...FVp}，并将人脸特征库作为第一特征库，其中FVp代表第P张照片的人脸特征。

在一些实施方式中，第一动态卷积神经网络在初始状态可以选择通用的如ResNet等经过预训练的神经网络，为了提高网络的推广性，在训练过程中，可以只更新最后两层的网络权重，其他层的权重固定。

S2，对采集的视频分别进行人脸检测和人体检测，从而得到对应视频的图像序列内一一对应的人脸检测框和人体检测框，具体步骤如下

S21，采集的视频记录至少包括若干二维图像序列X={X1，X2，……，Xt-1，Xt，...}，其中Xt为任意时间t的二维图像。

通过部署在教室的摄像头可以持续的生成视频记录Vid,此视频记录Vid由一系列的二维图像序列组成X={X1，X2，……，Xt-1，Xt，...},其中，Xt表示在时间t获得的二维图像。

S22，对二维图像序列进行人脸检测和人体识别，从而得到m个人脸检测框FaceBoxset=(F1,F2,...,Fm)和n个人体检测框BodyBoxset=(B1,B2,...Bn)，其中，m大于等于0，n大于等于0。

在本发明的一个实施例中，利用OpenCV算法库中人脸检测和人体识别模块对图像进行顺序处理，获取m个人脸检测框FaceBoxset=(F1,F2,...,Fm)和n个人体检测框BodyBoxset=(B1,B2,...Bn)。由于图像中人脸属于人体的一部分，为了获得FaceBoxset中人脸和BodyBoxset中人体的对应关系，计算FaceBoxset中任意人脸检测框Fi与BodyBoxset中人体检测框Bj的重合度

。其中cnt函数用于统计像素数据，

表示Fi与Bj重合部分的像素数目，

表示Fi本身的像素数。U值为0-1范围的值，U值越大表示重合度越大。

S23，基于预设重合度阈值和重合度U得到k个一一对应的人脸和人体检测框对Boxset={(F1,B1),(F2,B2),...,(Fk,Bk)}，其中,k小于等于m和n的最小值。

重合度U值为0-1范围的值，U值越大表示重合度越大。在本发明的一个实施例中，预设重合度阈值设置为0.95，当重合度U值大于等于预设重合度阈值时，则认为人脸检测框和人体检测框一一对应。从而获得k个一一对应的人脸和人体检测框对Boxset={(F1,B1),(F2,B2),...,(Fk,Bk)}。

需要说明的是，理论上，人脸检测框和人体检测框的数量应当是一一相等，由于人脸检测框和人体检测框的处理方式和应用算法的不同，m和n的值可能不同，因此得到的个人脸和人体检测框对的个数k的值小于等于m和n的最小值。

S3，图像序列内的人脸检测框与第一特征库进行第一次匹配，并基于第一次匹配结果对人体检测框进行特征提取从而得到第二特征库。具体步骤如下。

若第一时间点对应的二维图像序列的第一人脸检测框与第一特征库进行了第一次匹配。若第一次匹配成功，则确认了第一人脸检测框对应的待识别对象，若第一次匹配不成功，则重复执行后续时间点对应的二维图像序列与第一特征库进行第一次匹配。

以本步骤应用于起始阶段没有匹配样本的场景进行说明。以儿童Q的人脸识别为例，第一时间t之后的二维图像才出现儿童Q，因此需进行儿童的人脸识别从而确定儿童的身份。对步骤S22中得到的人体检测框从对应的图像序列中截取对应的人脸图像，裁剪操作后，作为输入经过第一动态卷积神经网络处理，获得对应的人脸特征值,如人脸检测框Bi对应的人脸特征值为FBi,然后计算FBi与每个儿童的人脸特征库Fset中人脸相似度, 人脸相似度Sim(FBi,Fset)=max({sim(FBi,FVi),i=1,2,...p}),其中人脸相似度函数sim(A,B)函数可表示为人脸特征A和Ｂ余弦函数，其值属于0-1范围内，且值越大表示越相似。

在本发明的一个实例中，人脸相速度阈值设置为0.8，则人脸相似度大于等会用于0.8，则表示第一次匹配成功。则确认了人脸检测框对应的身份，并在后续对其进行人脸跟踪。同时，对人体检测框进行特征提取从而得到第二特征库。

如果儿童Q对应的人脸图像已经通过第一次匹配，则基于对应儿童Q人脸检测框的人体检测框建立动态的人体特征库，用Bset={BV1,BV2,...BVn}表示。

在一些实施方式中，考虑到儿童在不同日期的服装可能会变化，所以人体特征库即第二特征库没有在一开始建立，而是根据实际情况，例如以每天为单位动态创建。

并且，考虑到一天中儿童的肢体变化幅度比较大，例如站、坐、蹲等不同的动作，因为为了实现稳定的识别，本申请的发明对于人体特征库的建立，设计了基于姿态归一化的特征库提取方式，具体步骤如下。

对于通过第一次匹配的儿童Q对应的人体检测框Bi的截取出对应的人体图像，经裁剪后统一大小，然后，利用opencv中的openpose算法对人体图像

进行姿态识别获得人体关键点集

，在本发明的一个实施例中，人体关键点集包括19个二维坐标点集，覆盖人体的关键肢体骨架节点。然后利用基于点集的非线性配准算法计算由基准点集

到检测点集

的非线性变换矩阵T，即通过

，得到变换矩阵T，其中，

是标准直立姿态下的基准点集。通过得到的变化矩阵T对人体图像

进行配准获得归一化图像

，最后将归一化图像

输入到经过第二动态卷积神经网络中，把获得的最后一层的固定长度的特征来表示对应的人体特征。

在一些实施方式中，若得到的人脸相似度小于0.8，则表示第一次匹配失败，即表示儿童Q的人脸识别失败，则在后续时间的图像序列中，重复进行第一次匹配，直至匹配成功。

需要说明的是，在一些实施方式中，儿童Q可能在历史图像中出现过，但是儿童Q在新图像中人脸偏转的比较严重，或者表情差异较大，人脸跟踪无法实现跟踪，则可以再次结合人脸识别提高轨迹定位准确度。

S4，对第一次匹配成功的待识别对象进行人脸跟踪匹配，以及，基于人脸跟踪匹配结果，进行基于第二特征库的第二次匹配。

本步骤主要针对已经通过第一次匹配的检测框，即已经判定身份的检测框与当前帧中的检测框进行相似性的判断，从而逐步跟踪出一系列的跟踪序列。

在t时间点图像序列上的第i个人脸检测框

与t+1时间点图像序列上的第j个人脸检测框

进行相似度判断，其中，相似度

=

，

和

分别表示两个检测框的图像相似度和运动轨迹预测相似度，

为权重系数；若相似度

大于等于人脸相似度阈值，则人脸跟踪匹配成功。

在一些实施方式中，还包括，若第一次匹配成功，则截取对应人脸检测框的人脸图像，并对其进行特征提取得到新的人脸特征，以及，更新对应的人脸特征库。

在一些实施方式中，

用于衡量两个检测框之间的图像相似度，可以利用卷积神经网络从每一个检测框中提取相应的特征向量，然后计算两个特征向量之间的余弦距离来表示其相似性。另外，考虑到计算速度的因素，也可以直接利用图像矩阵展开成一维向量来表示对应的特征向量。

为了利用运动轨迹预测的方式进行匹配，我们用（u,v,w,h,

,

）来表示人脸检测框Fi的状态，其中（u,v）是检测框中心点坐标，（w，h）分别对应检测框的宽度和高度,

,

分别对应其在图像序列中速度，利用线性模型时间可由时间t-1的检测框推测出时间t的检测框

。衡量上一帧图像检测框预测轨迹

与当前帧监测框

相似性可表示为

，其中

表示第i个检测框的状态信息（u,v,w,h）。

这样，利用上述跟踪算法，可以逐步通过与历史序列帧中已经判定身份的检测框与当前帧中的检测框进行匹配。其计算效率远远大于仅通过人脸识别进行人脸跟踪。

在本发明的一个实例中，设定相似度阈值为0,8，若相似度

>0.8为人脸跟踪匹配成功，把跟踪匹配成功的特定儿童的坐标放入对应的轨迹库中。

由于幼儿教室中，儿童自由活动较多的情况下，侧脸和遮挡情况较多，只用人脸跟踪算法，不能实现特定儿童的长时间的轨迹跟踪。但是由于在教室场景中，要识别的儿童身份已经提前知道，并且在步骤S1中已经提前建立了人脸库，因此，可以基于人脸库的人脸识别算法，来实现跨时间段的轨迹识别和跟踪。

因此针对人脸跟踪匹配没有成功的样本，利用第二特征库进行第二次匹配，从没有人脸跟踪匹配成功的人体检测框Bi中截取出对应的人体图像，裁剪操作后，利用上述姿态归一化的同样操作，对人体图像进行归一化处理，然后作为输入经过预训练的卷积神经网络处理，获得对应的人体特征值BBi,然后计算BBi与每个儿童的人体特征库Bset中人体相似度, Sim(BBi,Bset)=max({sim(BBi,BVi),i=1,2,...p}),在本发明的一个实施中，人体相似度大于0.8则表示第二次匹配成功。

S5，记录图像序列中第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的坐标位置，从而对应生成待识别对象的轨迹。

在现有技术中，跟踪运算速度比较快，但是准确率较低，而在本申请中，对于匹配成功的待识别对象的位置进行实时记录，避免了轨迹会出现串到其他人身上，提高了识别的准确度。

重复执行步骤S2-S5，经过上述循环过程，则图像二维序列中检测到的儿童坐标被标定出来，其中，某一个儿童的坐标轨迹可用Tk={(x1,y1),(x2,y2),...,(xt,yt)...},其中(xt,yt)表示某一儿童在时间t在图像中的坐标位置。把这些坐标点连接起来，会知道一张二维图像上，就可以得出对应儿童的行为轨迹图。

S6，基于第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的图像对应更新至第一动态卷积神经网络或第二动态卷积神经网络的训练样本库。

上述轨迹定位过程中，人脸和人体匹配过程中用到了卷积神经网络，该卷积神经网络可通过动态训练，上述过程中识别成功的人脸和人体库作为训练库，更新卷积神经网络，使得其可以进化学习正在识别中的儿童的特征从而提高识别准确度。具体步骤如图3所示，具体步骤如下。

S600, 更新人脸/人体训练样本库，样本库的来源是当前正在定位跟踪的班级中的儿童数据，可以为每个儿童分别建立人脸样本库和人体样本库，并以预设周期将识别成功的人脸和人体加入到对应的人脸样本库或人体样本库中。

S601,训练样本生成，由于识别过程中，受到人脸角度，表情，人体姿态，衣着等多方面因素的影响，因此基于训练样本库中的样本和人脸或人体属性增加训练样本，具体包括

基于人脸/人体属性分类器对人脸/人体样本库中的图像进行分析，获得对应的属性。例如，人脸的角度和表情得到的属性包括平和，开心，伤心，恐惧，惊讶，哭泣。人体的姿态属性包括站立，蹲下，跳跃，衣着的属性包括衣服颜色，是否背包，然后针对每个儿童随机选择两种不同人脸角度和表情/不同人体姿态和衣着的图片，最后，把两张图片融合生成一张新的图片。

在一些实施方式中，把两张图片融合生成一张新的图片，可以直接相加平均，也可以分别对图片进行旋转剪切等操作再加权相加等操作。

S602, 选择第一动态卷积神经网络和第二动态卷积神经网络，在初始状态可以选择通用的如ResNet等经过预训练的神经网络作为第一动态卷积神经网络和第二动态卷积神经网络，为了提高网络的推广性，在训练过程中，可以只更新最后两层的网络权重，其他层的权重固定。

S603,通过多任务学习对卷积神经网络进行优化，其中多任务包括以下几种子任务。

人脸/人体分类识别任务，输出是个多维向量，每一维对应单个个体。

人脸/人体相似性识别任务，用于判别两份图像是否属于同一个个体，

人脸/人体属性主要用来识别人脸的角度和表情，人体的姿态和衣着等属性。多任务学习可以提高训练模型的推广性。

循环S601-S603的步骤，可以获得更新的神经网络模型，由于模型学习了被应用的学生信息，同时也对人脸和人体中与识别无关的因素进行了识别学习，在跟踪定位中使用新模型，可以显著提高识别准确性。同时也更适用于相对固定身份的识别准确性。

本发明另外还提出了一种基于上述儿童行为轨迹定位方法的儿童行为轨迹定位***，原理框图如图4所示，包括：数据采集模块，数据存储模块，身份信息录入模块、数据处理模块和结果呈现模块。其中，数据采集模块包括教室内的视频数据采集终端，视频存储模块用于存储采集的视频数据，身份信息录入模块用于存储被分析对象的身份数据，其中最主要的包括用于人脸识别的头像库，和其他相关，如姓名，年龄，性别等身份信息。数据处理模块用于利用视频数据对对象进行身份识别，结果呈现模块，主要用于展示识别出来的儿童行为轨迹。

在一些实施方式中，数据采集模块主要指安放在教室前端或后端的摄像头视频采集终端。视频采集终端可以有多种形态，可以是专用的模拟或数字摄像头，也可以是安装与机器人或笔记本电脑上的摄像头。此采集终端一般还应包括网络接入设备，用于把视频数据用无线或有线的方式传输出去，总线和输入输出设备等。

身份信息录入模块用于存储被分析对象的身份数据，其中最主要的包括用于人脸识别的头像库，和其他相关，如姓名，年龄，性别等身份信息。此录入模块可以是手机，平板电脑等可连接上述数据存储的相关设备。可通过触摸屏，键盘，鼠标等形式手工输入。此信息录入模块同时包括一个应用程序，提供了上述信息录入的形式指示。

数据存储模块，一般是在存放在园所内的用于把数据采集模块获取的图像序列进行记录的装置，此数据存储模块可以是单独的存储器，也可以是存储服务器的一部分。这里存储服务器主要包括数据存储器和程序存储区。其中数据存储器可用于存储上述视频数据，也用于存储***处理所需用户身份和中间数据处理结果等信息。其中程序存储区，可用于存储操作***和用于实现幼儿园教室环境的儿童行为轨迹定位***的应用程序。

数据处理模块，用于完成一系列身份匹配算法操作的处理单元，通过综合利用人脸和人体获得每一位观察对象的行为轨迹。此数据处理模块对应的程序存储在服务器的数据模块中，通过与之相连接的处理器执行程序，实现所述功能。此处的处理器可以是普通中央处理单元，也包括等专门用于数据处理加速用的特殊处理单元如GPU等。

结果呈现模块，可以是手机，平板电脑或园内显示器等显示装置，主要用于呈现每位儿童的轨迹跟踪结果。

本发明提出的儿童行为轨迹定位方法和***，综合利用人脸，人体信息，可以解决儿童在教室内由于遮挡和非正脸导致的无法识别问题，保证高精度的识别精度，从而准确跟踪每位儿童在教室内的行为轨迹，方便老师观察记录每位儿童日常的行为模式，根据情况制定教育策略。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种儿童行为轨迹定位方法，其特征在于，包括：

构建对应待识别对象的模型库，并对模型库中的每一个待识别对象通过第一动态卷积神经网络进行特征提取得到第一特征库；

对采集的视频分别进行人脸检测和人体检测，从而得到对应视频的图像序列内一一对应的人脸检测框和人体检测框；

图像序列内的人脸检测框与第一特征库进行第一次匹配，并基于第一次匹配结果对人体检测框进行归一化处理后，通过第二动态卷积神经网络进行特征提取，从而得到第二特征库；

对第一次匹配成功的待识别对象进行人脸跟踪匹配，以及，基于人脸跟踪匹配结果，进行基于第二特征库的第二次匹配；

实时记录图像序列中第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的坐标位置，从而对应生成待识别对象的轨迹，以及，基于第一次匹配成功或人脸跟踪匹配成功或第二次匹配成功的待识别对象的图像，对应更新第一动态卷积神经网络或第二动态卷积神经网络的训练样本库；

基于训练样本库中的训练样本，以及人脸或人体属性，增加训练样本，从而更新第一动态卷积神经网络和第二动态卷积神经网络。

2.根据权利要求1所述的儿童行为轨迹定位方法，其特征在于，所述构建对应待识别对象的模型库，并对模型库中的每一个待识别对象通过第一动态卷积神经网络进行特征提取得到第一特征库，具体包括：

基于待识别对象的身份信息Y和对应身份信息Y的若干照片P构建人脸模型库；

处理人脸模型库中的所有照片得到图像矩阵I；

对图像矩阵I输入至第一动态卷积神经网络进行卷积处理，并将处理后得到的特征向量来表示对应身份信息Y的人脸图像，其中，人脸图像的集合作为第一特征库。

3.根据权利要求1所述的儿童行为轨迹定位方法，其特征在于，分别对采集的视频进行人脸检测和人体检测，从而得到对应视频的图像序列内一一对应的人脸检测框和人体检测框，具体包括：

采集的视频记录至少包括若干二维图像序列X={X1，X2，……，Xt-1，Xt，...}，其中Xt为任意时间t的二维图像；

对二维图像序列进行人脸检测和人体识别，从而得到m个人脸检测框FaceBoxset=(F1,F2,...,Fm)和n个人体检测框BodyBoxset=(B1,B2,...Bn)，其中，m大于等于0，n大于等于0；

计算人脸检测框FaceBoxset中任意人脸检测框Fi与人体检测框BodyBoxset中人体检测框Bj的重合度

，其中i≤m，j≤n；

基于预设重合度阈值和重合度U得到k个一一对应的人脸和人体检测框对Boxset={(F1,B1),(F2,B2),...,(Fk,Bk)}，其中,k小于等于m和n的最小值。

4.根据权利要求3所述的儿童行为轨迹定位方法，其特征在于，所述图像序列内的人脸检测框与第一特征库进行第一次匹配，具体包括：

第一时间点对应的二维图像序列的第一人脸检测框与第一特征库进行了第一次匹配，

若第一次匹配成功，则确认了第一人脸检测框对应的待识别对象，

若第一次匹配不成功，则重复执行后续时间点对应的二维图像序列与第一特征库进行第一次匹配。

5.根据权利要求4所述的儿童行为轨迹定位方法，其特征在于，所述对第一次匹配成功的待识别对象进行人脸跟踪匹配，具体包括：

在t时间点图像序列上的第i个人脸检测框

与t+1时间点图像序列上的第j个人脸检测框

进行相似度判断，其中，相似度

=

,

和

分别表示两个检测框的图像相似度和运动轨迹预测相似度，

为权重系数；

若相似度

大于等于人脸相似度阈值，则人脸跟踪匹配成功。

6.根据权利要求4所述的儿童行为轨迹定位方法，其特征在于，所述基于第一次匹配结果对人体检测框进行归一化处理后，通过第二动态卷积神经网络进行特征提取，从而得到第二特征库，具体包括：

若第一次匹配成功，则对第一人脸检测框对应的人体检测框B_i进行裁剪得到人体图像；

并对人体图像进行姿态识别得到人体关键点集

；

通过基准点集

，得到人体关键点集

的变换矩阵T，其中，

是标准直立姿态下的基准点集；

基于变换矩阵T对人体图像归一化处理；

归一化处理的人体图像输入至第二动态卷积神经网络，并将得到的特征向量作为人体特征，其中，人体特征的集合作为第二特征库。

7.根据权利要求5所述的儿童行为轨迹定位方法，其特征在于，还包括，若人脸跟踪匹配不成功，则基于第一人体检测框进行特征提取得到第一人体特征，并将第一人体特征与第二特征库的人体特征进行人体相似度比较，若相似度比较结果大于等于人体相似度阈值，则第二次匹配成功。

8.根据权利要求1所述的儿童行为轨迹定位方法，其特征在于，所述基于训练样本库中的样本，以及，人脸或人体属性增加训练样本具体包括：

基于人脸和人体属性分类器分别对训练样本库中的人脸样本库和人体样本库中的图像进行分类，从而分别得到对应图像的若干种人脸属性和若干种人体属性；

将不同种人脸属性对应的图像融合增加至人脸样本库，以及，将不同种人体属性对应的图像融合增加至人体样本库。

9.根据权利要求8所述的儿童行为轨迹定位方法，其特征在于，所述第一动态卷积神经网络和第二动态卷积神经网络预设为ResNet神经网络，训练过程更新最后两层的网络权重，其他层的权重固定。

10.一种儿童行为轨迹定位***，其特征在于，包括：数据采集模块，数据存储模块，身份信息录入模块、数据处理模块和结果呈现模块，

所述数据采集模块，至少包括用于采集教室内儿童行为的视频数据，并将采集的视频数据输出至数据存储模块；

所述数据存储模块，所述数据存储模块至少用于存储视频数据；

所述身份信息录入模块，用于存储待识别对象的身份信息；

所述数据处理模块用于基于输入的身份信息和视频数据对待识别对象进行身份识别和视频数据处理；

所述结果呈现模块用于基于数据处理模块的处理结果显示儿童行为轨迹。