CN112016506B

CN112016506B - 快速适应新场景的教室姿态检测模型参数训练方法

Info

Publication number: CN112016506B
Application number: CN202010926300.8A
Authority: CN
Inventors: 高陈强; 钱志华; 叶盛; 陈乔伊; 陈欣悦; 张凌明
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2022-10-11
Anticipated expiration: 2040-09-07
Also published as: CN112016506A

Abstract

本发明属于图像处理与计算机视觉技术领域，涉及一种快速适应新场景的教室姿态检测模型参数训练方法及装置，所述方法包括：将教室姿态检测模型的参数进行随机初始化；将教室姿态检测数据集按场景划分为小目标数据集；随机选取其中n个小目标数据集，复制模型参数并在各个小目标数据集的训练集上进行训练并在对应测试集上测得损失，并计算各个小目标数据集损失的平均值；将平均值用作是模型参数的教室姿态检测模型的损失，利用该损失对模型参数进行梯度下降，得到新的模型参数；本发明能有效减少人工标注成本，在进一步训练后得到模型参数下的检测结果相对于在训练集上的所有图片进行训练的传统训练方法得到的模型更为准确。

Description

快速适应新场景的教室姿态检测模型参数训练方法

技术领域

本发明属于图像处理与计算机视觉技术领域，涉及一种快速适应新场景的教室姿态检测模型参数训练方法及装置。

背景技术

目标检测是计算机视觉领域四大基础问题之一。一般目标检测问题被定义为：确定一张图片中是否存在预定义类别(比如人、马、车等)的目标实例，如果存在，就返回每个目标的空间位置。2014年深度学习框架R-CNN在目标检测数据集VOC 2012上性能上超出了前代30％的优异表现引发了基于深度学习的目标检测方法的高速发展。现在主流、高性能的目标检测框架都是基于深度学习的。深度学习(Deep Learning)是机器学习中一种基于对数据进行表征学习的方法，是一种能够模拟出人脑的神经结构的机器学习方法。

基于深度学习的目标检测模型需要大量的有标注的图片(图片及记录目标位置的标签信息)对其进行参数进行优化，一般来说是求出模型当前的预测结果和理想结果(标注)之间的差距，用数据表示出来并使用梯度下降的方法对模型参数进行更新，通过这种方法获得在用于训练的数据集上表现较好的模型参数。用来训练的图片及对应标签的集合叫做训练集，用来测试的图片及其标签叫做测试集。一般来说，通过梯度下降的方法基于训练集对深度学习模型的参数进行更新，这样得到的模型参数往往在训练集上有较为良好的表现。

然而，这样的模型参数要想在测试集上有同样优秀的表现，就必须满足机器学习的一个重要假设：训练集和测试集必须分布相同。

当训练集、测试集的分布差异很大时，即使目标检测模型的待检测目标类别相同，基于训练集得到的模型参数在测试集上也很难有良好的表现。举例来说，训练集上都是摄像头离学生水平距离在2-10米(从最近的学生到最远的学生)，正对学生拍摄，摄像头像素较高，学生轮廓都比较清晰的小教室监控图片；测试集上都是摄像头离学生水平距离在15-50米，侧对学生拍摄，摄像头像素还相对较低的大教室监控图片。离摄像头最远的后排同学本来轮廓就相当模糊了，再加上遮挡问题人眼都很难分辨是坐着还是趴着，而训练集上又没有这些样例，或者这些样例较少，这就会导致测试集上的检测结果相当糟糕。

但如果单纯分别针对不同场景构造教室姿态检测数据集并对模型参数进行训练的话，则会带来极高的标注成本，每个场景训练模型参数所需的时间和计算资源也较多。

发明内容

为了从通过预训练得到一个能快速在不同教室场景上使用尽量少的标注图片和训练次数就能较好收敛的模型参数的角度出发，使得将教室姿态检测模型部署到特定场景时，通过特定场景上少量的标注图片再次训练就能取得最适合该场景的姿态检测模型参数，本发明提出一种快速适应新场景的教室姿态检测模型参数训练方法及装置看，所述方法包括：

步骤1：将教室姿态检测模型的参数进行随机初始化；

步骤2：将教室姿态检测数据集按场景划分为小目标数据集；

步骤3：将模型参数φ复制一份，复制的模型参数记为θ₀；

步骤4：随机选取其中n个小目标数据集，将复制的模型参数θ₀依次在各个小目标数据集的训练集上进行训练并在对应测试集上测得教室姿态检测模型的损失{l_i|i＝1,2,...,n}；

步骤5：将步骤4中在各个小目标数据集的测试集上测得的损失求平均，得

步骤6：将

用作是模型参数为φ的教室姿态检测模型的损失，以此对教室姿态检测模型的参数进行梯度下降，得到新的参数φ′，将φ的值替换为φ′；

步骤7：重复步骤3-6，直到损失

收敛，保存模型参数φ。

进一步的，按场景划分小目标数据集，是指按所拍摄的图片中教室座位分布划分数据集，即监控器拍摄的同一位置的数据作为一个数据集。

进一步的，随机选取小目标数据集时，设全体小目标数据集的集合为{D_i|i＝1,2,...,N}，其中D_i表示集合中第i个小目标数据，N为小目标数据集的总个数，每个小目标数据集均标记为未抽取，每次在集合中依次随机选取n个标记为未被抽取过小目标数据集，并将抽取的小目标数据集标记为已抽取，当没有小目标数据集可以抽取时再将集合中所有的小目标数据集重新标记为未抽取。

进一步的，每次随机抽取n个小目标数据集，n为整数且4≤n≤n_max，其中n_max为随机抽取小目标数据集的最大个数，表示为：

其中，N为小目标数据集的总个数，

为向下取整符号。

进一步的，将复制的模型参数θ₀依次在n个小目标数据集的训练集上进行训练时，在模型参数θ_i-1下第i个小目标数据集的训练集上抽取模型设置的超参数batch数目的标注图片送入模型，求得损失，并根据损失对模型参数进行一次梯度更新，梯度更新后得到模型参数θ_i，在模型参数θ_i下再在该小目标数据集的测试集上抽取超参数batch数目的标注图片送入模型，在模型参数θ_i下得到的预测结果和人工标注结果之间的差值即为损失l_i。

本发明还提出一种快速适应新场景的教室姿态检测模型参数训练装置，所述装置包括数据获取模块、小目标数据集划分单元、小目标数据集随机选择单元、损失计算单元以及梯度下降单元，其中：

数据获取模块，用于获取教室姿态检测数据以及与教室姿态检测模型进行数据交换，包括获取教室姿态模型的检测结果和模型参数；

小目标数据集划分单元，用于对获取的原始数据进行划分；

小目标数据集随机选择单元，用于从小目标数据集划分单元随机选择小目标数据集，并将选择的小目标数据集中的数据输入教室姿态检测模型中；

损失计算单元，用户从教室姿态检测模型中获取每个小目标数据集的损失，并根据所有小目标数据集的损失的平均值；

梯度下降单元，根据损失计算单元计算的平均值进行梯度下降，获得教室姿态检测模型的新参数，并将该参数发送给教室姿态检测模型。

本发明的有益效果包括：

通过该训练方法训练出来的教室姿态检测模型参数，在特定的教室场景使用时，只需10张以内的该场景标注图片对该模型参数进行进一步训练，即可在该适应新的教室场景。在新的教室场景落地时，使用本发明能有效减少人工标注成本，在进一步训练后得到模型参数下的检测结果相对于在训练集上的所有图片进行训练的传统训练方法得到的模型更为准确。

附图说明

图1为本发明提供的一种端到端的目标检测模型的示例；

图2为本发明的算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种快速适应新场景的教室姿态检测模型参数训练方法，如图2，具体包括以下步骤：

步骤1：将教室姿态检测模型的参数进行随机初始化；

步骤2：将教室姿态检测数据集按场景划分为小目标数据集；

步骤3：将模型参数φ复制一份，复制的模型参数记为θ₀；

步骤4：随机选取其中n个小目标数据集，将复制的模型参数θ₀依次在各个小目标数据集的训练集上进行训练并在对应测试集上测得损失{l_i|i＝1,2,...,n}；

步骤6：将

步骤7：重复步骤3-6，直到损失

收敛，保存模型参数φ。

实施例1

教室姿态检测模型可以按实际项目需求(检测速度、准确度、稳定性等)选用任意合适的端到端的目标检测模型，在本实施例中，以Faster RCNN目标检测模型作为本发明教室姿态检测模型。Faster RCNN目标检测模型的结构如图1所示，并且该网络是图片提取领域的常用网络，其具体结构本文不再赘述。可以在图片上检测出特定类别的目标，并给出其位置信息，因此只需将其检测的目标类别设置为人体姿态，即可对教室监控场景的人体姿态进行检测。本发明所训练的教室姿态检测模型为端到端的目标检测模型，即将教室环境下学生和老师的姿态(坐、站、趴)作为待检测目标的类别，通过目标检测的方法识别出教室监控录像中截取的图片中各人物的姿态，Faster RCNN目标检测模型由多个模块组成的，不同模块实现不同的功能，需要通过这些模块实现的结果和理想结果(标注)相比较，得出各模块的误差即损失，对这些模块的参数进行训练。然而，通过将这些模块的损失叠加起来，对模型所有参数进行梯度下降更新参数的这种训练方式叫做端到端训练。

本实施例采用的Faster RCNN目标检测模型的模块损失就包括RPN模块判断正负样本损失rpn_loss_cls，RPN模块回归候选框位置损失rpn_loss_box，最终判断候选框类别损失loss_cls，最终回归候选框位置损失loss_box，该模型的总损失表示为：

loss＝rpn_loss_cls+rpn_loss_box+loss_cls+loss_cls。

本实施例以Faster RCNN目标检测模型总损失为损失值，但是，本发明不限制总损失值的具体计算方法，以本领域技术人员选择的具体模型为准，损失值也不限于总损失，也可以是具体选择的模型的部分损失。

按场景划分小目标数据集，是指按所拍摄的图片中教室座位分布划分数据集，因为相同教室座位分布，由于教室监控摄像头的位置和角度不同，所拍摄的人物分布和其姿态的表现形式也会不同，因此本实施例中所述的一个小目标数据集是同一位置监视器的位置从相同角度拍摄的图片集合。

在随机选取小目标数据集时，设全体小目标数据集的集合为{D_i|i＝1,2,...,N}，其中N为小目标数据集的总个数，最开始，每个小目标数据集均标记为未抽取，每次在集合中依次随机选取n个标记为未被抽取过小目标数据集，并将抽取的小目标数据集标记为已抽取，当没有小目标数据集可以抽取时再将集合中所有的小目标数据集重新标记为未抽取。其中，每次随机抽取n个小目标数据集，n为整数且4≤n≤n_max，小目标数据集的最大抽取数量n_max为：

将复制的模型参数θ₀依次在n个小目标数据集的训练集上进行训练时，每个小目标数据集都包括训练集和测试集，在模型参数θ_i-1下在第i个小目标数据集的训练集上抽取模型设置的超参数batch数目的标注图片送入模型，求得模型损失值，并根据损失对模型参数进行一次梯度更新，梯度更新后得到模型参数θ_i，在模型参数θ_i下再在该小目标数据集的测试集上抽取超参数batch数目的标注图片送入模型，在模型参数为θ_i时，对第i个小目标数据集的测试集进行预测获得的预测标签与该测试集的人工标注标签之间的差值损失即为损失值l_i，即在模型参数为θ₀时将第1个小目标数据集的训练集上抽取模型设置的超参batch数目的标注图片送入模型，并求得在该模型参数下模型的损失，利用该损失对模型参数θ₀进行一次梯度更新，梯度更新后得到模型参数θ₁，并在模型参数为θ₁时将第1个小目标数据集的训练集上抽取模型设置的超参数batch数目的标注图片送入模型，此时得出的损失即为损失值l₁，依次类推，利用第i-1个小目标数据计算得到的模型参数θ_i-1对第i个小目标数据集测试集数据进行预测，并使用该次模型的损失值和训练集数据更新模型得到第i个小目标数据集的模型参数θ_i，并将第i个小目标数据集的测试集输入得到的预测标签和人工标注标签的差值作为第i个小目标数据集的损失值l_i。

通过上述训练方法训练出来的教室姿态检测模型参数，在特定场景使用时均需对该模型参数进行进一步训练，但只需10张以内的该场景标注图片即可，在新的教室场景落地能有效减少人工标注成本，且在进一步训练后得到模型参数下的检测结果相对于在训练集上的所有图片进行训练的传统训练方法得到的模型更为准确。

实施例2

本实施例提出一种快速适应新场景的教室姿态检测模型参数训练装置，所述装置包括数据获取模块、小目标数据集划分单元、小目标数据集随机选择单元、损失计算单元以及梯度下降单元，其中：

小目标数据集划分单元，用于对获取的原始数据进行划分；

本发明的装置为选择的教室姿态检测模型快速选择模型参数，小目标数据集划分单元，获得教室姿态检测数据为按所拍摄的图片后，根据教室座位分布划分小目标数据集，即不同监控器拍摄的同一位置的数据作为一个数据集。

进一步的，小目标数据集随机选择单元选取小目标数据集时，设全体小目标数据集的集合为{D_i|i＝1,2,...,N}，其中N为小目标数据集的总个数，每个小目标数据集均标记为未抽取，每次在集合中依次随机选取n个标记为未被抽取过小目标数据集，并将抽取的小目标数据集标记为已抽取，当没有小目标数据集可以抽取时再将集合中所有的小目标数据集重新标记为未抽取。

进一步的，小目标数据集随机选择单元每次随机抽取n个小目标数据集，n为整数且4≤n≤n_max，其中n_max为随机抽取小目标数据集的最大个数，表示为：

其中，N为小目标数据集的总个数，

为向下取整符号。

进一步的，教室姿态检测模型获取损失时，将模型的原参数参数θ₀依次在n个小目标数据集的训练集上进行训练时，在模型参数θ_i-1下第i个小目标数据集的训练集上抽取模型设置的超参batch数目的标注图片送入模型，求得损失，并根据损失对模型参数进行一次梯度更新，梯度更新后得到模型参数θ_i，在模型参数θ_i下再在该小目标数据集的测试集上抽取batch数目的标注图片送入模型，在模型参数θ_i下的模型进行预测得到的标签与人工标注标签的差值即为损失值l_i。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.快速适应新场景的教室姿态检测模型参数训练方法，其特征在于，包括以下步骤：

步骤1：将教室姿态检测模型的参数进行随机初始化；

步骤2：将教室姿态检测数据集按场景划分为小目标数据集；按场景划分小目标数据集，是指按所拍摄的图片中教室座位分布划分数据集，即监控器拍摄的同一位置的数据作为一个数据集；

步骤3：将模型参数φ复制一份，复制的模型参数记为θ₀；

步骤4：随机选取其中n个小目标数据集，将复制的模型参数θ₀依次在各个小目标数据集的训练集上进行训练并在对应测试集上测得教室姿态检测模型的损失{l_i|i＝1,2,...,n}；随机选取小目标数据集时，设全体小目标数据集的集合为{D_i|i＝1,2,...,N}，其中D_i表示集合中第i个小目标数据，N为小目标数据集的总个数，每个小目标数据集均标记为未抽取，每次在集合中依次随机选取n个标记为未被抽取过小目标数据集，并将抽取的小目标数据集标记为已抽取，当没有小目标数据集可以抽取时再将集合中所有的小目标数据集重新标记为未抽取；每次随机抽取n个小目标数据集，n为整数且4≤n≤n_max，其中n_max为随机抽取小目标数据集的最大个数，表示为：

其中，N为小目标数据集的总个数，

为向下取整符号；

步骤6：将

步骤7：重复步骤3-6，直到损失

Figure 332974DEST_PATH_FDA0003802641070000014

收敛，保存模型参数φ。

2.根据权利要求1所述的快速适应新场景的教室姿态检测模型参数训练方法，其特征在于，将复制的模型参数θ₀依次在n个小目标数据集的训练集上进行训练时，在模型参数θ_i-1下第i个小目标数据集的训练集上抽取模型设置的超参数batch数目的标注图片送入模型，求得损失，并根据损失对模型参数进行一次梯度更新，梯度更新后得到模型参数θ_i，在模型参数θ_i下再在该小目标数据集的测试集上抽取超参数batch数目的标注图片送入模型，在模型参数θ_i下得到的预测结果和人工标注结果之间的差值即为损失l_i。

3.应用权利要求1所述的快速适应新场景的教室姿态检测模型参数训练方法的装置，其特征在于，所述装置包括数据获取模块、小目标数据集划分单元、小目标数据集随机选择单元、损失计算单元以及梯度下降单元，其中：

小目标数据集划分单元，用于对获取的原始数据进行划分，包括获得教室姿态检测数据为按所拍摄的图片后，根据教室座位分布划分小目标数据集，即不同监控器拍摄的同一位置的数据作为一个数据集；

小目标数据集随机选择单元，用于从小目标数据集划分单元随机选择小目标数据集，并将选择的小目标数据集中的数据输入教室姿态检测模型中；小目标数据集随机选择单元选取小目标数据集时，设全体小目标数据集的集合为{D_i|i＝1,2,...,N}，其中N为小目标数据集的总个数，每个小目标数据集均标记为未抽取，每次在集合中依次随机选取n个标记为未被抽取过小目标数据集，并将抽取的小目标数据集标记为已抽取，当没有小目标数据集可以抽取时再将集合中所有的小目标数据集重新标记为未抽取；小目标数据集随机选择单元每次随机抽取n个小目标数据集，n为整数且4≤n≤n_max，其中n_max为随机抽取小目标数据集的最大个数，表示为：

其中，N为小目标数据集的总个数，

为向下取整符号；

损失计算单元，用户从教室姿态检测模型中获取每个小目标数据集的损失，并计算所有小目标数据集的损失的平均值；

4.根据权利要求3所述的应用权利要求1所述的快速适应新场景的教室姿态检测模型参数训练方法的装置，其特征在于，教室姿态检测模型获取损失时，将模型的原参数θ₀依次在n个小目标数据集的训练集上进行训练时，在模型参数θ_i-1下第i个小目标数据集的训练集上抽取模型设置的超参数batch数目的标注图片送入模型，求得损失，并根据损失对模型参数进行一次梯度更新，梯度更新后得到模型参数θ_i，在模型参数θ_i下再在该小目标数据集的测试集上抽取超参数batch数目的标注图片送入模型，在模型参数θ_i下得到的预测标签和人工标注标签之间的差值即为损失值l_i，其中1≤i≤n。