CN109284733A

CN109284733A - 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法

Info

Publication number: CN109284733A
Application number: CN201811197781.2A
Authority: CN
Inventors: 赵云波; 林建武; 李灏; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-01-29
Anticipated expiration: 2038-10-15
Also published as: CN109284733B

Abstract

基于yolo和多任务卷积神经网络的导购消极行为监控方法，首先训练一个基于yolo的行人检测模型，用ImageNet和voc2007数据集预训练模型，再用监控场景图像微调模型；然后构建一个基于ResNet50的多任务卷积神经网络，用手工标注过的多标签图像数据训练该网络；接着用rtsp协议读取商场监控画面，用行人检测模型检测画面中的行人，而后将行人图像输入到多任务卷积神经网络，识别行人是否为导购，是否闲坐，是否在玩手机，以此判断导购是否存在消极行为，并将“严重消极”和“一般消极”的导购画面保存在本地。最终实现用基于yolo的行人检测网络和多任务卷积神经网络对导购消极行为进行有效的监控和记录。

Description

一种基于yolo和多任务卷积神经网络的导购消极行为监控方法

技术领域

本发明涉及在新零售领域的导购消极行为监控方法。

背景技术

随着人工成本的提高，在商场里，招聘更多的导购意味着成本的提升。然而有部分导购存在着消极工作的行为，比如“玩手机”、“附近有顾客时坐着”等消极行为，造成人力资源的浪费。为避免不必要的支出，商场对导购进行有效的考勤管理显得尤为重要。

普通的考勤***只能记录导购的上下班时间，不能自动分析导购在上班时间是否存在消极工作的情况，也不能记录下导购消极工作时的画面。针对这一需求，本发明利用计算机视觉技术对商场内普遍存在的监控所采集的图像进行图像识别、分析。

针对行人检测，已有的方法中，有利用方向梯度直方图作为行人检测的描述子，再用SVM进行分类，这种方法精度不是很高，容易误检。近年来深度卷积神经网络应用在行人检测方面，对行人检测的精度有很大提升，然而由于迁移学习中跨数据集的拟合问题，这种方法在监控视角下缺乏鲁棒性。

针对属性识别，卷积神经网络在属性分类的精度上取得传统方法不能比拟的效果。近年来，VGG、ResNet、DenseNet等CNN模型框架已经得到广泛的应用。然而一个原始的ResNet只能对一个属性进行分类，多个属性则需要训练多个模型，这极大地增加了计算的负担。

由此可见，对于识别、记录导购消极行为的监控***，目前还没有完善的解决方案。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于yolo和多任务卷积神经网络的导购消极行为监控方法。

为实现上述发明目的，本发明设计一种基于yolo和多任务卷积神经网络的导购消极行为监控***。首先训练一个基于yolo的行人检测模型以及基于ResNe50的多任务卷积神经网络；进一步的，对于监控定时采样的图像，用基于yolo的检测模型检测行人；更进一步的，用一个基于ResNet50的多任务卷积神经网络去识别商场内导购的多种属性和行为，判断是否存在消极行为，并以图片的形式记录下导购做出消极行为的画面。在一定程度上解决了导购消极行为检测以及对上班情况进行自动考勤的问题。可应用在新零售场景中考勤***、导购管理、店铺运营等方面。

本发明解决其技术问题所采用的技术方案是：

一种基于yolo和多任务卷积神经网络的导购消极行为监控方法，含有以下步骤：

步骤1.训练基于yolo的行人检测模型：构建基于yolo的行人检测模型，用ImageNet数据集预训练分类模型，用voc2007数据集预训练检测模型，用监控视角数据集微调模型：

步骤2.训练基于ResNet50的多任务卷积神经网络：构建基于ResNet50的多任务卷积神经网络，训练基于ResNet50的多任务卷积神经网络；

步骤3.导购消极行为记录：读取监控画面，商场内行人检测，识别行人属性，记录导购消极行为画面；

与现有技术相比，本发明技术方案的优点有：

(1)本发明训练的行人检测模型能在商场监控视角下进行鲁棒的行人检测；

(2)本发明训练的多任务卷积神经网络能同时识别行人多个属性，并保持高精度和鲁棒性；

(3)本发明将考勤***扩展到记录工作过程中的消极行为，而不仅仅是记录上下班的迟到早退，使考勤***更为完善。

附图说明

图1是本发明的yolo预训练分类模型示意图；

图2是本发明的基于yolo的行人检测模型示意图；

图3是本发明的基于ResNet50的多任务卷积神经网络示意图；

图4是本发明方法的流程图；

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图和实施例对本发明作进一步的详细描述。

实施例1：

一种基于yolo和多任务卷积神经网络的导购消极行为监控***，含有以下步骤：

(1)训练基于yolo的行人检测模型；

步骤11：构建基于yolo的行人检测模型；

本发明借鉴yolo第二代的训练方式和网络结构，在此基础上，对其网络结构进行了改进，使模型在本发明的监控视角中更为鲁棒。具体地，原yolo-v2的网络结构中包含19个卷积层和5个最大池化层，本发明中使用跳层融合的方式，特征提取的阶段一使用13个卷积层和4个最大池化层，阶段二使用7个卷积层，在阶段一和阶段二中间有1个最大池化层，调整阶段一的输出的特征图大小与阶段二输出的特征图大小一致。然后将这两个调整过大小的特征图通过叠加的方式融合在一起，成为阶段三的输入。阶段三有两种模式，模式一是分类网络，该模式在预训练模型的时候用到，具体而言就是一层3×3的卷积层，再加一层全连接层，全连接层神经元个数等于分类个数；模式二是检测网络，该模式是在加载模式一的预训练参数之后，训练检测网络时用的，具体而言就是一层3×3的卷积层，再加一层1×1的卷积层，卷积核的个数与检测类别相关，具体数值为：anchors个数×(5+检测类别个数)。

针对模式一的分类网络，如图1所示，以下进行详细描述：

阶段一：输入图像大小为448×448×3，阶段一的第一层是一个卷积核大小为3×3×32的卷积层，对该层进行批次归一化、ReLu非线性激活、2×2的最大池化操作；阶段一的第二层是一个卷积核大小为3×3×64的卷积层，对该层进行批次归一化、ReLu非线性激活、2×2的最大池化操作；阶段一的第三层是一个卷积核大小为3×3×128的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第四层是一个卷积核大小为1×1×64的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第五层是一个卷积核大小为3×3×128的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第六层是一个卷积核大小为3×3×256的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第七层是一个卷积核大小为1×1×128的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第八层是一个卷积核大小为3×3×256的卷积层，对该层进行批次归一化、ReLu非线性激活、2×2的最大池化操作操作；阶段一的第九层是一个卷积核大小为3×3×512的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第十层是一个卷积核大小为1×1×256的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第十一层是一个卷积核大小为3×3×512的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第十二层是一个卷积核大小为1×1×256的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的第十三层是一个卷积核大小为3×3×512的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段一的输出特征图记为output1。

阶段二：先对阶段一输出的特征图进行2×2的最大池化操作，阶段二的第一层是一个卷积核大小为3×3×1024的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的第二层是一个卷积核大小为1×1×512的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的第三层是一个卷积核大小为3×3×1024的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的第四层是一个卷积核大小为1×1×512的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的第五层是一个卷积核大小为3×3×1024的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的第六层是一个卷积核大小为3×3×1024的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的第七层是一个卷积核大小为3×3×1024的卷积层，对该层进行批次归一化、ReLu非线性激活操作；阶段二的输出特征图记为output2；

阶段三：对阶段一的输出特征图output1进行1×1×64的卷积，而后把它的尺寸调整为跟阶段二输出特征图output2一样的尺寸，调整后的特征图记为output1_1。将特征图output1_1与output2叠加，形成新的特征图output3。之后，对于融合的特征图output3进行3×3×1024的卷积、批次归一化、ReLu非线性激活操作，最后，添加一层1000个神经元的全连接层，用softmax损失函数进行约束。

这种跳层操作的好处在于output3既有深层卷积后得到的output2的精细特征，又有浅层卷积后得到的output1_1的基础特征，使得网络精度更高。

针对模式二的检测网络，如图2所示，除最后两层之外，其余结构都与上述的分类模型相同；区别在于：检测网络中对阶段三中的融合特征output3进行3×3×1024的卷积、批次归一化、ReLu非线性激活操作，而后去掉全连接层，替换为1×1×30的卷积层最后用坐标损失、置信度损失、类别损失去约束模型。

步骤12：用ImageNet数据集预训练分类模型；

良好的初始化参数是模型收敛的重要一环，而检测数据集由于标注步骤繁琐，导致其每种类别的数据量不多。因此，我们用ImageNet数据集去训练一个分类模型，使训练好的分类模型参数作为检测模型中共有结构的初始化参数。

首先对标准的1000分类的ImageNet数据集的图片进行随机裁剪、旋转和色调、饱和度、曝光度的偏移，以获得更多可用的训练数据，把这些数据调整为大小224×224的图像，训练160个epoch，使用SGD优化器，初始学习率设置为0.1，momentum设置为0.9，weightdecay设置为0.0005。

进一步的，用更大的尺寸(448×448)对网络进行微调，用0.001的学习率训练10个epoch即可。

步骤13：用voc2007数据集预训练检测模型；

由于检测模型的前几层结构与分类网络一致，我们将步骤12中训练好的分类网络的参数作为检测网络中共有结构的初始化参数。Voc2007数据集是常用的检测数据集，共有20类的标注好的检测物体，其中包括行人图像数据。我们只取其中的行人图像数据进行训练，对行人数据进行数据增强的操作，调整图像大小为448×448，用SGD优化器训练160个epoch，初始学习率设置为0.0001；

步骤14：用监控视角数据集微调模型；

由于voc2007中的行人数据大部分都不是监控视角下的行人图像，因此将步骤13训练好的模型去检测商场监控画面中的行人，会有一些困难。因此我们选取BOT2018新零售技术挑战赛中的数据集进行微调，该数据集的行人图像采集自真实商场场景下的监控摄像头。对该数据集的图像进行水平旋转、中心随机裁剪、HSV空间微调等数据增强的操作，并将尺寸大小调整为448×448；

加载步骤13训练好的模型，用SGD优化器训练160个epoch，初始学习率设置为0.001，学习率随着训练次数的增多而减小，0-5个epoch时学习率设置为0.001，5-80个epoch时学习率设置为0.0001，80-160个epoch时学习率设置为0.00001。

(2)训练基于ResNet50的多任务卷积神经网络

步骤21：构建基于ResNet50的多任务卷积神经网络；

对(1)中检测到的行人，我们需要去识别行人的属性，以此判断导购是否存在消极工作的行为，数据集中标注的属性有：“顾客”或“导购”、“男性”或“女性”、“站立”或“坐着”、“玩手机”或“不玩手机”。这些属性彼此之间无关联性，因此可视为不相关属性。

ResNet50是一个在分类性能表现优异的网络结构，然而一个原始的ResNet50直接去识别多个不相关属性的时候效果往往不佳，而针对每个属性都训练一个模型会导致占用额外的计算资源。因此，本发明针对导购消极行为的识别，基于ResNet50设计了一种多任务卷积神经网络，结构如图3所示。

具体地，将原始ResNet50最后两层(全连接层和池化层)去掉，拼接上四个并行的全连接层，每个全连接层的神经元个数为2，分别代表着8种属性：“顾客”与“导购”、“男性”与“女性”、“站立”与“坐着”、“玩手机”与“不玩手机”，在同一个全连接层上的两个属性是关联属性，不在一个全连接层上的属性是不相关属性。每个全连接后分别连一个Softmax层。Softmax损失函数的计算公式为：

最终的损失函数值为四个Softmax损失函数值相加，即：

Loss＝L₁+L₂+L₃+L₄ (2)

步骤22：训练基于ResNet50的多任务卷积神经网络；

在卷积神经网络中，良好的初始参数对网络模型的收敛有重要作用，因此我们加载在ImageNet数据集上训练好的ResNet50中除最后两层外的参数作为本发明中多任务卷积神经网络的初始化参数。数据集采用BOT2018新零售技术挑战赛的标注数据，对该数据进行数据增强的操作，如图像水平翻转、中心随机裁剪、HSV空间增强等，以获得更多的可用的训练数据，最后用Adam优化算法进行训练，初始学习率设置为0.0005，训练40个epoch。

(3)导购消极行为记录

步骤31：读取监控画面；

在商场内，广泛分布的监控***为本发明提供数据，无需增加额外的设备。在读取监控画面前，我们需要设置两个参数：上班时间区间、监控采样时间。设置上班时间区间，可让本***只关注于上班时间，减少额外的计算资源和误检，本发明的目的是为了检测导购在上班时间是否存在消极行为，因此下班时间导购的行为不在我们的考虑范围内；设置监控采样时间，是控制读取监控画面的频率，可减少额外的计算资源，没有必要每时每刻都去检测，采样时间设置的越小，识别次数越多，管理越严格，但计算负担比较大，采样时间设置的越大，识别次数越少，计算负担比较小，但管理比较松。本发明默认的监控采样时间是早上9点到晚上9点，采样时间是30秒采样1次。

具体地，我们通过rtsp协议读取监控画面，通过计算机的***时间与采样时间控制读取画面的频率。

步骤32：商场内行人检测；

加载步骤(1)中训练好的行人检测模型，读取步骤31中的监控图像，将图像进行归一化，并转为Tensor，之后将Tensor加载进行人检测模型中，行人检测模型会检测出行人在图像中上下左右四个坐标，可在一张图像上检测出多个人；

步骤33：识别行人属性；

步骤32中检测出的行人，有可能是导购，也可能是顾客，我们要识别导购是否存在消极行为，本发明设计的多任务卷积神经网络可实现该功能。加载步骤(2)中的多任务卷积神经网络，将步骤32中检测出的行人图像数据作为多任务卷积神经网络的输入数据，输出全连接层的值即为模型对该行人在某个属性上的置信度。若输出“导购”的置信度比“顾客”的置信度高，即识别该行人为“导购”，若输出“男性”的置信度比“女性”的置信度高，即识别该行人为“男性”，若输出“站立”的置信度比“坐”的置信度高，即识别该行人为“站立”，若输出“玩手机”的置信度比“不玩手机”的置信度高，即识别该行人为“玩手机”。反之亦然。

步骤34：记录导购消极行为画面；

***框图如图4所示。

具体地，在上班时间区间内，我们对步骤33中识别的行人属性进行导购消极行为的判断。首先，判断该行人的身份，是否属于“导购”，如果是导购，我们分析其姿势(站着或坐着)和工作状态(是否玩手机)，更进一步的，我们判断该导购所在的画面中，是否存在顾客，顾客在场的情况下，我们对导购有更严格的要求。比如，当导购在玩手机或者坐着，并且此时画面中没有顾客，我们认为该导购是“一般消极”；当导购在玩手机或者坐着，而此时画面中有顾客，我们认为该导购是“严重消极”。具体导购消极行为的程度判定如表1所示，对于“严重消极”的导购，我们将其画面保存在文件夹1，对于“一般消极”的导购，我们将其画面保存在文件夹2，对于“积极”的导购，我们不保存其画面。店主可根据文件1和文件夹2的图像画面，对消极的导购做出相应的处罚。

表1导购消极行为判定表

实施例2：

(1)选取实验数据

本发明使用BOT2018新零售技术挑战赛的数据集，数据采集自真实的商场场景，图像数据中的标签有：“顾客”与“导购”、“男性”与“女性”、“站立”与“坐”、“玩手机”与“不玩手机”。分为5个场景，共5000张图像，每张图像中包含数量不等的导购和顾客，本发明将这5000张图像按9:1的比例分为训练集和测试集，平均抽取。训练集中场景1有1980张，场景2有937张，场景3中有915张，场景4中有356张，场景5中有312张，共4500张；测试集中场景1有220张，场景2有105张，场景3中有101张，场景4中有40张，场景5中有34张。

(2)实验结果

按照实施例1中的步骤(2)训练基于ResNet50的多任务卷积神经网络，构造完模型之后，加载在ImageNet上训练过的ResNet50的参数，用Adam优化器在BOT商场数据集上训练40个epoch，初始学习率为0.0005，最终在测试集上的精度如表2所示：

表2实验结果

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于yolo和多任务卷积神经网络的导购消极行为监控方法，含有以下步骤：

(1)训练基于yolo的行人检测模型；

步骤11：构建基于yolo的行人检测模型；

使用跳层融合的方式，特征提取阶段一使用13个卷积层和4个最大池化层，阶段二使用7个卷积层，在阶段一和阶段二中间有1个最大池化层，调整阶段一的输出的特征图大小与阶段二输出的特征图大小一致；然后将这两个调整过大小的特征图通过叠加的方式融合在一起，成为阶段三的输入；阶段三有两种模式，模式一是分类网络，该模式在预训练模型的时候用到，具体而言就是一层3×3的卷积层，再加一层全连接层，全连接层神经元个数等于分类个数；模式二是检测网络，该模式是在加载模式一的预训练参数之后，训练检测网络时用的，具体而言就是一层3×3的卷积层，再加一层1×1的卷积层，卷积核的个数与检测类别相关，具体数值为：anchors个数×(5+检测类别个数)；

步骤12：用ImageNet数据集预训练分类模型；

良好的初始化参数是模型收敛的重要一环，而检测数据集由于标注步骤繁琐，导致其每种类别的数据量不多；因此用ImageNet数据集去训练一个分类模型，使训练好的分类模型参数作为检测模型中共有结构的初始化参数；

步骤13：用voc2007数据集预训练检测模型；

由于检测模型的前几层结构与分类网络一致，将步骤12中训练好的分类网络的参数作为检测网络中共有结构的初始化参数；voc2007数据集是常用的检测数据集，共有20类的标注好的检测物体，其中包括行人图像数据；只取其中的行人图像数据进行训练，对行人数据进行数据增强的操作，调整图像大小为448×448，用SGD优化器训练160个epoch，初始学习率设置为0.0001；

步骤14：用监控视角数据集微调模型；

由于voc2007中的行人数据大部分都不是监控视角下的行人图像，因此将步骤13训练好的模型去检测商场监控画面中的行人，会有一些困难；因此选取BOT2018新零售技术挑战赛中的数据集进行微调，该数据集的行人图像采集自真实商场场景下的监控摄像头；对该数据集的图像进行水平旋转、中心随机裁剪、HSV空间微调等数据增强的操作，并将尺寸大小调整为448×448；

加载步骤13训练好的模型，用SGD优化器训练160个epoch，初始学习率设置为0.001，学习率随着训练次数的增多而减小，0-5个epoch时学习率设置为0.001，5-80个epoch时学习率设置为0.0001，80-160个epoch时学习率设置为0.00001；

(2)训练基于ResNet50的多任务卷积神经网络；

步骤21：构建基于ResNet50的多任务卷积神经网络；

对步骤(1)中检测到的行人，需要去识别行人的属性，以此判断导购是否存在消极工作的行为，数据集中标注的属性有：“顾客”或“导购”、“男性”或“女性”、“站立”或“坐着”、“玩手机”或“不玩手机”；这些属性彼此之间无关联性，视为不相关属性；

ResNet50是一个在分类性能表现优异的网络结构，然而一个原始的ResNet50直接去识别多个不相关属性的时候效果往往不佳，而针对每个属性都训练一个模型会导致占用额外的计算资源；因此，针对导购消极行为的识别，基于ResNet50设计了一种多任务卷积神经网络；

具体地，将原始ResNet50最后两层的全连接层和池化层去掉，拼接上四个并行的全连接层，每个全连接层的神经元个数为2，分别代表着8种属性：“顾客”与“导购”、“男性”与“女性”、“站立”与“坐着”、“玩手机”与“不玩手机”，在同一个全连接层上的两个属性是关联属性，不在一个全连接层上的属性是不相关属性；每个全连接后分别连一个softmax层；Softmax损失函数的计算公式为：

最终的损失函数值为四个Softmax损失函数值相加，即：

Loss＝L₁+L₂+L₃+L₄ (2)

步骤22：训练基于ResNet50的多任务卷积神经网络；

在卷积神经网络中，良好的初始参数对网络模型的收敛有重要作用，因此我们加载在ImageNet数据集上训练好的ResNet50中除最后两层外的参数作为本发明中多任务卷积神经网络的初始化参数；数据集采用BOT2018新零售技术挑战赛的标注数据，对该数据进行数据增强的操作，以获得更多的可用的训练数据，最后用Adam优化器进行训练，初始学习率设置为0.0005，训练40个epoch；

(3)导购消极行为记录；

步骤31：读取监控画面；

在商场内，广泛分布的监控***提供数据；在读取监控画面前，需要设置两个参数：上班时间区间、监控采样时间；设置上班时间区间，让本***只关注于上班时间；设置监控采样时间，是控制读取监控画面的频率；

通过rtsp协议读取监控画面，通过计算机的***时间控制读取画面；

步骤32：商场内行人检测；

步骤33：识别行人属性；

加载步骤(2)中的多任务卷积神经网络，将步骤32中检测出的行人图像数据作为多任务卷积神经网络的输入数据，输出全连接层的值即为模型对该行人在某个属性上的置信度；若输出“导购”的置信度比“顾客”的置信度高，即识别该行人为“导购”，若输出“男性”的置信度比“女性”的置信度高，即识别该行人为“男性”，若输出“站立”的置信度比“坐”的置信度高，即识别该行人为“站立”，若输出“玩手机”的置信度比“不玩手机”的置信度高，即识别该行人为“玩手机”；反之亦然；

步骤34：记录导购消极行为画面；

在上班时间区间内，对步骤33中识别的行人属性进行导购消极行为的判断；首先，判断该行人的身份，是否属于“导购”，如果是导购，分析其姿势和工作状态，更进一步的，判断该导购所在的画面中，是否存在顾客，顾客在场的情况下，对导购有更严格的要求；当导购在玩手机或者坐着，并且此时画面中没有顾客，认为该导购是“一般消极”；当导购在玩手机或者坐着，而此时画面中有顾客，认为该导购是“严重消极”；具体导购消极行为的程度判定如表1所示，对于“严重消极”的导购，将其画面保存在文件夹1，对于“一般消极”的导购，将其画面保存在文件夹2，对于“积极”的导购，不保存其画面。

表1 导购消极行为判定表