CN112883755A

CN112883755A - 一种基于深度学习与行为先验的吸烟和打电话检测方法

Info

Publication number: CN112883755A
Application number: CN201911196057.2A
Authority: CN
Inventors: 徐望明; 徐天赐; 李传东; 伍世虔
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-01

Abstract

本发明公开了属于***和图像处理与分析领域的一种基于深度学习与行为先验的吸烟和打电话检测方法。该方法包括离线和在线两个过程：离线过程通过自建吸烟和打电话行为图像数据集训练一个多任务的目标检测深度卷积神经网络，在线过程则利用训练好的深度网络模型对输入图像或视频帧经人脸检测后进行前向推理，先初步预测出吸烟或打电话行为的标签、置信度和位置信息，同时也预测出与这些行为相关的特定目标即人手、香烟或手机等的标签、置信度和位置信息，再根据行为发生时的先验知识，建立这些信息之间的逻辑推理规则，进一步判定吸烟或打电话行为是否发生。

Description

一种基于深度学习与行为先验的吸烟和打电话检测方法

技术领域

本发明属于***和图像处理与分析领域，具体涉及一种基于深度学习与行为先验的吸烟和打电话检测方法。

背景技术

在加油站、特定实验室和工厂工地等场合以及司机驾驶过程中，吸烟和打电话都是被严令禁止的行为，也是安全管理中被重点监控的行为。传统的视频监控***主要依赖于人工不间断地监视监控画面中的人体行为或通过录制视频进行事后回放来识别人体行为，因人力限制、效率低下等原因难以实现全方位随时有效地监管这些严令禁止的行为。基于机器视觉技术进行智能分析检测成为趋势，与传统的人工视频监控方法相比更具有实时性和高效性。常用的方法是先从采集的视频帧或图像中提取人工设计的视觉特征再利用分类器进行行为判别，由于特征提取算法是由人工设计的，可区分性不够，在复杂的实际场景下对人体行为检测的结果并不可靠。近年来，随着深度学习技术的发展，人们开始利用深度卷积神经网络从大量图像数据中自动学习视觉特征对行为进行表征，实现了端到端的行为检测，如刘雪奇等提出了一种基于YOLO网络模型的异常行为检测方法(见《电子设计工程》期刊2018年第26卷第20期第154-158页)。相比于传统的行为检测方法，深度学习在行为检测领域展现了巨大的优势，但是深度学习模型的效果很大一部分取决于训练集，由于吸烟、打电话等人体行为在实际表现中的差异性比较大，一般训练集很难覆盖所有情况，存在样本数量不够和分布不均衡的情况，对行为训练集的标注也难有统一的标准，这就容易导致深度学习这种端到端的预测方法会出现行为漏检和误检等情况。

发明内容

本发明为了克服上述技术的不足，提供一种基于深度学习与行为先验的吸烟和打电话检测方法，其特点在于，该方法包括离线和在线两个过程，离线过程通过自建吸烟和打电话行为图像数据集训练一个多任务的目标检测深度卷积神经网络，在线过程则利用训练好的深度网络模型对输入图像或视频帧经人脸检测后进行前向推理，先初步预测出吸烟或打电话行为的标签、置信度和位置信息，同时也预测出与这些行为相关的特定目标即人手、香烟或手机等的标签、置信度和位置信息，再根据行为发生时的先验知识，建立这些信息之间的逻辑推理规则，进一步判定吸烟或打电话行为是否发生。

具体而言，本发明提供的一种基于深度学习与行为先验的吸烟和打电话检测方法，其离线过程包括以下步骤：

步骤一：采集训练视频或图像，使用人脸检测方法筛选出其中包含人脸信息的视频帧或图像作为有效训练样本；步骤二：对筛选出的有效训练样本进行标注，包括吸烟、打电话或正常行为的标签和相应边界框信息，以及与吸烟和打电话行为相关的目标即人手、香烟或手机等的标签和相应边界框信息；步骤三：对已标记的样本使用数据增强手段得到更多样本，一起组成训练样本集；步骤四：利用所有训练样本和标注信息，基于深度学习的原理训练得到一个多任务的目标检测深度卷积神经网络。

在上述技术方案中，所述步骤一中的数据采集方法是在室内外不同的地点和光照条件下对人的行为进行录像，录制不同的人正在吸烟或打电话的行为视频，也录制一些没有吸烟和打电话的视频作为正常行为样本；另外，网上下载的图像或直接对不同行为拍照的图像也可以作为训练数据；为了建立行为和人的关联性以及考虑连续视频帧之间的冗余性，数据筛选的方法是对视频文件每隔几帧采集1帧使用人脸检测算法进行处理，对图像文件则直接使用人脸检测算法进行处理，只保留那些能检测到人脸的图像作为有效训练样本。

在上述技术方案中，所述步骤二中对有效训练样本进行标注的方法是：一方面要标注行为信息，框定包含人脸的一个更大的图像区域作为行为边界框，当发生了吸烟、打电话行为时，则相应的标签分别设定为smoking、calling，否则视为正常行为，标签设定为normal；另一方面还将标注与吸烟、打电话相关的目标信息，即图像中出现人手、香烟、手机等目标时，标记其边界框，并相应地设定标签为hand、cigarette、phone。

在上述技术方案中，所述步骤三中使用的数据增强的方法包括图像缩放、水平镜像翻转、随机调整亮度和色调等，保持各行为或目标的标签信息不变同时边界框坐标信息根据相应的几何变换方法进行更新。

在上述技术方案中，所述步骤四中使用的多任务目标检测网络可基于领域内已有的网络结构如Fast/Faster R-CNN、SSD或YOLO系列等进行改造，共享主干网络结构，实现同时训练行为检测分类器和相应的目标检测分类器，行为检测分类器用于预测吸烟、打电话或正常行为的标签、置信度和位置信息，而目标检测分类器用于预测人手、香烟或手机的标签、置信度和位置信息；这里把行为检测问题也看作目标检测问题，两种任务训练时的损失函数形式相同。

本发明提供的一种基于深度学习与行为先验的吸烟和打电话检测方法，其在线过程包括以下步骤：

步骤一：对输入的监控视频或单幅图像，使用人脸检测方法筛选出其中包含人脸信息的视频帧或图像作为有效测试样本；步骤二：对有效测试样本送入离线过程训练好的多任务目标检测网络进行前向推理，同时预测出行为即吸烟、打电话或正常行为以及与该行为相关的目标即人手、香烟或手机等的标签、置信度及位置信息；步骤三：根据行为发生时的先验知识，建立这些预测信息之间的逻辑推理规则，进一步判定吸烟或打电话行为是否发生。

在上述技术方案中，所述步骤一中使用与离线过程相同的人脸检测方法，将包含人脸信息的视频帧或图像作为有效测试样本送入深度网络模型进行前向推理，并记录其中人脸的位置信息，用于步骤三中的逻辑推理；

在上述技术方案中，所述步骤二对有效测试样本，在利用训练好的深度网络模型进行前向推理时，同时预测出行为标签L，L∈{smoking，calling，normal}、置信度p₀、位置信息(x，y，h，w)即行为检测框的中心点横坐标、纵坐标以及宽度和高度，以及与行为相关的目标标签L′，L′∈{hand，cigarette，phone}、置信度p₀′、位置信息(x′，y′，w′，h′)即目标检测框的中心点横坐标、纵坐标以及宽度和高度。

在上述技术方案中，所述步骤三中用到的与吸烟和打电话行为相关的先验知识包括：(1)预测的行为框应包含人脸区域，对于可能存在的多人同时出现在图像中的情况，行为框包含哪张人脸，就说明该行为与该人相对应；(2)实际生活中吸烟或打电话行为发生时，人脸、人手、物品即香烟或手机之间的位置关系也存在一定的约束条件，当训练好的网络模型预测出的行为标签对应的置信度较低或者实际发生的行为被漏检或误检时，可以利用这种约束关系，建立基于行为先验的逻辑推理规则，进一步进行行为判定。

记Dist(face，object)、Dist(hand，object)和Dist(face，hand)分别表示人脸与物品即香烟或手机的距离、人手与物品即香烟或手机的距离以及人脸与人手的距离，距离可通过计算检测框的中心点的距离得到，将图像中发生吸烟或打电话行为的可能性与这些距离信息相关联，由于像素之间的绝对距离会随图像尺度变化而变化，这里使用检测到的正方形人脸框边长Len(face)作为参考距离，建立如下规则：

(1)当Dist(face，object)≤a·Len(face)时，吸烟或打电话行为的发生的置信度增加p₁；

(2)当Dist(hand，object)≤b·Len(face)时，吸烟或打电话行为的发生的置信度增加p₂；

(3)当Dist(face，hand)≤c·Len（(face)时，吸烟或打电话行为的发生的置信度增加p₃；

其中，确定参数a，b，c时，可先对训练样本的标注信息进行统计分析后再依据人的经验微调，确定参数p₁，p₂，p₃时，根据人的经验，按对吸烟或打电话行为发生的贡献程度p₁≥p₂＞＞p₃≥0，且使得以上3个条件同时成立时p₁+p₂+p₃＝1；

当要判断一幅图像中是否发生了某一特定行为即吸烟或打电话时，用标签L表示这一行为，用T表示这一行为发生的置信度阈值，根据目标检测网络预测出的行为和相关目标的标签、置信度和位置信息，分情况进行处理：

(1)当检测结果预测了某特定行为标签L且置信度p₀较高即p₀＞T时，直接判定行为L发生；

(2)当检测结果预测了行为标签L且置信度p₀较低即p₀≤T时，则需要通过与行为相关目标之间的距离关系对该行为L是否发生进行再次判定，判定规则为：根据相关位置信息计算距离信息，判定前述3个距离条件成立与否，得到行为L发生的置信度增加量为p₁，p₂，p₃,则将行为L的置信度修正为p₀+p₁+p₂+p₃，若该修正后的置信度高于阈值T，则判定行为L发生，否则行为L未发生；

(3)当检测结果没有预测到行为标签L时，此时p₀＝0，则也需要通过与行为相关目标之间的距离关系对该行为L是否发生进行再次判定，判定规则为：根据相关位置信息计算距离信息，判定前述3个条件成立与否，得到行为L发生的置信度增加量为p₁，p₂，p₃,则将行为L的置信度计算为p₁+p₂+p₃，若该置信度高于阈值T，则判定行为L发生，否则行为L未发生。

本发明提供的一种基于深度学习与行为先验的吸烟和打电话检测方法，具有以下有益效果：(1)离线过程的可操作性强，针对特定应用场合，可以实现现场视频或图像采集和及时模型训练，实现快速部署，易于在实际***中推广应用；(2)利用深度学习方法进行多任务目标检测模型训练，克服了传统方法中手工提取特征区分度不强的局限性，同时基于行为先验建立逻辑推理规则，对深度网络初步预测的结果进一步分析推理，有利于改善单使用基于深度网络的行为检测方法容易导致的行为漏检和误检情况，在实际的行为监控应用中有助于提升安全监控的可信度；(3)只要针对应用场合重新采集数据和训练模型，建立新的行为先验逻辑推理规则，该方法能非常方便进行改造，以推广应用于检测其他人体行为。

附图说明

图1是本发明基于深度学习与行为先验的吸烟和打电话检测方法流程图

图2是本发明基于深度学习与行为先验的吸烟和打电话检测方法的逻辑推理图

具体实施方式

下面结合附图和实施例对本发明的实施方式进行详细阐述，但该实施例不应理解为对本发明的限制。

参见图1，本发明提供的一种基于深度学习与行为先验的吸烟和打电话检测方法，包括离线和在线两个过程，离线过程通过自建吸烟和打电话行为图像数据集训练一个多任务的目标检测深度卷积神经网络，在线过程则利用训练好的深度网络模型对输入图像或视频帧经人脸检测后进行前向推理，先初步预测出吸烟或打电话行为的标签、置信度和位置信息，同时也预测出与这些行为相关的特定目标即人手、香烟或手机等的标签、置信度和位置信息，再根据行为发生时的先验知识，建立这些信息之间的逻辑推理规则，进一步判定吸烟或打电话行为是否发生。

(3)当Dist(face，hand)≤c·Len(face)时，吸烟或打电话行为的发生的置信度增加p₃；

其中，确定参数a，b，c时，可先对训练样本的标注信息进行统计分析后再依据人的经验微调，确定参数p₁，p₂，p₃时，根据人的经验，按对吸烟或打电话行为发生的贡献程度p₁≥p₂＞＞p₃≥0，且使得以上3个条件同时成立时p₁+p₂+p₃＝1，比如可取p₁＝0.5，p₂＝0.4，p₃＝0.1。

如图2所示，当要判断一幅图像中是否发生了某一特定行为即吸烟或打电话时，用标签L表示这一行为，用T表示这一行为发生的置信度阈值，根据目标检测网络预测出的行为和相关目标的标签、置信度和位置信息，分情况进行处理：

(2)当检测结果预测了行为标签L且置信度p₀较低即p₀≤T时，则需要通过与行为相关目标之间的距离关系对该行为L是否发生进行再次判定，判定规则(即图2中规则2)为：根据相关位置信息计算距离信息，判定前述3个距离条件成立与否，得到行为L发生的置信度增加量为p₁，p₂，p₃,则将行为L的置信度修正为p₀+p₁+p₂+p₃，若该修正后的置信度高于阈值T，则判定行为L发生，否则行为L未发生；

(3)当检测结果没有预测到行为标签L时，此时p₀＝0，则也需要通过与行为相关目标之间的距离关系对该行为L是否发生进行再次判定，判定规则(即图2中规则1)为：根据相关位置信息计算距离信息，判定前述3个条件成立与否，得到行为L发生的置信度增加量为p₁，p₂，p₃,则将行为L的置信度计算为p₁+p₂+p₃，若该置信度高于阈值T，则判定行为L发生，否则行为L未发生。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于深度学习与行为先验的吸烟和打电话检测方法，其特征在于，该方法分为离线和在线两个过程，离线过程通过自建吸烟和打电话行为图像数据集训练一个多任务的目标检测深度卷积神经网络，在线过程则利用训练好的深度网络模型对输入图像或视频帧经人脸检测后进行前向推理，先初步预测出吸烟或打电话行为的标签、置信度和位置信息，同时也预测出与这些行为相关的特定目标即人手、香烟或手机等的标签、置信度和位置信息，再根据行为发生时的先验知识，建立这些信息之间的逻辑推理规则，进一步判定吸烟或打电话行为是否发生。

2.根据权利要求1所述的一种基于深度学习与行为先验的吸烟和打电话检测方法，其特征在于，所述离线过程包括以下步骤：步骤一，采集训练视频或图像，使用人脸检测方法筛选出其中包含人脸信息的视频帧或图像作为有效训练样本；步骤二，对筛选出的有效训练样本进行标注，包括吸烟、打电话或正常行为的标签和相应边界框信息，以及与吸烟和打电话行为相关的目标即人手、香烟或手机等的标签和相应边界框信息；步骤三，对已标记的样本使用数据增强手段得到更多样本，一起组成训练样本集；步骤四，利用所有训练样本和标注信息，基于深度学习的原理训练得到一个多任务的目标检测深度卷积神经网络。

3.根据权利要求1所述的一种基于深度学习与行为先验的吸烟和打电话检测方法，其特征在于，在权力要求2所述的离线过程中，步骤一的数据采集方法是在室内外不同的地点和光照条件下对人的行为进行录像，录制不同的人正在吸烟或打电话的行为视频，也录制一些没有吸烟和打电话的视频作为正常行为样本；另外，网上下载的图像或直接对不同行为拍照的图像也可以作为训练数据；为了建立行为和人的关联性以及考虑连续视频帧之间的冗余性，数据筛选的方法是对视频文件每隔几帧采集1帧使用人脸检测算法进行处理，对图像文件则直接使用人脸检测算法进行处理，只保留那些能检测到人脸的图像作为有效训练样本；

所述离线过程中，步骤二中对有效训练样本进行标注的方法是：一方面要标注行为信息，框定包含人脸的一个更大的图像区域作为行为边界框，当发生了吸烟、打电话行为时，则相应的标签分别设定为smoking、calling，否则视为正常行为，标签设定为normal；另一方面还将标注与吸烟、打电话相关的目标信息，即图像中出现人手、香烟、手机等目标时，标记其边界框，并相应地设定标签为hand、cigarette、phone；

所述离线过程中，步骤三中使用的数据增强的方法包括图像缩放、水平镜像翻转、随机调整亮度和色调等，保持各行为或目标的标签信息不变同时边界框坐标信息根据相应的几何变换方法进行更新；

所述离线过程中，步骤四中使用的多任务目标检测网络可基于领域内已有的网络结构如Fast/Faster R-CNN、SSD或YOLO系列等进行改造，共享主干网络结构，实现同时训练行为检测分类器和相应的目标检测分类器，行为检测分类器用于预测吸烟、打电话或正常行为的标签、置信度和位置信息，而目标检测分类器用于预测人手、香烟或手机的标签、置信度和位置信息；这里把行为检测问题也看作目标检测问题，两种任务训练时的损失函数形式相同。

4.根据权利要求1所述的一种基于深度学习与行为先验的吸烟和打电话检测方法，其特征在于，在线过程包括以下步骤：步骤一：对输入的监控视频或单幅图像，使用人脸检测方法筛选出其中包含人脸信息的视频帧或图像作为有效测试样本；步骤二：对有效测试样本送入离线过程训练好的多任务目标检测网络进行前向推理，同时预测出行为即吸烟、打电话或正常行为以及与该行为相关的目标即人手、香烟或手机等的标签、置信度及位置信息；步骤三：根据行为发生时的先验知识，建立这些预测信息之间的逻辑推理规则，进一步判定吸烟或打电话行为是否发生。

5.根据权利要求1所述的一种基于深度学习与行为先验的吸烟和打电话检测方法，其特征在于，在权力要求4所述的在线过程中，步骤一使用与离线过程相同的人脸检测方法，将包含人脸信息的视频帧或图像作为有效测试样本送入深度网络模型进行前向推理，并记录其中人脸的位置信息，用于步骤三中的逻辑推理；

所述在线过程中，步骤二对有效测试样本，在利用训练好的深度网络模型进行前向推理时，同时预测出行为标签L，L∈{smoking，calling，normal}、置信度p₀、位置信息(x，y，h，w)即行为检测框的中心点横坐标、纵坐标以及宽度和高度，以及与行为相关的目标标签L′，L′∈{hand，cigarette，phone}、置信度p₀′、位置信息(x′，y′，w′，h′)即目标检测框的中心点横坐标、纵坐标以及宽度和高度；

所述在线过程中，步骤三中用到的与吸烟和打电话行为相关的先验知识包括：(1)预测的行为框应包含人脸区域，对于可能存在的多人同时出现在图像中的情况，行为框包含哪张人脸，就说明该行为与该人相对应；(2)实际生活中吸烟或打电话行为发生时，人脸、人手、物品即香烟或手机之间的位置关系也存在一定的约束条件，当训练好的网络模型预测出的行为标签对应的置信度较低或者实际发生的行为被漏检或误检时，可以利用这种约束关系，建立基于行为先验的逻辑推理规则，进一步进行行为判定；

记Dist(face，object)、Dist(hand，object)和Dist(face，hand)分别表示人脸与物品即香烟或手机的距离、人手与物品即香烟或手机的距离以及人脸与人手的距离，距离可通过计算检测框的中心点的距离得到，将图像中发生吸烟或打电话行为的可能性与这些距离信息相关联，由于像素之间的绝对距离会随图像尺度变化而变化，这里使用检测到的正方形人脸框边长Len（face)作为参考距离，建立如下规则：