CN112381068B

CN112381068B - 一种检测人“玩手机”的方法及***

Info

Publication number: CN112381068B
Application number: CN202011563792.5A
Authority: CN
Inventors: 游忍; 邵延华; 刘明华
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-05-31
Anticipated expiration: 2040-12-25
Also published as: CN112381068A

Abstract

本发明公开了一种检测人“玩手机”的方法，包括：获取当前环境中的视频信号，得到待检测视频和训练样本；检测所述视频中所有的人和手机;如果检测到所述视频中没有人或手机出现，则判断为没有人玩手机；如果检测到所述视频中有人和手机出现，用特征提取模型提取每个人和每个手机的特征；将所述每个人和手机的特征输入到特征关系判断模型，计算每个人和手机之间的关系特征；将每个人和每个手机的特征、以及它们之间的关系特征输入到判断模型，判断当前时刻中每个人是否在玩手机；对判定结果进行处理。本发明的方法结合人体关节点坐标，手机的尺寸坐标，手机与人体的动作意图关系、空间关系以及深度学习方法，并结合时序模型，最终判断环境中的人是否在玩手机，大大提高了检测精度。

Description

一种检测人“玩手机”的方法及***

技术领域

本发明涉及计算机视频领域，特别涉及一种检测人“玩手机”的方法及***。

技术背景

随着信息技术的快速发展，手机的使用越来越普遍，人对于手机的依赖程度越来越严重。在实际场景中，由于玩手机造成的事故屡见不鲜。比如驾驶员在开车时因为玩手机而手离开方向盘，导致发生车祸。行人在过马路时因为玩手机与车辆相撞。一些特殊行业如铁路部门，需要对员工采用军事化的管理方式，对员工的一些违规行为要做到实时预警，其中就包括通过摄像头检测员工是否玩手机。例如在学校，需要监控课堂纪律，检测学生是否有玩手机的行为。在现有的文献和专利中，关于人“玩手机”专利较少。主要基于计算机视觉的主流方法主要是针对手机和手的区域作判断，或者自定义一些规则来判断是否“玩手机”。如公开号为CN 110674728 A的专利，基于视频图像识别玩手机方法、装置、服务器及存储介质。利用玩手机过程中，人体手部与手机之间所存在的变化关系，通过检测设定周期内人体手部变化情况与手机色彩变化情况，以实现玩手机行为的检测。该方法只是简单应用人体手部变化情况和手机色彩变化，在实际应用的复杂场景中鲁棒性不高。公开号为CN111191576 A的发明，人员行为目标检测模型构建方法、智能分析方法及***。对于玩手机行为，该发明主要截取手机的区域，然后判断手机屏幕的亮度以及来判断帧数统计来判断是否玩手机。该方法是通过自定义的规则来判断，不具体类似人的智能判断。上述方法鲁棒性不强，适应场景有限难以满足多样的现实需求。随着深度学习等技术的发展，利用人体姿态估计算法，目标检测算法，视线估计和时序模型等方法，可以更精确地判断出人是否在“玩手机”。

目前，现有技术的关于检测人“玩手机”的方法存在相关算法稀少并且检测精度不高的问题。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种检测人“玩手机”的方法、***，可用于解决现有技术中检测精度不高的技术问题。

为了达到上述的技术效果，本发明采取以下技术方案：

一种检测人“玩手机”的方法，所述方法包括以下步骤：

步骤S1. 获取当前环境中的视频信号，得到待检测视频和训练样本；

步骤S2. 检测所述视频中所有的人和手机；

步骤S3. 如果检测到所述视频中没有人或手机出现，则判断为没有人玩手机；

步骤S4. 如果检测到所述视频中有人和手机出现，用特征提取模型提取每个人和每个手机的特征；

步骤S5. 将所述每个人和手机的特征输入到特征关系判断模型，计算每个人和手机之间的关系特征；

步骤S6. 将每个人和每个手机的特征、以及它们之间的关系特征输入到判断模型，判断当前时刻中每个人是否在玩手机；

步骤S7. 对检测结果进行处理。

进一步地，步骤S2至少包括，利用计算机视觉算法检测出当前帧图片中的所有人和手机。

进一步地，步骤S4所述每个人和每个手机的特征至少包括：

a. 每个人体的二维人体关节点坐标、三维人体关节点坐标；

b. 每个手机的二维尺寸坐标、三维尺寸坐标；

c. 每个人和手机的视觉特征。

进一步地，所述视觉特征包括但不限于基于传统机器学习算法或者深度学习提取得到的特征。

进一步地，进入步骤S4之前还包括以下操作：

a. 构建一个人体关键点模型和一个3D目标检测模型；

b. 用训练样本训练人体关键点模型和3D目标检测模型，得到所述的特征提取模型。

进一步地，所述人体关键点模型为openpose模型，用于计算每个人体的二维、三维关节点坐标；所述3D目标检测模型为centerNet模型，用于计算每个手机的二维尺寸坐标、三维尺寸坐标。

进一步地，步骤S5所述每个人和每个手机的关系特征至少包括：

动作意图关系：包括人拿手机，未拿手机，人看手机，人未看手机；

空间关系：包括前、后、左、右、上、下；

将动作意图关系和空间关系组合得到关系特征。

进一步地，进入步骤S5之前还包括以下操作：

构建一个深度学习模型；

用特征提取模型从训练样本中提取每个人和每个手机的特征,用所述特征训练上述深度学习模型，得到最终的特征关系判断模型；

进一步地，所述深度学习模型为具体为视线(注意力)估计模型。

进一步地，步骤S6所述将每个人和每个手机的特征、以及它们之间的关系特征输入到判断模型，判断当前时刻中每个人是否在玩手机，包括：

对于当前时刻视频，获取当前时刻之前的一段时间内以及当前时刻的视频中，每个人和每个手机的特征、以及它们之间的关系特征；

将上述所有特征输入到判断模型，判断当前时刻中每个人是否在玩手机。

进一步地，进入步骤S6之前还包括以下操作：

a. 构建一个时序序列模型；

b. 用特征提取模型和特征关系判断模型从训练样本中提取每个人和每个手机的特征、以及它们之间的关系特征，用于训练上述时序序列模型，得到最终的判断模型。

进一步地，所述时序序列模型为LSTM模型。

进一步的，步骤7对结果进行处理，具体包括，根据不同的应用场景，保存检测结果，保存判定有人在“玩手机”的图片或视频证据，发出警报等。

同时，本发明还公开了一种检测人“玩手机”的***，包括：

视频信号采集模块，用于获取当前环境中的视频信号，得到待检测视频和训练样本；

人和手机检测模块，用于检测所述视频中所有的人和手机；

特征提取模块，用于训练特征提取模型和特征关系判断模型，如果检测到视频中有人和手机出现，用特征提取模型提取每个人和每个手机的特征，再用特征关系判断模型得到每个人和每个手机的关系特征；

判断模块，用于训练一个时序序列模型，对于当前时刻视频，利用当前时刻之前的一段时间内以及当前时刻的每一帧视频中每个人和每个手机的特征以及关系特征，判断当前时刻中每个人是否在玩手机；

特征存储模块，用于存储算法运行过程中得到的人和手机的特征以及关系特征；

状态输出模块, 用于输出每个人的状态：“玩手机”或者“未玩手机”。

进一步的，一种检测人“玩手机”的***，包括：还包括警报模块，如果有人在玩手机，***发出警报。

本发明与现有技术相比，具有以下的有益效果：结合人体关节点坐标，手机的尺寸坐标，手机与人体的动作意图关系、空间关系以及深度学习方法，并结合时序模型，最终判断环境中的人是否在玩手机，大大提高了检测精度。

附图说明

图1为本发明实施例一所提供的一种检测人“玩手机”的方法流程示意图。

图2为本发明实施例一所提供的特征提取模型训练流程图。

图3为本发明实施例一所提供的特征关系判断模型训练流程图。

图4为本发明实施例一所提供的判断模型训练流程图。

图5所示为本发明实施例二提供的一种检测人“玩手机”的***结构示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例一

如图1所示，一种检测人“玩手机”的方法，具体包括以下步骤：

步骤S1，获取当前环境中的视频信号，得到待检测视频和训练样本。

具体的，训练模型时，通过摄像头采集大量视频。标记人的二维、三维关节点坐标；标记手机的二维、三维尺寸坐标；标记人和手机的动作意图关系：包括人拿手机，未拿手机，人看手机，人未看手机；标记人和手机的空间关系：包括前、后、左、右、上、下；标记每个人是否“玩手机”，标记完成后得到训练样本。在实际部署应用时，通过摄像头采集应用场景中的视频，得到待检测视频。

步骤S2，检测所述视频中所有的人和手机。

具体的，用Faster-RCNN算法检测出待检测视频中所有的人和手机。

步骤S3，如果检测到所述视频中没有人或手机出现，则判断为没有人玩手机。

步骤S4，如果检测到所述视频中有人和手机出现，用特征提取模型提取每个人和每个手机的特征。

其中，所述每个人和每个手机的特征包括a. 每个人体的二维人体关节点坐标、三维人体关节点坐标；b. 每个手机的二维尺寸坐标、三维尺寸坐标；c. 每个人和手机的视觉特征。所述视觉特征包括但不限于基于传统机器学习算法或者深度学习提取得到的特征。

本实施例中，其实现具体为：用openpose模型计算每个人体的二维、三维关节点坐标。用centerNet模型计算每个手机的二维尺寸坐标、三维尺寸坐标。同时，从centerNet模型最后一个卷积层上截取每个人和手机对应的区域，得到每个人和手机的视觉特征。

其中，特征提取模型openopse和centerNet模型预先生成的，如图2所示，具体的实现及训练步骤如下：

a.构建一个人体关键点模型和一个3D目标检测模型；

b. 用训练样本训练人体关键点模型和一个3D目标检测模型，得到所述的特征提取模型。

本实施例中，所述人体关键点模型为openpose模型，用于计算每个人体的二维、三维关节点坐标；所述3D目标检测模型为centerNet模型，用于计算每个手机的二维尺寸坐标、三维尺寸坐标；

本实施例中，用标记有人体关节点二维、三维坐标的训练样本训练openpose模型，用标记手机的二维、三维坐标的数据训练centerNet模型。最终，openpose模型和centerNet模型组合得到特征提取模型。

步骤S5，将所述每个人和手机的特征输入到特征关系判断模型，计算每个人和手机之间的关系特征。

具体的，将特征提取模型得到的每个人和手机的特征输入到特征关系判断模型，得到每个人和手机之间的关系特征。

其中，关系特征包括动作意图关系：包括人拿手机，未拿手机，人看手机，人未看手机；空间关系：包括前、后、左、右、上、下；将动作意图关系和空间关系组合得到关系特征。

本实施例中，其实现具体为：用openpose模型和centerNet模型计算每个人和手机的二维、三维坐标以及尺寸坐标和视觉特征。然后将上述所有特征输入到特征关系判断模型，得到人和手机的动作意图关系和空间关系，最后将动作意图关系和空间关系组合得到关系特征。

其中，特征关系判断模型是预先生成的，如图3所示，本实施例中，特征关系判断模型的实现及训练步骤如下：

a.构建一个深度学习模型；

b. 用特征提取模型从训练样本中提取每个人和每个手机的特征,用所述特征训练上述基于深度学习的视线（注意力）估计模型，得到最终的特征关系判断模型；

本实施例中，所述深度学习模型为具体为视线(注意力)估计模型。

本实施例中，其实现具体为：用特征提取模型openpose和centerNet从训练样本中提取每个人和每个手机的特征，用所述特征以及训练样本中标记有标记人和手机的动作意图关系、空间关系的样本训练上述构建的视线估计模型，最后再在MPIIGaze数据集上训练视线估计模型，得到最终的特征关系判断模型。

步骤S6，将每个人和每个手机的特征、以及它们之间的关系特征输入到判断模型，判断当前时刻中每个人是否在玩手机。具体步骤如下：

a. 对于当前时刻视频，获取当前时刻之前的一段时间内以及当前时刻的视频中，每个人和每个手机的特征、以及它们之间的关系特征；

b. 将上述所有特征输入到判断模型，判断当前时刻中每个人是否在玩手机。

其中，判断模型是预先生成的，如图4所示，本实施例中，判断模型的实现及训练步骤如下：

a.构建一个时序序列模型，具体的，构建一个LSTM模型；

b.用特征提取模型和特征关系判断模型从训练样本中提取每个人和每个手机的特征、以及它们之间的关系特征，用于训练上述的LSTM模型，得到最终的判断模型。

本实施例中，具体实现方式为：用特征提取模型openpose、centerNet和视线估计模型从训练样本中提取每个人和每个手机的特征、以及它们之间的关系特征，以10帧为一个输入样本训练上述构建的LSTM模型，得到最终的判断模型。

步骤S7，对结果进行处理，具体包括，根据不同的应用场景，保存检测结果，保存判定有人在“玩手机”的图片或视频证据，发出警报等。

实施例二

图5为本发明实施例提供的一种检测人“玩手机”的***结构示意图。包括：视频信号采集模块、人和手机检测模块、特征提取模块、判断模块、特征存储模块、状态输出及报警模块。

201视频信号采集模块用于获取当前环境中的视频信号，得到待检测视频和训练样本。

本实施例中，其实现具体为：选择合适的摄像头，设计一套用于采集视频的硬件方案。具体的，训练模型时，通过摄像头采集大量视频图片。标记人的二维、三维关节点坐标；标记手机的二维、三维坐标；标记人和手机的动作意图关系：包括人拿手机，未拿手机，人看手机，人未看手机；标记人和手机的空间关系：包括前、后、左、右、上、下；标记每个人是否“玩手机”，标记完成后得到训练样本。在实际部署应用时，通过摄像头采集应用场景中的视频，得到待检测视频。

202 人和手机检测模块用于检测所述视频中所有的人和手机。

本实施例中，具体用Faster-RCNN算法检测出待检测视频中所有的人和手机。

203 特征提取模块用于训练特征提取模型和特征关系判断模型，如果检测到视频中有人和手机出现，用特征提取模型提取每个人和每个手机的特征，再用特征关系判断模型得到每个人和每个手机的关系特征。

本实施例中，其实现具体为：用训练样本训练人体关键点模型openpose和一个3D目标检测模型centerNet，得到特征提取模型。再用特征提取模型从训练样本中提取每个人和每个手机的特征，用所述特征训练基于深度学习的视线估计模型，最后再在MPIIGaze数据集上训练视线估计模型，得到最终的视线估计模型，即关系特征模型。在实际部署应用时，将图片输入openpose和centerNet模型，得到人和手机的特征。再将人和手机的特征输入视线估计模型，得到每个人和每个手机的关系特征。

204判断模块用于训练一个时序序列模型，对于当前时刻视频，利用当前时刻之前的一段时间内以及当前时刻的每一帧视频中每个人和每个手机的特征以及关系特征，判断当前时刻中每个人是否在玩手机。

具体步骤如下：

b. 将上述所有特征输入到判断模型，判断当前时刻中每个人是否在玩手机；

本实施例中，其实现具体为：用特征提取模型和特征关系判断模型从训练样本中提取每个人和每个手机的特征、以及它们之间的关系特征，以10帧为一个输入训练一个LSTM模型，得到最终的判断模型。

205特征存储模块用于存储算法运行过程中得到的人和手机的特征以及关系特征。

206状态输出及报警模块用于输出每个人的状态：“玩手机”或者“未玩手机”。

207 报警模块用于当如果有人在玩手机时，***发出警报。

综上可知，本发明提出一种检测人“玩手机”的方法及***的有益效果是：结合人体关节点坐标，手机的尺寸坐标，手机与人体的动作意图关系、空间关系以及深度学习方法，并结合时序模型，最终判断环境中的人是否在玩手机，大大提高了检测精度。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory,ROM）或随机存储记忆体（Random Access Memory,RAM）等。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种检测人“玩手机”的方法，其特征在于，所述方法包含以下步骤：

S1. 获取当前环境中的视频信号，得到待检测视频和训练样本；

S2. 检测所述视频中所有的人和手机；

S3. 如果检测到所述视频中没有人或手机出现，则判断为没有人玩手机；

S4. 如果检测到所述视频中有人和手机出现，用特征提取模型提取每个人和每个手机的特征，所述特征至少包括：

每个人体的二维人体关节点坐标、三维人体关节点坐标；

每个手机的二维尺寸坐标、三维尺寸坐标；

每个人和手机的视觉特征；

S5. 将所述每个人和手机的特征输入到特征关系判断模型，计算每个人和手机之间的关系特征；

S6.将每个人和每个手机的特征、以及它们之间的关系特征输入到判断模型，判断当前时刻中每个人是否在玩手机；

S7.对结果进行处理。

2.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，步骤S2至少包括，利用计算机视觉算法检测出当前帧图片中的所有人和手机。

3.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，所述视觉特征，包括但不限于基于传统机器学习算法或者深度学习提取得到的特征。

4.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，进入步骤S4之前还包括以下操作：

构建一个人体关键点模型和一个3D目标检测模型；

用训练样本训练人体关键点模型和3D目标检测模型，得到所述的特征提取模型。

5.如权利要求4所述的一种检测人“玩手机”的方法，其特征在于：

所述人体关键点模型为openpose模型，用于计算每个人体的二维、三维关节点坐标；

所述3D目标检测模型为centerNet模型，用于计算每个手机的二维尺寸坐标、三维尺寸坐标。

6.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，步骤S5所述每个人和每个手机的关系特征至少包括：

空间关系：包括前、后、左、右、上、下；

将动作意图关系和空间关系组合得到关系特征。

7.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，进入步骤S5之前还包括以下操作：

构建一个深度学习模型；

用特征提取模型从训练样本中提取每个人和每个手机的特征，用所述特征训练上述深度学习模型，得到最终的特征关系判断模型。

8.如权利要求7所述的一种检测人“玩手机”的方法，其特征在于，所述深度学习模型为具体为视线估计模型。

9.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，步骤S6所述将每个人和每个手机的特征、以及它们之间的关系特征输入到判断模型，判断当前时刻中每个人是否在玩手机，包括：

10.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，进入步骤S6之前还包括以下操作：

a. 构建一个时序序列模型；

11.如权利要求10所述的一种检测人“玩手机”的方法，其特征在于，所述时序序列模型为LSTM模型。

12.如权利要求1所述的一种检测人“玩手机”的方法，其特征在于，所述步骤S7对结果进行处理，具体包括以下一种或多种方式：

保存检测结果；

保存有人在“玩手机”的图片或视频证据；

发出警报。

13.一种检测人“玩手机”的***，应用于权利要求1-12任意一项所述的检测人“玩手机”的方法，其特征在于包括：

人和手机检测模块，用于检测所述视频中所有的人和手机；

14.如权利要求13所述的一种检测人“玩手机”的***，其特征在于，还包括警报模块，若输出状态为“玩手机”，***发出警报信号。