WO2024001617A1

WO2024001617A1 - 玩手机行为识别方法及装置

Info

Publication number: WO2024001617A1
Application number: PCT/CN2023/095778
Authority: WO
Inventors: 徐志红
Original assignee: 京东方科技集团股份有限公司
Priority date: 2022-06-30
Filing date: 2023-05-23
Publication date: 2024-01-04
Also published as: CN115147818A

Abstract

一种玩手机行为识别方法及装置，该方法包括：获取待识别图像，从待识别图像中提取出包含目标人物的感兴趣区域图像。将感兴趣区域图像输入至第一行为识别模型，得到目标人物的第一行为识别结果，第一行为识别结果用于指示目标人物是否存在玩手机行为。将感兴趣区域图像输入至第二行为识别模型，得到目标人物的第二行为识别结果，第二行为识别结果用于指示目标人物是否存在玩手机行为。比较第一行为识别结果和第二行为识别结果，若第一行为结果与第二行为结果不一致，则基于感兴趣区域图像，对目标人物进行行为识别处理，确定目标人物是否存在玩手机行为。

Description

玩手机行为识别方法及装置

本申请要求于2022年6月30日提交的、申请号为202210764212.1的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种玩手机行为识别方法及装置。

背景技术

随着手机的普及，手机已经成为人们日常生活中不可缺少的一部分，手机给人们的生活带来便捷的同时，人们对于手机的依赖程度愈发严重。在某些场景下玩手机，易给人们的生活带来一定的影响。例如在驾驶场景下，若驾驶员在驾驶途中玩手机，可能导致车祸概率增加。因此，在某些场景下需要准确识别出人们是否存在玩手机行为以进行实时预警。然而相关技术中对于玩手机行为识别的准确度较低。

发明内容

一方面，提供一种玩手机行为识别方法，该方法包括：获取待识别图像，从待识别图像中提取出包含目标人物的感兴趣区域图像。将感兴趣区域图像输入至第一行为识别模型，得到目标人物的第一行为识别结果，第一行为识别结果用于指示目标人物是否存在玩手机行为。将感兴趣区域图像输入至第二行为识别模型，得到目标人物的第二行为识别结果，第二行为识别结果用于指示目标人物是否存在玩手机行为。比较第一行为识别结果和第二行为识别结果，若第一行为结果与第二行为结果不一致，则基于感兴趣区域图像，对目标人物进行行为识别处理，确定目标人物是否存在玩手机行为。

在一些实施例中，上述方法还包括：若第一行为识别结果与第二行为识别结果一致，则基于第一行为识别结果或者第二行为识别结果，确定目标人物是否存在玩手机行为。

另一些实施例中，上述基于感兴趣区域图像，对目标人物进行行为识别处理，确定目标人物是否存在玩手机行为，包括：将感兴趣区域图像输入手机检测模型，以及将感兴趣区域图像输入人物检测模型；若未从感兴趣区域图像检测到手机，确定目标人物不存在玩手机行为；若从感兴趣区域图像检测到手机，则根据手机检测模型输出的手机框，以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为。

另一些实施例中，在人物检测模型仅输出一个人物框时，上述根据手机检测模型输出的手机框，以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为，包括：确定手机框与人物框之间的重合度；若重合度大于或等于预设重合度阈值，则确定目标人物存在玩手机行为；若重合度小于预设重合度阈值，则确定目标人物不存在玩手机行为。

另一些实施例中，上述确定手机框与人物框之间的重合度，包括：确定手机框与人物框在感兴趣区域图像中重合区域的面积；以重合区域的面积与手机框在感兴趣区域所占的区域的面积之间的比值，作为重合度。

另一些实施例中，在上述确定手机框与人物框之间的重合度之前，上述方法还包括：基于手机框和人物框，确定目标人物与手机之间的距离；在目标人物与手机之间的距离大于预设距离阈值时，确定目标人物不存在玩手机行为；上述确定手机框与人物框之间的重合度，包括：在目标人物与手机之间的距离小于或等于预设距离阈值时，确定手机框与人物框之间的重合度。

另一些实施例中，在人物检测模型输出多个人物框时，上述根据手机检测模型输出的手机框，以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为，包括：基于目标人物的人物框、手机框以及感兴趣区域图像，确定目标人物与手机之间的距离；基于非目标人物的人物框、手机框以及感兴趣区域图像，确定非目标人物与手机之间的距离；在目标人物与手机之间的距离小于所有非目标人物与手机之间的距离时，确定目标人物存在玩手机行为；在目标人物与手机之间的距离大于或等于任意一个非目标人物与手机之间的距离时，确定目标人物不存在玩手机行为。

另一些实施例中，上述基于目标人物的人物框、手机框以及感兴趣区域图像，确定目标人物与手机之间的距离，包括：基于目标人物的人物框和感兴趣区域图像，对目标人物进行手部识别，确定目标人物的手部的中心位置；基于手机框和感兴趣区域图像，确定手机的中心位置；根据目标人物的手部的中心位置和手机的中心位置，确定目标人物与手机之间的距离。

另一些实施例中，上述第一行为识别模型为inception网络模型，上述第二行为识别模型为残差网络模型。

又一方面，提供一种行为识别装置，该行为识别装置包括：通信单元，用于获取待识别图像；处理单元，用于：从待识别图像中提取出包含目标人物的感兴趣区域图像；将感兴趣区域图像输入至第一行为识别模型，得到目标人物的第一行为识别结果，第一行为识别结果用于指示目标人物是否存在玩手机行为；将感兴趣区域图像输入至第二行为识别模型，得到目标人物的第二行为识别结果，第二行为识别结果用于指示目标人物是否存在玩手机行为；若第一行为识别结果与第二行为识别结果不一致，则基于感兴趣区域图像，对目标人物进行行为识别处理，确定目标人物是否存在玩手机行为。

在一些实施例中，上述处理单元，还用于若第一行为识别结果与第二行为识别结果一致，则基于第一行为识别结果或者第二行为识别结果，确定目标人物是否存在玩手机行为。

另一些实施例中，上述处理单元，具体用于：将感兴趣区域图像输入手机检测模型，以及将感兴趣区域图像输入人物检测模型；若未从感兴趣区域图像检测到手机，确定目标人物不存在玩手机行为；若从感兴趣区域图像检测到手机，则根据手机检测模型输出的手机框，以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为。

另一些实施例中，在人物检测模型仅输出一个人物框时，上述处理单元，具体用于：确定手机框与人物框之间的重合度；若重合度大于或等于预设重合度阈值，则确定目标人物存在玩手机行为；若重合度小于预设重合度阈值，则确定目标人物不存在玩手机行为。

另一些实施例中，上述处理单元，具体用于：确定手机框与人物框在感兴趣区域图像中重合区域的面积；以重合区域的面积与手机框在感兴趣区域所占的区域的面积之间的比值，作为重合度。

另一些实施例中，上述处理单元，还用于：基于手机框和人物框，确定目标人物与手机之间的距离；在目标人物与手机之间的距离大于预设距离阈值时，确定目标人物不存在玩手机行为；上述处理单元，具体用于在目标人物与手机之间的距离小于或等于预设距离阈值时，确定手机框与人物框之间的重合度。

另一些实施例中，在人物检测模型输出多个人物框时，上述处理单元，具体用于：从多个人物框中确定目标人物的人物框，以及非目标人物的人物框，非目标人物为感兴趣区域图像中除目标人物之外的其他人物；基于目标人物的人物框、手机框以及感兴趣区域图像，确定目标人物与手机之间的距离；基于非目标人物的人物框、手机框以及感兴趣区域图像，确定非目标人物与手机之间的距离；在目标人物与手机之间的距离小于所有非目标人物与手机之间的距离时，确定目标人物存在玩手机行为；在目标人物与手机之间的距离大于或等于任意一个非目标人物与手机之间的距离时，确定目标人物不存在玩手机行为。

另一些实施例中，上述处理单元，具体用于基于目标人物的人物框和感兴趣区域图像，对目标人物进行手部识别，确定目标人物的手部的中心位置；基于手机框和感兴趣区域图像，确定手机的中心位置；根据目标人物的手部的中心位置和手机的中心位置，确定目标人物与手机之间的距离。

再一方面，提供一行为识别装置，该行为识别装置包括存储器和处理器；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。其中，当处理器执行计算机指令时，使得该行为识别装置执行如上述任一实施例中所述的玩手机行为识别方法。

又一方面，提供一种非瞬态的计算机可读存储介质。所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令在处理器上运行时，使得所述处理器执行如上述任一实施例所述的玩手机行为识别方法中的一个或多个步骤。

又一方面，提供一种计算机程序产品。所述计算机程序产品包括计算机程序指令，在计算机上执行所述计算机程序指令时，所述计算机程序指令使计算机执行如上述任一实施例所述的玩手机行为识别方法中的一个或多个步骤。

又一方面，提供一种计算机程序。当所述计算机程序在计算机上执行时，所述计算机程序使计算机执行如上述任一实施例所述的玩手机行为识别方法中的一个或多个步骤。

附图说明

为了更清楚地说明本公开中的技术方案，下面将对本公开一些实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例的附图，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。此外，以下描述中的附图可以视作示意图，并非对本公开实施例所涉及的产品的实际尺寸、方法的实际流程、信号的实际时序等的限制。

图1为根据一些实施例的一种玩手机行为识别***的组成图；

图2为根据一些实施例的一种行为识别装置的硬件结构图；

图3为根据一些实施例的一种玩手机行为识别方法的流程图一；

图4为根据一些实施例的inception结构的架构图一；

图5为根据一些实施例的inception结构的架构图二；

图6为根据一些实施例的resnet18模型的架构图一；

图7为根据一些实施例的resnet18模型的架构图二；

图8为根据一些实施例的一种玩手机行为识别方法的流程图二；

图9为根据一些实施例的一种玩手机行为识别方法的流程图三；

图10为根据一些实施例的一种玩手机行为识别方法的流程图四；

图11为根据一些实施例的一种感兴趣区域图像的示意图；

图12为根据一些实施例的一种玩手机行为识别方法的流程图五；

图13为根据一些实施例的一种玩手机行为识别方法的流程图六；

图14为根据一些实施例的一种玩手机行为识别过程的流程图；

图15为根据一些实施例的一种行为识别装置的结构图。

具体实施方式

下面将结合附图，对本公开一些实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开所提供的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括(comprise)”及其其他形式例如第三人称单数形式“包括(comprises)”和现在分词形式“包括(comprising)”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一个实施例(one embodiment)”、“一些实施例(some embodiments)”、“示例性实施例(exemplary embodiments)”、“示例(example)”、“特定示例(specific example)”或“一些示例(some examples)”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、 “第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

“A、B和C中的至少一个”与“A、B或C中的至少一个”具有相同含义，均包括以下A、B和C的组合：仅A，仅B，仅C，A和B的组合，A和C的组合，B和C的组合，及A、B和C的组合。

“A和/或B”，包括以下三种组合：仅A，仅B，及A和B的组合。

如本文中所使用，根据上下文，术语“如果”任选地被解释为意思是“当……时”或“在……时”或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为是指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

如本文所使用的那样，“约”、“大致”或“近似”包括所阐述的值以及处于特定值的可接受偏差范围内的平均值，其中所述可接受偏差范围如由本领域普通技术人员考虑到正在讨论的测量以及与特定量的测量相关的误差(即，测量***的局限性)所确定。

随着手机智能化程度的提高，在衣食住行等方面人们对于手机的依赖程度越来越高。为了避免由于人们在某些场景下玩手机而引起的不良影响，需要对人们进行玩手机行为识别，以及时提醒人们在某些场景下勿玩手机，避免不良影响的情况发生。以车辆驾驶场景为例，人们存在玩手机行为而引起的不良影响可以是车辆驾驶员在驾驶车辆过程中存在玩手机行为会增加车祸发生的概率。

而相关技术提供的玩手机行为识别方法中针对人们玩手机行为的识别，是通过将人们所处环境的图像作为整体输入至行为识别模型中进行玩手机行为识别，由于人们所处环境的图像包含的冗余数据较多且仅通过行为识别模型进行了一次识别，导致玩手机行为识别的准确度较低，无法及时的识别出人们是否存在玩手机行为，进而无法在人们存在玩手机行为时做到及时提醒。

基于此，本公开实施例提供了一种玩手机行为识别方法，该方法通过获取待识别图像，从图像中提取出包含目标人物的感兴趣区域图像，根据包含目标人物的感兴趣区域图像来确定目标人物是否存玩手机行为，而并非是以包含大量冗余数据的待识别图像来确定目标人物是否存在玩手机行为，减少了待识别图像中冗余数据对与玩手机行为识别的干扰，提升了玩手机行为识别的准确度。

另外，相对于相关技术中提供的玩手机行为识别方法中通过行为识别模型进行一次玩手机行为识别所造成的玩手机行为识别的准确度较低的问题，本公开实施例提供的一种玩手机行为识别方法，首先通过第一行为识别模型和第二行为识别模型分别对目标人物是否存在玩手机行为进行识别，在第一行为识别模型的第一行为识别结果和第二行为识别模型的第二行为识别结果一致的情况下，以第一行为识别结果或第二行为识别结果作为目标人物是否存在玩手机行为的结果，由此对目标人物是否存在玩手机行为进行了双重识别，提升了玩手机行为识别的准确度。且在第一行为识别模型的第一行为识别结果和第二行为识别模型的第二行为识别结果不一致的情况下，再次根据待识别图像中包含目标人物的感兴趣区域图像对目标人物进行行为识别处理，以此来确定目标人物是否存在玩手机行为。可见，本公开实施例提供的玩手机行为识别方法，对包含目标人物的感兴趣区域图像进行了多次玩手机行为识别，用户玩手机行为识别的识别结果的准确度更高，提升了玩手机行为识别的准确度，进而以便于在目标人物存在玩手机行为时，能够及时发出提醒，避免由于目标人物存在玩手机行为而引起不良影响的情况发生。

本公开实施例提供的玩手机行为识别方法可以应用于车辆驾驶、岗亭站岗、办公区域和教室等场景。

以玩手机行为识别方法应用于车辆驾驶场景为例，在行为识别装置基于本公开实施例提供的玩手机行为识别方法，确定车辆驾驶员存在玩手机行为之后，行为识别装置可以将此时车辆终端内的图像以及玩手机行为识别结果上传至车辆终端的后台管理服务器，供管理人员查看。进一步的，在行为识别装置确定车辆驾驶员存在玩手机行为一段时间后，行为识别装置可以控制车辆终端发出报警信息，以提示车辆驾驶员禁止玩手机、注意驾驶安全。

以玩手机行为识别方法应用于教室场景为例，在行为识别装置基于本公开实施例提供的玩手机行为识别方法，确定教室内有学生存在玩手机行为之后，行为识别装置可以将此时教室内的图像以及玩手机行为识别结果上传至老师的终端设备，以供老师查看，以便于老师根据终端设备显示的玩手机行为识别结果维护教室教学环境。

如图1所示，本公开实施例提供了一种玩手机行为识别***的组成图。该玩手机行为识别***包括：行为识别装置10和拍摄装置20。其中，行为识别装置10和拍摄装置20之间可以通过有线或者无线的方式进行连接。

拍摄装置20可以设置于监督区域附近。例如，以监督区域为车辆驾驶室为例，拍摄装置20可以安装与该车辆驾驶室内的顶部。本公开实施例不限制拍摄装置20的具体安装方式以及具体安装位置。

拍摄装置20可用于拍摄监督区域的待识别图像。

在一些实施例中，拍摄装置20可以采用彩色摄像头来拍摄彩色图像。

示例性的，彩色摄像头可以为RGB摄像头。其中，RGB摄像头采用RGB色彩模式，通过红(red，R)、绿(greed，G)、蓝(blue，B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色。通常，RGB摄像头由三根不同的线缆给出了三个基本彩色成分，用三个独立的电荷耦合器件(charge coupled device，CCD)传感器来获取三种彩色信号。

在一些实施例中，拍摄装置可以采用深度摄像头来拍摄深度图像。

示例性的，深度摄像头可以为飞行时间(time of flight，TOF)摄像头。TOF摄像头采用TOF技术，TOF摄像头的成像原理如下：根据激光光源发出经调制的脉冲红外光，遇到物体后反射，光源探测器接收经物体反射的光源，通过计算光源发射和反射的时间差或相位差，来换算TOF摄像头与被拍摄物体之间的距离，进而根据TOF摄像头与被拍摄物体之间的距离，得到场景中各个点的深度值。

行为识别装置10用于获取拍摄装置20所拍摄到的待识别图像，并基于拍摄装置20所拍摄到的待识别图像，确定监督区域的人物是否存在玩手机行为。

在一些实施例中，行为识别装置10可以是独立的服务器，也可以是多个服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、大数据服务网等基础云计算服务的云服务器。

在一些实施例中，行为识别装置10可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR) \虚拟现实(virtual reality，VR)设备等。或者，行为识别装置10可以是车辆终端。车辆终端是用于车辆通信和管理的前端设备，可以安装在各种车辆内。

在一些实施例中，行为识别装置10可以通过有线或无线的方式与其他终端设备进行通信，例如在车辆驾驶场景下与车辆管理员的终端设备进行通信，又例如在教室场景下与老师的终端设备进行通信。

示例性的，基于教室场景下，在行为识别装置10基于拍摄装置20所拍摄到的待识别图像确定教室的玩手机行为识别的结果后，可以将玩手机行为识别的结果以语音、文字或视频的方式发送至老师的终端设备，以供老师查看。

在一些实施例中，行为识别装置10可以和拍摄装置20集成在一起。

图2为本公开实施例所提供的一种行为识别装置的硬件结构图。参见图2，行为识别装置可以包括处理器41、存储器42、通信接口43、总线44。处理器41，存储器42以及通信接口43之间可以通过总线44连接。

处理器41是行为识别装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器41可以是一个通用CPU，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例，处理器41可以包括一个或多个CPU，例如图2中所示的CPU 0和CPU 1。

存储器42可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器42可以独立于处理器41存在，存储器42可以通过总线44与处理器41相连接，用于存储指令或者程序代码。处理器41调用并执行存储器42中存储的指令或程序代码时，能够实现本公开下述实施例提供的玩手机行为识别方法。

另一种可能的实现方式中，存储器42也可以和处理器41集成在一起。

通信接口43，用于行为识别装置与其他设备通过通信网络连接，所述通信网络可以是以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local area networks，WLAN)等。通信接口43可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线44，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图2中示出的结构并不构成对该行为识别装置的限定，除图2所示部件之外，该行为识别装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合说明书附图，对本公开提供的实施例进行具体介绍。

本公开实施例提供的玩手机行为识别方法，该方法应用于行为识别装置，该行为识别装置可以是上述玩手机行为识别***中的行为识别装置10，或者行为识别装置10的处理器。如图3所示，该方法包括如下步骤：

S101、获取待识别图像。

其中，待识别图像为拍摄装置对监督区域进行拍摄而得到的图像。监督区域为需要监督用户是否存在玩手机行为的区域。例如车辆驾驶室、教室、办公区域和岗亭等。

在一些实施例中，监督区域可以由行为识别装置来确定。例如，与行为识别装置连接的有多个拍摄装置，行为识别装置可以将多个拍摄装置中每个拍摄装置所在区域认为是监督区域。

在一些实施例中，监督区域可以由用户以直接或间接的方式来确定。例如，在应用于教室场景下，一个学校具有M个教室，每个教室均安装有对应的拍摄装置，M个教室中N个教室未存在学生的情况下，用户可以选择关闭N个教室的拍摄装置，则行为识别装置可以选择这M-N个教室中每一个教室作为监督区域。这样，行为识别装置可以不用对N个教室进行玩手机行为识别，以节省计算资源。其中，M和N均为正整数。

待识别图像用于记录在当前时刻下监督区域中包含的K个人物的图像。其中，K为正整数。

在一些实施例中，行为识别装置在开启玩手机行为识别功能之后，执行本公开实施例提供的玩手机行为识别方法。相应的，若行为识别装置关闭玩手机行为识别功能之后，则行为识别装置不执行或停止执行本公开实施例提供的玩手机行为识别方法。

一种可选的实现方式中，行为识别装置默认开启玩手机行为识别功能。

另一种可选的实现方式中，行为识别装置周期性开启玩手机行为识别功能。例如在教室场景下，行为识别装置在早上8：00-下午17：30之间自动开启玩手机行为识别功能，在下午17：30-早上8：00之间自动关闭玩手机行为识别功能。

另一种可选的实现方式中，行为识别装置根据终端设备的指令，确定开启/关闭玩手机行为识别功能。

例如，应用在车辆驾驶场景下，在驾驶人员驾驶车辆过程中，车辆管理人员通过终端设备向行为识别装置下发开启玩手机行为识别功能的指令。响应于该指令，行为识别装置开启玩手机行为识别功能。或者，在驾驶人员驾驶车辆停止后，车辆管理人员通过终端设备向行为识别装置下发关闭玩手机行为识别功能的指令。响应于该指令，行为识别装置关闭玩手机行为识别功能。

在一些实施例中，在满足预设条件的情况下，行为识别装置通过拍摄装置获取监督区域的待识别图像。

可选的，在应用于车辆驾驶场景下，上述预设条件包括：拍摄装置检测到车辆驾驶室存在人物。这样，行为识别装置仅需要在车辆驾驶室存在人物的情况下进行玩手机行为识别，而无需再车辆驾驶室不存在人物的情况下进行玩手机行为识别，有助于减少行为识别装置的计算量。

在一些实施例中，行为识别装置通过拍摄装置获取监督区域的待识别图像，可以具体实现为：行为识别装置向拍摄装置发送拍摄指令，该拍摄指令用于指示拍摄装置拍摄监督区域的图像；之后，行为识别装置接收到来自拍摄装置的监督区域的待识别图像。

可选的，待识别图像可以是拍摄装置在接收到拍摄指令之前拍摄的，也可以是拍摄装置在接收到拍摄指令之后拍摄的。

S102、从待识别图像中提取出包含目标人物的感兴趣区域图像。

在一些实施例中，在行为识别装置接收到拍摄装置发送的待识别图像之后，可以对待识别图像进行人体识别处理，进而从待识别图像中的K个人物中确定出目标人物。其中，目标人物可以是K个人物中的任一个人物，也可以K个人物中的特定的人物，K为正整数。

可以理解的，在一些场景下，行为识别装置可以只需对监督区域中的特定的人物进行玩手机行为识别，无需对监督区域中的每一个人物进行玩手机行为识别。例如在车辆驾驶场景下，行为识别装置只需对车辆驾驶员进行玩手机行为识别即可，无需对车辆中的其他乘客进行玩手机行为识别，能够降低行为识别装置的计算量。

在一些实施例中，在行为识别装置接收到待识别图像之后，行为识别装置可以对待识别图像进行身份识别处理，以识别出监督区域包含的K个人物中每一个人物的身份，进而将K个人物的身份识别结果发送至终端设备，以供终端设备的用户查看。若终端设备的用户根据K个人物的身份识别结果，选定对K个人物中的某个人物进行玩手机行为识别，则行为识别装置确定此人物即为目标人物。若终端设备的用户根据K个人物的身份识别结果，选定对K个人物进行玩手机行为识别，则行为识别装置确定K个人物中的任一个人物为目标人物。

可选的，行为识别装置对待识别图像进行身份识别处理，以识别出监督区域包含的K个人物中每一个人物的身份，可以具体实现为：将待识别图像输入至身份识别模型中，得到每一个人物的身份识别结果。

在一些实施例中，行为识别装置的存储器中预先存储有训练完成的身份识别模型，行为识别装置在获取待识别图像后，可以将待识别图像输入至身份识别模型，以得到监督区域包含的K个人物中每一个人物的身份识别结果。

在一些实施例中，上述身份识别模型可以是卷积神经网络模型(convolutional neural networks,CNN)，例如可以采用VGG-16的模型结构来实现。

在一些实施例中，在行为识别装置确定了目标人物之后，为了去除待识别图像中冗余信息对于后续玩手机行为识别的准确度的影响，行为识别装置可以对待识别图像进行图像分割处理，进而从待识别图像中提取出包含目标人物的感兴趣区域图像。

可以理解的，在对待识别图像进行图像分割后，目标人物在待识别图像中是以检测框的形式呈现，将目标人物在待识别图像中的检测框等比例放大、扩展后形成的区域的图像作为包含目标人物的感兴趣区域图像。

可选的，从待识别图像中提取出包含目标人物的感兴趣区域图像，可以具体实现为：将待识别图像输入至图像分割模型中，得到每一个人物对应的感兴趣区域图像。

在一些实施例中，行为识别装置的存储器中预先存储有训练完成的图像分割模型，行为识别装置在获取到待识别图像后，可以将待识别图像输入至训练完成的图像分割模型中，以得到监督区域包含的K个人物中每一个人物对应的感兴趣区域图像。

在一些实施例中，上述图像分割模型可以是深度神经网络(deep neural network，DNN)模型。

容易理解的是，深层次的神经网络可以在海量的训练数据中自动提取和学习图像中更本质的特征，将深度神经网络应用于图像分割中，将显著增强分类效果，并进一步提升后续对于玩手机行为识别的准确度。

在一些实施例中，上述图像分割模型可以是基于于Deeplab v3+语义分割算法来构建。

可选的，上述目标人物的感兴趣区域图像可以是经过修复处理后的感兴趣区域图像，以保证后续根据目标人物的感兴趣区域图像对目标人物进行玩手机行为识别的结果是准确的。

S103、将感兴趣区域图像输入至第一行为识别模型，得到目标人物的第一行为识别结果。

在一些实施例中，行为识别装置的存储器中预先存储有训练完成的第一行为识别模型。为了识别目标人物是否存在玩手机行为，在得到目标人物的感兴趣区域图像后，可以将目标人物的感兴趣区域图像输入至第一行为识别模型中，得到目标人物的第一行为识别结果。其中，第一行为识别结果用于指示目标人物是否存在玩手机行为。

其中，玩手机行为包括目标人物用手拿着手机发短信、发语音，以及将手机放在桌子等物体上发短信、发语音，以及把手机靠在耳边打电话、听语音等。

可选的，上述第一行为识别模型为inception网络模型，例如可以是inception-v3模型。其中，inception-v3模型可以包括多个inception结构。inception-v3模型中的inception结构是将不同的卷积层通过井联的方式结合在一起。应理解的是，第一行为识别模式可以采用相关技术中的inception结构(例如图4所示的inception结构)，也可以采用本申请实施例提供的改进的inception结构(例如图5所示的inception结构)。

图4示出一种inception结构的示意图。如图4所示，相关技术中inception结构包括输出层、全连接层以及位于输出层以及全连接层之间的4条学习路径，第一条学习路径包括依次连接的1*1卷积核、3*3卷积核以及3*3卷积核。第二条学习路径包括依次连接的1*1卷积核和3*3卷积核。第三条学习路径包括pool和1*1卷积核。第四条学习路径包括1*1卷积核。

在一些实施例中，为了加快inception-v3模型的训练和收敛速度，本申请实施例提供的改进的inception结构采用1*7卷积核以及7*1卷积核来替换原先采用的3*3卷积核。

示例性的，如图5所示，本公开实施例提供了一种改进的inception结构的示意图。改进的inception结构包括输出层、全连接层以及位于输出层以及全连接层之间的10条学习路径，第一条学习路径包括依次连接的1*7卷积核、7*7卷积核和1*7卷积核。第二条学习路径包括依次连接的7*1卷积核、7*7卷积核和7*1卷积核。第三条学习路径包括依次连接的1*1卷积核和1*7卷积核。第四条学习路径包括依次连接的1*1卷积核和7*1卷积核。第五条学习路径包括依次连接的Pool和1*7卷积核。第六条学习路径包括依次连接的Pool和7*1卷积核。第七条学习路径包括1*7卷积核。第八条学习路径包括7*1卷积核。第九条学习路径包括依次连接的Pool和1*7卷积核。第十条学习路径包括依次连接的Pool和7*1卷积核。

示例性的，若第一行为识别结果为是，则代表第一行为识别模型基于目标人物的感兴趣区域图像对目标人物的行为识别结果为目标人物存在玩手机行为；若第一行为识别结果为否，则代表第一行为识别模型基于目标人物的感兴趣区域图像对目标人物的行为识别结果为目标人物不存在玩手机行为。

S104、将感兴趣区域图像输入至第二行为识别模型，得到目标人物的第二行为识别结果。

在一些实施例中，行为识别装置的存储器中预先存储有训练完成的第二行为识别模型。为了识别目标人物是否存在玩手机行为，在得到目标人物的感兴趣区域图像后，可以将目标人物的感兴趣区域图像输入至第二行为识别模型中，得到目标人物的第二行为识别结果。其中，第二行为识别结果用于指示目标用户是否存在玩手机行为。

可选的，上述第二行为识别模型为残差网络模型，例如可以是resnet18模型。resnet18模型是一种基于basicblock的串行网络结构，巧妙地利用了shortcut连接，解决了深度网络中模型退化的问题。应理解，上述第二行为识别模型可以采用相关技术中的resnet18模型(例如图6所示的resnet18模型)，或者可以采用本申请实施例提供的改进的resnet18模型(例如图7所示的resnet18模型)。

图6示出一种resnet18模型的架构图。如图6所示，相关技术中的resnet18模型包括依次连接的输出层、7*7卷积层、最大池化(maximum pooling，Maxpool)层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、平均池化层(average pooling，Argpool)和输出层。

在一些实施例中，为了加快resnet18模型的训练和收敛速度，本申请实施例提供的改进的resnet18模型增加了至少一个归一化(batch normalization，BN)层。可选的，新增的BN层可以位于两个3*3卷积层之间。

如图7所示，本公开实施例提供了一种改进的resnet18模型的架构图。参见图7，改进的resnet18模型包括依次连接的输出层、7*7卷积层、最大池化层、3*3卷积层、3*3卷积层、BN层、3*3卷积层、3*3卷积层、BN层、3*3卷积层、3*3卷积层、3*3卷积层、BN层、3*3卷积层、3*3卷积层、BN层、3*3卷积层、3*3卷积层、3*3卷积层、3*3卷积层、BN层、平均池化层和输出层。

示例性的，若第二行为识别结果为是，则代表第二行为识别模型基于目标人物的感兴趣区域图像对目标人物的行为识别结果为目标人物存在玩手机行为；若第二行为识别结果为否，则代表第二行为识别模型基于目标人物的感兴趣区域图像对目标人物的行为识别结果为目标人物不存在玩手机行为。

需要说明的是，本公开实施例不限制步骤S103和步骤S104之间的执行顺序。例如，可以先执行步骤S103，再执行步骤S104；或者，先执行步骤S104，再执行步骤S103；又或者，同时执行步骤S103和步骤S104。

应理解，选择inception-v3模型作为第一行为识别模型进行玩手机行为识别的优点在于：inception-v3模型引入了将一个较大的二维卷积拆成两个较小的一维卷积的做法。例如，7×7卷积核可以拆成1×7卷积核和7×l卷积核。当然3x3卷积核也可以拆成1×3卷积核和3×l卷积核，这被称为factorizationinto small convolutions思想。这种非对称的卷积结构拆分在处理更多、更丰富的空间特征以及增加特征多样性等方面的效果能够比对称的卷积结构拆分更好，同时能减少计算量。例如，2个3×3卷积代替1个5×5卷积能够减少28％的计算量。

同样的，选择resnet18模型作为第二行为识别模型进行玩手机行为识别的优点在于：相对于传统的VGG模型，resnet18模型的复杂度降低，所需的参数量下降，且网络深度更深，不会出现梯度消失现象，解决了深层次的网络退化问题，能够加速网络收敛，防止过度拟合。

S105、若第一行为识别结果与第二行为识别结果不一致，则基于感兴趣区域图像，对目标人物进行行为识别处理，确定目标人物是否存在玩手机行为。

可以理解的，第一行为识别模型与第二行为识别模型为两种不同的识别模型，故针对同一个目标用户的感兴趣区域图像可能有不同的行为识别结果。例如，第一行为识别结果指示目标人物存在玩手机行为，第二行为识别结果指示目标不存在玩手机行为；或者，第一行为识别结果指示目标人物不存在玩手机行为，第二行为识别结果指示目标人物存在玩手机行为。

基于图3所示的实施例，至少带来以下有益效果：基于包含目标人物的感兴趣区域图像，通过第一行为识别模型和第二行为识别模型对目标人物是否存在玩手机行为进行双重识别，提升了玩手机行为识别的准确度。且在第一行为识别模型输出的第一行为识别结果与第二行为识别模型的第二行为识别结果不一致的情况下，再次基于包含目标人物的感兴趣区域图像对目标人物进行行为识别处理，以此来确定目标人物是否存在玩手机行为。可见，本公开实施例提供的一种玩手机行为识别方法，对用户是否存在玩手机行为进行了多次行为识别，提升了玩手机行为识别的准确度。以便于在识别出目标人物存在玩手机行为时，及时发出提醒信息，避免目标人物由于存在玩手机行为而引起的不良影响的发生。

在一些实施例中，如图8所示，在步骤S104之后，该方法还包括如下步骤：

S106、若第一行为识别结果与第二行为识别结果一致，则基于第一行为识别结果或第二行为识别结果，确定目标人物是否存在玩手机行为。

可以理解的，若第一行为识别结果与第二行为识别结果一致，代表第一行为识别模型和第二行为识别模型对于目标人物是否存在玩手机行为存在一致的识别结果。由于第一行为识别模型和第二行为识别模型为基于不同算法的行为识别模型，基于不同算法的行为识别模型输出了一致的识别结果，识别结果的准确度高，则可以基于第一行为识别结果或第二识别结果确定目标人物是否存在玩手机行为。

示例性的，若第一行为识别结果指示目标人物存在玩手机行为，第二行为识别结果指示目标人物存在玩手机行为，则确定目标人物存在玩手机行为。若第一行为识别结果指示目标人物不存在玩手机行为，第二行为识别结果指示目标人物不存在玩手机行为，则确定目标人物不存在玩手机行为。

在一些实施例中，如图9所示，上述步骤S105可以具体实现为以下步骤：

S1051、将感兴趣区域图像输入手机检测模型，以及将感兴趣区域图像输入人物检测模型。

可以理解的，若目标人物存在玩手机行为，需要目标人物所在区域需要存在手机，也就是目标人物的感兴趣区域图像中存在手机。若目标人物的感兴趣区域图像中不存在手机，也就是目标人物所在区域不存在手机，那么目标人物也就不具有玩手机的可能性。

在一些实施例中，行为识别装置的存储器中预先存储有训练完成的手机检测模型。为了识别出目标人物是否具有玩手机的可能性，可以将感兴趣区域图像输入手机检测模型，来检测感兴趣区域图像中是否存在手机。

具体的，将目标人物的感兴趣区域图像输入至手机检测模型后，若手机检测模型输出了至少一个手机框，则代表感兴趣区域图像中存在手机，目标人物具有玩手机的可能性。若手机检测模型输出了0个手机框，则代表感兴趣区域图像中不存在手机，目标人物不具有玩手机的可能性。

由上述可知，目标人物的感兴趣区域图像是目标人物的检测框所在区域的图像，目标人物的感兴趣区域图像不仅可以包含目标人物，由于拍摄装置拍摄角度的原因，目标人物的感兴趣区域图像中还可以包含除目标人物之外的其他人物(也可以称作非目标人物)和物品(例如墙体、手机等)，例如在一个非目标人物与目标人物站位较为接近的情况下，目标人物的感兴趣区域图像中还可以包括此非目标人物。

可以理解的，在目标人物的感兴趣区域图像包含除目标人物之外的非目标人物的情况下，感兴趣区域图像中除目标人物之外的非目标人物会对目标人物是否存在玩手机行为的识别结果造成干扰。

在一些实施例中，行为识别装置的存储器中预先存储有训练完成的人物检测模型。为了识别感兴趣区域图像中是否存在除目标人物之外的非目标人物，可以将感兴趣区域图像输入至人物检测模型，来检测感兴趣区域图像中是否存在非目标人物。

具体的，将目标人物的感兴趣区域图像输入至人物检测模型后，若人物检测模型仅输出了一个人物框，则此人物框也就是目标人物的人物框，代表感兴趣区域图像中未存在非目标人物，也就是目标人物所在区域未存在非目标人物。若人物检测模型输出了至少一个人物框，则代表感兴趣区域图像中存在非目标人物，也就是目标人物所在区域存在非目标人物。

在一些实施例中，上述手机检测模型包括：yolov5模型、yolox模型。

在一些实施例中，上述行人检测模型包括：yolov5模型、yolov4模型、yolov3模型、mobilenetv1_ssd模型、mobilenetv2_ssd模型和mobilenetv3_ssd模型。

S1052、若未从感兴趣区域图像检测到手机，确定目标人物不存在玩手机行为。

可以理解的，感兴趣区域图像反映的是目标人物所在区域，若未从感兴趣区域图像中检测到手机，代表一定程度上目标人物所在区域不存在手机。若目标人物所在区域不存在手机，则目标人物也就不存在玩手机行为的可能性。故若未从感兴趣区域图像中检测到手机，则确定目标人物不存在玩手机行为。

应理解，步骤S1052的优点在于：根据感兴趣区域图像中是否存在手机来直接确定目标人物是否存在玩手机行为，行为识别装置无需再进行繁琐的计算，能够在提升目标用户玩手机行为识别的准确度的同时，降低行为识别装置的计算量。

S1053、若从感兴趣区域图像检测到手机，则根据手机检测模型输出的手机框，以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为。

可以理解的，若从感兴趣区域图像中检测到手机，则代表目标人物所在区域存在手机，也就是目标人物存在玩手机行为的可能性。

在一些实施例中，从感兴趣区域图像中检测到手机后，可以根据手机检测模型输出的手机框以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为。

示例性的，根据手机检测模型输出的手机框以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为，可以具体包括以下几种情形。

情形1，人物检测模型仅输出一个人物框。

由上述S1051可知，在人物检测模型仅输出一个人物框时，代表目标人物所在区域未存在非目标人物。在情形1的情况下，如图10所示，步骤S1053可以具体实现为以下步骤：

S201、确定手机框与人物框之间的重合度。

其中，手机框与人物框之间的重合度与目标人物存在玩手机行为的可能性呈正相关，即重合度越高，目标人物存在玩手机行为的可能性越高。

可以理解的，通常情况下，若目标人物存在玩手机行为，则手机应存在于目标人物周边。手机距离目标人物越近，目标人物存在玩手机行为的可能性越高。而在图像中，目标人物和手机均是以检测框的形式存在，手机框与人物框之间的重合度能够反映目标人物与手机之间的距离，故手机框与人物框之间的重合度与目标人物存在玩手机行为的可能性呈正相关。

示例性的，确定手机框与人物框之间的重合度的过程如下：

步骤1、确定手机框与人物框在感兴趣区域图像中重合区域的面积。

容易理解的，在手机与目标人物之间的距离在一定范围时，手机相应的手机框与目标人物相应的人物框之间存在重合区域。

如图11所示，根据手机框的上边界、下边界、左边界和右边界可以确定手机框在感兴趣区域图像中对应的像素区域的形状和坐标。其中，手机框在感兴趣区域图像中对应的像素区域的形状为矩形，手机框在感兴趣区域图像中对应的像素区域的坐标为(X_amin，Y_amin，X_amax，Y_amax)，其中，X_amin为手机框在像素区域中横坐标最小值，Y_amin为手机框在像素区域中纵坐标最小值，X_amax为手机框在像素区域中横坐标最大值，Y_amax为手机框在像素区域中纵坐标最大值。进而根据手机框在感兴趣区域图像中对应的像素区域的坐标得到手机框在感兴趣区域图像所占的面积。

同样的，根据人物框的上边界、下边界、左边界和右边界可以确定人物框在感兴趣区域图像中对应的像素区域的形状和坐标。其中，人物框在感兴趣区域图像中对应的像素区域的形状为矩形，人物框在感兴趣区域图像中对应的像素区域的坐标为(X_bmin，Y_bmin，X_bmax，Y_bmax)，其中，X_bmin为人物框在像素区域中横坐标最小值，Y_bmin为人物框在像素区域中纵坐标最小值，X_bmax为人物框在像素区域中横坐标最大值，Y_bmax为人物框在像素区域中纵坐标最大值。进而根据人物框在感兴趣区域图像中对应的像素区域的坐标得到人物框在感兴趣区域图像所占的面积。其中，图11中左侧所示的虚线框为手机框，右侧所示的虚线框为人物框。

在得到手机框在感兴趣区域图像中对应的像素区域的坐标以及人物框在感兴趣区域图像中对应的像素区域的坐标后，可以根据手机框在感兴趣区域图像中对应的像素区域的坐标以及人物框在感兴趣区域图像中对应的像素区域的坐标，得到手机框与人物框在感兴趣区域图像中重合区域，进而能够得到重合区域的面积。

示例性的，手机框在感兴趣区域图像的坐标、人物框在感兴趣区域图像的坐标与重合区域之间的关系可以如下述公式(1)所示：
A＝renwu∩shouji 公式(1)

其中，A用于表示重合区域，renwu用于表示人物框在感兴趣区域图像的坐标，shouji用于表示手机框在感兴趣区域图像的坐标。

步骤2、以重合区域的面积与手机框在感兴趣区域所占的区域的面积之间的比值，作为重合度。

示例性的，重合度、重合区域的面积与手机框在感兴趣区域图像所占的区域的面积之间的关系可以如下述公式(2)所示：

其中，B用于表示重合度，A_sq用于表示重合区域的面积，shouji_sq用于表示手机框在感兴趣区域图像所占的区域的面积。

S202、若重合度大于或等于预设重合度阈值，确定目标人物存在玩手机行为。

其中，预设重合度阈值可以是管理人员根据人工经验预先设置的，例如，预设重合度阈值为80％。也就是手机框与人物框之间的重合区域的面积与手机框的面积的比值大于或等于80％时，确定目标人物存在玩手机行为。

应理解，通常情况下，手机存在于目标人物周边时，目标人物才存在玩手机行为的可能性。但即使手机存在与目标人物周边时，目标人物不一定具有玩手机行为。故本公开实施例提供的一种玩手机行为识别方法，基于重合度大于或等于预设重合度阈值的情况下，确定目标人物存在玩手机行为，提升了玩手机行为识别的准确度。

S203、若重合度小于预设重合度阈值，确定目标人物不存在玩手机行为。

可以理解的，若重合度小于预设重合度阈值，代表目标人物存在玩手机行为的可能性较低，故可以确定目标人物不存在玩手机行为。

作为一种可能的实现方式，为了降低行为识别装置的计算量，如图12所示，上述玩手机行为识别方法在步骤S201之前还可以包括步骤S301，并且步骤S201可以具体实现为步骤S303。

S301、基于手机框和人物框，确定目标人物与手机之间的距离。

上述步骤S201至步骤S203是默认以手机框与人物框之间存在重合区域的情况下的说明。可以理解的，若目标人物不存在玩手机行为，则手机框与人物框之间不存在重合区域。若在手机框与人物框之间不存在重合区域的情况下，继续计算手机框与人物框之间的重合度，会增加行为识别装置的计算量，且造成行为识别装置的计算资源的浪费。

基于此，在确定手机框与人物框之间的重合度之前，行为识别装置可以根据手机框在感兴趣区域图像中对应的像素区域的坐标，得到手机框的中心位置在感兴趣区域图像中对应的像素区域的坐标简称手机框的中心位置的坐标。以及根据人物框在感兴趣区域图像中对应的像素区域的坐标，得到人物框的中心位置在感兴趣区域图像中对应的像素区域的坐标简称人物框的中心位置的坐标。

进而根据手机框的中心位置的坐标和人物框的中心位置的坐标，能够得到手机框的中心位置与人物框的中心位置之间的距离。将手机框的中心位置与人物框的中心位置之间的距离作为目标人物与手机之间的距离。

S302、在目标人物与手机之间的距离大于预设距离阈值时，确定目标人物不存在玩手机行为。

可以理解的，在手机与目标人物之间的距离大于预设距离阈值的情况下，代表手机框与人物框之间不存在交集，也即手机框与人物框之间不存在重合区域。在手机框与人物框之间不存在重合区域的情况下，代表手机距离目标人物较远，目标人物存在玩手机行为的可能性较低，可以直接确定目标人物不存在玩手机行为，进而无需计算手机框与人物框之间的重合度，降低了行为识别装置的计算量的同时，减少了行为识别装置的计算资源的浪费。

其中，距离阈值用于指示手机框与人物框在不相交的情况下的距离门限值。

作为一种可能的实现方式，预设距离阈值可以是行为识别装置基于感兴趣区域图像的分辨率实时计算的。

示例性的，本公开实施例提供一种预设距离阈值的确定方式，行为识别装置根据手机框的中心位置到手机框的左上角、右上角、左下角、右下角中任一角的距离，以及人物框的中心位置到人物框的左上角、右上角、左下角、右下角中任一角的距离，以两者距离之和作为预设距离阈值。

作为另一种可能的实现方式，预设距离阈值可以是管理人员根据人工经验预先设置的。

S303、在目标人物与手机之间的距离小于或等于预设距离阈值时，确定手机框与人物框之间的重合度。

作为一种可能的实现方式，上述步骤S201可以具体实现为：在目标人物与手机之间的距离小于或等于预设距离阈值时，确定手机框与人物框之间的重合度。

可以理解的，在目标人物与手机之间的距离小于或等于预设距离阈值的情况下，代表手机框与人物框之间存在交集，也即手机框与人物框之间存在重合区域。在手机框与人物框之间存在重合区域的情况下，代表人物框代表的目标人物所在区域存在手机，也就是目标人物存在玩手机行为的可能性，可以进一步根据人物框与手机框之间的重合度来确定目标人物是否存在玩手机行为。

关于确定手机框与人物框之间的重合度的具体实现，可以参照上述步骤S201的描述，在此不予赘述。

上述实施例着重介绍了人物检测模型仅输出一个人物框时的情形，在一些实施例中，本公开实施例提供的玩手机行为识别方法还包括下述情形：

情形2、人物检测模型输多个人物框。

由上述S1051可知，在人物检测模型输出多个人物框时，代表目标人物所在区域存在非目标人物。在情形2的情况下，如图13所示，步骤S1053还可以具体实现为以下步骤：

S401、从多个人物框中确定目标人物的人物框、以及非目标人物的人物框。

在一些实施例中，在上述步骤S102中行为识别装置基于图像分割模型对待识别图像进行图像分割，得到每一个人物对应的感兴趣区域图像时，行为识别装置给每一个人物建立了每一个人物对应的身份标识，一个身份标识用于唯一指示一个人物。

在人物检测模型输出多个人物框的情况下，行为识别装置可以基于多个人物框中每一个人物框对应的人物的身份标识，从多个人物框中确定目标人物的人物框，以及非目标人物的人物框。

S402、基于目标人物的人物框、手机框、以及感兴趣区域图像，确定目标人物与手机之间的距离。

可选的，基于目标人物的人物框、手机框、以及感兴趣区域图像，确定目标人物与手机之间的距离，可以包括如下方式中的一种或多种：

方式1、行为识别装置基于目标人物的中心位置和手机的中心位置，确定目标人物与手机之间的距离。

示例性的，行为识别装置可以根据目标人物的人物框的上边界、下边界、左边界和右边界可以确定目标人物的人物框在感兴趣区域图像中对应的像素区域的形状和坐标。其中，目标人物的人物框在感兴趣区域图像中对应的像素区域的形状为矩形。

同样的，行为识别装置可以根据手机框的上边界、下边界、左边界和右边界可以确定手机框在感兴趣区域图像中对应的像素区域的形状和坐标。其中，手机框在感兴趣区域图像中对应的像素区域的形状为矩形。

行为识别装置在得到目标人物的人物框在感兴趣区域图像中对应的像素区域的坐标后，可以得到目标人物的中心位置在感兴趣区域图像中对应的像素区域的坐标。

同样的，行为识别装置在得到手机框在感兴趣区域图像中对应的像素区域的坐标后，也可以得到手机的中心位置在感兴趣区域图像中对应的像素区域的坐标。

根据目标人物的中心位置在感兴趣区域图像中对应的像素区域的坐标和手机的中心位置在感兴趣区域图像中对应的像素区域的坐标，可以得到手机的中心位置与目标人物的中心位置的距离。进而将手机的中心位置与目标人物的中心位置的距离，作为目标人物与手机之间的距离。

方式2、行为识别装置基于目标人物的手部的中心位置与手机的中心位置，确定目标人物与手机之间的距离。

上述方式1中是以目标人物的中心位置与手机的中心位置之间的距离作为目标人物与手机之间的距离。可以理解的，通常情况下若目标人物存在玩手机行为，目标人物是通过手来玩手机的，为了提升玩手机行为识别的准确度，本公开实施例提出以目标人物的手部的中心位置与手机的中心位置的距离作为目标人物与手机之间的距离。

具体的，上述方式2可以包括如下步骤：

S1、基于目标人物的人物框和感兴趣区域图像，对目标人物进行手部识别，确定目标人物的手部的中心位置。

在一些实施例中，服务区的存储器中预先存储有训练完成的手部识别模型，服务区可以将包含目标人物的人物框的感兴趣区域图像输入手部识别模型中，得到目标人物的手部框。

根据目标人物的手部框的上边界、下边界、左边界和右边界可以确定目标人物的手部框在感兴趣区域图像中对应的像素区域的形状和坐标。其中，目标人物在感兴趣区域图像中对应的像素区域的形状为矩形。进而，根据目标人物的手部框在感兴趣区域图像中对应的像素区域的坐标，可以得到目标人物的手部的中心位置。

在一些实施例中，上述手部识别模型可以是基于Faster R-CNN算法的手部识别模型。

S2、基于手机框和感兴趣区域图像，确定手机的中心位置。

关于基于手机框和感情去区域图像，确定手机的中心位置，可以参照上述方式1中对于手机的中心位置的确认方式，在此不予赘述。

S3、基于目标人物的手部的中心位置和手机的中心位置，确定目标人物与手机之间的距离。

可选的，可以根据目标人物的手部的中心位置在感兴趣区域图像中对应的像素区域的坐标，以及手机的中心位置在感兴趣区域图像中对应的像素区域的坐标，得到目标人物的手部的中心位置与手机的中心位置之间的距离。进而将目标人物的手部的中心位置与手机的中心位置之间的距离作为目标人物与手机之间的距离。

方式3、行为识别装置基于目标人物的眼部的中心位置与手机的中心位置，确定目标人物与手机之间的距离。

应理解，通常情况下，目标人物存在玩手机行为时，目标人物的眼部会观看手机，故本公开实施例以目标人物的眼部的中心位置与手机的中心位置之间的距离，作为目标人物与手机之间的距离。

具体的，上述方式3可以包括如下步骤：

P1、基于目标人物的人物框和感兴趣区域图像，对目标人物进行眼部识别，确定目标人物的眼部的中心位置。

在一些实施例中，行为识别装置的存储器中预先存储有眼部识别模型。可以将包含目标人物的人物框的感兴趣区域图像，输入至眼部识别模型中，得到目标人物的眼部框。

根据目标人物的眼部框得到目标人物的眼部的中心位置的方式可以参照上述S1中关于根据目标人物的手部框得到目标人物的手部的中心位置的方式，在此不予赘述。

在一些实施例中，上述眼部识别模型可以是基于尺度不变特征转换(scale-invariant feature transform、SIFT)算法的眼部识别模型。

P2、基于手机框和感兴趣区域图像，确定手机的中心位置。

P3、基于目标人物的眼部的中心位置和手机的中心位置，确定目标人物与手机之间的距离。

关于P2和P3的描述，可以参照上述S2和S3的描述，在此不予赘述。

S403、基于非目标人物的人物框、手机框以及感兴趣区域图像，确定非目标人物与手机之间的距离。

关于步骤S403的描述，可以参照上述关于步骤S402的描述，在此不予赘述。

在一些实施例中，在目标人物的感兴趣区域图像中存在多个非目标人物的情况下，行为识别装置对多个非目标人物中的每一个非目标人物进行上述计算，以得到每一个非目标人物与手机之间的距离。

需要说明的是，为了保证玩手机行为识别的准确度，若行为识别装置采用上述S402中的方式1来确定目标人物与手机之间的距离时，则行为识别装置也采用上述S402中的方式1来确定非目标人物与手机之间的距离。同样的，若行为识别装置采用上述S402中的方式2来确定目标人物与手机之间的距离时，则行为识别装置也采用上述S402中的方式2来确定非目标人物与手机之间的距离。

本公开实施例不限制步骤S402和步骤S403之间的执行顺序。例如，可以先执行步骤S402，在执行步骤S403；或者，先执行步骤S403，在执行步骤 S402；又或者，同时执行步骤S402和步骤S403。

S404、在目标人物与手机之间的距离小于所有非目标人物与手机之间的距离时，确定目标人物存在玩手机行为。

可以理解的，若目标人物与手机之间的距离小于所有非目标人物与手机之间的距离时，代表目标人物距离手机最近，即目标人物为多个人物中最具有玩手机行为可能性的人物，故确定目标人物存在玩手机行为。

S405、在目标人物与手机之间的距离大于或等于任意一个非目标人物与手机之间的距离时，确定目标人物不存在玩手机行为。

可以理解的，若目标人物与手机之间的距离大于或等于任一个非目标人物与手机之间的距离时，代表目标人物并非距离手机最近的用户，目标用户存在玩手机行为的可能性较低，为了避免误识别的情况发生，行为识别装置确定目标人物不存在玩手机行为。

基于图13所示的实施例，至少带来以下有益效果：在人物检测模型输出多个人物框的情况下，代表目标人物所在区域不仅存在目标人物，还存在非目标人物。为了排除非目标人物对于目标人物是否存在玩手机行为识别的影响，根据每个人物与手机之间的距离，在目标人物与手机之间的距离最短的情况下，确定目标人物存在玩手机行为，从而排除了非目标人物对于目标人物是否存在玩手机行为识别的影响，提升了玩手机行为识别的准确度。

下面结合一种具体的示例对本公开实施例提供的一种玩手机行为识别方法进行举例说明。

如图14所示，假设图14所示的图像为待识别图像，待识别图像中包括人物1和人物2。

首先将待识别图像进行图像分割处理，得到人物1的感兴趣区域图像和人物2的感兴趣区域图像。

将人物1的感兴趣区域图像分别输入至第一行为识别模型和第二行为识别模型中，得到人物1的第一行为识别结果和第二行为识别结果，将人物2的感兴趣区域图像分别输入至第一行为识别模型和第二行为识别模型中，得到人物2的第一行为识别结果和第二行为识别结果。

假设人物1的第一行为识别结果与第二行为识别结果一致，且第一行为识别结果指示任务机存在玩手机行为，则确定人物1存在玩手机行为。

假设人物2的第一行为识别结果与第二行为识别结果不一致，代表无法确认人物2是否存在玩手机行为。可以将人物2的感兴趣区域图像输入至人物检测模型和手机检测模型，来检测人物2所在区域存在的人物以及人物2 所在区域是否存在手机。

假设人物检测模型仅输出一个人物框，手机检测模型输出一个手机框，代表人物2所在区域仅存在一个人物，且人物2所在区域存在手机。则可以根据手机检测模型输出的手机框，以及人物检测模型输出的人物框之间的重合度，确定人物2是否存在玩手机。

假设预设重合度阈值为80％，若根据手机框与人物框之间的重合度为85％，则确定人物2存在玩手机行为。行为识别装置输出最终的识别结果，即人物1存在玩手机行为、人物2存在玩手机行为。

上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例还提供了一种行为识别装置。如图15所示，行为识别装置300可以包括：通信单元301和处理单元302。在一些实施例中，上述行为识别装置300还可以包括存储单元303。

在一些实施例中，上述通信单元301，用于获取待识别图像。

上述处理单元302，用于：从待识别图像中提取出包含目标人物的感兴趣区域图像；将感兴趣区域图像输入至第一行为识别模型，得到目标人物的第一行为识别结果，第一行为识别结果用于指示目标人物是否存在玩手机行为；将感兴趣区域图像输入至第二行为识别模型，得到目标人物的第二行为识别结果，第二行为识别结果用于指示目标人物是否存在玩手机行为；若第一行为识别结果与第二行为识别结果不一致，则基于感兴趣区域图像，对目标人物进行行为识别处理，确定目标人物是否存在玩手机行为。

另一些实施例中，上述处理单元302，还用于若第一行为识别结果与第二行为识别结果一致，则基于第一行为识别结果或者第二行为识别结果，确定目标人物是否存在玩手机行为。

另一些实施例中，上述处理单元302，具体用于：将感兴趣区域图像输入手机检测模型，以及将感兴趣区域图像输入人物检测模型；若未从感兴趣区域图像检测到手机，确定目标人物不存在玩手机行为；若从感兴趣区域图像检测到手机，则根据手机检测模型输出的手机框，以及人物检测模型输出的人物框，确定目标人物是否存在玩手机行为。

另一些实施例中，在人物检测模型仅输出一个人物框时，上述处理单元302，具体用于：确定手机框与人物框之间的重合度；若重合度大于或等于预设重合度阈值，则确定目标人物存在玩手机行为；若重合度小于预设重合度阈值，则确定目标人物不存在玩手机行为。

另一些实施例中，上述处理单元302，具体用于：确定手机框与人物框在感兴趣区域图像中重合区域的面积。

以重合区域的面积与手机框在感兴趣区域所占的区域的面积之间的比值，作为重合度。

另一些实施例中，在人物检测模型输出多个人物框时，上述处理单元302，具体用于：从多个人物框中确定目标人物的人物框，以及非目标人物的人物框，非目标人物为感兴趣区域图像中除目标人物之外的其他人物；基于目标人物的人物框、手机框以及感兴趣区域图像，确定目标人物与手机之间的距离；基于非目标人物的人物框、手机框以及感兴趣区域图像，确定非目标人物与手机之间的距离；在目标人物与手机之间的距离小于所有非目标人物与手机之间的距离时，确定目标人物存在玩手机行为；在目标人物与手机之间的距离大于或等于任意一个非目标人物与手机之间的距离时，确定目标人物不存在玩手机行为。

另一些实施例中，上述处理单元302，具体用于：基于目标人物的人物框和感兴趣区域图像，对目标人物进行手部识别，确定目标人物的手部的中心位置；基于手机框和感兴趣区域图像，确定手机的中心位置；根据目标人物的手部的中心位置和手机的中心位置，确定目标人物与手机之间的距离。

另一些实施例中，上述存储单元303，用于存储待识别图像。

另一些实施例中，上述存储单元303，用于存储第一行为识别模型、第二行为识别模型、人物检测模型、手机检测模型、手部识别模型、身份识别模型和图像分割模型。

图15中的单元也可以称为模块，例如，处理单元可以称为处理模块。

图15中的各个单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，行为识别装置，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。存储计算机软件产品的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本公开的一些实施例提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质中存储有计算机程序指令，计算机程序指令在计算机的处理器上运行时，使得处理器执行如上述实施例中任一实施例所述的玩手机行为识别方法。

示例性的，上述计算机可读存储介质可以包括，但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，CD(Compact Disk，压缩盘)、DVD(Digital Versatile Disk，数字通用盘)等)，智能卡和闪存器件(例如，EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、卡、棒或钥匙驱动器等)。本公开描述的各种计算机可读存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

本公开的一些实施例还提供了一种计算机程序产品，例如，该计算机程序产品存储在非瞬时性的计算机可读存储介质上。该计算机程序产品包括计算机程序指令，在计算机上执行该计算机程序指令时，该计算机程序指令使计算机执行如上述实施例所述的玩手机行为识别方法。

本公开的一些实施例还提供了一种计算机程序。当该计算机程序在计算机上执行时，该计算机程序使计算机执行如上述实施例所述的玩手机行为识别方法。

上述计算机可读存储介质、计算机程序产品及计算机程序的有益效果和上述一些实施例所述的玩手机行为识别方法的有益效果相同，此处不再赘述。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种玩手机行为识别方法，其中，所述方法包括：

获取待识别图像；

从所述待识别图像中提取出包含目标人物的感兴趣区域图像；

将所述感兴趣区域图像输入至第一行为识别模型，得到所述目标人物的第一行为识别结果，所述第一行为识别结果用于指示所述目标人物是否存在玩手机行为；

将所述感兴趣区域图像输入至第二行为识别模型，得到所述目标人物的第二行为识别结果，所述第二行为识别结果用于指示所述目标人物是否存在玩手机行为；

若所述第一行为识别结果与所述第二行为识别结果不一致，则基于所述感兴趣区域图像，对所述目标人物进行行为识别处理，确定所述目标人物是否存在玩手机行为。
根据权利要求1所述的方法，其中，所述方法还包括:

若所述第一行为识别结果与所述第二行为识别结果一致，则基于所述第一行为识别结果或者所述第二行为识别结果，确定所述目标人物是否存在玩手机行为。
根据权利要求2所述的方法，其中，所述基于所述感兴趣区域图像，对所述目标人物进行行为识别处理，确定所述目标人物是否存在玩手机行为，包括：

将所述感兴趣区域图像输入手机检测模型，以及将所述感兴趣区域图像输入人物检测模型；

若未从所述感兴趣区域图像检测到手机，确定所述目标人物不存在玩手机行为；

若从所述感兴趣区域图像检测到手机，则根据所述手机检测模型输出的手机框，以及所述人物检测模型输出的人物框，确定所述目标人物是否存在玩手机行为。
根据权利要求3所述的方法，其中，在所述人物检测模型仅输出一个人物框时，所述根据所述手机检测模型输出的手机框，以及所述人物检测模型输出的人物框，确定所述目标人物是否存在玩手机行为，包括：

确定所述手机框与所述人物框之间的重合度；

若所述重合度大于或等于预设重合度阈值，则确定所述目标人物存在玩手机行为；

若所述重合度小于预设重合度阈值，则确定所述目标人物不存在玩手机行为。
根据权利要求4所述的方法，其中，所述确定所述手机框与所述人物框之间的重合度，包括：

确定所述手机框与所述人物框在所述感兴趣区域图像中重合区域的面积；

以所述重合区域的面积与所述手机框在所述感兴趣区域所占的区域的面积之间的比值，作为所述重合度。
根据权利要求4所述的方法，其中，在所述确定所述手机框与所述人物框之间的重合度之前，所述方法还包括：

基于所述手机框和所述人物框，确定所述目标人物与所述手机之间的距离；

在所述目标人物与所述手机之间的距离大于预设距离阈值时，确定所述目标人物不存在玩手机行为；

所述确定所述手机框与所述人物框之间的重合度，包括：

在所述目标人物与所述手机之间的距离小于或等于所述预设距离阈值时，确定所述手机框与所述人物框之间的重合度。
根据权利要求3所述的方法，其中，在所述人物检测模型输出多个人物框时，所述根据所述手机检测模型输出的手机框，以及所述人物检测模型输出的人物框，确定所述目标人物是否存在玩手机行为，包括：

从所述多个人物框中确定目标人物的人物框，以及非目标人物的人物框，所述非目标人物为所述感兴趣区域图像中除目标人物之外的其他人物；

基于所述目标人物的人物框、所述手机框以及所述感兴趣区域图像，确定所述目标人物与手机之间的距离；

基于所述非目标人物的人物框、所述手机框以及所述感兴趣区域图像，确定所述非目标人物与手机之间的距离；

在所述目标人物与手机之间的距离小于所有非目标人物与手机之间的距离时，确定所述目标人物存在玩手机行为；

在所述目标人物与手机之间的距离大于或等于任意一个所述非目标人物与手机之间的距离时，确定所述目标人物不存在玩手机行为。
根据权利要求7所述的方法，其中，所述基于所述目标人物的人物框、所述手机框以及所述感兴趣区域图像，确定所述目标人物与手机之间的距离，包括：

基于所述目标人物的人物框和所述感兴趣区域图像，对所述目标人物进行手部识别，确定所述目标人物的手部的中心位置；

基于所述手机框和所述感兴趣区域图像，确定所述手机的中心位置；

根据所述目标人物的手部的中心位置和所述手机的中心位置，确定所述目标人物与手机之间的距离。
根据权利要求1至8中任一项所述的方法，其中，所述第一行为识别模型为inception网络模型，所述第二行为识别模型为残差网络模型。
一种行为识别装置，其中，所述行为识别装置包括：

通信单元，用于获取待识别图像；

处理单元，用于：从所述待识别图像中提取出包含目标人物的感兴趣区域图像；将所述感兴趣区域图像输入至第一行为识别模型，得到所述目标人物的第一行为识别结果，所述第一行为识别结果用于指示所述目标人物是否存在玩手机行为；将所述感兴趣区域图像输入至第二行为识别模型，得到所述目标人物的第二行为识别结果，所述第二行为识别结果用于指示所述目标人物是否存在玩手机行为；若所述第一行为识别结果与所述第二行为识别结果不一致，则基于所述感兴趣区域图像，对所述目标人物进行行为识别处理，确定所述目标人物是否存在玩手机行为。
一种行为识别装置，其中，所述行为识别装置包括存储器和处理器；

所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；

其中，当所述处理器执行所述计算机指令时，使得所述行为识别装置执行如权利要求1至9中任一项所述的玩手机行为识别方法。
一种非瞬态的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序；其中，所述计算机程序在行为识别装置运行时，使得所述行为识别装置实现如权利要求1至9中任一项所述的玩手机行为识别方法。