WO2023000253A1

WO2023000253A1 - 攀爬行为预警方法和装置、电子设备、存储介质

Info

Publication number: WO2023000253A1
Application number: PCT/CN2021/107847
Authority: WO
Inventors: 王光利
Original assignee: 京东方科技集团股份有限公司
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2023-01-26
Also published as: US20230039549A1; EP4336491A1; US11990010B2; EP4336491A4; CN115917589A

Abstract

一种攀爬行为预警方法和装置、电子设备、存储介质，方法包括：获取视频图像数据，视频图像数据包括被检测目标和至少一个对象（11）；当确定对象进入被检测目标对应的目标区域时，获取对象的行为信息（12）；当确定行为信息表征对象攀爬被检测目标时，标记对象所在视频帧（13）。通过标记视频图像数据中的视频帧，可以及时发现对象攀爬被检测目标的行为，提高管理效率。

Description

攀爬行为预警方法和装置、电子设备、存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种攀爬行为预警方法和装置、电子设备、存储介质。

背景技术

随着景区内的游客数量的增加，游客不文明行为也随之增加，例如涂鸦文物、攀爬雕塑等。以攀爬雕塑为例，在攀爬过程中可能损坏雕塑，也有可能会伤害到游客自身，同时给其他游客造成不好的影响。

为及时发现并解决上述不文明行为，现有景区内通常安装视频监控***，由安保人员实时的盯着监控显示屏幕，达到及时发现不文明行为。

然而，安保人员同时盯着多个场景极易造成疲劳，加之不文明行为是偶然现象，导致预警的准确度比较差。

发明内容

本公开提供一种攀爬行为预警方法和装置、电子设备、存储介质，以解决相关技术的不足。

根据本公开实施例的第一方面，提供一种攀爬行为预警方法，所述方法包括：

获取视频图像数据，所述视频图像数据包括被检测目标和至少一个对象；

当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息；

当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。

可选地，确定所述对象进入所述被检测目标对应的目标区域，包括：

获取所述视频图像数据多视频帧中所述被检测目标所在的目标区域，以及获取目标对象所在的对象区域；所述目标对象的头部位于所述目标区域内；

获取所述对象区域和所述目标区域的时空关系；所述时空关系是指在不同时刻时所述对象区域和所述目标区域在空间上的相对位置关系；

当确定所述时空关系满足第一预设条件时，确定所述目标对象的进入所述目标区域；

第一预设条件包括以下至少一种：对象区域在目标区域之内且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值，对象区域先后触碰所述目标区域的边缘和两条标识线且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值；其中两条所述标识线设置在所述目标区域的连线与所述被检测目标之间。

可选地，所述时空关系包括以下至少一种：

对象区域在目标区域之内、对象区域先后触碰所述目标区域的边缘和两条标识线、对象区域先后触碰所述目标区域的两条标识线和边缘、对象区域的底边与目标区域的底边的距离超过设定距离阈值、对象区域的底边与目标区域的底边的距离小于设定距离阈值、对象区域在目标区域之外。

可选地，获取目标对象所在的对象区域，包括：

获取所述视频图像数据中多视频帧内各对象头部的位置和各对象所在的对象区域；

选取头部位于所述目标区域内的对象作为目标对象，并获取所述目标对象所在的对象区域。

可选地，获取所述视频图像数据中多视频帧内各对象头部的位置，包括：

获取所述多视频帧内各视频帧的预设图像特征；

基于所述预设图像特征识别当前视频帧中头部的识别位置，以及预测下一视频帧中头部的预测位置；

对所述识别位置和所述预测位置进行匹配，并当匹配通过后将所述预测位置更新为所述识别位置，获得相邻两帧视频帧中同一头部的位置。

可选地，获取所述对象的行为信息，包括：

获取所述视频图像数据多视频帧中目标对象的行为信息关键部位的位置；所述目标对象的头部位于所述目标区域内；所述行为信息包括人体姿态；

按照预设的表述顺序，将各视频帧中行为信息关键部位生成一维向量；

将各视频帧中对应一维向量进行级联，得到一帧RGB图像；所述RGB图像中RGB通道分别对应每个行为信息关键部位的xyz轴坐标；

根据所述RGB图像获取所述目标对象的行为信息。

可选地，确定所述行为信息表征所述对象攀爬所述被检测目标，包括：

基于所述行为信息确定目标对象的指定部位的位置；所述行为信息包括人体姿态；

当所述指定部位的位置位于所述目标区域之内且与所述目标区域的底边的距离超过设定距离阈值时，确定所述行为信息表征所述目标对象攀爬所述被检测目标。

可选地，标记所述对象所在视频帧之后，所述方法还包括：

获取目标对象的面部图像；

当所述面部图像满足预设要求时，获取与所述面部图像相匹配的识别码；所述预设要求包括能够面部的关键点且识别结果的置信度超过设定置信度阈值；

当确定指定数据库中不存在与所述识别码相匹配的对象时，生成预警信息。

根据本公开实施例的第二方面，提供一种攀爬行为预警装置，所述装置包括：

数据获取模块，用于获取视频图像数据，所述视频图像数据包括被检测目标和至少一个对象；

信息获取模块，用于当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息；

视频标记模块，用于当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。

可选地，所述信息获取模块包括：

区域获取子模块，用于获取所述视频图像数据多视频帧中所述被检测目标所在的目标区域，以及获取目标对象所在的对象区域；所述目标对象的头部位于所述目标区域内；

关系获取子模块，用于获取所述对象区域和所述目标区域的时空关系；所述时空关系是指在不同时刻时所述对象区域和所述目标区域在空间上的相对位置关系；

区域确定子模块，用于当确定所述时空关系满足第一预设条件时，确定所述目标对象的进入所述目标区域；

可选地，所述时空关系包括以下至少一种：

可选地，所述区域获取子模块包括：

位置获取单元，用于获取所述视频图像数据中多视频帧内各对象头部的位置和各对象所在的对象区域；

对象选取单元，用于选取头部位于所述目标区域内的对象作为目标对象，并获取所述目标对象所在的对象区域。

可选地，所述位置获取单元包括：

特征获取子单元，用于获取所述多视频帧内各视频帧的预设图像特征；

位置预测子单元，用于基于所述预设图像特征识别当前视频帧中头部的识别位置，以及预测下一视频帧中头部的预测位置；

位置获取子单元，用于对所述识别位置和所述预测位置进行匹配，并当匹配通过后将所述预测位置更新为所述识别位置，获得相邻两帧视频帧中同一头部的位置。

可选地，所述信息获取模块包括：

位置获取子模块，用于获取所述视频图像数据多视频帧中目标对象的行为信息关键部位的位置；所述目标对象的头部位于所述目标区域内；所述行为信息包括人体姿态；

向量生成子模块，用于按照预设的表述顺序，将各视频帧中行为信息关键部位生成一维向量；

图像获取子模块，用于将各视频帧中对应一维向量进行级联，得到一帧RGB图像；所述RGB图像中RGB通道分别对应每个行为信息关键部位的xyz轴坐标；

行为信息获取子模块，用于根据所述RGB图像获取所述目标对象的行为信息。

可选地，所述视频标记模块包括：

位置确定子模块，用于基于所述行为信息确定目标对象的指定部位的位置；所述行为信息包括人体姿态；

目标确定子模块，用于当所述指定部位的位置位于所述目标区域之内且与所述目标区域的底边的距离超过设定距离阈值时，确定所述行为信息表征所述目标对象攀爬所述被检测目标。

可选地，所述装置还包括：

图像获取模块，用于获取目标对象的面部图像；

识别码获取模块，用于当所述面部图像满足预设要求时，获取与所述面部图像相匹配的识别码；所述预设要求包括能够面部的关键点且识别结果的置信度超过设定置信度阈值；

信号生成模块，用于当确定指定数据库中不存在与所述识别码相匹配的对象时，生成预警信息。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现上述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现上述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开实施例提供的方案可以获取视频图像数据；所述视频图像数据包括被检测目标和至少一个对象；当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息；当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。这样，本实施例中通过标记视频图像数据中的视频帧，可以及时发现对象攀爬被检测目标的行为，提高管理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种攀爬行为预警方法的流程图。

图2是根据一示例性实施例示出的确定目标对象的当前行为的流程图。

图3是根据一示例性实施例示出的跟踪同一头部的流程图。

图4是根据一示例性实施例示出的目标对象的当前行为的流程图。

图5是根据一示例性实施例示出的获取目标对象的动作的效果示意图。

图6是根据一示例性实施例示出的确定行为信息是否表征对象攀爬被检测目标的流程图。

图7是根据一示例性实施例示出的对象区域和目标区域的时空关系的效果示意图。

图8是根据一示例性实施例示出的另一种攀爬行为预警方法的流程图。

图9是根据一示例性实施例示出的一种攀爬行为预警装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。

为解决上述技术问题，本公开实施例提供了一种攀爬行为预警方法，适用于电子设备，图1是根据一示例性实施例示出的一种攀爬行为预警方法的流程图。参见图1，一种攀爬行为预警方法，包括步骤11～步骤13。

在步骤11中，获取视频图像数据，所述视频图像数据包括被检测目标和至少一个对象。

本实施例中，电子设备可以与摄像头连接，并接收摄像头输出的视频图像数据。即摄像头在开启状态下可以采集视频帧形成视频帧流，然后对视频帧进行编码和压缩等处理后再发送给电子设备。电子设备对接收到的图像数据进行解码等处理后即可获得上述视频图像数据。

考虑到本公开提供的方案是监测一些目标行为，如攀爬、涂鸦等不文明行为，因此上述摄像头的拍摄范围通常指向指定的被检测目标，其中被检测目标可以包括但不限于景区的雕像、博物馆的文物、安全护栏等，或者说电子设备获取的视频图像数据包括被检测目标。

可理解的是，视频图像数据中可能包括对象也可能不包括对象，其中对象可以是游客或者管理人员。考虑到本公开提供的方案应用于包括对象的场景，因此后续实施例中仅考虑视频图像数据中包括至少一个对象的场景。

在步骤12中，当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息。

本实施例中，电子设备可以处理上述视频图像数据，从而确定对象是否进入被检测目标对应的目标区域，参见图2，包括步骤21～步骤23。

在步骤21中，电子设备可以获取所述视频图像数据多视频帧中所述被检测目标所在的目标区域，以及获取目标对象所在的对象区域。

以获取目标区域为例，电子设备内可以预先存储目标识别模型，如卷积网络模型(CNN)。电子设备可以将视频图像数据的各视频帧输入到目标识别模型，该目标识别模型可以识别出视频图像数据的各视频帧中的被检测目标，然后根据被检测目标的形状生成最小外接矩形，那么视频帧中与该最小外接矩形对应的区域即是目标区域，也就是说，经过上述识别过程可以获得多视频帧中被检测目标所在的目标区域。可理解的是，上述最小外接矩形还可以采用其他预设形状替代，例如圆形、菱形等，在能够获得目标区域的情况下，相应方案落入本公开的保护范围。

以获取对象区域为例，电子设备内可以预先存储头部检测模型，如卷积网络模型，本示例中头部检测模型为基于CNN的轻量检测模型，可以适于电子设备的资源配置较低的场景，或者适用于对现有监控***中的升级改造场景。这样，本示例中通过设置上述轻量检测模型，即在减少轻量检测模型的参数量的情况下保持识别性能，可以使检测结果具有较高的置信度。

本示例中，轻量检测模型可以通过模型压缩(Model Compression)和模型剪枝(Pruning)。其中，模型压缩即在已经训练好的模型上进行参数压缩，使得模型携带更少的模型参数，从而减少占用较多内存的问题，达到提高处理效率的效果。

模型剪枝是指在保证CNN精度的前提下，保留重要的权重而去掉不重要的权重，通常情况下权重值越接近于0则该权重越不重要。模型剪枝可以包括：1、修改blob的结构或者不修改，直接定义对角线mask，将原来的矩阵改写成稀疏矩阵的存储方式；2、采用新的方式来计算稀疏矩阵和向量的相乘。也就是说，在进行剪枝时，有两个出发点，一是从blob出发，修改blob；将对角线mask保存于blob结构中。基于blob的方式可以将对角线mask的相关运算直接运行在Cpu或者Gpu上，效率更高。二是从层layer出发，直接定义对角线mask，此方式较为简单，但效率相对较低。

需要说明的是，在设置剪枝率时，可以是设置全局剪枝率，也可以是针对每一层分别设置剪枝率。实际应用中，剪枝率的实际值可以通过实验法获得。

还需要说明的是，一般情况下，将非重要的权重去掉之后模型精度会下降。但是，去掉非重要权重之后模型稀疏性增加，从而可以减少模型的过拟合，并且在经过微调之后模型精度也会提升。

在进行剪枝时，有两个出发点，一是从blob出发，修改blob，将对角线mask保存于blob结构中，二是从layer出发，直接定义对角线mask。这两种方式各有各的特点，基于blob的方式可以将对角线mask的相关运算直接运行在cpu或者gpu上，效率更高，但是需要对源代码有较高的理解；而基于layer的方式较为简单，但效率相对较低。

本公开可以对上述轻量检测模型中的置信度作优化，如：首先，将头部的置信度阈值由预设数值(如0.7)逐渐降低直到头部检测结果的召回率超过召回率阈值。然后，结合头部跟踪模型的跟踪结果和上述检测结果，关注同一头部的召回率和精度，继续调整(微调)头部的置信度阈值，直至同一头部的召回率超过召回率阈值和精度超过精度阈值，例如召回率阈值和精度阈值两者的取值均超过0.98。这样，本示例中通过对头部的置信度进行优化，可以在跟踪目标对象的过程中达到同一个头部具有较好的召回率(recall)和精度(precision)，最终达到召回率和精度相平衡的效果。

本示例中，电子设备可以将各视频帧输入到该轻量检测模型，该轻量检测模型可以检测出各视频帧中对象的头部，例如正面、背面、侧面、上面等各种角度的头部，并且基于头部和对象一一对应的关系结合对象的形状生成最小外接矩形以及各对象所在的对象区域，即电子设备可以获取视频图像数据中多视频帧内各对象头部的位置和各对象所在的对象区域。然后，电子设备可以结合上述目标区域，选择出头部位于目标区域之内的对象作为目标对象，同时可以选择出目标对象的最小外接矩形对应的对象区域，即获得目标对象所在的对象区域。

可理解的是，上述头部检测模型可以检测出各视频帧中对象的头部，但是无法确定相邻2帧视频帧中的头部是否为同一对象。为此，电子设备获取各视频帧内头部的位置的过程中，可以包括获取同一对象的头部在不同视频帧的位置，参见图3，包括步骤31～步骤33。

在步骤31中，针对多视频帧中的各视频帧，电子设备可以获取当前视频帧的预设图像特征，如颜色特征或者方向梯度直方图特征，可根据具体场景选择预设的图像特征，在该预设图像特征能够有效区分不同对象的头部以及降低计算复杂度的情况下均落入本公开的保护范围。可理解的是，本步骤中通过降低计算复杂度，可以降低本公开方案对电子设备的资源的需求，有利于扩大本公开方案的应用范围。

在步骤32中，电子设备可以基于所述预设图像特征识别当前视频帧中头部的识别位置。步骤32中可以采用上述轻量检测模型实现，在此不再赘述。本步骤中通过轻量检测模型可以快速识别出头部的位置，有利于实现检测的实时性。

在步骤32中，电子设备还可以预测当前视频帧的下一视频帧中头部的预测位置。例如，电子设备可以采用基于卡尔曼滤波模型的快速跟踪处理视频帧，从而对头部的位置和头部的运动速度进行预设。需要说明的是，由于本示例中仅关注头部的预测位置，因此对于如何利用运动速度未作详述，可以根据卡尔曼滤波模型的需求进行处理，相应方案落入本公开的保护范围。

在步骤33中，电子设备可以对所述识别位置和所述预测位置进行匹配，其中匹配可以采用特征向量的余弦距离方式来实现，如当识别位置和预测位置对应的特征向量的余弦值超过余弦值阈值(可设置，如0.85以上)时，可以确定识别位置和预测位置通过匹配。当匹配通过后，电子设备可以将预测位置更新为识别位置，获得当前视频帧和下一视频帧中同一头部的位置。这样，本示例中通过跟踪同一头部，可以避免对象丢失，有利于提升检测准确度。

例如，电子设备进行头部跟踪的流程为：

视频帧Frame 0：头部检测模型检测到Frame 0中包括3个头部detections，当前没有任何tracks，将这3个detections初始化为tracks；

视频帧Frame 1：头部检测模型又检测到3个detections；对于Frame 0中的tracks先进行预测得到新的tracks；然后，将新的tracks与detections进行匹配，匹配模型可以包括使用匈牙利模型，从而得到(track，detection)匹配对；最后用每对匹配对中的detection更新对应的track。

在步骤22中，电子设备可以获取所述对象区域和所述目标区域的时空关系；所述时空关系是指在不同时刻时所述对象区域和所述目标区域在空间上的相对位置关系。

本实施例中，电子设备可以在目标区域的内部设置2条标志线，其中第1条标志线距离目标区域的边缘比第2条标志线近，即第2条标志线位于第1条标志线和被检测目标之间，原理如下包括：

(1)通过在目标区域的顶部边处设置两条水平标志线识别对象直接竖直进出目标区域的情况；

(2)通过在目标区域的左侧边处设置两条竖直标志线，识别对象从左侧平行进出目标区域的情况；

(3)通过在目标区域的右侧边处设置两条竖直标志线，识别对象从右侧与平行进出目标区域的情况；

(4)通过在目标区域的底部边处设置一条水平线，识别对象与地面的距离，从而区分对象路过被检测目标还是有可能攀爬被检测目标的行为。

本实施例中，电子设备可以根据2条标志线确定对象区域和目标区域的时空关系，其中上述时空关系是指在不同时刻时对象区域和目标区域在空间上的相对位置关系。其中，时空关系包括以下至少一种：对象区域在目标区域之内、对象区域先后触碰目标区域的边缘和两条标识线、对象区域先后触碰目标区域的两条标识线和边缘、对象区域的底边与目标区域的底边的距离超过设定距离阈值、对象区域的底边与目标区域的底边的距离小于设定距离阈值、对象区域在目标区域之外。

以对象区域进入目标区域为例，随着时间的推移对象区域会从目标区域的外部移动到目标区域的内部，即对象区域会先“触碰”到第1条标志线，然后再“触碰”到第2条标志线。以对象区域离开目标区域为例，随着时间的推移，对象区域会从目标区域的内部移动到目标区域的外部，即对象区域会先“触碰”到第2条标志线，然后再“触碰”到第1条标志线。

在步骤23中，当确定所述时空关系满足第一预设条件时，电子设备可以确定所述目标对象的当前行为不属于所述目标行为。

本实施例中，电子设备内可以预先存储第一预设条件，该第一预设条件包括以下至少一种：对象区域在目标区域之内且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值，对象区域先后触碰所述目标区域的边缘和两条标识线且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值；其中两条所述标识线设置在所述目标区域的连线与所述被检测目标之间，可以根据具体场景设置该第一预设条件，在能够确定出目标对象属于路过被检测目标即不属于不文明行为的情况下，相应方案落入本公开的保护范围。

本实施例中，电子设备可以判断步骤22中所确定的时空关系是否满足第一预设条件。当确定时空关系满足第一预设条件，电子设备可以确定目标对象的当前行为不属于所述目标行为，即目标对象属于路过被检测目标。当确定时空关系不满足第一预设条件即满足第二预设条件时，电子设备可以确定目标对象的当前行为有可能属于所述目标行为，此时电子设备可以获取进入目标区域的对象的行为信息，可理解的是，该行为信息至少包括人体姿态。参见图4，包括步骤41～步骤44。

在步骤41中，针对视频图像数据多视频帧中各视频帧，电子设备可以获取各视频帧中目标对象的行为信息关键部位的位置。例如，电子设备内可以预先存储的关键点提取模型，然后将各视频帧输入到关键点提取模型，由关键点提取模型即可提取到各视频帧中的目标对象的关键点。其中，关键点可以包括左手臂骨骼点、右手臂骨骼点、左腿骨骼点、右腿骨骼点和躯干骨骼点。

在步骤42中，电子设备可以按照预设的表述顺序，将各视频帧中行为信息关键部位生成一维向量，一维向量可以参见图5所示第二行图形和第三行图形下方的向量，如[63,64,97,103,121,124]。其中，上述表达顺序可以包括以下至少一种：左手臂骨骼点、右手臂骨骼点、左腿骨骼点、右腿骨骼点和躯干骨骼点；左手臂骨骼点、右手臂骨骼点、躯干骨骼点、左腿骨骼点和右腿骨骼点；左手臂骨骼点、躯干骨骼点、左腿骨骼点、右手臂骨骼点和右腿骨骼点，也就是说调整左右手、左右腿和躯干的关键点的排列顺序，相应方案落入本公开的保护范围。

在步骤43中，电子设备可以将视频图像数据中各视频帧中对应一维向量进行级联，得到一帧RGB图像；所述RGB图像中RGB通道分别对应每个行为信息关键部位的xyz轴坐标。

在步骤44中，电子设备可以根据RGB图像获取目标对象的行为信息。在一示例中，电子设备可以基于3D骨骼点的行为行为信息检测方法进行分类，包括：基于关键点坐标的行为行为信息表达(效果如图5中第一行图形所示)，包括空间描述子(效果如图5中第三行最左侧图形所示)，几何描述子(效果如图5中第三行中间图形所示)、关键帧描述子(效果如图5中第三行最右侧图形所示)；考虑子空间关键点的相关性来提升判别度以及基于动态规划模型来考虑不同视频序列的匹配度等处理后，最终可获得目标对象的行为信息。

在步骤13中，当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。

本实施例中，在确定目标对象的行为信息后，电子设备可以确定该行为信息是否表征对象攀爬被检测目标，参见图6，包括步骤61和步骤62。在步骤61中，电子设备可以基于所述行为信息确定所述目标对象的指定部位的位置。以指定部位是对象的腿部为例，在确定出目标对象的动作之后，就可以确定出目标对象左腿和右腿的位置。参见图7，位于中间的雕塑左侧处目标对象的右腿部位于目标区域之内，雕塑右侧的目标对象的左腿和右腿部位于目标区域之内；位于左侧的雕塑处的目标对象的两腿部位均位于目标区域之内。需要说明的是，实际应用中，目标区域的无需显现，因此图7中目标区域的边均采用虚线表示，以方便理解本公开的方案。在步骤62中，当所述指定部位的位置位于所述目标区域之内且与所述目标区域的底边的距离超过设定距离阈值时，电子设备可以确定上述行为信息表征目标对象攀爬被检测目标。

可理解的是，当目标对象路过被检测目标时，目标对象的对象区域的底边与目标区域的底边理论上是重叠的，即距离是0；考虑到目标对象步行的动作，腿部会抬起一定的高度可能造成对象区域的底边略微高于目标区域的高度，即对象区域的底边与目标区域的底边之间存在一定的距离(如10～30cm，可设置)，故设置上述设定距离阈值以保证排除对象路过被检测目标带来的影响。或者说，当指定部位的位置位于所述目标区域之内且与所述目标区域的底边的距离超过设定距离阈值时，电子设备就可以确定目标对象攀爬被检测目标。

本实施例中，当确定目标对象攀爬被检测目标时，标记目标对象所在的视频帧。在一些示例中，在标记对应的视频帧时，还可以提取目标对象的面部图像，并关联视频帧与面部图像，从而方便管理人员在回看上述视频帧可同时看到面部图像达到及时确认目标对象的身份的效果。这样，本实施例中通过标记视频图像数据中的视频帧，可以及时发现预设的目标行为(即不文明行为)，提高管理效率。

在一实施例中，在步骤13之后，电子设备还可以生成预警信号，参见图8，包括步骤81～步骤83。

在步骤81中，电子设备可以获取目标对象的面部图像。其中，在识别目标对象头部的过程中可以同步获得该面部图像，或者在确定目标对象的当前行为是目标行为之后获取面部图像。可理解的是，并不是所有位于目标区域内的对象均需要判断其行为，因此后者所需要获取的面部图像的数量要少于前者获取图像的数量，从而可以减少数据处理量。

在步骤82中，当面部图像满足预设要求时，电子设备可以获取与所述面部图像相匹配的识别码；所述预设要求包括获得面部的关键点且识别结果的置信度超过设定置信度阈值。例如，电子设备可以获取面积图像的属性信息，其中属性信息可以包括但不限于性别、年龄、身高、肤色以及面部关键点位置。然后，电子设备可以根据属性信息生成与面部图像相匹配的识别码，并存储到指定数据库中。

在步骤83中，当确定指定数据库中不存在与上述识别码相匹配的对象时，可以确定目标对象并不是管理人员而是游客，此时电子设备可以生成预警信息，如有游客正在攀爬雕塑，请保持关注。当然，电子设备还可以将上述预警信息提供给相应人员，例如，通过电话或者短消息方式通知管理人员，或者直接报警。

可见，本实施例中通过识别目标对象可以排除管理人员采用目标行为来维护被检测目标的场景，达到提升预警的准确度。

在上述实施例提供的一种攀爬行为预警方法的基础上，本公开实施例还提供了一种攀爬行为预警装置，参见图9，所述装置包括：

数据获取模块91，用于获取视频图像数据，所述视频图像数据包括被检测目标和至少一个对象；

信息获取模块92，用于当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息；

视频标记模块93，用于当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。

在一实施例中，所述信息获取模块包括：

在一实施例中，所述时空关系包括以下至少一种：

在一实施例中，所述区域获取子模块包括：

在一实施例中，所述位置获取单元包括：

在一实施例中，所述信息获取模块包括：

行为信息获取子模块，用于根据所述RGB图像获取所述目标对象的行为信息。所述行为信息包括人体姿态；

在一实施例中，所述视频标记模块包括：

位置确定子模块，用于基于所述行为信息确定目标对象的指定部位的位置；

在一实施例中，所述装置还包括：

图像获取模块，用于获取目标对象的面部图像；

需要说明的是，本实施例中示出的装置与图1所示方法实施例的内容相匹配，可以参考上述方法实施例的内容，在此不再赘述。

在示例性实施例中，还提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如图1所述方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述可执行的计算机程序可由处理器执行，以实现如图1所述方法的步骤。其中，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种攀爬行为预警方法，其特征在于，所述方法包括：

获取视频图像数据，所述视频图像数据包括被检测目标和至少一个对象；

当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息；

当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。
根据权利要求1所述的方法，其特征在于，确定所述对象进入所述被检测目标对应的目标区域，包括：

获取所述视频图像数据多视频帧中所述被检测目标所在的目标区域，以及获取目标对象所在的对象区域；所述目标对象的头部位于所述目标区域内；

获取所述对象区域和所述目标区域的时空关系；所述时空关系是指在不同时刻时所述对象区域和所述目标区域在空间上的相对位置关系；

当确定所述时空关系满足第一预设条件时，确定所述目标对象的进入所述目标区域；

第一预设条件包括以下至少一种：对象区域在目标区域之内且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值，对象区域先后触碰所述目标区域的边缘和两条标识线且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值；其中两条所述标识线设置在所述目标区域的连线与所述被检测目标之间。
根据权利要求2所述的方法，其特征在于，所述时空关系包括以下至少一种：

对象区域在目标区域之内、对象区域先后触碰所述目标区域的边缘和两条标识线、对象区域先后触碰所述目标区域的两条标识线和边缘、对象区域的底边与目标区域的底边的距离超过设定距离阈值、对象区域的底边与目标区域的底边的距离小于设定距离阈值、对象区域在目标区域之外。
根据权利要求2所述的方法，其特征在于，获取目标对象所在的对象区域，包括：

获取所述视频图像数据中多视频帧内各对象头部的位置和各对象所在的对象区域；

选取头部位于所述目标区域内的对象作为目标对象，并获取所述目标对象所在的对象区域。
根据权利要求4所述的方法，其特征在于，获取所述视频图像数据中多视频帧内各对象头部的位置，包括：

获取所述多视频帧内各视频帧的预设图像特征；

基于所述预设图像特征识别当前视频帧中头部的识别位置，以及预测下一视频帧中头部的预测位置；

对所述识别位置和所述预测位置进行匹配，并当匹配通过后将所述预测位置更新为所述识别位置，获得相邻两帧视频帧中同一头部的位置。
根据权利要求1所述的方法，其特征在于，获取所述对象的行为信息，包括：

获取所述视频图像数据多视频帧中目标对象的行为信息关键部位的位置；所述目标对象的头部位于所述目标区域内；所述行为信息包括人体姿态；

按照预设的表述顺序，将各视频帧中行为信息关键部位生成一维向量；

将各视频帧中对应一维向量进行级联，得到一帧RGB图像；所述RGB图像中RGB通道分别对应每个行为信息关键部位的xyz轴坐标；

根据所述RGB图像获取所述目标对象的行为信息。
根据权利要求1所述的方法，其特征在于，确定所述行为信息表征所述对象攀爬所述被检测目标，包括：

基于所述行为信息确定目标对象的指定部位的位置；所述行为信息包括人体姿态；

当所述指定部位的位置位于所述目标区域之内且与所述目标区域的底边的距离超过设定距离阈值时，确定所述行为信息表征所述目标对象攀爬所述被检测目标。
根据权利要求1所述的方法，其特征在于，标记所述对象所在视频帧之后，所述方法还包括：

获取目标对象的面部图像；

当所述面部图像满足预设要求时，获取与所述面部图像相匹配的识别码；所述预设要求包括能够面部的关键点且识别结果的置信度超过设定置信度阈值；

当确定指定数据库中不存在与所述识别码相匹配的对象时，生成预警信息。
一种攀爬行为预警装置，其特征在于，所述装置包括：

数据获取模块，用于获取视频图像数据，所述视频图像数据包括被检测目标和至少一个对象；

信息获取模块，用于当确定所述对象进入所述被检测目标对应的目标区域时，获取所述对象的行为信息；

视频标记模块，用于当确定所述行为信息表征所述对象攀爬所述被检测目标时，标记所述对象所在视频帧。
根据权利要求9所述的装置，其特征在于，所述信息获取模块包括：

区域获取子模块，用于获取所述视频图像数据多视频帧中所述被检测目标所在的目标区域，以及获取目标对象所在的对象区域；所述目标对象的头部位于所述目标区域内；

关系获取子模块，用于获取所述对象区域和所述目标区域的时空关系；所述时空关系是指在不同时刻时所述对象区域和所述目标区域在空间上的相对位置关系；

区域确定子模块，用于当确定所述时空关系满足第一预设条件时，确定所述目标对象的进入所述目标区域；

第一预设条件包括以下至少一种：对象区域在目标区域之内且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值，对象区域先后触碰所述目标区域的边缘和两条标识线且所述对象区域的底边与所述目标区域的底边的距离超过设定距离阈值；其中两条所述标识线设置在所述目标区域的连线与所述被检测目标之间。
根据权利要求10所述的装置，其特征在于，所述时空关系包括以下至少一种：

对象区域在目标区域之内、对象区域先后触碰所述目标区域的边缘和两条标识线、对象区域先后触碰所述目标区域的两条标识线和边缘、对象区域的底边与目标区域的底边的距离超过设定距离阈值、对象区域的底边与目标区域的底边的距离小于设定距离阈值、对象区域在目标区域之外。
根据权利要求9所述的装置，其特征在于，所述区域获取子模块包括：

位置获取单元，用于获取所述视频图像数据中多视频帧内各对象头部的位置和各对象所在的对象区域；

对象选取单元，用于选取头部位于所述目标区域内的对象作为目标对象，并获取所述目标对象所在的对象区域。
根据权利要求12所述的装置，其特征在于，所述位置获取单元包括：

特征获取子单元，用于获取所述多视频帧内各视频帧的预设图像特征；

位置预测子单元，用于基于所述预设图像特征识别当前视频帧中头部的识别位置，以及预测下一视频帧中头部的预测位置；

位置获取子单元，用于对所述识别位置和所述预测位置进行匹配，并当匹配通过后将所述预测位置更新为所述识别位置，获得相邻两帧视频帧中同一头部的位置。
根据权利要求9所述的装置，其特征在于，所述信息获取模块包括：

位置获取子模块，用于获取所述视频图像数据多视频帧中目标对象的行为信息关键部位的位置；所述目标对象的头部位于所述目标区域内；所述行为信息包括人体姿态；

向量生成子模块，用于按照预设的表述顺序，将各视频帧中行为信息关键部位生成一维向量；

图像获取子模块，用于将各视频帧中对应一维向量进行级联，得到一帧RGB图像；所述RGB图像中RGB通道分别对应每个行为信息关键部位的xyz轴坐标；

行为信息获取子模块，用于根据所述RGB图像获取所述目标对象的行为信息。
根据权利要求9所述的装置，其特征在于，所述视频标记模块包括：

位置确定子模块，用于基于所述行为信息确定目标对象的指定部位的位置；所述行为信息包括人体姿态；

目标确定子模块，用于当所述指定部位的位置位于所述目标区域之内且与所述目标区域的底边的距离超过设定距离阈值时，确定所述行为信息表征所述目标对象攀爬所述被检测目标。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

图像获取模块，用于获取目标对象的面部图像；

识别码获取模块，用于当所述面部图像满足预设要求时，获取与所述面部图像相匹配的识别码；所述预设要求包括能够面部的关键点且识别结果的置信度超过设定置信度阈值；

信号生成模块，用于当确定指定数据库中不存在与所述识别码相匹配的对象时，生成预警信息。
一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如权利要求1～8任一顶所述的方法。
一种计算机可读存储介质，其特征在于，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如权利要求1～8任一项所述的方法。