CN107644190A

CN107644190A - 行人监控方法和装置

Info

Publication number: CN107644190A
Application number: CN201610577109.0A
Authority: CN
Inventors: 俞刚; 彭雨翔; 吕凯风; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2016-07-20
Filing date: 2016-07-20
Publication date: 2018-01-30

Abstract

本发明的实施例提供了一种行人监控方法和装置。该行人监控方法包括：获取视频；检测视频包含的一个或多个行人；对于一个或多个行人中的每一个，识别该行人的身份；对于一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作；以及对于一个或多个行人中的每一个，根据该行人的身份和该行人在包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。上述行人监控方法和装置综合考虑行人的身份及其动作来判定其是否做出异常行为，因此可以更加智能、高效、准确地检测异常行为的发生，通过这种方法可以有效保障被监控区域的安全。

Description

行人监控方法和装置

技术领域

本发明涉及计算机领域，更具体地涉及一种行人监控方法和装置。

背景技术

在监控领域，往往需要配合很多人力来对被监控区域的安全进行分析以及维护。即使在被监控区域安装很多摄像头，其也往往只是用来帮助事后的调查取证，并没有真正起到实时的危险预防和保护被监控区域安全的作用。随着人工智能技术的发展，已经开始有算法和***进行视频数据的结构化处理，以实现对危险行为的实时监控。但是在现有技术中，对视频数据的利用往往只是单维度的，例如只是做人脸检测来判断进入被监控区域的人员是否是可疑人员，或者只是利用进入被监控区域的人员的某些动作来判断是否有危险情况发生，而没有实际利用进入被监控区域的人员的身份信息。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种行人监控方法和装置。

根据本发明一方面，提供了一种行人监控方法。该行人监控方法包括：获取视频；检测所述视频包含的一个或多个行人；对于所述一个或多个行人中的每一个，识别该行人的身份；对于所述一个或多个行人中的每一个，识别该行人的身份，确定该行人在包含该行人的至少一个视频帧中的动作；以及对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

其中，包含该行人的至少一个视频帧，可以为包含该行人的一个视频帧，也可以为包含该行人的多个视频帧(例如包含该行人的每个视频帧)。

示例性地，所述检测所述视频包含的一个或多个行人包括：针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

示例性地，所述针对所述视频的选定视频帧进行行人检测包括：针对所述视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及针对所述视频的选定视频帧中的每个视频帧，选择概率值超过阈值的行人框；其中，所述存在行人的位置为所选择的行人框的位置。

示例性地，在所述对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作之前，所述行人监控方法进一步包括：对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

示例性地，在所述对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计之后，所述行人监控方法进一步包括：对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

示例性地，所述姿态信息包括行人的人体关键点的位置。

示例性地，所述对于所述一个或多个行人中的每一个，识别该行人的身份包括：

将通过下列身份确定操作之一所确定的行人身份作为该行人的身份，或者结合下列身份确定操作中的两项或三项所确定的行人身份来确定该行人的身份：

第一身份确定操作：至少根据该行人在包含该行人的一个或多个视频帧中的姿态信息获得该行人的人脸信息，并基于该行人的人脸信息确定行人身份；

第二身份确定操作：至少根据该行人在包含该行人的一个或多个视频帧中的姿态信息获得该行人的关键点距离信息，并基于该行人的关键点距离信息确定行人身份；以及

第三身份确定操作：至少根据该行人在包含该行人的一个或多个视频帧中的姿态信息获得该行人的运动信息，并基于该行人的运动信息确定行人身份。

示例性地，所述人脸信息包括人脸位置，所述第一身份确定操作包括：针对所述包含该行人的一个或多个视频帧中的每一个，根据该行人在该视频帧中的姿态信息和在该视频帧中的、与该行人相对应的行人框的位置确定该行人在该视频帧中的人脸位置；针对所述包含该行人的一个或多个视频帧中的每一个，基于该行人在该视频帧中的人脸位置处的原始像素数据进行人脸识别，以获得身份信息；以及根据针对所述包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

示例性地，所述第二身份确定操作包括：针对所述包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点之间的距离，以获得关键点距离信息；针对所述包含该行人的一个或多个视频帧中的每一个，将所获得的关键点距离信息与数据库中的已知人员的关键点距离信息进行对比，以获得身份信息；以及根据针对所述包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

示例性地，所述第三身份确定操作包括：针对所述包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点的位置与人体关键点的中心点位置之差，以获得位置差；结合针对所述包含该行人的一个或多个视频帧所获得的位置差确定该行人的运动信息；以及将所确定的运动信息与数据库中的已知人员的运动信息进行对比，以确定行人身份。

示例性地，所述对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计包括：对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作包括：对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在每个视频帧中的动作。

示例性地，所述对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为包括：在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

示例性地，在所述对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为之后，所述行人监控方法进一步包括：对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

示例性地，在所述对于所述一个或多个行人中的每一个，识别该行人的身份之后，所述行人监控方法进一步包括：

对所述一个或多个行人中的、属于未知人员的行人进行聚类。

根据本发明另一方面，提供一种行人监控装置。该行人监控装置包括视频获取模块、检测模块、身份识别模块、动作确定模块和异常行为确定模块。视频获取模块用于获取视频。检测模块用于检测所述视频包含的一个或多个行人。身份识别模块用于对于所述一个或多个行人中的每一个，识别该行人的身份。动作确定模块用于对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作。异常行为确定模块用于对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

示例性地，所述检测模块包括：行人检测子模块，用于针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及行人跟踪子模块，用于根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

示例性地，所述行人检测子模块包括：行人框检测单元，用于针对所述视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及选择单元，用于针对所述视频的选定视频帧中的每个视频帧，选择概率值超过阈值的行人框；其中，所述存在行人的位置为所选择的行人框的位置。

示例性地，所述行人监控装置进一步包括：姿态估计模块，用于对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

示例性地，所述行人监控装置进一步包括：平滑模块，用于对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

示例性地，所述姿态信息包括行人的人体关键点的位置。

示例性地，所述身份识别模块包括：

识别子模块，用于将通过下列身份确定操作之一所确定的行人身份作为该行人的身份，或者结合下列身份确定操作中的两项或三项所确定的行人身份来确定该行人的身份：

示例性地，所述姿态估计模块包括：第一特征图获得子模块，用于对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及位置确定子模块，用于基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述动作确定模块包括：第二特征图获得子模块，用于对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及动作获得子模块，用于将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的动作。

示例性地，所述异常行为确定模块包括：第一判断子模块，用于在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或第二判断子模块，用于在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

示例性地，所述行人监控装置进一步包括：警报模块，用于对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

示例性地，所述行人监控装置进一步包括：聚类模块，用于对所述一个或多个行人中的、属于未知人员的行人进行聚类。

根据本发明实施例的行人监控方法和装置，由于综合考虑行人的身份及其动作来判定其是否做出异常行为，因此可以更加智能、高效、准确地检测异常行为的发生，通过这种方法可以有效保障被监控区域的安全。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的行人监控方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的行人监控方法的示意性流程图；

图3示出根据本发明另一实施例的行人监控方法的示意性流程图；

图4示出根据本发明一个实施例的采用第二卷积神经网络和反馈式神经网络确定行人的动作的示意图；

图5示出根据本发明另一实施例的行人监控方法的示意性流程图；

图6示出根据本发明一个实施例的行人监控装置的示意性框图；以及

图7示出根据本发明一个实施例的行人监控***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明提出一种结合行人身份以及行人的动作来进行监控的方法。该方法可以同时检测行人的身份和行人的动作，并且可以利用例如事先定义好的一些规则来进行安全性的判定，以维护被监控区域的安全。本发明提出的方法可以很好地应用于安防监控领域，可以实时高效地解决监控安全问题。

首先，参照图1来描述用于实现根据本发明实施例的行人监控方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和视频采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述视频采集装置110可以采集视频，并且将所采集的视频存储在所述存储装置104中以供其它组件使用。视频采集装置110可以是监控摄像头。应当理解，视频采集装置110仅是示例，电子设备100可以不包括视频采集装置110。

示例性地，用于实现根据本发明实施例的行人监控方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的一种行人监控方法。图2示出根据本发明一个实施例的行人监控方法200的示意性流程图。如图2所示，行人监控方法200包括以下步骤。

在步骤S210，获取视频。

视频可以是任何合适的针对被监控区域采集的视频。视频可以是监控摄像头采集到的原始视频，也可以是对原始视频进行预处理之后获得的视频。

示例性地，视频可以来自普通的RGB摄像头，也可以来自能够采集深度信息的RGBD摄像头。

视频可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备100以由电子设备100的处理器102进行处理，也可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理。

在步骤S220，检测视频包含的一个或多个行人。

步骤S220的主要目的是将通过视频采集到的行人一一检测出来，这可以通过常规的行人检测和行人跟踪方法实现。

在步骤S230，对于一个或多个行人中的每一个，识别该行人的身份。

可以对从视频中检测出的一个或多个行人的身份进行识别。示例性地，识别行人的身份可以采用例如常规的人脸识别方法来实现。示例性地，可以根据行人在包含该行人的每个视频帧中的至少部分姿态信息识别该行人的身份。本文所述的姿态信息可以包括行人的人体关键点的位置。在获知人体关键点的位置的情况下，可以获得一些行人的个性化信息，例如人体关键点之间的距离等。由于每个人的人体关键点所处位置可能有较大区别，因此行人的姿态信息或基于姿态信息进一步获得的其他特征信息可以用来标识行人，也就是说，可以在一定程度上反映行人的身份。

行人的身份可以示例性地分为两种，即已知人员和未知人员。关于已知人员的信息可以事先存储在数据库中，该数据库可以存储在监控***的存储器中。在一个示例中，可以将人员信息录入或上传到监控***，这些被录入或上传信息的人员可以被视为已在监控***进行注册的已知人员。未知人员可以是在数据库中没有存储其信息的人员。这些未知人员可以被视为可疑人员。

在步骤S240，对于一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作。

可以分析行人在至少一个视频帧中的每个视频帧中的动作。在一个示例中，可以根据行人在视频帧中的姿态信息确定行人的动作。动作可以是事先定义好的动作，例如反复来回、长时间停留或某些特定的异常动作(诸如摔倒、打架)等。在定义动作时，动作的种类可以通过利用大量已知样本进行训练而获得。

在步骤S250，对于一个或多个行人中的每一个，根据该行人的身份和该行人在包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

对于已知人员和未知人员可以分别设定允许动作列表和/或禁止动作列表。对于已知人员来说，可以针对至少部分已知人员设定相同的允许动作列表和/或禁止动作列表，也可以分别针对每个已知人员设定与其相对应的允许动作列表和/或禁止动作列表。

在确定视频中的某个行人属于已知人员或未知人员之后，可以进一步判断其动作是否属于为其预先设定的允许动作(或禁止动作)。举例说明，假设确定视频中的行人X是已存储在数据库中的已知人员A，并且针对已知人员A预先设定了允许行为列表，例如其可以在被监控区域进行长时间停留。如果检测得知行人X的动作是长时间停留，则确定其未做出异常行为。但如果针对已知人员A的允许行为列表中并未规定其可以在被监控区域反复来回，而检测得知行人X的动作是反复来回，则确定其做出异常行为，在这种情况下，可以发出警报。对于禁止动作列表来说，当行人的动作属于记录在禁止动作列表中的动作时确定其做出异常行为，这与允许动作列表相反，本领域技术人员可以根据关于允许动作列表的描述理解其原理，在此不进行赘述。

在本发明实施例的一个示例中，步骤S220、步骤S230、步骤S240和步骤S250中的至少一个采用训练好的神经网络来实现。通过采用神经网络实现，可以使相关步骤更加智能和高效。

根据本发明实施例的行人监控方法，由于综合考虑行人的身份及其动作来判定其是否做出异常行为，因此可以更加智能、高效、准确地检测异常行为的发生，通过这种方法可以有效保障被监控区域的安全。

应注意，上述结合附图2描述的行人监控方法200仅是示例，其各步骤的执行顺序并不局限于附图2所示的执行顺序。例如，步骤S230可以在步骤S240之后执行或者与步骤S240同时执行。

示例性地，根据本发明实施例的行人监控方法可以在具有存储器和处理器的设备、装置或者***中实现。

根据本发明实施例的行人监控方法可以部署在视频采集端处，例如，可以部署在小区门禁***的视频采集端或者部署在诸如车站、商场、银行等公共场所的安防监控***的视频采集端。替代地，根据本发明实施例的行人监控方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集视频，客户端将采集到的视频传送给服务器端(或云端)，由服务器端(或云端)进行行人监控。

根据本发明实施例，步骤S220可以包括：针对视频的选定视频帧进行行人检测，以确定视频的选定视频帧中存在行人的位置；以及根据视频的选定视频帧中存在行人的位置对一个或多个行人中的每一个进行行人跟踪。

在本发明各个实施例中，选定视频帧可以为视频中的一部分视频帧，也可以为视频中的每个视频帧(即，全部视频帧)。

如上文所述，可以采用常规的行人检测和行人跟踪方法实现对一个或多个行人的检测。

在一个实施例中，针对视频的选定视频帧进行行人检测可以包括：针对视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及针对视频的选定视频帧中的每个视频帧，选择概率值超过阈值的行人框；其中，存在行人的位置为所选择的行人框的位置。

作为示例，可以利用基于区域的卷积神经网络超级加速版(Faster R-CNN)方法进行行人检测。简单来讲，针对视频的选定视频帧中的每个视频帧，可以首先利用区域建议网络(region proposal network,RPN)的小网络结构生成一系列可能的行人框，然后对每一个行人框使用比较复杂的三层全连接(fully-connected,fc)结构进行处理，得到此行人框的准确位置以及其属于行人的概率值。通过上述方式进行行人检测的好处是在检测速度和检测精度之间进行了权衡，可以同时获得较快的检测速度和较高的检测精度。

示例性地，行人检测过程中的损失函数可以通过整合分类损失(classificationloss)(即交叉熵)以及行人定位的回归损失(regression loss)(即欧式距离)获得。

在获得行人框的位置以及该行人框属于行人的概率值之后，可以根据概率值进行筛选，将概率值超过阈值的行人框视为实际包含行人在内的行人框，将概率值低于阈值的行人框舍弃。通过这种方式可以简单快速地确定在每个视频帧内实际包含行人在内的行人框及其所在位置。可选地，阈值可以根据经验设定或者可以利用样本数据训练获得，本发明不对此进行限制。

作为示例，可以利用传统的基于检测的跟踪(tracking-by-detection)算法进行行人跟踪。简单来说，主要是针对每个行人，将在不同视频帧中检测出的与该行人相对应的行人框关联起来。

在经过行人检测和行人跟踪之后，所得到的结果是每个行人都具有在其出现的每个视频帧上的一个行人框(或称边界盒，bounding-box)用来描述其位置。

根据本发明实施例，在对于一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作之前，行人监控方法可以进一步包括：对于一个或多个行人中的每一个，针对在包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

下面结合图3描述本实施例。图3示出根据本发明另一实施例的行人监控方法300的示意性流程图。

在图3中，步骤S310、S350、S370和S380分别与图2所示的行人监控方法200的步骤S210和S230-S250相对应，步骤S320-S340与图2所示的步骤S220相对应。参考上文描述可以理解图3所示的步骤S310-S350、S370和S380的实施方式，不再赘述。

如图3所示，在步骤S370之前，行人监控方法300进一步包括步骤S360。在步骤S360，对于一个或多个行人中的每一个，针对在包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

对于每个视频帧中的每个检测到的行人框，可以使用姿态估计(poseestimation)算法来确定行人框所对应的行人的姿态信息。在一个示例中，可以使用卷积姿态机器(Convolutional Pose Machines)算法进行人体姿态估计。如上文所述，姿态信息可以包括行人的人体关键点的位置。对于每一个检测到的行人，可以使用例如15个人体关键点来表示其姿态。本文所述的人体关键点可以是头部、左手、左肩、左手肘、左脚、左膝盖等部位。使用卷积姿态机器算法可以计算出每个行人在包含该行人的至少一个视频帧中的每个视频帧中的人体关键点的位置。

如上文所述，行人的姿态信息可以用于识别行人的身份。另外，行人的姿态信息还可以用于确定行人的动作。因此，确定行人的姿态信息有利于准确地确定行人的身份和动作，从而可以帮助提高监控安全性。

应注意，上述结合附图3描述的行人监控方法300仅是示例，其各步骤的执行顺序并不局限于附图3所示的执行顺序。例如，步骤S360可以在步骤S340之前、之后或与其同时执行，步骤S360还可以在步骤S350之前或与其同时执行。比较可取的是，步骤S360在步骤S340之后及步骤S350之前执行。

根据本发明实施例，在步骤S360之后，行人监控方法300可以进一步包括：对于一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

在获得针对视频中的某行人的行人跟踪结果(即将在不同视频帧中的、与该行人相对应的行人框关联起来)之后，如果发现行人在多个视频帧中的姿态的变化趋势与行人跟踪结果所指示的变化趋势偏差较大，可以对行人在多个视频帧中的姿态进行平滑处理(即平均化)，使得行人在多个视频帧中的姿态符合行人跟踪结果的变化趋势。利用行人跟踪结果对姿态信息进行平滑有利于提高姿态信息的准确度。

根据本发明实施例，步骤S350可以包括：将通过下列身份确定操作之一所确定的行人身份作为该行人的身份，或者结合下列身份确定操作中的两项或三项所确定的行人身份来确定该行人的身份：

如上文所述，行人的姿态信息或基于姿态信息进一步获得的其他特征信息可以用来标识行人，也就是说，可以在一定程度上反映行人的身份。具体地，根据行人的姿态信息及需要时的其他信息(例如与行人相对应的行人框的位置)可以获得行人的人脸信息、关键点距离信息和运动信息，进而根据人脸信息、关键点距离信息和运动信息中的任意一项或多项可以确定行人的身份。

在根据人脸信息、关键点距离信息和运动信息中的任意一项确定行人的身份的情况下，可以直接将根据这些信息之一所确定的行人身份视作行人的身份。在根据人脸信息、关键点距离信息和运动信息中的两项或三项确定行人的身份的情况下，可以为基于每种信息所确定的行人身份设定参考比重，根据参考比重综合考虑基于两种或三种信息所确定的行人身份，以最终确定行人的身份。

上述包含该行人的一个或多个视频帧可以是视频中的包含该行人的所有视频帧，也可以是包含该行人的所有视频帧中的一部分视频帧，其可以根据需要设定。

在一个示例中，人脸信息包括人脸位置，第一身份确定操作可以包括：针对包含该行人的一个或多个视频帧中的每一个，根据该行人在该视频帧中的姿态信息和在该视频帧中的、与该行人相对应的行人框的位置确定该行人在该视频帧中的人脸位置；针对包含该行人的一个或多个视频帧中的每一个，基于该行人在该视频帧中的人脸位置处的原始像素数据进行人脸识别，以获得身份信息；以及根据针对包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

人脸位置处的原始像素数据是指视频帧中的、在该人脸位置处的原始像素数据，例如RGB数据、RGBD数据等。

给定某行人的行人框的位置以及该行人的姿态信息，可以很容易地确定该行人的人脸所在的位置，即人脸位置。随后可以通过使用常规的人脸识别算法识别出人脸对应的身份信息，也就是行人的身份信息。

在针对包含行人的一个视频帧进行人脸识别以确定行人身份的情况下，可以直接将针对该视频帧识别出的身份信息视作最终确定的行人身份。在针对包含行人的多个视频帧进行人脸识别以确定行人身份的情况下，针对每个视频帧都可以获得一个身份信息，可以将获得次数最多的身份信息视作最终确定的行人身份。

在一个示例中，第二身份确定操作可以包括：针对包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点之间的距离，以获得关键点距离信息；针对包含该行人的一个或多个视频帧中的每一个，将所获得的关键点距离信息与数据库中的已知人员的关键点距离信息进行对比，以获得身份信息；以及根据针对包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

在第二身份确定操作中，可以计算若干人体关键点之间的距离。用来获得关键点距离信息的人体关键点可以根据需要确定，本发明不对此进行限制。例如，可以计算左手到左肩的距离、头部到身体中心的距离等，以获得关键点距离信息。在初始获取的视频的数据是RGBD数据的情况下，所得到的关键点距离信息会更准确。可以在数据库中预先存储已知人员的关键点距离信息，将第二身份确定操作中计算获得的关键点距离信息与已知人员的关键点距离信息进行对比，可以很容易地确定行人是否是已知人员以及是哪个已知人员。

与第一身份确定操作类似地，对于第二身份确定操作，在针对包含行人的一个视频帧进行关键点距离信息对比以确定行人身份的情况下，可以直接将针对该视频帧所获得的身份信息视作最终确定的行人身份。在针对包含行人的多个视频帧进行关键点距离信息对比以确定行人身份的情况下，针对每个视频帧都可以获得一个身份信息，可以将获得次数最多的身份信息视作最终确定的行人身份。

在一个示例中，第三身份确定操作可以包括：针对包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点的位置与人体关键点的中心点位置之差，以获得位置差；结合针对包含该行人的一个或多个视频帧所获得的位置差确定该行人的运动信息；以及将所确定的运动信息与数据库中的已知人员的运动信息进行对比，以确定行人身份。

中心点位置是行人的中心点的位置，其可以根据行人的各人体关键点的位置进行计算获得，当然，中心点可以属于人体关键点之一，中心点位置可以在上述确定行人的姿态信息的过程中获得。

可以将行人在每个视频帧中的人体关键点的位置减去中心点位置来获得位置差。针对每个视频帧均可以获得一个位置差，对多个视频帧的位置差进行整合，可以得到该行人的运动信息。可以在数据库中预先存储已知人员的运动信息，将第三身份确定操作中计算获得的运动信息与已知人员的运动信息进行对比，同样可以很容易地确定行人是否是已知人员以及是哪个已知人员。可选地，运动信息的对比可以利用神经网络实现。

根据本发明实施例，步骤S360可以包括：对于一个或多个行人中的每一个，将在包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及基于与该行人在包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在包含该行人的每个视频帧中的每个人体关键点的位置；

步骤S370可以包括：对于一个或多个行人中的每一个，将在包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及将该行人在包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在包含该行人的至少一个视频帧中的每个视频帧中的动作。

下面参考图4描述本实施例。图4示出根据本发明一个实施例的采用第二卷积神经网络和反馈式神经网络确定行人的动作的示意图。

在步骤S360中，可以利用第一卷积神经网络来进行行人姿态估计。应当注意，本文所述的“第一”、“第二”仅用于区分，而不代表顺序，更不代表数目。第一卷积神经网络实际上可以由多个卷积神经网络组成。

在利用第一卷积神经网络处理行人框时，可以获得第一特征图。该第一特征图中的每个值可以代表人体关键点在该值所对应的像素位置处出现的概率。在一个示例中，对于某行人在每个视频帧中的每个人体关键点，可以选择与该人体关键点相关的第一特征图中的最大值所对应的像素位置作为该人体关键点的位置。

在步骤S370，针对包含行人的至少一个视频帧中的每个视频帧，可以将在该视频帧中的、与行人相对应的行人框内的原始像素数据(在初始获取的视频的数据是RGBD数据的情况下，该原始像素数据是RGBD四个通道上的数据)和与该行人在该视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络，如图4所示。

第二卷积神经网络输出的中间结果也是特征图，本文称为第二特征图。可以将第二特征图输入随后的反馈式神经网络。应当明白，反馈式神经网络内部存在反馈机制，其可以将上一视频帧经反馈式神经网络处理后的输出结果和当前视频帧的第二特征图一起作为反馈式神经网络的输入。这样，可以建立每个视频帧中的动作与上一视频帧中的动作之间的相关性。也就是说，虽然对于某行人来说，针对包含该行人的每个视频帧可以输出该行人的一个动作，但是该动作可以由之前的若干视频帧的动作决定，例如“长时间停留”这样的动作可以是在当前视频帧及之前的若干个视频帧中均检测到行人而导致在当前视频帧中判定该行人在被监控区域长时间停留。应当理解，上述动作的判定方式仅是示例而非对本发明的限制，本发明可以有其他合理的判定方式。

上述第一卷积神经网络、第二卷积神经网络和反馈式神经网络可以预先利用大量样本数据进行训练获得。

根据本发明实施例，上述步骤S250(或S380)可以包括：在该行人是特定已知人员的情况下，判断该行人在包含该行人的至少一个视频帧中的动作是否属于与特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或在该行人是未知人员的情况下，判断该行人在包含该行人的至少一个视频帧中的动作是否属于与未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

如上文所述，可以事先对每个已知人员设定一系列允许动作列表。例如已知人员A可以在被监控区域进行长时间停留等。然后根据在步骤S230(或S350)得到的行人的身份，判断此行人在被监控区域中的动作是否符合规则，如果发生不符合规则的动作，则可以确定行人做出异常行为，可以发出警报。

另外，对于未知人员，也可以事先设定一系列规则，例如本文所述的允许动作列表，说明允许未知人员做出的动作。如果发生不在允许动作列表中的动作，则可以确定该行人做出异常行为，可以发出警报。

另外，对于一些特殊的异常动作，例如摔倒、打架等，也可以认为行人做出异常行为。为此，可以将这些特殊的异常动作列入禁止行为列表中，对于已知人员和未知人员可以使用至少部分相同的禁止行为列表，使得对于无论已知人员还是未知人员，只要发生这些特殊的异常动作，均可以认为其做出异常行为。

可以理解，为已知人员或未知人员设定的允许动作和/或禁止动作除与人员本身权限相关外，还可以与被监控区域所处的场景相关。例如对于家庭环境，可以仅允许已知人员A进入及长时间停留，而对于办公环境，可以允许已知人员A至F进入及长时间停留，另外，对于诸如公园的公共场所，可以允许任何未知人员进入及长时间停留。

图5示出根据本发明另一实施例的行人监控方法500的示意性流程图。图5所示的行人监控方法500的步骤S510-S550分别与图2所示的行人监控方法200的步骤S210-S250相对应，本领域技术人员结合上述对图2所示的人脸监控方法200的描述可以理解本实施例的上述步骤，在此不再赘述。根据本实施例，在步骤S550之后，行人监控方法500可以进一步包括步骤S560。

在步骤S560，对于一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

发出警报可以是发出告警信号，告警信号可以是诸如蜂鸣声的音频信号、诸如告警指示灯的光学信号等。

可选地，除警报之外，还可以将做出异常行为的行人的视频数据(例如包含其的原始视频帧和/或针对其检测出的行人框)和/或其身份信息输出，以方便用户(如行人监控***的管理员)及时发现和查看可疑人员。

在行人做出异常行为的情况下及时发出警报，这可以有效地维护被监控区域的安全。

应当理解，在行人监控方法300中，在步骤S380之后，也可以执行上述步骤S560的操作。

根据本发明实施例，在步骤S230(或S350)之后，行人监控方法200(或300)可以进一步包括：对一个或多个行人中的、属于未知人员的行人进行聚类。

在识别行人的身份时，如果确定行人不属于已存储在数据库中的已知人员，则确定其为未知人员。可以对检测到的所有未知人员进行聚类。聚类就是将不同视频帧中的同一未知人员关联起来。由于行人在经过被监控区域时，可能在走进被监控区域之后又走出被监控区域，随后重新走进被监控区域。这样，在一段视频中，该行人可以出现在两组不连续的视频帧中。在两组视频帧中，分别跟踪到该行人。可以将这两次跟踪到的行人关联起来，聚类为同一行人。这样做可以节约计算量，避免无意义的计算，还可以提高行人跟踪的准确度，有利于改进监控效果。

根据本发明另一方面，提供一种行人监控装置。图6示出了根据本发明一个实施例的行人监控装置600的示意性框图。

如图6所示，根据本发明实施例的行人监控装置600包括视频获取模块610、检测模块620、身份识别模块630、动作确定模块640和异常行为确定模块650。

视频获取模块610用于获取视频。视频获取模块610可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

检测模块620用于检测视频包含的一个或多个行人。检测模块620可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

身份识别模块630用于对于一个或多个行人中的每一个，识别该行人的身份。身份识别模块630可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

动作确定模块640用于对于一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作。动作确定模块640可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

异常行为确定模块650用于对于一个或多个行人中的每一个，根据该行人的身份和该行人在包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。异常行为确定模块650可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，所述检测模块620可以包括：行人检测子模块，用于针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及行人跟踪子模块，用于根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

根据本发明实施例，所述行人检测子模块可以包括：行人框检测单元，用于针对所述视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及选择单元，用于针对所述视频的选定视频帧中的每个视频帧，选择概率值超过阈值的行人框；其中，所述存在行人的位置为所选择的行人框的位置。

根据本发明实施例，所述行人监控装置600可以进一步包括：姿态估计模块，用于对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

根据本发明实施例，所述行人监控装置600可以进一步包括：平滑模块，用于对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

根据本发明实施例，所述姿态信息可以包括行人的人体关键点的位置。

根据本发明实施例，所述身份识别模块630可以包括：

根据本发明实施例，所述姿态估计模块可以包括：第一特征图获得子模块，用于对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及位置确定子模块，用于基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述动作确定模块640可以包括：第二特征图获得子模块，用于对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及动作获得子模块，用于将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在每个视频帧中的动作。

根据本发明实施例，所述异常行为确定模块650可以包括：第一判断子模块，用于在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或第二判断子模块，用于在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

根据本发明实施例，所述行人监控装置600可以进一步包括：警报模块，用于对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

根据本发明实施例，所述行人监控装置600可以进一步包括：聚类模块，用于对所述一个或多个行人中的、属于未知人员的行人进行聚类。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图7示出了根据本发明一个实施例的行人监控***700的示意性框图。行人监控***700包括视频采集装置710、存储装置720、以及处理器730。

视频采集装置710用于采集视频。视频采集装置710是可选的，行人监控***700可以不包括视频采集装置710。

所述存储装置720存储用于实现根据本发明实施例的行人监控方法中的相应步骤的程序代码。

所述处理器730用于运行所述存储装置720中存储的程序代码，以执行根据本发明实施例的行人监控方法的相应步骤，并且用于实现根据本发明实施例的行人监控装置中的视频获取模块610、检测模块620、身份识别模块630、动作确定模块640和异常行为确定模块650。

在一个实施例中，所述程序代码被所述处理器730运行时使所述行人监控***700执行以下步骤：获取视频；检测所述视频包含的一个或多个行人；对于所述一个或多个行人中的每一个，识别该行人的身份；对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作；以及对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

在一个实施例中，所述程序代码被所述处理器730运行时使所述行人监控***700所执行的检测所述视频包含的一个或多个行人的步骤包括：针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

在一个实施例中，所述程序代码被所述处理器730运行时使所述行人监控***700所执行的针对所述视频的选定视频帧进行行人检测的步骤包括：针对所述视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及针对所述视频的每个视频帧，选择概率值超过阈值的行人框；其中，所述存在行人的位置为所选择的行人框的位置。

在一个实施例中，在所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作的步骤之前，所述程序代码被所述处理器730运行时使所述行人监控***700进一步执行：对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

在一个实施例中，在所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计的步骤之后，所述程序代码被所述处理器730运行时使所述行人监控***700进一步执行：对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

在一个实施例中，所述姿态信息包括行人的人体关键点的位置。

在一个实施例中，所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，识别该行人的身份的步骤包括：将通过下列身份确定操作之一所确定的行人身份作为该行人的身份，或者结合下列身份确定操作中的两项或三项所确定的行人身份来确定该行人的身份：

在一个实施例中，所述人脸信息包括人脸位置，所述第一身份确定操作包括：针对所述包含该行人的一个或多个视频帧中的每一个，根据该行人在该视频帧中的姿态信息和在该视频帧中的、与该行人相对应的行人框的位置确定该行人在该视频帧中的人脸位置；针对所述包含该行人的一个或多个视频帧中的每一个，基于该行人在该视频帧中的人脸位置处的原始像素数据进行人脸识别，以获得身份信息；以及根据针对所述包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

在一个实施例中，所述第二身份确定操作包括：针对所述包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点之间的距离，以获得关键点距离信息；针对所述包含该行人的一个或多个视频帧中的每一个，将所获得的关键点距离信息与数据库中的已知人员的关键点距离信息进行对比，以获得身份信息；以及根据针对所述包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

在一个实施例中，所述第三身份确定操作包括：针对所述包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点的位置与人体关键点的中心点位置之差，以获得位置差；结合针对所述包含该行人的一个或多个视频帧所获得的位置差确定该行人的运动信息；以及将所确定的运动信息与数据库中的已知人员的运动信息进行对比，以确定行人身份。

在一个实施例中，所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计的步骤包括：对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作的步骤包括：对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的动作。

在一个实施例中，所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为的步骤包括：在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

在一个实施例中，在所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为的步骤之后，所述程序代码被所述处理器730运行时使所述行人监控***700进一步执行：对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

在一个实施例中，在所述程序代码被所述处理器730运行时使所述行人监控***700所执行的对于所述一个或多个行人中的每一个，识别该行人的身份的步骤之后，所述程序代码被所述处理器730运行时使所述行人监控***700进一步执行：对所述一个或多个行人中的、属于未知人员的行人进行聚类。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的行人监控方法的相应步骤，并且用于实现根据本发明实施例的行人监控装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的行人监控装置的各个功能模块，并且/或者可以执行根据本发明实施例的行人监控方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取视频；检测所述视频包含的一个或多个行人；对于所述一个或多个行人中的每一个，识别该行人的身份；对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作；以及对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的检测所述视频包含的一个或多个行人的步骤包括：针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的针对所述视频的选定视频帧进行行人检测的步骤包括：针对所述视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及针对所述视频的选定视频帧中的每个视频帧，选择概率值超过阈值的行人框；其中，所述存在行人的位置为所选择的行人框的位置。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作的步骤之前，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计的步骤之后，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，识别该行人的身份的步骤包括：将通过下列身份确定操作之一所确定的行人身份作为该行人的身份，或者结合下列身份确定操作中的两项或三项所确定的行人身份来确定该行人的身份：

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计的步骤包括：对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作的步骤包括：对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的动作。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为的步骤包括：在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为的步骤之后，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的对于所述一个或多个行人中的每一个，识别该行人的身份的步骤之后，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：对所述一个或多个行人中的、属于未知人员的行人进行聚类。

根据本发明实施例的行人监控***中的各模块可以通过根据本发明实施例的实施行人监控的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的行人监控方法及装置，由于综合考虑行人的身份及其动作来判定其是否做出异常行为，因此可以更加智能、高效、准确地检测异常行为的发生，通过这种方法可以有效保障被监控区域的安全。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的行人监控装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人监控方法，包括：

获取视频；

检测所述视频包含的一个或多个行人；

对于所述一个或多个行人中的每一个，

识别该行人的身份；

确定该行人在包含该行人的至少一个视频帧中的动作；以及

根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

2.如权利要求1所述的行人监控方法，其中，所述检测所述视频包含的一个或多个行人包括：

针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及

根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

3.如权利要求2所述的行人监控方法，其中，所述针对所述视频的选定视频帧进行行人检测包括：

针对所述视频的选定视频帧中的每个视频帧，

检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及

选择概率值超过阈值的行人框；

其中，所述存在行人的位置为所选择的行人框的位置。

4.如权利要求3所述的行人监控方法，其中，在所述对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作之前，所述行人监控方法进一步包括：

对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

5.如权利要求4所述的行人监控方法，其中，在所述对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计之后，所述行人监控方法进一步包括：

对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

6.如权利要求4或5所述的行人监控方法，其中，所述姿态信息包括行人的人体关键点的位置。

7.如权利要求6所述的行人监控方法，其中，所述对于所述一个或多个行人中的每一个，识别该行人的身份包括：

8.如权利要求7所述的行人监控方法，其中，所述人脸信息包括人脸位置，所述第一身份确定操作包括：

针对所述包含该行人的一个或多个视频帧中的每一个，

根据该行人在该视频帧中的姿态信息和在该视频帧中的、与该行人相对应的行人框的位置确定该行人在该视频帧中的人脸位置；

基于该行人在该视频帧中的人脸位置处的原始像素数据进行人脸识别，以获得身份信息；以及

根据针对所述包含该行人的一个或多个视频帧所获得的身份信息确定行人身份。

9.如权利要求7所述的行人监控方法，其中，所述第二身份确定操作包括：

针对所述包含该行人的一个或多个视频帧中的每一个，

计算该行人在该视频帧中的人体关键点之间的距离，以获得关键点距离信息；

将所获得的关键点距离信息与数据库中的已知人员的关键点距离信息进行对比，以获得身份信息；以及

10.如权利要求7所述的行人监控方法，其中，所述第三身份确定操作包括：

针对所述包含该行人的一个或多个视频帧中的每一个，计算该行人在该视频帧中的人体关键点的位置与人体关键点的中心点位置之差，以获得位置差；

结合针对所述包含该行人的一个或多个视频帧所获得的位置差确定该行人的运动信息；以及

将所确定的运动信息与数据库中的已知人员的运动信息进行对比，以确定行人身份。

11.如权利要求6所述的行人监控方法，其中，

所述对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计包括：

对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及

基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作包括：

对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及

将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的动作。

12.如权利要求1所述的行人监控方法，其中，所述对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为包括：

在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或

在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

13.如权利要求1所述的行人监控方法，其中，在所述对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为之后，所述行人监控方法进一步包括：

对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

14.如权利要求1所述的行人监控方法，其中，在所述对于所述一个或多个行人中的每一个，识别该行人的身份之后，所述行人监控方法进一步包括：

15.一种行人监控装置，包括：

视频获取模块，用于获取视频；

检测模块，用于检测所述视频包含的一个或多个行人；

身份识别模块，用于对于所述一个或多个行人中的每一个，识别该行人的身份；

动作确定模块，用于对于所述一个或多个行人中的每一个，确定该行人在包含该行人的至少一个视频帧中的动作；以及

异常行为确定模块，用于对于所述一个或多个行人中的每一个，根据该行人的身份和该行人在所述包含该行人的至少一个视频帧中的动作确定该行人是否做出异常行为。

16.如权利要求15所述的行人监控装置，其中，所述检测模块包括：

行人检测子模块，用于针对所述视频的选定视频帧进行行人检测，以确定所述视频的选定视频帧中存在行人的位置；以及

行人跟踪子模块，用于根据所述视频的选定视频帧中存在行人的位置对所述一个或多个行人中的每一个进行行人跟踪。

17.如权利要求16所述的行人监控装置，其中，所述行人检测子模块包括：

行人框检测单元，用于针对所述视频的选定视频帧中的每个视频帧，检测该视频帧中的包含行人的行人框的位置及行人框属于行人的概率值；以及

选择单元，用于针对所述视频的选定视频帧中的每个视频帧，选择概率值超过阈值的行人框；

其中，所述存在行人的位置为所选择的行人框的位置。

18.如权利要求17所述的行人监控装置，其中，所述行人监控装置进一步包括：

姿态估计模块，用于对于所述一个或多个行人中的每一个，针对在所述包含该行人的至少一个视频帧中的、与该行人相对应的行人框进行行人姿态估计，以确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息。

19.如权利要求18所述的行人监控装置，其中，所述行人监控装置进一步包括：

平滑模块，用于对于所述一个或多个行人中的每一个，根据该行人的行人跟踪结果对该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的姿态信息进行时间轴上的平滑。

20.如权利要求18或19所述的行人监控装置，其中，所述姿态信息包括行人的人体关键点的位置。

21.如权利要求20所述的行人监控装置，其中，所述身份识别模块包括：

22.如权利要求20所述的行人监控装置，其中，

所述姿态估计模块包括：

第一特征图获得子模块，用于对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据输入第一卷积神经网络，以获得与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图，其中，所述第一特征图中的每个值代表人体关键点在该值所对应的像素位置处出现的概率；以及

位置确定子模块，用于基于所述与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图确定该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点的位置；

所述动作确定模块包括：

第二特征图获得子模块，用于对于所述一个或多个行人中的每一个，将在所述包含该行人的至少一个视频帧中的每个视频帧中的、与该行人相对应的行人框内的原始像素数据和与该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的每个人体关键点相关的第一特征图输入第二卷积神经网络进行特征提取，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图；以及

动作获得子模块，用于将该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的第二特征图输入反馈式神经网络，以获得该行人在所述包含该行人的至少一个视频帧中的每个视频帧中的动作。

23.如权利要求15所述的行人监控装置，其中，所述异常行为确定模块包括：

第一判断子模块，用于在该行人是特定已知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述特定已知人员相对应的允许动作，如果不是，则确定该行人做出异常行为；和/或

第二判断子模块，用于在该行人是未知人员的情况下，判断该行人在所述包含该行人的至少一个视频帧中的动作是否属于与所述未知人员相对应的允许动作，如果不是，则确定该行人做出异常行为。

24.如权利要求15所述的行人监控装置，其中，所述行人监控装置进一步包括：

警报模块，用于对于所述一个或多个行人中的每一个，如果确定该行人做出异常行为，则发出警报。

25.如权利要求15所述的行人监控装置，其中，所述行人监控装置进一步包括：

聚类模块，用于对所述一个或多个行人中的、属于未知人员的行人进行聚类。