CN114494962A

CN114494962A - 对象识别方法、网络训练方法、装置、设备及介质

Info

Publication number: CN114494962A
Application number: CN202210082276.3A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13
Also published as: WO2023138154A1

Abstract

本申请实施例公开了一种对象识别方法、网络训练方法、装置、设备及介质；其中，所述对象识别方法包括：获取画面包括目标对象的待识别视频帧；所述待识别视频帧为所述目标对象的视频流中的任一视频帧；基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列；对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列；对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹；基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。

Description

对象识别方法、网络训练方法、装置、设备及介质

技术领域

本申请实施例涉及图像处理领域，尤其涉及一种对象识别方法、网络训练方法、装置、设备及介质。

背景技术

相关技术中，基于光流或帧梯度等像素法从视频流识别异常视频帧，易受受视频画面中的噪声的影响，使得识别结果不佳。

发明内容

本申请实施例提供一种对象识别技术方案。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种对象识别方法，所述方法包括：

获取画面包括目标对象的待识别视频帧；所述待识别视频帧为所述目标对象的视频流中的任一视频帧；

基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列；

对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列；

对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹；

基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。

在一些实施例中，所述基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列，包括：分别对所述待识别视频帧和所述历史视频帧进行关键点识别，得到所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点；分别基于所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点，确定所述待识别视频帧中的所述姿态信息和所述历史视频帧中的所述姿态信息；按照所述历史视频帧和所述待识别视频帧之间的时序关系，将所述历史视频帧中的姿态信息和所述待识别视频帧中的姿态信息进行排序，得到初始姿态序列。如此，能够在确定精准度较高的姿态信息的基础上，提高确定初始姿态序列的精准度。

在一些实施例中，所述对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列，包括：基于每一初始姿态中关键点的位置信息，得到用于确定相邻初始姿态位移的中心点序列，以及所述初始姿态序列的归一化姿态序列；基于所述中心点序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。如此，可以实现将待识别视频帧中目标对象的姿态情况映射至前期运动对应的特定概率，进而能够基于历史姿态信息以及当前姿态信息对待识别视频帧中目标对象的姿态信息进行表征。

在一些实施例中，所述基于所述每一初始姿态中关键点的位置信息，得到用于确定相邻初始姿态位移的中心点序列，以及所述初始姿态序列的归一化姿态序列，包括：基于所述每一初始姿态中关键点的位置信息，确定所述每一初始姿态的包围框；在所述初始姿态序列中，对所述每一初始姿态的包围框的中心点进行排序，得到所述中心点序列；采用所述每一初始姿态的包围框，对所述每一初始姿态进行归一化，得到所述归一化姿态序列。如此，能够提高确定的中心点序列以及归一化姿态序列的准确度；同时基于对每一初始姿态进行归一化操作，得到对应的归一化数据即归一化姿态序列，以便后续基于该归一化数据提高确定目标姿态序列的精度和速度。

在一些实施例中，所述基于所述中心点序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列，包括：在所述中心点序列中，基于每两个相邻中心点的位置信息之间的差值，得到位移序列；基于所述每一初始姿态的包围框的尺寸信息，对所述位移序列中每一位移进行归一化，得到归一化位移序列；基于所述归一化位移序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。如此，能够使得确定的目标姿态序列能够更加精准地匹配待识别视频帧中目标对象的运动信息。

在一些实施例中，所述基于所述归一化位移序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列，包括：拟合所述归一化位移序列中每一归一化位移，得到拟合结果；确定所述拟合结果满足的连续分布函数；将所述每一归一化位移输入所述连续分布函数，得到所述每一归一化位移的缩放概率；基于所述每一归一化位移的缩放概率，对每一归一化姿态进行映射，得到所述目标姿态序列。如此，基于特定概率对历史姿态信息以及当前姿态信息对待识别视频帧中目标对象的姿态信息进行映射，能够提高表征待识别视频帧中目标对象的运动信息，即目标姿态序列的精准度。

在一些实施例中，所述对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹，包括：在所述目标姿态序列中，基于每一目标姿态的关键点，对所述每一目标姿态进行特征转换，得到待调整特征序列；对每一待调整特征在空间和时间上进行特征维度调整，得到所述姿态特征轨迹。如此，能够现对目标姿态序列中每一目标姿态在时间维度和空间维度上进行特征转换以及维度调整，进而得到与待识别视频帧中目标对象的运动信息更加匹配的姿态特征轨迹。

在一些实施例中，所述对每一待调整特征在空间和时间上进行特征维度调整，得到所述姿态特征轨迹，包括：将每一待调整特征和所述每一待调整特征的预设空间特征进行融合，得到空间特征序列；基于空间维度在注意力机制中的注意力参数，对所述空间特征序列进行多层维度调整，得到空间姿态特征序列；将每一空间姿态特征和所述每一空间姿态特征的预设时间特征进行融合，得到时间特征序列；基于时间维度在注意力机制中的注意力参数，对所述时间特征序列进行多层维度调整，得到所述姿态特征轨迹；其中，上一层维度调整的输出为下一层维度调整的输入。如此，能够使得确定的姿态特征轨迹精准度更高。

在一些实施例中，所述基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态之后，所述方法还包括：获取所述待识别视频帧对应的场景信息；确定与所述场景信息关联的预设行为规则；采用所述预设行为规则，确定所述行为状态所属的所述待识别视频帧是否为异常视频帧。如此，能够更加精准且便捷地确定视频帧是否属于异常视频帧。

在一些实施例中，所述目标对象包括至少两个待识别对象，所述采用所述预设行为规则确定所述行为状态所属的所述待识别视频帧是否为异常视频帧，包括：采用所述预设行为规则，对所述至少两个待识别对象中每一待识别对象的行为状态进行识别，得到行为识别结果集；对每一行为识别结果的置信度进行排序，得到结果评分序列；基于处于所述结果评分序列中预设位置对应的行为识别结果，确定所述待识别视频帧是否为所述异常视频帧。如此，能够提高识别视频帧异常的精准度。

本申请实施例提供一种对象识别网络的训练方法，所述方法包括：

获取包括样本对象的样本视频帧；其中，所述样本视频帧为所述样本对象的样本视频流中的任一视频帧；

确定所述样本视频帧中所述样本对象的样本归一化姿态序列；

采用待训练的对象识别网络，对所述样本归一化姿态序列进行概率映射，得到样本姿态序列；

将所述样本姿态序列在空间和时间上进行特征转换，得到所述样本视频帧中所述样本对象的样本姿态特征轨迹；

对所述样本姿态特征轨迹进行姿态重建，得到重建姿态序列；

确定所述重建姿态序列和所述样本归一化姿态序列之间相似度的重建损失；

基于所述重建损失，对所述待训练的对象识别网络的网络参数进行调整，以使调整后的对象识别网络输出的重建损失满足收敛条件。

本申请实施例提供一种对象识别装置，所述装置包括：

第一获取模块，用于获取画面包括目标对象的待识别视频帧；所述待识别视频帧为所述目标对象的视频流中的任一视频帧；

第一确定模块，用于基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列；

第一映射模块，用于对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列；

第一转换模块，用于对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹；

第二确定模块，用于基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。

本申请实施例提供一种对象识别网络的训练装置，所述装置包括：

第二获取模块，用于获取包括样本对象的样本视频帧；其中，所述样本视频帧为所述样本对象的样本视频流中的任一视频帧；

第三确定模块，用于确定所述样本视频帧中所述样本对象的样本归一化姿态序列；

第二映射模块，用于采用待训练的对象识别网络，对所述样本归一化姿态序列进行概率映射，得到样本姿态序列；

第二转换模块，用于将所述样本姿态序列在空间和时间上进行特征转换，得到所述样本视频帧中所述样本对象的样本姿态特征轨迹；

重建模块，用于对所述样本姿态特征轨迹进行姿态重建，得到重建姿态序列；

第四确定模块，用于确定所述重建姿态序列和所述样本归一化姿态序列之间相似度的重建损失；

调整模块，用于基于所述重建损失，对所述待训练的对象识别网络的网络参数进行调整，以使调整后的对象识别网络输出的重建损失满足收敛条件。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的对象识别方法，或，对象识别网络的训练方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的对象识别方法，或，对象识别网络的训练方法。

本申请实施例提供一种对象识别方法、网络训练方法、装置、设备及介质，首先，获取画面包括目标对象的待识别视频帧，所述待识别视频帧为所述目标对象的视频流中的任一视频帧；其次，基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列；然后，对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列，如此，可以将待识别视频帧中目标对象的姿态情况映射至前期运动对应的特定概率；最后，对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹；并基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。如此，通过目标对象在时间维度和空间维度上的动态姿态信息，能够提高确定待识别视频帧中目标对象的运动信息的准确度，进而能够提高基于姿态特征确定待识别视频帧中目标对象的行为状态的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请实施例提供的第一种对象识别方法的流程示意图；

图2为本申请实施例提供的第二种对象识别方法的流程示意图；

图3为本申请实施例提供的一种对象识别网络的训练方法的流程示意图；

图4为本申请实施例提供的一种基于运动嵌入器将姿态轨迹转换为概率域中运动特征的示意图；

图5为本申请实施例提供的一种对象识别网络的训练方法的框架示意图；

图6为本申请实施例提供的一种时空转换器的结构示意图；

图7为本申请实施例提供的一种时空转换器内部处理流程的示意图；

图8A为本申请实施例提供的一种对象识别装置的结构组成示意图；

图8B为本申请实施例提供的一种对象识别网络的训练装置的结构组成示意图；

图9为本申请实施例提供的一种计算机设备的结构组成示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请实施例，但不用来限制本申请实施例的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请实施例。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)归一化：是一种简化计算的方式，即将有量纲的表达式经过变换，化为无量纲的表达式，成为标量；其中，归一化是一种无量纲处理手段，使物理***数值的绝对值变成某种相对值关系。其主要用于简化计算量，缩小量值。

2)置信度：在统计学中，一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围，即前面所要求的“一定概率”。这个概率被称为置信水平。

下面说明本申请实施例提供的对象识别设备的示例性应用，本申请实施例提供的设备可以实施为具有图像采集功能的笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

该方法可以应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

本申请实施例提供一种对象识别方法，如图1所示，为本申请实施例提供的第一种对象识别方法的流程示意图；结合图1所示步骤进行以下说明：

步骤S101，获取画面包括目标对象的待识别视频帧。

在一些实施例中，所述待识别视频帧为所述目标对象的视频流中的任一视频帧。可以通过具有图像采集功能的设备对目标对象进行图像采集，得到视频流，也可以是直接获取其他设备发送的视频流；同时从该视频流中随机选取任一视频帧，作为待识别视频帧。

在一些实施例中，视频流可以是设置于预设区域内的，具有采集功能的至少一个设备对该预设区域内进行采集得到的。其中，至少一个设备中每一设备可以设置于预设区域内的多个采集点位，以实现对预设区域内的相关信息，比如：出现在预设区域内的目标对象进行采集。同时预设区域可以是现实场景中的任一区域，比如：商场、公园或道路等，还可以是道路十字路口等。

在一些实施例中，视频流也可以是相关设备对目标对象进行图像采集得到，其中，视频流可以包括至少一个场景信息，即在该视频流中目标对象可以处于多个场景中。在本申请以下实施例中，目标对象可以是在道路上行走的路人，也可以是行驶在道路上的车辆，也可以是在公园中奔跑的小狗等。

在一些实施例中，待识别视频帧的视频画面中包括的目标对象的数量可以是一个、两个及以上。同时在包括的目标对象的数量为两个及以上时，不同目标对象在待识别视频帧中所处的区域可以相邻、远离或部分重叠等，且不同目标对象在待识别视频帧中所占区域面积可以相同，也可不同。在本申请以下实施例中，均以目标对象的数量为一个为例进行说明。

在一些实施例中，视频流中的不同视频帧包括的目标对象所呈现的姿态可以相同，也可以不同。示例性地，在目标对象为人的情况下，不同视频帧中包括的人可以是正在行走、跑步、站立等。

步骤S102，基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列。

在一些实施例中，待识别视频帧在视频流中的历史视频帧，可以指代在视频流中，处于待识别视频帧所在的时序之前，且与该待识别视频帧相邻的至少一帧视频帧；其中，该历史视频帧的数量可以是一帧，也可以是两帧及以上。

在一些实施例中，可以首先，分别对待识别视频帧和历史视频帧进行目标对象的关键点识别，以得到待识别视频帧中目标对象的关键点，以及历史视频帧中目标对象的关键点；然后，基于待识别视频帧中目标对象的关键点，以及历史视频帧中目标对象的关键点，确定待识别视频帧中目标对象的姿态信息和历史视频帧中目标对象的姿态信息；最后按照历史视频帧和待识别视频帧之间的时序关系，将历史视频帧中的姿态信息和待识别视频帧中的姿态信息进行排序，得到目标对象的初始姿态序列。

在一些实施例中，在目标对象为人的情况下，可以是分别对待识别视频帧和历史视频帧进行人体关键点或人体关节点识别，进而得到待识别视频帧中的人体关键点和历史视频帧中的人体关键点，然后基于待识别视频帧中的人体关键点和历史视频帧中的人体关键点，分别得到待识别视频帧中的人体姿态信息，以历史视频帧中的人体姿态信息；最后基于历史视频帧和待识别视频帧之间的时序关系，将历史视频帧中的人体姿态信息和待识别视频帧中的人体姿态信息进行排序，得到初始姿态序列。

在一些实施例中，该初始姿态序列中每一初始姿态可以基于目标对象的关键点在对应的视频帧中的位置信息来表示；其中，该位置信息可以是目标对象的关键点在对应的视频帧中的二维坐标信息。

步骤S103，对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列。

在一些实施例中，对确定的目标对象的初始姿态序列进行概率映射，即历史视频帧和待识别视频帧各自画面中的姿态信息进行相关映射，得到待识别视频帧中目标对象的目标姿态序列。

在一些实施例中，概率映射可以指代基于初始姿态序列中初始姿态的关键点的位置信息，对每一初始姿态进行概率映射。同时待识别视频帧中目标对象的目标姿态序列可以基于历史视频帧和待识别视频帧之间的时序关系，对确定的目标姿态进行排序确定得到的。

在一些实施例中，在历史视频帧的数量为7帧的情况下，该初始姿态序列对应地包括8帧视频帧(7帧历史视频帧和待识别视频帧)中具有的目标对象的姿态数据；首先，对该8帧视频帧中目标对象的姿态数据进行概率映射，可以是基于每一帧视频帧目标对象的姿态数据，例如：姿态位置信息或像素信息，确定相关概率参数，然后基于该概率参数对应的对8帧视频帧中每一视频帧的姿态数据进行融合，得到能够表征待识别视频帧中目标对象的运动姿态，即目标对象的目标姿态序列。

在一些实施例中，目标姿态序列包括多帧视频帧中的姿态数据，每一帧视频帧中的姿态数据可以是使用姿态数据的关键点来表征，同时关键点可以是以关键点在对应的视频帧画面中的坐标信息来表示的。

步骤S104，对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹。

在一些实施例中，可以是对确定的目标姿态序列依次在时间维度和空间维度上进行特征转换，进而得到待识别视频帧中目标对象的姿态特征轨迹；其中，可以是将目标姿态序列输入至包括有空间转换器和时间转换器的网络中进行特征转换，以得到对应的姿态特征轨迹。

在一些实施例中，可以是先将目标姿态序列中每一目标姿态的关键点对应的坐标信息转换为特征向量，然后基于注意力参数，对转换后的特征向量在时间维度和空间维度上进行调整，以得到最后的姿态特征轨迹。

步骤S105，基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。

在一些实施例中，可以基于确定的姿态特征轨迹，确定待识别视频帧中目标对象的行为状态；其中，该行为状态可以是目标对象的运动信息，比如：目标对象处于行走、跳跃、站立等。其中，可以是将姿态特征轨迹输入至对应的网络模型，以确定与该姿态特征轨迹对应的行为状态。

在一些实施例中，在确定待识别视频帧中目标对象的行为状态之后，可以对基于与待识别视频帧关联的场景信息，对该行为状态进行识别，进而确定该待识别视频帧是否为异常视频帧。示例性地，在确定待识别视频帧中目标对象的行为状态是在跳跃之后，获取与待识别视频帧关联的场景信息，比如：十字路口的斑马线；然后确定与该场景信息关联的预设行为规则；最后基于该预设行为规则确定该行为状态，即跳跃为异常行为，进而确定待识别视频帧为异常视频帧。

在一些实施例中，对于视频画面包括目标对象的视频流中任一待识别视频帧的画面进行异常识别；其中，首先，可以确定待识别视频帧在视频流中的历史视频帧，同时获取待识别视频帧中目标对象的姿态信息，以及历史视频帧中目标对象的姿态信息；其次，基于历史视频频中的姿态信息，以及待识别视频帧中的姿态信息确定目标对象的初始姿态序列，并对该初始姿态序列进行相关归一化操作以及映射操作，确定用于表征待识别视频帧中目标对象的运动信息的目标姿态序列；然后将该目标姿态序列转换为特征向量，同时对该特征向量在空间维度和时间维度上进行特征转换以及维度调整，以得到表征待识别视频帧中目标对象运动情况的姿态特征轨迹；最后，基于该姿态特征轨迹，即动态特征信息确定待识别视频帧中目标对象的行为状态，并基于该行为状态确定待识别视频帧是否为异常视频帧。

本申请实施例提供的对象识别方法，首先，获取画面包括目标对象的待识别视频帧，所述待识别视频帧为所述目标对象的视频流中的任一视频帧；其次，基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列；然后，对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列，如此，可以将待识别视频帧中目标对象的姿态情况映射至前期运动对应的特定概率；最后，对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹；并基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。如此，通过目标对象在时间维度和空间维度上的动态姿态信息，能够提高确定待识别视频帧中目标对象的运动信息的准确度，进而能够提高基于姿态特征确定待识别视频帧中目标对象的行为状态的准确度。

在一些实施例中，分别基于历史视频帧中目标对象的关键点，以及待识别视频帧中目标对象的关键点，确定待识别视频帧中的姿态信息和历史视频帧中的姿态信息；进而分别基于待识别视频帧中的姿态信息和历史视频帧中的姿态信息，得到目标对象的初始姿态序列；如此，能够在确定精准度较高的姿态信息的基础上，提高确定初始姿态序列的精准度。即上述实施例提供的步骤S102可以通过以下步骤S201至步骤S203来实现。如图2所示，为本申请实施例提供的第二种对象识别方法的流程示意图，结合图1和图2所示的步骤进行以下说明：

步骤S201，分别对所述待识别视频帧和所述历史视频帧进行关键点识别，得到所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点。

在一些实施例中，可以采用已训练好的神经网络，分别对待识别视频帧和历史视频帧进行关键点识别，进而得到待识别视频帧中目标对象的关键点，以及历史视频帧中目标对象的关键点；其中，已训练好的神经网络可是任一神经网络，本申请实施例对此不作任何限定。

在一些实施例中，在目标对象为人的情况下，可以分别对待识别视频帧和历史视频帧进行人体关键点，即人体关节点识别，得到待识别视频帧和历史视频帧各自包含的人体关节点。其中，人体关节点可以包括17个关节点，比如：鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右胯、左右膝、左右踝。

步骤S202，分别基于所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点，确定所述待识别视频帧中的所述姿态信息和所述历史视频帧中的所述姿态信息。

在一些实施例中，可以是基于待识别视频帧中目标对象的关键点，来表征待识别视频帧中目标对象的姿态信息，同时基于历史视频帧中目标对象的关键点，来表征历史视频帧中目标对象的姿态信息；示例性地，可以是基于待识别视频帧中目标对象的关键点的位置信息来表征待识别视频帧中目标对象的姿态信息；其中，该位置信息可以指代任一关键点在待识别视频帧中的坐标信息。同理，在历史视频帧中也可采用上述方式对目标对象的姿态信息进行表征。

步骤S203，按照所述历史视频帧和所述待识别视频帧之间的时序关系，将所述历史视频帧中的姿态信息和所述待识别视频帧中的姿态信息进行排序，得到初始姿态序列。

在一些实施例中，可以是按照历史视频帧和待识别视频帧之间的时序关系，将历史视频帧中的姿态信息和待识别视频帧中的姿态信息依次进行排序，得到初始姿态序列；示例性地，在P_n+1表征待识别视频帧中的姿态信息，P₁至P_n表征多帧历史视频帧中的姿态信息，初始姿态序列可以使用[P₁,...,P_n,P_n+1]来表示。同时，初始姿态序列中每一初始姿态可以基于上文所描述的，使用关键点在对应视频帧中的坐标信息进行表征。

在一些可能的实现方式中，可以对该初始姿态序列中每一初始姿态进行相关归一化操作以及映射操作，得到待识别视频帧中目标对象的目标姿态序列。如此，可以实现将待识别视频帧中目标对象的姿态情况映射至前期运动对应的特定概率，进而能够基于历史姿态信息以及当前姿态信息对待识别视频帧中目标对象的姿态信息进行表征；也就是实现基于动态参数来表征待识别视频帧中目标对象的姿态信息，进而能够提高表征待识别视频帧中目标对象的运动信息的精准度。即上述实施例提供的步骤S103可以通过以下步骤S204和步骤S205来实现：

步骤S204，基于每一初始姿态中关键点的位置信息，得到用于确定相邻初始姿态位移的中心点序列，以及所述初始姿态序列的归一化姿态序列。

在一些实施例中，可以基于初始姿态序列中每一初始姿态中关键点的位置信息，确定用于确定相邻初始姿态位移的中心点序列，以及初始姿态序列对应的归一化姿态序列。

在一些可能的实现方式中，可以基于每一初始姿态中关键点的位置信息，确定每一初始姿态的包围框，进而基于该包围框和初始姿态，对应的确定中心点序列，以及归一化姿态序列。如此，能够提高确定的中心点序列以及归一化姿态序列的准确度；同时基于对每一初始姿态进行归一化操作，得到对应的归一化数据，即归一化姿态序列，以便后续基于该归一化数据提高确定目标姿态序列的精度和速度。即上述步骤S204可以通过以下步骤S241至步骤S243来实现(图中未示出)：

步骤S241，基于所述每一初始姿态中关键点的位置信息，确定所述每一初始姿态的包围框。

在一些实施例中，可以是在对应的视频帧中确定能够包围该初始姿态的最小矩形框，即能够包围每一初始姿态中关键点的位置信息的最小矩形框。其中，不同初始姿态的包围框的尺寸可以相同，也可不同，同时不同初始姿态的包围框在对应的视频帧中的位置信息可以相同，也可不同。

在一些实施例中，在关键点的位置信息为关键点在对应视频帧中的坐标信息的情况下，首先，可以将每一初始姿态中关键点的位置信息进行比对，确定出一个最小坐标点和一个最大坐标点，然后基于该最小坐标点和最大坐标点，确定能够包围该最小坐标点和最大坐标点的最小矩形框，即每一初始姿态的包围框。

步骤S242，在所述初始姿态序列中，对所述每一初始姿态的包围框的中心点进行排序，得到所述中心点序列。

在一些实施例中，确定每一初始姿态的包围框的中心点，然后将该每一初始姿态的包围框的中心，基于初始姿态序列中初始姿态的序列信息进行排序，得到中心点序列。其中，每一初始姿态的包围框的中心点可以基于中心点的位置信息，即在对应的视频帧中的坐标信息来表征。

步骤S243，采用所述每一初始姿态的包围框，对所述每一初始姿态进行归一化，得到所述归一化姿态序列。

在一些实施例中，采用每一初始姿态的包围框，对每一初始姿态进行归一化，得到归一化姿态序列；其中，可以是采用每一初始姿态的包围框的尺寸信息，比如包围框的宽和高，对每一初始姿态进行归一化处理，得到每一初始姿态对应的归一化姿态，进而得到归一化姿态序列。

步骤S205，基于所述中心点序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。

在一些实施例中，归一化姿态序列与初始姿态序列对应，同时中心点序列是与初始姿态序列中每一初始姿态的包围框对应，即中心点序列与归一化姿态序列对应；这里，基于中心点序列对应的对归一化姿态序列中每一归一化姿态进行概率映射，得到对应的目标姿态序列。示例性地，可以是基于中心点序列确定对应的概率参数，最后基于该概率参数，对归一化姿态序列中每一归一化姿态进行概率映射，得到目标姿态序列。

在一些可能的实现方式中，可以基于中心点序列中相邻中心点之间的关系，确定与中心点序列对应的归一化位移序列，然后基于该归一化位移序列对归一化姿态序列进行概率映射，得到目标姿态序列；如此，能够使得目标姿态序列同时考虑到目标对象的先前运动以及当前运动信息，进而使得确定的目标姿态序列能够更加精准地匹配待识别视频帧中目标对象的运动信息。即上述步骤S205可以通过以下步骤S251至步骤S253来实现(图中未示出)：

步骤S251，在所述中心点序列中，基于每两个相邻中心点的位置信息之间的差值，得到位移序列。

在一些实施例中，在中心点序列中，可以按照中心点的排列顺序，将每两个相邻中心点的位置信息之间的差值，确定为相邻中心点中前一个中心点或后一个中心点对应的位移，进而得到位移序列；其中，相邻中心点的位置信息，即相邻视频帧中确定的能够包围初始姿态的包围框的中心点，在对应视频帧中的坐标信息。

在一些实施例中，在中心点的位置信息以二维坐标来表示的情况下，可以将每两个相邻中心点的横坐标之间的差值，以及每两个相邻中心点的纵坐标之间的差值，进行相关函数计算，得到该两个相邻中心点的位移。

步骤S252，基于所述每一初始姿态的包围框的尺寸信息，对所述位移序列中每一位移进行归一化，得到归一化位移序列。

在一些实施例中，可以基于每一初始姿态的包围框的尺寸信息，比如，包围框的高和宽，对位移序列中每一位移进行归一化，得到归一化位移序列。示例性地，可以是采用每一初始姿态的包围框的尺寸信息，比如包围框的长和宽相加，得到对应的尺寸信息，然后对位移序列中每一位移基于对应的尺寸信息进行相除，得到归一化位移序列。

步骤S253，基于所述归一化位移序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。

在一些实施例中，基于确定的归一化位移序列，对归一化姿态序列进行概率映射，得到对应的目标姿态序列；即可以将归一化姿态序列映射至特定概率，以表征待识别视频帧中目标对象的运动信息，即目标姿态序列。

这里，基于归一化位移序列对归一化姿态序列进行概率映射，能够提高确定目标姿态序列的精准度和速度。

在一些可能的实现方式中，可以确定与归一化位移序列关联的连续分布函数，进而将每一归一化位移输入至该连续分布函数，确定对应的缩放因子，即缩放概率，最后基于该缩放概率对归一化姿态序列中每一归一化姿态进行映射，得到目标姿态序列。如此，基于特定概率对历史姿态信息以及当前姿态信息对待识别视频帧中目标对象的姿态信息进行映射，能够提高表征待识别视频帧中目标对象的运动信息，即目标姿态序列的精准度。即上述步骤S253可以通过以下过程实现：

第一步，拟合所述归一化位移序列中每一归一化位移，得到拟合结果。

在一些实施例中，采用预设函数，比如：瑞利分布(Rayleigh Distribution)拟合归一化位移序列中每一归一化位移，得到拟合结果。也可以是使用高斯分布拟合归一化位移序列中每一归一化位移，得到拟合结果。

第二步，确定所述拟合结果满足的连续分布函数。

在一些实施例中，确定该拟合结果满足的连续分布函数；其中，该连续分布函数可以是常规函数表示式进行表示，也可以使用文字描述进行表示。

第三步，将所述每一归一化位移输入所述连续分布函数，得到所述每一归一化位移的缩放概率。

在一些实施例中，可以将每一归一化位移输入至该连续分布函数，得到每一归一化位移对应的缩放因子，即缩放概率。

第四步，基于所述每一归一化位移的缩放概率，对每一归一化姿态进行映射，得到所述目标姿态序列。

这里，归一化姿态序列与初始姿态序列对应，同时每一归一化位移对应的缩放概率，与中心点序列，即初始姿态序列中每一中心点对应(基于中心点序列确定归一化位移序列)；进而，可以直将归一化姿态序列中每一归一化姿态，与每一归一化位移的缩放概率进行融合，得到目标姿态序列；即可以将每一归一化姿态与每一归一化位移的缩放概率进行相除，得到目标姿态序列。

这里，将上文得到的目标姿态序列输入至时空转换器，能够现对目标姿态序列中每一目标姿态在时间维度和空间维度上进行特征转换以及维度调整，进而得到与待识别视频帧中目标对象的运动信息更加匹配的姿态特征轨迹。即上述实施例提供的步骤S104可以通过以下步骤S206和步骤S207来实现：

步骤S206，在所述目标姿态序列中，基于每一目标姿态的关键点，对所述每一目标姿态进行特征转换，得到待调整特征序列。

在一些实施例中，在目标姿态序列中，可以基于每一目标姿态包括多个关键点，对每一目标姿态的关键点信息进行特征转换，即实现对每一目标姿态进行特征转换，从而得到待调整特征序列。

步骤S207，对每一待调整特征在空间和时间上进行特征维度调整，得到所述姿态特征轨迹。

在一些实施例中，可以依次基于空间维度在注意力机制中的注意力参数，以及时间维度在注意力机制中的注意力参数，对每一待调整特征进行特征融合以及维度调整，从而得到姿态特征轨迹。

在一些可能的实现方式中，可以将待调整特征序列依次在空间维度和时间维度进行调整，以得到最终的姿态特征轨迹。如此，能够使得确定的姿态特征轨迹精准度更高。即上述步骤S207可以通过以下步骤S271至步骤S274来实现(图中未示出)：

步骤S271，将每一待调整特征和所述每一待调整特征的预设空间特征进行融合，得到空间特征序列。

在一些实施例中，每一待调整特征的预设空间特征，可以是在空间维度上与每一待调整特征中关键点的属性相关的空间特征参数。示例性地，在目标对象为人的情况下，人的不同关键点对应的待调整特征的预设空间特征不同，其是与关键点在人***置以及人体关键点的属性确定的。

在一些实施例中，可以是基于关键点，对每一待调整特征和每一待调整特征的预设空间特征进行融合，得到空间特征序列；其中，每一待调整特征对应每一目标姿态，每一目标姿态包括多个关键点；也就是说，每一待调整特征对应的同一目标姿态的多个关键点。

步骤S272，基于空间维度在注意力机制中的注意力参数，对所述空间特征序列进行多层维度调整，得到空间姿态特征序列。

在一些实施例中，可以基于空间维度在注意力机制中的注意力参数，比如：查询值(Query)、键值(Key)、矩阵(Value matrix)，对空间特征序列中每一空间特征进行多层维度调整，进而得到空间姿态特征序列。

步骤S273，将每一空间姿态特征和所述每一空间姿态特征的预设时间特征进行融合，得到时间特征序列。

在一些实施例中，每一空间姿态特征的预设时间特征，可以是在时间维度上与每一空间姿态特征中关键点的属性相关的时间特征参数。示例性地，在目标对象为人的情况下，人的不同关键点对应的待调整特征的预设时间特征不同，其是与关键点在人***置以及人体关键点的属性确定的。

在一些实施例中，可以是基于关键点，对每一空间姿态特征和每一空间姿态特征的预设时间特征进行融合，得到时间间特征序列；其中，每一空间姿态特征对应每一目标姿态，每一目标姿态包括多个关键点；也就是说，每一空间姿态特征对应的同一目标姿态的多个关键点。

步骤S274，基于时间维度在注意力机制中的注意力参数，对所述时间特征序列进行多层维度调整，得到所述姿态特征轨迹。

其中，上一层维度调整的输出为下一层维度调整的输入。

在一些实施例中，可以基于时间维度在注意力机制中的注意力参数，对时间特征序列中每一时间特征进行多层维度调整或特征编码，进而得到姿态特征轨迹。

这里，时间维度在注意力机制中的注意力参数，与空间维度在注意力机制中的注意力参数一一对应，其与输入的特征参数相关联。同时，在多层维度调整时，上一层维度调整的输出即为下一层维度调整的输入；示例性地，第一层调整之后得到的特征，直接作为第二层的输入。

这里，本申请实施例提供的对象识别方法中，在基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态之后，即在上述实施例提供的步骤S105之后，还可以执行以下过程：

首先，获取所述待识别视频帧对应的场景信息。

在一些实施例中，获取待识别视频帧对应的场景信息，比如：办公室、公园、停车场等。

其次，确定与所述场景信息关联的预设行为规则。

在一些实施例中，确定与场景信息关联的预设行为规则，这里，在场景信息为办公室的情况下，其关联的预设行为规则为处于办公室中的办公人员仅允许正常办公，以及与他人沟通，但不允许办公人员躺着休息等。在场景信息为停车场的情况下，其关联的预设行为规则为处于停车场的车辆允许停放、允许低速行驶，但不允许高速行驶等。

最后，采用所述预设行为规则，确定所述行为状态所属的所述待识别视频帧是否为异常视频帧。

在一些实施例中，采用该预设行为规则对行为状态进行识别，以确定该行为状态是否属于异常行为状态，进而以确定行为状态所属的待识别视频帧是否为异常视频帧。如此，能够更加精准且便捷地确定视频帧是否属于异常视频帧。

在一些可能的实现方式中，所述目标对象包括至少两个待识别对象，上述采用所述预设行为规则，确定所述行为状态所属的所述待识别视频帧是否为异常视频帧，可以通过以下步骤来实现：

第一步，采用所述预设行为规则，对所述至少两个待识别对象中每一待识别对象的行为状态进行识别，得到行为识别结果集。

在一些实施例中，采用预设行为规则，对每一待识别对象的行为状态进行识别，确定每一待识别对象的行为识别结果，进而得到行为识别结果集；其中，每一待识别对象的行为识别结果可以使用异常和正常进行表示。

第二步，对每一行为识别结果的置信度进行排序，得到结果评分序列。

在一些实施例中，对每一行为识别结果的置信度进行排序，得到结果评分序列。其中，置信度可以是与识别结果中的行为状态关联，也可以与改行为状态所对应的画面清晰度关联。

第三步，基于处于所述结果评分序列中预设位置对应的行为识别结果，确定所述待识别视频帧是否为所述异常视频帧。

在一些实施例中，将处于结果评分序列中预设位置对应的行为识别结果，确定为待识别视频帧的目标识别结果，进而基于该目标识别结果确定待识别视频帧是否为异常视频帧。如此，能够提高检测视频帧异常的精准度。

在一些实施例中，可以采用对象识别网络实现对待识别视频帧中的目标对象记性识别，进而得到待识别视频帧中目标对象的行为状态；其中，对象识别网络为对待训练的对象识别网络进行训练得到的，待训练的对象识别网络的训练可以如图3所示的步骤实现，图3为本申请实施例提供的一种对象识别网络的训练方法的流程示意图；结合图3所示步骤进行以下说明：

步骤S31，获取包括样本对象的样本视频帧。

其中，所述样本视频帧为所述样本对象的样本视频流中的任一视频帧。

在一些实施例中，可以通过具有图像采集功能的设备对相关场景或对象进行采集，得到样本视频帧；其中，样本视频帧中样本对象的数量可以是一个，也可以是两个及以上，在本申请实施例中，以样本对象的数量为一个进行示例说明。

步骤S32，确定所述样本视频帧中所述样本对象的样本归一化姿态序列。

在一些实施例中，可以首先在样本视频流中确定与样本视频帧的样本历史视频帧，然后将样本历史视频帧的目标对象的样本姿态信息，以及样本视频帧这种样本对象的样本姿态信息，以样本历史视频帧和样本视频帧之间的时序关系，进行排序，得到样本视频帧中样本对象的样本归一化姿态序列；然后对第一样本姿态序列进行归一化处理，得到样本归一化姿态序列，这里实现过程可以与上述步S203和步骤S204的实现过程类似，即确定表征样本视频帧中样本对象的运动信息的归一化姿态数据。

在一些实施例中，样本归一化姿态序列中包括多个样本归一化姿态，且多个样本归一化姿态基于样本对象所在样本视频帧在样本视频流中的时序信息进行排序，同时样本归一化姿态信息可以基于样本视频帧中姿态中包含的关键点来表征。

步骤S33，采用待训练的对象识别网络，对所述样本归一化姿态序列进行概率映射，得到样本姿态序列。

这里，步骤S33的实现过程与上述步骤S205的实现过程类似，即将样本视频帧中样本对象的姿态情况映射至前期运动对应的特定概率，进而确定样本视频帧中样本对象的样本姿态序列。

步骤S34，将所述样本姿态序列在空间和时间上进行特征转换，得到所述样本视频帧中所述样本对象的样本姿态特征轨迹。

这里，步骤S34的实现过程与上述步骤S104，以及步骤S206和步骤S207的实现过程类似，即确定样本姿态序列输入至包括有空间转换器和时间转换器的网络中进行特征转换，以得到对应的样本姿态特征轨迹。

在一些实施例中，这里将样本姿态序列输入至对应的转换网络时，可以对样本姿态序列中每一样本姿态中关键点进行部分掩膜，以降低网络中的相关数据的计算量，进而能够提高运行速度。

步骤S35，对所述样本姿态特征轨迹进行姿态重建，得到重建姿态序列。

在一些实施例中，可以基于样本姿态特征轨迹进行姿态重建，即对应的得到与样本姿态特征轨迹关联的重建姿态序列，这里是可以对该样本姿态特征轨迹从特征向量转换为坐标参数，进而以得到对应的重建姿态序列。

步骤S36，确定所述重建姿态序列和所述样本归一化姿态序列之间相似度的重建损失。

在一些实施例中，确定重建姿态序列与样本归一化姿态序列之间相似度的重建损失，可以是对重建姿态序列与样本归一化姿态序列，基于每一姿态中关键点的坐标信息之间的相似度进行计算，以得到该重建损失。其中，还可以是对重建姿态序列与样本归一化姿态序列，基于每一姿态中关键点的坐标信息之间的相似度以及每一姿态中关键点的置信度进行计算，以得到该重建损失。

步骤S37，基于所述重建损失，对所述待训练的对象识别网络的网络参数进行调整，以使调整后的对象识别网络输出的重建损失满足收敛条件。

在一些实施例中，基于重建损失对待训练的对象识别网络的网络参数进行调整，使得调整后的对象识别网络输出的重建损失满足收敛条件。

这里，通过上述步骤S31至步骤S37，在待训练的对象识别网络中，基于相关姿态序列的概率映射以及在时间维度和空间维度上的特征转换以及调整，引入对样本视频帧中样本归一化姿态序列和重建姿态序列之间相似度进行监督的重建损失；如此，通过对待训练的对象识别网络进行训练，能够提高整个网络的识别精度，从而能够得到性能较高的对象识别网络；即能够使得训练好的对象识别网络在识别视频流中任一视频帧中对象的信息运动的精准度更高。

下面结合一个具体实施例对上述对象识别方法以及对象识别网络的训练方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请实施例，并不构成对本申请实施例的不当限定。

相关技术中，基于姿态方法进行异常视频帧检测也存在一定局限性。原因在于基于姿态方法是基于视频帧中的静态特征，而视频帧异常检测更依赖于动态特征。因此，有效的运动表示对于异常视频帧检测中规则的视频模式学习至关重要。在这种情况下，基于姿态方法中静态特征实现检测模型会因同时学习运动和正常状态而不堪重负，从而会降低检测模型的性能。

本申请实施例提供的对象识别方法，以及对象识别网络的训练方法中，给出了一种基于运动先验规则学习器(Motion Prior Regularity Learner，MoPRL)来缓解上述基于姿态的方法的局限性。MoPRL由运动嵌入器(Motion Embedder，ME)和时空转换器(Spatial-Temporal Transformer，STT)两个子模块组成。其中，ME用于从概率的角度提取输入姿态的时空表示；其中，基于相邻帧之间姿态中心点之间的位移来建模姿态运动。同时将这种运动进一步变换到概率域中。即通过统计得到运动先验信息，它代表了位移在训练数据上的显式分布。也就是说，为表示相应的运动，将每个姿态位移被映射到基于先前运动的特定概率。同时采用设计的姿态掩蔽策略，将STT作为特定于任务的模型，通过输入ME的姿态及其运动特征来学习规则模式。本申请实施例提供的对象识别网络的框架采用了自监督顺序输入结构，自然适合姿态规则学习。

基于本申请中的MoPRL，能够基于ME实现在概率域中直观地表示一帧视频帧中目标对象的姿态运动，为其规则性学习提供了有效的姿态运动表示。同时能够利用具有姿态掩蔽和注意力分散的STT来模拟姿态轨迹的规律性。以下为实现本申请实施例提供的对象识别网络的训练方法的实现步骤，这里默认样本对象为人进行以下说明：

第一步，获取样本视频流；其中，样本视频流可以使用训练集D_train＝{F₁,...,F_m}表示，其中，F_i表征样本视频流中任一视频帧。同时在样本视频流中每一视频帧包括已标注姿态信息的样本对象，即可使用测试集D_test＝{(F₁,L₁),...,(F_n,L_n)}来表示；其中，L_i∈{0,1}，其表示在训练集和测试集中存在正常样本和异常样本。

第二步，在样本视频流中确定样本视频帧的样本历史视频帧，即可以通过对样本视频帧基于窗口滑动，确定在样本视频流中处于样本视频帧之前，且与样本视频帧相邻的至少一帧样本历史视频帧。示例性地，在样本视频帧为样本视频流中的第8帧视频帧的情况下，其样本历史视频帧可以是样本视频流中的前7帧视频帧，以下均以第8帧样本视频帧为例进行说明。

第三步，基于人体姿态识别，分别对样本历史视频帧和样本视频帧进行人体姿态识别，得到以人体关键点表征的人体姿态信息；其中，每一人体姿态可以使用P_i＝{J_i,1,...,J_i,k}表示；其中，i表示样本历史视频帧和样本视频帧中的视频帧，k表示单个人体姿态中的人体的最大关节数，即J_i,j表示第i个人体姿态中的第j个关节点。其中每一关节点可以使用坐标(x_i,j,y_i,j)来表示。

第四步，使用前8帧样本视频帧中的人体姿态轨迹序列，即S_i＝{P₁,...,P_t}，t表示该人体姿态轨迹序列包括的姿态数量，在本实施例中，j等于8，若样本视频帧画面中包括l个人的情况下，可以使用F_i＝{S₁,...,S_l}表示。

其中，按照历史样本视频帧和样本视频帧在样本视频流中的时序关系，将历史样本视频帧中的人体姿态和样本视频帧中的人体姿态进行排序，得到表征样本视频帧的样本人体姿态序列S_i＝{P₁,...,P_t}。

第五步，然后确定能够人体姿态序列中每一样本人体姿态的最小矩形框，然后将其对应的最小矩形框的中心点，确定为每一样本人体姿态的中心点，即(x_i,y_i)，同时基于每一样本人体姿态的最小矩形框的尺寸，比如最小矩形框的宽和高：(w_i,h_i)；对每一样本人体姿态序列中的样本人体姿态进行归一化处理，即对每一样本人体姿态序列中的样本人体姿态中每一关节点进行归一化处理，得到每一样本人体姿态的归一化表达序列，即

其中，对应地得到每一样本人体姿态中每一关节点对应的标准化坐标参数，即

第六步，将第五步得到每一样本人体姿态的归一化表示序列

每一样本人体姿态的中心点(x_i,y_i)以及每一样本人体姿态的最小矩形框的宽和高(w_i,h_i)输入至ME，得到样本视频帧中对应的样本目标姿态序列。其中可以通过以下过程来实现：

首先，基于历史样本视频帧和样本视频帧在样本视频流中的时序关系，计算历史样本视频帧和样本视频帧中每相邻两个视频帧中样本人体姿态的中心点对应的样本归一化位移，其可以通过以下公式(1)和公式(2)来实现：

其中，υ_i表征每两个相邻样本视频帧中样本人体中心点的位移，即样本人体姿态P_i到样本人体姿态P_i+1的平均速度，这里υ_i可以表征样本历史视频帧和样本视频帧中的第i视频帧对应的位移；同时基于每两个相邻样本视频帧中样本人体中心的位移与每一样本人体姿态对应的最小矩形框的尺寸，确定表征第i视频帧对应的样本归一化位移

也就是样本人体姿态P_i(样本归一化人体姿态

)对应的归一化位移

其次，使用预设拟合函数拟合以上

进而得到与此离散化数据集

匹配的预定义分布函数分布，通过它我们可以得到连续的位移分布函数。在训练过程中证明瑞利分布匹配上述归一化位移

对应的位移分布函数性能参数最优。这里，为了获得包含时间和空间信息的多层次信息表示，将归一化的姿态

(代表空间信息和运动先验)结合起来，这里更多体现在时间上，进而将每一归一化位移

输入至对应的位移分布函数，得到与该归一化位移

匹配的缩放因子，可以使用概率参数来表示，如公式(3)所示：

其中，ρ为与离散化数据集

匹配的预定义分布函数分布，即连续的位移分布函数；s_i为与

对应的缩放因子。

最后，利用公式(4)计算每一归一化的姿态

进行缩放操作之后对应的姿态特征，即表征嵌入运动的姿势融合第i个姿势的空间和时间信息。即称之为运动模块的原因嵌入器。这里为了避免数值误差，可以将缩放因子用作分母。如此，在出现频率较低所对应的姿态的情况下，可以获得更大尺寸的姿势。

其中，P_i＝[J_i,1,...,J_i,j]表征样本视频帧的目标样本姿态序列可以使用[P₁，...，P_t]表征。如图4所示，为本申请实施例提供的一种基于运动嵌入器ME将姿态轨迹转换为概率域中运动特征的示意图；其中，401和402分别为输入至ME中的不同样本归一化人体姿态序列；其中，401为已标注的正常姿态轨迹，402为已标注的异常姿态轨迹。405为确定的与样本人体的运动概率对应的连续分布函数；将401和402分别映射至该连续分布函数，得到对应的缩放因子；进而基于401和402分别于对应的缩放因子的倒数相乘，得到401对应的目标样本姿态序列403，以及402对应的目标样本姿态序列405；其中，因402中表征的为异常姿态轨迹，其对应的缩放因子，即映射至相关运动信息的概率值较小，进而得到对应的目标样本姿态序列中的姿态尺寸较大。

第七步，为了更好地学习人体姿势轨迹的规律性，本申请实施例中使用时空转换器，即STT来处理第六步中基于运动嵌入器得到具有时间和空间信息的参数，因为其具有对序列数据建模的公认优势。然而，传统的时空变换器模型的数据计算复杂度为O((N×T)²)(其中，N是单个姿势中的关节数，T是单个姿态轨迹中的姿势数)，即该O随着N和T的增加呈指数增长。基于此，可以基于注意力机制将时空变换器划分为两大部分，即时空转换部分和时间转换部分，进而能够得到数据计算复杂度为O(N²+T²)的模型。这里，将这种模型称为STT；其中，STT包含L_s层网络的空间变换器和L_t层网络的时间变换器。同时充分发挥STT的潜力，可以将L_s和L_t视为超参数，通过训练确定其对应的具体数值。

首先，进行姿态掩膜处理，这一部分在对象识别网络的训练过程进行，在应用过程可以省略此步，其为了降低数据计算量同时提高模型处理的鲁棒性。对于任意掩蔽姿势嵌入。在输入至时空变换器之前，我们首先对于任一样本归一化姿态中的任一关节点J_i,j，将其映射到嵌入获得关节向量z_i,j，其中，z_i,j∈R^C，同时C是嵌入维度，如下式(5)所示：

其中，mask(·)是在J_i,j上以预设概率运行的掩码函数，E∈R^C×2为一训练参数。同时，

表征与第j个关节点的属性对应的空间特征向量；进而得到第i个姿态，即与P_i＝[J_i,1,...,J_i,j]对应的特征向量，Z_i＝[z_i,0,...,z_i,N]，这里，整个目标样本姿态序列[P₁，...，P_t]对应的特征向量，可以使用Z＝[Z₁,...,Z_T]来表征。

其次，在具有L_s层网络的空间域，即空间转换器中，且姿态轨迹对应的Z∈R^T×N×C的情况下，基于注意力机制对应的参数对确定的特征向量进行特征维度调整或特征编码；其中，第l层的输入轨迹表示为Z^l，且l∈[1,L_s]。具有L_s层的空间域多层操作可通过以下方式进行，如公式(6)至公式(8)：

其中，Q、K、V分别是查询、键和值矩阵，同时，W_Q、W_Q、W_V均属于R^C×C。这里，下标l_n表示L_s层的空间域规范化后的张量参数，其中，softmax和fc分别代表softmax操作和完全连接层。同时时空转换器利用多层多头注意力机制对应的参数进行注意力操作，能够得到性能参数更够的携带空间信息的特征参数。这里，上一层维度调整的输出为下一层维度调整的输入。

最后，在具有L_t层网络的时间域，即时间转换器中，将从空间转换器的L_s层输出的每一样本姿态的关节点对应的空间特征向量

进行空间维度上的注意力机制参数进行调整，如公式(9)所示：

其中，

表征与第j个关节点的属性对应的时间特征向量。

同时，在时间转换器对应操作如公式(6)至(8)所示，这里不再做细节阐述。在时间转换器的L_t层输入最终的表征样本视频帧的动态特征，即Z°。

第八步，训练过程，通过常用的重建方法实现训练过程，即，将[P₁，...，P_t](其中，[P₁，...，P_t]对应样本归一化姿态序列

)作为输入，其对应得到对应的Z°之后，对该Z°进行姿态重建得到

即如公式(10)所示：

然后，计算

和

之间在每一样本姿态中的每一关节点上的相似度损失，如公式(11)所示：

其中，式中ω^i,j是每个姿势关节的置信度；同时

是重建

中每个姿态的关节点的坐标信息。

最后，基于第八步得到的损失Loss训练对象识别网络，以使调整后的对象识别网络输出的重建损失满足收敛条件。

这里，在对对象识别网络进行训练，得到训练好的对象识别网络之后，将测试的视频流输入至该训练好的对象识别网络，得到对应的识别结果。

其中，将需要测试的视频流输入至训练好的对象识别网络之后，得到视频流中视频帧中包括的m个对象的动态轨迹特征。对每一动态轨迹特征所对应的行为进行异常评分，即A_m,n，其中，m和n分别表示视频帧中第n帧轨迹的第m帧姿态特征，同时A_m,n满足一下公式(12)：

其中，从中选取异常评分最高分所对应的动态特征轨迹，基于其确定视频流中视频帧是否属于异常视频帧，即通过公式(13)选取最高A_m。

A_m＝max(A_m,n) 公式(13)；

基于上述对象识别网络的训练方法，如图5所示，为本申请实施例提供的一种对象识别网络的训练方法的框架示意图；其中，501为确定样本视频流中任一样本视频帧中样本对象(此处以样本对象的数量为1进行说明)样本姿态信息(包括多帧姿态信息)，将其输入至MoPRL的ME，即502中进行概率映射，得到该样本视频帧中样本对象的样本姿态序列，即503。其次，将503得到的样本姿态序列输入至MoPRL中的STT，即504中进行特征转换，以模拟样本姿态序列中的规律性进而得到样本姿态特征轨迹，即：第一步先进行姿态掩膜以及姿态嵌入得到与每一姿态中的关节点对应的特征向量；第二步，将第一步得到的与每一姿态中的关节点对应的特征向量，依次输入空间转换器(具有L_s层网络的空间域)和时间转换器(具有L_t层网络的时间域)进行特征编码，得到对应的样本姿态特征轨迹；第三步，对该样本姿态特征轨迹进行姿态重建，得到重建姿态序列，即505；最后，确定重建姿态序列和样本姿态信息之间相似度的重建损失即506，并基于该重建损失对待训练的对象识别网络的网络参数进行调整，以使调整后的对象识别网络输出的重建损失满足收敛条件。

同时，如图6所示，示出本申请实施例提供的一种时空转换器的结构示意图；其中601为空间转换器，602为时间转换器，603为最终输出的姿态特征轨迹，其中603中的姿态特征轨迹以每一人体姿态中多个关节点对应的特征进行表征(这里以识别对象为人为例进行说明)。同时601中在空间维度上，基于与空间维度上关联的注意力参数，对输入至空间转换器的每一人体姿态的多个关节点进行特征编码以及维度调整，得到待输入至时间转换器的空间特征序列；602中在时间维度上，基于与时间维度上关联的注意力参数，对输入至时间转换器的每一人体姿态的多个关节点对应的空间特征进行特征编码以及维度调整，得到最终的动态特征参数；其中，空间转换器具有L_s层网络；时间转换器具有L_t层网络。

对应地，图7为本申请实施例提供的一种时空转换器内部处理流程的示意图，其中，704为时间维度或空间维度上各自对应的轨迹模型参数，即在空间维度上，对应的Z^(I-1)(T×N×C)；同时在时间维度上对应的Z^(I-1)(N×T×C)；703为注意力机制，即可分别在时间维度和空间维度基于对应的注意力参数以及轨迹模型参数，进行特征编码以及特征维度调整，同时通过702的多层感知机，将输入的多个特征集映射到单一的输出的特征，最终得到701对应的轨迹特征参数。

基于本申请实施例提供的对象识别网络，以及对象识别网络的训练方法，能够获取到视频流中每一视频帧包括的对象的更加直观的姿态运动，并将该姿态运动通过ME嵌入至对应视频帧中，以得到每一视频帧中对象的姿态轨迹序列；并将该姿态轨迹序列输入至时间和空间分割的转换器中进行姿态规律学习，得到表征每一视频帧中对象的运动信息的动态特征；其中，确定姿态轨迹序列骤主要通过以下几步来实现：

首先，计算与每一视频帧关联的多帧视频帧中，相邻视频帧中相邻姿态之间的归一化位移；其次，将得到的多个归一化位移进行显示离散分布，得到描述多个归一化位移的显式离散分布；然后，基于瑞利分布或高斯分布拟合多个归一化位移，确定与多个归一化位移匹配的连续分布函数；最后，利用归一化姿态及其运动概率(该运动概率即将每一归一化位移输入至确定的连续分布函数，得到对应的缩放概率)，得到携带空间信息和时间信息的运动嵌入姿态。

基于此，本申请实施例中实现了在概率域表征视频流中视频帧包括的对象的直观运动，同时采用时间和空间分割的时空转换器来学习姿态轨迹的规律性。能够提高确定的视频帧中对象的运动信息准确度。

本申请实施例提供一种对象识别装置，图8A为本申请实施例提供的一种对象识别装置的结构组成示意图，如图8A所示，所述对象识别装置800包括：

第一获取模块801，用于获取画面包括目标对象的待识别视频帧；所述待识别视频帧为所述目标对象的视频流中的任一视频帧；

第一确定模块802，用于基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列；

第一映射模块803，用于对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列；

第一转换模块804，用于对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹；

第二确定模块805，用于基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态。

在一些实施例中，所述第一确定模块802，还用于分别对所述待识别视频帧和所述历史视频帧进行关键点识别，得到所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点；分别基于所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点，确定所述待识别视频帧中的所述姿态信息和所述历史视频帧中的所述姿态信息；按照所述历史视频帧和所述待识别视频帧之间的时序关系，将所述历史视频帧中的姿态信息和所述待识别视频帧中的姿态信息进行排序，得到初始姿态序列。

在一些实施例中，所述第一映射模块803，包括：确定子模块，用于基于每一初始姿态中关键点的位置信息，得到用于确定相邻初始姿态位移的中心点序列，以及所述初始姿态序列的归一化姿态序列；映射子模块，用于基于所述中心点序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。

在一些实施例中，所述确定子模块，还用于基于所述每一初始姿态中关键点的位置信息，确定所述每一初始姿态的包围框；在所述初始姿态序列中，对所述每一初始姿态的包围框的中心点进行排序，得到所述中心点序列；采用所述每一初始姿态的包围框，对所述每一初始姿态进行归一化，得到所述归一化姿态序列。

在一些实施例中，所述映射子模块，还用于在所述中心点序列中，基于每两个相邻中心点的位置信息之间的差值，得到位移序列；基于所述每一初始姿态的包围框的尺寸信息，对所述位移序列中每一位移进行归一化，得到归一化位移序列；基于所述归一化位移序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。

在一些实施例中，所述映射子模块，还用于拟合所述归一化位移序列中每一归一化位移，得到拟合结果；确定所述拟合结果满足的连续分布函数；将所述每一归一化位移输入所述连续分布函数，得到所述每一归一化位移的缩放概率；基于所述每一归一化位移的缩放概率，对每一归一化姿态进行映射，得到所述目标姿态序列。

在一些实施例中，所述第一转换模块804，还用于在所述目标姿态序列中，基于每一目标姿态的关键点，对所述每一目标姿态进行特征转换，得到待调整特征序列；对每一待调整特征在空间和时间上进行特征维度调整，得到所述姿态特征轨迹。

在一些实施例中，所述第一转换模块804，还用于将每一待调整特征和所述每一待调整特征的预设空间特征进行融合，得到空间特征序列；基于空间维度在注意力机制中的注意力参数，对所述空间特征序列进行多层维度调整，得到空间姿态特征序列；将每一空间姿态特征和所述每一空间姿态特征的预设时间特征进行融合，得到时间特征序列；基于时间维度在注意力机制中的注意力参数，对所述时间特征序列进行多层维度调整，得到所述姿态特征轨迹；其中，上一层维度调整的输出为下一层维度调整的输入。

在一些实施例中，所述对象识别装置800，还包括：异常识别模块，用于获取所述待识别视频帧对应的场景信息；确定与所述场景信息关联的预设行为规则；采用所述预设行为规则，确定所述行为状态所属的所述待识别视频帧是否为异常视频帧。

在一些实施例中，所述目标对象包括至少两个待识别对象，所述异常识别模块，还用于采用所述预设行为规则，对所述至少两个待识别对象中每一待识别对象的行为状态进行识别，得到中间识别结果集；基于行为状态的合理程度，对每一中间识别结果的置信度进行排序，得到结果评分序列；基于处于所述结果评分序列中预设位置对应的中间识别结果，确定所述待识别视频帧是否为所述异常视频帧。

本申请实施例还提供一种对象识别网络的训练装置，图8B为本申请实施例提供的一种对象识别网络的训练装置的结构组成示意图，如图8B所示，所述图像转换网络的训练装置810包括：

第二获取模块811，用于获取包括样本对象的样本视频帧；其中，所述样本视频帧为所述样本对象的样本视频流中的任一视频帧；

第三确定模块812，用于确定所述样本视频帧中所述样本对象的样本归一化姿态序列；

第二映射模块813，用于采用待训练的对象识别网络，对所述样本归一化姿态序列进行概率映射，得到样本姿态序列；

第二转换模块814，用于将所述样本姿态序列在空间和时间上进行特征转换，得到所述样本视频帧中所述样本对象的样本姿态特征轨迹；

重建模块815，用于对所述样本姿态特征轨迹进行姿态重建，得到重建姿态序列；

第四确定模块816，用于确定所述重建姿态序列和所述样本归一化姿态序列之间相似度的重建损失；

调整模块817，用于基于所述重建损失，对所述待训练的对象识别网络的网络参数进行调整，以使调整后的对象识别网络输出的重建损失满足收敛条件。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的对象识别方法，或，对象识别网络的训练方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、运动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的对象识别方法，或，对象识别网络的训练方法。

相应的，本申请实施例提供一种计算机设备，图9为本申请实施例计算机设备的组成结构示意图，如图9所示，所述计算机设备900包括：一个处理器901、至少一个通信总线904、通信接口902、至少一个外部通信接口和存储器903。其中，通信接口902配置为实现这些组件之间的连接通信。其中，通信接口902可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器901，配置为执行存储器中信息处理程序，以实现上述实施例提供的对象识别方法，或，对象识别网络的训练方法。

相应的，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的对象识别方法，或，对象识别网络的训练方法。

以上对象识别装置、对象识别网络的训练装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可参照上述方法实施例的记载，故在此不再赘述。对于本申请对象识别装置、对象识别网络的训练装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请实施例的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请实施例的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请实施例各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请实施例上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请实施例各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对象识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于待识别视频帧和所述待识别视频帧在所述视频流中的历史视频帧，确定所述目标对象的初始姿态序列，包括：

分别对所述待识别视频帧和所述历史视频帧进行关键点识别，得到所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点；

分别基于所述待识别视频帧中所述目标对象的关键点，和所述历史视频帧中所述目标对象的关键点，确定所述待识别视频帧中的所述姿态信息和所述历史视频帧中的所述姿态信息；

按照所述历史视频帧和所述待识别视频帧之间的时序关系，将所述历史视频帧中的姿态信息和所述待识别视频帧中的姿态信息进行排序，得到初始姿态序列。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述初始姿态序列进行概率映射，得到所述待识别视频帧中所述目标对象的目标姿态序列，包括：

基于每一初始姿态中关键点的位置信息，得到用于确定相邻初始姿态位移的中心点序列，以及所述初始姿态序列的归一化姿态序列；

基于所述中心点序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。

4.根据权利要求3所述的方法，其特征在于，所述基于所述每一初始姿态中关键点的位置信息，得到用于确定相邻初始姿态位移的中心点序列，以及所述初始姿态序列的归一化姿态序列，包括：

基于所述每一初始姿态中关键点的位置信息，确定所述每一初始姿态的包围框；

在所述初始姿态序列中，对所述每一初始姿态的包围框的中心点进行排序，得到所述中心点序列；

采用所述每一初始姿态的包围框，对所述每一初始姿态进行归一化，得到所述归一化姿态序列。

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述中心点序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列，包括：

在所述中心点序列中，基于每两个相邻中心点的位置信息之间的差值，得到位移序列；

基于所述每一初始姿态的包围框的尺寸信息，对所述位移序列中每一位移进行归一化，得到归一化位移序列；

基于所述归一化位移序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列。

6.根据权利要求5所述的方法，其特征在于，所述基于所述归一化位移序列对所述归一化姿态序列进行概率映射，得到所述目标姿态序列，包括：

拟合所述归一化位移序列中每一归一化位移，得到拟合结果；

确定所述拟合结果满足的连续分布函数；

将所述每一归一化位移输入所述连续分布函数，得到所述每一归一化位移的缩放概率；

基于所述每一归一化位移的缩放概率，对每一归一化姿态进行映射，得到所述目标姿态序列。

7.根据权利要求1至6任一所述的方法，其特征在于，所述对所述目标姿态序列在空间和时间上进行特征转换，得到所述待识别视频帧中所述目标对象的姿态特征轨迹，包括：

在所述目标姿态序列中，基于每一目标姿态的关键点，对所述每一目标姿态进行特征转换，得到待调整特征序列；

对每一待调整特征在空间和时间上进行特征维度调整，得到所述姿态特征轨迹。

8.根据权利要求7所述的方法，其特征在于，所述对每一待调整特征在空间和时间上进行特征维度调整，得到所述姿态特征轨迹，包括：

将每一待调整特征和所述每一待调整特征的预设空间特征进行融合，得到空间特征序列；

基于空间维度在注意力机制中的注意力参数，对所述空间特征序列进行多层维度调整，得到空间姿态特征序列；

将每一空间姿态特征和所述每一空间姿态特征的预设时间特征进行融合，得到时间特征序列；

基于时间维度在注意力机制中的注意力参数，对所述时间特征序列进行多层维度调整，得到所述姿态特征轨迹；

其中，上一层维度调整的输出为下一层维度调整的输入。

9.根据权利要求1至8任一所述的方法，其特征在于，所述基于所述姿态特征轨迹，确定所述待识别视频帧中所述目标对象的行为状态之后，所述方法还包括：

获取所述待识别视频帧对应的场景信息；

确定与所述场景信息关联的预设行为规则；

采用所述预设行为规则，确定所述行为状态所属的所述待识别视频帧是否为异常视频帧。

10.根据权利要求9所述的方法，其特征在于，所述目标对象包括至少两个待识别对象，所述采用所述预设行为规则，确定所述行为状态所属的所述待识别视频帧是否为异常视频帧，包括：

采用所述预设行为规则，对所述至少两个待识别对象中每一待识别对象的行为状态进行识别，得到中间识别结果集；

对每一中间识别结果的置信度进行排序，得到结果评分序列；

基于处于所述结果评分序列中预设位置对应的中间识别结果，确定所述待识别视频帧是否为所述异常视频帧。

11.一种对象识别网络的训练方法，其特征在于，所述方法包括：

12.一种对象识别装置，其特征在于，所述装置包括：

13.一种对象识别网络的训练装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现权利要求1至10任一项所述的对象识别方法，或，所述处理器运行所述存储器上的计算机可执行指令时能够实现权利要求11所述的对象识别网络的训练方法。

15.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至10任一项所述的对象识别方法，或，该计算机可执行指令被执行后，能够实现权利要求11所述的对象识别网络的训练方法。