CN113743221B

CN113743221B - 一种边缘计算架构下的多视角人行为识别方法与***

Info

Publication number: CN113743221B
Application number: CN202110891098.4A
Authority: CN
Inventors: 王雪; 游伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2022-05-20
Anticipated expiration: 2041-08-04
Also published as: CN113743221A

Abstract

本申请提供了一种边缘计算架构下的多视角人行为识别方法及***，属于人行为识别技术领域。方法包括：摄像机组从不同视角对同一场景进行拍摄，获得不同视角的人行为视频数据，并传输至与其相连边缘计算节点，采集并保存相同时段内不同视角的待识别人行为视频数据并进行数据预处理，输入到人行为特征编码器，得到多视角人行为特征向量，云端服务器接收边缘计算节点上传的多视角人行为特征向量，并输入到人行为识别模型，得到人行为识别结果。通过在边缘计算节点上进行人行为特征提取，云端服务器进行人行为分类，从而减轻云端服务器计算压力，提高识别的实时性；采集利用多视角人行为信息，提高特征的表达能力，提高人行为识别的准确率。

Description

一种边缘计算架构下的多视角人行为识别方法与***

技术领域

本申请涉及人行为识别技术领域，特别是涉及一种边缘计算架构下的多视角人行为识别方法与***。

背景技术

人行为识别技术能够通过摄像机集的图像数据判断人的行为和含义，对提高安防监控***自动化和智能化水平，保证社会生产生活的安定有序具有重要意义。现有的人行为识别方法，需要先将摄像机采集的图像数据上传到云端服务器，在云端服务器中保存大量的视频数据，采用人工查看视频的方式为数据标注标签。

相关技术中，为减轻人工标注的工作量，采用自监督学习方法的技术路线。然而，在一方面，当存在物体遮挡或人体自身遮挡等情况时，自监督学习方法的识别准确率较低。在另一方面，自监督学习方法在端云端服务器上运行，占用了云端服务器的大量计算资源，导致人行为识别任务延迟较高。

发明内容

本申请公开了一种边缘计算架构下的多视角人行为识别方法与***，以解决上述问题或者至少部分地解决上述的问题。

第一方面，本发明实施例公开了一种边缘计算架构下的多视角人行为识别方法，所述方法包括：

摄像机组从不同视角对同一场景进行拍摄，获得不同视角的待识别人行为视频数据，并将所述不同视角的待识别人行为视频数据传输至与其相连边缘计算节点；

所述边缘计算节点采集并保存相同时段内不同视角的待识别人行为视频数据，对所述相同时段内不同视角的待识别人行为视频数据进行数据预处理，将预处理后的数据输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器；

所述云端服务器接收所述边缘计算节点上传的多视角人行为特征向量，并将所述人行为特征向量输入到人行为识别模型，得到所述不同视角的待识别人行为视频数据的人行为识别结果。

可选地，所述方法还包括：

摄像机组从不同视角对同一场景进行拍摄，获得不同视角的第一样本人行为视频数据，并将所述不同视角的第一样本人行为视频数据传输至与其相连边缘计算节点；

所述边缘计算节点采集并保存相同时段内不同视角的第一样本人行为视频数据，对所述相同时段内不同视角的第一样本人行为视频数据进行数据预处理，并基于预处理后不同视角的第一样本人行为视频数据，对预设人行为自监督特征学习模型进行训练，得到所述人行为特征编码器。

可选地，所述方法还包括：

摄像机组从不同视角对同一场景进行拍摄，获得不同视角的第二样本人行为视频数据，并将所述不同视角的第二样本人行为视频数据传输至与其相连边缘计算节点；

所述边缘计算节点上传设数量的不同视角的第二样本人行为视频数据，采集并保存相同时段内不同视角的第二样本人行为视频数据，对所述相同时段内不同视角的第二样本人行为视频数据进行数据预处理，将预处理后的数据输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器；

所述云端服务器接收所述边缘计算节点上传的多视角人行为特征向量和预设数量的不同视角的第二样本人行为视频数据，根据所述预设数量的不同视角的第二样本人行为视频数据标注的行为类别标签和所述多视角人行为特征向量，对预设模型进行训练，得到人行为识别模型。

可选地，不同视角的人行为视频数据预处理，包括：

根据所述不同视角的人行为视频数据，确定不同视角的人行为视频数据的骨架数据；

对所述不同视角的人行为视频数据的骨架数据进行预处理，得到不同视角的人行为视频数据的骨架序列；

对所述不同视角的人行为视频数据的骨架序列进行融合，得到融合骨架片段序列。

可选地，所述方法还包括：

将预处理后得到的融合骨架片段序列按照多种排序方式重新排序，并标记排序方式标签；

基于预处理后不同视角的第一样本人行为视频数据，对预设人行为自监督特征学习模型进行训练，包括：

将重新排序后的融合骨架片段序列及其排序方式标签，输入到人行为自监督特征学习模型进行训练。

可选地，所述根据所述不同视角的人行为视频数据，确定不同视角的人行为视频数据的骨架数据，包括：

计算不同视角的人行为视频数据中每帧画面的人体姿态关键点位置，所述人体姿态关键点位置即为不同视角的人行为视频数据的骨架数据；

所述骨架数据的计算公式为：

其中，

表示第i个摄像机的第t帧图像，x和y分别表示人体姿态关键点在图像中的横、纵坐标，j表示人体姿态关键点的编号，N为人体姿态关键点的总数。

可选地，对不同视角的人行为视频数据的骨架数据进行预处理，得到不同视角的人行为视频数据的骨架序列包括：

对每帧图像中的人体姿态关键点坐标位置减去该帧图像中所有人体姿态关键点坐标位置的均值，其计算公式为：

确定每帧图像的骨架特征，计算公式为：

确定不同视角的人行为视频数据的骨架序列，其计算公式为：

将所述不同视角的人行为视频数据的骨架序列做归一化处理，其计算公式为：

其中，

为编号为第i个摄像机的第t帧图像的骨架特征，Sⁱ为不同视角的人行为视频数据骨架序列，

为归一化后的不同视角的人行为视频数据骨架序列。

可选地，对所述不同视角的人行为视频数据的骨架序列进行融合，得到融合骨架片段序列包括：

按时间节点平分每个不同视角的人行为视频数据骨架序列，获得多个骨架片段；

随机抽取每个时间节点对应的所述骨架片段中的任意一个，将多个时间节点对应的骨架片段进行融合，得到不同视角的人行为视频数据的骨架片段序列。

可选地，所述人行为识别模型按照以下公式输出人行为识别预测结果：

其中，f_fusion为人行为分类器，g(X₁),g(X₂),g(X₃)为多视角人行为特征向量，m为人行为识别预测结果，(i)表示向量的第i个元素，K为待识别行为的种类数。

第二方面，本发明实施例公开了一种边缘计算架构下的多视角人行为识别***，所述***包括：

摄像机组，所述摄像机组从不同视角对同一场景进行拍摄，获得不同视角的待识别人行为视频数据，并将所述不同视角的待识别人行为视频数据传输至与其相连边缘计算节点；

边缘计算节点，所述边缘计算节点用于接收所述摄像机组传输的不同视角的人行为视频数据，对所述不同视角的人行为视频数据进行数据预处理，并基于所述进行数据预处理后的不同视角的人行为视频数据，对预设人行为自监督特征学习模型进行训练，得到所述人行为特征编码器；以及，将不同视角的人行为视频数据传输至云端服务器，并对所述不同视角的人行为视频数据进行数据预处理，输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器；

云端服务器，所述云端服务器用于所述边缘计算节点上传的多视角人行为特征向量和不同视角的人行为视频数据，根据所述不同视角的人行为视频数据确定人工标注的行为类别标签，根据所述人工标注的行为类别标签和多视角人行为特征向量，对预设模型进行训练，得到人行为识别模型；以及，接收所述边缘计算节点上传的多视角人行为特征向量，并将所述人行为特征向量输入到人行为识别模型，得到所述不同视角的人行为视频数据的人行为识别结果。

与现有技术相比，本申请包括以下优点：

本申请提供了一种边缘计算架构下的多视角人行为识别方法及***，包括：摄像机组从不同视角对同一场景进行拍摄，获得不同视角的人行为视频数据，并传输至与其相连边缘计算节点，采集并保存相同时段内不同视角的待识别人行为视频数据并进行数据预处理，输入到人行为特征编码器，得到多视角人行为特征向量，云端服务器接收边缘计算节点上传的多视角人行为特征向量，并将人行为特征向量输入到人行为识别模型，得到不同视角的人行为视频数据的人行为识别结果。

通过在边缘计算节点上进行人行为特征提取，云端服务器进只需行人行为分类，从而减轻云端服务器计算压力，提高识别的实时性；通过采集不同视角的待识别人行为视频数据信息，提高特征的可区分度，进而提高特征的表达能力，提高人行为识别的准确率；并且能够在无需对人行为数据人工标注的情况下，利用边缘计算节点的计算资源对多视角人行为特征进行自监督学习。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种边缘计算架构下的多视角人行为识别***的示意图；

图2是本发明实施例中一种边缘计算架构下的多视角人行为识别方法的步骤流程图；

图3是本发明实施例中人行为特征编码器的训练步骤流程图；

图4是本发明实施例中对不同视角的人行为视频数据进行数据预处理步骤流程图；

图5是本发明实施例中骨架数据关键点编号示意图；

图6是本发明实施例中多视角骨架片段融合示意图；

图7是本发明实施例中人行为自监督特征学习模型的示意图；

图8是本发明实施例中人行为特征编码器的结构示意图；

图9是本发明实施例中人行为识别模型的训练步骤流程图；

图10是本发明实施例中人行为分类器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，采用自监督学习方法的技术路线，该类方法首先通过一个前置任务训练深度神经网络，然后将前置任务训练得到的深度神经网络作为特征编码器，最后用该特征编码器提取人行为特征，并采用少量样本的特征和标签训练结构简单的分类器(全连接层、最近邻分类器、支持向量机等)。

然而，目前针对骨架的自监督学习方法仍然较少，并且存在以下不足：

1.只针对单视角摄像机，当存在物体遮挡或人体自身遮挡等情况时，人行为识别准确率会大幅下降。目前的公共区域中已部署了大量摄像机，并且往往采用多个摄像机从不同视角对同一场景进行拍摄，单视角摄像机的自监督学习方法无法同时利用多视角摄像机的优势，单视角特征的可区分度不高，增加了后续分类任务的难度，限制了人行为识别准确率的提高。

2.自监督学习方法在云端服务器上运行，占用了云端服务器的大量计算资源，导致人行为识别任务延迟较高。

因此，提出了本发明的技术构思：通过摄像机组从不同视角对同一场景进行拍摄，获得不同视角的人行为视频数据，并传输至与其相连边缘计算节点，采集并保存相同时段内不同视角的待识别人行为视频数据并进行数据预处理，输入到人行为特征编码器，得到多视角人行为特征向量，云端服务器接收边缘计算节点上传的多视角人行为特征向量，并将人行为特征向量输入到人行为识别模型，得到不同视角的人行为视频数据的人行为识别结果。通过在边缘计算节点上进行人行为特征提取，云端服务器进只需进行人行为分类，从而减轻云端服务器计算压力，提高识别的实时性；通过采集不同视角的待识别人行为视频数据信息，提高特征的可区分度，进而提高特征的表达能力，提高人行为识别的准确率；并且能够在无需对人行为数据人工标注的情况下，利用边缘计算节点的计算资源对多视角人行为特征进行自监督学习。

参照图1，本发明提出一种边缘计算架构下的多视角人行为识别***，所述***包括：

在本实施方式中，摄像机组为多个摄像机组成，并作为感知端，摄像机采用分辨率为1280×720的网络高清CCD，帧率25帧/秒，摄像机应支持RTSP实时流传输协议。边缘计算节点采用高性能工作站，配备Intel Xeon [email protected]处理器，64G内存以及NVIDIARTX3090 GPU。边缘计算节点的软件平台采用Anaconda软件搭建Python运行环境，安装NVIDIA CUDA运行库以及CUDNN加速软件。安装PyTorch深度学***台采用Anaconda软件搭建Python运行环境，安装NVIDIA CUDA运行库以及CUDNN加速软件。安装PyTorch深度学习库。所述摄像机与边缘计算节点间、边缘计算节点与云端服务器之间均用网线连接，采用固定IP地址通信。

基于同一发明构思，本发明实施例提供了一种边缘计算架构下的多视角人行为识别方法，该方法的实施环境可以是图1所示的一种边缘计算架构下的多视角人行为识别***。参见图2，图2示出了本申请实施例一种边缘计算架构下的多视角人行为识别方法的步骤流程图，该方法包括以下步骤：

步骤S201：摄像机组从不同视角对同一场景进行拍摄，获得不同视角的待识别人行为视频数据，并将所述不同视角的待识别人行为视频数据传输至与其相连边缘计算节点。

在对同一场景进行拍摄时，通过在场景周围架设多个摄像机进行拍摄，并且每个摄像机的架设角度不同或者高度不同，可以采集同一场景下不同视角下的视频数据，即不同视角的待识别人行为视频数据，并通过网线和网关设备将不同视角的待识别人行为视频数据传输给部署在摄像机组附近的边缘计算节点。

步骤S202：所述边缘计算节点采集并保存相同时段内不同视角的待识别人行为视频数据，对所述相同时段内不同视角的待识别人行为视频数据进行数据预处理，将预处理后的数据输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器。

边缘计算节点接收到不同视角的待识别人行为视频数据的视频流后，在边缘计算节点上执行多视角视频的同步图像采集任务，具体为：在边缘节点上不断采集并保存相同时段内不同视角的人行为视频片段

其中C为摄像机数量，i＝1,2,...,C为摄像机编号，T表示每个视频片段的图像帧数，

表示第i个摄像机的第t帧图像。采集完成的不同视角的人行为视频数据经过多视角视频人行为骨架的提取，骨架数据预处理，多视角骨架序列融合后作为输入，输入到人行为特征编码器中，人行为特征编码器输出不同视角的待识别人行为视频数据对应的多视角人行为特征向量，并将所有多视角人行为特征向拼接为一个特征向量并上传至云端服务器。通过采用从不同视角对同一场景进行拍摄的不同视角的人行为视频数据，改善了单视角特征可区分度不足的问题，提高特征表达能力，降低分类任务的难度，提高人行为分类任务的准确率。

步骤S203：所述云端服务器接收所述边缘计算节点上传的多视角人行为特征向量，并将所述人行为特征向量输入到人行为识别模型，得到所述不同视角的待识别人行为视频数据的人行为识别结果。

云端服务器接收边缘计算节点上传的人行为特征向量，将该特征向量输入云端服务器的人行为识别模型，完成最终的行为识别任务。由于特征提取任务已由边缘计算节点完成，因此在云端只执行人行为的识别任务，不执行不同视角的待识别人行为视频数据的特征提取任务。从而减轻云端服务器计算压力，提高人行为识别的实时性。

在本实施方式中，通过以上步骤，利用边缘计算节点上对多视角人行为特征进行自监督学习得到的人行为特征编码器，能够在边缘节点上实现人行为特征提取，云端服务器只需运行简单的人行为分类模型，从而减轻云端服务器计算压力，并提高人行为识别的实时性；同时，通过利用多视角人行为信息，能够提高特征的表达能力，提高人行为识别的准确率。

上述为多视角人行为识别的待识别数据的处理流程，而样本数据的处理流程是类似的过程，区别只是在于针对的对象不同，以及后续的操作不同。

如图3所示，对预设人行为自监督特征学习模型进行训练包括以下步骤：

步骤S200-1：摄像机组从不同视角对同一场景进行拍摄，获得不同视角的第一样本人行为视频数据，并将所述不同视角的第一样本人行为视频数据传输至与其相连边缘计算节点；

步骤S200-2：所述边缘计算节点采集并保存相同时段内不同视角的第一样本人行为视频数据，对所述相同时段内不同视角的第一样本人行为视频数据进行数据预处理，并基于预处理后不同视角的第一样本人行为视频数据，对预设人行为自监督特征学习模型进行训练，得到所述人行为特征编码器。

在本实施方式中，当多个摄像机完成不同视角的第一样本人行为视频数据采集后，将采集的不同视角的第一样本人行为视频数据以视频流的形式传输至与其直接相连的边缘计算节点。边缘计算节点接收到不同视角的待识别人行为视频数据的视频流后，在边缘计算节点上执行多视角视频的同步图像采集任务，具体为：在边缘节点上不断采集并保存相同时段内不同视角的人行为视频片段

表示第i个摄像机的第t帧图像。采集完成的不同视角的人行为视频数据经过多视角视频人行为骨架的提取，骨架数据预处理，多视角骨架序列融合后作为源数据对人行为自监督特征学习模型进行训练，得到人行为特征编码器。在无需对人行为数据人工标注的情况下，利用边缘计算节点的计算资源对多视角人行为特征进行自监督学习，得到人行为特征编码器。

如图4所示，对不同视角的人行为视频数据进行数据预处理，包括步骤：

步骤S200-2-1：根据所述不同视角的人行为视频数据，确定不同视角的人行为视频数据的骨架数据；

步骤S200-2-2：对所述不同视角的人行为视频数据的骨架数据进行预处理，得到不同视角的人行为视频数据的骨架序列；

步骤S200-2-3：对所述不同视角的人行为视频数据的骨架序列进行融合，得到融合骨架片段序列。

进一步地，步骤S200-2-1，所述根据所述不同视角的人行为视频数据，确定不同视角的人行为视频数据的骨架数据，包括：

所述骨架数据的计算公式为：

其中，

在本实施方式中，计算不同视角的待识别人行为视频数据或不同视角的样本人行为视频数据，即进行。骨架共包括18个人体姿态关键点，如图5示。

进一步地，步骤S200-2-2中，对所述不同视角的人行为视频数据的骨架数据进行预处理，得到不同视角的人行为视频数据的骨架序列：

每帧图像中的人体姿态关键点坐标位置减去该帧图像中所有人体姿态关键点坐标位置的均值，其计算公式为：

确定每帧图像的骨架特征，计算公式为：

式中，

为编号为i的摄像机的第t帧图像的骨架特征，Sⁱ为不同视角的人行为视频数据骨架序列，

为归一化后的不同视角的人行为视频数据骨架序列。

进一步地，所述步骤S200-2-3中，所述对所述不同视角的人行为视频数据的骨架序列进行融合，得到融合骨架片段序列包括：

随机抽取每个时间节点对应的骨架片段中的任意一个，将多个时间节点对应的骨架片段进行融合，得到不同视角的人行为视频数据的骨架片段序列。

在本实施方式中，以采用3台摄像机(C＝3)为例进行说明，其过程如图6示。首先，将每段骨架序列

按时间顺序平均分为3个骨架片段

然后，构建包含3台摄像机第一个骨架片段的集合

从中随机抽取一个片段X₁。采用同样的方法分别从

和

中随机片段X₂和X₃，得到包含多视角人行为信息的骨架片段序列[X₁,X₂,X₃]。

需要说明的，对于待识别本人行为视频数据、第二样本人行为视频数据和第一样本人行为视频数据都需要进行数据预处理，并且数据预处理的过程完全相同，只是处理完成后执行的操作不同，待识别本人行为视频数据、第二样本人行为视频数据作为输入，输入到人行为特征编码器中，进行多视角人行为特征向量的提取，第一样本人行为视频数据作为输入，输入人行为自监督特征学习模型进行训练。

经过数据预处理后的融合骨架片段序列即可作为输入，对人行为自监督特征学习模型进行训练，进一步地，为了提高人行为特征编码器的提取准确率。

可以将预处理后得到的融合骨架片段序列按照多种排序方式重新排序，并标记排序方式标签；

并基于预处理后不同视角的第一样本人行为视频数据，对预设人行为自监督特征学习模型进行训练，包括：

在本实施方式中，将预处理后得到的融合骨架片段序列随机重新排序，得到重新排序后的骨架片段序列

排序方式共6种，排序方式及其标签如表1所示。重新排序后的骨架片段序列

及其排序方式标签输入自监督特征学习模型进行训练。

表1

排序方式	标签
		[X<sub>1</sub>,X<sub>2</sub>,X<sub>3</sub>]	0
[X<sub>1</sub>,X<sub>3</sub>,X<sub>2</sub>]	1
		[X<sub>2</sub>,X<sub>1</sub>,X<sub>3</sub>]	2
[X<sub>2</sub>,X<sub>3</sub>,X<sub>1</sub>]	3
		[X<sub>3</sub>,X<sub>1</sub>,X<sub>2</sub>]	4
[X<sub>3</sub>,X<sub>2</sub>,X<sub>1</sub>]	5

如图7所示的人行为自监督特征学习模型，当输入重新排序后的骨架片段序列和排序方式标签后，需要根据输入的骨架片段序列判断其排序方式。其中，g表示人行为特征编码器，h表示排序方式分类器。人行为自监督特征学习模型的训练流程如下：将多视角骨架片段融合后的3个骨架片段分别输入人行为特征编码器g，编码器将每个骨架片段分别编码为128维的特征，将3个128维的特征拼接为384维的人行为特征向量。将该向量输入排序方式分类器h，输出排序方式的预测值。用

表示排序方式预测值的概率分布，以上过程可表示为：

将排序方式标签采用one-hot编码生成排序方式的真值y。采用如下损失函数计算模型损失：

采用随机梯度下降法训练人行为自监督特征学习模型，得到人行为特征编码器g和排序方式分类器h。

在一种可的实施方式中，人行为特征编码器的结构如图8所示，其输入为一个骨架片段，输出固定长度的特征向量。以视频序列长度T＝96为例，将骨架序列平均分为3段后，每段骨架序列片段长度为32，序列中每帧包含18个关键点的x和y坐标，输入特征编码器的数据维度为(32，36)。图9“Conv1D”表示一维卷积层[4]，“Conv1D”后的括号中3个数字分别表示一维卷积层的输出通道数、卷积核大小以及卷积步长。BN为批归一化层，用于防止梯度消失或***、加快训练速度，ReLU(修正线性单元)是特征编码器所采用的激活函数。方框外侧的数字为特征编码器各层输出特征图的维度。人行为特征编码器对骨架片段的编码过程为：将骨架片段输入6个卷积层。6个卷积层的卷积核大小都为6，第3和第6个卷积层的卷积步长为2，其他卷积层的卷积步长为1。前3个卷积层每层的输出通道数为64，后3个卷积层每层输出通道数为128。每3个卷积层之间采用残差连接，残差连接也采用一维卷积，卷积核大小为1，卷积步长为2。骨架片段经过6个卷积层后，输出特征图的维度为(8,128)。将前一层特征图输入最大值池化层，该最大值池化层步长为4，输出特征图维度为(2,128)。将前一层特征图输入平化层，该层将特征图排列为一维向量，输出特征图维度为(256)将前一层特征图输入全连接层，输出特征图维度为(128)，由此得到编码器输出的128维特征向量。

如图9所示，对人行为识别模型进行训练，包括以下步骤：

步骤S200-3：摄像机组从不同视角对同一场景进行拍摄，获得不同视角的第二样本人行为视频数据，并将所述不同视角的第二样本人行为视频数据传输至与其相连边缘计算节点；

步骤S200-4：所述边缘计算节点上传预v设数量的不同视角的第二样本人行为视频数据，采集并保存相同时段内不同视角的第二样本人行为视频数据，对所述相同时段内不同视角的第二样本人行为视频数据进行数据预处理，将预处理后的数据输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器；

步骤S200-5：所述云端服务器接收所述边缘计算节点上传的多视角人行为特征向量和预设数量的不同视角的第二样本人行为视频数据，根据所述预设数量的不同视角的第二样本人行为视频数据标注的行为类别标签和所述多视角人行为特征向量，对预设模型进行训练，得到人行为识别模型。

在本实施方式中。首先，由于自监督学习方法训练得到的人行为特征编码器已能够提取包含充足信息并且具有良好可区分的的人行为特征，因此只需边缘节点将少量人行为视频片段上传至云端服务器，并采用人工标注的方法为视频片段标注人行为类型标签，构建简单结构的人行为分类器，进行训练之后，就能得到识别率较高并且结构简单的人行为识别模型，无需人工标注大量标签，节省了人工标注的工作量。采用边缘节点上传的人行为特征向量和人工标注的行为类别标签训练人行为分类器f_action，训练完成后的人行为分类器f_action作为人行为识别模型，进行人行为类型的识别工作，在边缘计算节点上进行人行为特征提取，云端服务器进只需行人行为分类，从而减轻云端服务器计算压力，提高识别的实时性。

在一种可的实施方式中，人行为分类模型训练行为类别标签训练人行为分类器f_action的结构如图10所示。分类器的输入为384维的人行为特征向量，包含2个全连接层。第一个全连接层fc1的输出为256维，采用ReLU激活函数。第二个全连接层fc2的输出维度与待识别行为的种类数K相同，采用Softmax激活函数。模型使用交叉熵损失函数并采用随机梯度下降法训练。采用训练完成的分类器f_action完成人行为识别任务，则人行为识别模型为：

基于同一发明构思，本申请一实施例提供一种可读存储介质，存储介质存储边缘计算架构下的多视角人行为识别程序，边缘计算架构下的多视角人行为识别程序被处理器执行实现如本发明实施例第一方面提出的边缘计算架构下的多视角人行为识别方法的步骤。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附特征要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种边缘计算架构下的多视角人行为识别方法与***，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种边缘计算架构下的多视角人行为识别方法，其特征在于，所述方法包括：

所述云端服务器接收所述边缘计算节点上传的多视角人行为特征向量，并将所述人行为特征向量输入到人行为识别模型，得到所述不同视角的待识别人行为视频数据的人行为识别结果；

所述待识别人行为视频数据进行数据预处理，包括：

对所述不同视角的人行为视频数据的骨架序列进行融合，得到融合骨架片段序列；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述边缘计算节点上传预设数量的不同视角的第二样本人行为视频数据，采集并保存相同时段内不同视角的第二样本人行为视频数据，对所述相同时段内不同视角的第二样本人行为视频数据进行数据预处理，将预处理后的数据输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器；

4.根据权利要求1所述的方法，其特征在于，根据所述不同视角的人行为视频数据，确定不同视角的人行为视频数据的骨架数据，包括：

所述骨架数据的计算公式为：

其中，

5.根据权利要求4所述的方法，其特征在于，对不同视角的人行为视频数据的骨架数据进行预处理，得到不同视角的人行为视频数据的骨架序列包括：

确定每帧图像的骨架特征，计算公式为：

其中，

为归一化后的不同视角的人行为视频数据骨架序列。

6.根据权利要求1所述的方法，其特征在于，对所述不同视角的人行为视频数据的骨架序列进行融合，得到融合骨架片段序列包括：

7.根据权利要求3所述的方法，其特征在于，所述人行为识别模型按照以下公式输出人行为识别预测结果：

8.一种边缘计算架构下的多视角人行为识别***，其特征在于，所述***包括：

边缘计算节点，所述边缘计算节点用于接收所述摄像机组传输的不同视角的人行为视频数据，对所述不同视角的人行为视频数据进行数据预处理，并基于所述进行数据预处理后的不同视角的人行为视频数据，对预设人行为自监督特征学习模型进行训练，得到人行为特征编码器；以及，将不同视角的人行为视频数据传输至云端服务器，并对所述不同视角的人行为视频数据进行数据预处理，输入到人行为特征编码器，得到多视角人行为特征向量，并传输至云端服务器；

云端服务器，所述云端服务器用于所述边缘计算节点上传的多视角人行为特征向量和不同视角的人行为视频数据，根据所述不同视角的人行为视频数据确定人工标注的行为类别标签，根据所述人工标注的行为类别标签和多视角人行为特征向量，对预设模型进行训练，得到人行为识别模型；以及，接收所述边缘计算节点上传的多视角人行为特征向量，并将所述人行为特征向量输入到人行为识别模型，得到所述不同视角的人行为视频数据的人行为识别结果；

所述待识别人行为视频数据进行数据预处理，包括：