CN116958873A

CN116958873A - 行人跟踪方法、装置、电子设备及可读存储介质

Info

Publication number: CN116958873A
Application number: CN202310922396.4A
Authority: CN
Inventors: 蒋乐; 陈健; 李国明; 叶晓舟; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-27

Abstract

本申请实施例提供了一种行人跟踪方法、装置、电子设备及计算机可读存储介质，涉及图像处理领域。该方法包括：从视频帧序列中确定目标视频帧；将目标视频帧输入目标检测模型，获得目标检测模型输出的至少一个人头检测框和人体检测框；人头检测框用于表征至少一个行人的人头在目标视频帧中所在的区域；人体检测框用于表征至少一个行人的人体在目标视频帧中所在的区域；根据至少一个人头检测框和人体检测框，确定目标视频帧的人群密度；基于人群密度确定目标检测框，根据目标检测框标记目标视频帧的行人；目标检测框与人头检测框或所述人体检测框中的至少一者有关。本申请实施解决了在密集人群时，行人追踪准确率低、实时性和自适应能力差的问题。

Description

行人跟踪方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种行人追踪方法、装置、电子设备及计算机可读存储介质

背景技术

行人多目标跟踪是计算机视觉领域的多目标跟踪方向近些年来最热门的研究课题，它通常应用于智能监控、健康监护和智慧城市等实际场景中，行人多目标跟踪首先通过目标检测器对视频图像帧中的多人体目标进行识别，然后对人体目标在多帧图像中的位置、运动信息和外观等特征进行分析和匹配，最后得到具有唯一ID及其运动轨迹的行人多目标跟踪结果。

目前，现有的行人多目标跟踪方案绝大多数都只对人体进行检测和跟踪，少数场景下以人头作为检测和跟踪目标，但这两种类型的方案在单独使用时都无法同时在算法的实时性、准确性以及多场景的自适应性方面拥有较好的效果，因此，在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

发明内容

本申请实施例提供了一种行人跟踪方法、装置、电子设备、计算机可读存储介质及计算机程序产品，用于解决在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

根据本申请实施例的第一方面，提供了一种行人跟踪方法，该方法包括：从视频帧序列中确定目标视频帧；

将所述目标视频帧输入至预先训练的目标检测模型，获得所述目标检测模型输出的至少一个人头检测框和至少一个人体检测框；所述人头检测框用于表征至少一个行人的人头在所述目标视频帧中所在的区域；所述人体检测框用于表征至少一个行人的人体在所述目标视频帧中所在的区域；

根据所述至少一个人头检测框和至少一个人体检测框，确定所述目标视频帧的人群密度；

基于所述人群密度确定目标检测框，根据所述目标检测框标记所述目标视频帧的行人；所述目标检测框与所述人头检测框或所述人体检测框中的至少一者有关；

其中，所述目标检测模型是以样本视频帧为训练样本，以所述样本视频帧中的人头检测框和人体检测框为训练标签训练而成。

在一个可能的实现方式中，目标检测模型包括：特征提取层、特征融合层和目标输出层；行人追踪装置的输入模块包括：

特征提取单元，用于将所述目标视频帧输入至特征提取层，获得所述特征提取层输出的多个不同下采样倍数的第一图像特征；

特征融合单元，用于将多个第一图像特征输入至所述特征融合层进行特征融合，获得所述特征融合层输出的多个第二图像特征；

目标输出单元，用于将所述多个第二图像特征输入至所述目标输出层，得到所述目标输出层输出的所述至少一个人头检测框和至少一个人体检测框。

在另一个可能的实现方式中，所述多个不同下采样倍数的第一图像特征包括：

第一特征，为所述目标视频帧经4倍下采样后得到的图像特征；

第二特征，为所述目标视频帧经8倍下采样后得到的图像特征；

第三特征，为所述目标视频帧经16倍下采样后得到的图像特征；

第四特征，为所述目标视频帧经32倍下采样后得到的图像特征。

在又一个可能的实现方式中，输入模块，还包括：

输入单元，用于将所述目标视频帧经32倍下采样后得到图像特征输入至池化层，所述池化层包括多层串联的最大池化层；

图像特征提取单元，用于获取各层最大池化层输出的图像特征；

拼接单元，用于将各层最大池化层输出的图像特征进行拼接，得到所述第四特征。

在又一个可能的实现方式中，特征融合单元，包括：

处理单元，用于对所述第四特征先后进行特征提取上采样和特征提取，并将上采样结果与所述第三特征进行拼接，得到第一融合图像特征；

对所述第一融合图像特征先后进行特征提取和上采样，并将上采样结果与所述第二特征进行拼接，得到第二融合图像特征；

对所述第二融合图像特征先后进行特征提取和上采样，并将上采样结果与所述第一特征进行拼接，得到第三融合图像特征；

对所述第三融合图像特征先后进行特征提取和下采样，并将下采样结果与所述第二融合图像特征进行拼接，得到第四融合图像特征；

对所述第四融合图像特征先后进行特征提取和上采样，并将上采样结果与所述第一融合图像特征进行拼接，得到第五融合图像特征；

对所述第五融合图像特征先后进行特征提取和上采样，并将上采样结果与所述第四特征进行拼接，得到第六融合图像特征；

将所述第三融合图像特征、第四融合图像特征、第五融合图像特征以及第六融合图像特征作为所述特征融合层输出的多个第二图像特征。

在又一个可能的实现方式中，输入模块还包括：

注意力单元，用于针对每一个第二图像特征，将所述第二图像特征通过注意力机制分别提取通道特征和空间特征，得到具备通道特征和空间特征的第二图像特征。

在又一个可能的实现方式中，处理模块包括：

选择单元，用于根据所述人头检测框和所述人体检测框的数量，选择数量多的检测框作为计算所述人群密度的第一检测框；

聚类单元，用于针对每一个第一检测框，根据所述第一检测框的坐标，进行聚类，确定至少一个聚类簇；

密度确定单元，用于针对每一个聚类簇，确定所述聚类簇的最小外接矩形，根据所述聚类簇中的第一检测框的数量和所述最小外接矩形的像素面积，确定所述聚类簇的人群密度；

选取单元，用于选取最大的人群密度作为所述目标视频帧的人群密度。

在又一个可能的实现方式中，当所述人群密度小于第一预设阈值时，所述目标检测框与所述目标视频帧中的人体检测框相关；

当所述人群密度大于所述第一预设阈值，且小于第二预设阈值时，所述目标检测框与所述目标视频帧中的人头检测框和人体检测框相关；

当所述人群密度大于所述第二预设阈值，所述目标检测框与所述目标视频帧中的人头检测框相关。

在又一个可能的实现方式中，所述当所述人群密度小于第一预设阈值时，所述目标检测框为所述目标视频帧的各个人体检测框。

在又一个可能的实现方式中，所述当所述人群密度大于所述第一预设阈值，且小于第二预设阈值时，还包括目标检测框获取模块，目标检测框获取模块包括：

匹配单元，用于对同一行人的人头检测框和人体检测框基于距离进行匹配；

生成单元，用于对于未匹配上人体检测框的人头检测框，基于坐标生成与所述人头检测框匹配的新的人体检测框；

关联单元，用于将所述新的人体检测框和所述目标视频帧中的各个人体检测框作为所述目标检测框。

在又一个可能的实现方式中，匹配单元，包括：

中心点确定单元，用于针对每一个人头检测框，根据所述人头检测框的坐标，确定所述人头检测框的中心点坐标；

中心点生成单元，用于针对每一个人体检测框，根据所述人体检测框的坐标，生成与所述人体检测框属于同一行人的人头检测框的新的中心点坐标；

计算单元，用于针对每一个人体检测框，计算对应的新的中心点坐标与各中心点坐标的距离；

确定单元，用于将距离所述新的中心点坐标最近，且所述距离小于预设距离阈值的中心点坐标对应的人头检测框，作为与所述人体检测框匹配的人头检测框。

在又一个可能的实现方式中，生成单元包括：

计算单元，用于针对每一个未匹配上人体检测框的人头检测框，计算所述人头检测框的中心点坐标，根据所述中心点坐标，生成与所述人头检测框属于同一行人的人体检测框的新的中心点坐标；

人体检测框生成单元，用于针对每一个未匹配上人体检测框的人头检测框，根据预设预测参数、所述人头检测框的中心点坐标以及与所述人头检测框属于同一行人的人体检测框的新的中心点坐标，生成与所述人头检测框匹配的人体检测框的新的坐标。

在又一个可能的实现方式中，所述当所述人群密度大于所述第二预设阈值，所述目标检测框为所述目标视频帧中的各个人头检测框。

根据本申请实施例的第二方面，提供了一种行人追装置，该装置包括：

确定模块，用于从视频帧序列中确定目标视频帧；

输入模块，用于将所述目标视频帧输入至预先训练的目标检测模型，获得所述目标检测模型输出的至少一个人头检测框和至少一个人体检测框；所述人头检测框用于表征至少一个行人的人头在所述目标视频帧中所在的区域；所述人体检测框用于表征至少一个行人的人体在所述目标视频帧中所在的区域；

处理模块，用于根据所述至少一个人头检测框和至少一个人体检测框，确定所述目标视频帧的人群密度；

标记模块，用于基于所述人群密度确定目标检测框，根据所述目标检测框标记所述目标视频帧的行人；所述目标检测框为人头检测框或人体检测框中的至少一者有关；

其中，所述目标检测模型是以样本视频帧为训练样本，以所述样本视频帧中的人头检测框和人体检测框为训练标签训练而成的。

根据本申请实施例的第三方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，处理器执行程序时实现如第一方面所提供的方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

根据本申请实施例的第五方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现如第一方面所提供的方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的行人追踪方法，首先通过目标检测模型检测出目标视频帧中人头和人体的所在区域，并通过检测出的人头检测框和人体检测框计算目标视频人群密度，从而根据视频密度自适应的选择符合当前人群密度的目标检测框对目标视频帧中的行人进行标记，通过自适应的选择不同的目标检测框，提高了行人跟踪的场景适应性能和跟踪精度，本申请实施例提出的方法解决了在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的实现行人跟踪方法的***架构示意图；

图2为本申请实施例提供的一种行人跟踪方法的流程示意图；

图3为本申请实施例提供的一种行人跟踪方法中的目标检测模型的特征融合层的结构示意图；

图4为本申请实施例提供的一种行人跟踪方法中的目标检测模型的结构示意图；

图5为本申请实施例提供的一种行人跟踪方法中的计算人群密度的流程示意图；

图6为本申请实施例提供的一种行人跟踪方法中的获取目标检测框的流程示意图；

图7为本申请实施例提供的一种行人跟踪方法中的检测框匹配方法的流程示意图；

图8为本申请实施例提供的一种行人跟踪方法中的生成新的人体检测框的流程示意图；

图9为本申请实施例提供的一种行人跟踪方法的流程示意图；

图10为本申请实施例提供的一种行人跟踪装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面对本申请涉及的术语及相关技术进行说明：

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有***聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

注意力机制：注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力，即敏锐度(Acuity)，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。综上，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。

下面对相关技术进行说明：目前在跟踪***中多用ssd、YOLO等一阶段目标检测器。此外，在目标匹配和跟踪算法中，Deepsort和MOTDT等基于目标框IoU和外观特征对目标进行联合匹配和跟踪的方法虽然在跟踪性能上要稍好于Sort和Byte等基于单一目标IoU阈值的跟踪方法，但其额外带来的计算量和时间开销影响了***的实时性，而在密集人群、行人遮挡情况下提取的外观特征往往也不够准确。目前常用的行人多目标跟踪算法多采用以单一的人体或人头为目标进行跟踪，存在以下问题：

在人群处于密集状态、发生严重遮挡时，目标检测器不能有效检测出图像中的人体目标，进而影响人体跟踪的效果。

针对相关技术中所存在的上述至少一个技术问题或需要改善的地方，本申请提出一种行人跟踪方法，该方案通过从视频帧序列中确定目标视频帧；将目标视频帧输入至预先训练的目标检测模型，获得目标检测模型输出的至少一个人头检测框和至少一个人体检测框；人头检测框用于表征至少一个行人的人头在目标视频帧中所在的区域；人体检测框用于表征至少一个行人的人体在目标视频帧中所在的区域；根据至少一个人头检测框和至少一个人体检测框，确定目标视频帧的人群密度；基于人群密度确定目标检测框，根据目标检测框标记目标视频帧的行人；目标检测框与人头检测框或人体检测框中的至少一者有关，可以在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的实现行人跟踪的***架构示意图，其中该***架构包括：终端120和服务器140。

终端120安装和运行有行人跟踪方法的应用程序，终端120，用于确定目标视频帧，并通过目标检测模型获取目标视频帧中的人头检测框和人体检测框，还用于根据人头检测框和人体检测框确定目标视频帧的人群密度，还用于根据人群密度确定目标检测框，根据目标检测框标记目标视频帧的行人。

终端120通过无线网络或有线网络与服务器140相连。

服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的，服务器140包括处理器144和存储器142，存储器142包括显示模块1421、控制模块1422和接收模块1423。服务器140用于为行人跟踪方法的应用程序提供后台服务。可选的，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140、终端120和之间采用分布式计算架构进行协同计算。

可选的，终端的设备类型包括：智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层3(MovingPicture Experts Group Audio Layer III，MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV，MP4)播放器、膝上型便携计算机和台式计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

本申请实施例中提供了一种行人跟踪方法，应用于图1的终端，如图2所示，该方法包括：

S101，从视频帧序列中确定目标视频帧。

在本申请实施例中，视频帧序列由摄像头拍摄得到，在获取到视频帧序列以后，将将连续的视频帧序列按一定的帧间隔输入到用于检测人头和人体的目标检测模型中，目标视频帧就是指连续视频帧序列中输入到目标视频中的视频帧。

在本申请实施例中，根据实际应用场景和场景的人流量，确定目标视频帧的选择频率(帧间隔)，如以一秒选取一帧的频率从视频帧序列中选取视频帧作为目标视频。

S102，将目标视频帧输入至预先训练的目标检测模型，获得目标检测模型输出的至少一个人头检测框和至少一个人体检测框；人头检测框用于表征至少一个行人的人头在目标视频帧中所在的区域；人体检测框用于表征至少一个行人的人体在目标视频帧中所在的区域。

其中，目标检测模型是以样本视频帧为训练样本，以样本视频帧中的人头检测框和人体检测框为训练标签训练而成。

在本申请实施例中，将目标视频帧输入到目标检测模型中后，目标检测模型根据目标视频帧中人头和人体所在的区域，输出人头检测框和人体检测框来表征人头和人体在目标视频帧中的像素位置坐标。其中，检测框的信息包括：检测框的类别和检测框的坐标，检测框的类别是指人头检测框或人体检测框。

在本申请实施例中，将目标视频帧输入到目标检测模型后，输出人体检测框及其对应的置信度和人头检测框及其对应的置信度，根据人头检测框和人体检测框的置信度，对人头检测框和人体检测框进行筛选，将置信度低于置信度阈值的人头检测框和人体检测框去除。

在一个例子中，目标检测模型输出检测框集合{[x₁₁，y₁₁，x₁₂，y₁₂，cls₁，score₁]，[x₂₁，y₂₁，x₂₂，y₂₂，cls₂，score₂]，...}，其中，x₁₁，y₁₁和x₁₂，y₁₂表示检测框的对角线坐标，cls₁表示输出的检测框的类别(即人体检测框或人头检测框)，score₁标识输出的检测框的置信度，将置信度小于预设置信度的检测框从检测框集合中删除。

通过设置置信度阈值，将目标检测模型输出的置信度较低(检测精度较低)的人体检测框或者人头检测框进行删除，不作为后序进行行人跟踪的处理数据，提高了行人跟踪的精确度。

在本申请实施例中通过对样本视频帧中的人头和人体进行标注得到人体检测框和人头检测框，从而使用样本视频帧作为训练样本，使用样本视频帧中标注的人体检测框和人头检测框作为训练标签，对目标检测模型进行训练，从而得到训练好的目标检测模型。

本申请实施例中提供了一种可能的实现方式，目标检测模型包括：特征提取层、特征融合层和目标输出层；将目标视频帧输入至特征提取层，获得特征提取层输出的多个不同下采样倍数的第一图像特征；将多个第一图像特征输入至特征融合层进行特征融合，获得特征融合层输出的多个第二图像特征；将多个第二图像特征输入至目标输出层，得到目标输出层输出的至少一个人头检测框和至少一个人体检测框。

在本申请实施例中，通过特征提取层获取目标视频帧的多个第一图像特征，通过题注融合层获取多个第一图像特征的第二图像特征，最后通过目标输出层对各个第二图像特征中的检测框类别、背景和坐标位置进行预测，最后将预测结果进行拼接，得到目标视频帧的人头检测框和人体检测框。

本申请实施例中提供了一种可能的实现方式，多个不同下采样倍数的第一图像特征包括：第一特征，为目标视频帧经4倍下采样后得到的图像特征；第二特征，为目标视频帧经8倍下采样后得到的图像特征；第三特征，为目标视频帧经16倍下采样后得到的图像特征；第四特征，为目标视频帧经32倍下采样后得到的图像特征。

由于行人在场景中距离摄像头的距离各有不同，因此目标视频帧中的人头和人体的大小各有不同，通过对目标视频帧进行各个倍数的下采样，提升了目标检测模型对场景中各个位置的人头和人体的检测能力，通过进行4倍下采样避免了对较远人体和人体(即较小的人头和人体)无法识别的问题，提高了对较小的人头和人体的检测能力。

在一个例子中，目标视频帧在特征提取层中经4倍下采样后得到第一特征，目标视频帧在特征提取层中经过8倍下采样后得到第二特征，目标视频帧经过16倍下采样后得到第三特征，目标视频帧经过32倍下采样后得到第四特征，将上述第一特征、第二特征、第三特征和第四特征作为特征提取层的输出结果第一图像特征。

在一个例子中，输入特征提取层的目标视频帧的尺寸为416*416，经过4倍下采样后得到尺寸为104*104的第一特征，经过8倍下采样后得到尺寸为52*52的第二特征，经过16倍下采样后得到尺寸为26*26的第三特征，经过32倍下采样后得到尺寸为13*13的下采样特征。

本申请实施例中提供了一种可能的实现方式，目标视频特征进行32倍下采样之后，将目标视频帧经32倍下采样后得到图像特征输入至池化层，池化层包括多层串联的最大池化层；获取各层最大池化层输出的图像特征；将各层最大池化层输出的图像特征进行拼接，得到第四特征。

在一个例子中，池化层由SPPF结构组成，SPFF结构将输入的图像特征输入到串行的多个5×5大小的MaxPool2d层进行处理，最后将各个MaxPool2d层输出的图像特征进行拼接操作，解决的卷积神经网络对图像重复特征提取的问题，大大提高了检测框的速度的同时，减少了参数的计算量。

本申请实施例中提供了一种可能的实现方式，对第四特征先后进行特征提取和上采样和特征提取，并将上采样结果与第三特征进行拼接，得到第一融合图像特征；对第一融合图像特征先后进行特征提取和上采样，并将上采样结果与第二特征进行拼接，得到第二融合图像特征；对第二融合图像特征先后进行特征提取和上采样，并将上采样结果与第一特征进行拼接，得到第三融合图像特征；对第三融合图像特征先后进行特征提取和下采样，并将下采样结果与第二融合图像特征进行拼接，得到第四融合图像特征；对第四融合图像特征先后进行特征提取和上采样，并将上采样结果与第一融合图像特征进行拼接，得到第五融合图像特征；对第五融合图像特征先后进行特征提取和上采样，并将上采样结果与第四特征进行拼接，得到第六融合图像特征；将第三融合图像特征、第四融合图像特征、第五融合图像特征以及第六融合图像特征作为特征融合层输出的多个第二图像特征。

参考图3，其示例性的示出了本申请实施例的目标检测模型的特征融合层的结构示意图，结合图3对多个第一图像特征进行特征融合的过程进行详细描述。其中，图3中的特征融合层的结构中包括用于特征提取的CBS模块和C3模块、用于上采样的Upsample模块、用于进行图像特征拼接的concat模块、用于提取通道特征和空间特征的GAM模块。

步骤1：将经32倍下采样得到的第四特征依次输入至CBS模块和Upsample模块中进行特征提取和上采样，将上采样的结果与第三特征进行拼接得到第一融合图像特征。

步骤2：将第一融合图像特征依次输入C3模块和Upsample模块进行进行特征提取和上采样，将上采样的结果与第二特征进行拼接得到第二融合图像特征。

步骤3：将第二融合图像特征依次输入C3模块和Upsample模块进行进行特征提取和上采样，将上采样的结果与第一特征进行拼接得到第三融合图像特征。

步骤4：将第三融合图像特征经过GAM模块进行空间特征提取和通道特征提取，输出第三融合图像特征:

步骤5：将第三融合图像特征通过步长为2的CBS模块对第三融合图像特征进行下采样，将下采样结果与第二融合图像特征进行拼接，并将拼接结果经过C3模块和GAM模块进行特征提取，最终输出第四融合图像特征。

步骤6：将第四融合图像特征通过步长为2的CBS模块对第四融合图像特征进行下采样，将下采样结果与第一融合图像特征进行拼接，并将拼接结果经过C3模块和GAM模块进行特征提取，最终输出第五融合图像特征。

步骤7：将第五融合图像特征通过步长为2的CBS模块对第五融合图像特征进行下采样，将下采样结果与第四特征进行拼接，并将拼接结果经过C3模块和GAM模块进行特征提取，最终输出第六融合图像特征。

通过PAFPN结构组成的特征融合层对特征提取层提取的图像特征进行多尺度融合，并通过C3模块和Upsample模块实现图像特征的特征提取和上采样，实现了不同尺度的特征图能够进行更好的拼接和融合。

本申请实施例中提供了一种可能的实现方式，将多个第二图像特征输入至目标输出层之前，针对每一个第二图像特征，将第二图像特征通过注意力机制分别提取通道特征和空间特征，得到具备通道特征和空间特征的第二图像特征。

在本申请实施例中，注意力机制中包括串联的通道注意力和空间注意力，针对每一个第二特征图，将第二特征图输入注意力机制后，分别通过注通道注意力和空间注意力提取通道特征和空间特征，得到具备通道特征和空间特征的第二图像特征，具备通道特征和空间特征的第二图像特征作为目标输出层的输入。

在得到第二图像特征之后，输入到目标输出层之前，将第二图像特征经过注意力机制，增强了跨纬度特征信息的交互，提高了目标检测模型对人头或者人体特征的提取能力。

在本申请实施例中，目标输出层对特征融合层输出的图像特征进行解耦，分别采用单独的YOLO Head分支并行的对图像特征中的目标类别(人体或者人头)、前景或背景以及坐标位置进行预测，最后将多个YOLO Head的输出进行拼接作为目标检测模型的输出，即人体检测框和人头检测框。

由于在本申请的行人跟踪方法中需要进行分类的类别较少，只需使用四个CBS卷积层构建YOLO Head，预测操作的Conv2d的由128个减少至64个，减少了类别分类和坐标位置预测计算的复杂度。

参考图4，其示例性的示出了目标检测模型的结构示意图，如图4所示，具体内容如下：

Backbone为特征提取层，由CSPDarknet53结构组成，分别通过Dark2、Dark3、Dark4、Dark5模块提取图像4、8、16和32倍下采样的图像特征、Dark2、Dark3和Dark4均由CBS模块、CSP1模块和CBS模块串联组成，Dark5由CBS模块、、SPPF模块、CSP1模块和CBS模块串联组成。其中，CBS模块由二维卷积层Conv2d、Bn层和SiLU构成，CSP1模块由多个CBS串联构成、SPPF模块由多个串联的MaxPool2d层构成。

Neck为特征融合层，特征融合层包括用于特征提取的CBS模块和C3模块、用于上采样的Upsample模块、用于进行图像特征拼接的concat模块、用于提取通道特征和空间特征的GAM模块。其中，C3模块由多个CBS串联与一个CBS并联构成。GAM模块由通道注意力和控件注意力构成。

Prediction为目标输出层，目标输出层由四个并行的YOLO Head构成，YOLO Head由串联的两个CBS构成用于检测目标类别，由另外串联的两个CBS构成用于检测背景和检测框的位置，两组两两串联的CBS并联构成YOLO Head。

本申请的目标检测模型在原有的YOLO_S的基础上通过在特征提取层增加4倍下采样的Dark2模块进行特征融合和目标预测，提高了对目标视频帧中较小人头和人体的提取能力。并将SPP结构优化为SPPF结构以及将Yolo Head中实现分类和坐标位置预测操作的Conv2d的通道数由128个优化为64个，在提高预测准确率的同时，大大减小了预测过程的计算量，最后在目标检测模型中添加GAM注意力机制，在不明显增加网络计算复杂度的情况下，较大的提升了目标检测模型对小人头或人体的检测能力。

S103，根据至少一个人头检测框和至少一个人体检测框，确定目标视频帧的人群密度。

本申请实施例中提供了一种可能的实现方式，根据人头检测框和人体检测框的数量，选择数量多的检测框作为计算人群密度的第一检测框；针对每一个第一检测框，根据第一检测框的坐标，进行聚类，确定至少一个聚类簇；针对每一个聚类簇，确定聚类簇的最小外接矩形，根据聚类簇中的第一检测框的数量和最小外接矩形的像素面积，确定聚类簇的人群密度；选取最大的人群密度作为目标视频帧的人群密度。

在本申请实施例中，首先选择数量多的检测框作为计算人群密度的第一检测框，确定了第一检测框的检测框类别后，将该类别的检测框的位置坐标转换为中心点位置坐标，然后将预设的领域半径R和领域中行人的最小数目阈值minPts参数进行聚类，确定同一区域内的核心点、边界点和异常点，同一区域内的所有核心点和边界点组成一个聚类簇，从而确定各个聚类簇，其中，领域半径R和minPts参数根据实际应用场景和历史数据进行设置，本申请实施例中的聚类簇代表的是一个行人密集区域，因此，核心点为以该点为圆心，领域半径R内的检测框的中心点数量超过最小数目阈值minPts的检测框中心点；边界点为聚类簇的边界点，即该点的领域半径R内一侧有检测框的中心点，另一侧没有；异常点为该点的领域半径R内无点的检测框中心点，检测框的中心点坐标稀疏分布，即指的是稀疏分布的行人目标。最后根据边界点的坐标计算每个聚类簇的最小外接矩形，通过每个聚类簇中的检测框中心点的坐标和最小外接矩形的像素面积，计算每个聚类簇的人群密度，将最大的人群密度作为整个目标视频帧中的行人的人群密度。

通过聚类算法，可以迅速的确定目标视频帧中的聚集人群，从而可以快速根据聚集人群所在聚类簇的最小外接矩形的像素面积和聚类簇中检测框中心点的数量，计算出各聚类簇的人群密度，选择各聚类簇中值最大的人群密度作为目标视频帧中的人群密度，可以保证根据不同的人群密度进行行人跟踪时所选择的方法能负荷得起目标视频帧中的实际人群密度，提高行人跟踪的准确性。由于当人群较密集时，会产生人头或者人体的遮挡，因此，在选择检测框进行人群密度计算时，选择数量最多的检测框进行计算，计算出的人群密度更符合实际情况。

参考图5，其示例性的示出了本申请实施例的行人跟踪方法中计算人群密度的流程示意图，如图5所示，其中，具体过程如下：

S201，输入领域半径R和行人最小数目阈值minPts。

S202，将人体检测框或者人头检测框的信息输入，其中，上述选择的检测框为较另一类检测框相比，数量更多的检测框。

S203，将目标检测框的坐标转换为中心点位置坐标的格式。

S204，根据领域半径R和行人最小数目阈值minPts，寻找当前帧的图像区域内行人目标的核心点、边界点和异常点。

具体过程如下：遍历每一个目标检测框的中心点，以上述中心点的坐标为圆心，确定领域半径R内的目标检测框的中心点个数，在个数大于行人最小数目阈值minPts的情况下，将上述目标检测框的中心点作为核心点，个数小于最小数目阈值minPts的情况下，且不为零的情况下，将上述目标检测框的中心点作为边界点，个数为0的情况下，将上述目标检测框的中心点作为异常点，根据各边界点和核心点的位置确定各聚类簇。

S205，获取每个聚类簇所在区域的最小外接矩形的像素面积。

S206，针对每一个聚类簇，根据最小外接矩形的像素面积和聚类簇内目标检测框的中心点的数量，确定聚类簇的人群密度估计值，输出每个聚类簇的人群密度的估计值。

S104，基于人群密度确定目标检测框，根据目标检测框标记目标视频帧的行人；目标检测框与人头检测框或人体检测框中的至少一者有关。

在本申请实施例中，根据目标检测框标记目标视频帧中的行人，采用人体多目标***对目标视频帧中的目标检测框进行跟踪来完成行人跟踪的任务。

本申请实施例中提供了一种可能的实现方式，当人群密度小于第一预设阈值时，目标检测框与目标视频帧中的人体检测框相关；当人群密度大于第一预设阈值，且小于第二预设阈值时，目标检测框与目标视频帧中的人头检测框和人体检测框相关；当人群密度大于第二预设阈值，目标检测框与目标视频帧中的人头检测框相关。

在本申请实施例中，当人群密度小于第一预设阈值时，目标检测框为目标视频帧的各个人体检测框。

在本申请实施例中，当目标视频帧中的人群密度小于第一预设阈值时，则认为目标视频帧中的行人还未到达拥挤的程度，处于稀疏分布的状态，因此，不会存在人与人之间会产生大量的遮挡的情况，从而导致目标检测模型无法检测出人头或者人体问题，因此，此时直接采用目标检测模型输出的人体检测框作为目标检测框来对目标视频帧中检测出的人体目标进行跟踪，从而完成行人跟踪任务。

在本申请的又一实施例中，当人群密度大于第一预设阈值，且小于第二预设阈值时，目标检测框的获取步骤，包括：对同一行人的人头检测框和人体检测框基于距离进行匹配；对于未匹配上人体检测框的人头检测框，基于坐标生成与人头检测框匹配的新的人体检测框；将新的人体检测框和目标视频帧中的各个人体检测框作为目标检测框。

在本申请实施例中当人群密度大于第一预设阈值，且小于第二预设阈值时，说明此时目标视频帧中的人群处于一种较拥挤的状态，会存在彼此之间相互遮挡的问题，因此，不仅要将目标视频帧中的所有人体检测框作为目标检测框，还要通过人头检测框的坐标将因为被遮挡而无法生成的人体检测框生成出来，作为目标检测框，从而使得对目标视频帧中的行人跟踪得更加的完整，避免出现漏人的问题。

参考图6，其示例性的示出了本申请实施例中获取目标检测框的流程示意图，如图6所示，具体内容如下：

S301，获取人头和人体的目标检测结果，目标检测结果包括人头检测框和人体检测框的坐标。

S302，根据人头检测框的坐标和人体检测框的坐标进行匹配，判断人头和人体是否属于同一行人，在人头检测框和人体检测框属于同一行人的情况下，人头检测框和人体检测框组成目标对。

S303，对目标对进行检测框过滤，去除目标对中的人头检测框的位置信息，将人体检测框保留输出。

S304，对于未匹配上人体检测框的人头检测框，根据人头检测框的坐标，估计与上述人头检测框属于同一行人的人体检测框的坐标位置，根据估计出的人体检测框的坐标位置，生成新的人体检测框。

S305，将未匹配上人头检测框的人体检测框、生成的新的人体检测框和目标对中的人体检测框作为目标检测框输出。

本申请实施例中提供了一种可能的实现方式，针对每一个人头检测框，根据人头检测框的坐标，确定人头检测框的中心点坐标；针对每一个人体检测框，根据人体检测框的坐标，生成与人体检测框属于同一行人的人头检测框的新的中心点坐标；针对每一个人体检测框，计算对应的新的中心点坐标与各中心点坐标的距离；将距离新的中心点坐标最近，且距离小于预设距离阈值的中心点坐标对应的人头检测框，作为与人体检测框匹配的人头检测框。

在本申请实施例中，由于同一人的人头和人体的中心点在水平方向上的坐标是一致的，由于人体构造的特征，在竖直方向上相差的距离也都可以预估，因此，根据人体检测框的坐标，可以生成与人体检测框属于同一行人的人头检测框的新的中心点坐标，将这个新的中心点坐标与目标视频帧中的每一个人头的中心点坐标进行比较，根据点与点之间的距离即可找出与人体检测框同属于同一行人的人头检测框。

请参考图7，其示例性的示出了本申请实施例的行人跟踪方法中的检测框匹配方法的流程示意图，如图7所示，具体内容如下：

S401，获取人体和人头目标检测结果，目标检测结果中包括人体检测框和人头检测框的坐标。

在一个例子中，人体检测框的和人头检测框的像素坐标为(X_min，Y_min)，(X_max，Y_max)和(x_min，y_min)，(x_max，y_max)。

S402，计算各人头实际中心点位置，即根据人头检测框计算人头检测框的中心点坐标。

在一个例子中，人头检测框的中心点坐标为(x_center，y_center)，计算计算公式如下：

S403，根据人体检测框的中心点坐标，估计人头实际中心点位置坐标，即与人体检测检测框属于同一行人人头检测框的中心点的坐标。

在一个例子中，预测的人头检测框的中心点坐标为计算公式如下：

其中，α为人头中心点估计系数，这里一般可取0.2。

S404，针对每一个人体检测框，计算估计的人头中心点坐标和实际人头中心点坐标的距离，即计算预测的人头检测框的中心点坐标与各实际人头检测框的中心点坐标的距离。

在一个例子中，计算的距离为D，计算公式如下：

S405，根据计算出的距离和匈牙利算法，将预测的人头检测框的中心点坐标与各实际人头检测框的中心点坐标进行匹配。

S406，将匹配上的实际人头检测框与估计的人头检测框对应的人体检测框，组成目标对，目标对为同一行人的人头检测框和人体检测框。

本申请实施例中提供了一种可能的实现方式，针对每一个未匹配上人体检测框的人头检测框，计算人头检测框的中心点坐标，根据中心点坐标，生成与人头检测框属于同一行人的人体检测框的新的中心点坐标；针对每一个未匹配上人体检测框的人头检测框，根据预设预测参数、人头检测框的中心点坐标以及与人头检测框属于同一行人的人体检测框的新的中心点坐标，生成与人头检测框匹配的人体检测框的新的坐标。

在本申请实施例中，由于行人密集分布的时候，行人存在身体部位被遮挡的情况，导致无法被目标检测模型识别从而生成人体检测框，因此，根据人头检测框的坐标和预设的预测参数来对人体检测框进行预测，生产新的人体检测框，避免在人群密度分布的情况下，存在被遮挡的行人无法被跟踪的问题。

参考图8，其示例性的本申请的行人跟踪方法的生成新的人体检测框的流程示意图，如图8所示，人头检测框(人头框)的中心点坐标为(x_center，y_center))，β和γ为人体检测框的中心点估计系数，scale_w和scale_h分别为人体目标框宽、高缩放系数，其中，缩放系数和中心点估计系数可以根据目标对中的人体检测框和人头检测框的坐标计算得到，估计的人体检测框的中心点坐标为估计的人体检测框(人体框)的坐标为：计算公式如下：

/>

在本申请的再一实施例中，当人群密度大于第二预设阈值，目标检测框为目标视频帧中的各个人头检测框。

在本申请实施例中，当目标视频帧中的人群密度大于第二预设阈值时，则认为当前场景下行人极大拥挤遮挡严重，此时采用多目标***对目标视频帧中检测出人头检测框进行跟踪来实现行人跟踪任务，一定程度上解决了行人密集场景下由于无法检测出人体导致跟踪性能不佳的问题。

在本申请实施例中多目标***均采用开源算法ByteTrack中的行人多目标跟踪思想，最后输出的行人多目标跟踪结果包含当前视频图像的帧数以及行人(人体或人头)目标在目标视频帧中的ID编号、位置坐标和目标类别信息。

参考图9，其示例性的示出了行人跟踪方法的流程图，如图9所示，具体内容如下：

S501，将连续帧视频流输入人头和人体的目标检测器(即目标检测模型)。

S502，输出人头检测结果，检测结果包括：人头检测框的坐标信息。

S503，输出人体检测结果，检测结果包括：人体检测框的坐标信息。

S504，根据人头检测框和人体检测框的坐标信息计算人群密度估计值。

S505，判断人群密度估计值d和人群密度阈值d1和d2的大小关系，在人群密度估计值大于d2时，执行步骤S506，在人群密度估计值小于等于d1时，执行步骤S507，在人群密度估计值大于d1，小于d2时，执行步骤S508。

S506，输出人头检测框作为目标检测框，并结合人头多目标***输出行人跟踪结果。

S507，输出人体检测作为目标检测框，并结合人体多目标***输出行人跟踪结果。

S508，根据人体和人头的检测结果融合使用，根据人体检测框和人头检测的坐标，对人体检测框和人头检测框进行匹配，为未匹配上人体检测框的人头检测框生成新的人体检测框。

S509，将新的人体检测框和人体检测结果中的人体检测框作为目标检测框，并结合人体多目标***输出行人跟踪结果。

S509，输出行人多目标跟踪结果。

本申请实施例提供的行人跟踪方法，首先基于优化的目标检测模型对目标视频帧中的人头和人体进行检测，在不明显增加网络计算复杂度的情况下，较大的提升了模型对小目标人头/人体目标的检测能力。然后根据人体检测框和人头检测框计算目标视频帧中的人群密度，从而根据人群密度和预设阈值的大小关小，自适应的选择基于人体检测框、人头检测框以及人头检测框和人体检测框的融合结果的跟踪策略，提高行人多目标跟踪的场景适应性能和跟踪精度，最后输出行人的跟踪结果。解决了在密集人群的情况下，无法对行人进行有效跟踪的问题。提高了行人跟踪的准确率和实时性。

本申请实施例提供了一种行人跟踪装置，如图10所示，该行人跟踪装置100可以包括：确定模块1001、输入模块1002、处理模块1003以及标记模块1004。

确定模块1001，用于从视频帧序列中确定目标视频帧；

输入模块1002，用于将目标视频帧输入至预先训练的目标检测模型，获得目标检测模型输出的至少一个人头检测框和至少一个人体检测框；人头检测框用于表征至少一个行人的人头在目标视频帧中所在的区域；人体检测框用于表征至少一个行人的人体在目标视频帧中所在的区域；

处理模块1003，用于根据至少一个人头检测框和至少一个人体检测框，确定目标视频帧的人群密度；

标记模块1004，用于基于人群密度确定目标检测框，根据目标检测框标记目标视频帧的行人；目标检测框为人头检测框或人体检测框中的至少一者有关；

其中，目标检测模型是以样本视频帧为训练样本，以样本视频帧中的人头检测框和人体检测框为训练标签训练而成的。

本申请实施例提供的行人跟踪装置，首先通过目标检测模型检测出目标视频帧中人头和人体的所在区域，并通过检测出的人头检测框和人体检测框计算目标视频人群密度，从而根据视频密度自适应的选择符合当前人群密度的目标检测框对目标视频帧中的行人进行标记，通过自适应的选择不同的目标检测框，提高了行人跟踪的场景适应性能和跟踪精度，本申请实施例提出的方法解决了在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

进一步地，在一个可能的实现方式中，目标检测模型包括：特征提取层、特征融合层和目标输出层；行人跟踪装置的输入模块包括：

特征提取单元，用于将目标视频帧输入至特征提取层，获得特征提取层输出的多个不同下采样倍数的第一图像特征；

特征融合单元，用于将多个第一图像特征输入至特征融合层进行特征融合，获得特征融合层输出的多个第二图像特征；

目标输出单元，用于将多个第二图像特征输入至目标输出层，得到目标输出层输出的至少一个人头检测框和至少一个人体检测框。

在另一个可能的实现方式中，多个不同下采样倍数的第一图像特征包括：

第一特征，为目标视频帧经4倍下采样后得到的图像特征；

第二特征，为目标视频帧经8倍下采样后得到的图像特征；

第三特征，为目标视频帧经16倍下采样后得到的图像特征；

第四特征，为目标视频帧经32倍下采样后得到的图像特征。

在又一个可能的实现方式中，输入模块，还包括：

输入单元，用于将目标视频帧经32倍下采样后得到图像特征输入至池化层，池化层包括多层串联的最大池化层；

拼接单元，用于将各层最大池化层输出的图像特征进行拼接，得到第四特征。

在又一个可能的实现方式中，特征融合单元，包括：

处理单元，用于对第四特征先后进行特征提取上采样和特征提取，并将上采样结果与第三特征进行拼接，得到第一融合图像特征；

对第一融合图像特征先后进行特征提取和上采样，并将上采样结果与第二特征进行拼接，得到第二融合图像特征；

对第二融合图像特征先后进行特征提取和上采样，并将上采样结果与第一特征进行拼接，得到第三融合图像特征；

对第三融合图像特征先后进行特征提取和下采样，并将下采样结果与第二融合图像特征进行拼接，得到第四融合图像特征；

对第四融合图像特征先后进行特征提取和上采样，并将上采样结果与第一融合图像特征进行拼接，得到第五融合图像特征；

对第五融合图像特征先后进行特征提取和上采样，并将上采样结果与第四特征进行拼接，得到第六融合图像特征；

将第三融合图像特征、第四融合图像特征、第五融合图像特征以及第六融合图像特征作为特征融合层输出的多个第二图像特征。

在又一个可能的实现方式中，输入模块还包括：

注意力单元，用于针对每一个第二图像特征，将第二图像特征通过注意力机制分别提取通道特征和空间特征，得到具备通道特征和空间特征的第二图像特征。

在又一个可能的实现方式中，处理模块包括：

选择单元，用于根据人头检测框和人体检测框的数量，选择数量多的检测框作为计算人群密度的第一检测框；

聚类单元，用于针对每一个第一检测框，根据第一检测框的坐标，进行聚类，确定至少一个聚类簇；

密度确定单元，用于针对每一个聚类簇，确定聚类簇的最小外接矩形，根据聚类簇中的第一检测框的数量和最小外接矩形的像素面积，确定聚类簇的人群密度；

选取单元，用于选取最大的人群密度作为目标视频帧的人群密度。

在又一个可能的实现方式中，当人群密度小于第一预设阈值时，目标检测框与目标视频帧中的人体检测框相关；

当人群密度大于第一预设阈值，且小于第二预设阈值时，目标检测框与目标视频帧中的人头检测框和人体检测框相关；

当人群密度大于第二预设阈值，目标检测框与目标视频帧中的人头检测框相关。

在又一个可能的实现方式中，当人群密度小于第一预设阈值时，目标检测框为目标视频帧的各个人体检测框。

在又一个可能的实现方式中，当人群密度大于第一预设阈值，且小于第二预设阈值时，还包括目标检测框获取模块，目标检测框获取模块包括：

生成单元，用于对于未匹配上人体检测框的人头检测框，基于坐标生成与人头检测框匹配的新的人体检测框；

关联单元，用于将新的人体检测框和目标视频帧中的各个人体检测框作为目标检测框。

在又一个可能的实现方式中，匹配单元，包括：

中心点确定单元，用于针对每一个人头检测框，根据人头检测框的坐标，确定人头检测框的中心点坐标；

中心点生成单元，用于针对每一个人体检测框，根据人体检测框的坐标，生成与人体检测框属于同一行人的人头检测框的新的中心点坐标；

确定单元，用于将距离新的中心点坐标最近，且距离小于预设距离阈值的中心点坐标对应的人头检测框，作为与人体检测框匹配的人头检测框。

在又一个可能的实现方式中，生成单元包括：

计算单元，用于针对每一个未匹配上人体检测框的人头检测框，计算人头检测框的中心点坐标，根据中心点坐标，生成与人头检测框属于同一行人的人体检测框的新的中心点坐标；

人体检测框生成单元，用于针对每一个未匹配上人体检测框的人头检测框，根据预设预测参数、人头检测框的中心点坐标以及与人头检测框属于同一行人的人体检测框的新的中心点坐标，生成与人头检测框匹配的人体检测框的新的坐标。

在又一个可能的实现方式中，当人群密度大于第二预设阈值，目标检测框为目标视频帧中的各个人头检测框。

本申请实施例中提供了一种电子设备(计算机装置/设备/***)，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现……方法的步骤，与相关技术相比可实现：首先通过目标检测模型检测出目标视频帧中人头和人体的所在区域，并通过检测出的人头检测框和人体检测框计算目标视频人群密度，从而根据视频密度自适应的选择符合当前人群密度的目标检测框对目标视频帧中的行人进行标记，通过自适应的选择不同的目标检测框，提高了行人跟踪的场景适应性能和跟踪精度，本申请实施例提出的方法解决了在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

其中，电子设备包可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11所示的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。与现有技术相比可实现：

首先通过目标检测模型检测出目标视频帧中人头和人体的所在区域，并通过检测出的人头检测框和人体检测框计算目标视频人群密度，从而根据视频密度自适应的选择符合当前人群密度的目标检测框对目标视频帧中的行人进行标记，通过自适应的选择不同的目标检测框，提高了行人跟踪的场景适应性能和跟踪精度，本申请实施例提出的方法解决了在密集人群和人体遮挡过大的情况下，存在实时性差、准确性低以及自适应能力差的问题。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。与现有技术相比可实现：

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种行人跟踪方法，其特征在于，包括：

从视频帧序列中确定目标视频帧；

2.根据权利要求1所述的行人跟踪方法，其特征在于，所述目标检测模型包括：特征提取层、特征融合层和目标输出层；

所述将所述目标视频帧输入至预先训练的目标检测模型，获得所述目标检测模型输出的至少一个人头检测框和至少一个人体检测框，包括：

将所述目标视频帧输入至特征提取层，获得所述特征提取层输出的多个不同下采样倍数的第一图像特征；

将多个第一图像特征输入至所述特征融合层进行特征融合，获得所述特征融合层输出的多个第二图像特征；

将所述多个第二图像特征输入至所述目标输出层，得到所述目标输出层输出的所述至少一个人头检测框和至少一个人体检测框。

3.根据权利要求2所述的行人跟踪方法，其特征在于，所述多个不同下采样倍数的第一图像特征包括：

4.根据权利要求3所述的行人跟踪方法，其特征在于，所述目标视频特征进行32倍下采样之后，还包括：

将所述目标视频帧经32倍下采样后得到图像特征输入至池化层，所述池化层包括多层串联的最大池化层；

获取各层最大池化层输出的图像特征；

将各层最大池化层输出的图像特征进行拼接，得到所述第四特征。

5.根据权利要求3所述的行人跟踪方法，其特征在于，所述将多个第一图像特征输入至所述特征融合层进行特征融合，获得所述特征融合层输出的多个第二图像特征，包括：

对所述第四特征先后进行特征提取和上采样，并将上采样结果与所述第三特征进行拼接，得到第一融合图像特征；

将所述第三融合图像特征、所述第四融合图像特征、所述第五融合图像特征以及所述第六融合图像特征作为所述特征融合层输出的多个第二图像特征。

6.根据权利要求2所述的行人跟踪方法，其特征在于，所述将所述多个第二图像特征输入至所述目标输出层之前，还包括：

针对每一个第二图像特征，将所述第二图像特征通过注意力机制分别提取通道特征和空间特征，得到具备通道特征和空间特征的第二图像特征。

7.根据权利要求1所述的行人跟踪方法，其特征在于，所述根据所述至少一个人头检测框和至少一个人体检测框，确定所述目标视频帧的人群密度，包括：

根据所述人头检测框和所述人体检测框的数量，选择数量多的检测框作为计算所述人群密度的第一检测框；

针对每一个第一检测框，根据所述第一检测框的坐标，进行聚类，确定至少一个聚类簇；

针对每一个聚类簇，确定所述聚类簇的最小外接矩形，根据所述聚类簇中的第一检测框的数量和所述最小外接矩形的像素面积，确定所述聚类簇的人群密度；

选取最大的人群密度作为所述目标视频帧的人群密度。

8.根据权利要求1所述的行人跟踪方法，其特征在于，当所述人群密度小于第一预设阈值时，所述目标检测框与所述目标视频帧中的人体检测框相关；

9.根据权利要求8所述的行人跟踪方法，其特征在于，所述当所述人群密度小于第一预设阈值时，所述目标检测框为所述目标视频帧的各个人体检测框。

10.根据权利要求8所述的行人跟踪方法，其特征在于，所述当所述人群密度大于所述第一预设阈值，且小于第二预设阈值时，所述目标检测框的获取步骤，包括：

对同一行人的人头检测框和人体检测框基于距离进行匹配；

对于未匹配上人体检测框的人头检测框，基于坐标生成与所述人头检测框匹配的新的人体检测框；

将所述新的人体检测框和所述目标视频帧中的各个人体检测框作为所述目标检测框。

11.根据权利要求10所述的行人跟踪方法，其特征在于，所述对同一行人的人头检测框和人体检测框基于距离进行匹配，包括：

针对每一个人头检测框，根据所述人头检测框的坐标，确定所述人头检测框的中心点坐标；

针对每一个人体检测框，根据所述人体检测框的坐标，生成与所述人体检测框属于同一行人的人头检测框的新的中心点坐标；

针对每一个人体检测框，计算对应的新的中心点坐标与各中心点坐标的距离；

将距离所述新的中心点坐标最近，且所述距离小于预设距离阈值的中心点坐标对应的人头检测框，作为与所述人体检测框匹配的人头检测框。

12.根据权利要求10所述的行人跟踪方法，其特征在于，所述对于未匹配上人体检测框的人头检测框，基于坐标生成与所述人头检测框匹配的新的人体检测框，包括：

针对每一个未匹配上人体检测框的人头检测框，计算所述人头检测框的中心点坐标，根据所述中心点坐标，生成与所述人头检测框属于同一行人的人体检测框的新的中心点坐标；

针对每一个未匹配上人体检测框的人头检测框，根据预设预测参数、所述人头检测框的中心点坐标以及与所述人头检测框属于同一行人的人体检测框的新的中心点坐标，生成与所述人头检测框匹配的人体检测框的新的坐标。

13.根据权利要求8所述的行人跟踪方法，其特征在于，所述当所述人群密度大于第二预设阈值，所述目标检测框为所述目标视频帧中的各个人头检测框。

14.一种行人跟踪装置，其特征在于，包括：

确定模块，用于从视频帧序列中确定目标视频帧；

15.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-13任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-13任一项所述方法的步骤。