CN118072361A

CN118072361A - 一种基于随机游走的小股行人重识别方法及***

Info

Publication number: CN118072361A
Application number: CN202410496315.3A
Authority: CN
Inventors: 周洁琼; 张国庆; 刘天奇; 郑钰辉; 张家伟; 董仕豪
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-04-24
Filing date: 2024-04-24
Publication date: 2024-05-24
Anticipated expiration: 2044-04-24
Also published as: CN118072361B

Abstract

本发明公开了一种基于随机游走的小股行人重识别方法及***，所述方法包括以下步骤：（1）捕捉到的行人视频并进行预处理；（2）将图片通过单目估计算法得到深度图，并对单人深度图计算深度平均值；通过vision transformer得到行人特征，将行人特征通过按深度平均值大小依次构建成具有不同节点的图结构；（3）通过随机游走模块对图进行重构，每添加一个图节点计算该探针图像和图库图像之间的亲和力分数，并计算该组成员的亲和力分数平均值，得到亲和力分数平均值最高的图；（4）将重构的图在图间通过组上下文信息传递，更新图节点特征，结合注意力机制，进行组匹配，预测两组的匹配得分；本发明节约了大量的人力成本和时间成本。

Description

一种基于随机游走的小股行人重识别方法及***

技术领域

本发明涉及算机视觉图像检索技术领域，尤其涉及一种基于随机游走的小股行人重识别方法及***。

背景技术

在计算机视觉和公共安全领域，行人重识别被视为一项核心研究议题，其主要目标在于通过不同监控摄像头识别并追踪个体的身份。目前的行人重识别技术主要集中在单个行人身份的识别上，但对于多人同时出现在监控视野中的场景研究尚不充分。鉴于人类在公共场所常以小型群体形式出现，这一社会行为特性使得对小型群体行人重识别技术的研究在实际应用中显得尤为重要。

小股行人重识别（Group Re-identification）的目标是在非重叠摄像头下检索和识别人群。这一任务除了面临视点变化和人体姿势变化等常规挑战外，还需应对额外的复杂因素：（i）群体布局变化：由于不同摄像头视角的限制，群体中成员的布局和相对位置在不同摄像机视图中可能存在显著差异，这一变化受到成员间的动态移动影响；（ii）群组成员变化：群组成员可能会动态地频繁加入或离开。现有大多数方法倾向于使用k近邻算法构建图结构，传递相邻个体间的上下文信息，以应对群组成员关系的变化。然而，这些方法在处理行人布局变化时效果有限。

发明内容

发明目的：本发明的目的是提供了一种基于随机游走的小股行人重识别方法及***，设计一种基于单目深度估计的视觉变换器，旨在解决摄像头距离对群组成员关系判断的影响；通过重构图结构，引入了随机游走模块来有效处理小股行人重识别中的群组成员和布局变化问题。

技术方案：本发明所述的一种基于随机游走的小股行人重识别方法，包括以下步骤：

（1）构建包含多个互联网摄像头的监控网络，所捕捉到的行人视频资料随后被上传并存储至云端服务器；对视频数据进行预处理；

（2）将图片通过单目估计算法得到深度图，分别对原图和深度图裁剪出单个行人特征，并对单人深度图计算深度平均值；通过vision transformer得到行人特征，将行人特征通过按深度平均值大小依次构建成具有不同节点的图结构；

（3）通过随机游走模块对图进行重构，每添加一个图节点计算该探针图像和图库图像之间的亲和力分数，并计算该组成员的亲和力分数平均值，得到亲和力分数平均值最高的图；

（4）将重构的图在图间通过组上下文信息传递，更新图节点特征，结合注意力机制，进行组匹配，预测两组的匹配得分。

进一步的，步骤（1）预处理具体如下：裁剪统一成258*128像素规格的行人视频序列组成图库集gallery，对图像数据集进行标准化预处理以及数据增强操作。

进一步的，步骤(2)包括以下步骤：

（21）首先，设图像为，将图像/>重塑为平坦的2D补丁序列；其中，/>是原始图像的分辨率，/>是通道数，/>是每个图像补丁的分辨率，/>表示得到的补丁数；然后，将可学***坦的2D补丁序列压平并使用可训练的线性投影映射到/>维，则初始化的输入序列/>计算公式如下：

；

其中，表示第i个图像补丁；/>是i个图像补丁的嵌入，通过映射函数E生成；/>表示位置嵌入，加到序列的每个元素上，以提供位置信息，并帮助模型理解序列中不同元素的位置关系；

（22）利用Transformer编码器对输入序列进行训练，公式如下：

；

其中，表示第l层多头自注意力MSA模块的输出，/>是前一层的输出，/>是第ℓ层输出，包含了多层感知机MLP的处理结果。

进一步的，步骤 (3) 具体如下：给定1个探针图像和个图库图像，使用CNN来估计图像之间的成对亲和度得分；其中，由CNN在探针图像和图库图像之间生成的初始亲和度得分表示为/>；设/>作为包含探针序列集和/>个图库图像之间亲和度分数的矩阵；使用/>函数归一化原始亲和度矩阵/>的每一行，公式如下：

；

其中，表示在随机游动迭代期间防止自增强；则初始亲和度随机游动的迭代可以表示为：

；

其中，表示初始亲和度/>的一次迭代；第/>个图像的亲和度得分/>可以计算为：

；

通过类比，计算得到亲和度得分，并获得所有图像的平均亲和度得分；最终将具有最高平均亲和度的图视为目标组。

进一步的，步骤 (4) 包括以下步骤：

（41）首先，给定两个图，将人/>和/>的特征分别划分为/>和/>部分；计算图之间行人特征的重要性权重，公式如下：

；

其中，表示内积层，/>表示投影矩阵；

然后，使用函数计算注意力权重：

；

则相应注意力权重的图间消息从图的第/>部分中的人/>传递到图/>的第/>部分中人，可以如下计算：

；

在获得图间的信息后，使用完全连接层更新节点特征：

；

同理，在图中得到更新后的特征/>；公式如下：

；

（42）使用交叉熵损失、三元组损失函数和成对损失函数来优化网络；其中，交叉熵损失公式如下：

；

其中，表示当前batch下成员的数量，/>表示整个成员的类别；当第/>个成员属于第/>个类时，参数函数/>，/>是Transformer的预测；

三元组损失函数公式如下：

；

其中，表示两个特征之间的欧氏距离，/>//>//>表示当前batch的锚定样本/正样本/负样本，/>表示/>，/>表示边距；

采用成对损失函数将同一组的特征拉近，并将不同的组的特征推远：

；

其中，表示该对的标签，/>是边距，当组对共享相同的ID时/>，当组对由不同的组组成时/>，最终的损失函数表示为：

。

本发明所述的一种基于随机游走的小股行人重识别***，包括：

预处理模块：用于构建包含多个互联网摄像头的监控网络，所捕捉到的行人视频资料随后被上传并存储至云端服务器；对视频数据进行预处理；

图结构模块：用于将图片通过单目估计算法得到深度图，分别对原图和深度图裁剪出单个行人特征，并对单人深度图计算深度平均值；通过vision transformer得到行人特征，将行人特征通过按深度平均值大小依次构建成具有不同节点的图结构；

亲和力分数模块：用于通过随机游走模块对图进行重构，每添加一个图节点计算该探针图像和图库图像之间的亲和力分数，并计算该组成员的亲和力分数平均值，得到亲和力分数平均值最高的图；

匹配模块：用于将重构的图在图间通过组上下文信息传递，更新图节点特征，结合注意力机制，进行组匹配，预测两组的匹配得分。

进一步的，预处理模块中，预处理具体如下：裁剪统一成258*128像素规格的行人视频序列组成图库集gallery，对图像数据集进行标准化预处理以及数据增强操作。

进一步的，图结构模块中，包括以下步骤：

；

（22）利用Transformer编码器对输入序列进行训练，公式如下：

；

进一步的，亲和力分数模块中，具体如下：给定1个探针图像和个图库图像，使用CNN来估计图像之间的成对亲和度得分；其中，由CNN在探针图像和图库图像之间生成的初始亲和度得分表示为/>；设/>作为包含探针序列集和/>个图库图像之间亲和度分数的矩阵；使用/>函数归一化原始亲和度矩阵/>的每一行，公式如下：

；

进一步的，匹配模块中，包括以下步骤：

；

其中，表示内积层，/>表示投影矩阵；

然后，使用函数计算注意力权重：

；

在获得图间的信息后，使用完全连接层更新节点特征：

；

同理，在图中得到更新后的特征/>；公式如下：

；

三元组损失函数公式如下：

；

。

有益效果：与现有技术相比，本发明具有如下显著优点：本发明采用自动化的方式对小股行人进行识别，减少了人工走访调查的工作量，节约了大量的人力成本和时间成本。

附图说明

图1为本发明的流程图；

图2为本发明的框架图；

图3为本发明的机游走模块过程的可视化；

图4为本发明的在 CSG 数据集上可视化前 5 名排名列表的结果；

图5为本发明的神经网络模型的训练流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1-5所示，本发明实施例提供一种基于随机游走的小股行人重识别方法，包括以下步骤：

（1）构建包含多个互联网摄像头的监控网络，所捕捉到的行人视频资料随后被上传并存储至云端服务器；对视频数据进行预处理；预处理具体如下：裁剪统一成258*128像素规格的行人视频序列组成图库集gallery，对图像数据集进行标准化预处理以及数据增强操作。

（2）将图片通过单目估计算法得到深度图，分别对原图和深度图裁剪出单个行人特征，并对单人深度图计算深度平均值；通过vision transformer得到行人特征，将行人特征通过按深度平均值大小依次构建成具有不同节点的图结构；包括以下步骤：

；

（22）利用Transformer编码器对输入序列进行训练，公式如下：

；

（3）通过随机游走模块对图进行重构，每添加一个图节点计算该探针图像和图库图像之间的亲和力分数，并计算该组成员的亲和力分数平均值，得到亲和力分数平均值最高的图；具体如下：

给定1个探针图像和个图库图像，使用CNN来估计图像之间的成对亲和度得分；其中，由CNN在探针图像和图库图像之间生成的初始亲和度得分表示为/>；设/>作为包含探针序列集和/>个图库图像之间亲和度分数的矩阵；使用/>函数归一化原始亲和度矩阵/>的每一行，公式如下：

；

（4）将重构的图在图间通过组上下文信息传递，更新图节点特征，结合注意力机制，进行组匹配，预测两组的匹配得分。包括以下步骤：

；

其中，表示内积层，/>表示投影矩阵；

然后，使用函数计算注意力权重：

；

在获得图间的信息后，使用完全连接层更新节点特征：

；

同理，在图中得到更新后的特征/>；公式如下：

；

三元组损失函数公式如下：

；

。

本发明在CUHK-SYSU Group、Road Grou和DukeMTMC Group三个小股行人数据集上的性能表现达到了先进水平，大部分性能指标达到了目前最高水平，对比试验结果如表1：

表1 本算法与其它小股行人重识别算法的准确度对比

本发明实施例还提供一种基于随机游走的小股行人重识别***，包括：

预处理模块：用于构建包含多个互联网摄像头的监控网络，所捕捉到的行人视频资料随后被上传并存储至云端服务器；对视频数据进行预处理；具体如下：裁剪统一成258*128像素规格的行人视频序列组成图库集gallery，对图像数据集进行标准化预处理以及数据增强操作。

图结构模块：用于将图片通过单目估计算法得到深度图，分别对原图和深度图裁剪出单个行人特征，并对单人深度图计算深度平均值；通过vision transformer得到行人特征，将行人特征通过按深度平均值大小依次构建成具有不同节点的图结构；包括以下步骤：

；

（22）利用Transformer编码器对输入序列进行训练，公式如下：

；

亲和力分数模块：用于通过随机游走模块对图进行重构，每添加一个图节点计算该探针图像和图库图像之间的亲和力分数，并计算该组成员的亲和力分数平均值，得到亲和力分数平均值最高的图；具体如下：

；

包括以下步骤：

；

其中，表示内积层，/>表示投影矩阵；

然后，使用函数计算注意力权重：

；

在获得图间的信息后，使用完全连接层更新节点特征：

；

同理，在图中得到更新后的特征/>；公式如下：/>

；

三元组损失函数公式如下：

；

。/>

Claims

1.一种基于随机游走的小股行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于随机游走的小股行人重识别方法，其特征在于，步骤（1）预处理具体如下：裁剪统一成258*128像素规格的行人视频序列组成图库集gallery，对图像数据集进行标准化预处理以及数据增强操作。

3.根据权利要求1所述的一种基于随机游走的小股行人重识别方法，其特征在于，步骤(2)包括以下步骤：

（21）首先，设图像为，将图像/>重塑为平坦的2D补丁序列/>；其中，/>是原始图像的分辨率，/>是通道数，/>是每个图像补丁的分辨率，/>表示得到的补丁数；然后，将可学***坦的2D补丁序列压平并使用可训练的线性投影映射到/>维，则初始化的输入序列/>计算公式如下：

；

（22）利用Transformer编码器对输入序列进行训练，公式如下：

；

4.根据权利要求1所述的一种基于随机游走的小股行人重识别方法，其特征在于，步骤(3) 具体如下：给定1个探针图像和个图库图像，使用CNN来估计图像之间的成对亲和度得分；其中，由CNN在探针图像和图库图像之间生成的初始亲和度得分表示为/>；设/>作为包含探针序列集和/>个图库图像之间亲和度分数的矩阵；使用/>函数归一化原始亲和度矩阵/>的每一行，公式如下：

；

5.根据权利要求1所述的一种基于随机游走的小股行人重识别方法，其特征在于，步骤(4) 包括以下步骤：

；

其中，表示内积层，/>表示投影矩阵；

然后，使用函数计算注意力权重：

；

则相应注意力权重的图间消息从图的第/>部分中的人/>传递到图/>的第/>部分中人/>，可以如下计算：

；

在获得图间的信息后，使用完全连接层更新节点特征：

；

同理，在图中得到更新后的特征/>；公式如下：

；

三元组损失函数公式如下：

；

。

6.一种基于随机游走的小股行人重识别***，其特征在于，包括：

7.根据权利要求6所述的一种基于随机游走的小股行人重识别***，其特征在于，预处理模块中，预处理具体如下：裁剪统一成258*128像素规格的行人视频序列组成图库集gallery，对图像数据集进行标准化预处理以及数据增强操作。

8.根据权利要求6所述的一种基于随机游走的小股行人重识别***，其特征在于，图结构模块中，包括以下步骤：

；

（22）利用Transformer编码器对输入序列进行训练，公式如下：

；

9.根据权利要求6所述的一种基于随机游走的小股行人重识别***，其特征在于，亲和力分数模块中，具体如下：给定1个探针图像和个图库图像，使用CNN来估计图像之间的成对亲和度得分；其中，由CNN在探针图像和图库图像之间生成的初始亲和度得分表示为；设/>作为包含探针序列集和/>个图库图像之间亲和度分数的矩阵；使用/>函数归一化原始亲和度矩阵/>的每一行，公式如下：

；

10.根据权利要求6所述的一种基于随机游走的小股行人重识别***，其特征在于，匹配模块中，包括以下步骤：

；

其中，表示内积层，/>表示投影矩阵；

然后，使用函数计算注意力权重：

；

在获得图间的信息后，使用完全连接层更新节点特征：

；

同理，在图中得到更新后的特征/>；公式如下：

；

三元组损失函数公式如下：

；

。