CN113420679B

CN113420679B - 一种人工智能跨相机多目标追踪***及追踪方法

Info

Publication number: CN113420679B
Application number: CN202110714403.2A
Authority: CN
Inventors: 路松峰; 刘永志
Original assignee: Nanjing Souwen Information Technology Co ltd
Current assignee: Nanjing Souwen Information Technology Co ltd
Priority date: 2021-06-26
Filing date: 2021-06-26
Publication date: 2024-04-26
Anticipated expiration: 2041-06-26
Also published as: CN113420679A

Abstract

本发明提供一种人工智能跨相机多目标追踪***，包括数据层、追踪层、检索层、表示层。数据层主要负责不同视频数据流的采集、解析；追踪层通过目标检测、特征提取、模型预测、特征关联四个部分实现相机中行人目标的关联匹配，最终实现跨相机追踪效果；检索层用于跨相机的扩展，通过更智能的算法对追踪过程中行人的特征序列进行维护，提高行人检索的效果与准确度；表示层用于对跨相机追踪的结果进行可视化展示。本发明在现实生活中诸多复杂场景，基于部署在不同位置不同角度的监控相机，通过采集到的多路视频画面来实现对多个目标的移动轨迹的实时追踪。改进特征提取模型，采用行人重识别模型以实现更好的提取效果。

Description

一种人工智能跨相机多目标追踪***及追踪方法

技术领域

本发明属于视频监控与目标追踪技术领域，具体涉及一种人工智能跨相机多目标追踪***及使用其的追踪方法。

背景技术

随着智能安防与智慧城市的发展，中国成为世界上监控设备部署规模最大的一个国家，而大量的视屏数据也带来了更多的机遇，基于监控视频流的各种应用不断得到拓展。

基于单相机的多目标追踪逐渐在速度和精度上取得了巨大的进步，在实际生活中也有广泛的应用，逐渐将原有事件发生后离线处理的形式转变为在线监测的形式，极大的节省了人力物力，对智慧城市的建设带来了更先进的技术。但生活中的场景往往不仅仅依赖于单相机，在现实诸多的公共场所中都布满了无死角的监控，每个人的行动轨迹都被尽收眼底，对于深度学习在跨相机场景的应用却少之又少，对于生活中更多的场景，往往需要通过对多个监控画面进行同时的处理才能够达到最佳的效果。多个监控画面的同步、实时视频画面的处理及跨相机场景多目标的关联都是巨大的难题。

通过以上分析，当前对跨相机多目标追踪问题的应用有着诸多难点，跨摄像头多目标跟踪的任务是找到行人在不同摄像头的所有运动轨迹,该任务的挑战性在于：处理多个视频的多个目标运算量大，以及实际应用中行人姿态、光照、相机视角变化等造成不同摄像头下的行人外观差异较大。

发明内容

本发明要解决的技术问题是提供一种人工智能跨相机多目标追踪***及追踪方法，旨在解决现有单相机多目标追踪技术在视频监控中复杂场景应用的缺陷，从多个相机同时出发以解决跨相机多目标追踪问题。

为解决上述技术问题，本发明的实施例提供一种人工智能跨相机多目标追踪***，包括数据层模块、追踪层模块、检索层模块和表示层模块，其中，

所述数据层模块负责不同视频数据流的采集、解析，对不同视频流数据流的处理以及后续的追踪均部署在不同的机器当中，将每台机器的CPU及显卡资源让一个功能充分使用，视频流的传输主要通过rtsp视频流实现，采用ffmpeg进行实时解码，降低推理周期中的整体延时，通过opencv实现对视频流数据的预处理；

所述追踪层模块由目标检测、特征提取、模型预测、特征关联四个模块构成，目标检测模块对每个视频流中的行人进行检测并获得其对应的图片坐标系下的坐标；特征提取模块通过深度学习模型对检测到的目标框进行特征提取，得到每个目标2048维的向量特征，用于后续跨相机追踪部分的特征关联；模型预测模块通过卡尔曼滤波算法对目标的逐帧位置进行线性预测，降低因暂时性遮挡导致的追踪丢失的情况，通过对追踪目标的线性预测，实现短期丢失后目标复现仍然可以被检测到，同时采用IOU度量方式也可以实现更精准的IOU匹配；特征关联模块通过指定的度量距离，来计算不同目标之间的相似度或特征距离，然后通过匈牙利算法来对相邻帧的追踪目标和检测目标来进行关联匹配，从而实现单相机或多相机下的多目标追踪；

所述检索层模块用于跨相机的扩展，包含目标特征采集、自动化特征更新、多维特征索引、持久化存储四个功能块，特征采集模块用于在实际追踪过程中对追踪目标信息的采集，包含目标的id与2048维的特征以及目标所对应的相机标识，检索库中每一个id会包含多个特征用于检索；自动化特征更新用在特征采集的过程中，通过同一id已经采集到的特征信息来进行取舍判断，根据相似度或特征距离的大小设定阈值来决定当前特征信息是否纳入到检索库当中，排除掉遮挡情况下特征提取效果不好的特征；多维特征索引用于通过id或相机标识来索引相应的特征信息；持久化存储用于该内存数据的保存，通过定期序列化特征检索库实现特征检索库的文件存储，将特征关联功能提取出来，从而实现更便捷与精准的关联匹配；

所述表示层模块是为了跨相机追踪的可视化效果展示，包含相机平面映射和目标位置映射与渲染两个模块，通过相机平面映射，将不同相机的空间画面映射到2D俯视平面上的相应的多边形，方便在一张图中聚集与展示多个视频画面，使得实验结果有更加直观的展示，对于实验分析、后续实验设计及实验优化进行可视化，都有较大的帮助；目标位置映射与渲染用于将目标在原相机下的坐标映射到2d俯视平面中用于呈现，通过不同监控画面下相同目标在俯视平面上的映射情况来分析实验的效果。

本发明还提供一种使用上述人工智能跨相机多目标追踪***的人工智能跨相机多目标追踪方法，包括如下步骤：

S1、部署多台边缘计算设备和服务器机器，保证所有设备在同一个网段下，在边缘设备上完成实时监控视频流的采集、解析和处理；

S2、每台边缘设备对相应的视频流进行目标检测与行人重识别操作，获取每一个行人的位置和行人提取到的高维特征；

S3、边缘设备将统计得到的检测信息加上时间戳和视频流标识发送至服务器，服务器接收到发来的检测信息后，根据时间戳来实现检测信息的同步；

S4、服务器根据视频流标识，对每一个视频画面进行内部的单相机多目标追踪，来对画面中的行人进行关联追踪，主要将画面中当前存在的追踪目标和检测目标进行匹配，通过匈牙利算法实现两者间的最佳匹配；

S5、对于步骤S4中未匹配上的检测目标，针对每一个视频流标识中的检测目标，将其与其他视频流标识对应的画面中的追踪目标进行关联，通过轮询的方式对画面中的检测目标所对应的行人特征序列来进行匹配，当满足特征之间的距离小于一定阈值时，将其关联；

S6、对于步骤S5中未匹配的检测目标，在自适应行人特征检索库根据行人重识别模型提取的特征进行特征的检索，根据目标相似度、出现频率和不同检测结果距当前帧时间差来赋予不同的权重，从检索库中计算与当前检测目标距离最近的行人ID及加权距离，根据设置的阈值来进行过滤操作，并得出检索结果；

S7、对于仍未匹配上的检测目标，依据当前最大的行人ID为其赋予递增的序号，并将最中匹配的结果进行维护，并将处理后画面编码并展示。

所述的人工智能跨相机多目标追踪方法主要采用yolov5算法来实现目标检测功能，采用MGN行人重识别模型来提取特征，通过行人重识别来代替原来的传统CNN特征提取模块，可以有效的改善目标关联的效果。

其中，步骤S5中，针对每一个视频流标识中的检测目标，将其与其他视频流标识对应的画面中的追踪目标进行关联的具体步骤为：

S51、依次选取所有的视频流，针对每一次操作，首先将当前视频流标识在当前帧下仍未关联上的检测目标添加至待匹配列表作为候选；

S52、汇总除当前视频流标识外的其他视频流，对多个视频流下的重复目标进行过滤，得到当前在画面中的所有行人目标的唯一标识；

S53、将当前待匹配列表中的检测目标对应的特征和其他视频流下唯一标识行人对应的特征列表进行距离的计算，根据匈牙利算法得到最佳匹配，此过程主要是针对当前画面中未关联上的目标，其可能会出现在其他监控画面中；

S54、匹配上其他视频流下相应的目标之后，将匹配的ID赋予给当前的检测目标，将该目标状态设置为已经出现过。

其中，步骤S6中，能够在实时追踪过程中将不同相机下的画面中的行人目标捕捉，并存入其中供服务进行检索查询，包含多种检索形式：

S61、根据行人id得到行人在不同相机下拍摄到的图片，图片针对行人部分进行裁剪，减少背景对行人型特提取的影响；

S62、根据行人id得到行人在不同相机下的特征，特征通过特征提取模块得到，维度是2048维，实验证明2048维能够有效的区分不同id的行人及关联相似度较高的行人；

S63、设置行人特征，通过给定id、时间戳（一般为图像对应的帧数）、特征提取模块得到的特征、检测到的行人图片来设置，存入内存友好的数据结构中，并定期持久化到redis内存数据库当中。根据传入的特征向量与分配的id进行比较，查看通过id索引到的已有的特征，计算已有特征和当前特征之间的度量距离，当达到一定阈值后才会将特征存储；

S64、根据特征进行检索，通过相似度排序，得到和传入特征最相似的行人特征对应的行人id及其相关信息；

S65、根据时间戳检索当前时间戳下的不同相机下的所有目标，获取所有行人id、特征。

其中，步骤S64中，不同的目标根据相似度、出现频率以及不同检测结果和当前帧之间的时间差来赋予不同的权重，加权计算得到检索结果中不同id对应的加权结果，选择加权结果最高的id来匹配，加权结果的计算包含以下步骤：

S641、首先获取行人特征检索库中所有目标的信息，逐个与当前待检测目标进行特征距离计算；

S642、根据检索库中特征距离当前时间的差值进行加权计算，对越靠近当前时间的特征对应距离的计算设置更高的权重，对距当前时间越远的特征设置更低的权重。

其中，步骤S6的行人特征检索库中，通过对检索的行人特征进行关联匹配，对是否添加进行人检索库通过算法进行判定，动态维护行人检索库的行人特征。

本发明的上述技术方案的有益效果如下：

1、本发明提供的人工智能跨相机多目标追踪***，在现实生活中诸多复杂场景，基于部署在不同位置不同角度的监控相机，通过采集到的多路视频画面来实现对多个目标的移动轨迹的实时追踪。改进特征提取模型，采用行人重识别模型以实现更好的提取效果。

2、本发明中的自适应行人特征检索库，实时将行人目标的特征保存下来，通过算法选择更优的特征用来匹配，并排除掉检测效果不佳的图片，从而在追踪过程中实现更精准的关联匹配。

3、本发明公开了一种人工智能跨相机多目标追踪***，通过采用多级目标关联，从相机内、相机间和行人检索库三种形式进行关联匹配，从而实现跨相机场景的多目标追踪。

附图说明

图1为本发明提供的人工智能跨相机多目标追踪***的结构框图；

图2为本发明提供的人工智能跨相机多目标追踪方法的流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明提供一种人工智能跨相机多目标追踪***，包括数据层模块、追踪层模块、检索层模块和表示层模块，其中，

所述数据层模块，主要负责不同视频数据流的采集、解析，对不同视频流数据流的处理以及后续的追踪均部署在不同的机器当中，尽可能将每台机器的CPU及显卡资源让一个功能充分使用，视频流的传输主要通过rtsp视频流实现，采用ffmpeg进行实时解码，降低推理周期中的整体延时，通过opencv实现对视频流数据的预处理，以满足模型输入的要求。

所述追踪层模块是整个架构的核心功能，主要由目标检测、特征提取、模型预测、特征关联四个模块构成，目标检测模块对每个视频流中的行人进行检测并获得其对应的图片坐标系下的坐标；特征提取模块通过深度学习模型对检测到的目标框进行特征提取，得到每个目标2048维的向量特征，用于后续跨相机追踪部分的特征关联；模型预测模块主要通过卡尔曼滤波算法对目标的逐帧位置进行线性预测，降低因暂时性遮挡导致的追踪丢失的情况，通过对追踪目标的线性预测，实现短期丢失后目标复现仍然可以被检测到，同时采用IOU度量方式也可以实现更精准的IOU匹配；特征关联模块通过指定的度量距离，来计算不同目标之间的相似度或特征距离，然后通过匈牙利算法来对相邻帧的追踪目标和检测目标来进行关联匹配，从而实现单相机或多相机下的多目标追踪。追踪层模块中的目标检测模型采用YOLOv5，用于特征提取的行人重识别模型采用MGN模型。

所述检索层模块主要用于跨相机的扩展，主要包含目标特征采集、自动化特征更新、多维特征索引、持久化存储四个功能块，特征采集模块主要用于在实际追踪过程中对追踪目标信息的采集，包含目标的id与2048维的特征以及目标所对应的相机标识，检索库中每一个id会包含多个特征用于检索；自动化特征更新主要用在特征采集的过程中，通过同一id已经采集到的特征信息来进行取舍判断，根据相似度或特征距离的大小设定阈值来决定当前特征信息是否纳入到检索库当中，可以排除掉遮挡情况下特征提取效果不好的特征；多维特征索引用于通过id或相机标识来索引相应的特征信息；持久化存储主要用于该内存数据的保存，通过定期序列化特征检索库实现特征检索库的文件存储，该层级主要为了将特征关联功能提取出来，从而实现更便捷与精准的关联匹配。

所述表示层模块主要是为了跨相机追踪的可视化效果展示，包含相机平面映射和目标位置映射与渲染两个模块，通过相机平面映射，将不同相机的空间画面映射到2D俯视平面上的相应的多边形，方便在一张图中聚集与展示多个视频画面，使得实验结果有更加直观的展示，对于实验分析、后续实验设计及实验优化进行可视化，都有较大的帮助；目标位置映射与渲染主要用于将目标在原相机下的坐标映射到2d俯视平面中用于呈现，可以通过不同监控画面下相同目标在俯视平面上的映射情况来分析实验的效果。

人工智能跨相机多目标追踪***的各个模块均位于同一个局域网环境下，从而避免因网络延时而导致的问题。

如图2所示，本发明还提供一种人工智能跨相机多目标追踪方法，包括如下步骤：

S4、服务器根据视频流标识，对每一个视频画面进行内部的单相机多目标追踪，来对画面中的行人进行关联追踪，主要将画面中当前存在的追踪目标和检测目标进行匹配，通过匈牙利算法实现两者间的最佳匹配；本步骤中，多目标追踪框架主要基于deepsort进行开发，对于视频中目标的移动预测采用卡尔曼滤波算法。

S5、对于步骤S4中未匹配上的检测目标，针对每一个视频流标识中的检测目标，将其与其他视频流标识对应的画面中的追踪目标进行关联，通过轮询的方式对画面中的检测目标所对应的行人特征序列来进行匹配，当满足特征之间的距离小于一定阈值时，将其关联。

其中，针对每一个视频流标识中的检测目标，将其与其他视频流标识对应的画面中的追踪目标进行关联的具体步骤为：

所述的视频流主要以rtsp协议格式进行传输，不同视频流之间的同步通过ffmpeg来实现。

S6、对于步骤S5中未匹配的检测目标，在自适应行人特征检索库根据行人重识别模型提取的特征进行特征的检索，根据目标相似度、出现频率和不同检测结果距当前帧时间差来赋予不同的权重，从检索库中计算与当前检测目标距离最近的行人ID及加权距离，根据设置的阈值来进行过滤操作，并得出检索结果。其中，行人特征检索库中，通过对检索的行人特征进行关联匹配，对是否添加进行人检索库通过算法进行判定，动态维护行人检索库的行人特征。

本步骤能够在实时追踪过程中将不同相机下的画面中的行人目标捕捉，并存入其中供服务进行检索查询，包含多种检索形式：

S64、根据特征进行检索，通过相似度排序，得到和传入特征最相似的行人特征对应的行人id及其相关信息。其中，不同的目标根据相似度、出现频率以及不同检测结果和当前帧之间的时间差来赋予不同的权重，加权计算得到检索结果中不同id对应的加权结果，选择加权结果最高的id来匹配，加权结果的计算包含以下步骤：

本发明提供的人工智能跨相机多目标追踪方法主要采用yolov5算法来实现目标检测功能，采用MGN行人重识别模型来提取特征，通过行人重识别来代替原来的传统CNN特征提取模块，可以有效的改善目标关联的效果。

本发明公开了一种人工智能跨相机多目标追踪***，主要包括四个模块，根据主要负责的功能分为数据层、追踪层、检索层、表示层。其中数据层主要负责不同视频数据流的采集、解析；追踪层通过目标检测、特征提取、模型预测、特征关联四个部分实现相机中行人目标的关联匹配，最终实现跨相机追踪效果；检索层主要用于跨相机的扩展，自动化特征更新、多维特征索引、持久化存储四个功能块，通过更智能的算法对追踪过程中行人的特征序列进行维护，提高行人检索的效果与准确度；表示层主要是用于对跨相机追踪的结果进行可视化展示，包含相机平面映射和目标位置映射和渲染两个模块。

本发明公开了一种基于行人重识别的自适应行人特征检索库，通过改进多目标追踪中目标关联阶段的关联算法，通过自适应算法对追踪过程中行人特征序列进行动态维护，构造针对行人的支持多种索引方式的自适应行人特征检索库，用以提高追踪过程中的关联效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人工智能跨相机多目标追踪***，其特征在于，包括数据层模块、追踪层模块、检索层模块和表示层模块，其中，

所述检索层模块用于跨相机的扩展，包含目标特征采集、自动化特征更新、多维特征索引、持久化存储四个功能块，特征采集模块用于在实际追踪过程中对追踪目标信息的采集，包含目标的id与2048维的特征以及目标所对应的相机标识，检索库中每一个id会包含多个特征用于检索；自动化特征更新用在特征采集的过程中，通过同一id已经采集到的特征信息来进行取舍判断，根据相似度或特征距离的大小设定阈值来决定当前特征信息是否纳入到检索库当中，排除掉遮挡情况下特征提取效果不好的特征；多维特征索引用于通过id或相机标识来索引相应的特征信息；持久化存储用于内存数据的保存，通过定期序列化特征检索库实现特征检索库的文件存储，将特征关联功能提取出来，从而实现更便捷与精准的关联匹配；

2.一种使用如权利要求1所述的人工智能跨相机多目标追踪***的人工智能跨相机多目标追踪方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的人工智能跨相机多目标追踪方法，其特征在于，采用yolov5算法来实现目标检测功能，采用MGN行人重识别模型来提取特征，通过行人重识别来代替原来的传统CNN特征提取模块。

4.根据权利要求2所述的人工智能跨相机多目标追踪方法，其特征在于，步骤S5中，针对每一个视频流标识中的检测目标，将其与其他视频流标识对应的画面中的追踪目标进行关联的具体步骤为：

S53、将当前待匹配列表中的检测目标对应的特征和其他视频流下唯一标识行人对应的特征列表进行距离的计算，根据匈牙利算法得到最佳匹配；

5.根据权利要求2所述的人工智能跨相机多目标追踪方法，其特征在于，步骤S6中，在实时追踪过程中将不同相机下的画面中的行人目标捕捉，并存入其中供服务进行检索查询，包含多种检索形式：

S63、设置行人特征，通过给定id、时间戳、特征提取模块得到的特征、检测到的行人图片来设置，存入数据结构中，并定期持久化到redis内存数据库当中，根据传入的特征向量与分配的id进行比较，查看通过id索引到的已有的特征，计算已有特征和当前特征之间的度量距离，当达到一定阈值后才会将特征存储；

6.根据权利要求5所述的人工智能跨相机多目标追踪方法，其特征在于，步骤S64中，不同的目标根据相似度、出现频率以及不同检测结果和当前帧之间的时间差来赋予不同的权重，加权计算得到检索结果中不同id对应的加权结果，选择加权结果最高的id来匹配，加权结果的计算包含以下步骤：

7.根据权利要求2所述的人工智能跨相机多目标追踪方法，其特征在于，步骤S6的行人特征检索库中，通过对检索的行人特征进行关联匹配，对是否添加进行人检索库通过算法进行判定，动态维护行人检索库的行人特征。