CN107153824A

CN107153824A - 基于图聚类的跨视频行人重识别方法

Info

Publication number: CN107153824A
Application number: CN201710365014.7A
Authority: CN
Inventors: 张军; 涂丹; 陈海生; 雷军; 任维雅; 李硕豪; 周浩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2017-09-12

Abstract

本发明提供一种基于图聚类的跨视频行人重识别方法。技术方案是：检测出整个监控场景中的所有行人出现，存储行人出现的局域图像及相关信息；对所有的局域图像进行提取特征形成多维描述子，利用多维描述子计算局域图像两两之间的相似度，得到相似度矩阵；利用P‑近邻方法对相似度矩阵进行稀疏；再利用图聚类的方法对稀疏后的相似度矩阵进行聚类，使用模块度指标确定类别个数，每个类别代表这个监控网络中的所有出现序列，根据这个序列得到该行人对象在整个监控场景中的出现轨迹。本发明不需设定检索门限，根据每个行人在整个监控场景中实际出现的次数返回相应的序列。同时，本发明可以同时自动获取多个行人在整个监控场景中出现轨迹。

Description

基于图聚类的跨视频行人重识别方法

技术领域

本发明属于视频监控技术领域，具体地说，本发明涉及一种找出不同视频中的相同行人的方法。

背景技术

在一些重要场所如车站、广场、机场等，一个单一的监控摄像机难以实现对全场景的监控，其监控场景往往由多个摄像机组成。在这种多个摄像机组成的监控网络中，重点关注行人目标，通过行人检测得到每个行人对象在每个摄像机中的捕获图像，进一步将这些图像关联起来，获得每个行人对象在整个监控场景中的出现轨迹。如追踪一个被拐卖的儿童，就可以通过该儿童的出现轨迹，迅速发现其活动轨迹以及最后出现的时间和地点，同时还可以获得同行的犯罪嫌疑人的特征以便进一步追踪，而当前的操作往往是人工辨识，效率低，速度慢，经常错过最好救援时机。同样的，对重要嫌疑人的追踪，或是其他的重要目标如车、财物等的追踪也是可行的。

但实际上每个行人对象在整个监控场景中出现的次数未知且差异较大，现有的方法，见文献[Zhao,Rui,Ouyang,Wanli,Wang,Xiaogang.Unsupervised Salience Learningfor Person Re-identification[C]//2013:3586-3593.]，是对行人目标进行关联排序，对输入行人图像返回一个按相似度排序的行人图像序列，但这种方法存在一个局限：返回的行人图像序列不能给出其中哪些图像是与输入图像来自同一行人对象的判断，也不能进一步得到每个行人在整个监控场景中的出现轨迹。

本发明的目的在于解决这个局限，实现在整个监控场景中获得行人个数和每个行人对象的活动轨迹，为进一步的应用需求提供支撑。

我们通过对比行人图像两两间的相似度得到一个相似度矩阵(可看做全连接的有权无向图)，对这个相似度矩阵进行改造，得到一个有权、无向、稀疏的图，图中点代表行人图像，图中边代表行人图像之间的相似度。然后用图聚类的观点来看待这个图像分类问题，每个聚类结果为一个行人对象的出现序列，将这个出现序列按时间先后的顺序排列，得到该行人对象的时空轨迹。

发明内容

本发明的目的在于，使用聚类的方法解决自动获取每个行人对象在整个监控场景中的出现轨迹问题，每个聚类类别对应一个行人对象在整个监控场景(如来自不同摄像机的视频或相同摄像机不同时段的视频)中的出现序列，代表其在整个监控场景中的出现轨迹。

本发明的技术解决方案是：检测出整个监控场景中的所有行人出现，存储行人出现的局域图像及相关信息；对所有的局域图像进行提取特征形成多维描述子，利用多维描述子计算局域图像两两之间的相似度，得到相似度矩阵；利用P-近邻方法对相似度矩阵进行稀疏；再利用图聚类的方法对稀疏后的相似度矩阵进行聚类，使用模块度指标确定类别个数，每个类别代表这个监控网络中的所有出现序列，根据这个序列得到该行人对象在整个监控场景中的出现轨迹。

与现有技术相比，本发明的有益效果在于：

本发明使用聚类的方法自动获取每个行人在整个监控场景中的出现轨迹，每个聚类类别对应一个行人对象在整个监控场景中的出现序列，代表其在整个场景中的出现轨迹。因此，本发明不需设定检索门限，根据每个行人在整个监控场景中实际出现的次数返回相应的序列。同时，本发明可以同时自动获取多个行人在整个监控场景中出现轨迹。

此外，本发明通过检测行人出现，只存储行人出现的局域图像，可以有效对视频信息进行浓缩，节省存储空间；基于局部图像进行特征提取，提高计算效率；用P-近邻方法对相似度矩阵进行稀疏，再进行聚类的做法减少了聚类计算量，有效提高了计算效率。

附图说明

图1为本发明技术方案详解图；

图2为本发明对视频中的行人图像的存储形式示意图；

图3为本发明中行人图像聚类结果示意；

图4为本发明中最终得到的行人活动轨迹示意图。

具体实施方式

本发明的技术方案如图1所示，下面结合附图和具体实施例，对本发明提供的基于图聚类的跨视频行人重识别方法作进一步详细的解释。

步骤(一)：检测出整个监控场景中的所有行人出现，存储行人出现的局域图像及相关信息。

利用现有的方法将输入视频中的所有行人检测出来，形成行人出现的局域图像及相关信息，相关信息包括局域图像所属视频的帧号、在视频所在帧的视场中的位置。其中，局域图像是指行人在摄像机监控场景中出现到离开的过程中，捕获其在中间帧中的瞬时动作作为一次出现的代表，使用一个完全包含行人身体部分的最小矩形框将行人局部图像截取出来得到的图像，如图2所示，同时存储下该矩形框的左上和右下坐标以及该图像被捕获时的时间信息。

步骤(二)：对所有的局域图像提取特征形成多维描述子，利用多维描述子计算局域图像两两之间的相似度，得到相似度矩阵。

(2a)在具体的图像重识别实现过程中，对局域图像进行分块特征表示，实现步骤如下：

1、将所有局域图像调整为同一尺寸，本实施例取64×32；

2、用稠密的网格将局域图像划分成若干矩形块。如在本实施例中，每个

矩形块大小为10×10，步长为4，每个局域图像被划分为14×6的块矩阵。

(2b)对局域图像中的每个块计算特征向量，得到整幅局域图像的多维特征描述子。

计算图像块的特征向量时，可以使用现有的各种类型的特征或特征组合。本实施例中使用颜色直方图和SIFT特征的组合作为的特征向量。特征向量来自两个部分，第一部分是LAB颜色直方图，对L,A,B三个通道分别计算32个方向(划分区间数可以随应用需求调整)的颜色梯度，在每个通道上再进行三个层次的降采样，这样特征维度将达到32×3×3＝288；第二部分是SIFT特征，同样也在3个颜色通道中进行分别计算，这样特征维度达到128×3＝384。这样，最终的特征向量的维度为384+288＝672。

假设局域图像被划分为a×b的块矩阵，整幅局域图像的多维描述子由所有块的特征向量组成，其大小为a×b×672。

(2c)相似度矩阵构建

假设在所有视频中一共捕获到N幅局域图像，通过步骤(2b)得到所有局域图像中每个块的特征向量，并以局域图像的多维描述子形式存储。计算局域图像p与q之间的相似度步骤具体如下：

1、使用公式(1)计算块的显著性得分

表示来自视频A中的行人图像p中第m行n列的块，表示由N-1个块组成的集合，其中元素由其他N-1副图像中与块距离最小的块组成，D_k为块在中的第k个最近邻的距离(此处的距离为块的特征向量间的距离，使用向量间的经典欧式距离计算方法计算得到)，本实施例中k＝N/2。

2、使用公式(2)计算局域图像p与q之间的相似度Sim(p,q)

S_p,q为块在图像x^B,q中的搜索集，由x^B,q中第m-l到m+l行的所有块组成，本实施例中l取3。是S_p,q中与距离最小的块,表示来自视频B中的行人图像q中第i行j列，此处的距离仍然指块的特征向量间的经典欧式距离。

对所有N副局域图像计算两两之间的相似度，得到一个N×N的相似度矩阵。

步骤(三)：利用P-近邻方法对相似度矩阵进行稀疏。

对步骤(二)得到的N×N相似度矩阵，使用P-近邻方法进行稀疏，在本发明中，P值取为5*log(N)向上取整。

步骤(四)：利用图聚类的方法对稀疏后的相似度矩阵进行聚类，通过模块度值确定类别数。得到每个行人对象在这个监控网络中的所有出现序列，根据这个序列得到该行人对象在整个监控场景中的出现轨迹。

(4a)对相似矩阵进行聚类

对步骤(三)中得到的稀疏后的相似度矩阵，将其看作一个相似图，相似图中的点代表局域图像，边代表局域图像间的相似度。设定类别数k(初始值通常为2)，使用图聚类的方法进行聚类，可以选用的图聚类方法很多，在本实施例中，使用基于合同近似的方法(CAC_n)见文献[任维雅.图划分准则下基于图的学习方法研究[D].长沙:国防科学技术大学,2015:55-64.]实现图聚类。聚类得到的每个类别中的所有点代表某个行人对象在监控场景中的所有被捕获到的局域图像，如图3所示。

(4b)行人个数发现

在步骤(4a)中不断增大类别数k进行多次聚类，得到不同k值对应的聚类结果。应用图分割理论中的模块度概念，对每次聚类结果，计算相应类别数对应的模块度值。当模块度值达到最大值后停止增加k值重复步骤(4a)，并取这个最大模块度值对应的类别数为本发明得到的行人个数，对应的聚类结果为最终返回的行人聚类结果。模块度计算方法如下：

假设计算N幅局域图像两两之间的相似度值得到的相似矩阵被划分为k个类别，如步骤(4a)所述。那么定义k*k的对称矩阵e，其中的元素e_cv表示连接类别c与类别v中节点数的边数占矩阵中所有边数的比例。这个矩阵的迹Tre＝∑_ce_cc表示图中所有连接类别内部节点边数占矩阵中所有边数的比例。定义行(或列)的加总值a_c＝∑_ve_cv，表示所有连接了类别c中的节点边数占总边数的比例。由e_cv和a_c的定义可知e_cv＝a_c×a_v。从而，模块度Q的计算公式为：

其中||e²||为矩阵e²的模，即矩阵e²中元素的总和。

(4c)生成行人活动轨迹

对得到的行人聚类结果，利用其时间信息进行排序。根据行人图像的时间信息和其对应视频编号信息，在监控场景中将这些行人图像定位到对应的摄像机位置，根据时间信息将这些位置连接起来，得到行人对象在整个监控场景中的出现轨迹。如图4所示，图中展示了两个行人对象的轨迹，图中上部为两个行人图像的聚类结果序列，下部分别为两个行人对象在整个监控场景中的活动轨迹，图中虚线表示上部左侧男子的活动轨迹，图中实线表示上部右侧男子的活动轨迹。

Claims

1.一种基于图聚类的跨视频行人重识别方法，其特征在于，检测出整个监控场景中的所有行人出现，存储行人出现的局域图像及相关信息；对所有的局域图像进行提取特征形成多维描述子，利用多维描述子计算局域图像两两之间的相似度，得到相似度矩阵；利用P-近邻方法对相似度矩阵进行稀疏；再利用图聚类的方法对稀疏后的相似度矩阵进行聚类，使用模块度指标确定类别个数，每个类别代表这个监控网络中的所有出现序列，根据这个序列得到该行人对象在整个监控场景中的出现轨迹；

其中，上述提及的相关信息是指局域图像在整个场景中的位置信息和时间信息；

提取特征形成多维描述子时，使用颜色直方图和SIFT特征的组合作为提取的特征；

模块度指标是指应用图聚类的方法对稀疏后的相似度矩阵进行聚类时，应用图分割理论中的模块度概念，对每次聚类结果，计算相应类别数对应的模块度值。