CN105825201A

CN105825201A - 视频监控中的运动目标跟踪方法

Info

Publication number: CN105825201A
Application number: CN201610199738.4A
Authority: CN
Inventors: 熊盛武; 郑文博; 金鑫; 李栋; 曹旺
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-03

Abstract

本发明公开了一种视频监控中的运动目标跟踪方法，包括步骤：利用SIFT提取局部特征点，将视频中每一帧图像映射为特征矢量（中间哈希）；利用聚类分析将中间哈希进一步映射为最终哈希值；采用汉明距离来测度帧图像与帧图像之间的相似性，从而追踪到每一帧图像中的跟踪目标。

Description

视频监控中的运动目标跟踪方法

技术领域

本发明涉及图像处理领域，尤其涉及一种视频监控中的运动目标跟踪方法。

背景技术

视觉是人类获取信息的主要手段，并且在人工智能领域的发展中，机器视觉技术已有30多年历史，而近10年来已经形成了工业自动化产业的一个分支。在近几年，目标识别的应用逐渐得到重视，尤其是在摄像头方面：如果单纯的用摄像头记录下一天的全部录像，然后让人去检索录像数据是否有人出现的场景，这将会带来时间和精力的消耗；如果事先设定用目标识别和跟踪技术来对摄像头数据进行检索，那么就可以减少数据的容量和缩减了人的工作量，大大优化了资源的使用。

目标检测是一种在任意数字图像中找到目标的位置的图形技术。目标检测的方法有基于几何特征的，有基于肤色分割的，还有基于统计理论的，本文所描述的多目标跟踪算法就是采用基于统计理论的目标检测方法。目标跟踪的研究相比目标检测要晚，主要是分为基于运动分析的目标跟踪和基于目标检测的目标跟踪算法。基于运动分析的目标跟踪方法依靠运动信息来检测目标的运动状态，再通过跟踪运动目标和施以目标检测来判定，当前主要有基于区域匹配、基于特征点和基于变形模板的目标跟踪算法。基于目标检测的跟踪算法则是利用视频序列中每一帧之间的关联，用某种特定方法来预测下一帧中目标可能出现的区域，再对该区域进行目标检测来进行跟踪。

近年来，诸如视频会议以及安全监控等技术的发展，对特定环境下的人员进行跟踪显示十分必要，所以目标跟踪技术的应用变得越来越多。国内外很多大学和公司都在致力研究目标跟踪技术。

采用光流法进行运动物体检测的问题主要在于大多数光流法计算耗时，实时性和实用性都较差。但是光流法的优点在于光流不仅携带了运动物体的运动信息，而且还携带了有关景物三维结构的丰富信息，它能够在不知道场景的任何信息的情况下，检测出运动对象。但是光流法在计算时耗时较长，实用性和实时性都较差。

对于现有技术中的MeanShift算法，当两个目标相邻时，相邻的搜索窗口将收敛于局部最大(强势)窗口，会导致跟踪失败。

发明内容

本发明的发明目的在于，将数据感知哈希方法推广到视觉领域，并基于SIFT特征提取算法以及K-means聚类分析方法，在视频中实现对目标区域的准确跟踪

本发明解决其技术问题所采用的技术方案是：

提供一种视频监控中的运动目标跟踪方法，包括以下步骤：

S1、在第一帧图像中选择目标跟踪区域图像并对该目标跟踪区域图像进行如下处理：

将目标跟踪区域的图像统一规格化为128像素*128像素，得到图像I_K*K；对图像I_K*K做SIFT特征提取，得到特征矢量为

R＝{R₁,R₂R₃R₄,…，R_i，…,R_n}R∈Z⁶⁴

其中，R_i(i＝1,2,3,……,n)表示图像中一个特征点向量，R表示所有特征点向量的集合，Z⁶⁴表示一个1*64位向量；

利用K-means聚类分析对特征矢量R进行量化，采用基于欧几里得度量来划分决定簇类，并根据聚类结果的质心点M_k大小将其所在类C_i,i＝1,2,3,……,64的数值映射为1或0，具体根据公式(2)映射得到64位中间哈希值h(i，j)；

h (i, j) = \{\begin{matrix} 0 & C_{i} (k) < M_{k} \\ 1 & C_{i} (k) > M_{k} \end{matrix}, k = 1, 2, 3, ... ..., 64 - - - (2)

并将中各行相加如公式(3)，得到第一帧中目标跟踪区域的最终64位哈希值h_Ti；

h_{T i} = Σ_{j = 1}^{n} h (i, j), 1 \leq i, j \leq 64 - - - (3)

表示对每一行进行异或运算，i表示行，j表示列；

S2、将第二帧图像分割为多个区域图像，每个区域图像的大小与第一帧中目标跟踪区域图像的大小相同，并根据步骤S1中的处理过程得到第二帧图像中每个区域图像的最终64位图像哈希值，并计算第二帧中每个区域图像的最终64位图像哈希值与第一帧中目标跟踪区域的最终64位哈希值之间的汉明距离Dis；并根据计算的汉明距离Dis进一步计算两者的相识度Sam为：

S a m = \frac{64 - D i s}{64}

当Sam大于预设判决门限δ时，对该区域图像进行动态跟踪，并将其作为下一帧的目标跟踪区域图像；

S3、同理根据步骤S2对第i帧图像进行分割和处理，找到该第i帧图像中的目标跟踪区域图像。

本发明所述的视频监控中的运动目标跟踪方法中，δ＝0.9。

本发明所述的视频监控中的运动目标跟踪方法中，对第一帧中目标跟踪区域图像以及其他帧中的分割后的区域图像进行预处理具体包括：将图像进行灰度化和亮度处理，并采用双三值插值法将图像统一规格化为128像素*128像素的图像。

本发明产生的有益效果是：本发明通过基于SIFT提取的特征属于图像的局部特征，它对旋转、尺度变换、亮度变化具有不变性，在噪声攻击及滤波方面也保持了一定的稳定性。对提取的特征点向量进行压缩，并利用聚类分析得到最终的哈希。使得该算法对于各种图像目标跟踪有较好的稳健性。引入汉明距离来计算相似度，大大加快了运算速度，提高了实用性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例视频监控中的运动目标跟踪方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的视频监控中的运动目标跟踪方法感知哈希跟踪算法中对目标的跟踪主要分为特征提取、压缩和映射、匹配三个步骤，第一步利用SIFT提取局部特征点，将视频中每一帧图像映射为特征矢量(中间哈希)。第二步利用聚类分析将中间哈希进一步映射为最终哈希值。对于第一步特征提取就是要捕获图像的感知内容。而第二阶段是信息的压缩和分类，强调的是整体信息的压缩表示。第三步，采用汉明距离来测度帧图像与帧图像之间的相似性。

(1)对原始视频进行预处理，可对原始的彩***中每一帧进行灰度化和亮度处理，需要用户在第一帧中选定目标区域(设为length*long)；

(2)将第i帧图像以任意分割方式做成N*length*long(不足取NULL)，可采用双三值插值法将第一帧选定的目标区域图像或者其他分割后的区域图像统一规格化为K*K，得到区域图像I_K*K，本发明实施例中K＝128。对区域图像I_K*K做SIFT特征提取。用Lowe的缺省参数算法提取的局部特征点不是很稳定，同时数目较多。由于SIFT特征是在多尺度空间下建立的，随着尺度的增大，分割后的区域图像通过高斯卷积被平滑的程度也不断增大。因此在高尺度空间下能够提取的特征点具有更强的稳定性，同时还可以通过调整峰值门限和边缘门限来控制产生的特征点。最后得到的特征矢量为

R＝{R₁,R₂R₃R₄,…R_i…,R_n}R∈Z⁶⁴

其中，R_i(i＝1,2,3,……,n)表示第一帧中的目标追踪区域图像或者第i帧的分割区域图像中一个特征点向量，R表示所有特征点向量的集合，Z⁶⁴表示一个1*64维向量。

(3)利用K-means聚类分析对R进行量化，本发明采用基于欧几里得度量来划分从而决定簇类，并根据聚类结果的质心点M大小将其所在类C_i,i＝1,2,3,……,64的数值映射为1或0如公式(2)。最后得到最终的64位哈希值：

h (i, j) = \{\begin{matrix} 0 & C_{i} (k) < M_{k} \\ 1 & C_{i} (k) > M_{k} \end{matrix}, k = 1, 2, 3, ... ..., 64 - - - (2)

利用K-means聚类分析对R进行量化主要包括步骤：

①先从数据库随机挑个随机点当“种子点”；

②对于每个点，我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))；

③然后，再取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random-＝D(x)，直到其<＝0，此时的点就是下一个“种子点”；

④重复前两个步骤直到k个聚类中心被选出来；

⑤repeat

将每个点指派到最近的质心，形成K个簇，重新计算每个簇的质心点，直到簇不发生变化或达到最大迭代次数。

(4)将h(i，j)中各行相加如公式(3)，得到一个1*64位的哈希值h_Ti。通过对特征矩阵各行元素求和实现了对特征矩阵数据的压缩的目的。其中表示对每一行进行异或运算。

h_{T i} = Σ_{j = 1}^{n} h (i, j), 1 \leq i, j \leq 64 - - - (3)

(5)将第i帧图像以任意分割方式做成N*length*long(不足取NULL)，并利用(2)～(4)得到视频中第i帧图像的追踪区域图像(经由i-1帧图像得到)的最终64位图像哈希值h_Ti，然后计算h_Ti与下一帧的64位图像的某一区域图像哈希h_Ti+1之间的汉明距离Dis：

Dis＝||h_Ti-h_Ti+1||

其中，符号“-”规定为计算汉明距离运算符。

(6)根据计算第i帧图像的目标追踪区域图像和下一帧的某一分割区域的64位图像的哈希值的汉明距离Dis进一步计算两个图像的相识度Sam为：

S a m = \frac{64 - D i s}{64}

其中，Sam取值在[0,1]之间，当Sam大于预设判决门限δ时，此处取δ为0.9，则对该帧图像进行动态跟踪，否则，记录直到找到m＝1,2,3…..N满足δ条件为止，并将满足要求的分割图像作为此帧中的目标跟踪区域图像。

其中，尺度不变特征变换(SIFT)是用于图像处理领域的一种组合尺度不变区域检测的图像局部描述子，这种描述具有尺度不变性，可在图像中检测出关键点，同时它也是一种梯度分布描述子。所以它具有图像旋转和尺度变换的不可变性，同时对仿射变换、亮度变换及噪声等也有较好的鲁棒性。

以第2帧图像为例说明，将第2帧图像以任意分割方式做成N*length*long(不足取NULL)，并利用(2)～(4)得到视频中第1帧图像的用户选定的追踪区域图像的最终64位图像哈希值h_T1，然后计算第1帧的目标追踪图像的哈希值与第2帧的某一区域图像的64位图像的哈希值h_Ti之间的汉明距离Dis：

Dis＝||h_T1-h_T2||

其中，符号“-”规定为计算汉明距离运算符。

根据计算第1帧图像的用户选定的追踪区域图像和第2帧的某一区域的64位图像的哈希值间汉明距离Dis进一步计算两个图像的相识度Sam为：

S a m = \frac{64 - D i s}{64}

其中，Sam取值在[0,1]之间，当Sam大于预设判决门限δ时，此处取δ为0.9，输出该区域的图像，并将其作为第2帧的跟踪目标区域图像，记录对应的h_T2，否则，记录直到找到m＝1,2,3…..N满足δ条件为止。

以第3帧图像为例说明，将第3帧图像以任意分割方式做成N*length*long(不足取NULL)，并利用得到的视频中第2帧图像的追踪区域图像的最终64位图像哈希值h_T2，然后计算h_T2与下一帧的64位图像的某一区域图像哈希h_T3。之间的汉明距离Dis，再根据计算第2帧图像的追踪区域图像和第3帧的某一区域的64位图像的哈希值间汉明距离Dis进一步计算两个图像的相识度，当Sam大于预设判决门限δ时，输出该区域的图像，并将其作为第3帧的跟踪目标区域图像，记录对应的h_T3，否则，记录直到找到m＝1,2,3…..N满足δ条件为止。

第i帧图像的处理和跟踪以此类推，在此不赘述。

本发明通过基于SIFT提取的特征属于图像的局部特征，它对旋转、尺度变换、亮度变化具有不变性，在噪声攻击及滤波方面也保持了一定的稳定性。对提取的特征点向量进行压缩，并利用聚类分析得到最终的哈希。使得该算法对于各种图像目标跟踪有较好的稳健性。引入汉明距离来计算相似度，大大加快了运算速度，提高了实用性。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种视频监控中的运动目标跟踪方法，其特征在于，包括以下步骤：

R＝{R₁,R₂R₃R₄,…，R_i，…,R_n}R∈Z⁶⁴

h (i, j) = \{\begin{matrix} 0 & C_{i} (k) < M_{k} \\ 1 & C_{i} (k) > M_{k} \end{matrix}, k = 1, 2, 3, ... ..., 64 - - - (2)

并将h(i,j)中各行相加如公式(3)，得到第一帧中目标跟踪区域的最终64位哈希值h_Ti；

h_{T i} = Σ_{j = 1}^{n} h (i, j), 1 \leq i, j \leq 64 - - - (3)

表示对每一行进行异或运算，i表示行，j表示列；

S a m = \frac{64 - D i s}{64}

2.根据权利要求1所述的视频监控中的运动目标跟踪方法，其特征在于，δ＝0.9。

3.根据权利要求1所述的视频监控中的运动目标跟踪方法，其特征在于，对第一帧中目标跟踪区域图像以及其他帧中的分割后的区域图像进行预处理具体包括：将图像进行灰度化和亮度处理，并采用双三值插值法将图像统一规格化为128像素*128像素的图像。