CN109117774B

CN109117774B - 一种基于稀疏编码的多视角视频异常检测方法

Info

Publication number: CN109117774B
Application number: CN201810866990.5A
Authority: CN
Inventors: 唐钟洋; 郝志峰; 王丽娟; 蔡瑞初; 温雯; 陈炳丰; 李可爱
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-09-28
Anticipated expiration: 2038-08-01
Also published as: CN109117774A

Abstract

本发明涉及计算机视觉技术领域，尤其是一种基于稀疏编码的多视角视频异常检测方法，包括以下步骤：对帧图像进行多视角特征提取；对不同视角的特征进行稀疏编码，得到各个视角下的特征的稀疏表示；依据稀疏表示信息获得一个帧图像下的一致性表示矩阵并给相邻两帧之间的一致性表示矩阵赋予相应的权重值后得到字典A，然后利用字典A对异常事件的视频数据进行测试得到稀疏表示系数的重建误差，从而得到标准化的多视角视频异常检测模型。本发明通过提取视频帧图像多视角特征，建立多视角视频异常检测模型，整合视频多个视角下的特征信息来进行异常检测，并利用视频相邻两帧之间的时间想干性，减少了局部信息的损失，提高了异常检测准确度。

Description

一种基于稀疏编码的多视角视频异常检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于稀疏编码的多视角视频异常检测方法。

背景技术

异常检测在计算机视觉领域有很多的研究。因为它在视频监控、活动识别和场景理解等方面有很多的潜在应用。一个异常检测***能够很大程度上减少人工劳动和时间。然而，因为异常事件没有明确的边界定义，所以异常事件检测仍然是一个非常大的挑战任务。在真实的应用中，一方面相比较正常事件，异常事件是稀少的，我们需要花费很多代价去收集它们；另一方面，收集所有的异常事件是不可能的。因此，对于典型的异常检测数据集，只有在训练集中给出了一般的场景。为了识别异常事件是否发生，通常的方法是在训练集的外观和动作方面利用规则模式。任何不同意这些规则的模式都将被归类为不规则的模式。

已有一些基于字典学习的异常检测方法，在这些方法中，学习一个字典来对训练集上的所有正常事件进行编码，而异常事件将导致一个大的重构错误。然而，它们只对视频单一视角下的特征进行了异常检测，而没有整合视频帧图像多个视角下的特征信息。这些多视角下的特征信息，可能有着潜在结构特征，借助这些潜在结构特征信息更有利于我们进行异常检测。此外，相邻两帧之间时间相关性往往会被我们忽略，有研究表明，在稀疏编码中，相似的特征可能会被编码成不相似的编码，从而导致了局部信息的损失。

发明内容

针对现有技术异常检测方法容易导致多视角下局部信息损失的不足，我们提出一种基于稀疏编码的多视角视频异常检测方法，整合多视角下的视频信息，利用字典同时在外观和动作上对规则模式进行编码，并通过本词典对与正常事件相对应的特征进行稀疏重构，并有一个小的重构错误。同时，为了提高对相邻帧的预测平滑度，减少局部信息的损失，我们给相邻两帧之间的一致性稀疏表示矩阵加入一个权重值。如果相邻两帧是相似的，它可以确保相邻两帧的一致性稀疏表示系数也是相似的。最后在训练数据集中学习出一个字典A，并利用字典A在测试数据集中求出视频每帧下的重构误差，对所有的重构误差进行标准化之后，设定一个阈值，低于阈值的标准化重构误差值则属于异常事件。

本发明的技术方案为：一种基于稀疏编码的多视角视频异常检测方法，包括以下步骤：

一种基于稀疏编码的多视角视频异常检测方法，包括以下步骤：

S1)、给定一个视频异常检测数据集X，其中包含了该视频的帧图像，提取帧图像中的局部时空特征的梯度直方图、轨迹的光流直方图和运动边界直方图，把这些不同的特征信息看作是不同视角下的数据信息，并且定义在第t帧下第v个视角下的正常事件为x_t,v，用字典A线性重构x_t,v，则有：x_t,v＝Aω_t,v+∈_t,v，其中∈_t,v～N(0,σ²I)为重构误差；

S2)、用多视角稀疏编码方法学习到在t帧时刻下的一致性特征表示矩阵

公式如下：

s.t.||A(:,i)||≤1,ω_t,v＝α_t,v

其中，γ₁和γ₃为正则化参数，用于控制稀疏性和惩罚项在优化问题中的权重；

S3)、获得最终目标函数：考虑到视频数据中正常事情和异常事件在相邻两帧之间的时间相关性，给相邻两帧之间的一致性表示矩阵赋予相应的权重值S_t,t-1，并且用Frobenius范式对它们进行正则化约束，则最终的多视角视频异常检测算法的公式为：

s.t.||A(:,i)||≤1,ω_t,v＝α_t,v

其中，

S4)、用ADMM算法对目标函数进行优化求解，并用训练数据集对模型进行训练，最终得到字典A：用ADMM方法对S3)中的公式优化求解，然后在全部都是正常事件的视频数据集中训练算法模型，最后得到字典A；

S5)、用测试数据集进行测试，计算出全部帧的重构误差l(t)，并且对l(t)进行标准化，使其范围为[0,1]：再在有异常事件的视频数据集中算法模型，计算出重构误差：

其中，l(t)为第t帧下的重构误差；

在计算完所有测试视频全部帧的重构误差后，对误差进行标准化，使其范围为[0,1]，计算每帧的标准化误差的公式为：

其中，在t帧下是s(t)越小越可能是一个异常事件；视频帧总数T＝200，总视角数V＝2，v＝1为HOG特征视角，v＝2为HOF特征视角，在第t帧时刻第v视角下的视频特征信息x_t,v，字典A，表示矩阵α_t,v，一致性矩阵

两帧之间的一致性矩阵的权重S_t,t-1，参数γ₁,γ₂,γ₃,γ₄，拉格朗日乘子μ；

S6)、最终判断结果：设定l(t)阈值，当低于阈值的帧图像的重构误差则为异常事件，最后标记出有异常事件的帧图像。

本发明的有益效果为：本发明通过提取视频帧图像中的HOG和HOF等特征，建立一个基于稀疏编码的多视角视频异常检测模型，能够整合视频多个视角下的特征信息来进行异常检测。同时，我们考虑了视频相邻两帧之间的时间想干性，减少了局部信息的损失，提高了异常检测准确度。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例图；

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，本实施例提供一种基于稀疏编码的多视角视频异常检测方法，包括以下步骤：

S1)、给定一个视频异常检测数据集，其中包含了该视频的帧图像，提取帧图像中的局部时空特征的梯度直方图、轨迹的光流直方图和运动边界直方图的特征。把这些不同的特征信息看作是不同视角下的数据信息，并且定义在第t帧下第v个视角下的正常事件为x_t,v，用字典A线性重构x_t,v，则有：x_t,v＝Aω_t,v+∈_t,v，其中∈_t,v～N(0,σ²I)为重构误差。

S2)、用多视角字典学习方法学习到在t帧时刻下的一致性特征表示矩阵

公式如下：

s.t.||A(:,i)||≤1,ω_t,v＝α_t,v

其中，γ₁和γ₃为正则化参数，用于控制稀疏性和惩罚项在优化问题中的权重。

S3)、考虑到视频数据中正常事情和异常事件在相邻两帧之间的时间相关性，给相邻两帧之间的一致性表示矩阵赋予相应的权重值S_t,t-1，并且用Frobenius范式对它们进行正则化约束，则最终的多视角视频异常检测算法的公式为：

s.t.||A(:,i)||≤1,ω_t,v＝α_t,v

其中，

S4)、用ADMM方法对S3)中的公式优化求解，然后我们在全部都是正常事件的视频数据集中训练我们的算法模型，例如UCSD Pedestrian 1和Pedestrian2数据集，其中UCSDPedestrian 1数据集包含34个训练视频和36个测试视频，测试视频中有40个异常事件。UCSD Pedestrian 2数据集则包含16个训练视频和12个测试视频，测试视频中有12个异常事件。我们会对训练视频和测试视频进行特征提取，提取每个视频的前10帧图像的HOG特征和HOF特征，再把从训练视频中提取到的特征信息带入基于稀疏编码的多视角视频异常检测算法中进行训练，最后可以学习到字典A。

S5)、把从测试视频中提取到的特征信息带入基于稀疏编码的多视角视频异常检测算法中进行测试，可以学习到表示矩阵ω_t,v。最后利用训练得到的字典A，我们可以计算得到重构l(t)，计算公式如下所示：

其中，l(t)为第t帧下的重构误差。在计算完所有测试视频全部帧的重构误差后，对误差进行标准化，使其范围为[0,1]，计算每帧的标准化误差的公式为：

两帧之间的一致性矩阵的权重S_t,t-1，参数γ₁,γ₂,γ₃,γ₄，拉格朗日乘子μ。

具体的实验数据结果如下表1所示：

表1：

从表1可以看出：本发明对帧图像进行多视角特征提取；对不同视角的特征进行稀疏编码，得到各个视角下的特征的稀疏表示；依据稀疏表示信息获得一个帧图像下的一致性表示矩阵并给相邻两帧之间的一致性表示矩阵赋予相应的权重值后得到字典A，然后利用字典A对异常事件的视频数据进行测试得到稀疏表示系数的重建误差，从而得到标准化的多视角视频异常检测模型。本发明通过提取视频帧图像多视角特征，建立多视角视频异常检测模型，整合视频多个视角下的特征信息来进行异常检测，并利用视频相邻两帧之间的时间想干性，减少了局部信息的损失，提高了异常检测准确度。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于稀疏编码的多视角视频异常检测方法，其特征在于：包括以下步骤：

S1)、给定一个视频异常检测数据集X，其中包含了该视频的帧图像，提取帧图像中的局部时空特征的梯度直方图、轨迹的光流直方图和运动边界直方图，把这些不同的特征信息看作是不同视角下的数据信息，并且定义在第t帧下第v个视角下的正常事件为x_t，v，ω_t，v为在第t帧下第v个视角下的正常事件的表示矩阵，用字典A线性重构x_t，v，则有：x_t，v＝Aω_t，v+∈_t，v，其中∈_t，v～N(0，σ²I)为重构误差；

公式如下：

s.t.||A(：，i)||≤1，ω_t，v＝α_t，v

其中，γ₁和γ₃为正则化参数，用于控制稀疏性和惩罚项在优化问题中的权重，视频帧总数T＝200，总视角数V＝2，v＝1为HOG特征视角，v＝2为HOF特征视角；

S3)、获得最终目标函数：考虑到视频数据中正常事件和异常事件在相邻两帧之间的时间相关性，给相邻两帧之间的一致性特征表示矩阵赋予相应的权重值S_t，t-1，并且用Frobenius范式对它们进行正则化约束，则最终的多视角视频异常检测算法的公式为：

s.t.||A(：，i)||≤1，ω_t，v＝α_t，v

其中，

δ²＝100，γ₂为正则化参数；

S5)、用测试数据集进行测试，计算出全部帧的重构误差l(t)，并且对l(t)进行标准化，使其范围为[0,1]：在有异常事件的视频数据集中测试算法模型，计算出重构误差：

其中，l(t)为第t帧下的重构误差；

其中，在t帧下，s(t)越小越可能是一个异常事件；

S6)、最终判断结果：设定l(t)阈值，当帧图像的重构误差低于阈值时，则为异常事件，最后标记出有异常事件的帧图像。