CN103065158B - 基于相对梯度的isa模型的行为识别方法 - Google Patents

基于相对梯度的isa模型的行为识别方法 Download PDF

Info

Publication number
CN103065158B
CN103065158B CN201210578578.6A CN201210578578A CN103065158B CN 103065158 B CN103065158 B CN 103065158B CN 201210578578 A CN201210578578 A CN 201210578578A CN 103065158 B CN103065158 B CN 103065158B
Authority
CN
China
Prior art keywords
video
isa
layer
network
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210578578.6A
Other languages
English (en)
Other versions
CN103065158A (zh
Inventor
刘启和
陈雷霆
蔡洪斌
邱航
肖燕霞
周川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201210578578.6A priority Critical patent/CN103065158B/zh
Publication of CN103065158A publication Critical patent/CN103065158A/zh
Application granted granted Critical
Publication of CN103065158B publication Critical patent/CN103065158B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于相对梯度的ISA模型的行为识别方法,该方法采用改进的独立子空间分析算法来提取视频的局部特征;接着对所提取的局部特征进行聚类,得到聚类中心(即视觉关键词),对每个视频,建立视觉关键词直方图,则每个视频表示为基于视觉关键词直方图的特征向量;最后就是采用多类别支持向量机SVM对其进行分类,完成对行为的识别。本发明可以用于个体行为识别,也可以用于群体行为识别。本发明为一种基于相对梯度的算法,不需要求逆过程,收敛速度更快。

Description

基于相对梯度的ISA模型的行为识别方法
技术领域
本发明涉及基于相对梯度的ISA模型的行为识别方法。
背景技术
行为识别是在计算机视觉和模式识别领域备受关注并具挑战性的一个研究方向。行为识别任务不只是实现对人或者虚拟现实中机器人行为的识别,还有比如说对车辆、坦克等的加速、停止、左转、右转等行为的识别等等,在安全监控,战场演习、人机交互,基于行为的视频检索等方面有广泛的应用背景。
行为识别是在成功实现视频图像序列中的跟踪,完成特征提取的基础上进行的,属于更高一层的视觉任务。独立子空间分析(independentsubspaceanalysis,ISA)是一种可以用于特征提取的无监督学习模型。独立子空间分析模型是独立分量分析(independentcomponentanalysis,ICA)模型的一个扩展模型。它是一种能够有效地模拟人类视觉***中V1区简单细胞与复杂细胞感受野的响应模式的层次化结构模型,并利用ISA对大量的视频数据样本进行无监督学习,获取具有统计独立性与稀疏特性的视频基元,被认为是一种有效的视频图像统计分析方法,对于提取视频中的局部特征也是一种很有效的方法。
公开号为CN101334845A的专利公开了一种基于轨迹序列分析和规则归纳的视频行为识别方法,该专利主要是解决了固定摄像机场景中利用计算机自动学习频繁发生的运动事件规则,并对感兴趣的行为进行自动识别的问题,主要用于智能监控。但是如果要检测的视频中不是固定摄像机拍摄的,场景信息比较多,对场景进行分割,需要花费一定的时间;或者如果要检测的视频中行为模式比较复杂,采用隐马尔科夫模型(HMM)进行建模,高效性可能就会降低。
公开号为CN102306301A的专利申请文件虽然解决了现有的仿生模型目标识别速度低的问题。但它仍然存在许多不足的地方,比如只考虑了视觉皮层V1中复杂细胞的基本属性,而其他特性如环绕抑制等没有考虑。
对基于视觉的行为识别而言,从视频图像序列中抽取出能够合理表示视频中实体的行为数据至关重要。目前人的行为表示方法根据特征提取方法不同分为基于表观的表示方法和基于人体模型的表示方法。基于表观的表示方法不是对人体物理结构直接建模,而是直接计算感兴趣区域的简单2D表观表示,如从视频图像序列中提取人的运动轨迹信息、人的轮廓特征或者直接利用图像信息进行分析。如前述现有技术一(公开号:CN101334845A)、技术二(公开号:CN102306301A)就是基于表观的表示方法,这类表示方法容易计算,易于实时。人体模型主要有三种:线图模型、2D模型和3D模型,其中3D模型由于复杂度较高,很少用于人的行为识别中。虽然基于人体模型的表示方法可以提高行为识别的准确度,但是它的计算量大、复杂度很高和算法鲁棒性差。
发明内容
鉴于上述不足之处,本发明的目的在于提供一种基于相对梯度的ISA模型的行为识别方法,该方法采用改进的独立子空间分析算法来提取视频的局部特征;接着对所提取的局部特征进行聚类,得到聚类中心(即视觉关键词),对每个视频,建立视觉关键词直方图,则每个视频表示为基于视觉关键词直方图的特征向量;最后就是采用多类别支持向量机SVM对其进行分类,完成对行为的识别。本发明可以用于个体行为识别,也可以用于群体行为识别。本发明为一种基于相对梯度的算法,不需要求逆过程,收敛速度更快。
为了达到上述目的,本发明采用了以下技术方案:
一种基于相对梯度的ISA模型的行为识别方法,其特征在于:该行为识别方法包括以下步骤:
步骤1:样本数据的预处理;
步骤2:特征提取;
步骤3:特征聚类;
步骤4:分类/识别。
具体为:
步骤1:样本数据的预处理。
步骤1.1首先,采集大量具有视觉行为模式的视频集合,假设选取N个视频样本进行采样。
步骤1.2然后,把每个视频样本随机地分割为num_patches个视频块,每个视频块的大小为sp_size×sp_size×tp_size,将分割的所有视频块组成一个样本矩阵X,表示成:X={x1,x2,…,xN*num_patches},其中N是视频样本的个数,num_patches表示对每个视频分割的视频块的数量,每一列向量表示一个视频块数据,维数为sp_size2×tp_size。
步骤1.3最后,对步骤1.2得到的样本矩阵X进行特征中心化、数据白化的处理。
步骤1.3.1特征中心化:X=X-ones(size(X,1),1)×mean(X);
其中,size(X,1)表示矩阵X行数的大小dim,ones(size(X,1),1)表示构建一个dim维且元素都为1的列向量,mean(X)表示维数与矩阵X的列数相同的一个行向量,每一元素表示矩阵X对应列向量的均值;
步骤1.3.2数据白化:数据白化是采用主成分分析PCA(principalcomponentanalysisPCA)来完成的;
主成分分析的具体分析步骤如下:
(1)计算样本矩阵X的协方差矩阵C;
(2)计算协方差矩阵C的特征向量的特征值,并把特征值按从大到小排序;
(3)提取最大的m个特征值,其对应的特征向量构成一个矩阵H;
(4)用特征矩阵HT与样本矩阵X相乘,即可得预处理后的样本矩阵Z。
步骤2:特征提取;
步骤2.1构造ISA网络,把经过预处理之后的样本矩阵Z,作为ISA网络的输入;
ISA网络是一种具有两层网络的生成模型,可以有效地模拟人类视觉***V1区简单细胞与复杂细胞感受野的响应模式。
步骤2.1.1ISA网络的基元响应
对应于ISA网络的第一层,输入样本矩阵Z与第一层响应S之间满足
Z=BS(1)
式中,B={b1,b2,…,bm}表示视频基元,每一列为一个基元向量,视频基元个数m是由PCA主成分个数直接决定,m的大小可根据需要进行设置,它是一个标准正交矩阵,S={s1,s2,…sm}T表示特征系数;
自然场景视频中含有各种类别的视频基元(videoprimitives),它们构成了整个高维视频块空间,具有不同的结构维度及复杂度,由空间表观与运动共同描述。从数学角度来看,视频块位于高维(如15×15×5维)空间不同的聚类子空间中,这些聚类子空间就称为视频基元(videoprimitive)。一段视频中不同的视频块可能会映射到不同子空间(视频基元)上。
为了便于求第一层的视频基元响应,我们将公式(1)变形为
S=WZ(2)
式中,W=B-1,即W是视频基元矩阵B的逆,由于W被视作对视皮层简单细胞感受野的模拟,故W被称作基元逆向滤波器,此时S表示感受野W对视频数据样本X产生的响应,在ISA双层网络中,W可以更直观的看作是第一层网络的组合权值,第一层输出响应S可以看作是由样本矩阵Z的各分量通过W加权的线性组合得到;
对应于第一层的基元响应,第二层的输出的激活值为:
其中,W是ISA网络的第一层的组合权值,V是第二层的组合权值。
ISA网络的输出是我们对视频所提取的各个局部特征,即各视频块的基元响应特征,基元响应特征是一个一维向量,其长度为m/k,其中m为视频基元的个数,k为ISA网络中第一层的分组长度。
步骤2.1.2ISA网络的优化估计
在ISA网络中,第二层的组合关系V已知,那么我们要得到第二层的激活值就必须先求出ISA网络第一层的组合权值W,则ISA问题就转化为对第一层组合权值W的最优估计过程,优化的目的是使第二层输出的各分量之间具有最大的稀疏独立性。
优化过程的目标函数如下:
Minimize
确立优化目标函数后,就要对目标函数进行优化迭代,最终实现对ISA网络的最优估计。
步骤2.2ISA问题的最优求解
在ISA网络中,求解ISA问题就是求解ISA网络中的第一层网络权值W和第二层网络权值V,由于ISA网络中第二层的组合权值V已知,则ISA问题的最优求解,就是对ISA第一层网络权值W进行最优估计。本发明采用相对梯度下降法对权值W进行最优估计;
相对梯度下降法的具体步骤:
1)ISA网络的代价函数:
(3)
其中,表示j-元组内分量的联合概率密度,是对的估计值,是ISA第一层网络第i个子空间的基元响应特征,表示预处理之后、输入ISA网络的样本数据;
2)对代价函数关于W求导,得其梯度:
(4)
其中是代价函数对W求导之后其他数值的一个缺省值;
3)权值W的更新规则:
对代价函数J(W),在某一点W值处,J(W)的常规梯度可按下式导出(把J(W)在W点的邻域展开成Taylor级数):
(5)
其中ε是一矩阵,<M|N>代表M与N的内积,等于MTN之迹,即:<M|N>=tr(MTN)。
若使函数下降最快,则尽可能负,显然则由(5)产生代价函数的相对梯度:
其中Y=WZ,则,Y是迭代过程中对第一层视频基元响应S的估计值。
则本算法的更新规则:
4)求解W的迭代公式:
5)如果权值W收敛,迭代过程结束,否则重复执行步骤3)和步骤4);
在基本的ISA算法中,估计权值W一般采用梯度下降法,梯度下降法与相对梯度法唯一的不同是:两种梯度算法的更新规则不同.
用更新规则
替代相对梯度中步骤3)中的更新规则即可得梯度下降法的具体过程。
另外,如果ISA问题需要满足约束条件:
约束条件是希望得到的基元响应特征都是不相同的。若用梯度下降法求解W满足约束条件,则其代价函数(3)就简化为:
代价函数的梯度(4)也简化为:
但是,在迭代过程中,第一步都要调用正交化方法,即计算,它需要求解特征值,其计算复杂性是输入维度的3次方。
两种梯度算法的比较:
(1)与基于梯度下降法的ISA算法相比,基于相对梯度的ISA算法收敛速度较快,但两种算法得到的收敛目标值大致是相同的;
(2)在迭代的数量上,基于相对梯度的ISA算法要远远高于基于梯度下降法的ISA算法,基于相对梯度的ISA算法的迭代次数要远远少于另一种算法的迭代次数;
(3)基于相对梯度的ISA算法没有求逆操作,所以其计算复杂度要远远低于梯度下降算法的复杂度。
步骤2.3提取视频特征
ISA网络使用了神经网络的思想,其第一层和第二层的激励函数都是使用非线性函数:
第一层的激励函数是:
则对应于ISA网络第一层输入sk的输出的激活值为
第二层的组合权值是V,它的输入神经元都是同一子空间中的神经元,则第二层的输入为
第二层的激励函数是:
则对应于ISA网络第二层输入ui的输出的激活值为:
(3)
其中,ISA网络第一层的组合关系W由步骤2.2得到,第二层组合权值V已知。
ISA网络的最后输出即为ISA第二层输出的激活值,也就是我们对视频所提取的各个局部特征(各视频块的基元响应特征)。基元响应特征是一个一维向量,其长度为m/k,其中m为视频基元的个数,k为ISA网络中第一层的分组长度。
利用ISA网络模型可以提取不变的时空局部特征。对ISA网络中第二层中同一神经元来说,改变空间特征(位置、旋转、频率)和时空特征(速度),其激活值的变化情况如下:如果位移发生变化,则神经元输出激活值变化幅度不大,沿一水平线上下浮动,所以ISA网络对位移的变化具有鲁棒性;但是如果发生旋转或者频率发生变化,则其第二层的输出激活值都发生了明显的变化,如果是改变速度的大小,其变化也是显而易见的,所以ISA网络对这样的特征变化比较敏感。
这种对特征变化鲁棒性和敏感性的结合使ISA网络模型提取的局部特征具有高度的不变性,尤其能够进行速度的检测,可以用来检测电影或现实生活中的动作。所以,ISA适合进行识别任务。
步骤3:特征聚类;
步骤3.1将ISA算法提取的视频基元响应特征进行k-均值聚类,形成k个聚类中心即视觉关键词;
k-均值聚类(k-means)的具体步骤:
步骤3.1.1从所有的基元响应特征中随机取k个特征,作为这k个聚类各自的中心。
步骤3.1.2分别计算剩下的所有特征到这k个聚类中心的欧式距离,将这些特征分别划归到距离最小的聚类中。
步骤3.1.3根据得到的聚类结果,重新计算这k个聚类各自的中心。
步骤3.1.4将所有的特征按照新的聚类中心重新进行聚类:即重复步骤3.1.2和步骤3.1.3,直到聚类结果收敛。
步骤3.2构造基于视觉关键词直方图的特征向量;
计算每个视频中各局部特征即各视频块的基元响应特征与聚类中心的欧式距离,距离最小的聚类中心即为此局部特征对应的视觉关键词,统计每个视频中包含各视觉关键词的数目,形成视觉关键词直方图,可表示为视频基于视觉关键词直方图的特征向量。
步骤4:分类/识别:
将步骤3.2所得的特征向量输入到支持向量机,并利用SVM多类别分类器进行分类,即对视频中的动作模式进行识别。具体为:
步骤4.1归一化处理:对视频基于视觉关键词直方图的特征向量进行归一化处理。
步骤4.2构造训练集:
构造训练集,即为基于步骤4.1的特征向量对应的视频样本分配标签,其中,是第i个训练视频样本基于步骤4.1的特征向量;是对应的视频样本的标签,,其中,+1表示对应的视频的标签,-1表示除对应视频之外的其他所有视频的标签。
步骤4.3采用多类别SVM分类器,即在每一类行为模式的视频和其他所有行为模式的视频之间构建一个SVM,将该类行为模式的视频的标签看作为+1,其他所有行为模式的视频的标签看作为-1,每个分类器将一种行为模式的视频和其他行为模式的视频分开,这样,若共有c种行为模式,则需要构造c个SVM分类器;
为SVM模型选择卡方核函数,即采用卡方距离构建的一种广义高斯核函数;
卡方距离公式:
其中,x,y是任意两个训练集视频样本基于步骤4.1的特征向量,,是各特征向量的分量。
步骤4.4将训练集特征属性矩阵输入基于步骤4.3的SVM模型,利用svmtrain在训练集上学习,得到模型model,其中,X是视频样本基于步骤4.1的特征向量矩阵,Y是其对应的标签。
步骤4.5预测新的视频数据的行为模式
输入一个新的视频样本,经过预处理、特征提取、聚类,提取到基于步骤4.1的特征向量,输入基于model的SVM模型中,通过svmpredict对其进行预测,即完成对行为的识别。
本发明主要是基于独立子空间分析ISA方法来提取视频的局部特征,ISA是一种可以有效地模拟人类视觉***V1区简单细胞与复杂细胞感受野的响应模式的层次化模型,它使用无监督学习方法来直接从视频数据中提取特征。与稀疏编码、ICA(独立成分分析)算法相比,稀疏编码与ICA算法都是模拟人类视觉***V1区简单细胞响应模式的模型,它们只能提取线性特征,而ISA算法可以提取非线性特征,而ISA算法本身也是基于ICA算法的扩展模型,其主旨是为解决ICA分解后所得分量不能达到完全独立的这一缺陷;ISA与之前的特征提取方法如SIFT、HOG等相比,ISA算法比较简单,识别效果更好。
本发明利用ISA网络模型可以提取不变的时空局部特征。它对位移的变化具有鲁棒性,对视频图像的旋转、频率的变化以及速度的改变都比较敏感。这种对特征变化鲁棒性和敏感性的结合使ISA网络模型提取的局部特征具有高度的不变性,尤其能够进行速度的检测,可以用来检测电影或现实生活中的动作。因为ISA算法适合进行识别任务。
本发明改进了ISA问题的最优求解算法。基本ISA问题的求解是基于梯度下降法的,它在每步迭代过程中都需要调用矩阵的正交化方法,算法的复杂度比较高。而本发明提出的基于相对梯度下降的算法,在求解过程中不需要求逆运算,收敛速度更快,算法效率得到很大提高。
附图说明
图1本发明的行为识别框架示意图。
图2双层网络结构示意图。
具体实施方式
本发明的基于相对梯度的ISA模型的行为识别方法行为识别框架如图1所示,其行为识别方法具体步骤为:
步骤1:样本数据的预处理。
步骤1.1首先,采集大量具有视觉行为模式的视频集合,假设选取N个视频样本进行采样。
步骤1.2然后,把每个视频样本随机地分割为num_patches个视频块,每个视频块的大小为sp_size×sp_size×tp_size,将分割的所有视频块组成一个样本矩阵X,表示成:X={x1,x2,…,xN*num_patches},其中N是视频样本的个数,num_patches表示对每个视频分割的视频块的数量,每一列向量表示一个视频块数据,维数为sp_size2×tp_size。
步骤1.3最后,对步骤1.2得到的样本矩阵X进行特征中心化、数据白化的处理。
步骤1.3.1特征中心化:X=X-ones(size(X,1),1)×mean(X);
其中,size(X,1)表示矩阵X行数的大小dim,ones(size(X,1),1)表示构建一个dim维且元素都为1的列向量,mean(X)表示维数与矩阵X的列数相同的一个行向量,每一元素表示矩阵X对应列向量的均值;
步骤1.3.2数据白化:数据白化是采用主成分分析PCA(principalcomponentanalysisPCA)来完成的;
主成分分析的具体分析步骤如下:
(5)计算样本矩阵X的协方差矩阵C;
(6)计算协方差矩阵C的特征向量的特征值,并把特征值按从大到小排序;
(7)提取最大的m个特征值,其对应的特征向量构成一个矩阵H;
(8)用特征矩阵HT与样本矩阵X相乘,即可得预处理后的样本矩阵Z。
步骤2:特征提取;
步骤2.1构造ISA网络,把经过预处理之后的样本矩阵Z,作为ISA网络的输入;
ISA网络是如图2所示的一个双层网络结构;是一种具有两层网络的生成模型,可以有效的模拟人类视觉***V1区简单细胞与复杂细胞感受野的响应模式。
步骤2.1.1ISA网络的基元响应
对应于ISA网络的第一层,输入样本矩阵Z与第一层响应S之间满足
Z=BS(1)
式中,B={b1,b2,…,bm}表示视频基元,每一列为一个基元向量,视频基元个数m是由PCA主成分个数直接决定,m的大小可根据需要进行设置,它是一个标准正交矩阵,S={s1,s2,…sm}T表示特征系数;
为了便于求第一层的视频基元响应,我们将公式(1)变形为
S=WZ(2)
式中,W=B-1,即W是视频基元矩阵B的逆,由于W被视作对视皮层简单细胞感受野的模拟,故W被称作基元逆向滤波器,此时S表示感受野W对视频数据样本X产生的响应,在ISA双层网络中,W可以更直观的看作是第一层网络的组合权值,第一层输出响应S可以看作是由样本矩阵Z的各分量通过W加权的线性组合得到。
对ISA第一层网络响应S的分析
在ICA中,它要求S中的各分量必须是完全独立的,而ISA是把不变特征子空间嵌入多维ICA中。
多维ICA把S中的所有分量分成J个k-元组,其中第l个元组可表示为:Sl={s1,s2,…sk},l=1,2,…J。它并不要求每个k-元组内的各分量是完全独立的,但是不同的k-元组之间必须满足统计独立性。在ISA中,k-元组内的k个分量对应于k个基元向量{bi|i∈Sl},这k个视频基元分量构建出一个独立子空间。从数学角度来看,ISA独立子空间对应于线性代数中的空间不变子空间。在图2中,ISA双层网络中其独立子空间的大小为k=3。
输入数据z到一独立子空间Sl的映射关系可以表示为
其中si表示k-元组Sl内的一个分量,bi为Sl中的各分量si所对应的视频基元分量。
对应于第一层的基元响应,第二层的输出的激活值为:
其中,W是ISA网络的第一层的组合权值,V是第二层的组合权值。
ISA网络的输出是我们对视频所提取的各个局部特征,即各视频块的基元响应特征,基元响应特征是一个一维向量,其长度为m/k,其中m为视频基元的个数,k为ISA网络中第一层的分组长度。
步骤2.1.2ISA网络的优化估计
在ISA网络中,第二层的组合权值V已知,那么我们要得到第二层的激活值就必须先求出ISA网络第一层的组合权值W,则ISA问题就转化为对第一层组合权值W的最优估计过程,优化的目的是使第二层输出的各分量之间具有最大的稀疏独立性。
优化过程的目标函数如下:
Minimize
确立优化目标函数后,就要对目标函数进行优化迭代,最终实现对ISA网络的最优估计。
步骤2.2ISA问题的最优求解
在ISA网络中,求解ISA问题就是求解ISA网络中的第一层网络权值W和第二层网络权值V,由于ISA网络中第二层的组合权值V已知,则ISA问题的最优求解,就是对ISA第一层网络权值W进行最优估计。本发明采用相对梯度下降法对权值W进行最优估计。
相对梯度下降法的具体步骤:
1)ISA网络的代价函数:
其中,表示j-元组内分量的联合概率密度,是对的估计值,是ISA第一层网络第i个子空间的基元响应特征,表示预处理之后、输入ISA网络的样本数据;
2)对代价函数关于W求导,得其梯度:
其中是代价函数对W求导之后其他数值的一个缺省值;
3)权值W的更新规则:
对代价函数J(W),在某一点W值处,J(W)的常规梯度可按下式导出(把J(W)在W点的邻域展开成Taylor级数):
(3)
其中ε是一矩阵,<M|N>代表M与N的内积,等于MTN之迹,即:<M|N>=tr(MTN)。
若使函数下降最快,则尽可能负,显然则由(3)产生代价函数的相对梯度:
其中Y=WZ,则,Y是迭代过程中对第一层视频基元响应S的估计值。
则本算法的更新规则:
4)求解W的迭代公式:
5)如果权值W收敛,迭代过程结束,否则重复执行步骤3)和步骤4)。
步骤2.3提取视频特征
ISA网络使用了神经网络的思想,其第一层和第二层的激励函数都是使用非线性函数:
第一层的激励函数是:
则对应于ISA网络第一层输入sk的输出的激活值为
第二层的组合权值是V,它的输入神经元都是同一子空间中的神经元,则第二层的输入为
第二层的激励函数是:
则对应于ISA网络第二层输入ui的输出的激活值为:
(3)
其中,ISA网络第一层的组合关系W由步骤2.2得到,第二层组合权值V已知。
ISA网络的最后输出即为ISA第二层输出的激活值,也就是我们对视频所提取的各个局部特征(各视频块的基元响应特征)。基元响应特征是一个一维向量,其长度为m/k,其中m为视频基元的个数,k为ISA网络中第一层的分组长度。
步骤3:特征聚类;
步骤3.1将ISA算法提取的视频基元响应特征进行k-均值聚类,形成k个聚类中心即视觉关键词。
k-均值聚类(k-means)的具体步骤:
步骤3.1.1从所有的基元响应特征中随机取k个特征,作为这k个聚类各自的中心。
步骤3.1.2分别计算剩下的所有特征到这k个聚类中心的欧式距离,将这些特征分别划归到距离最小的聚类中。
步骤3.1.3根据得到的聚类结果,重新计算这k个聚类各自的中心。
步骤3.1.4将所有的特征按照新的聚类中心重新进行聚类:即重复步骤3.1.2和步骤3.1.3,直到聚类结果收敛。
步骤3.2构造基于视觉关键词直方图的特征向量。
计算每个视频中各局部特征即各视频块的基元响应特征与聚类中心的欧式距离,距离最小的聚类中心即为此局部特征对应的视觉关键词,统计每个视频中包含各视觉关键词的数目,形成视觉关键词直方图,可表示为视频基于视觉关键词直方图的特征向量。
步骤4:分类/识别:
将步骤3.2所得的特征向量输入到支持向量机,并利用SVM多类别分类器进行分类,即对视频中的动作模式进行识别;具体为:
步骤4.1归一化处理:对视频基于视觉关键词直方图的特征向量进行归一化处理。
步骤4.2构造训练集:
构造训练集,即为基于步骤4.1的特征向量对应的视频样本分配标签,其中,是第i个训练视频样本基于步骤4.1的特征向量;是对应的视频样本的标签,,其中,+1表示对应的视频的标签,-1表示除对应视频之外的其他所有视频的标签。
步骤4.3采用多类别SVM分类器,即在每一类行为模式的视频和其他所有行为模式的视频之间构建一个SVM,将该类行为模式的视频的标签看作为+1,其他所有行为模式的视频的标签看作为-1,每个分类器将一种行为模式的视频和其他行为模式的视频分开,这样,若共有c种行为模式,则需要构造c个SVM分类器;
为SVM模型选择卡方核函数,即采用卡方距离构建的一种广义高斯核函数;
卡方距离公式:
其中,x,y是任意两个训练集视频样本基于步骤4.1的特征向量,,是各特征向量的分量。
步骤4.4将训练集特征属性矩阵输入基于步骤4.3的SVM模型,利用svmtrain在训练集上学习,得到模型model,其中,X是视频样本基于步骤4.1的特征向量矩阵,Y是其对应的标签。
步骤4.5预测新的视频数据的行为模式
输入一个新的视频样本,经过预处理、特征提取、聚类,提取到基于步骤4.1的特征向量,输入基于model的SVM模型中,通过svmpredict对其进行预测,即完成对行为的识别。

Claims (1)

1.一种基于相对梯度的ISA模型的行为识别方法,其特征在于:该行为识别方法包括以下步骤:
步骤1:样本数据的预处理:
步骤1.1首先,采集大量具有视觉行为模式的视频集合,假设选取N个视频样本进行采样;
步骤1.2然后,把每个视频样本随机地分割为num_patches个视频块,每个视频块的大小为sp_size×sp_size×tp_size,将分割的所有视频块组成一个样本矩阵X,表示成:X={x1,x2,…,xN*num_patches},其中N是视频样本的个数,num_patches表示对每个视频分割的视频块的数量,每一列向量表示一个视频块数据,维数为sp_size2×tp_size;
步骤1.3最后,对步骤1.2得到的样本矩阵X进行特征中心化、数据白化的处理;
步骤1.3.1特征中心化:X=X-ones(size(X,1),1)×mean(X);
其中,size(X,1)表示矩阵X行数的大小dim,ones(size(X,1),1)表示构建一个dim维且元素都为1的列向量,mean(X)表示维数与矩阵X的列数相同的一个行向量,每一元素表示矩阵X对应列向量的均值;
步骤1.3.2数据白化:数据白化是采用主成分分析PCA来完成的;
主成分分析的具体分析步骤如下:
计算样本矩阵X的协方差矩阵C;
计算协方差矩阵C的特征向量的特征值,并把特征值按从大到小排序;
提取最大的m个特征值,其对应的特征向量构成一个矩阵H;
用特征矩阵HT与样本矩阵X相乘,即可得预处理后的样本矩阵Z;
步骤2:特征提取:
步骤2.1构造ISA网络,把经过预处理之后的样本矩阵Z,作为ISA网络的输入;
步骤2.1.1ISA网络的基元响应
对应于ISA网络的第一层,输入样本矩阵Z与第一层响应S之间满足
Z=BS(1)
式中,B={b1,b2,…,bm}表示视频基元,每一列为一个基元向量,视频基元个数m是由PCA主成分个数直接决定,m的大小可根据需要进行设置,它是一个标准正交矩阵,S={s1,s2,…sm}T表示特征系数;
为了便于求第一层的视频基元响应,我们将公式(1)变形为
S=WZ(2)
式中,W=B-1,即W是视频基元矩阵B的逆,由于W被视作对视皮层简单细胞感受野的模拟,故W被称作基元逆向滤波器,此时S表示感受野W对视频数据样本X产生的响应,在ISA双层网络中,W可以更直观的看作是第一层网络的组合权值,第一层输出响应S可以看作是由样本矩阵Z的各分量通过W加权的线性组合得到;
对应于第一层的基元响应,第二层输出的激活值为:
p i ( z t ; W , V ) = &Sigma; k &Element; S l V i k ( &Sigma; j ( W k j T z j t ) 2
其中,W是ISA网络的第一层的组合权值,V是第二层的组合权值;
ISA网络的输出是我们对视频所提取的各个局部特征,即各视频块的基元响应特征,基元响应特征是一个一维向量,其长度为m/k,其中m为视频基元的个数,k为ISA网络中第一层的分组长度;
步骤2.1.2ISA网络的优化估计
优化过程的目标函数如下:
MinimizeΣtΣipi(zt;W,V)
确立优化目标函数后,就要对目标函数进行优化迭代,最终实现对ISA网络的最优估计;
步骤2.2ISA问题的最优求解
在ISA网络中,求解ISA问题就是求解ISA网络中的第一层网络权值W和第二层网络权值V,由于ISA网络中第二层的组合权值V已知,则ISA问题的最优求解,就是对ISA第一层网络权值W进行最优估计;采用相对梯度下降法对权值W进行最优估计;
相对梯度下降法对权值W进行最优估计的具体步骤:
1)ISA网络的代价函数:
J ( W ) = - 1 N &Sigma; t = 1 N &Sigma; j = 1 J log p ( &Sigma; i &Element; S j ( w i T z t ) 2 ) - l o g | det W |
其中,表示j-元组sj内分量yi t=wi Tzt的联合概率密度,是对的估计值,是ISA第一层网络第i个子空间的基元响应特征,zt表示预处理之后、输入ISA网络的样本数据;
2)对代价函数关于W求导,得其梯度:
&dtri; J ( W ) = &part; J ( W ) &part; W = W - T - &phi;Z T
其中φ是代价函数对W求导之后其他数值的一个缺省值;
3)权值W的更新规则:
&Delta; W = &epsiv; W = - &lambda; &dtri; J ( W ) W T W = - &lambda; ( I - &phi;Y T ) W
其中ε是一矩阵;
显然 &epsiv; = - &lambda; &dtri; J ( W ) W T , λ>0;
其中Y=WZ,则ZTWT=YT,Y是迭代过程中对第一层视频基元响应S的估计值;
4)求解W的迭代公式:
W(k+1)=W(k)+ΔW(k)
5)如果权值W收敛,迭代过程结束,否则重复执行步骤3)和步骤4);
步骤2.3提取视频特征
ISA网络最终输出可由以下公式得出:
p i ( z t ; W , V ) = &Sigma; k &Element; S l V i k ( &Sigma; j ( W k j T z j t ) 2
其中,ISA网络第一层的组合权值W由步骤2.2得到,第二层组合权值V已知;
ISA网络的最终输出即为ISA网络第二层输出的激活值,也就是我们对视频所提取的局部特征;
步骤3:特征聚类:
步骤3.1将ISA算法提取的视频基元响应特征进行k-均值聚类,形成k个聚类中心即视觉关键词;
k-均值聚类的具体步骤:
步骤3.1.1从所有的基元响应特征中随机取k个特征,作为这k个聚类各自的中心;
步骤3.1.2分别计算剩下的所有特征到这k个聚类中心的欧式距离,将这些特征分别划归到距离最小的聚类中;
步骤3.1.3根据得到的聚类结果,重新计算这k个聚类各自的中心;
步骤3.1.4将所有的特征按照新的聚类中心重新进行聚类:即重复步骤3.1.2和步骤3.1.3,直到聚类结果收敛;
步骤3.2构造基于视觉关键词直方图的特征向量;
计算每个视频中各局部特征即各视频块的基元响应特征与聚类中心的欧式距离,距离最小的聚类中心即为此局部特征对应的视觉关键词,统计每个视频中包含各视觉关键词的数目,形成视觉关键词直方图,可表示为视频基于视觉关键词直方图的特征向量;
步骤4:分类/识别:
将步骤3.2所得的特征向量输入到支持向量机,并利用SVM多类别分类器进行分类,即对视频中的行为模式进行识别;具体为:
步骤4.1归一化处理:对视频基于视觉关键词直方图的特征向量进行归一化处理;
步骤4.2构造训练集
构造训练集{xi,yi},即为基于步骤4.1的特征向量对应的视频样本分配标签,其中,xi是第i个训练视频样本基于步骤4.1的特征向量;yi是对应xi的视频样本的标签,yi∈{-1,+1},其中,+1表示对应xi的视频的标签,-1表示除xi对应视频之外的其他所有视频的标签;
步骤4.3采用多类别SVM分类器,即在每一类行为模式的视频和其他所有行为模式的视频之间构建一个SVM,将该类行为模式的视频的标签看作为+1,其他所有行为模式的视频的标签看作为-1,每个分类器将一种行为模式的视频和其他行为模式的视频分开,这样,若共有c种行为模式,则需要构造c个SVM分类器;
为SVM模型选择卡方核函数,即采用卡方距离构建的一种广义高斯核函数;
卡方距离公式: d ( x , y ) = &Sigma; i = 1 k ( x i - y i ) 2 2 ( x i + y i )
其中,x,y是任意两个训练集视频样本基于步骤4.1的特征向量,xi,yi,i=1,2,...k,是各特征向量的分量;
步骤4.4将训练集特征属性矩阵[X,Y]输入基于步骤4.3的SVM模型,利用svmtrain在训练集上学习,得到模型model,其中,X是视频样本基于步骤4.1的特征向量矩阵,Y是其对应的标签;
步骤4.5预测新的视频数据的行为模式
输入一个新的视频样本,经过预处理、特征提取、聚类,提取到基于步骤4.1的特征向量,输入基于model的SVM模型中,通过svmpredict对其进行预测,即完成对行为的识别。
CN201210578578.6A 2012-12-28 2012-12-28 基于相对梯度的isa模型的行为识别方法 Expired - Fee Related CN103065158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210578578.6A CN103065158B (zh) 2012-12-28 2012-12-28 基于相对梯度的isa模型的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210578578.6A CN103065158B (zh) 2012-12-28 2012-12-28 基于相对梯度的isa模型的行为识别方法

Publications (2)

Publication Number Publication Date
CN103065158A CN103065158A (zh) 2013-04-24
CN103065158B true CN103065158B (zh) 2016-05-18

Family

ID=48107781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210578578.6A Expired - Fee Related CN103065158B (zh) 2012-12-28 2012-12-28 基于相对梯度的isa模型的行为识别方法

Country Status (1)

Country Link
CN (1) CN103065158B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268568B (zh) * 2014-09-17 2018-03-23 电子科技大学 基于独立子空间网络的行为识别方法
CN104780217B (zh) * 2015-04-24 2017-12-08 福建师范大学 检测用户工作效率的方法、***及客户端
CN104834969A (zh) * 2015-05-05 2015-08-12 东南大学 一种电影评价预测方法及其***
CN105160667A (zh) * 2015-08-26 2015-12-16 西安交通大学 联合梯度和拉普拉斯-高斯信号的盲图像质量评价方法
CN105550687A (zh) * 2015-12-02 2016-05-04 西安电子科技大学 一种基于isa模型的rgb-d图像的多通道融合特征提取方法
CN106228132A (zh) * 2016-07-21 2016-12-14 中国电子科技集团公司第三研究所 目标识别方法和目标识别装置
CN106503672B (zh) * 2016-11-03 2020-01-14 河北工业大学 一种老年人异常行为的识别方法
CN107229952A (zh) * 2017-06-01 2017-10-03 雷柏英 图像的识别方法及装置
CN108154177B (zh) * 2017-12-20 2020-01-21 宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN108446605B (zh) * 2018-03-01 2019-09-20 南京邮电大学 复杂背景下双人交互行为识别方法
CN112508908B (zh) * 2020-12-02 2021-07-16 哈尔滨市科佳通用机电股份有限公司 基于图像处理动车组撒砂管接头断开故障检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334845A (zh) * 2007-06-27 2008-12-31 中国科学院自动化研究所 一种基于轨迹序列分析和规则归纳的视频行为识别方法
CN101930548A (zh) * 2010-06-24 2010-12-29 北京师范大学 一种基于独立成分分析算法的高空间分辨率影像的识别方法
CN102306301A (zh) * 2011-08-26 2012-01-04 中南民族大学 模拟初级视皮层脉冲神经元的动作识别***
CN102799863A (zh) * 2012-07-02 2012-11-28 中国计量学院 视频监控中的团体人群异常行为检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409407B2 (en) * 2004-05-07 2008-08-05 Mitsubishi Electric Research Laboratories, Inc. Multimedia event detection and summarization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334845A (zh) * 2007-06-27 2008-12-31 中国科学院自动化研究所 一种基于轨迹序列分析和规则归纳的视频行为识别方法
CN101930548A (zh) * 2010-06-24 2010-12-29 北京师范大学 一种基于独立成分分析算法的高空间分辨率影像的识别方法
CN102306301A (zh) * 2011-08-26 2012-01-04 中南民族大学 模拟初级视皮层脉冲神经元的动作识别***
CN102799863A (zh) * 2012-07-02 2012-11-28 中国计量学院 视频监控中的团体人群异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于自然梯度的独立子空间盲信号处理方法;王法松等;《南京大学学报(自然科学)》;20110731;第47卷(第4期);全文 *

Also Published As

Publication number Publication date
CN103065158A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103065158B (zh) 基于相对梯度的isa模型的行为识别方法
CN104598890B (zh) 一种基于rgb‑d视频的人体行为识别方法
CN106599797B (zh) 一种基于局部并行神经网络的红外人脸识别方法
Masita et al. Deep learning in object detection: A review
CN102930302B (zh) 基于在线序贯极限学习机的递增式人体行为识别方法
Hu Design and implementation of abnormal behavior detection based on deep intelligent analysis algorithms in massive video surveillance
CN112836672A (zh) 一种基于自适应近邻图嵌入的无监督数据降维方法
CN103279768B (zh) 一种基于增量学习人脸分块视觉表征的视频人脸识别方法
CN102938070B (zh) 一种基于动作子空间与权重化行为识别模型的行为识别方法
CN104616316A (zh) 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
Wang et al. Feature representation for facial expression recognition based on FACS and LBP
CN110555463B (zh) 一种基于步态特征的身份识别方法
WO2010062268A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
CN111460881A (zh) 基于近邻判别的交通标志对抗样本检测方法和分类装置
CN104268507A (zh) 一种基于rgb-d图像的手语字母识别方法
CN102289685B (zh) 一种基于正则回归的秩-1张量投影的行为识别方法
CN104063721A (zh) 一种基于语义特征自动学习与筛选的人类行为识别方法
CN103310208A (zh) 基于局部几何视觉短语描述的鉴别性人脸姿态识别方法
Wang et al. Action recognition using linear dynamic systems
Kapsouras et al. Action recognition by fusing depth video and skeletal data information
Li et al. Spatial and temporal information fusion for human action recognition via Center Boundary Balancing Multimodal Classifier
CN104992168B (zh) 一种基于图核的人体行为识别方法
Puthenputhussery et al. Sparse representation based complete kernel marginal fisher analysis framework for computational art painting categorization
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
Samanta et al. Indian classical dance classification on manifold using jensen-bregman logdet divergence

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160518

Termination date: 20161228