CN105005772A - 一种视频场景检测方法 - Google Patents

一种视频场景检测方法 Download PDF

Info

Publication number
CN105005772A
CN105005772A CN201510427821.8A CN201510427821A CN105005772A CN 105005772 A CN105005772 A CN 105005772A CN 201510427821 A CN201510427821 A CN 201510427821A CN 105005772 A CN105005772 A CN 105005772A
Authority
CN
China
Prior art keywords
video
formula
vector
represent
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510427821.8A
Other languages
English (en)
Other versions
CN105005772B (zh
Inventor
童云海
杨亚鸣
丁宇辰
郜渊源
蒋云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201510427821.8A priority Critical patent/CN105005772B/zh
Publication of CN105005772A publication Critical patent/CN105005772A/zh
Application granted granted Critical
Publication of CN105005772B publication Critical patent/CN105005772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种视频场景检测方法,该方法通过计算机代替人工对视频数据进行检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程。离线训练判别模型过程,针对训练视频样本集中每个视频抽取特征,包括语义和时空特征抽取;对特征向量进行类别标注,得到了一组样本集;利用多核学习框架对样本集进行迭代训练,得到离线训练模型;视频场景检测过程接入监控视频源;进行视频采样得到一个短视频;对短视频抽取特征;载入离线训练模型对特征进行检测,得到检测结果。本发明通过计算机代替人工识别视频中的场景,可提高检测效率,降低成本,对数据存储和检索也提供便利。

Description

一种视频场景检测方法
技术领域
本发明涉及视频信息分析技术,尤其涉及一种视频场景检测方法。
背景技术
当前,视频监控***日渐普及,其在维护社会治安、破获犯罪案件等方面发挥着不可替代的作用。在视频监控领域,识别异常场景十分重要,比如准确检测聚众斗殴等妨害公共安全的行为、检测小商小贩的违规经营等异常场景在社会管理、城市管理领域意义重大。
视频监控***包括前端摄像机、传输设备和视频监控平台。摄像机采集前端视频图像信号,通过传输设备压后发送给监控平台,平台将完成对数据的存储、异常事件检测等工作。监控视频往往具有数据量大、信息冗余多的特点,如果安排人工对这些视频进行监控、处理,不仅耗时耗力,准确率也无法得到保证。
随着计算机视觉技术的发展,计算机可以识别图像中的人、动物、车等对象,并逐步代替人做一些简单的工作。然而,现有技术对场景的识别针对的对象主要是静态图片。相比静态图片,视频具有时间维度,且包含背景的变化信息和目标物体的运动信息,因此处理起来更为复杂。目前,大多通过人工方法对视频数据进行监控、处理和发现其中的异常场景,耗时耗力,成本高,效率低,且准确率无法得到保证,也难以高效地实现对视频处理分析结果数据的存储和日后的检索再利用。
发明内容
为了克服上述现有技术的不足,本发明提供一种视频中场景的检测方法,用计算机代替人工对视频数据进行检测,发现其中的异常场景,可大大提高检测效率,降低成本,对数据存储和日后的检索也提供了便利。
本发明提供的技术方案是:
一种视频场景检测方法,该方法通过计算机代替人工对视频数据进行检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程:
1)离线训练判别模型过程,执行如下操作:
11)准备训练视频样本集;
12)针对训练视频样本集中每个视频抽取特征,特征为向量形式,包括语义特征抽取和时空特征抽取;
13)对特征向量进行类别标注,得到了一组样本集,每个样本包含语义特征向量和时空特征向量,并对应一个类别标注;
14)利用多核学习框架对步骤13)所述样本集进行迭代训练,得到一个离线训练模型;
2)视频场景检测过程,执行如下操作:
21)接入要检测的监控视频源;
22)设置采样方式进行视频采样,得到一个短视频;此短视频为检测目标;
23)对步骤22)所述短视频抽取特征,包括语义特征向量和时空特征向量,抽取方法与训练过程中步骤12)相同;
24)利用多核学习框架载入离线训练模型,对特征进行检测判别,判定是否为指定场景,得到检测结果。
针对上述视频场景检测方法,进一步地,步骤11)所述训练视频样本包括两类样本,一类为包含小商小贩经营场景的视频集,另一类为不包含小商小贩经营场景的视频集。
步骤12)针对训练视频样本集中每个视频抽取特征,包括语义特征抽取过程和时空特征抽取过程。
其中,语义特征抽取过程具体包括如下步骤:
121a)对每个视频,通过关键帧提取方法计算每帧图片的得分,选取得分最高的m
帧图片作为关键帧,得分计算公式如下:
s c o r e ( f k ) = α * Sdi f f ( f k ) - M i n _ S d i f f M a x _ S d i f f - M i n _ S d i f f + β * M o V a l u e ( f k ) - M i n _ M o V a l u e M a x _ M o V a l u e - M i n _ M o V a l u e    (式1)
Sdiff(fk)=∑i,j|Ik(i,j)-Ik-1(i,j)|   (式2)
M o V a l u e ( f k ) = Σ i = 1 N k ( ( v k x ( i ) ) 2 + ( v k y ( i ) ) 2 )    (式3)
式1~式3中,fk表示视频序列中第k帧图片;score(fk)表示第k帧图片的得分;Sdiff(fk)表示该帧与前一帧的差异量;α、β分别为权重;Max_Sdiff和Min_Sdiff分别为相邻两帧间的最大差值和最小差值;分别表示第k帧图片中像素i光流的水平方向的变化量和垂直方向的变化量;Nk表示第k帧像素个数;MoValue(fk)表示第k帧的光流强度;Max_MoValue表示所有帧中最大光流强度;Min_MoValue表示所有帧中最小光流强度;
121b)对选取的m帧图片,针对每帧图片,用达特茅斯Classeme特征提取方法提取图片语义特征,得到该帧图片的语义特征向量;
121c)将提取m帧图片得到的m个实数特征向量进行拼接,得到一个m*2659维的向量,作为该视频的语义特征向量。
在本发明一实施例中,步骤121a)所述m帧图片为三帧图片。针对特征提取,时空语义特征抽取过程具体包括如下步骤:
122a)对每个训练视频,通过MoSIFT特征提取方法抽取得到MoSIFT特征;
122b)基于视频集中所有MoSIFT特征,生成视觉词典;
122c)利用上述视觉词典,对每个视频进行费舍尔向量编码,得到一个2*D*K维的费舍尔向量;
122d)对上述费舍尔向量实施主成分分析,得到一个低维向量,该低维向量为视频的时空特征向量。
上述步骤122b)具体采用混合高斯模型生成视觉词典。
针对上述视频场景检测方法,进一步地,步骤14)所述多核学习框架为Shogun工具包中的多核学习框架,采用线性加权的方式联合核函数,表示为式9:
K ( x i , x j ) = Σ k = 1 S β k K k ( x i , x j )    (式9)
式9中,Kk(xi,xj)表示第k个核函数;βk表示第k个核函数的权重;xi,xj分别表示视频样本i,j对应该核函数的特征;
选取两个多项式核作为核函数,分别对应的特征为语义特征和时空特征;多项式核的公式如式10:
K(x,xi)=((x·xi)+1)d   (式10)
式10中,x,xi分别表示输入空间的向量;d表示阶数;
多核学习的约束最优化问题表示为:
M i n 1 2 ( Σ k = 1 S | | w k | | 2 β k ) 2 + C Σ i = 1 N ξ i
   (式11)
式11中,N表示输入空间的向量个数;ξi表示向量i的松弛系数;S表示核函数的个数;wk表示第k个核函数所对应的分界面到支持向量的宽度;C表示惩罚因子;在约束条件中,yi为向量的类别(为1或-1);为第k个核函数对应的高维空间映射函数;b为偏移量。
所述多核学习模型的求解具体通过拉格朗日变化方法,得到求解目标函数为:
min β max α J ( α , β ) = Σ i = 1 N α i - 1 2 Σ i , j = 1 N α i α j y i y j Σ k = 1 S β k K K ( x i , x j )
s . t . 0 ≤ α i ≤ C , Σ i = 1 N α i y i = 0
β ∈ Δ p , Δ p = { β ∈ R + S : | | β | | p ≤ 1 }    (式12)
式12中,N表示输入空间的向量个数;xi,xj表示输入空间的向量;αij为对应的权重,通过学习得到;yi,yj为对应的类别;S表示核函数的个数;βk表示第k个核函数的权重,也通过学习得到;在约束条件中,C代表惩罚因子,p为归一化范数。
在本发明一实施例中,式10中所述多项式核的阶数d均为2。
步骤22)所述视频采样的方式包括隔时采样和隔帧采样;隔时采样具体是每隔t秒采样一次,一次采样10秒,构成一个短视频;隔帧采样具体是每隔k帧采样一次,采够240帧构成一个短视频;此短视频为检测目标。
与现有技术相比,本发明的有益效果是:
本发明提供一种视频中场景的检测方法,该方法通过计算机代替人工对视频数据进行检测,基于外部知识库提取视频语义特征,考虑背景与运动信息的关键帧提取算法,并通过多核学习的方法解决视频中场景检测问题,检测方法包括离线训练判别模型过程和视频场景检测过程,通过识别出视频中的场景,可发现其中的异常场景。本发明提供的技术方案可大大提高检测效率,降低成本,对数据存储和日后的检索也提供了便利。
附图说明
图1是本发明通过学习训练过程获得离线训练判别模型的流程框图。
图2是本发明提供的视频场景检测过程的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种视频场景检测方法,该方法通过计算机代替人工对视频数据进行检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程:
1)离线训练判别模型过程,执行如下操作:
11)准备训练视频样本集;
12)针对训练视频样本集中每个视频抽取特征,特征为向量形式,包括语义特征抽取和时空特征抽取;
13)对特征向量进行类别标注,得到了一组样本集,每个样本包含语义特征向量和时空特征向量,并对应一个类别标注;
14)利用多核学习框架对步骤13)所述样本集进行迭代训练,得到一个离线训练模型;
2)视频场景检测过程,执行如下操作:
21)接入要检测的监控视频源;
22)设置采样方式进行视频采样,得到一个短视频;此短视频为检测目标;
23)对步骤22)所述短视频抽取特征,包括语义特征向量和时空特征向量,抽取方法与训练过程中步骤12)相同;
24)利用多核学习框架载入离线训练模型,对特征进行检测判别,判定是否为指定场景,得到检测结果。
本实施例利用监控视频,检测视频中是否有小商小贩经营场景。检测方法包括离线训练判别模型过程和视频场景检测过程。
1)离线训练判别模型过程:利用训练视频样本,离线训练判别模型
11)准备训练视频样本;
本实施例中,训练视频样本包括两类样本,一类为包含小商小贩经营场景的视频集,一类为不包含小商小贩经营场景的视频集;
12)针对训练视频样本中每个视频抽取特征,包括语义特征抽取和时空特征抽取;
用于表征该视频的特征包括语义特征和时空特征;特征为向量形式;针对每个视频抽取特征得到两个特征向量,其中一个为语义特征向量,用于表征语义特征;另一个为时空特征向量(时空维),用于表征时空特征。
121)抽取语义特征的过程具体包括:
121a)对每个视频,利用关键帧提取方法计算每帧图片的得分,选取得分最高的m帧图片作为关键帧,得分计算公式如下:
s c o r e ( f k ) = α * s d i f f ( f k ) - M i n _ S d i f f M a x _ S d i f f - M i n _ S d i f f + β * M o V a l u e ( f k ) - M i n _ M o V a l u e M a x _ M o V a l u e - M i n _ M o V a l u e    (式1)
Sdiff(fk)=∑i,j|Ik(i,j)-Ik-1(i,j)|   (式2)
M o V a l u e ( f k ) = Σ i = 1 N k ( ( v k x ( i ) ) 2 + ( v k y ( i ) ) 2 )    (式3)
式1~式3中,fk表示视频序列中第k帧图片;score(fk)表示第k帧图片的得分;Sdiff(fk)表示该帧与前一帧的差异量(两帧之间像素值的差值,对于RGB彩色图像来说,差异量为R、G、B通道差值的均值);α、β分别为权重;Max_Sdiff和Min_Sdiff分别为相邻两帧间的最大差值和最小差值;分别表示第k帧图片中像素i光流的水平方向的变化量和垂直方向的变化量;Nk表示第k帧像素个数;MoValue(fk)表示第k帧的光流强度;Max_MoValue表示所有帧中最大光流强度;Min_MoValue表示所有帧中最小光流强度。
上述关键帧提取方法通过综合考虑图片场景变化信息以及运动信息来选取得到关键帧。本实施例设定m=3,即利用关键帧提取方法计算每帧图片的得分,选取得分最高的3帧图片作为关键帧。
121b)对选取的m帧图片,针对每帧图片,用达特茅斯classeme特征提取方法提取图片语义特征,得到该帧图片的语义特征向量;
Classeme特征提取方法是基于外部知识库的语义抽取工具,是一种表达图像属性的描述子,Classeme图像属性描述子(Classemes attribute descriptor)包含2659种图像属性(也就是说有2659维),对应2659个概念;包括对象(如篮球、自行车),人物(如足球运动员,男孩),地点(如游泳池,室外)等。每帧图片会抽取出一个2659维的实数向量。
121c)将提取m帧图片得到的m个实数向量进行拼接,得到一个m*2659维的向量,作为该视频的语义特征向量;
122)抽取时空特征的过程具体包括:
122a)对每个训练视频,通过特征提取方法抽取得到MoSIFT特征;
训练视频包括了包含小商小贩经营场景的视频和不包含小商小贩经营场景的视频;本实施例采用的特征提取方法为MoSIFT特征提取方法;文献(M.-Y.Chen and A.Hauptmann,"Mosift:Recognizing human actions in surveillance videos,"CMU-CS-09-161.Carnegie MellonUniversity,2009.)记载了通过MoSIFT特征提取方法抽取得到MoSIFT特征的过程,MoSIFT特征是一种考虑了空间维和时间维的时空特征,生成的特征为256维,计为D;
对每个训练视频提取MoSIFT特征包括两个步骤,首先是兴趣点的检测,其次是构建对兴趣点的描述。
兴趣点的检测具体包括找出局部极值点作为候选兴趣点和确定候选兴趣点是否作为兴趣点:
构建多尺度高斯差分金字塔,找出局部极值点作为候选兴趣点,高斯差分的计算公式为:
D(x,y,kδ)=L(x,y,kδ)-L(x,y,(k-1)δ)   (式4)
式4中,x和y代表图像中的像素坐标;kδ表示金字塔第k层的高斯函数的标准差;L(x,y,kδ)表示金字塔第k层高斯函数与图像的卷积结果;L(x,y,(k-1)δ)表示金字塔第k-1层高斯函数与图像的卷积结果;D(x,y,kδ)为金字塔第k层的差分结果;
接着通过光流分析判断这些候选点是否存在足够的运动信息,即运动强度是否足够大,以决定是否作为兴趣点。
得到兴趣点后,MoSIFT特征提取方法通过将SIFT(Scale-invariant feature transform)描述与光流描述相结合得到一个256维的向量作为该兴趣点的描述;其中SIFT是经典的用于表征图像的特征,具有尺度不变性,用一个128的实数向量来描述图像中的兴趣点,光流的描述方式跟SIFT特征相似,两者组合起来就得到了一个256维的实数向量。
122b)基于视频集中所有MoSIFT特征,生成视觉词典;
本方法采用混合高斯模型来生成视觉词典,其中,用K来表示视觉词典的大小,混合高斯模型主要思想是假设MoSIFT特征点的分布符合K个高斯分布的线性叠加,本方法取K=64,混合高斯模型的数学表示为:
P ( y | θ ) = Σ k = 1 K α k φ ( y | θ k )    (式5)
式5中,P(y|θ)为MoSIFT特征的概率分布;αk为每个高斯模型的权重;K表示视觉词典的大小;y表示MoSIFT特征向量;θ表示分布的参数;θk表示第k个高斯函数的参数。
122c)利用上述视觉词典,对每个视频进行费舍尔向量编码,得到一个2*D*K维的费舍尔向量;
122d)对上述费舍尔向量实施主成分分析,得到一个低维向量,该低维向量为视频的时空特征向量;
上述2*D*K维费舍尔向量为32768维费舍尔向量;主成分分析利用降维思想,将多个变量转化为少数几个综合变量,这几个综合变量即为主成分,这些主成分能够反映原始变量的绝大部分信息。在本方法中对费舍尔向量进行主成分分析的过程为:
费舍尔向量维数记为p;令xi=(xi1,xi2,…,xip)T,i=1,2,..,N,表示特征矩阵;xij表示第i个样本的第j维特征取值,对特征矩阵进行如下变换:
Z i j = x i j - x J ‾ s j , i = 1 , 2 , ... , N ; j = 1 , 2 , ... , p    (式6)
其中,Zij为为标准化阵Z的第i行第j列取值;N为样本个数;
然后对Z求相关系数矩阵R:
R = Z T Z N - 1    (式7)
然后求解相关矩阵R的特征方程:
|R-λIp|=0   (式8)
式8中,R为相关系数矩阵;Ip为单位矩阵;λ为特征值;
求解式8得到p个特征根,本方法取主成分个数为M=1168;最后将原始特征矩阵投影到M个主方向上,得到最终的时空特征。
13)对特征向量进行类别标注,得到了一组样本集,每个样本包含两个特征向量,并对应一个类别标注;
在本实施例中,对特征向量进行类别标注,具体是:包含小商小贩经营场景的视频标注为1,表示正例,对不包含小商小贩经营场景的视频标注为-1,表示为负例,这样就得到了一组样本集,每个样本包含两个特征向量,并对应一个类别标注;
14)利用多核学习框架对上述训练样本集进行迭代训练;
本发明采用Shogun工具包中的多核学习框架,用线性加权的方式联合核函数,具体公式如下:
K ( x i , x j ) = Σ k = 1 S β k K k ( x i , x j )    (式9)
式9中,Kk(xi,xj)表示第k个核函数;βk表示第k个核函数的权重;xi,xj分别表示视频样本i,j对应该核函数的特征;在本方法中一共选取两个多项式核作为核函数,一个核函数对应的特征为语义特征,另一个核函数对应的特征为时空特征;多项式核的公式如下,
K(x,xi)=((x·xi)+1)d   (式10)
式10中,x,xi分别表示输入空间的向量;d表示阶数,本方法中多项式核的阶数均为2。
多核学习的约束最优化问题可以表示为:
M i n 1 2 ( Σ k = 1 S | | w k | | 2 β k ) 2 + C Σ i = 1 N ξ i
   (式11)
式11中,N表示输入空间的向量个数;ξi表示向量i的松弛系数;S表示核函数的个数;wk表示第k个核函数所对应的分界面到支持向量的宽度;C表示惩罚因子;在约束条件中,yi为向量的类别(为1或-1);为第k个核函数对应的高维空间映射函数;b为偏移量。
与SVM类似,本方法采用的多核学习模型的求解也可以通过拉格朗日变化变成对其对偶问题的求解,多核学习的对偶优化问题的求解目标函数为:
min β max α J ( α , β ) = Σ i = 1 N α i - 1 2 Σ i , j = 1 N α i α j y i y j Σ k = 1 S β k K K ( x i , x j )
s . t . 0 ≤ α i ≤ C , Σ i = 1 N α i y i = 0
β ∈ Δ p , Δ p = { β ∈ R + s : | | β | | p ≤ 1 }    (式12)
式12中,N表示输入空间的向量个数;xi,xj表示输入空间的向量;αij为对应的权重,通过学习得到;yi,yj为对应的类别;S表示核函数的个数;βk表示第k个核函数的权重,也通过学习得到;在约束条件中,C代表惩罚因子,p为归一化范数;本方法设定为p=2,C=8。
15)经过多核训练可以得到一个离线模型;
得到的离线模型就是通过训练得到的未知参数,主要包括支持向量样本及其权重、核函数及其对应的权重等参数的值;
2)视频场景检测过程
21)接入要检测的监控视频源;
22)设置采样方式进行视频采样,得到一个短视频;此短视频为检测目标;
采样方式包括隔时采样和隔帧采样;隔时采样具体是每隔t秒采样一次,一次采样10秒,构成一个短视频;隔帧采样具体是每隔k帧采样一次,采够240帧构成一个短视频;此短视频为检测目标。
23)对上述短视频抽取语义特征和时空特征,抽取方法流程跟训练过程相同;
24)利用多核学习框架,载入离线训练模块,对特征进行检测判别,判定是否为指定场景,得到检测结果;
判别函数为:
f ( x ) = s i g n ( Σ i = 0 N α i y i Σ k = 1 S β k K K ( x i , x ) + b )    (式13)
式13中,除参数x外,其他参数含义与上文公式相同;x表示对短视频提取出的语义特征和时空特征;通过计算得到判别函数f(x)为1则表示该视频片段包含指定场景,为-1则表示该视频片段不包括指定场景。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种视频场景检测方法,通过计算机代替人工对视频数据进行检测,识别出视频中的场景;检测方法包括离线训练判别模型过程和视频场景检测过程:
1)离线训练判别模型过程,执行如下操作:
11)准备训练视频样本集;
12)针对训练视频样本集中每个视频抽取特征,特征为向量形式,包括语义特征向量和时空特征向量;
13)对特征向量进行类别标注,得到了一组样本集,每个样本包含语义特征向量和时空特征向量,并对应一个类别标注;
14)利用多核学习框架对步骤13)所述样本集进行迭代训练,得到一个离线训练模型;
2)视频场景检测过程,执行如下操作:
21)接入要检测的监控视频源;
22)设置采样方式进行视频采样,得到一个短视频;此短视频为检测目标;
23)对步骤22)所述短视频抽取特征,包括语义特征向量和时空特征向量,抽取方法与训练过程中步骤12)相同;
24)利用多核学习框架载入离线训练模型,对特征进行检测判别,判定是否为指定场景,得到检测结果。
2.如权利要求1所述视频场景检测方法,其特征是,步骤11)所述训练视频样本包括两类样本,一类为包含小商小贩经营场景的视频集,另一类为不包含小商小贩经营场景的视频集。
3.如权利要求1所述视频场景检测方法,其特征是,步骤12)针对训练视频样本集中每个视频抽取特征,包括抽取语义特征抽取过程和时空特征抽取过程。
4.如权利要求3所述视频场景检测方法,其特征是,语义特征抽取过程具体包括如下步骤:
121a)对每个视频,通过关键帧提取方法计算每帧图片的得分,选取得分最高的m帧图片作为关键帧,得分计算公式如下:
s c o r e ( f k ) = α * S d i f f ( f k ) - M i n _ S d i f f M a x _ S d i f f - M i n _ S d i f f + β * M o V a l u e ( f k ) - M i n _ M o V a l u e M a x _ M o V a l u e - M i n _ M o V a l u e     (式1)
Sdiff(fk)=∑i,j|Ik(i,j)-Ik-1(i,j)|           (式2)
M o V a 1 u e ( f k ) = Σ i = 1 N k ( ( v k x ( i ) ) 2 + ( v k y ( i ) ) 2 )        (式3)
式1~式3中,fk表示视频序列中第k帧图片;score(fk)表示第k帧图片的得分;Sdiff(fk)表示该帧与前一帧的差异量;α、β分别为权重;Max_Sdiff和Min_Sdiff分别为相邻两帧间的最大差值和最小差值;分别表示第k帧图片中像素i光流的水平方向的变化量和垂直方向的变化量;Nk表示第k帧像素个数;MoValue(fk)表示第k帧的光流强度;Max_MoValue表示所有帧中最大光流强度;Min_MoValue表示所有帧中最小光流强度;
121b)对选取的m帧图片,针对每帧图片,用达特茅斯classeme特征提取方法提取图片语义特征,得到该帧图片的语义特征向量;
121c)将提取m帧图片得到的m个实数特征向量进行拼接,得到一个m*2659维的向量,作为该视频的语义特征向量。
5.如权利要求4所述视频场景检测方法,其特征是,步骤121a)所述m帧图片为三帧图片。
6.如权利要求3所述视频场景检测方法,其特征是,时空语义特征抽取过程具体包括如下步骤:
122a)对每个训练视频,通过MoSIFT特征提取方法抽取得到MoSIFT特征;
122b)基于视频集中所有MoSIFT特征,生成视觉词典;
122c)利用上述视觉词典,对每个视频进行费舍尔向量编码,得到一个2*D*K维的费舍尔向量;
122d)对上述费舍尔向量实施主成分分析,得到一个低维向量,该低维向量为视频的时空特征向量。
7.如权利要求6所述视频场景检测方法,其特征是,步骤122b)采用混合高斯模型生成视觉词典。
8.如权利要求1所述视频场景检测方法,其特征是,步骤14)所述多核学习框架为Shogun工具包中的多核学习框架,采用线性加权的方式联合核函数,表示为式9:
K ( x i , x j ) = Σ k = 1 s β k K k ( x i , x j )            (式9)
式9中,Kk(xi,xj)表示第k个核函数;βk表示第k个核函数的权重;xi,xj分别表示视频样本i,j对应该核函数的特征;
选取两个多项式核作为核函数,分别对应的特征为语义特征和时空特征;多项式核的公式如式10:
K(x,xi)=((x·xi)+1)d                 (式10)
式10中,x,xi分别表示输入空间的向量;d表示阶数;
多核学习的约束最优化问题表示为:
M i n 1 2 ( Σ k = 1 S | | w k | | 2 β k ) 2 + C Σ i = 1 N ξ i
         (式11)
式11中,N表示输入空间的向量个数;ξi表示向量i的松弛系数;S表示核函数的个数;wk表示第k个核函数所对应的分界面到支持向量的宽度;C表示惩罚因子;在约束条件中,yi为向量i的类别(为1或-1);为第k个核函数对应的高维空间映射函数;b为偏移量。
所述多核学习模型的求解具体通过拉格朗日变化方法,得到求解目标函数为:
m i n β m a x α J ( α , β ) = Σ i = 1 N α i - 1 2 Σ i , j = 1 N α i α j y i y j Σ k = 1 S β k K K ( x i , x j )
s . t . 0 ≤ α i ≤ C , Σ i = 1 N α i y i = 0
β ∈ Δ p , Δ p = { β ∈ R + s : | | β | | p ≤ 1 }                 (式12)
式12中,N表示输入空间的向量个数;xi,xj表示输入空间的向量;αij为对应的权重,通过学习得到;yi,yj为对应的类别;S表示核函数的个数;βk表示第k个核函数的权重,也通过学习得到;在约束条件中,C代表惩罚因子;p为归一化范数。
9.如权利要求7所述视频场景检测方法,其特征是,式10中所述多项式核的阶数d均为2。
10.如权利要求1所述视频场景检测方法,其特征是,步骤22)所述视频采样的方式包括隔时采样和隔帧采样;隔时采样具体是每隔t秒采样一次,一次采样10秒,构成一个短视频;隔帧采样具体是每隔k帧采样一次,采够240帧构成一个短视频;所述短视频作为检测目标。
CN201510427821.8A 2015-07-20 2015-07-20 一种视频场景检测方法 Active CN105005772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510427821.8A CN105005772B (zh) 2015-07-20 2015-07-20 一种视频场景检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510427821.8A CN105005772B (zh) 2015-07-20 2015-07-20 一种视频场景检测方法

Publications (2)

Publication Number Publication Date
CN105005772A true CN105005772A (zh) 2015-10-28
CN105005772B CN105005772B (zh) 2018-06-12

Family

ID=54378437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510427821.8A Active CN105005772B (zh) 2015-07-20 2015-07-20 一种视频场景检测方法

Country Status (1)

Country Link
CN (1) CN105005772B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107273863A (zh) * 2017-06-21 2017-10-20 天津师范大学 一种基于语义笔画池化的场景文字识别方法
CN107766838A (zh) * 2017-11-08 2018-03-06 央视国际网络无锡有限公司 一种视频场景切换检测方法
CN108197566A (zh) * 2017-12-29 2018-06-22 成都三零凯天通信实业有限公司 一种基于多路神经网络的监控视频行为检测方法
CN108229336A (zh) * 2017-12-13 2018-06-29 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108647264A (zh) * 2018-04-28 2018-10-12 北京邮电大学 一种基于支持向量机的图像自动标注方法及装置
CN108881950A (zh) * 2018-05-30 2018-11-23 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN109218721A (zh) * 2018-11-26 2019-01-15 南京烽火星空通信发展有限公司 一种基于帧比对的变种视频检测方法
CN109241811A (zh) * 2017-07-10 2019-01-18 南京原觉信息科技有限公司 基于图像螺旋线的场景分析方法及使用该方法的场景目标监控***
CN110126846A (zh) * 2019-05-24 2019-08-16 北京百度网讯科技有限公司 驾驶场景的表示方法、装置、***和存储介质
CN110532990A (zh) * 2019-09-04 2019-12-03 上海眼控科技股份有限公司 转向灯使用状态识别方法、装置、计算机设备及存储介质
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
WO2022012002A1 (en) * 2020-07-15 2022-01-20 Zhejiang Dahua Technology Co., Ltd. Systems and methods for video analysis

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166744A (zh) * 2019-04-28 2019-08-23 南京师范大学 一种基于视频地理围栏的违章摆摊监测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073864A (zh) * 2010-12-01 2011-05-25 北京邮电大学 四层结构的体育视频中足球项目检测***及实现
CN102473291A (zh) * 2009-07-20 2012-05-23 汤姆森特许公司 体育视频中的远视场景的检测和自适应视频处理方法
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
US8489627B1 (en) * 2008-08-28 2013-07-16 Adobe Systems Incorporated Combined semantic description and visual attribute search
CN103679192A (zh) * 2013-09-30 2014-03-26 中国人民解放军理工大学 基于协方差特征的图像场景类型判别方法
CN104184925A (zh) * 2014-09-11 2014-12-03 刘鹏 一种视频场景变化的检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8489627B1 (en) * 2008-08-28 2013-07-16 Adobe Systems Incorporated Combined semantic description and visual attribute search
CN102473291A (zh) * 2009-07-20 2012-05-23 汤姆森特许公司 体育视频中的远视场景的检测和自适应视频处理方法
CN102073864A (zh) * 2010-12-01 2011-05-25 北京邮电大学 四层结构的体育视频中足球项目检测***及实现
CN102509084A (zh) * 2011-11-18 2012-06-20 中国科学院自动化研究所 一种基于多示例学习的恐怖视频场景识别方法
CN103679192A (zh) * 2013-09-30 2014-03-26 中国人民解放军理工大学 基于协方差特征的图像场景类型判别方法
CN104184925A (zh) * 2014-09-11 2014-12-03 刘鹏 一种视频场景变化的检测方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844239B (zh) * 2016-03-23 2019-03-29 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107273863B (zh) * 2017-06-21 2019-07-23 天津师范大学 一种基于语义笔画池化的场景文字识别方法
CN107273863A (zh) * 2017-06-21 2017-10-20 天津师范大学 一种基于语义笔画池化的场景文字识别方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107239801B (zh) * 2017-06-28 2020-07-28 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN109241811A (zh) * 2017-07-10 2019-01-18 南京原觉信息科技有限公司 基于图像螺旋线的场景分析方法及使用该方法的场景目标监控***
CN109241811B (zh) * 2017-07-10 2021-04-09 南京原觉信息科技有限公司 基于图像螺旋线的场景分析方法及使用该方法的场景目标监控***
CN107766838B (zh) * 2017-11-08 2021-06-01 央视国际网络无锡有限公司 一种视频场景切换检测方法
CN107766838A (zh) * 2017-11-08 2018-03-06 央视国际网络无锡有限公司 一种视频场景切换检测方法
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108229336A (zh) * 2017-12-13 2018-06-29 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108197566B (zh) * 2017-12-29 2022-03-25 成都三零凯天通信实业有限公司 一种基于多路神经网络的监控视频行为检测方法
CN108197566A (zh) * 2017-12-29 2018-06-22 成都三零凯天通信实业有限公司 一种基于多路神经网络的监控视频行为检测方法
CN108647264B (zh) * 2018-04-28 2020-10-13 北京邮电大学 一种基于支持向量机的图像自动标注方法及装置
CN108647264A (zh) * 2018-04-28 2018-10-12 北京邮电大学 一种基于支持向量机的图像自动标注方法及装置
CN108881950A (zh) * 2018-05-30 2018-11-23 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN110969066B (zh) * 2018-09-30 2023-10-10 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN109218721A (zh) * 2018-11-26 2019-01-15 南京烽火星空通信发展有限公司 一种基于帧比对的变种视频检测方法
CN110126846A (zh) * 2019-05-24 2019-08-16 北京百度网讯科技有限公司 驾驶场景的表示方法、装置、***和存储介质
CN110532990A (zh) * 2019-09-04 2019-12-03 上海眼控科技股份有限公司 转向灯使用状态识别方法、装置、计算机设备及存储介质
WO2022012002A1 (en) * 2020-07-15 2022-01-20 Zhejiang Dahua Technology Co., Ltd. Systems and methods for video analysis

Also Published As

Publication number Publication date
CN105005772B (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN105005772A (zh) 一种视频场景检测方法
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN111325115B (zh) 带有三重约束损失的对抗跨模态行人重识别方法和***
Wang et al. Joint learning of visual attributes, object classes and visual saliency
CN107330397B (zh) 一种基于大间隔相对距离度量学习的行人重识别方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN112183468A (zh) 一种基于多注意力联合多级特征的行人再识别方法
CN110516707B (zh) 一种图像标注方法及其装置、存储介质
Pei et al. Consistency guided network for degraded image classification
CN110874576B (zh) 一种基于典型相关分析融合特征的行人再识别方法
Zheng et al. When saliency meets sentiment: Understanding how image content invokes emotion and sentiment
CN115147641A (zh) 一种基于知识蒸馏和多模态融合的视频分类方法
Symeonidis et al. Neural attention-driven non-maximum suppression for person detection
CN107894996A (zh) 基于智能监拍装置的图像智能分析方法
US20240013368A1 (en) Pavement nondestructive detection and identification method based on small samples
CN113762151A (zh) 一种故障数据处理方法、***及故障预测方法
CN110135363B (zh) 基于判别词典嵌入行人图像检索方法、***、设备及介质
CN116189063B (zh) 一种用于智能视频监控的关键帧优化方法及装置
Mortezaie et al. A color-based re-ranking process for people re-identification: Paper ID 21
CN113128460B (zh) 基于知识蒸馏的多分辨率行人重识别方法
CN112380970B (zh) 基于局部区域搜索的视频目标检测方法
CN111459050B (zh) 一种基于双网互联的智慧仿真型护理教学***及教学方法
Zhu et al. Multi-size object detection assisting fault diagnosis of power systems based on improved cascaded faster R-CNNs
Sugiarto et al. A smartphone-based of wood identification using image feature extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant