CN101719271A - 基于混合投影函数和支持向量机的视频镜头边界检查方法 - Google Patents

基于混合投影函数和支持向量机的视频镜头边界检查方法 Download PDF

Info

Publication number
CN101719271A
CN101719271A CN200910154120A CN200910154120A CN101719271A CN 101719271 A CN101719271 A CN 101719271A CN 200910154120 A CN200910154120 A CN 200910154120A CN 200910154120 A CN200910154120 A CN 200910154120A CN 101719271 A CN101719271 A CN 101719271A
Authority
CN
China
Prior art keywords
frame
video
sequence
vector
projection function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910154120A
Other languages
English (en)
Inventor
凌坚
练益群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Media and Communications
Original Assignee
Zhejiang University of Media and Communications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Media and Communications filed Critical Zhejiang University of Media and Communications
Priority to CN200910154120A priority Critical patent/CN101719271A/zh
Publication of CN101719271A publication Critical patent/CN101719271A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种利用混合投影函数计算视频特征、采用支持向量机的视频镜头边界检测方法。视频由多个镜头连接而成,是视频数据结构化的基本单位,本方法对视频制作采用的镜头的边界进行定位。方法首先引入了图像投影函数并通过投影函数的组合,定义视频帧间距离度量,进而计算视频帧序列的特征向量;通过分析视频帧间距离的变化选取检测镜头边界的候选序列;接着利用一个自适应阈值和支持向量机分别对镜头的切变和渐变边界进行识别。本发明采用的方法有较小的时间复杂度和较高检测精度,适合大量的数字视频自动分析。

Description

基于混合投影函数和支持向量机的视频镜头边界检查方法
技术领域
本发明涉及多媒体、视频处理和视频分析,模式识别领域,尤其涉及一种利用混合投影函数和支持向量机的视频镜头边界检查方法。
背景技术
视频数据是以帧为单位、按特定的时间间隔(如PAL、NTSC制等)顺序组织的,是一维的线性结构。然而,视频数据包含着复杂的语义内容,具有复杂的“段落”结构。视频数据的结构化就是分析视频中存在的种语义结构,是视频分析和视频理解的基本前提。按从粗到细的顺序,一个视频可分成视频(Video)、片段(Section)、场景(Scene)和镜头(Shot)四层结构。其中镜头是由摄像机一次连续拍摄得到的时间上连续的视频帧组成,镜头间通过不同的转换方式进行连接。任何一段视频数据都是由镜头组成的,是视频内容分析的基本单元,镜头的划分是整个视频分析的基础,只有首先把视频序列分解成镜头,才能进一步进行关键帧提取、视频缩略和视频序列辩识等工作。因此,镜头切换的检测(shotdetection)成了视频检索技术中首先需要解决的问题,其检测效果的好坏将直接影响到视频分析、视频理解的性能。
镜头之间转换方式有两种:突变(Cut Transition和渐变(Gradual Transition)。突变是指前一镜头的末帧与后一镜头的首帧直接相连,中间没有使用任何剪辑效果。渐变则是从一个镜头缓慢变化到另一个镜头,整个转换过程是逐渐完成的,通常延续十几或几十帧。渐变的类型非常丰富,有些视频编辑工具,如AdobePremiere和Ulead MediaStudio,可提供100多种不同的编辑方法。
由于镜头是由一个具有时间和空间连续性的视频帧序列组成,因此,同一镜头内的各帧间内容相近;而在镜头转换时,视频内容会发生较大的变化,这种变化一般表现在颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等方面。镜头边界检测的基本思想就是通过选择合适的特征来度量视频帧间的差异,从而寻找镜头边界变化的规律,并通过分析变化特性,识别镜头的边界。此外,如何消除噪声,特别是光照变化、摄像机或物体运动对算法性能的影响,也是镜头边界检测算法考虑的重要问题。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于混合投影函数和支持向量机的视频镜头边界检查方法。
基于混合投影函数和支持向量机的视频镜头边界检测方法包括如下步骤:
(1)视频帧图像数据在垂直方和水平方向上求取差分和积分投影函数;
(2)视频帧的投影函数值作为该视频帧的特征向量,视频帧间差为2个视频帧的特征向量在其向量空间中的距离;
(3)利用滑动窗口,计算在窗口内的相邻视频帧的帧间差,利用自适应的阈值判断镜头切变边界;
(4)对于一个视频帧序列,相邻视频帧的帧间差组成的向量为视频帧序列的特征向量,根据相邻视频帧的帧间差选取候选视频帧序列,通过视频帧序列等间隔删除或插值,使视频帧序列的特征向量长度达到设指定值;
(5)利用支持向量机对视频帧序列的帧间差向量进行分类,识别属于渐变过程的视频帧序列。
所述的视频帧图像数据在垂直方和水平方向上求取差分和积分投影函数步骤包括:
以多个行(列)为单位计算积分投影函数值和差分函数值,离散的水平积分投影函数MH和垂直积分投影函数MV的表达式分别为:
MH i = 1 w * λ Σ j = 0 λ - 1 Σ k = 0 w - 1 I ( k , i * λ + j ) ( i = 1,2 , . . . . . . , m - 1 ) - - - 1
MV i = 1 h * η Σ j = 0 μ - 1 Σ k = 0 h - 1 I ( i * η + j , k ) ( i = 1,2 , . . . . . . , n - 1 ) - - - 2
离散的水平差分投影函数和垂直差分投影函数表达式为:
MH i = 1 w * λ Σ j = 0 λ - 1 Σ k = 0 w - 1 [ I ( k , i * λ + j ) MH i ] 2 ( i = 1,2 , . . . . . . , m - 1 ) - - - 3
MV i = 1 h * η Σ j = 0 μ - 1 Σ k = 0 h - 1 [ I ( i * η + j , k ) - MV i ] 2 ( i = 1,2 , . . . . . . , n - 1 ) - - - 4
其中,w和h分别为视频中帧的宽度和高度,λ和η分别为合并的行数和列数,
Figure G2009101541206D0000025
Figure G2009101541206D0000026
所述的视频帧的投影函数值作为该视频帧的特征向量,视频帧间差为2个视频帧的特征向量在其向量空间中的距离步骤包括:
(1)将帧间差向量的长度作为帧间距离,计算公式为:
FFD ( i ) | = | V ( i + 1 ) - V ( i ) | = Σ k = 0 k = m - 1 ( DH i + 1 , k - DH i , k ) 2 + Σ k = 0 k = n - 1 ( DV i + 1 , k - DV i , k ) 2 - - - 5
其中,DHi,j是视频中第i个帧的第j个水平投影函数,DVi,j是视频的第i帧的第j个垂直投影函数值。
(2)视频帧序列的特征向量的构成:为帧序列中相邻帧间差作为特征向量的第i个分量,特征向量可以表示为:
SV=[V2-V1,V3-V2,...,Vn-Vn-1]T   6
Vi为序列中的第i视频帧的特征向量。
所述的利用滑动窗口,计算在窗口内的相邻视频帧的帧间差,利用自适应的阈值判断镜头切变边界步骤包括:
判断第i与i+1帧之间是否为边界的自适应阈值T(i)确定方法为:在视频帧序列中取第i帧为中心的一个滑动窗口,求取窗口范围内次大的相邻帧的帧间距离Dsec-max,取自适应阈值T(i)=a×Dsec-max,其中a为某一常数。
镜头按下列条件判断第i和第i+1帧是否为边界:
其中,N为滑动窗口的宽度。如果|FFD(i)|是滑动窗口中的最大值,并且大于滑动窗口中第二大值的a倍,则认为第i帧和第i+1帧之间存在镜头切变。
所述的利用支持向量机对视频帧序列的帧间差向量进行分类,识别属于渐变过程的视频帧序列步骤包括:
(1)确定特征向量
一个长度为l(l≥2)帧的视频序列对应一个长度为l-1的帧间差向量序列。通过对侯选序列对应的帧间差向量序列作线性插值或等间隔删除,把对应的帧间差向量序列宽展或压缩到一个固定长度。用帧间差向量的序列定义侯选序列的特征向量,并把该向量作为SVM输入空间的输入向量:
x = 1 Max i , j ( | f i , j | ) [ f 1,1 , f 1,2 , . . . , f 1 , m + n , f , 2,1 , f 2,2 , . . . , f l , 1 , f l , 2 , . . . , f l , n + m ] T - - - 8
其中,l为侯选序列经宽展或压缩后的帧数,即序列长度,m,n分别为水平和垂直方向上投影分量的个数,fi,j为侯选序列对应的帧间差向量序列中第i个向量的第j个分量
(2)采用训练样本确定支持向量集。
确定了问题的特征向量以后,用已知类型的侯选序列的特征向量作为训练样本就可以求取SVM的支持向量集,再根据支持向量集构造支持向量机。
(3)构建下述支持向量机,用来对候选帧序列分类
f ( x ) = sgn [ Σ x ∈ SV α i y i K ( x x , x ) + b ] - - - 9
其中,K为RBF核函数,阈值b可通过任一标准支持向量求得。
本发明与现有技术相比具有的有益的效果是:
(1)提出了一种以差分和积分投影函数为基础的混合投影函数作为视频帧图像的空间特征,与以往的基于像素或轮廓的特征提取方法相比,降低了特征提取的时间复杂度和特征维度,并能有效地减少视频中常见的随机噪声对镜头边界检测的影响。
(2)提出了一种利用视频帧特征向量计算视频帧间距离定义视频帧序列的特征向量的定义方法,通过对视频帧序列的特征向量的从粗到精的多重分析,快速确定候选帧序列和切变镜头边界,解决了检测精度和检测速度之间的矛盾。
(3)通过采用支持向量机的方法在候选的帧序列进行分类方法检测镜头的渐变边界,避免了采用阈值方法容易漏检渐变镜头弱点,也避免了像模型法只针对指定模型的检测限制。
附图说明
图1是本发明算法的基本步骤示意图;
图2(a)是步骤2中帧图像的混合投影函数,其中视频帧图像,宽和高分别为360和288;
图2(b)是图2(a)中的图像的水平混合投影函数,X方向为垂直方向上的位置,Y方向为对应图像位置在水平方向上的投影值;
图2(c)是图2(a)中的图像的垂直混合投影函数,X方向为水平方向上的位置,Y方向为对应图像位置在垂直方向上的投影值;
图3步骤4中帧间差变化曲线,第0-80帧和第400-450帧之间较大的帧间差是镜头内场景变化引起的;第305帧和550帧附近则是2个镜头切变;第210和第500帧附近对应2个镜头渐变;
图4是图3中第491-512帧对应的镜头渐变序列,等间隔取其中的10帧;。
图5是采用本发明方法的一个实现;。
图6是图5方法中DirectShow的Graphic中Filter链路。
具体实施方式
具体实施的技术方案及步骤如下:
1.计算视频帧图像的差分投影函数和积分投影函数
一幅二维图像可以由两个正交的一维投影函数来分析,维数的降低便于分析图像的特征,并且减少了计算量,本发明采用以投影函数有积分投影函数(Integral Projection Function,IPF)和方差投影函数(Variance Projection Function,VPF)为基础的混合投影函数计算视频帧图像的特征。
假设I(x,y)为图像在点(x,y)的灰度或颜色分量值,那么在区间[x1,x2]上的水平方向的平均积分投影函数Mh(y)和在区间[y1,y2]上的垂直方向的平均积分投影函数Mv(x)分别为:
M h ( y ) = 1 x 2 - x 1 ∫ x 1 x 2 I ( x , y ) dx - - - 1
M v ( x ) = 1 y 2 - y 1 ∫ y 1 y 2 I ( x , y ) dy - - - 2
水平(垂直)积分投影函数是处在某一相同水平(垂直)位置上的所有象素的灰度或颜色分量值的积分和。当图像的某一行的灰度均值发生变化时,这种变化会在水平投影积分函数值上反映出来,同样当图像的某一列灰度发生变化时,这种变化也会从垂直投影函数值上反映出来,通过积分投影函数值可以提取图像中的特征。由于积分投影函数没有考虑在投影方向上图像灰度的变化情况,无法区分投影方向上灰度均值相同的两幅图像。为了反映图像灰度的变化,考虑用差分代替均值,这就是方差投影函数。
假设I(x,y)为图像在点(x,y)的灰度或颜色分量值,那么在区间[x1,x2]上的水平方向的差分投影函数σh和在区间[y1,y2]上的垂直方向的差分投影函数σv分别定义为:
σ h ( y ) = 1 x 2 - x 1 ∫ x 1 x 2 [ I ( x , y ) - M h ( y ) ] 2 dx - - - 3
σ v ( x ) = 1 y 2 - y 1 ∫ y 1 y 2 [ I ( x , y ) - M v ( x ) ] 2 dy - - - 4
其中的Mh(y)和Mv(x)就是式1和2定义的水平和垂直方向上的平均积分投影函数。当图像某一列(行)象素灰度的方差发生变化时,这种变化会在方差投影值上反应出来。VPF对随机噪声并不敏感,可以利用VPF作为图像特征对图像进行分析。
2.视频帧图像的特征提取
图像积分投影函数值和方差投影函数值作为图像特征有各自的优点和局限,积分投影函数无法区分两幅在投影方向上积分和相同的图像,差分投影特征无法区分两幅在投影方向上的方差相同的图像,但从各自的定义不难发现它们之间具有很强的互补性。本发明通过分别对积分投影函数和差分投影函数进行适当的处理以后,用它们的组合来定义混合投影函数,利用混合投影函数值作为图像特征。在水平方向和垂直方向上的混合投影函数定义为:
H v ( x ) = 1 2 σ ′ v ( x ) + 1 2 M ′ v ( x ) - - - 5
H h = 1 2 σ h ′ ( y ) + 1 2 M ′ h ( y ) - - - 6
其中σ′v(x),σ′h(x),M′v(x),M′h(x)分别是σv(x),σh(x),Mv(x),Mh(x)规范化到区间[0,1]的结果:
σ v ′ = σ v ( x ) - min ( σ v ( x ) ) max ( σ v ( x ) ) - min ( σ v ( x ) ) - - - 7
σ h ′ = σ h ( x ) - min ( σ h ( x ) ) max ( σ h ( x ) ) - min ( σ h ( x ) ) - - - 8
M v ′ ( x ) = M v ( x ) - min ( M v ( x ) ) max ( M v ( x ) ) - min ( M v ( x ) ) - - - 9
M h ′ ( x ) = M h ( x ) - min ( M h ( x ) ) max ( M h ( x ) ) - min ( M h ( x ) ) - - - 10
混合投影函数对随机噪声不敏感。设X为随机变量,其期望与方差分别为E(X)和σ(x)。η为独立的随机噪声,满足正态分布N(0,σ(η)),则:
1 2 σ ( X + η ) + 1 2 E ( X + η ) = 1 2 ( E ( X + η - E ( X + η ) ) 2 + E ( X ) )
= 1 2 ( E ( X - E ( X ) ) 2 + E ( η 2 ) + E ( X ) ) - - - 11
= 1 2 ( σ ( X ) + E ( X ) + σ ( η ) )
一般情况下,σ(η)<<σ(X),所以,
Figure G2009101541206D00000610
因此,混合投影函数对随机噪声并不敏感,基于混合投影函数帧特征能有效低克服视频中常见的随机噪声的影响。
3.视频帧特征及帧间距离计算
视频帧是组成视频的基本单位,定义和获得单帧图像的特征是进一步视频分析的基础。
本发明结合基于像素和直方图方法的优点,提出了基于混合投影函数的帧特征表示方法。
除了视频镜头的边界附近,相邻的视频帧之间具有很大的相似性,考虑到同一镜头内帧间变化的主要是由摄象机的移动、镜头的推拉(Zoom in/out)和场景、目标物体的移动等引起的象素位置移动。为了降低对这种移动的敏感度,同时也降低特征维数,本文以多个行/列为单位计算积分投影函数值和差分函数值,这样离散的水平积分投影函数MH和垂直积分投影函数MV的表达式分别为:
MH i = 1 w * λ Σ j = 0 λ - 1 Σ k = 0 w - 1 I ( k , i * λ + j ) ( i = 1,2 , . . . . . . , m - 1 ) - - - 12
MV i = 1 h * η Σ j = 0 μ - 1 Σ k = 0 h - 1 I ( i * η + j , k ) ( i = 1,2 , . . . . . . , n - 1 ) - - - 13
相似地,离散的水平差分投影函数和垂直差分投影函数表达式为:
MH i = 1 w * λ Σ j = 0 λ - 1 Σ k = 0 w - 1 [ I ( k , i * λ + j ) MH i ] 2 ( i = 1,2 , . . . . . . , m - 1 ) - - - 14
DV i = 1 h * η Σ j = 0 μ - 1 Σ k = 0 h - 1 [ I ( i * η + j , k ) - MV i ] 2 ( i = 1,2 , . . . . . . , n - 1 ) - - - 15
这里,w和h分别为视频中帧的宽度和高度,λ和η分别为合并的行数和列数,
Figure G2009101541206D0000075
Figure G2009101541206D0000076
由于在计算投影函数时把图像分成了水平和竖直方向上的条带,对于视频中由于摄象机的移动、镜头的推拉和场景、目标物体的移动等引起的象素位置移动带来的影响的敏感度也很低。因此,式14和15表示的图像特征在数字视频的分析中特别适合镜头的边界检测、关键帧分析等场合。
利用式12、13、14和15得到的函数值可以计算视频帧在水平方向和垂直方向上的混合投影函数值。按X方向排列垂直方向投影函数值和按Y方向排列的水平方向的投影函数值可以构成一个m+n维的向量,并由此组成视频帧的特征向量v:
V=[DH0,DH1,...,DHm-1,DV0,DV1,...,DVn-1]T    16
取第i和第i+1帧之间的帧间差为帧间距离向量:
FFD(i)=V(i+1)-V(i)                                 17
其中,v(i)和v(i+1)为第i帧和第i+1的特征向量。
显然,FFD(i)也是一个m+n维的向量,其向量长度|FFD|代表了第i帧和i+1帧的特征向量在对应的向量空间中的欧氏距离,可以粗略地反映出帧间差异。在渐变镜头检测的初期,利用|FFD|的值可以首先排除大多数的镜头内帧,从而提高检测速度。
镜头的渐变是从一个镜头向另一个镜头过渡,在镜头渐变过程中,相邻帧有相对较大的帧间距离,在大多数情况下,这个帧间距离要大于镜头内的相邻帧之间的帧间距离,但是由于摄象机的移动、镜头的推拉和被摄物体的运动等等原因,镜头内的相邻帧之间也有可能具有较大的帧间差(称这类镜头内帧序列为镜头内复杂运动)。为了减小单个帧间差变化的偶然性,首先对帧间距离进行平滑处理;再利用阈值法排除帧间差较小的镜头内视频序列和镜头切变引起的帧间差变化,筛选出帧间差较大的视频序列作为候选序列,这些候选序列包含镜头渐变和镜头内复杂运动。只要这个阈值足够小,候选序列中总能保留所有的镜头渐变过程。镜头渐变的检测就成了渐变过程和镜头内复杂运动的二分类问题。
4.镜头切变边界检测
两个镜头间的切变是将两个镜头直接连接在一起得到的,中间没有使用任何视频编辑特效。两个不同镜头中的帧图像是存在视觉差异的,于是镜头切变就对应为前一镜头的最后一帧图像与相邻镜头的第一帧图像之间视觉内容的突然变化。对镜头切变的检测一般选用一种特征量来表征视频中帧图像的视觉内容,再用这一特征量的变化来衡量视觉内容的变化,从而将视觉上的镜头切变转化为数学量上的变化。基本步骤就是提取特征,计算相邻两帧的特征值的差值,将该差值与某个特定的阈值(可能是自适应的阈值也可能是全局阈值)进行比较,若大于该阈值,则认为此相邻两帧分别属于不同的镜头,即检测到了镜头边界,否则认为此相邻两帧属于同一个镜头。
依照上述思路,本文提出了一种镜头切变边界的检测方法,该方法中选取基于投影函数的特征,用视频帧间差向量的欧氏距离|FFD|作为帧间距离,利用帧间距离与一自适应阈值的比较来判定镜头切变的存在。下面详细介绍了该方法。
将帧间差向量的长度作为帧间距离,可按下式计算:
FFD ( i ) | = | V ( i + 1 ) - V ( i ) | = Σ k = 0 k = m - 1 ( DH i + 1 , k - DH i , k ) 2 + Σ k = 0 k = n - 1 ( DV i + 1 , k - DV i , k ) 2 - - - 18
其中,DHi,j是视频中第i个帧的第j个水平投影函数,DVi,j是视频的第i帧的第j个垂直投影函数值。
判断第i与i+1帧之间是否为边界的自适应阈值T(i)按如下方式确定:在视频帧序列中取第i帧为中心的一个滑动窗口,找出窗口范围内次大的相邻帧的帧间距离Dsec-max,取自适应阈值T(i)=a×Dsec-max,其中a为某一常数,可根据视频类型的实际情况确定。
镜头按下列条件判断第i和第i+1帧是否为边界:
Figure G2009101541206D0000082
其中,N为滑动窗口的宽度。如果|FFD(i)|是滑动窗口中的最大值,并且大于滑动窗口中第二大值的a倍,则认为第i帧和第i+1帧之间存在镜头切变。该方法使用了镜头切变在时间轴上形成的模式信息,a相当于镜头切变形成的帧间差曲线的形状参数。
5.镜头渐变边界检测
镜头渐变过程长度一般在几帧到几十帧之间,一个长度为l(l≥2)帧的视频序列对应一个长度为l-1的帧间差向量序列。通过对侯选序列对应的帧间差向量序列作线性插值或等间隔删除,把对应的帧间差向量序列宽展或压缩到一个固定长度。利用帧间差向量的序列定义侯选序列的特征向量,并把该向量作为SVM输入空间的输入向量:
x = 1 Max i , j ( | f i , j | ) [ f 1,1 , f 1,2 , . . . , f 1 , m + n , f , 2,1 , f 2,2 , . . . , f l , 1 , f l , 2 , . . . , f l , n + m ] T - - - 20
其中,l为侯选序列经宽展或压缩后的帧数,即序列长度,m,n分别为水平和垂直方向上投影分量的个数,fi,j为侯选序列对应的帧间差向量序列中第i个向量的第j个分量,特征向量的维数为(m+n)×l。因此,特征向量维数由下面三个因素确定:
1.视频图像的大小。
2.在计算方差投影函数时被合并的行和列数,即式3和式4中的λ和η;
3.宽展或压缩后的候选序列长度l。
确定了问题的特征向量以后,用已知类型的侯选序列的特征向量作为训练样本就可以求取SVM的支持向量集,再根据支持向量集构造支持向量机,这是一个不等式约束下的凸二次优化问题:
max W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l y i y j α i α j K ( x i , x j ) - - - 21
满足约束条件:
0≤αi≤C    i=1,...,1
Σ i = 1 l α i y i = 0 - - - 22
其中,αi是帧间差向量对应的Lagrange乘子,K是输入空间到特征空间的映射函数,满足Mercer条件,取RBF核函数;l为候选序列数,即训练样本数目;xi为输入向量;C为大于0的常数;y∈{-1,1},由下式决定:
Figure G2009101541206D0000101
求解上述优化问题可以得到唯一解,其中,对应αi>0的样本为支持向量(SV,Support Machine),0<αi<C对应的样本为标准支持向量(NSV,Normal SupportVector)。这样就可以构建下述支持向量机,用来对候选帧序列分类:
f ( x ) = sgn [ Σ x ∈ SV α i y i K ( x x , x ) + b ] - - - 24
其中,K为RBF核函数,阈值b可通过任一标准支持向量求得:
b = y i - Σ x j ∈ SV α j y j K ( x j , x i ) x i ∈ NSV - - - 25
本发明的视频边界检测方法,利用差分和积分投影函数在图像特征提取上的互补性,采用视频帧的差分和积分投影函数的组合特征代替传统的基于像素或轮廓的特征,提高特征提取速度并有效地克服了随机噪声带来的影响;然后采用移动窗口法确定可能的镜头边界,并用自适应阈值和支持向量机对候选帧序列进行分类,分别检测切变和渐变镜头边界。该方法提高了边界检测的精度和速度,并有效地克服了视频中随机噪声带来的影响。

Claims (5)

1.一种基于混合投影函数和支持向量机的视频镜头边界检测方法,其特征在于包括如下步骤:
(1)视频帧图像数据在垂直方和水平方向上计算差分和积分投影函数;
(2)视频帧的投影函数值作为该视频帧的特征向量,视频帧间差为2个视频帧的特征向量在其向量空间中的距离;
(3)利用滑动窗口,计算在窗口内的所有相邻视频帧的帧间差,利用自适应的阈值判断镜头切变边界;
(4)在一个视频帧序列中,相邻视频帧的帧间差组成的向量为视频帧序列的特征向量,根据相邻视频帧的帧间差选取候选视频帧序列,通过视频帧序列等间隔删除或插值,使所有的视频帧序列的特征向量长度相同,长度值可预先指定,一般取30-50;
(5)利用支持向量机对视频帧序列的帧间差向量进行分类,识别属于渐变过程的视频帧序列。
2.根据权利要求1所述的一种基于混合投影函数和支持向量机的视频镜头边界检测方法,其特征在于所述的视频帧图像数据在垂直方和水平方向上求取差分和积分投影函数,步骤包括:
以多个行(列)为单位计算积分投影函数值和差分函数值,离散的水平积分投影函数MH和垂直积分投影函数MV的表达式分别为:
MH i = 1 w * λ Σ j = 0 λ - 1 Σ k = 0 w - 1 I ( k , i * λ + j ) (i=1,2,......,m-1)      1
MV i = 1 h * η Σ j = 0 μ - 1 Σ k = 0 h - 1 I ( i * η + j , k ) (i=1,2,......,n-1)      2
离散的水平差分投影函数和垂直差分投影函数表达式为:
DH i = 1 w * λ Σ j = 0 λ - 1 Σ k = 0 w - 1 [ I ( k , i * λ + j ) - MH i ] 2 (i=1,2,......,m-1)      3
DV i = 1 h * η Σ j = 0 μ - 1 Σ k = 0 h - 1 [ I ( i * η + j , k ) - MV i ] 2 (i=1,2,......,n-1)      4
其中,w和h分别为视频中帧的宽度和高度,λ和η分别为合并的行数和列数,
Figure F2009101541206C0000015
Figure F2009101541206C0000016
3.根据权利要求1所述的一种基于混合投影函数和支持向量机的视频镜头边界检测方法,其特征在于所述的视频帧的投影函数值作为该视频帧的特征向量,视频帧间差为2个视频帧的特征向量在其向量空间中的距离,步骤包括:
(1)将帧间差向量FFD的长度作为帧间距离,计算公式为:
| FFD ( i ) | = | V ( i + 1 ) - V ( i ) | = Σ k = 0 k = m - 1 ( DH i + 1 , k - DH i , k ) 2 + Σ k = 0 k = n - 1 ( DV i + 1 , k - DV i , k ) 2 - - - 5
其中,DHi,j是视频中第i个帧的第j个水平投影函数,DVi,j是视频的第i帧的第j个垂直投影函数值。
(2)视频帧序列的特征向量的构成:为帧序列中相邻帧间差作为特征向量的第i个分量,特征向量可以表示为:
SV=[V2-V1,V3-V2,...Vn-Vn-1]T     6
Vi为序列中的第i视频帧的特征向量。
4.根据权利要求1所述的一种基于混合投影函数和支持向量机的视频镜头边界检测方法,其特征在于所述的利用滑动窗口,计算在窗口内的相邻视频帧的帧间差,利用自适应的阈值判断镜头切变边界步骤包括:
判断第i与i+1帧之间是否为边界的自适应阈值T(i)确定方法为:在视频帧序列中取第i帧为中心的一个滑动窗口,求取窗口范围内次大的相邻帧的帧间距离Dsec-max,取自适应阈值T(i)=a×Dsec-max,其中a为某一常数,取值在0.1~1.0之间。
镜头按下列条件判断第i和第i+1帧是否为边界:
Figure F2009101541206C0000022
其中,N为滑动窗口的宽度。如果|FFD(i)|是滑动窗口中的最大值,并且大于滑动窗口中第二大值的a倍,则认为第i帧和第i+1帧之间存在镜头切变。
5.根据权利要求1所述的一种基于混合投影函数和支持向量机的视频镜头边界检测方法,,其特征在于所述的利用支持向量机对视频帧序列的帧间差向量进行分类,识别属于渐变过程的视频帧序列步骤包括:
(1)确定特征向量
一个长度为l(l≥2)帧的视频序列对应一个长度为l-1的帧间差向量序列。通过对侯选序列对应的帧间差向量序列作线性插值或等间隔删除,把对应的帧间差向量序列宽展或压缩到一个固定长度。用帧间差向量的序列定义侯选序列的特征向量,并把该向量作为SVM输入空间的输入向量:
x = 1 Max i , j ( | f i , j | ) [ f 1,1 , f 1,2 , . . . , f 1 , m + n , f , 2,1 , f 2,2 , . . . , f l , 1 , f l , 2 , . . . , f l , n + m ] T - - - 8
其中,l为侯选序列经宽展或压缩后的帧数,即序列长度,m,n分别为水平和垂直方向上投影分量的个数,fi,j为侯选序列对应的帧间差向量序列中第i个向量的第j个分量
(2)采用训练样本确定支持向量集。
确定了问题的特征向量以后,用已知类型的侯选序列的特征向量作为训练样本就可以求取SVM的支持向量集,再根据支持向量集构造支持向量机。
(3)构建下述支持向量机,用来对候选帧序列分类
f ( x ) = sgn [ Σ x ∈ SV α i y i K ( x x , x ) + b ] - - - 9
其中,K为RBF核函数,阈值b可通过任一标准支持向量求得。
CN200910154120A 2009-11-05 2009-11-05 基于混合投影函数和支持向量机的视频镜头边界检查方法 Pending CN101719271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910154120A CN101719271A (zh) 2009-11-05 2009-11-05 基于混合投影函数和支持向量机的视频镜头边界检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910154120A CN101719271A (zh) 2009-11-05 2009-11-05 基于混合投影函数和支持向量机的视频镜头边界检查方法

Publications (1)

Publication Number Publication Date
CN101719271A true CN101719271A (zh) 2010-06-02

Family

ID=42433841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910154120A Pending CN101719271A (zh) 2009-11-05 2009-11-05 基于混合投影函数和支持向量机的视频镜头边界检查方法

Country Status (1)

Country Link
CN (1) CN101719271A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129681A (zh) * 2011-02-28 2011-07-20 太原理工大学 一种镜头边界检测方法
CN102831399A (zh) * 2012-07-30 2012-12-19 华为技术有限公司 确定眼睛状态的方法和装置
CN103310451A (zh) * 2013-06-17 2013-09-18 中国传媒大学 基于渐进二分和自适应阈值的视频镜头边界检测方法
CN104866825A (zh) * 2015-05-17 2015-08-26 华南理工大学 一种基于Hu矩的手语视频帧序列分类方法
CN104978731A (zh) * 2014-04-10 2015-10-14 联想(北京)有限公司 一种信息处理方法及电子设备
CN109917974A (zh) * 2019-03-20 2019-06-21 安徽慧视金瞳科技有限公司 一种交互式投影***非线性点坐标映射方法
CN113112519A (zh) * 2021-04-23 2021-07-13 电子科技大学 基于感兴趣目标分布的关键帧筛选方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129681A (zh) * 2011-02-28 2011-07-20 太原理工大学 一种镜头边界检测方法
CN102129681B (zh) * 2011-02-28 2013-05-29 太原理工大学 一种镜头边界检测方法
CN102831399A (zh) * 2012-07-30 2012-12-19 华为技术有限公司 确定眼睛状态的方法和装置
CN103310451A (zh) * 2013-06-17 2013-09-18 中国传媒大学 基于渐进二分和自适应阈值的视频镜头边界检测方法
CN103310451B (zh) * 2013-06-17 2016-12-28 中国传媒大学 基于渐进二分和自适应阈值的视频镜头边界检测方法
CN104978731A (zh) * 2014-04-10 2015-10-14 联想(北京)有限公司 一种信息处理方法及电子设备
CN104866825A (zh) * 2015-05-17 2015-08-26 华南理工大学 一种基于Hu矩的手语视频帧序列分类方法
CN104866825B (zh) * 2015-05-17 2019-01-29 华南理工大学 一种基于Hu矩的手语视频帧序列分类方法
CN109917974A (zh) * 2019-03-20 2019-06-21 安徽慧视金瞳科技有限公司 一种交互式投影***非线性点坐标映射方法
CN109917974B (zh) * 2019-03-20 2022-03-22 安徽慧视金瞳科技有限公司 一种交互式投影***非线性点坐标映射方法
CN113112519A (zh) * 2021-04-23 2021-07-13 电子科技大学 基于感兴趣目标分布的关键帧筛选方法

Similar Documents

Publication Publication Date Title
CN110400332B (zh) 一种目标检测跟踪方法、装置及计算机设备
CN111008562B (zh) 一种特征图深度融合的人车目标检测方法
CN109033950B (zh) 基于多特征融合级联深度模型的车辆违停检测方法
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN101719271A (zh) 基于混合投影函数和支持向量机的视频镜头边界检查方法
CN102800095B (zh) 一种镜头边界检测方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN102176208B (zh) 基于三维空时特征的鲁棒视频指纹方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN102592147A (zh) 一种人脸检测的方法和装置
CN107944354B (zh) 一种基于深度学习的车辆检测方法
CN104036284A (zh) 基于Adaboost算法的多尺度行人检测方法
CN102915544A (zh) 基于纹理检测和颜色分割的视频图像运动目标提取方法
Liang et al. A video shot boundary detection approach based on CNN feature
WO2017166597A1 (zh) 一种卡通视频识别方法、装置和电子设备
CN102495887B (zh) 一种基于关键区域色彩矩阵的视频镜头分割方法及其应用方法
CN110969164A (zh) 基于深度学习端对端的低照度成像车牌识别方法及装置
CN111597875A (zh) 一种交通标志识别方法、装置、设备及存储介质
CN107452212B (zh) 路口信号灯控制方法及其***
CN111488839B (zh) 一种目标检测方法和目标检测***
CN113408550A (zh) 基于图像处理的智能称重管理***
CN106951831B (zh) 一种基于深度摄像机的行人检测跟踪方法
CN115546610A (zh) 基于多机制注意力协同融合对比的红外小目标检测方法
CN113298027B (zh) 一种火焰检测方法、装置、电子设备和存储介质
Zhu et al. RHA-Net: An Encoder-Decoder Network with Residual Blocks and Hybrid Attention Mechanisms for Pavement Crack Segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100602