CN105005772A

CN105005772A - 一种视频场景检测方法

Info

Publication number: CN105005772A
Application number: CN201510427821.8A
Authority: CN
Inventors: 童云海; 杨亚鸣; 丁宇辰; 郜渊源; 蒋云飞
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-07-20
Filing date: 2015-07-20
Publication date: 2015-10-28
Anticipated expiration: 2035-07-20
Also published as: CN105005772B

Abstract

本发明公布了一种视频场景检测方法，该方法通过计算机代替人工对视频数据进行检测，识别出视频中的场景；检测方法包括离线训练判别模型过程和视频场景检测过程。离线训练判别模型过程，针对训练视频样本集中每个视频抽取特征，包括语义和时空特征抽取；对特征向量进行类别标注，得到了一组样本集；利用多核学习框架对样本集进行迭代训练，得到离线训练模型；视频场景检测过程接入监控视频源；进行视频采样得到一个短视频；对短视频抽取特征；载入离线训练模型对特征进行检测，得到检测结果。本发明通过计算机代替人工识别视频中的场景，可提高检测效率，降低成本，对数据存储和检索也提供便利。

Description

一种视频场景检测方法

技术领域

本发明涉及视频信息分析技术，尤其涉及一种视频场景检测方法。

背景技术

当前，视频监控***日渐普及，其在维护社会治安、破获犯罪案件等方面发挥着不可替代的作用。在视频监控领域，识别异常场景十分重要，比如准确检测聚众斗殴等妨害公共安全的行为、检测小商小贩的违规经营等异常场景在社会管理、城市管理领域意义重大。

视频监控***包括前端摄像机、传输设备和视频监控平台。摄像机采集前端视频图像信号，通过传输设备压后发送给监控平台，平台将完成对数据的存储、异常事件检测等工作。监控视频往往具有数据量大、信息冗余多的特点，如果安排人工对这些视频进行监控、处理，不仅耗时耗力，准确率也无法得到保证。

随着计算机视觉技术的发展，计算机可以识别图像中的人、动物、车等对象，并逐步代替人做一些简单的工作。然而，现有技术对场景的识别针对的对象主要是静态图片。相比静态图片，视频具有时间维度，且包含背景的变化信息和目标物体的运动信息，因此处理起来更为复杂。目前，大多通过人工方法对视频数据进行监控、处理和发现其中的异常场景，耗时耗力，成本高，效率低，且准确率无法得到保证，也难以高效地实现对视频处理分析结果数据的存储和日后的检索再利用。

发明内容

为了克服上述现有技术的不足，本发明提供一种视频中场景的检测方法，用计算机代替人工对视频数据进行检测，发现其中的异常场景，可大大提高检测效率，降低成本，对数据存储和日后的检索也提供了便利。

本发明提供的技术方案是：

一种视频场景检测方法，该方法通过计算机代替人工对视频数据进行检测，识别出视频中的场景；检测方法包括离线训练判别模型过程和视频场景检测过程：

1)离线训练判别模型过程，执行如下操作：

11)准备训练视频样本集；

12)针对训练视频样本集中每个视频抽取特征，特征为向量形式，包括语义特征抽取和时空特征抽取；

13)对特征向量进行类别标注，得到了一组样本集，每个样本包含语义特征向量和时空特征向量，并对应一个类别标注；

14)利用多核学习框架对步骤13)所述样本集进行迭代训练，得到一个离线训练模型；

2)视频场景检测过程，执行如下操作：

21)接入要检测的监控视频源；

22)设置采样方式进行视频采样，得到一个短视频；此短视频为检测目标；

23)对步骤22)所述短视频抽取特征，包括语义特征向量和时空特征向量，抽取方法与训练过程中步骤12)相同；

24)利用多核学习框架载入离线训练模型，对特征进行检测判别，判定是否为指定场景，得到检测结果。

针对上述视频场景检测方法，进一步地，步骤11)所述训练视频样本包括两类样本，一类为包含小商小贩经营场景的视频集，另一类为不包含小商小贩经营场景的视频集。

步骤12)针对训练视频样本集中每个视频抽取特征，包括语义特征抽取过程和时空特征抽取过程。

其中，语义特征抽取过程具体包括如下步骤：

121a)对每个视频，通过关键帧提取方法计算每帧图片的得分，选取得分最高的m

帧图片作为关键帧，得分计算公式如下：

s c o r e (f_{k}) = α * \frac{Sdi f f (f_{k}) - M i n_S d i f f}{M a x_S d i f f - M i n_S d i f f} + β * \frac{M o V a l u e (f_{k}) - M i n_M o V a l u e}{M a x_M o V a l u e - M i n_M o V a l u e}

(式1)

Sdiff(f_k)＝∑_i,j|I_k(i,j)-I_k-1(i,j)| (式2)

M o V a l u e (f_{k}) = Σ_{i = 1}^{N_{k}} ({(v_{k}^{x} (i))}^{2} + {(v_{k}^{y} (i))}^{2})

(式3)

式1～式3中，f_k表示视频序列中第k帧图片；score(f_k)表示第k帧图片的得分；Sdiff(f_k)表示该帧与前一帧的差异量；α、β分别为权重；Max_Sdiff和Min_Sdiff分别为相邻两帧间的最大差值和最小差值；和分别表示第k帧图片中像素i光流的水平方向的变化量和垂直方向的变化量；N_k表示第k帧像素个数；MoValue(f_k)表示第k帧的光流强度；Max_MoValue表示所有帧中最大光流强度；Min_MoValue表示所有帧中最小光流强度；

121b)对选取的m帧图片，针对每帧图片，用达特茅斯Classeme特征提取方法提取图片语义特征，得到该帧图片的语义特征向量；

121c)将提取m帧图片得到的m个实数特征向量进行拼接，得到一个m*2659维的向量，作为该视频的语义特征向量。

在本发明一实施例中，步骤121a)所述m帧图片为三帧图片。针对特征提取，时空语义特征抽取过程具体包括如下步骤：

122a)对每个训练视频，通过MoSIFT特征提取方法抽取得到MoSIFT特征；

122b)基于视频集中所有MoSIFT特征，生成视觉词典；

122c)利用上述视觉词典，对每个视频进行费舍尔向量编码，得到一个2*D*K维的费舍尔向量；

122d)对上述费舍尔向量实施主成分分析，得到一个低维向量，该低维向量为视频的时空特征向量。

上述步骤122b)具体采用混合高斯模型生成视觉词典。

针对上述视频场景检测方法，进一步地，步骤14)所述多核学习框架为Shogun工具包中的多核学习框架，采用线性加权的方式联合核函数，表示为式9：

K (x_{i}, x_{j}) = Σ_{k = 1}^{S} β_{k} K_{k} (x_{i}, x_{j})

(式9)

式9中，K_k(x_i,x_j)表示第k个核函数；β_k表示第k个核函数的权重；x_i,x_j分别表示视频样本i,j对应该核函数的特征；

选取两个多项式核作为核函数，分别对应的特征为语义特征和时空特征；多项式核的公式如式10：

K(x,x_i)＝((x·x_i)+1)^d (式10)

式10中，x,x_i分别表示输入空间的向量；d表示阶数；

多核学习的约束最优化问题表示为：

M i n \frac{1}{2} {(Σ_{k = 1}^{S} \frac{{| | w}_{k} {| |}_{2}}{β_{k}})}^{2} + C Σ_{i = 1}^{N} ξ_{i}

(式11)

式11中，N表示输入空间的向量个数；ξ_i表示向量i的松弛系数；S表示核函数的个数；w_k表示第k个核函数所对应的分界面到支持向量的宽度；C表示惩罚因子；在约束条件中，y_i为向量的类别(为1或-1)；为第k个核函数对应的高维空间映射函数；b为偏移量。

所述多核学习模型的求解具体通过拉格朗日变化方法，得到求解目标函数为：

\min_{β} \max_{α} J (α, β) = Σ_{i = 1}^{N} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{N} α_{i} α_{j} y_{i} y_{j} Σ_{k = 1}^{S} β_{k} K_{K} (x_{i}, x_{j})

\begin{matrix} s . t . & 0 \leq α_{i} \leq C, Σ_{i = 1}^{N} α_{i} y_{i} = 0 \end{matrix}

β &Element; Δ_{p}, Δ_{p} = {β &Element; R_{+}^{S} : | | β | |_{p} \leq 1}

(式12)

式12中，N表示输入空间的向量个数；x_i,x_j表示输入空间的向量；α_i,α_j为对应的权重，通过学习得到；y_i,y_j为对应的类别；S表示核函数的个数；β_k表示第k个核函数的权重，也通过学习得到；在约束条件中，C代表惩罚因子，p为归一化范数。

在本发明一实施例中，式10中所述多项式核的阶数d均为2。

步骤22)所述视频采样的方式包括隔时采样和隔帧采样；隔时采样具体是每隔t秒采样一次，一次采样10秒，构成一个短视频；隔帧采样具体是每隔k帧采样一次，采够240帧构成一个短视频；此短视频为检测目标。

与现有技术相比，本发明的有益效果是：

本发明提供一种视频中场景的检测方法，该方法通过计算机代替人工对视频数据进行检测，基于外部知识库提取视频语义特征，考虑背景与运动信息的关键帧提取算法，并通过多核学习的方法解决视频中场景检测问题，检测方法包括离线训练判别模型过程和视频场景检测过程，通过识别出视频中的场景，可发现其中的异常场景。本发明提供的技术方案可大大提高检测效率，降低成本，对数据存储和日后的检索也提供了便利。

附图说明

图1是本发明通过学习训练过程获得离线训练判别模型的流程框图。

图2是本发明提供的视频场景检测过程的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种视频场景检测方法，该方法通过计算机代替人工对视频数据进行检测，识别出视频中的场景；检测方法包括离线训练判别模型过程和视频场景检测过程：

1)离线训练判别模型过程，执行如下操作：

11)准备训练视频样本集；

2)视频场景检测过程，执行如下操作：

21)接入要检测的监控视频源；

本实施例利用监控视频，检测视频中是否有小商小贩经营场景。检测方法包括离线训练判别模型过程和视频场景检测过程。

1)离线训练判别模型过程：利用训练视频样本，离线训练判别模型

11)准备训练视频样本；

本实施例中，训练视频样本包括两类样本，一类为包含小商小贩经营场景的视频集，一类为不包含小商小贩经营场景的视频集；

12)针对训练视频样本中每个视频抽取特征，包括语义特征抽取和时空特征抽取；

用于表征该视频的特征包括语义特征和时空特征；特征为向量形式；针对每个视频抽取特征得到两个特征向量，其中一个为语义特征向量，用于表征语义特征；另一个为时空特征向量(时空维)，用于表征时空特征。

121)抽取语义特征的过程具体包括：

121a)对每个视频，利用关键帧提取方法计算每帧图片的得分，选取得分最高的m帧图片作为关键帧，得分计算公式如下：

s c o r e (f_{k}) = α * \frac{s d i f f (f_{k}) - M i n_S d i f f}{M a x_S d i f f - M i n_S d i f f} + β * \frac{M o V a l u e (f_{k}) - M i n_M o V a l u e}{M a x_M o V a l u e - M i n_M o V a l u e}

(式1)

Sdiff(f_k)＝∑_i,j|I_k(i,j)-I_k-1(i，j)| (式2)

M o V a l u e (f_{k}) = Σ_{i = 1}^{N_{k}} ({(v_{k}^{x} (i))}^{2} + {(v_{k}^{y} (i))}^{2})

(式3)

式1～式3中，f_k表示视频序列中第k帧图片；score(f_k)表示第k帧图片的得分；Sdiff(f_k)表示该帧与前一帧的差异量(两帧之间像素值的差值，对于RGB彩色图像来说，差异量为R、G、B通道差值的均值)；α、β分别为权重；Max_Sdiff和Min_Sdiff分别为相邻两帧间的最大差值和最小差值；和分别表示第k帧图片中像素i光流的水平方向的变化量和垂直方向的变化量；N_k表示第k帧像素个数；MoValue(f_k)表示第k帧的光流强度；Max_MoValue表示所有帧中最大光流强度；Min_MoValue表示所有帧中最小光流强度。

上述关键帧提取方法通过综合考虑图片场景变化信息以及运动信息来选取得到关键帧。本实施例设定m＝3，即利用关键帧提取方法计算每帧图片的得分，选取得分最高的3帧图片作为关键帧。

Classeme特征提取方法是基于外部知识库的语义抽取工具，是一种表达图像属性的描述子，Classeme图像属性描述子(Classemes attribute descriptor)包含2659种图像属性(也就是说有2659维)，对应2659个概念；包括对象(如篮球、自行车)，人物(如足球运动员，男孩)，地点(如游泳池，室外)等。每帧图片会抽取出一个2659维的实数向量。

121c)将提取m帧图片得到的m个实数向量进行拼接，得到一个m*2659维的向量，作为该视频的语义特征向量；

122)抽取时空特征的过程具体包括：

122a)对每个训练视频，通过特征提取方法抽取得到MoSIFT特征；

训练视频包括了包含小商小贩经营场景的视频和不包含小商小贩经营场景的视频；本实施例采用的特征提取方法为MoSIFT特征提取方法；文献(M.-Y.Chen and A.Hauptmann,"Mosift:Recognizing human actions in surveillance videos,"CMU-CS-09-161.Carnegie MellonUniversity,2009.)记载了通过MoSIFT特征提取方法抽取得到MoSIFT特征的过程，MoSIFT特征是一种考虑了空间维和时间维的时空特征，生成的特征为256维，计为D；

对每个训练视频提取MoSIFT特征包括两个步骤，首先是兴趣点的检测，其次是构建对兴趣点的描述。

兴趣点的检测具体包括找出局部极值点作为候选兴趣点和确定候选兴趣点是否作为兴趣点：

构建多尺度高斯差分金字塔，找出局部极值点作为候选兴趣点，高斯差分的计算公式为：

D(x,y,kδ)＝L(x,y,kδ)-L(x,y,(k-1)δ) (式4)

式4中，x和y代表图像中的像素坐标；kδ表示金字塔第k层的高斯函数的标准差；L(x,y,kδ)表示金字塔第k层高斯函数与图像的卷积结果；L(x,y,(k-1)δ)表示金字塔第k-1层高斯函数与图像的卷积结果；D(x,y,kδ)为金字塔第k层的差分结果；

接着通过光流分析判断这些候选点是否存在足够的运动信息，即运动强度是否足够大，以决定是否作为兴趣点。

得到兴趣点后，MoSIFT特征提取方法通过将SIFT(Scale-invariant feature transform)描述与光流描述相结合得到一个256维的向量作为该兴趣点的描述；其中SIFT是经典的用于表征图像的特征，具有尺度不变性，用一个128的实数向量来描述图像中的兴趣点，光流的描述方式跟SIFT特征相似，两者组合起来就得到了一个256维的实数向量。

122b)基于视频集中所有MoSIFT特征，生成视觉词典；

本方法采用混合高斯模型来生成视觉词典，其中，用K来表示视觉词典的大小，混合高斯模型主要思想是假设MoSIFT特征点的分布符合K个高斯分布的线性叠加，本方法取K＝64，混合高斯模型的数学表示为：

P (y | θ) = Σ_{k = 1}^{K} α_{k} φ (y | θ_{k})

(式5)

式5中，P(y|θ)为MoSIFT特征的概率分布；α_k为每个高斯模型的权重；K表示视觉词典的大小；y表示MoSIFT特征向量；θ表示分布的参数；θ_k表示第k个高斯函数的参数。

122d)对上述费舍尔向量实施主成分分析，得到一个低维向量，该低维向量为视频的时空特征向量；

上述2*D*K维费舍尔向量为32768维费舍尔向量；主成分分析利用降维思想，将多个变量转化为少数几个综合变量，这几个综合变量即为主成分，这些主成分能够反映原始变量的绝大部分信息。在本方法中对费舍尔向量进行主成分分析的过程为：

费舍尔向量维数记为p；令x_i＝(x_i1,x_i2,…,x_ip)^T,i＝1,2,..,N，表示特征矩阵；x_ij表示第i个样本的第j维特征取值，对特征矩阵进行如下变换：

Z_{i j} = \frac{x_{i j} - \overset{&OverBar;}{x_{J}}}{s_{j}}, i = 1, 2, ..., N; j = 1, 2, ..., p

(式6)

其中，Z_ij为为标准化阵Z的第i行第j列取值；N为样本个数；

然后对Z求相关系数矩阵R：

R = \frac{Z^{T} Z}{N - 1}

(式7)

然后求解相关矩阵R的特征方程：

|R-λI_p|＝0 (式8)

式8中，R为相关系数矩阵；I_p为单位矩阵；λ为特征值；

求解式8得到p个特征根，本方法取主成分个数为M＝1168；最后将原始特征矩阵投影到M个主方向上，得到最终的时空特征。

13)对特征向量进行类别标注，得到了一组样本集，每个样本包含两个特征向量，并对应一个类别标注；

在本实施例中，对特征向量进行类别标注，具体是：包含小商小贩经营场景的视频标注为1，表示正例，对不包含小商小贩经营场景的视频标注为-1，表示为负例，这样就得到了一组样本集，每个样本包含两个特征向量，并对应一个类别标注；

14)利用多核学习框架对上述训练样本集进行迭代训练；

本发明采用Shogun工具包中的多核学习框架，用线性加权的方式联合核函数，具体公式如下：

K (x_{i}, x_{j}) = Σ_{k = 1}^{S} β_{k} K_{k} (x_{i}, x_{j})

(式9)

式9中，K_k(x_i,x_j)表示第k个核函数；β_k表示第k个核函数的权重；x_i,x_j分别表示视频样本i,j对应该核函数的特征；在本方法中一共选取两个多项式核作为核函数，一个核函数对应的特征为语义特征，另一个核函数对应的特征为时空特征；多项式核的公式如下，

K(x,x_i)＝((x·x_i)+1)^d (式10)

式10中，x,x_i分别表示输入空间的向量；d表示阶数，本方法中多项式核的阶数均为2。

多核学习的约束最优化问题可以表示为：

M i n \frac{1}{2} {(Σ_{k = 1}^{S} \frac{| | w_{k} | |_{2}}{β_{k}})}^{2} + C Σ_{i = 1}^{N} ξ_{i}

(式11)

与SVM类似，本方法采用的多核学习模型的求解也可以通过拉格朗日变化变成对其对偶问题的求解，多核学习的对偶优化问题的求解目标函数为：

\min_{β} \max_{α} J (α, β) = Σ_{i = 1}^{N} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{N} α_{i} α_{j} y_{i} y_{j} Σ_{k = 1}^{S} β_{k} K_{K} (x_{i}, x_{j})

\begin{matrix} s . t . & 0 \leq α_{i} \leq C, Σ_{i = 1}^{N} α_{i} y_{i} = 0 \end{matrix}

β &Element; Δ_{p}, Δ_{p} = {β &Element; R_{+}^{s} : | | β | |_{p} \leq 1}

(式12)

式12中，N表示输入空间的向量个数；x_i,x_j表示输入空间的向量；α_i,α_j为对应的权重，通过学习得到；y_i,y_j为对应的类别；S表示核函数的个数；β_k表示第k个核函数的权重，也通过学习得到；在约束条件中，C代表惩罚因子，p为归一化范数；本方法设定为p＝2，C＝8。

15)经过多核训练可以得到一个离线模型；

得到的离线模型就是通过训练得到的未知参数，主要包括支持向量样本及其权重、核函数及其对应的权重等参数的值；

2)视频场景检测过程

21)接入要检测的监控视频源；

采样方式包括隔时采样和隔帧采样；隔时采样具体是每隔t秒采样一次，一次采样10秒，构成一个短视频；隔帧采样具体是每隔k帧采样一次，采够240帧构成一个短视频；此短视频为检测目标。

23)对上述短视频抽取语义特征和时空特征，抽取方法流程跟训练过程相同；

24)利用多核学习框架，载入离线训练模块，对特征进行检测判别，判定是否为指定场景，得到检测结果；

判别函数为：

f (x) = s i g n (Σ_{i = 0}^{N} α_{i} y_{i} Σ_{k = 1}^{S} β_{k} K_{K} (x_{i}, x) + b)

(式13)

式13中，除参数x外，其他参数含义与上文公式相同；x表示对短视频提取出的语义特征和时空特征；通过计算得到判别函数f(x)为1则表示该视频片段包含指定场景，为-1则表示该视频片段不包括指定场景。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种视频场景检测方法，通过计算机代替人工对视频数据进行检测，识别出视频中的场景；检测方法包括离线训练判别模型过程和视频场景检测过程：

1)离线训练判别模型过程，执行如下操作：

11)准备训练视频样本集；

12)针对训练视频样本集中每个视频抽取特征，特征为向量形式，包括语义特征向量和时空特征向量；

2)视频场景检测过程，执行如下操作：

21)接入要检测的监控视频源；

2.如权利要求1所述视频场景检测方法，其特征是，步骤11)所述训练视频样本包括两类样本，一类为包含小商小贩经营场景的视频集，另一类为不包含小商小贩经营场景的视频集。

3.如权利要求1所述视频场景检测方法，其特征是，步骤12)针对训练视频样本集中每个视频抽取特征，包括抽取语义特征抽取过程和时空特征抽取过程。

4.如权利要求3所述视频场景检测方法，其特征是，语义特征抽取过程具体包括如下步骤：

121a)对每个视频，通过关键帧提取方法计算每帧图片的得分，选取得分最高的m帧图片作为关键帧，得分计算公式如下：

s c o r e (f_{k}) = α * \frac{S d i f f (f_{k}) - M i n_S d i f f}{M a x_S d i f f - M i n_S d i f f} + β * \frac{M o V a l u e (f_{k}) - M i n_M o V a l u e}{M a x_M o V a l u e - M i n_M o V a l u e}

(式1)

Sdiff(f_k)＝∑_i,j|I_k(i,j)-I_k-1(i,j)| (式2)

M o V a 1 u e (f_{k}) = Σ_{i = 1}^{N_{k}} ({(v_{k}^{x} (i))}^{2} + {(v_{k}^{y} (i))}^{2})

(式3)

5.如权利要求4所述视频场景检测方法，其特征是，步骤121a)所述m帧图片为三帧图片。

6.如权利要求3所述视频场景检测方法，其特征是，时空语义特征抽取过程具体包括如下步骤：

122b)基于视频集中所有MoSIFT特征，生成视觉词典；

7.如权利要求6所述视频场景检测方法，其特征是，步骤122b)采用混合高斯模型生成视觉词典。

8.如权利要求1所述视频场景检测方法，其特征是，步骤14)所述多核学习框架为Shogun工具包中的多核学习框架，采用线性加权的方式联合核函数，表示为式9：

K (x_{i}, x_{j}) = Σ_{k = 1}^{s} β_{k} K_{k} (x_{i}, x_{j})

(式9)

K(x,x_i)＝((x·x_i)+1)^d (式10)

式10中，x,x_i分别表示输入空间的向量；d表示阶数；

多核学习的约束最优化问题表示为：

M i n \frac{1}{2} {(Σ_{k = 1}^{S} \frac{| | w_{k} | |_{2}}{β_{k}})}^{2} + C Σ_{i = 1}^{N} ξ_{i}

(式11)

式11中，N表示输入空间的向量个数；ξ_i表示向量i的松弛系数；S表示核函数的个数；w_k表示第k个核函数所对应的分界面到支持向量的宽度；C表示惩罚因子；在约束条件中，y_i为向量i的类别(为1或-1)；为第k个核函数对应的高维空间映射函数；b为偏移量。

\underset{β}{m i n} \underset{α}{m a x} J (α, β) = Σ_{i = 1}^{N} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{N} α_{i} α_{j} y_{i} y_{j} Σ_{k = 1}^{S} β_{k} K_{K} (x_{i}, x_{j})

\begin{matrix} s . t . & 0 \leq α_{i} \leq C, Σ_{i = 1}^{N} α_{i} y_{i} = 0 \end{matrix}

β &Element; Δ_{p}, Δ_{p} = {β &Element; R_{+}^{s} : | | β | |_{p} \leq 1}

(式12)

式12中，N表示输入空间的向量个数；x_i,x_j表示输入空间的向量；α_i,α_j为对应的权重，通过学习得到；y_i,y_j为对应的类别；S表示核函数的个数；β_k表示第k个核函数的权重，也通过学习得到；在约束条件中，C代表惩罚因子；p为归一化范数。

9.如权利要求7所述视频场景检测方法，其特征是，式10中所述多项式核的阶数d均为2。

10.如权利要求1所述视频场景检测方法，其特征是，步骤22)所述视频采样的方式包括隔时采样和隔帧采样；隔时采样具体是每隔t秒采样一次，一次采样10秒，构成一个短视频；隔帧采样具体是每隔k帧采样一次，采够240帧构成一个短视频；所述短视频作为检测目标。