CN113112519A

CN113112519A - 基于感兴趣目标分布的关键帧筛选方法

Info

Publication number: CN113112519A
Application number: CN202110439224.2A
Authority: CN
Inventors: 傅志中; 蒲博建; 徐进; 周宁; 李宁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-13
Anticipated expiration: 2041-04-23
Also published as: CN113112519B

Abstract

本发明公开一种基于感兴趣目标分布的关键帧筛选方法，属于图像处理技术领域。本发明包括：采用多种特征提取方式对各视频帧图像进行特征提取，并对提取的特征向量进行归一化处理；计算每种特征向量下的相邻帧间的特征距离，所有种特征距离的加权和得到相邻帧间差异；基于邻帧间差异曲线根据局部自适应双阈值实现镜头分割，以及基于神经网络对各视频帧图像进行目标检测处理；对获取的镜头内视频帧进行检测，获取目标的类别、位置、检测框的面积；基于目标检测结果，根据视频帧中目标分布和数量的差异来对镜头内的视频帧图像进行进一步分割为子镜头；在子镜头边界内选取目标信息丰富度最高的帧作为关键帧。本发明可应用于监控视频、影视视频。

Description

基于感兴趣目标分布的关键帧筛选方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于感兴趣目标分布的关键帧筛选方法。

背景技术

随着我国城市智能化和物联网技术的发展，监控视频***已经用于各行各业。监控视频虽然具有表现力强、蕴涵信息量大、形象生动等优点，但其变化大以及巨大的数据量以及抽象程度低等缺点，使得对它们的管理和检索相当困难。随着视频数据的快速增长(大约每10年视频数据总量将增加50倍)，对人力资源和存储器的需求必定会越来越高。随着技术的进步，关键帧提取等技术的出现将为这个问题的解决提供科学方案。

关键帧提取技术主要是将视频中的冗余信息去除，保留具有代表性的视频帧，这些帧可以很好的代表整个视频的内容，最大化的减少数据存储量。传统的关键帧提取方法主要基于图像的底层特征例如纹理特征、颜色特征等，再通过不同筛选算法处理获取不同的关键帧，例如基于镜头的关键帧提取、基于内容的关键帧提取、基于聚类算法的关键帧提取等。但是这些算法也存在着不能自适应设置关键帧提取阈值、提取灵活度低、视频图像信息利用过于片面等缺点，其次，传统的关键帧提取都是基于图像的底层特征，不能很好的反应视频的目标信息，提取出的关键帧不能很好的包含目标对象(感兴趣的内容)，容易造成目标缺失等问题。

发明内容

本发明实施例提供了一种基于感兴趣目标分布的关键帧筛选方法，可用于提高提取关键帧的鲁棒性，从而提升基于所得到的关键帧进行镜头分割的准确性。

本发明的基于感兴趣目标分布的关键帧筛选方法，包括下列步骤：

1、基于感兴趣目标分布的关键帧筛选方法，其特征在于，包括下列步骤：

步骤1：采用M种特征提取方式，对待处理视频的每个视频帧图像进行特征向量提取，得到各视频帧图像的M种特征向量，其中M为正整数；

步骤2：分别对每一种特征向量进行归一化处理，得到视频帧图像归一化后的特征向量，并基于相邻帧的归一化后的特征向量之间的欧式距离，得到相邻帧之间的M种帧间距离，基于相邻帧之间的M种帧间距离的加权和得到相邻帧的帧间差异；

步骤3：基于帧间差异曲线，根据局部自适应双阈值对待处理视频进行镜头分割，获取镜头边界，其中，第一局部自适应阈值大于第二局部自适应阈值，且第一、二局部自适应阈值均与视频局部帧间差异正相关；

步骤4：基于用于目标检测的神经网络对各镜头内的视频帧进行检测，获取目标检测结果，包括目标的类别、位置和检测框面积；

步骤5：基于步骤4的目标检测结果，根据视频帧中目标分布和数量的差异对各镜头内的视频帧图像进行子镜头分割；

步骤6：在子镜头边界内选取目标信息丰富度最高的帧作为关键帧，获取关键帧筛选结果。

进一步的，步骤3中，基于第一局部自适应阈值进行突变镜头的检测，基于第二局部自适应阈值进行渐变镜头的检测。

进一步的，将第一、二局部自适应阈值设置为：

计算前一个选区的镜头的边界帧到当前帧的相邻帧的帧间差异的平均相邻差异md；

将第一局部自适应阈值设置为μ_high＝α·md；

将第二局部自适应阈值设置为μ_low＝β·md；

其中，系数α和β满足：α＞β＞0。

进一步的，α的优值范围为[8.0,15.0],β的取值范围为[3.5，8.5]。

进一步的，为了尽可能的防止关键帧的误检，基于全局阈值来对第一局部自适应阈值做进一步的限定。定义gμ表示全局阈值，其与待处理视频的相邻帧的帧间差异的均值正相关，并将当前的第一局部自适应阈值更新为：max(μ_high，gμ)。

进一步的，突变镜头和渐变镜头的检测为：

突变镜头的检测：

定义f_i表示当前视频帧，其中，视频帧号i≥2；

判断当前视频帧f_i与其前一帧f_i-1的帧间差异d(f_i-1，f_i)是否小于μ_high，若是，则执行渐变镜头的检测；否则，计算当前视频帧f_i的前一帧f_i-1与f_i之后的第一指定帧之间的第一帧间差异，以及当前视频帧f_i的前两帧f_i-1与f_i之后的第二指定帧之间的第二帧间差异，基于第一帧间差异和第二帧间差异的均值得到均值td，并判断td是否大于μ_high，若是，则当前视频帧f_i为突变边界，并将f_i加入镜头边界集；若否，则将当前视频帧f_i为加入异常标记集，其中，镜头边界集和异常标记集的初始值均为空集，第一指定帧小于第二指定帧；否则，对当前视频帧f_i的后一帧进行突变镜头的检测；

渐变镜头的检测：

判断帧间差异d(f_i-1，f_i)是否小于μ_low，若是，则对当前视频帧f_i的后一帧进行突变镜头的检测；否则，依次遍历当前视频帧f_i之后的任意视频帧f_i+γ，计算当前视频帧f_i的前一帧f_i-1与视频帧f_i+γ之间的帧间差异d(f_i-1，f_i+γ)，并判断帧间差异d(f_i-1，f_i+γ)是否大于或等于μ_high，若是，则视频帧f_i+γ作为渐变镜头的结束帧，并将视频帧f_i+γ加入镜头边界集中；若否，则确定帧间隔数γ是否大于指定上限，若是，则视频帧f_i+γ为为渐变镜头的结束帧，并将视频帧f_i+γ加入镜头边界集中。

进一步的，步骤5包括：

按照指定的比例对视频帧图像尺寸进行缩小，得到包括视频帧图像在内的多个图像区域(即多个图像区域的中心点重合，但是图像区域尺寸不同)，并为每个图像区域I_k设置一个权重系数w_k，且图像区域尺寸越小，权重系数w_k越大；

根据目标检测结果，对基于镜头边界所确定的镜头中的视频帧进行子镜头分割处理：

从镜头的第2帧开始，依次遍历镜头中的每个视频帧，对当前视频帧f_i，统计视频帧f_i的视频帧图像的检测框的中心点处于图像区域尺寸小于视频帧图像尺寸的图像区域的类别和各类别的数量，并与当前视频帧f_i的前一帧f_i-1比较，若各类别的数量相同，则计算当前视频帧f_i的前一帧f_i-1的对应检测框的交并比(即同一检测目标的检测框)，若所述交并比的均值低于指定阈值，则将该视频帧f_i-1划分为子镜头边界。

进一步的，步骤6包括：

确定每个检测目标的检测框的中心点所位于的图像区域，并获取各图像区域内的检测框面积s_k；

基于图像区域I_k的权重系数w_k与其内的检测框面积s_k进行加权求和，得到每个检测框所对应的检测目标的目标信息丰富度w；

选取各子镜头内目标信息丰富度w最大的视频帧作为当前子镜头的关键帧，若子镜头不包含目标信息，则选取该子镜头内与前一子镜头的关键帧的帧间距离最大的视频帧作为关键帧。

此外，步骤6还可以包括对得到的关键帧进行去冗余处理，得到最终的关键帧筛选结果。

本发明实施例提供的技术方案至少带来如下有益效果：

1.本发明实施例结合了传统技术和深度学习技术，提取出图像的底层特征和深度特征，并进行多特征融合，该特征对目标的表达能力更充分，镜头分割更为准确，提高了本发明实施例所提取的关键帧的鲁棒性。

2.本发明实施例提供一种基于局部自适应双阈值的镜头分割方式，摆脱了传统镜头分割算法需要人工设定关键帧阈值的问题，从而能够灵活、准确的实现镜头分割。

3.本发明实施例引入了目标检测技术，在镜头内通过目标信息丰富度选取关键帧，提取的关键帧代表性更好，而且可以更改感兴趣目标而选取不同的关键帧，更加具有应用价值。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于感兴趣目标分布的关键帧筛选方法的流程图；

图2是本发明实施例中，渐变镜头检测流程图；

图3是本发明实施例中，非均匀分块划分图像模板示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

针对目前视频关键帧提取技术存在的一些问题，本发明实施例提供了一种基于感兴趣目标分布的关键帧筛选方法，以解决现有关键帧筛选方法中存在的图像底层特征不够语义化、关键帧提取阈值不能自适应生成的技术问题，从而提高关键帧筛选的灵活度，并充分利用了视频图像的主要目标信息，结合深度学习技术，提供了一种新的关键帧筛选方式。

参见图1，本发明实施例提供的于感兴趣目标分布的关键帧筛选方法，包括以下步骤：

步骤1：特征提取。

采用多种特征提取方式，对待处理视频(为了便于描述，将其记为视频V)的每一帧图像(视频帧)进行特征提取，得到每一帧的多种特征向量。

示例性，特征提取方式包括但不限于：HSV颜色空间直方图、方向梯度直方图、光流法运动信息、VGG网络提取的深度特征。

在一种可能的实现方式中，所述步骤1包括：

1-1)读取视频V中的一帧图像f_i(i＝1,2,…,N)，将图像由RGB颜色空间转换到HSV颜色空间，H、S、V各分量转换公式如下：

然后对HSV颜色空间进行非均匀量化，设定{H，S，V}量化级数为{Q_h，Q_s，Q_v}，以16:4:4比例进行量化。其中，Q_h，Q_s，Q_v分别表示颜色分量H，S，V的量化级数。

量化后共产生Q_h×Q_s×Q_v的颜色子空间,量化后的颜色空间按Q_h:Q_s:Q_v的比例将各颜色分量融合为特征矢量L_hsv，计算公式如下：

L_hsv＝H×Q_s×Q_v+S×Q_s+V

1-2)计算方向梯度直方图HOG计算视频帧的形状特征。

首先通过梯度算子[-1,0,1]和[-1，0，1^T与视频帧图像进行卷积运算，得到水平和垂直的梯度分量G_x和G_y，设像素点为(x，y)，该点像素值为P_(x，y),定义G_x(x，y)、G_y(x，y)分别为该像素点的水平梯度方向和垂直梯度方向，并按照下式计算出像素点(x,y)的梯度大小G_(x，y)、梯度方向θ_(x，y)：

G_x(x，y)＝P_(x+1，y)-P_(x-1，y)

G_y(x，y)＝G_(x，y+1)-G_(x，y-1)

其中，上标“T”表示转置。

然后将图像划分为多个大小相同的正方块，即单元块，例如划分为8*8的单元块，并统计分析各单元块中的每个像素点的梯度方向，得到梯度方向直方图，表示为向量V_hog，然后对每个单元块的梯度方向直方图进行归一化，得到最终的特征向量L_hog。

1-3)基于图像金字塔的光流法计算图像运动特征。

假设视频帧相邻两幅图像的灰度图为f_i,f_i+1,f_i(x，y)表示图像f_i在(x，y)位置处的灰度值，设图像f_i上的像素点(x,y)匹配到图像f_i+1上的像素点为：(x+d_x，y+d_y)，可使得灰度值f_i(x，y)与f_i+1(x+d_x，y+d_y)之间的误差最小，则位移(d_x，d_y)成为这两点的光流。

设邻域窗口的大小为w，计算图像f_i+1与光流矢量d相加后与图像f_i的最小差值的函数ε的公式如下所示：

其中，(u_x，u_y)表示当前邻域窗口的起始位置。

然后对图像进行金字塔分层，上层图像每次缩放为下层图像的一半，分辨率低的图像分配在最顶层，原始图像分配在最底层。在图像金字塔最顶层进行光流估计，递归求解到最底层，金字塔层设为l_i，每一层的计算公式为：

其中，

表示图像在第l_i层运算中的当前邻域窗口的起始位置，

表示图像在第l_i层运算中的光流初始值，

表示在第l_i层运算中的光流误差，每一层光流估计结果传递到下一层计算公式为如下所示，最顶层的光流初值设置为0：

g^l-1＝2(g^l+d^l)

然后通过构建特征金字塔，示例性的，可将图像金字塔层数设置为3层，以固定比例1/2缩小，最终计算出视频帧图像的运动特征向量L_lk。

1-4)采用预训练好的神经网络视频帧图像深度特征。

示例性的，可采用ImageNet(用于视觉对象识别软件研究的大型可视化数据库)预训练好的VGG13网络提取视频帧图像深度特征。首先，对视频帧图像进行尺寸归一化处理，以使其与待提取特征的神经网络的输入相匹配。例如将视频帧图像缩放为224*224大小。对于VGG13网络而言，其网络模型一共包括13个卷积层，每一层的输出作为下一层的输入，每一层会输出一个特征图(Feature map)，为四维张量，将归一化后的视频帧图像作为VGG13的输入，采取网络最后一层输出的特征作为深度特征L_vgg。

步骤2：计算帧间差异。

利用欧式距离计算各特征向量的距离并归一化，利用不同加权系数进行加权获得相邻视频帧间特征差异。

在一种可能的实现方式中，所述步骤2包括：

2-1)在提取HSV颜色空间直方图特征L_hsv、方向梯度直方图特征L_hog、L-K光流法运动特征L_lk、VGG网络深度特征L_vgg四种特征后，首先对各特征向量进行归一化处理，归一化公式如下：

其中，f_i表示视频帧图像的序号，取值为f₁～f_n，n表示视频V包括的视频帧图像数，

为视频帧图像提取的特征向量。

对四种特征向量L_hsv、L_hog、L_lk、L_vgg归一化后，分别计算帧间的特征向量的距离(简称帧间距离或特征距离)，由于特征维度较高，向量距离的计算采用简单直接的欧式距离计算，欧式距离计算公式如下：

其中，m表示特征向量种数，

表示视频帧f_i的第j种归一化后的特征向量。

2-2)根据视频帧图像的各帧间距离d_hsv，d_hog，d_lk，d_vgg，对各帧间距离以合理的系数进行加权求和，得到总帧间距离，总帧间距离加权公式为：

d＝α₁·d_hsv+α₂·d_hog+α₃·d_lk+α₄·d_vgg

其中α₁,α₂,α₃,α₄为权重因子，取值范围皆在[0,1]，满足α₁+α₂+α₃+α₄＝1。

进一步的，在充分考虑到深度特征的特征语义化程度更高的前提下，采用权重因子比例为0.2:0.2:0.2:0.4。采用这种方法可以直接快速的将各物理意义不同和取值范围不同的特征向量进行融合处理，最终得到总帧间距离，即帧间差异。

步骤3：镜头分割。

根据相邻帧间差异曲线，根据局部自适应双阈值实现镜头分割。

在一种可能的实现方式中，所述步骤3包括：

3-1)设定自适应阈值μ_high和μ_low，μ_high和μ_low可以根据滑动窗口大小而调整，设f_i为当前帧，计算前一个选取的镜头边界帧(若前面没有选取到镜头边界，则取视频帧图像的第一帧f₁)到当前帧的平均总帧间距离值md，即视频局部帧间差异，其计算方式如下：

其中，N表示前一个选取的镜头边界帧(或f₁)到当前帧的帧数。

通过局部平均帧间距离可以设置自适应阈值μ_high和μ_low，计算方式如下：

μ_high＝α·md，μ_low＝β·md,α＞β＞0

利用不同类型的视频进行分析对比，α的优值范围为[8.0,15.0],β的取值范围为[3.5，8.5]之间能取得较好结果，优选的，可将α设置为10.5,β设置为4.5。

3-2)设定全局阈值gμ，由于在镜头内部的内容变化相差不会太大，在一些镜头内部的帧间差异平均值会十分接近0，导致无论视频帧只是出现微小的变化，也会引起相邻帧间差异的突然变大而超过设置的阈值，导致误检为关键帧，为了防止这种情况，可以增设一个全局阈值gμ,设置的依据是突变帧的相邻帧间差异应该大于整段视频的帧间差异平均值。gμ设置方式如下所示：

其中，n表示视频V包括的视频帧图像数，d(f_i，f_i+1)表示帧间差异θ为调节因子。θ的取值范围为[0,0.1]。优选的，可将θ的取值置为0.06。

若镜头内部的平均帧间差异接近于0，μ_high也会偏低，若μ_high＜gμ，要求相邻帧帧间差异必须大于gμ才能判定为突变帧，即将μ_high更新为：max(μ_high，gμ)。

3-3)突变镜头的检测，设视频帧集为{f}，从{f}的第二帧f₂开始计算总帧间距离(帧间差异)，若d(f_i-1，f_i)＜μ_high，进入步骤3-4)，否则判断f_i是否镜头突变边界还是闪光等误判，根据对不同类型的视频的统计分析，视频中闪光帧往往会持续2～8帧，因此，可以通过计算f_i-1，f_i-2分别与后面的f_i+9与f_i+10的平均帧间差异均值td来判断闪光结束后视频内容是否出现了突变，计算方式如下:

若td＞μ_high，则当前帧被判定为突变边界，将该边界值加入镜头边界集{bf}中，继续判断后续视频帧，否则可判定当前帧为变化帧(由闪光，剪辑等原因造成的)，并将其加入异常标记集合{ef}中。

3-4)渐变镜头的检测。

镜头的渐变转化与摄像机的运动或者镜头缓慢变化等都会使得视频帧间差异度发生缓慢变化，镜头渐变处的相邻帧间差异相比较突变时小得多，不易检测，但是当前帧与后续帧的帧间差异会逐渐增大，且通常会大于μ_high，基于此，可以实现对渐变帧的检测。

如果当前帧间距离d(f_i-1，f_i)＜μ_low，判断下一预选边界帧序号，如果d(f_i-1，f_i)≥μ_low，进入渐变边界判断流程，参见图2，如果当前帧f_i进入渐变帧判断流程，依次判断是否满足d(f_i-1，f_i+n)≥μ_high，若不满足，则令n++(帧间隔数n自增1，初始值为1)后继续判断，否则判定f_i+n为渐变镜头结束帧，根据对多种类型视频的统计与分析，视频渐变镜头的渐变过程基本不会超过12帧的范围，如果n>τ，可以直接判定f_i+n为渐变镜头结束帧，并将视频帧图像f_i+n添加进入{bf}中。其中τ设置为12。

步骤4：目标检测。利用目标检测网络对获取的镜头内视频帧进行检测，获取目标的类别、位置、检测框的面积s。本实施例中，采用的目标检测网络为YOLOv4-tiny网络。

步骤5：子镜头分割。

对镜头再进行子镜头分割，根据步骤4目标检测的结果，对镜头内的视频帧图像进行进一步分割为子镜头边界。

在一种可能的实现方式中，所述步骤5包括：

5-1)由于人类视觉的自动聚焦性，视频帧图像越中心的区域越是视频最想表达、突出展示的内容。基于此特性，可利用等面积矩形非均匀的环形划分图像，如图3所示,环形划分的矩形最外层的宽高为图像的宽高，由外及内以一定比例缩小，权重系数由w₄至w₁逐渐增加。基于此设计能更好的体现空间信息，同时也避免复杂背景、边缘物体运动对关键帧选取的影响。

5-2)根据步骤目标检测的结果，对步骤3获取的每一个镜头进行处理。

设镜头中视频帧可以表示为{f₁，f₂，…，f_m}，从f₂开始依此对后序帧判断，设当前视频帧为f_i，统计检测框中心点处于区域1～3(权重w₁至w₃所对应的区域，且区域数量可基于实际应用场景进行调整)的类别和各类别的数量，与f_i-1比较，若检测出的各类别的数量相同，判断对应检测框的交并比IoU，交并比表示两个检测框的交集与并集的比值。最理想情况是完全重叠，即比值为1，计算公式如下所示：

其中area(A)∩area(B)表示框A与B的重叠的面积，area(A)∪area(B)表示A与B相并的面积。

通过计算所有检测出来的目标对应的检测框的IoU，并取平均值得到平均IoU,若该值低于指定值(优选值可设置为0.5),表示f_i-1与f_i的目标分布有较大变化，划分f_i-1为子镜头边界，若平均IoU大于或等于指定值或者该帧未检测出目标信息，则跳过f_i，判断镜头下一帧f_i+1直到判断到终止帧。

步骤6：筛选关键帧。

在镜头边界内选取目标信息丰富度最高的帧作为关键帧，得到最终关键帧集合。

在一种可能的实现方式中，所述步骤6包括：

6-1)通过目标信息丰富度w筛选子镜头中关键帧，目标信息丰富度w为：每个检测目标的检测边框的中心点位于分块划分的某区域就使用该区域的设定权重对该区域内的检测框面积进行加权计算，计算公式如下：

w＝s₁·w₁+s₂·w₂+s₃·w₃+s₄·w₄

其中，s₁～s₄表示区域1～3内的检测框面积。

然后，通过选取子镜头内目标信息丰富度w的最大的帧作为本镜头的关键帧，其次，若子镜头不包含感兴趣目标信息，则选取该子镜头内与前一子镜头的关键帧的帧间距离最大的作为关键帧，最终得到初选关键帧。

6-2)关键帧去冗余。

视频由于镜头的切换或者剪辑等原因会出现相似镜头出现在不连续的时间点，造成相似的关键帧被提取，所以通过对初选关键帧的检测目标数量与分布对比，方法如步骤5-2)，若视频帧中目标类别数量一致且检测框平均IoU高于指定值(例如0.5)表示这两张关键帧冗余，例如镜头的切换导致第1个子镜头选取关键帧和第3个子镜头选取的关键帧相似，可以保留第1个子镜头的关键帧而去除冗余的第3个子镜头的关键帧，降低提取关键帧的冗余度。

通过本发明提取出的关键帧图像序列，代表性更强，不仅提取的关键帧富含感兴趣目标信息，完整性高，而且可以通过感兴趣目标的设定而自动调整关键帧的选取，对于监控视频、影视视频具有很高的应用价值。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于感兴趣目标分布的关键帧筛选方法，其特征在于，包括下列步骤：

步骤2：分别对每一种特征向量进行归一化处理，得到视频帧图像归一化后的特征向量，基于相邻帧的归一化后的特征向量之间的欧式距离，得到相邻帧之间的M种帧间距离，基于相邻帧之间的M种帧间距离的加权和得到相邻帧的帧间差异；

2.如权利要求1所述的方法，其特征在于，步骤3中，基于第一局部自适应阈值进行突变镜头的检测，基于第二局部自适应阈值进行渐变镜头的检测。

3.如权利要求2所述的方法，其特征在于，将第一、二局部自适应阈值设置为：

将第一局部自适应阈值设置为μ_high＝α·md；

将第二局部自适应阈值设置为μ_low＝β·md；

其中，系数α和β满足：α＞β＞0。

4.如权利要求3所述的方法，其特征在于，定义gμ表示全局阈值，其与待处理视频的相邻帧的帧间差异的均值正相关，并将当前的第一局部自适应阈值更新为：max(μ_high，gμ)。

5.如权利要求2、3或4所述的方法，其特征在于，突变镜头和渐变镜头的检测为：

突变镜头的检测：

定义f_i表示当前视频帧，其中，视频帧号i≥2；

渐变镜头的检测：

6.如权利要求1所述的方法，其特征在于，第一指定帧比第二指定帧的间隔帧数为1。

7.如权利要求1所述的方法，其特征在于，步骤5包括：

按照指定的比例对视频帧图像尺寸进行缩小，得到包括视频帧图像在内的多个图像区域，并为每个图像区域I_k设置一个权重系数w_k，且图像区域尺寸越小，权重系数w_k越大；

从镜头的第2帧开始，依次遍历镜头中的每个视频帧，对当前视频帧f_i，统计视频帧f_i的视频帧图像的检测框的中心点处于图像区域尺寸小于视频帧图像尺寸的图像区域的类别和各类别的数量，并与当前视频帧f_i的前一帧f_i-1比较，若各类别的数量相同，则计算当前视频帧f_i的前一帧f_i-1的对应检测框的交并比，若所述交并比的均值低于指定阈值，则将该视频帧f_i-1划分为子镜头边界。

8.如权利要求1所述的方法，其特征在于，步骤6包括：

9.如权利要求8所述的方法，其特征在于，还包括对得到的关键帧进行去冗余处理，得到最终的关键帧筛选结果。

10.如权利要求1所述的方法，其特征在于，所述M种特征提取方式包括：HSV颜色空间直方图、方向梯度直方图、光流法运动信息和基于神经网络的特征提取。