CN114120169A

CN114120169A - 视频场景识别方法、装置、设备及可读存储介质

Info

Publication number: CN114120169A
Application number: CN202111218050.3A
Authority: CN
Inventors: 王传鹏; 张昕玥; 张婷; 孙尔威; 李腾飞; 周惠存; 陈春梅
Original assignee: Anhui Shangquwan Network Technology Co ltd
Current assignee: Anhui Shangquwan Network Technology Co ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-03-01

Abstract

本发明公开了一种视频场景识别方法、识别装置及计算机可读存储介质，其中所述视频场景识别方法包括：获取目标视频片段中多个视频帧；提取各个所述视频帧的图像特征点；对各相邻的视频帧的图像特征点进行特征点匹配；分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况；根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别。通过上述方式，本发明可以提高对视频素材的视频场景的识别效率及准确率。

Description

视频场景识别方法、装置、设备及可读存储介质

技术领域

本发明涉及图像识别技术领域，尤其是涉及视频场景识别方法、装置、设备及可读存储介质。

背景技术

随着新媒体的快速发展和各类视频平台快速壮大，人们喜欢在视频平台上发布个人视频，然而视频的拍摄是很难做到一镜到底且非常完美的，因此在视频发布之前都需要收集视频素材并且对视频素材进行剪辑。

视频剪辑即将影片制作中所拍摄的大量素材，经过选择、取舍、分解与拼接，最终完成一个连贯流畅、含义明确、主题鲜明并有艺术感染力的作品。其中，视频拼接会对视频素材的视频场景类型提出要求，例如为了保证拼接的视频的画面中的视频对象(如游戏角色)更加灵动，需要拼接的视频素材的视频场景类型为视频对象跳动类型的；又例如为了保证拼接的视频的画面是侧面视角，需要拼接的视频素材的视频场景类型是视频对象侧面视角；又例如为了保证拼接的视频的画面中的视频对象(如游戏角色)是静态的，则需要拼接的视频素材的视频场景类型是视频对象静止类型。目前，视频拼接前的视频场景识别都是通过人工进行的，人工识别很耗时且容易出错。

发明内容

本发明实施例的目的是提供一种视频场景识别方法、装置、设备及可读存储介质，其能够提高对视频素材的视频场景的识别效率及准确率。

为了解决上述技术问题，本发明实施例提供了一种视频场景识别方法，其包括：

获取目标视频片段中多个视频帧；

提取各个所述视频帧的图像特征点；

对各相邻的视频帧的图像特征点进行特征点匹配；

分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况；

根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别。

作为上述方案改进，所述提取各个所述视频帧的图像特征点，包括：

计算各个所述视频帧中每个像素点的灰度值；

判断相邻两个像素点的灰度值差值是否大于预设的差值阈值；

将灰度值差值大于差值阈值的像素点作为所述视频帧的图像特征点。

提取各个所述视频帧中的图像轮廓；

计算图像轮廓上各轮廓线段的曲率；

将轮廓线段的曲率大于预设曲率阈值的切点所在的像素点作为所述视频帧的图像特征点。

作为上述方案改进，所述位置变化情况包括：水平移动量、垂直移动量及移动向量的斜率。

作为上述方案改进，所述根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别，包括：

判断所述位置变化情况是否满足预设的侧面移动条件；

若是，确定所述目标视频片段的场景类别为侧面移动场景。

作为上述方案改进，在所述获取目标视频片段中的视频帧之后，所述提取各个所述视频帧的图像特征点之前，所述方法还包括：

分析各个所述视频帧是否有抖动特效；

将存在抖动特效的视频帧去除。

本发明一实施例对应提供了一种视频场景识别装置，其包括：

视频帧获取模块，用于获取目标视频片段中的视频帧；

特征点提取模块，用于提取各个所述视频帧的图像特征点；

特征点匹配模块，用于对各相邻的视频帧的图像特征点进行特征点匹配；

位置变化分析模块，用于分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况；

视频场景确定模块，用于根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别。

本发明再一实施例提供了一种视频场景识别设备，包括处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序，处理器执行计算机程序时实现如上的视频场景识别方法。

本发明又一实施例提供了一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如上的视频场景识别方法。

相比于现有技术，本发明实施例提供的视频场景识别方法、装置、设备及可读存储介质的有益效果在于以下中的至少一点：

本发明实施例通过提取目标视频片段的视频帧的图像特征点，对各相邻的视频帧的图像特征点进行特征点匹配，并分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况，最后根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来确定所述目标视频片段的场景类别。由此可见，本发明实施例通过能够根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来自动确定所述目标视频片段的场景类别，例如是静止画面场景，还是侧面视角移动场景，还是正面视角移动场景等，相比于现有的人工识别的方式，本发明实施例能够提高对视频素材的视频场景的识别效率及准确率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明视频场景识别方法一实施例的流程示意图；

图2是本发明视频场景识别装置一实施例的结构示意图；

图3是本发明视频场景识别设备一实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，除非另有定义，本发明所使用的所有的技术和科学术语与属于本的技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明，对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供了一种视频场景识别方法，请参阅图1，图1是本发明视频场景识别方法一实施例的流程示意图。

所述视频场景识别方法可以通过用户端执行，所述用户端可以为电脑、手机、平板等用户终端设备；其中，所述用户端上可以装载有各种应用程序，包括视频剪辑或视频拼接程序。作为举例，所述用户端可以包括显示屏和处理器。

所述视频场景识别方法也可以由服务器执行，所述服务器可以为IA架构服务器、RISC架构服务器等不同类型的服务器；其中，所述服务器端具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性，可以为用户端提供网页的响应服务请求、承担服务、保障服务。

在本实施例中，所述视频场景识别方法包括步骤S10～S14，各步骤具体如下：

S10，获取目标视频片段中多个视频帧；

首先，获得准备进行视频场景识别的目标视频片段，其中，目标视频片段包括若干帧图像。可选地，可以按照视频的帧率直接获取相应数量的视频帧，也可以获取目标视频片段中一部分视频帧，例如以预定的视频帧间隔从所述目标视频片段中获取对应的视频帧(可以是每间隔5或10个视频帧来从所述目标视频片段中获取)。具体的，所述目标视频片段可以是经过预先处理的视频片段，例如经过片头与片尾均去掉的视频片段。

S11，提取各个所述视频帧的图像特征点；

当获取到目标视频片段的相关视频帧后，可以提取各个所述视频帧的图像特征点。其中，可以通过SIFT特征提取算法、RANSAC特征提取算法、Harris角点检测算法等来提取各视频帧的图像特征点，在此不对图像整点的提取算法做具体限定。

S12，对各相邻的视频帧的图像特征点进行特征点匹配；

为了分析视频场景的类型，当提取到各视频帧的图像特征点后，需要先对获取到的视频帧中在播放顺序上相邻的视频帧的图像特征点进行特征点匹配。其中，可以通过以下方式来对各相邻的视频帧的图像特征点进行特征点匹配：

例如，可以根据FLANN(Fast Library for Approximate Nearest Neighbors，快速最近邻逼近搜索)算法思路，以查找最临近相似点的方式计算两帧视频帧的图像特征点的相关性并进行匹配；在本实施例中，相似度的计算可以是通过去除偏离值、对近邻特征点的计算像素矩阵的方式来计算相似度。

又例如，可以采用SIFT(Scale-Invariant Feature Transform，尺度不变特征变换)算法进行特征比较，SIFT算法对图像的光照、旋转、位移等等具有比较强的鲁棒性。然而SIFT算法的整体精度没有特别高，因此若是追求整体的高精度，可以利用现成的pretrain_model计算图像的高维特征向量，然后对特征向量计算余弦距离；或者是针对特定场景数据，建立图像对的数据集，然后构建深度模型，直接学习相似度。

又例如，可以通过pretain_model余弦距离方式来计算两个视频帧的图像特征点的相似度。其中，pretain_model余弦距离方式不用准备打标数据集训练，可以直接预测，只要设置阈值就能用，而且非常通用，适用几乎所有数据；针对特定场景数据训练方式可以针对特定场景数据集调优，精度可以达到用户想要的精度。

当计算出两个视频帧间的图像特征点的相似度后，若两个视频帧间的图像特征点的相似度大于预设的相似度阈值，则表面该两个视频帧间的对应图像特征点匹配成功。其中，预设的相似度阈值可以按照用户的需求进行设置，相似度阈值设置的越高，图像特征点的匹配成功的图像越相似，也越表明匹配成功的图像特征点也越相似。

S13，分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况；

当得到各相邻的视频帧的匹配成功的图像特征点后，可以通过分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来分析相关的视频帧的画面场景是否发生变化，并分析目标视频片段的相关视频帧的画面场景的变化情况。作为示例的，所述位置变化情况包括：水平移动量(指的是图像特征点的水平坐标的变化量)、垂直移动量(指的是图像特征点的垂直坐标的变化量)及移动向量的斜率(指的是两个图像特征点的连线斜率)。

S14，根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别。

当得到各相邻的视频帧的匹配成功的图像特征点的位置变化情况后，可以综合各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来确定所述目标视频片段的场景类别，例如是静止画面场景，还是侧面视角移动场景，还是正面移动场景等。为了便于理解，在此进行以下示例说明：

例如，正面移动场景的识别示例为：位置变化情况包括图像特征点的坐标变化量和两个图像特征点的移动向量的斜率(指的是两个图像特征点的连线斜率)，其中从目标视频片段中获取到的视频帧有2个，且这2个视频帧中均有同一视频对象(例如游戏人物或游戏道具等)。具体的，这2个视频帧中的同一视频对象为汽车，这2个视频帧中的汽车的图像特征点的移动向量的斜率大于1，这2个视频帧中的汽车因为缩小，该汽车的轮廓上的图像特征点的坐标均发生变化，表明该汽车在视频画面上是逐渐驾驶离开的，则表明该目标视频片段的场景类别是正面移动场景的。

又例如，通过特征点的位置变化情况可以判断出侧面视角移动场景，是因为侧面视角的视觉效果实现是通过视频帧里面的场景的后移表现的，视频帧里面的人物相对是没有位置移动的。所以通过判断场景特征点的移动是否符合预设条件则可以判断是否为侧面视角移动场景。具体的，所述步骤S14包括：

S140，判断所述位置变化情况是否满足预设的侧面移动条件；

S141，若是，确定所述目标视频片段的场景类别为侧面移动场景。

在此进行示例说明，位置变化情况包括图像特征点的坐标变化量和坐标移动向量的斜率(指的是两个图像特征点的连线斜率)，其中从目标视频片段中获取到的视频帧有2个，且这2个视频帧中均有同一视频对象：游戏人物，并且这两个视频帧中还存在一些会干扰到对视频场景位置变化的判断的干扰对象，例如会发生位置移动的棋子。那么在对这2个视频帧中提取了图像特征点后。需要判断这些图像特征点是不是在棋子范围内，这一步主要是想排除棋子的水平移动对判断的影响。所以会先识别到棋子的区域，然后对除了棋子的区域内的图像特征点进行位置移动变量的计算。其中可以通过预先训练的识别模型识别图像特征点在不在棋子的范围内，如果识别出图像特征点不在棋子范围内，且图像特征点的位置变化情况符合以下预设的侧面移动条件：水平变化量大于阈值1，垂直变化量小于阈值2，斜率在预设范围内的特征点占全部特征点的比例大于阈值4，则认为这组移动符合预期，表明该目标视频片段的场景类别是侧面移动场景的。其中，水平变化量大于阈值1代表视频场景在往后移，垂直变化量小于阈值2是为了排除非干扰对象区域内的图像特征点上下移动过大的视频帧。而引入斜率这一因素，是因为图像特征点是根据视频帧的图像内容计算的，所以不能保证所有匹配成功的图像特征点一定是完全一一对应的，所以需要加上斜率来帮助判断；另一方面，有些视频素材的视频场景是类似侧面视角显示，但不属于侧面视角显示的情况(例如斜着的视角)，所以指定斜率的阈值可以提高对这一类型视频素材的视频场景的判定准确度。

综上所述，本发明实施例通过提取目标视频片段的视频帧的图像特征点，对各相邻的视频帧的图像特征点进行特征点匹配，并分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况，最后根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来确定所述目标视频片段的场景类别。由此可见，本发明实施例通过能够根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来自动确定所述目标视频片段的场景类别，例如是静止画面场景，还是侧面视角移动场景，还是正面视角移动场景等，相比于现有的人工识别的方式，本发明实施例能够提高对视频素材的视频场景的识别效率及准确率。

作为其中一种实施例，所述步骤S11包括：

S110，计算各个所述视频帧中每个像素点的灰度值；

S111，判断相邻两个像素点的灰度值差值是否大于预设的差值阈值；

S112，将灰度值差值大于差值阈值的像素点作为所述视频帧的图像特征点。

在本实施例中，通过像素点灰度值计算：计算图像中每个像素点的灰度值；判断相邻两个像素点的灰度值变化是否大于预设差值阈值，若是，则将灰度值差值大于差值阈值的像素点作为所述视频帧的图像特征点，从而能够快速确定视频帧的图像特征点。

作为另一种实施例，所述步骤S11包括：

S110’，提取各个所述视频帧中的图像轮廓；

S111’，计算图像轮廓上各轮廓线段的曲率；

S112’，将轮廓线段的曲率大于预设曲率阈值的切点所在的像素点作为所述视频帧的图像特征点。

在本实施例中，通过计算图像中图像轮廓各轮廓线段的曲率，并将轮廓线段的曲率大于预设曲率阈值的切点所在的像素点作为所述视频帧的图像特征点，这样可以找到代表相关视频帧的图像特征点。需要说明的是，图像轮廓可以看做是多个轮廓线段组成的，其中，图像轮廓上的轮廓线段的划分方式可以是以预定数量的像素点来划分成一段轮廓线段，例如10个连续的像素点组成一段轮廓线段。

需要说明的是，在一些游戏或者其他的视频中，可能会存在游戏特效的抖动、转动等，这时候需要针对特定游戏进行规则测试，排除例如特定游戏中的抖动特效会影响到对视频场景的识别。因此在上述发明实施例中，进一步的，在所述获取目标视频片段中的视频帧之后，所述提取各个所述视频帧的图像特征点之前，所述方法还包括：

分析各个所述视频帧是否有抖动特效；

将存在抖动特效的视频帧去除。

在本实施例中，可以通过以下方式来分析各个所述视频帧是否有抖动特效：具体的，判断当前帧的视频帧的画面内容相比上一帧的视频帧的画面内容是否发生了坐标突然抖动的情况，例如，当前帧的视频帧的画面内容相比上一帧而言，当前帧的局部地方的某个线段的坐标突然向左侧增加，而与该线段的两个端点相接的其他线段的坐标则突然向右侧增加，则表明该视频帧的有抖动特效，此时将视频帧去除，避免抖动特效影响到对视频场景的准确识别。

本发明另一实施例提供了一种视频场景识别装置，请参阅图2，图2是本发明视频场景识别装置一实施例的结构示意图，在本实施例中，所述视频场景识别装置包括：视频帧获取模块10、特征点提取模块11、特征点匹配模块12、位置变化分析模块13及视频场景确定模块14。具体的，对所述视频视频场景识别装置的各部分介绍如下：

视频帧获取模块10，用于获取目标视频片段中的视频帧。具体的，获得准备进行视频场景识别的目标视频片段，其中，目标视频片段包括若干帧图像。可选地，可以按照视频的帧率直接获取相应数量的视频帧，也可以获取目标视频片段中一部分视频帧，例如以预定的视频帧间隔从所述目标视频片段中获取对应的视频帧(可以是每间隔5或10个视频帧来从所述目标视频片段中获取)。具体的，所述目标视频片段可以是经过预先处理的视频片段，例如经过片头与片尾均去掉的视频片段。

特征点提取模块11，用于提取各个所述视频帧的图像特征点。具体的，当获取到目标视频片段的相关视频帧后，可以提取各个所述视频帧的图像特征点。其中，可以通过SIFT特征提取算法、RANSAC特征提取算法、Harris角点检测算法等来提取各视频帧的图像特征点，在此不对图像整点的提取算法做具体限定。

特征点匹配模块12，用于对各相邻的视频帧的图像特征点进行特征点匹配。具体的，为了分析视频场景的类型，当提取到各视频帧的图像特征点后，需要先对获取到的视频帧中在播放顺序上相邻的视频帧的图像特征点进行特征点匹配。其中，可以通过以下方式来对各相邻的视频帧的图像特征点进行特征点匹配：

位置变化分析模块13，用于分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况。具体的，当得到各相邻的视频帧的匹配成功的图像特征点后，可以通过分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来分析相关的视频帧的画面场景是否发生变化，并分析目标视频片段的相关视频帧的画面场景的变化情况。作为示例的，所述位置变化情况包括：水平移动量(指的是图像特征点的水平坐标的变化量)、垂直移动量(指的是图像特征点的垂直坐标的变化量)及移动向量的斜率(指的是两个图像特征点的连线斜率)。

视频场景确定模块14，用于根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别。具体的，当得到各相邻的视频帧的匹配成功的图像特征点的位置变化情况后，可以综合各相邻的视频帧的匹配成功的图像特征点的位置变化情况，来确定所述目标视频片段的场景类别，例如是静止画面场景，还是侧面视角移动场景，还是正面移动场景等。为了便于理解，在此进行以下示例说明：

又例如，通过特征点的位置变化情况可以判断出侧面视角移动场景，是因为侧面视角的视觉效果实现是通过视频帧里面的场景的后移表现的，视频帧里面的人物相对是没有位置移动的。所以通过判断场景特征点的移动是否符合预设条件则可以判断是否为侧面视角移动场景。具体的，所述视频场景确定模块14用于：

判断所述位置变化情况是否满足预设的侧面移动条件；

若是，确定所述目标视频片段的场景类别为侧面移动场景。

作为其中一种实施例，所述特征点提取模块具体用于：

计算各个所述视频帧中每个像素点的灰度值；

作为另一种实施例，所述特征点提取模块具体用于：

提取各个所述视频帧中的图像轮廓；

计算图像轮廓上各轮廓线段的曲率；

需要说明的是，在一些游戏或者其他的视频中，可能会存在游戏特效的抖动、转动等，这时候需要针对特定游戏进行规则测试，排除例如特定游戏中的抖动特效会影响到对视频场景的识别。因此在上述发明实施例中，进一步的，所述视频场景识别装置还包括抖动特效去除模块，其具体用于：

分析各个所述视频帧是否有抖动特效；

将存在抖动特效的视频帧去除。

请参见图3，图3是本发明视频场景识别设备一实施例的结构框图，本发明实施例提供的视频场景识别设备20，包括处理器21、存储器22以及存储在存储器22中且被配置为由处理器21执行的计算机程序，处理器21执行计算机程序时实现如上述视频场景识别方法实施例中的步骤，例如图1中的步骤S10～S14；或者，处理器21执行计算机程序时实现上述各装置实施例中各模块的功能，例如视频帧获取模块10、特征点提取模块11、特征点匹配模块12、位置变化分析模块13及视频场景确定模块14。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器22中，并由处理器21执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在视频场景识别设备20中的执行过程。例如，计算机程序可以被分割成视频帧获取模块10、特征点提取模块11、特征点匹配模块12、位置变化分析模块13及视频场景确定模块14，各模块具体功能如下：

视频帧获取模块10，用于获取目标视频片段中的视频帧；

特征点提取模块11，用于提取各个所述视频帧的图像特征点；

特征点匹配模块12，用于对各相邻的视频帧的图像特征点进行特征点匹配；

位置变化分析模块13，用于分析各相邻的视频帧的匹配成功的图像特征点的位置变化情况；

视频场景确定模块14，用于根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别。

视频场景识别设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。视频场景识别设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，示意图仅仅是视频场景识别设备的示例，并不构成对视频场景识别设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如视频场景识别设备20还可以包括输入输出设备、网络接入设备、总线等。

处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器21是视频场景识别设备20的控制中心，利用各种接口和线路连接整个视频场景识别设备20的各个部分。

存储器22可用于存储计算机程序和/或模块，处理器21通过运行或执行存储在存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现视频场景识别设备20的各种功能。存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，视频场景识别设备20集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

相应地，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如上述实施例的视频场景识别方法中的步骤，例如图1中的步骤S110～S150。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种视频场景识别方法，其特征在于，包括：

获取目标视频片段中多个视频帧；

提取各个所述视频帧的图像特征点；

对各相邻的视频帧的图像特征点进行特征点匹配；

2.根据权利要求1所述的视频场景识别方法，其特征在于，所述提取各个所述视频帧的图像特征点，包括：

计算各个所述视频帧中每个像素点的灰度值；

3.根据权利要求1所述的视频场景识别方法，其特征在于，所述提取各个所述视频帧的图像特征点，包括：

提取各个所述视频帧中的图像轮廓；

计算图像轮廓上各轮廓线段的曲率；

4.根据权利要求1所述的视频场景识别方法，其特征在于，所述位置变化情况包括：水平移动量、垂直移动量及移动向量的斜率。

5.根据权利要求1或4所述的视频场景识别方法，其特征在于，所述根据各相邻的视频帧的匹配成功的图像特征点的位置变化情况，确定所述目标视频片段的场景类别，包括：

判断所述位置变化情况是否满足预设的侧面移动条件；

若是，确定所述目标视频片段的场景类别为侧面移动场景。

6.根据权利要求1所述的视频场景识别方法，其特征在于，在所述获取目标视频片段中的视频帧之后，所述提取各个所述视频帧的图像特征点之前，所述方法还包括：

分析各个所述视频帧是否有抖动特效；

将存在抖动特效的视频帧去除。

7.一种视频场景识别装置，其特征在于，包括：

视频帧获取模块，用于获取目标视频片段中多个视频帧；

特征点提取模块，用于提取各个所述视频帧的图像特征点；

8.根据权利要求1所述的视频场景识别装置，其特征在于，所述所述位置变化情况包括：水平移动量、垂直移动量及移动向量的斜率。

9.一种视频场景识别设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的视频场景识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的视频场景识别方法。