CN114187558A

CN114187558A - 一种视频场景识别方法、装置、计算机设备及存储介质

Info

Publication number: CN114187558A
Application number: CN202111559423.3A
Authority: CN
Inventors: 高立刚
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-15

Abstract

本发明公开了一种视频场景识别方法、装置、计算机设备及存储介质。该方法包括对视频进行镜头边界检测，得到多个候选边界帧；对多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据分界帧将视频分割为镜头集；提取镜头集中每一镜头的关键帧；对每一镜头中的关键帧进行场景识别并设置对应的场景标签，得到视频的场景标签集。本发明引入镜头分割策略，将视频以镜头为单位进行切分；继而从单一镜头获取关键帧并输入到场景识别模型中进行识别，从而大大降低了计算成本，提高了视频场景识别的效率。

Description

一种视频场景识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种视频场景识别方法、装置、计算机设备及存储介质。

背景技术

在计算机视觉领域，智能剪辑越来越受到关注，其中视频内容理解技术成为了其中的关键。视频内容理解中包括场景识别、目标检测、人物识别等任务。其中视频场景识别是视频内容理解中的关键部分。视频场景识别即为场景分类，场景分类目标是根据视频帧的环境内容、对象和空间信息将视频帧预定义为场景类别，如室内的厨房、客厅、衣帽间和图书馆等，室外的沙滩、运动场等。

当前主流的分类方法集中于使用深度学习方法，根据识别模型的关注点不一致可以分为以下三类：基于对象的场景识别、基于区域的场景识别以及基于上下文的场景识别。其中基于对象的场景识别方法以识别对象为主，根据场景中出现的特定相关对象来推测当前场景类别。基于区域的场景识别方法是通过目标候选区域选择算法来生成一系列的候选区域，然后通过深度神经网络提取候选区域的特征，并进行分类。基于上下文的场景分类方法则是将场景图像看作全局对象而非图像中的某一对象或细节。

无论是哪种方法，卷积神经网络(CNN)在其中都起到关键作用。同时，对于产品应用落地而言，CNN模型存在一个无法躲避的问题，即现有模型又大又慢，为了追求模型精度，不断地增加模型深度，导致模型参数剧增，导出的模型大小对算法落地极不友好。在移动端和桌面端产品而言，速度很慢，对硬件资源的要求高，这大大限制了该算法在产品中落地部署。

发明内容

本发明的目的是提供一种视频场景识别方法、装置、计算机设备及存储介质，旨在解决现有视频场景识别方法存在模型大、计算效率低的问题。

为解决上述技术问题，本发明的目的是通过以下技术方案实现的：提供一种视频场景识别方法，包括：

对视频进行镜头边界检测，得到多个候选边界帧；

对所述多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据所述分界帧将视频分割为镜头集；

提取所述镜头集中每一镜头的关键帧；

对每一所述镜头中的关键帧进行场景识别并设置对应的场景标签，得到所述视频的场景标签集。

另外，本发明要解决的技术问题是还在于提供一种视频场景识别装置，包括：

边界检测单元，用于对视频进行镜头边界检测，得到多个候选边界帧；

镜头分割单元，用于对所述多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据所述分界帧将视频分割为镜头集；

关键帧提取单元，用于提取所述镜头集中每一镜头的关键帧；

场景识别单元，用于对每一所述镜头中的关键帧进行场景识别并设置对应的场景标签，得到所述视频的场景标签集。

另外，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的视频场景识别方法。

另外，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的视频场景识别方法。

本发明实施例公开了一种视频场景识别方法、装置、计算机设备及存储介质。该方法包括对视频进行镜头边界检测，得到多个候选边界帧；对多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据分界帧将视频分割为镜头集；提取镜头集中每一镜头的关键帧；对每一镜头中的关键帧进行场景识别并设置对应的场景标签，得到视频的场景标签集。本发明实施例引入镜头分割策略，将视频以镜头为单位进行切分；继而从单一镜头获取关键帧并输入到场景识别模型中进行识别，从而大大降低了计算成本，提高了视频场景识别的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频场景识别方法的流程示意图；

图2为本发明实施例提供的步骤S101的流程框图；

图3为本发明实施例提供的步骤S102的流程框图；

图4为本发明实施例提供的步骤S103的流程框图；

图5为本发明实施例提供的视频场景识别装置的示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的视频场景识别方法的流程示意图；

如图1所示，该方法包括步骤S101～S104。

S101、对视频进行镜头边界检测，得到多个候选边界帧；

S102、对多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据分界帧将视频分割为镜头集；

S103、提取镜头集中每一镜头的关键帧；

S104、对每一镜头中的关键帧进行场景识别并设置对应的场景标签，得到视频的场景标签集。

本实施例依次进行了视频输入、镜头分割、关键帧提取、场景内容识别以及得到最终识别的场景标签集的过程，其中镜头分割过程中采用镜头分割策略，先获取候选边界帧，然后从候选边界帧中筛选出分界帧，再将视频以镜头为单位进行分割并得到镜头集；关键帧提取过程中采用了关键帧提取策略，通过提取单一镜头下的关键帧，最后输入到场景识别模型中进行识别，从而大大降低了计算成本，提高了视频场景识别的效率。

在一实施例中，如图2所示，步骤S101包括：

S201、设定滑动窗口，从视频的首端开始滑动，每一次滑动时，获取当前滑动窗口内RGB值差异最大的视频帧并作为当前候选边界帧；

该步骤中，滑动窗口的长度优选为10，步长优选为8，即从视频的首端开始，从第1-10张视频帧中获取RGB值差异最大的视频帧并作为当前候选边界帧；易知的，下一次滑动时，则是从视频的第9-18张视频帧中获取RGB值差异最大的视频帧并作为候选边界帧；以此类推即可完成对整个视频的边界检测。

S202、判断当前候选边界帧与上一候选边界帧的距离是否小于预设的最小镜头长度，若是则进入步骤S203，若否则跳转至步骤S204；

S203、删除当前候选边界帧；

S204、保留当前候选边界帧；

S205、当滑动窗口滑动至视频末端并完成边界检测后，得到多个候选边界帧。

步骤S202-S205中，设置的最小镜头长度可以限定获取的候选边界帧的数量，从而减少计算量。

为方便理解，对最小镜头长度进行举例，假设最小镜头长度为100帧；基于此，具体的判断过程为：

按步骤S201的方式每获取到一个候选边界帧时，就将获取的当前候选边界帧与上一个获取候选边界帧进行判断，假设最小镜头长度为100帧，从视频首端开始，第一个获取的候选边界帧必然是在1-10之间，需要说明的是，若当前候选边界帧为首次获取的候选边界帧，则计算第1-10帧中获取的候选边界帧与视频的第一个视频帧的距离，并将这一距离与最小镜头长度进行对比，显然根据对比结果，第1-10帧中获取的候选边界帧需要删除；然后滑动窗口继续滑动，会在第9-18帧中获取到候选边界帧，因为第1-10帧中没有保留候选边界帧，因此第9-18帧中的候选边界帧轮换为第一个候选边界帧，然后计算第9-18帧中的候选边界帧与视频的第一个视频帧的距离，并将这一距离与最小镜头长度进行对比，显然根据对比结果，第9-18帧中获取的候选边界帧也需要删除；以此类推，易知的，第一个会保留的候选边界帧必然是在视频的第100帧或100帧以上的帧数，也就是说，在后续的判断过程中，上一个候选视频帧是指上一个被保留的候选视频帧。

最后，按步骤S202-S204中的判断方法，当滑动窗口滑动至视频末端后，即可得到多个候选边界帧，相邻的候选边界帧之间至少间隔100帧，很大程度上减少了获取的视频帧，为后续的计算过程提高了效率。

在一实施例中，如图3所示，步骤S102包括：

S301、计算相邻的候选边界帧之间的RGB差异值，并根据各个RGB差异值计算得到边界帧RGB差异平均值；

该步骤中，将步骤S101中保留的所有候选边界帧转化为RGB直方图并获取对应的RGB值，计算相邻的候选边界帧之间的RGB差异值，并根据各个RGB差异值计算得到边界帧RGB差异平均值，这里的相邻的候选边界帧之间的RGB差异值体现相邻的候选边界帧之间的关系，若相邻的候选边界帧之间RGB差异值与边界帧RGB差异平均值差别不大，说明相邻的候选边界帧很可能是同一镜头内的帧；反之若相邻的候选边界帧之间RGB差异值与边界帧RGB差异平均值差别越大，则说明这两个候选边界帧之间越有可能是镜头发生了转换；基于此，设置了步骤S302中的判断条件。

S302、判断当前候选边界帧与上一候选边界帧之间的RGB差异值是否大于第一预设倍数的边界帧RGB差异平均值，若是则进入步骤S303，若否则跳转至步骤S304；

S303、将当前候选边界帧作为分界帧；

S304、判断下一候选边界帧，直至完成所有候选边界帧的判断；

S305、根据得到的所有分界帧，将视频分割为镜头集。

步骤S302-305中，第一预设倍数优选为6倍，也就说只有当前候选边界帧与上一候选边界帧之间的RGB差异值大于6倍的边界帧RGB差异平均值时，才判定当前候选边界帧为分界帧，反之判定当前候选边界帧和上一候选边界帧是同一镜头内的视频帧，并继续下一候选边界帧的判断，依次类推，当完成所有的候选边界帧的判断后，即可得到满足判断条件的分界帧，每一分界帧可以分割两个相邻的镜头，从而将视频分割为镜头集。

在一实施例中，如图4所示，步骤S103包括：

针对每一镜头采用关键帧提取策略，由于每个镜头的提取方式一样，这里以一个镜头的提取过程进行介绍：

S401、计算镜头中相邻的视频帧之间的RGB差异值，并根据各个RGB差异值计算得到视频帧RGB差异平均值；

该步骤将镜头中的所有视频帧转化为RGB直方图并获取对应的RGB值，然后计算相邻的视频帧之间的RGB差异值，并根据各个RGB差异值计算得到视频帧RGB差异平均值，这里的相邻的视频帧之间的RGB差异值可以体现相邻的候选边界帧之间的关系，若相邻的候选边界帧之间的RGB差异值与视频帧RGB差异平均值差别不大，说明相邻的视频帧之间差别不大，很可能是同一场景，不适合从这两个视频帧中提取关键帧；反之若相邻的候选边界帧之间的RGB差异值与视频帧RGB差异平均值差别很大，则说明这两个候选边界帧之间越有可能是场景发生了转换，基于这一特点，设置了步骤S402中的判断条件。

S402、判断当前视频帧上一视频帧之间的RGB差异值是否大于第二预设倍数的视频帧RGB差异平均值，若是则进入步骤S403，若否则跳转至步骤S404；

S403、将当前视频帧作为镜头的关键帧；

S404、将镜头内的中间帧作为镜头的关键帧。

步骤S402-S404中，第二预设倍数优选为2倍，也就说只有当前视频帧与上一视频帧之间的RGB差异值大于2倍的视频帧RGB差异平均值时，才判定当前视频帧为关键帧，以此类推，完成同一镜头内的所有视频帧的判断后，即可得到该镜头下的所有关键帧；反之若同一镜头内没有满足该判断条件的相邻视频帧，则将该镜头内的中间帧作为镜头的关键帧。另外，在开是判断关键帧之前，若镜头内有亮度低于预设亮度值的视频帧时，可以先件排除以减少计算量。

本实施例中，视频中同一镜头下的内容基本都是相似的，内容上高度冗余，因此只需从每一镜头中提取一个或少量关键帧所处的场景就可以识别出该镜头所处的场景，一个镜头短有几秒一百多帧，长有几十秒上千帧，通过设置的关键帧提取策略可以提高视频场景识别的效率，在保证同样的识别精度下而不用去对视频每一帧经过场景识别模型进行识别。

在一实施例中，步骤S104包括：

将所有镜头的关键帧输入EfficientNetB0模型进行场景训练和识别，输出视频的场景标签集。

本实施例将镜头的关键帧输入EfficientNetB0模型进行场景训练和识别后，给关键帧对应的场景打上相应的场景类别标签，继而可以根据场景类别标签预测用户行为和所处场合，从而可以结合同类的视频模板或者创作脚本智能剪辑出符合用户需求的成品视频。也可以应用在视频推荐中，通过识别关键帧的内容信息，其中包括场景，从而依据内容标签给用户推荐热门模板或者同类视频，从而实现基于内容的视频推荐，提高推荐的准度。

本实施例中，为了使得整个算法框架更轻量化，在CNN模型的架构基础上引入了轻量级网络EfficientNetB0模型来训练场景识别模型，从而再进一步的达到轻量高效的目的，从而便于产品侧的桌面端和移动端的应用上线部署。本实施例在分类精度达到96％的同时有效的降低了场景识别的模型大小和推理时间，相较于现有技术常用的ResNet50模型(模型大小150MB)，本发明的场景识别模型的框架模型大小降低到7.86MB，使得算法在桌面端和移动端的上线部署成为现实。

本发明实施例还提供一种视频场景识别装置，该视频场景识别装置用于执行前述视频场景识别方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的视频场景识别装置的示意性框图。

如图5所示，视频场景识别装置500，包括：边界检测单元501、镜头分割单元502、关键帧提取单元503、以及场景识别单元504。

边界检测单元501，用于对视频进行镜头边界检测，得到多个候选边界帧；

镜头分割单元502，用于对多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据分界帧将视频分割为镜头集；

关键帧提取单元503，用于提取镜头集中每一镜头的关键帧；

场景识别单元504，用于对每一镜头中的关键帧进行场景识别并设置对应的场景标签，得到视频的场景标签集。

该装置引入镜头分割策略，将视频以镜头为单位进行切分；继而从单一镜头获取关键帧并输入到场景识别模型中进行识别，从而大大降低了计算成本，提高了视频场景识别的效率。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述视频场景识别装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备600是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备600包括通过***总线601连接的处理器602、存储器和网络接口605，其中，存储器可以包括非易失性存储介质603和内存储器604。

该非易失性存储介质603可存储操作***6031和计算机程序6032。该计算机程序6032被执行时，可使得处理器602执行视频场景识别方法。

该处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。

该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行视频场景识别方法。

该网络接口605用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器602可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的视频场景识别方法。

存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频场景识别方法，其特征在于，包括：

对视频进行镜头边界检测，得到多个候选边界帧；

提取所述镜头集中每一镜头的关键帧；

2.根据权利要求1所述的视频场景识别方法，其特征在于，所述对视频进行镜头边界检测，得到多个候选边界帧，包括：

设定滑动窗口，从所述视频的首端开始滑动，每一次滑动时，获取当前滑动窗口内RGB值差异最大的视频帧并作为当前候选边界帧；

判断所述当前候选边界帧与上一候选边界帧的距离是否小于预设的最小镜头长度，若是则删除所述当前候选边界帧，若否则保留所述当前候选边界帧；

当所述滑动窗口滑动至所述视频末端并完成边界检测后，得到多个候选边界帧。

3.根据权利要求2所述的视频场景识别方法，其特征在于，所述对视频进行镜头边界检测，得到多个候选边界帧，还包括：

若所述当前候选边界帧为首次获取的候选边界帧，则判断所述当前候选边界帧与所述视频的第一个视频帧的距离是否小于预设的最小镜头长度，若是则删除所述当前候选边界帧，若否则保留所述当前候选边界帧。

4.根据权利要求1所述的视频场景识别方法，其特征在于，所述对所述多个候选边界帧进行RGB差异值筛选，得到分界帧，并根据所述分界帧将视频分割为镜头集，包括：

计算相邻的候选边界帧之间的RGB差异值，并根据各个RGB差异值计算得到边界帧RGB差异平均值；

判断当前候选边界帧与上一候选边界帧之间的RGB差异值是否大于第一预设倍数的边界帧RGB差异平均值，若是则将所述当前候选边界帧作为分界帧，若否则判断下一候选边界帧，直至完成所有候选边界帧的判断；

根据得到的所有分界帧，将所述视频分割为镜头集。

5.根据权利要求1所述的视频场景识别方法，其特征在于，所述提取所述镜头集中每一镜头的关键帧，包括：

针对每一所述镜头：

计算所述镜头中相邻的视频帧之间的RGB差异值，并根据各个RGB差异值计算得到视频帧RGB差异平均值；

判断当前视频帧上一视频帧之间的RGB差异值是否大于第二预设倍数的视频帧RGB差异平均值，若是则将所述当前视频帧作为所述镜头的关键帧。

6.根据权利要求5所述的视频场景识别方法，其特征在于，所述提取所述镜头集中每一镜头的关键帧，还包括：

判断当前视频帧上一视频帧之间的RGB差异值是否大于第二预设倍数的视频帧RGB差异平均值，若否则将所述镜头内的中间帧作为所述镜头的关键帧。

7.根据权利要求1所述的视频场景识别方法，其特征在于，所述对每一所述镜头中的关键帧进行场景识别并设置对应的场景标签，得到所述视频的场景标签集，包括：

将所有镜头的关键帧输入EfficientNetB0模型进行场景训练和识别，输出所述视频的场景标签集。

8.一种视频场景识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的视频场景识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的视频场景识别方法。