CN111476132A

CN111476132A - 视频场景识别方法、装置及电子设备、存储介质

Info

Publication number: CN111476132A
Application number: CN202010238678.9A
Authority: CN
Inventors: 沙晓强
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-31

Abstract

本申请公开了一种视频场景识别方法、装置及电子设备、存储介质，涉及视频处理技术领域。该视频场景识别方法通过接收视频采集设备采集到的视频数据；然后根据平均背景算法从所述视频数据中提取出背景数据；最后根据深度学***均背景算法从所述视频数据中提取出背景数据很好的利用了视频的时序与上下文信息，不容易受光照、天气等混乱干扰的影响，精确度高，另外，根据深度学习模型识别背景数据的场景类别可靠性更高。

Description

视频场景识别方法、装置及电子设备、存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频场景识别方法、装置及电子设备、存储介质。

背景技术

图像和视频是视觉的主要产物，相比于静态图像在平面坐标上的局部表现，视频具有时间维度，且包含背景的变化信息和目标物体的运动信息，能够全面的表现真实世界中物体的信息。随着计算机技术和互联网技术的高速发展，人类获取的视频在质量上、形式上也有重大突破，视频处理技术也越来越得到重视与发展。视频图像的场景检测与判别技术是视频处理技术的很重要的一环，它主要用于安防、交通监控、自动驾驶以及在线视频直播等应用中。例如，在线直播领域，通过视频场景的自动检测与判别，确定主播所处的场景类别(室内/室外，农村/城市，学校/商场等等)，从而根据场景类别将直播流来推荐相应的直播观看受众，提高用户匹配率。

现有技术中，对场景检测和判别方法为基于运动的方法，该方法主要根据运动的连续性将运动目标和背景分离开来，然后根据提取出的背景与预存储的背景图像库中的背景图像进行逐个相似度比对，在比对相似度大于预设阈值时，从而确定提取出的背景，确定为比对相似度大于预设阈值的背景图像库中的背景图像的类别，然而上述对背景图像提取方式受光照、天气等混乱干扰的影响较大，精确度低，并且进行相似度比对实现背景识别的精确度也低，计算量大、精确度低，从而造成最终确定的场景类别的可靠性也低。

发明内容

有鉴于此，本申请实施例提供了一种视频场景识别方法、装置及电子设备、存储介质，以改善场景检测和判别精确度低的问题。

第一方面，本申请实施例提供了一种视频场景识别方法，所述方法包括：

接收视频采集设备采集到的视频数据；

根据平均背景算法从所述视频数据中提取出背景数据；

根据深度学习模型识别出所述背景数据的场景类别，其中，所述深度学习模型预先根据多个携带有不同的场景类别标识的历史背景数据训练而成。

第二方面，本申请实施例还提供了一种视频场景识别装置，所述装置包括：

信息接收单元，被配置成接收视频采集设备采集到的视频数据；

数据提取单元，被配置成根据平均背景算法从所述视频数据中提取出背景数据；

场景类别识别单元，被配置成根据深度学习模型识别出所述背景数据的场景类别，其中，所述深度学习模型预先根据多个携带有不同的场景类别标识的历史背景数据训练而成。

第三方面，本申请实施例还提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现本申请实施例第一方面所述的视频场景识别方法。

第四方面，本申请实施例还提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本申请实施例第一方面所述的视频场景识别方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：通过接收视频采集设备采集到的视频数据；然后根据平均背景算法从所述视频数据中提取出背景数据；最后根据深度学***均背景算法从所述视频数据中提取出背景数据很好的利用了视频的时序与上下文信息，不容易受光照、天气等混乱干扰的影响，精确度高，另外，根据深度学习模型识别背景数据的场景类别可靠性更高。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一种实施例提供的视频场景识别方法的流程图；

图2为本申请一种实施例提供的电子设备与视频采集设备的交互示意图；

图3为本申请一种实施例提供的视频场景识别方法的流程图；

图4为本申请一种实施例提供的视频场景识别方法的流程图；

图5为本申请一种实施例提供的视频场景识别装置的功能模块框图；

图6为本申请一种实施例提供的视频场景识别装置的功能模块框图；

图7为本申请一种实施例提供的视频场景识别装置的功能模块框图；

图8为本申请一种实施例提供的视频场景识别装置的功能模块框图；

图9为本申请一种实施例提供的电子设备的电路连接框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

请参阅图1，本申请实施例提供了一种视频场景识别方法，应用于电子设备200，电子设备200可以为服务器。如图2所示，服务器与视频采集设备100通信连接，以便进行数据交互，其中，视频采集设备100具有视频采集功能，例如，可以为智能手机、平板电脑、监控摄像头。所述方法包括：

S11：接收视频采集设备100采集到的视频数据。

例如，视频数据可以为主播打开在智能手机的直播应用程序拍摄到的直播流，再例如，视频数据还可以为仓库的监控摄像头采集到的视频数据。

S12：根据平均背景算法从所述视频数据中提取出背景数据。

平均背景法是一种建立背景模型的方法，具体方式为：从视频或摄像头中获取一系列的帧，然后取这些帧中的平均像素值来表征背景。然后再给这些平均像素值加上一定的阈值范围，构成背景模型。在新加入的图像中，如果对应位置的像素在构建的背景模型中对应位置像素的阈值范围内，就确定为背景像素。

S13：根据深度学习模型识别出所述背景数据的场景类别，其中，所述深度学习模型预先根据多个携带有不同的场景类别标识的历史背景数据训练而成。

本申请实施例中，深度学习模型为但不限于卷积神经网络。本申请实施例中，在处于训练过程时，由于可供训练的历史背景数据并不是特别多，如果选择较深的卷积神经网络可能会造成过拟合，因此可以通过预训练好的初始化参数来配置到卷积神经网络，即迁移学习。网络结构为Inception-ResNet V2，利用图片训练网络中部分训练好的参数作为初始化参数。

过拟合是卷积神经网络需要克服的，ResNet提出的残差模块(Residual block)将卷积神经网络在相邻两个卷积层的特征结合，卷积层可以不用学习整个的输出，而是学习上一个网络输出的残差。

Inception-ResNet V2则使用一系列技巧来代替人工确定卷积层中的过滤器类型或者确定是否需要创建卷积层和池化层，即：不需要人为决定使用哪个过滤器、是否需要池化层等；而是由卷积神经网络自行决定这些参数，可以给卷积神经网络添加所有可能值，将输出连接起来，网络自己学习它需要什么样的参数。

该视频场景识别方法通过接收视频采集设备100采集到的视频数据；然后根据平均背景算法从所述视频数据中提取出背景数据；最后根据深度学***均背景算法从所述视频数据中提取出背景数据很好的利用了视频的时序与上下文信息，不容易受光照、天气等混乱干扰的影响，精确度高，另外，根据深度学习模型识别背景数据的场景类别可靠性更高。

可选地，在S12之前，如图3所示，所述方法还包括：

S31：对采集到的视频数据进行第一预处理，其中，第一预处理的方式包括以下之一或组合：对时长大于预设阈值的视频数据进行截取、对视频数据进行噪声去除。

通过对视频的截取，可以减少后续的工作量，并避免一些干扰视频帧造成后续识别不够精确，同样，对视频数据进行噪声去除，也可以避免造成后续识别不够精确。

可选地，所述历史背景数据是对采集到的原始背景数据进行第二预处理后得到的，其中，第二预处理的方式包括以下之一或任意组合：

对原始背景数据进行加噪声处理；

对原始背景数据进行旋转；

对原始背景数据进行裁剪；

对原始背景数据进行翻转；

对原始背景数据进行色彩抖动。

通过第二预处理方式可以增加训练样本的多样性，避免训练过程中深度学习模型过拟合，同时也提高了深度学习模型的鲁棒性。

具体地，视频数据包括指定的目标时刻前的视频数据及指定的目标时刻后的视频数据，如图4所示，S13包括：

S41：提取在指定的目标时刻前的视频数据中的每一帧图像。

S42：对提取到的帧图像之间的像素坐标对应的像素值分别进行相加，得到每个像素坐标对应的平均像素值。

例如，可以根据算式

得到每个像素坐标对应的平均像素值，其中，x，y表示对应像素点的坐标值，I(x，y)表示该像素点的像素值，n表示选取的图像总帧数，I_mean即为该像素坐标的平均像素值。

S43：确定指定的目标时刻前的视频数据中每一帧图像相对于前一帧图像之间的像素坐标对应的像素值的差值，并计算每个像素坐标对应的差值平均值。

具体地，可以根据算式

得到每个像素坐标对应的差值平均值，其中，x，y表示对应像素点的坐标值，I(x，y)表示该像素点的像素值，pre(x，y)表示该像素点的前一帧像素值，n表示选取的图像总帧数，I_diff即为该像素点的帧间平均差值。

S44：根据所述平均像素值、所述差值平均值，确定每个像素坐标对应的背景灰度区间。

具体地，可以根据算式I_mean-t·I_diff＜I＜I_mean+t·Id_iff确定每个像素坐标对应的背景灰度区间。

S45：将指定的目标时刻后的视频数据中的任一时刻的帧图像数据中像素值在背景灰度区间内的像素点构成的像素区域，确定为对应时刻的背景数据。

请参阅图5，本申请实施例还提供了一种视频场景识别装置500，应用于电子设备200，电子设备200可以为服务器。如图2所示，服务器与视频采集设备100通信连接，以便进行数据交互，其中，视频采集设备100具有视频采集功能，例如，可以为智能手机、平板电脑、监控摄像头。所述装置500包括信息接收单元501、数据提取单元502、场景类别识别单元503，其中，

信息接收单元501，被配置成接收视频采集设备100采集到的视频数据。

数据提取单元502，被配置成根据平均背景算法从所述视频数据中提取出背景数据。

场景类别识别单元503，被配置成根据深度学习模型识别出所述背景数据的场景类别，其中，所述深度学习模型预先根据多个携带有不同的场景类别标识的历史背景数据训练而成。

该视频场景识别装置500在执行时，可以实现如下功能：通过接收视频采集设备100采集到的视频数据；然后根据平均背景算法从所述视频数据中提取出背景数据；最后根据深度学***均背景算法从所述视频数据中提取出背景数据很好的利用了视频的时序与上下文信息，不容易受光照、天气等混乱干扰的影响，精确度高，另外，根据深度学习模型识别背景数据的场景类别可靠性更高。

可选地，如图6所示，所述装置500还包括：

第一预处理单元601，被配置成对采集到的视频数据进行第一预处理，其中，第一预处理的方式包括以下之一或组合：对时长大于预设阈值的视频数据进行截取、对视频数据进行噪声去除。

可选地，如图7所示，所述装置500还包括：

第二预处理单元701，被配置成所述历史背景数据是对采集到的原始背景数据进行第二预处理后得到的，其中，第二预处理的方式包括以下之一或任意组合：

对原始背景数据进行加噪声处理；

对原始背景数据进行旋转；

对原始背景数据进行裁剪；

对原始背景数据进行翻转；

对原始背景数据进行色彩抖动。

具体地，视频数据包括指定的目标时刻前的视频数据及指定的目标时刻后的视频数据，如图8所示，数据提取单元502具体包括：

帧图像提取模块801，被配置成提取在指定的目标时刻前的视频数据中的每一帧图像。

第一计算模块802，被配置成对提取到的帧图像之间的像素坐标对应的像素值分别进行相加，得到每个像素坐标对应的平均像素值。

第二计算模块803，被配置成确定指定的目标时刻前的视频数据中每一帧图像相对于前一帧图像之间的像素坐标对应的像素值的差值，并计算每个像素坐标对应的差值平均值。

区间确定模块804，被配置成根据所述平均像素值、所述差值平均值，确定每个像素坐标对应的背景灰度区间。

背景数据确定模块805，被配置成将指定的目标时刻后的视频数据中的任一时刻的帧图像数据中像素值在背景灰度区间内的像素点构成的像素区域，确定为对应时刻的背景数据。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图9是本申请的一个实施例电子设备的结构示意图。请参考图9，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成视频场景识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

接收视频采集设备采集到的视频数据；

根据平均背景算法从所述视频数据中提取出背景数据；

上述如本申请图1所示实施例揭示的视频场景识别装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现视频场景识别装置在图1所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

接收视频采集设备采集到的视频数据；

根据平均背景算法从所述视频数据中提取出背景数据；

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种视频场景识别方法，其特征在于，所述方法包括：

接收视频采集设备采集到的视频数据；

根据平均背景算法从所述视频数据中提取出背景数据；

2.根据权利要求1所述的方法，其特征在于，在所述根据平均背景算法从所述视频数据中提取出背景数据之前，所述方法还包括：

对采集到的视频数据进行第一预处理，其中，第一预处理的方式包括以下之一或组合：对时长大于预设阈值的视频数据进行截取、对视频数据进行噪声去除。

3.根据权利要求1所述的方法，其特征在于，所述历史背景数据是对采集到的原始背景数据进行第二预处理后得到的，其中，第二预处理的方式包括以下之一或任意组合：

对原始背景数据进行加噪声处理；

对原始背景数据进行旋转；

对原始背景数据进行裁剪；

对原始背景数据进行翻转；

对原始背景数据进行色彩抖动。

4.根据权利要求1所述的方法，其特征在于，所述视频数据包括指定的目标时刻前的视频数据及指定的目标时刻后的视频数据，所述根据平均背景算法从所述视频数据中提取出背景数据包括：

提取在指定的目标时刻前的视频数据中的每一帧图像；

对提取到的帧图像之间的像素坐标对应的像素值分别进行相加，得到每个像素坐标对应的平均像素值；

确定指定的目标时刻前的视频数据中每一帧图像相对于前一帧图像之间的像素坐标对应的像素值的差值，并计算每个像素坐标对应的差值平均值；

根据所述平均像素值、所述差值平均值，确定每个像素坐标对应的背景灰度区间；

将指定的目标时刻后的视频数据中的任一时刻的帧图像数据中像素值在背景灰度区间内的像素点构成的像素区域，确定为对应时刻的背景数据。

5.一种视频场景识别装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第一预处理单元，被配置成对采集到的视频数据进行第一预处理，其中，第一预处理的方式包括以下之一或组合：对时长大于预设阈值的视频数据进行截取、对视频数据进行噪声去除。

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二预处理单元，被配置成所述历史背景数据是对采集到的原始背景数据进行第二预处理后得到的，其中，第二预处理的方式包括以下之一或任意组合：

对原始背景数据进行加噪声处理；

对原始背景数据进行旋转；

对原始背景数据进行裁剪；

对原始背景数据进行翻转；

对原始背景数据进行色彩抖动。

8.根据权利要求5所述的装置，其特征在于，所述视频数据包括指定的目标时刻前的视频数据及指定的目标时刻后的视频数据，所述数据提取单元包括：

帧图像提取模块，被配置成提取在指定的目标时刻前的视频数据中的每一帧图像；

第一计算模块，被配置成对提取到的帧图像之间的像素坐标对应的像素值分别进行相加，得到每个像素坐标对应的平均像素值；

第二计算模块，被配置成确定指定的目标时刻前的视频数据中每一帧图像相对于前一帧图像之间的像素坐标对应的像素值的差值，并计算每个像素坐标对应的差值平均值；

区间确定模块，被配置成根据所述平均像素值、所述差值平均值，确定每个像素坐标对应的背景灰度区间；

背景数据确定模块，被配置成将指定的目标时刻后的视频数据中的任一时刻的帧图像数据中像素值在背景灰度区间内的像素点构成的像素区域，确定为对应时刻的背景数据。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的视频场景识别方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的视频场景识别方法。