CN112383824A

CN112383824A - 视频广告过滤方法、设备及存储介质

Info

Publication number: CN112383824A
Application number: CN202011077376.4A
Authority: CN
Inventors: 刘安捷
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-02-19

Abstract

本申请公开了一种视频广告过滤方法、设备及存储介质。本申请中，通过利用基于深度卷积网络算法训练获得的深度卷积网络模型，对待处理视频分隔出的各视频片段进行分析处理，进而根据识别出的广告视频的开始时间和结束时间，将广告视频从待处理视频中删除，不仅实现了对硬编码植入的广告的过滤，同时基于深度卷积网络模型的自适应性，可以根据处理的待处理视频进行自我学习和自我调节，使得深度卷积网络模型能够对新增的广告具有更好的识别能力。此外，深度卷积网络模型能够对视频片段进行时间维度和空间维度的分析处理，即深度卷积网络模型引入了时间和空间注意力机制，从而大大提高了识别效果。

Description

视频广告过滤方法、设备及存储介质

技术领域

本申请实施例涉及计算机视觉技术领域，特别涉及一种视频广告过滤方法、设备及存储介质。

背景技术

广告，顾名思义，就是广而告之，向社会广大公众告知某件事物。目前，随着多媒体技术和互联网技术的迅速发展，出于商业宣传目的，互联网上的视频在片头、片中通常会***十几秒甚至上百秒的广告，但这严重影响了用户观看视频的体验，并且也占用了大量的视频空间。

为了滤除视频中的广告，目前主要是通过分析超文本传输协议(Hyper TextTransfer Protocol，HTTP)的请求响应报文，进而获取视频描述信息，最终通过比对不同片段的描述信息来识别视频中的广告片段，并将识别出的广告片段从视频中滤除。但是这种方法只能适用于互联网上动态的广告视频植入的情况，无法应用于广告片段和原视频硬编码成一个视频的情况。为了滤除广告片段和原视频硬编码成一个视频中的广告片段，目前的解决方法是维护一个广告视频库，然后通过比对视频的片段与广告视频库中的视频的特征相似性来识别和定位广告的位置，进而将识别出的广告片段从视频中滤除。但是这种方法只能识别预先构建的广告视频库中已有的广告，对于识别新增广告的适应性较差。

发明内容

本申请实施例的目的在于提供一种视频广告过滤方法、设备及存储介质，旨在解决上述技术问题。

为解决上述技术问题，本申请的实施例提供了一种视频广告过滤方法，包括以下步骤：

将待处理视频切分为若干个视频片段；

利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，得到所述待处理视频中包含的广告视频的开始时间和结束时间；

根据所述开始时间和所述结束时间，将所述广告视频从所述待处理视频中删除。

本申请的实施例还提供了一种视频广告过滤设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上文所述的视频广告过滤方法。

本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的视频广告过滤方法。

本申请实施例提供的视频广告过滤方法、设备及存储介质，通过利用基于深度卷积网络算法训练获得的深度卷积网络模型，对待处理视频分隔出的各视频片段进行分析处理，进而根据识别出的广告视频的开始时间和结束时间，将广告视频从待处理视频中删除，不仅实现了对硬编码植入的广告的过滤，同时基于深度卷积网络模型的自适应性，可以根据处理的待处理视频进行自我学习和自我调节，使得深度卷积网络模型能够对新增的广告具有更好的识别能力。

此外，深度卷积网络模型能够对视频片段进行时间维度和空间维度的分析处理，即深度卷积网络模型引入了时间和空间注意力机制，从而大大提高了识别效果。

另外，所述将待处理视频切分为若干个视频片段，包括：以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段；将每一个所述镜头片段作为一个视频片段。通过将最小单元的镜头片段作为视频片段，从而可以通过对每一个镜头片段的识别，过滤出通过硬编码植入的广告视频的每一帧图像，进而实现对硬编码植入的广告的过滤。

另外，所述以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段，包括：对所述待处理视频进行遍历，并对遍历到的每一帧图像执行如下操作：将当前帧图像的彩色空间映射到HSV空间，得到所述当前帧图像在所述HSV空间的通道取值；根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头；若属于，则将所述当前帧图像和所述前一帧图像存放在同一个图像集；否则，将所述当前帧图像存放在新的图像集；在对所述待处理视频遍历完后，对于每一个图像集，以镜头为切分单元，按照时间维度将图像集中存放的图像进行合并，得到镜头片段。通过对待处理视频的每一帧图像进行遍历，并对按照上述方式对每一帧图像进行处理，从而在遍历结束后，便可以将待处理视频切分成多个镜头片段，保证了每一帧图像都有对应的镜头。

另外，所述将当前帧图像的彩色空间映射到HSV空间，得到所述当前帧图像在所述HSV空间的通道取值，包括：将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值；将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值；将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值；将所述色调取值、所述饱和度取值和所述明度取值中的任意一个或多个作为所述当前帧图像在所述HSV空间的通道取值。

另外，所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头，包括：根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值；判断所述HSV均值是否小于预设阈值；若小于，则确定所述当前帧图像与所述前一帧图像属于同一个镜头；否则，确定所述当前帧图像与所述前一帧图像不属于同一个镜头。

另外，所述通道取值包括所述色调取值；或者所述饱和度取值；或者所述明度取值；所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值，包括：在所述通道取值包括所述色调取值时，计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值，并将所述色调均方差值作为HSV均值；在所述通道取值包括饱和度取值时，计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值，并将所述饱和度均方差值作为HSV均值；在所述通道取值包括明度取值时，计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值，并将所述明度均方差值作为HSV均值。本实施例给出了在所述通道取值为所述色调取值、所述饱和度取值和所述明度取值中的任一项时，获得HSV均值的具体方式。

另外，所述通道取值包括所述色调取值和所述饱和度取值；或者所述色调取值和所述明度取值；或者所述饱和度取值和所述明度取值；所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值，包括：在所述通道取值包括所述色调取值和所述饱和度取值时，计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值；计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值；对所述色调均方差值和所述饱和度均方差值求平均，得到HSV均值；在所述通道取值包括所述色调取值和所述明度取值时，计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值；计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值；对所述色调均方差值和所述明度均方差值求平均，得到HSV均值；在所述通道取值包括所述饱和度取值和所述明度取值时，计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值；计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值；对所述饱和度均方差值和所述明度均方差值求平均，得到HSV均值。本实施例给出了在所述通道取值为所述色调取值、所述饱和度取值和所述明度取值中的任两项时，获得HSV均值的具体方式。

另外，所述通道取值包括所述色调取值、所述饱和度取值和所述明度取值；所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值，包括：计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值；计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值；计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值；对所述色调均方差值、所述饱和度均方差值和所述明度均方差值求平均，得到HSV均值。本实施例给出了在所述通道取值为所述色调取值、所述饱和度取值和所述明度取值时，获得HSV均值的具体方式。

另外，所述利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，得到所述待处理视频中包含的广告视频的开始时间和结束时间，包括：利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出广告场景；根据所述广告场景的开始帧，确定所述待处理视频中包含的广告视频的开始时间；根据所述广告场景的结束帧，确定所述待处理视频中包含的广告视频的结束时间。由于一个完整的视频是由多个相关的场景构成的，因而通过利用预设的深度卷积网络模型对各视频片段的分析处理，筛选出广告场景，进而根据广告场景的开始帧和结束帧来确定广告视频的开始时间和结束时间，从而可以快速定位待处理视频中由关联广告场景构成的广告视频。

另外，所述深度卷积网络模型包括特征提取模块、时间注意力模块、空间注意力模块和损失函数模块；所述利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出广告场景，包括：利用所述特征提取模块、所述时间注意力模块和所述空间注意力模块，获取每一个视频片段的视频特征；利用所述损失函数模块对各视频片段的视频特征进行分析处理，筛选出广告场景。

另外，所述利用所述特征提取模块、所述时间注意力模块和所述空间注意力模块，获取每一个视频片段的视频特征，包括：对于每一个视频片段，从所述视频片段中采样N帧图像，并将采样到的所述N帧图像裁剪到预设大小，得到输入对象；将所述输入对象输入所述特征提取模块，经所述特征提取模块分析处理，得到图像大小缩小到预设比例的四维度轴的特征图F_b；其中，所述预设比例根据选取的预设深度卷积网络算法确定；将所述特征图F_b输入所述时间注意力模块，经所述时间注意力模块分析处理，得到四维度轴的时间权重W_t；将所述特征图F_b和所述时间权重W_t逐元素相乘，并按照第一维的时间轴相加，得到时间上融合的四维度轴的时间特征F_t；将所述时间特征F_t输入所述空间注意力模块，经所述空间注意力模块分析处理，得到四维度轴的空间权重W_s；将所述时间特征F_t和所述空间权重W_s逐元素相乘，并分别按照第二维和第三维的空间轴相加，得到四维度轴的空间特征F_s；将所述空间特征F_s作为所述视频片段的视频特征。深度卷积网络模型中通过嵌入时间注意力模块，有效弱化了模糊帧的影响，通过嵌入空间注意力模块，大大加强了对广告的关注，从而保证了提取出的视频特征能够更加准确的反应视频片段的特征，进而提高了广告识别的效果。

另外，所述利用所述损失函数模块对各视频片段的视频特征进行分析处理，筛选出广告场景，包括：利用所述损失函数模块对各视频片段的视频特征进行分析处理，以场景为单位，将相同场景的视频片段合并为一个场景；利用所述损失函数模块对各场景进行分析处理，得到各场景中包含的镜头片段的预测结果；其中，所述预测结果为广告或正片；统计各场景中预测结果为广告的镜头片段的数量，得到广告镜头数量；若所述广告镜头数量满足预设条件，则确定对应的场景为广告场景。通过上述描述可知，本申请实施例提供的深度卷积网络模型不仅可以识别视频片段是否为广告，还可以比较两个视频片段是否属于同一个场景，即实现了多任务识别，使得本申请实施例提供的视频广告过滤方法能够适用于多种业务场景。

另外，所述利用所述损失函数模块对各视频片段的视频特征进行分析处理，以场景为单位，将相同场景的视频片段合并为一个场景，包括：对各视频片段进行遍历，利用所述损失函数模块，根据任意两个视频片段的视频特征确定两个视频片段之间的欧式距离；将欧式距离小于预设阈值的视频片段合并为一个场景。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本申请第一实施例的视频广告过滤方法的具体流程图；

图2是根据本申请第二实施例的视频广告过滤方法的具体流程图；

图3是根据本申请第三实施例的视频广告过滤装置的结结构示意图；

图4是根据本申请第四实施例的视频广告过滤设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

第一实施例涉及一种视频广告过滤方法，应用于视频广告过滤设备，在实际应用中，视频广告过滤设备可以为任意客户端终端，比如平板电脑、手机、个人计算机等，此处不再一一列举，本实施例对此也不做限制。

下面对本实施例的视频广告过滤方法的实现细节进行说明，以下内容仅为方便理解而提供的实现细节，并非实施本方案的必须。

本实施例的具体流程如图1所示，具体包括以下步骤：

步骤101，将待处理视频切分为若干个视频片段。

为了便于理解本实施例提供的视频广告过滤方法，以下先对“镜头”和“场景”进行介绍。

具体的说，所谓“镜头”，是指一个摄像镜头不切换的情况下，拍摄的连续画面；所谓“场景”，是指电影、戏剧作品中的各种场面，由人物活动和背景等构成。并且，在实际应用中，每一个场景可以认为是描述了一个内容连贯，并且相对独立的视频片段。

此外，应当理解的是，通常情况下，一个视频是由多个场景构成的，而一个场景又是由多个镜头构成的。即，多个相关的镜头片段构成了一个场景，多个相关的场景片段构成了一个完整的视频。

基于此，为了能够从任意编码形式的视频中过滤掉***的视频广告，比如硬编码方式植入的视频广告或者互联网上动态植入的视频广告，本实施例在将待处理视频，即需要过滤掉视频广告的视频切分成若干个视频片段时，具体是以镜头为切分单元，通过将待处理视频按照时间维度进行分隔，进而得到按照时间维度顺序排布的若干个连续的镜头片段，最终将每一个镜头片段作为一个视频片段。

也就是说，在本实施例中，用于输入步骤102中所说的深度卷积网络模型的视频片段，实质是根据每一个镜头分隔得到的镜头片段。

为了便于理解上述所说的以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段的操作，本实施例给出一种具体的镜头分隔方式，具体如下：

(1)对所述待处理视频进行遍历。

具体的说，上述所说的对所述待处理视频的遍历，具体是以帧为单位进行遍历，即需要遍历到所述待处理视频中的每一帧图像。

(2)对遍历到的每一帧图像执行如下操作：

(2.1)将当前帧图像的彩色空间映射到HSV空间，得到所述当前帧图像在所述HSV空间的通道取值。

应当理解的是，上述所说的HSV空间，即通常所说的由色调(Hue)通道、饱和度(Saturation)通道和明度(Value)通道组成的颜色模型空间。

相应地，上述所说的将当前帧图像，即遍历到的每一帧图像的采样空间映射到HSV空间，以获得所说当前帧图像在HSV空间的通道取值的操作，具体是指将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值；将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值；将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值；最后将所述色调取值、所述饱和度取值和所述明度取值中的任意一个或多个作为所述当前帧图像在所述HSV空间的通道取值。

也就是说，本实施例中所说的通道取值是由上述三种通道对应的取值随机组合构成的。

此外，值得一提的是，在实际应用中，为了尽可能简化处理逻辑，可以预先觉得通道取值由HSV空间的哪几个通道对应的取值构成，从而在将当前帧图像的彩色空间映射到HSV空间时，仅将当前帧图像的彩色空间映射到对应的通道，为了便于理解，以下分别针对几种获取通道取值的方式进行说明：

方式一：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值。

然后，将所述色调取值作为所述当前帧图像在所述HSV空间的通道取值。

方式二：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值。

然后，将所述饱和度取值作为所述当前帧图像在所述HSV空间的通道取值。

方式三：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值。

然后，将所述明度取值作为所述当前帧图像在所述HSV空间的通道取值。

方式四：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值；将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值。

然后，将所述色调取值和所述饱和度取值作为所述当前帧图像在所述HSV空间的通道取值。

方式五：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值；将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值。

然后，将所述色调取值和所述明度取值作为所述当前帧图像在所述HSV空间的通道取值。

方式六：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值；将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值。

然后，所述饱和度取值和所述明度取值作为所述当前帧图像在所述HSV空间的通道取值。

方式七：

首先，将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值；将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值；将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值。

然后，将所述色调取值、所述饱和度取值和所述明度取值作为所述当前帧图像在所述HSV空间的通道取值。

(2.2)根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头。

具体的说，若通过判断，确定所述当前帧帧图像与所述前一帧图像属于同一个镜头，则将所述当前帧图像和所述前一帧图像存放在同一个图像集；否则，将所述当前帧图像存放在新的图像集。

关于步骤(2.2)中所说的根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头，具体是根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值；然后，判断所述HSV均值是否小于预设阈值；最终，若所述HSV均值小于预设阈值，则确定所述当前帧图像与所述前一帧图像属于同一个镜头；否则，即所述HSV均值大于或等于预设阈值时，确定所述当前帧图像与所述前一帧图像不属于同一个镜头。

也就是说，当HSV均值大于或等于预设阈值时，说明当前帧已经跳变到了另一个镜头，故而当前帧图像，即第一图像已经变成了另一个镜头的图像。

此外，应当理解的是，关于上述所获的预设阈值，在实际应用中，具体可以由本领域技术人员根据需要提前设置，本实施例对此不作限制。

也就是说，通过上述操作，可以将属于相同镜头的每一帧图像存放在同一个图像集中，将不属于同一个镜头的图像单独存放在一个图像集中，从而实现了对待处理视频中每一帧图像对应的镜头的划分。

为了便于理解，以下结合实例进行说明：

假设待处理视频是一个时长为10分钟的视频，并且该待处理视频的帧速率为每秒30帧，则在判断所述当前帧图像是否与所述前一帧图像属于同一个镜头时，如果第一秒中的30张帧图像均属于同一个镜头，则将这30张帧图像存放在同一个图像集中，如果前第28帧(包括第28帧)对应的帧图像均属于同一个镜头，但第28帧对应的帧图像与第29帧对应的帧图像不属于同一个镜头，则将前28张帧图像存放在同一个图像集(为了便于说明，以下称为第一图像集)中，将第29帧对应的帧图像存放在另一个图像集(为了便于说明，以下称为第二图像集)，接着如果第30帧对应的帧图像与第29帧对应的图像帧不属于同一个镜头，则将第30帧对应的帧图像存放在第三图像集。

也就是说，只要遍历到的当前帧图像与之前遍历过的任意一帧对应的帧图像不相同，即不属于同一个镜头，则将遍历到的当前帧图像单独存放在一个新的图像集，否则存放到对应相同镜头的图像集中。

应当理解的是，上述示例仅是为了更好地理解本实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

进一步地，通过步骤(2.1)的描述可知，本实施例中所说的通道取值是由色调取值、饱和度取值和明度取值中的任意一个或多个组成的，即上述给出的7种情况。故而，上述所说的根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头的操作，具体是基于组成通道取值的具体参数进行的。

为了便于区分和描述，以下将与当前帧图像相关的信息用“第一”来表示，将当前帧图像的前一帧图像的相关信息用“第二”来表示，如第一图像表示当前帧图像，第一通道取值表示当前帧图像在所述HSV空间的通道取值，第二图像表示当前帧图像的前一帧图像，第二通道取值表示当前帧图像的前一帧图像在所述HSV空间的通道取值。

相应地，第一通道取值下的三个参数可以表示为第一色调取值，第一饱和度取值和第一明度取值；第二通道取值下的三个参数可以表示为第二色调取值，第二饱和度取值和第二明度取值。

基于此，上述所说的根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值的操作，针对上述给出的确定通道取值的7种方式，分为如下三大类：

第一类：通道取值由所述色调取值、所述饱和度取值和所述明度取值中的任一个构成的情况，HSV均值的计算分为如下三种：

①在所述通道取值包括所述色调取值，即所述通道取值仅由所述色调取值构成的情况：

首先，计算第一色调取值和第二色调取值的均方差，得到色调均方差值。

然后，将所述色调均方差值作为HSV均值。

②在所述通道取值包括饱和度取值，即所述通道取值仅由所述饱和度取值构成的情况：

首先，计算第一饱和度取值和第二饱和度取值的均方差，得到饱和度均方差值。

然后，将所述饱和度均方差值作为HSV均值；

③在所述通道取值包括明度取值，即所述通道取值仅由所述明度取值构成的情况：

首先，计算第一明度取值和第二明度取值的均方差，得到明度均方差值。

然后，将所述明度均方差值作为HSV均值。

第二类：通道取值由所述色调取值、所述饱和度取值和所述明度取值中的任意两个构成的情况，HSV均值的计算分为如下三种：

①在所述通道取值包括所述色调取值和所述饱和度取值，即所述通道取值由所述色调取值和所述饱和度取值共同构成的情况：

首先，计算第一色调取值与第二色调取值的均方差，得到色调均方差值；计算第一饱和度取值和第二饱和度取值的均方差，得到饱和度均方差值。

然后，对所述色调均方差值和所述饱和度均方差值求平均，得到HSV均值；

②在所述通道取值包括所述色调取值和所述明度取值，即所述通道取值由所述色调取值和所述明度取值共同构成的情况：

首先，计算第一色调取值与第二色调取值的均方差，得到色调均方差值；计算第一明度取值和第二明度取值的均方差，得到明度均方差值。

然后，对所述色调均方差值和所述明度均方差值求平均，得到HSV均值；

③在所述通道取值包括所述饱和度取值和所述明度取值，即所述通道取值由所述饱和度取值和所述明度取值共同构成的情况：

首先，计算第一饱和度取值和第二饱和度取值的均方差，得到饱和度均方差值；计算第一明度取值和第二明度取值的均方差，得到明度均方差值。

然后，对所述饱和度均方差值和所述明度均方差值求平均，得到HSV均值。

第三类：通道取值由所述色调取值、所述饱和度取值和所述明度取值这三个取值共同构成的情况，HSV均值的计算如下：

首先，计算第一色调取值和第二色调取值的均方差，以获得色调均分差值；第一饱和度取值与第二饱和度取值的均方差，以获得饱和度均方差值；第一明度取值与第二明度取值的均方差，以获得饱和度均方差值。

然后，对所述色调均方差值、所述饱和度均方差值和所述明度均方差值求平均，进而得到HSV均值。

(3)在对所述待处理视频遍历完后，对于每一个图像集，以镜头为切分单元，按照时间维度将图像集中存放的图像进行合并，得到镜头片段。

为了便于理解，以下结合实例进行说明：

假设，通过上述步骤(1)和步骤(2)给出的操作对待处理视频进行处理后，得到了A、B、C三个图像集。其中，图像集A中存放了图像a1、图像a2、图像a3和图像a4，图像集B中存放了图像b1、图像b2和图像b3，图像集C中存放了图像c1、图像c2、图像c3、图像c4和图像c5。

如果图像集A、图像集B和图像集C中存放的图像的顺序均是按照时间维度，即时间轴顺序排列的，则对于图像集A，以镜头为切分单元，按照时间维度将其中存放的图像进行合并，得到的镜头片段可以表示为a1a2a3a4。

相应地，根据图像集B中存放的图像得到的镜头片段可以表示为b1b2b3；根据图像集C中存放的图像得到的镜头片段可以表示为c1c2c3c4c5。

步骤102，利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，得到所述待处理视频中包含的广告视频的开始时间和结束时间。

通过步骤101处对“视频”、“场景”、“镜头”的介绍可知，待处理视频是由多个相关的场景片段构成的。

也就是说，组成待处理视频的广告视频和正片视频分别是由多个相关的场景片段构成的。

故而，为了确定待处理视频中包含的广告视频的开始时间和结束时间，只需利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出构成广告视频的广告场景，然后根据所述广告场景的开始帧，确定所述待处理视频中包含的广告视频的开始时间，根据所述广告场景的结束帧，确定所述待处理视频中包含的广告视频的结束时间即可。

此外，值得一提的是，为了使得预设的深度卷积网络模型既可以实现对视频片段的特征提取，使深度卷积网络模型具备自学习和自适应的特性，又可以使深度卷积网络模型能够关注信息更丰富的图像帧(或称：视频帧)，弱化模糊帧对识别结果的影响，以及关注广告的空间位置区域，以减少背景的干扰，同时又可以实现多任务识别，如识别输入的视频片段是否为广告，以及比较两个视频片段是否属于同一个场景。本实施例中预先训练获得的深度卷积网络模型主要包括基于预设的深度卷积网络算法构建的特征提取模块、基于时间注意力机制构建的时间注意力模块、基于空间注意力机制构建的空间注意力模块、基于预设损失函数构建的损失函数模块。

应当理解的是，在实际应用中，上述所说的关注广告的空间位置区域的操作，具体可以根据广告的标识信息，比如在某一个视频中，如果视频整体是针对某一景区的，但是在某一位置存在一个与景区完全不相干的产品的图片、名称等，对于这种情况，就可以将这类标识信息作为识别广告的一个依据。

相应地，上述所说的利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，进而筛选出广告场景的操作，具体为：首先，利用所述特征提取模块、所述时间注意力模块和所述空间注意力模块，获取每一个视频片段的视频特征；然后，利用所述损失函数模块对各视频片段的视频特征进行分析处理，筛选出广告场景。

通过上述描述可知，时间注意力模块是基于时间注意力机制构建的，空间注意力模块是基于空间注意力机制构建的。故而，在利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理时，通过时间注意力模块便可以实现时间维度的分析处理，通过空间注意力模块便可以实现空间维度的分析处理。

此外，应当理解的是，在实际应用中，为了保证上述步骤102的正常执行，在执行上述步骤之前，需要预先基于预设的深度卷积网络算法、时间注意力机制、空间注意力机制和损失函数，构建对应的模块，并利用预设的样本数据对构建的训练模型中的各模块进行迭代训练，直到训练结果满足预设条件为止，最后将满足预设条件时刻的训练模型作为深度卷积网络模型。

关于深度卷积网络模型的训练，本领域技术人员可以自行查阅相关算法实现，本实施例不再赘述。

步骤103，根据所述开始时间和所述结束时间，将所述广告视频从所述待处理视频中删除。

具体的说，上述所说的根据所述开始时间和所述结束时间，将所述广告视频从所述待处理视频中删除，实质就是将深度卷积网络模型识别为广告场景的片段删除。

在实际应用中，在将广告视频从待处理视频中删除时，可以使用现有的视频编辑工具实现对视频的裁剪，进而将广告视频从待处理视频中删除。

比如，要删除待处理视频的前10秒，可以使用ffmpeg(Fast Forward Mpeg，一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序)执行以下命令“ffmpeg-ss 10-i IN.mp4 OUT.mp4”。

通过上述描述不难发现，本实施例中提供的视频广告过滤方法，通过利用基于深度卷积网络算法训练获得的深度卷积网络模型，对待处理视频分隔出的各视频片段进行分析处理，进而根据识别出的广告视频的开始时间和结束时间，将广告视频从待处理视频中删除，不仅实现了对硬编码植入的广告的过滤，同时基于深度卷积网络模型的自适应性，可以根据处理的待处理视频进行自我学习和自我调节，使得深度卷积网络模型能够对新增的广告具有更好的识别能力。

本申请的第二实施例涉及一种视频广告过滤方法。第二实施例给出了一种利于预设的深度卷积网络模型，实现从特征提取到广告场景识别的具体实现方式。

为了便于说明，以下结合图2进行说明：

首先，在对待处理视频以镜头为单元，切分成若干个连续的镜头片段之后，将得到的镜头片段分别输入到预设的深度卷积网络模型中，即每一个镜头片段都需要经过图2所示的特征提取、时间注意力、空间注意力、指数归一化损失(softmax loss)和三元组损失(triplet loss)的处理。

接着，对于每一个镜头片段(也就是第一实施例中所说的视频片段)，进行如下处理：

(1)从所述视频片段中采样N帧图像，并将采样到的所述N帧图像裁剪到预设大小，得到输入对象。

为了便于理解，本实施例以输入对象为224×224大小的图像为例，即采样到的所述N帧图像会裁剪到224×224大小。

(2)将所述输入对象输入所述特征提取模块，经所述特征提取模块分析处理，得到图像大小缩小到预设比例的四维度轴的特征图F_b。

具体的说，所述预设比例是根据选取的深度卷积网络算法确定，即构建特征提取模块时所依据的深度卷积网络算法确定的。

需要说明的是，在实际应用中，构建特征提取模块时所依据的深度卷积网络算法，可以是残差网络(Residual Network，ResNet)系列，也可以是Efficientx(一种新型的卷积神经网络CNN，不仅提高了准确性，还提高了效率)系列。

不同系列的算法，构建的特征提取模块支持的卷积核大小不同，故而缩放比例也是不相同的。

比如说，ResNet系列的ResNet50，其对应的缩放比例为32倍，即得到的四维度轴的特征图F_b，相较于输入对象缩小了32倍。

仍以输入对象为224×224大小的图像为例，则所述N帧图像对应的四维度轴的特征图F_b的样式具体为[N×7×7×2048]。

其中，N在第一维度轴、第一个7在第二维度轴、第二个7在第三维度轴、2048在第四维度轴。

此外，应当理解的是，第一个维度轴表示的是时间，第二维度轴表示的是图像的高、第三维度轴表示的是图像的宽，即第二维度轴和第三维度轴表示的是空间，第四维度轴表示的是特征图的数量。

此外，第二维度轴和第三维度轴上的7是表示将输入的224×224大小的图像缩小到7×7。

第四维度轴上的2048为固定值，不论输入图像是多大，缩小倍数是多大，均为2048。

(3)将所述特征图F_b输入所述时间注意力模块，经所述时间注意力模块分析处理，得到四维度轴的时间权重W_t。

需要说明的是，在本实施例中时间注意力模块主要是用于融合N帧图像的信息，考虑到不同帧对最终结果的贡献不同，比如有些帧出现运动模糊会产生干扰信息。因此，通过将四维度轴的特征图F_b输入时间注意力模块，由时间注意力模块使用时间注意力机制权衡各帧图像的重要性。

具体而言，为了保证最终提取出的视频特征的精准性，在特征提取模块提取出的特征为四维度轴的特征图F_b时，为了保证时间注意力模块能够将四维度轴的特征图F_b中的全部特征进行融合，时间注意力模块的卷积核需要为1×1大小，且输出通道为2048的，从而将四维度轴的特征图F_b转换为四维度轴的时间权重W_t。

进一步地，在实际应用中，为了降低计算难度和复杂度，在将四维度轴的特征图F_b经过核为1×1，输出为2048通道的卷积后，还可以利用Sigmoid函数(一种激活函数，常用作神经网络的激活、逻辑回归)对输出结果进行变换，将输出结果映射到0～1之间。

进一步地，为了保证最终提取出的视频特征更加稳定，还可以对经Sigmoid函数变换后的结果进行L1正则化处理，最终将经Sigmoid函数、L1正则化处理后的结果作为四维时间权重W_t。

仍以四维度轴的特征图F_b的样式具体为[N×7×7×2048]为例，则经过核为1×1，输出为2048通道的卷积，且经过上述所说的Sigmoid函数和L1正则化后，得到的四维度轴的时间权重W_t的样式同样为[N×7×7×2048]。

此外，应当理解的是，通过上述描述可知，时间注意力模块除了具备将四维度轴的特征图F_b转换为四维度轴的时间权重W_t的功能，还具备Sigmoid变换和L1正则化功能，因而在构建时间注意力模块时，除了需要基于时间注意力机制构建，还需要基于Sigmoid函数和L1正则化。

(4)将所述四维度轴的特征图F_b和所述四维度轴的时间权重W_t逐元素相乘，并按照第一维度轴的时间轴相加，得到时间上融合的四维度轴的时间特征F_t。

具体的说，上述所说的按照第一维度轴的时间轴相加，具体是指将N帧图像的四维度轴的特征图F_b和N帧图像的四维度轴的时间权重W_t在时间上融合为一帧图像，即得到时间上融合的四维度轴的时间特征F_t。

仍以四维度轴的特征图F_b和四维度轴的时间权重W_t的样式具体为[N×7×7×2048]为例，则最终得到的时间上融合的四维度轴的时间特征F_t的具体样式为[1×7×7×2048]。

(5)将所述四维度轴的时间特征F_t输入所述空间注意力模块，经所述空间注意力模块分析处理，得到四维度轴的空间权重W_s。

需要说明的是，在本实施例中，空间注意力模块主要是用于融合N帧图像中空间位置的信息，比如N帧图像中商标的重要性明细高于其他物体，而背景则往往不包含重要信息。

具体而言，为了保证最终提取出的视频特征的精准性，在时间注意力模块处理获得的是四维度轴的时间特征F_t，为了保证空间注意力模块能够将四维度轴的时间特征F_t中的全部特征都进行处理，空间注意力模块的卷积核同样需要为1×1大小，且输出通道为2048的，从而将四维度轴的时间特征F_t转换为四维度轴的空间权重W_s。

进一步地，在实际应用中，为了降低计算难度和复杂度，在将四维度轴的时间特征F_t经过核为1×1，输出为2048通道的卷积后，还可以利用Sigmoid函数对输出结果进行变换，将输出结果映射到0～1之间。

进一步地，为了保证最终提取出的视频特征更加稳定，还可以对经Sigmoid函数变换后的结果进行L1正则化处理，最终将经Sigmoid函数、L1正则化处理后的结果作为四维度轴的空间权重W_s。

仍以四维度轴的时间特征F_t的样式具体为[1×7×7×2048]为例，则经过核为1×1，输出为2048通道的卷积，且经过上述所说的Sigmoid函数和L1正则化后，得到的四维度轴的空间权重W_s的样式同样为[1×7×7×2048]。

此外，应当理解的是，通过上述描述可知，空间注意力模块除了具备将四维度轴的时间特征F_t转换为四维度轴的空间权重W_s的功能，还具备Sigmoid变换和L1正则化功能，因而在构建空间注意力模块时，除了需要基于空间注意力机制构建，还需要基于Sigmoid函数和L1正则化。

(6)将所述四维度轴的时间特征F_t和所述四维度轴的空间权重W_s逐元素相乘，并分别按照第二维度轴的和第三维度轴的空间轴相加，得到四维度轴的空间特征F_s。

具体的说，上述所说的按照第二维度轴和第三维度轴的空间轴相加，具体是指将经时间注意力模块融合得到的一帧图像的四维度轴的时间特征F_t和一帧图像的四维度轴的空间权重W_s在空间上融合为一帧图像，即得到空间上也融合的四维度轴的时间特征F_t。

仍以四维度轴的时间特征F_t和四维度轴的空间权重W_s的样式具体为[1×7×7×2048]为例，则最终得到的空间上融合的四维度轴的空间特征F_s的具体样式为[1×1×1×2048]。

(7)将所述四维度轴的空间特征F_s作为所述视频片段的视频特征。

不难发现，通过上述步骤(1)至步骤(7)的处理，便完成了图2中特征提取、时间注意和空间注意力这三个阶段的工作。

对于图2中的最后一个阶段，即深度卷积网络模型中的损失函数模块执行的操作，图2具体是借助两种损失函数实现，一种为用于识别输入深度卷积网络模型的镜头片段是广告还是正片的指数归一化损失softmax loss，另一种是用于指导学习比较两个镜头特征的距离的三元组损失triple loss。

具体的说，在得到各视频片段的视频特征，在深度卷积网络模型的损失函数模块中会进行如下处理：

(1)利用所述损失函数模块对各视频片段的视频特征进行分析处理，以场景为单位，将相同场景的视频片段合并为一个场景。

具体的说，在本实施例中，在将相同场景的视频片段合并为一个场景的过程中，是基于欧式距离来判断任意两个视频片段是否属于相同场景，进而将属于相同场景的视频片段合并为一个场景。

为了实现上述操作，需要对各视频片段进行遍历，然后利用所述损失函数模块，根据任意两个视频片段的视频特征确定两个视频片段之间的欧式距离，最后将欧式距离小于预设阈值的视频片段合并为一个场景。

关于上述所说的欧式距离的确定，具体是依据公式(1)计算获得的：

其中，a,p,n∈[1,K]_-，f_1,K表示广告第K个镜头的视频特征，f_2,K表示正片第K个镜头的视频特征，D即为计算获得的欧式距离。

(2)利用所述损失函数模块对各场景进行分析处理，得到各场景中包含的镜头片段的预测结果。

应当理解的是，在实际应用中，待处理视频中包含的视频片段，要么是广告片段，要么是正片片段。故而，经损失函数模块对得到的各场景进行分析处理后，得到的各场景中包含的镜头片段预测结果要么为广告，要么为正片。

也就是说，所述预测结果为广告或正片。

此外，在实际应用中，除了采用“广告”和“正片”来作为预测结果之外，还可以根据约定，采用预设的信息表示广告，采用其他信息标示正片。

关于预测各场景中包含的镜头片段究竟是广告还是正片的操作，具体是利用指数归一化损失softmax loss损失函数实现的。

为了便于实现，本实施例中具体是基于公式(2)来预测各镜头片段的预测结果：

其中，p_i表示第i个镜头的标签，q_i表示第i个镜头的预测结果。

(3)统计各场景中预测结果为广告的镜头片段的数量，得到广告镜头数量。

相应地，若所述广告镜头数量满足预设条件，则确定对应的场景为广告场景，即需要删除的内容；否则，认为当前场景为正片场景，即不需要删除的内容。

关于上述所说的满足预设条件，在本实施例中是指超过场景中包括的镜头片段数量的一半，即对于任一场景，如果有超过一半的镜头片段都预测为广告，则该场景为广告场景，否则为正片场景。

由此，本实施例中提供的视频广告过滤方法，深度卷积网络模型中通过嵌入时间注意力模块，有效弱化了模糊帧的影响，通过嵌入空间注意力模块，大大加强了对广告的关注，从而保证了提取出的视频特征能够更加准确的反应视频片段的特征，进而提高了广告识别的效果。

此外，通过上述描述可知，本申请实施例提供的深度卷积网络模型不仅可以识别视频片段是否为广告，还可以比较两个视频片段是否属于同一个场景，即实现了多任务识别，使得本申请实施例提供的视频广告过滤方法能够适用于多种业务场景。

应当理解的是，上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请第三实施例涉及一种视频广告过滤装置，如图3所示，包括：切分模块301、分析模块302和删除模块303。

其中，切分模块301，用于将待处理视频切分为若干个视频片段；分析模块302，用于利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，得到所述待处理视频中包含的广告视频的开始时间和结束时间；删除模块303，用于根据所述开始时间和所述结束时间，将所述广告视频从所述待处理视频中删除。

此外，在另一个例子中，切分模块301，具体用于以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段；将每一个所述镜头片段作为一个视频片段。

此外，在另一个例子中，所述以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段的操作，具体为：

对所述待处理视频进行遍历，并对遍历到的每一帧图像执行如下操作：

将当前帧图像的彩色空间映射到HSV空间，得到所述当前帧图像在所述HSV空间的通道取值；根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头；若属于，则将所述当前帧图像和所述前一帧图像存放在同一个图像集；否则，将所述当前帧图像存放在新的图像集；

在对所述待处理视频遍历完后，对于每一个图像集，以镜头为切分单元，按照时间维度将图像集中存放的图像进行合并，得到镜头片段。

此外，在另一个例子中，所述将当前帧图像的彩色空间映射到HSV空间，得到所述当前帧图像在所述HSV空间的通道取值的操作，具体为：

将所述当前帧图像的彩色空间映射到所述HSV空间的色调通道，得到色调取值；

将所述当前帧图像的彩色空间映射到所述HSV空间的饱和度通道，得到饱和度取值；

将所述当前帧图像的彩色空间映射到所述HSV空间的明度通道，得到明度取值；

将所述色调取值、所述饱和度取值和所述明度取值中的任意一个或多个作为所述当前帧图像在所述HSV空间的通道取值。

此外，在另一个例子中，所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头，具体为：

根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值；

判断所述HSV均值是否小于预设阈值；

若小于，则确定所述当前帧图像与所述前一帧图像属于同一个镜头；

否则，确定所述当前帧图像与所述前一帧图像不属于同一个镜头。

此外，在另一个例子中，所述通道取值包括所述色调取值；或者所述饱和度取值；或者所述明度取值。

相应地，所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值，具体为：

在所述通道取值包括所述色调取值时，计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值，并将所述色调均方差值作为HSV均值；

在所述通道取值包括饱和度取值时，计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值，并将所述饱和度均方差值作为HSV均值；

在所述通道取值包括明度取值时，计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值，并将所述明度均方差值作为HSV均值。

此外，在另一个例子中，所述通道取值包括所述色调取值和所述饱和度取值；或者所述色调取值和所述明度取值；或者所述饱和度取值和所述明度取值。

在所述通道取值包括所述色调取值和所述饱和度取值时，计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值；计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值；对所述色调均方差值和所述饱和度均方差值求平均，得到HSV均值；

在所述通道取值包括所述色调取值和所述明度取值时，计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值；计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值；对所述色调均方差值和所述明度均方差值求平均，得到HSV均值；

在所述通道取值包括所述饱和度取值和所述明度取值时，计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值；计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值；对所述饱和度均方差值和所述明度均方差值求平均，得到HSV均值。

此外，在另一个例子中，所述通道取值包括所述色调取值、所述饱和度取值和所述明度取值。

计算所述当前帧图像的色调取值和所述前一帧图像的色调取值的均方差，得到色调均方差值；

计算所述当前帧图像的饱和度取值和所述前一帧图像的饱和度取值的均方差，得到饱和度均方差值；

计算所述当前帧图像的明度取值和所述前一帧图像的明度取值的均方差，得到明度均方差值；

对所述色调均方差值、所述饱和度均方差值和所述明度均方差值求平均，得到HSV均值。

此外，在另一个例子中，分析模块302，具体用于利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出广告场景；根据所述广告场景的开始帧，确定所述待处理视频中包含的广告视频的开始时间；根据所述广告场景的结束帧，确定所述待处理视频中包含的广告视频的结束时间。

此外，在另一个例子中，所述深度卷积网络模型具体包括特征提取模块、时间注意力模块、空间注意力模块和损失函数模块。

相应地，所述利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出广告场景的操作，具体为：

对于每一个视频片段，从所述视频片段中采样N帧图像，并将采样到的所述N帧图像裁剪到预设大小，得到输入对象；

将所述输入对象输入所述特征提取模块，经所述特征提取模块分析处理，得到图像大小缩小到预设比例的四维度轴的特征图F_b；其中，所述预设比例根据选取的预设深度卷积网络算法确定；

将所述四维度轴的特征图F_b输入所述时间注意力模块，经所述时间注意力模块分析处理，得到四维时间权重W_t；

将所述四维度轴的特征图F_b和所述四维度轴的时间权重W_t逐元素相乘，并按照第一维度轴的时间轴相加，得到时间上融合的四维度轴的时间特征F_t；

将所述四维度轴的时间特征F_t输入所述空间注意力模块，经所述空间注意力模块分析处理，得到四维度轴的空间权重W_s；

将所述四维度轴的时间特征F_t和所述四维度轴的空间权重W_s逐元素相乘，并分别按照第二维度轴的和第三维度轴的空间轴相加，得到四维度轴的空间特征F_s；

将所述四维度轴的空间特征F_s作为所述视频片段的视频特征。

此外，在另一个例子中，所述利用所述损失函数模块对各视频片段的视频特征进行分析处理，筛选出广告场景的操作，具体为：

利用所述损失函数模块对各视频片段的视频特征进行分析处理，以场景为单位，将相同场景的视频片段合并为一个场景；

利用所述损失函数模块对各场景进行分析处理，得到各场景中包含的镜头片段的预测结果；其中，所述预测结果为广告或正片；

统计各场景中预测结果为广告的镜头片段的数量，得到广告镜头数量；

若所述广告镜头数量满足预设条件，则确定对应的场景为广告场景。

此外，在另一个例子中，所述利用所述损失函数模块对各视频片段的视频特征进行分析处理，以场景为单位，将相同场景的视频片段合并为一个场景的操作，具体为：

对各视频片段进行遍历，利用所述损失函数模块，根据任意两个视频片段的视频特征确定两个视频片段之间的欧式距离；

将欧式距离小于预设阈值的视频片段合并为一个场景。

不难发现，本实施例为与第一或第二实施例相对应的装置实施例，本实施例可与第一或第二实施例互相配合实施。第一或第二实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第一或第二实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本申请的创新部分，本实施例中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本申请第四实施例涉及一种视频广告过滤设备，如图4所示，包括至少一个处理器401；以及，与所述至少一个处理器401通信连接的存储器402；其中，所述存储器402存储有可被所述至少一个处理器401执行的指令，所述指令被所述至少一个处理器401执行，以使所述至少一个处理器401能够执行上述第一或第二实施例所描述的视频广告过滤方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传输给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本申请第五实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述视频广告过滤方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种视频广告过滤方法，其特征在于，包括：

将待处理视频切分为若干个视频片段；

2.根据权利要求1所述的视频广告过滤方法，其特征在于，所述将待处理视频切分为若干个视频片段，包括：

以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段；

将每一个所述镜头片段作为一个视频片段。

3.根据权利要求2所述的视频广告过滤方法，其特征在于，所述以镜头为切分单元，将所述待处理视频按照时间维度分隔成若干个连续的镜头片段，包括：

4.根据权利要求3所述的视频广告过滤方法，其特征在于，所述将当前帧图像的彩色空间映射到HSV空间，得到所述当前帧图像在所述HSV空间的通道取值，包括：

5.根据权利要求4所述的视频广告过滤方法，其特征在于，所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，判断所述当前帧图像是否与所述前一帧图像属于同一个镜头，包括：

判断所述HSV均值是否小于预设阈值；

6.根据权利要求5所述的视频广告过滤方法，其特征在于，所述通道取值包括所述色调取值；或者所述饱和度取值；或者所述明度取值；

所述根据所述当前帧图像在所述HSV空间的通道取值和所述当前帧图像的前一帧图像在所述HSV空间的通道取值，计算HSV均值，包括：

7.根据权利要求5所述的视频广告过滤方法，其特征在于，所述通道取值包括所述色调取值和所述饱和度取值；或者所述色调取值和所述明度取值；或者所述饱和度取值和所述明度取值；

8.根据权利要求5所述的视频广告过滤方法，其特征在于，所述通道取值包括所述色调取值、所述饱和度取值和所述明度取值；

9.根据权利要求1至8中任一项所述的视频广告过滤方法，其特征在于，所述利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，得到所述待处理视频中包含的广告视频的开始时间和结束时间，包括：

利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出广告场景；

根据所述广告场景的开始帧，确定所述待处理视频中包含的广告视频的开始时间；

根据所述广告场景的结束帧，确定所述待处理视频中包含的广告视频的结束时间。

10.根据权利要求9所述的视频广告过滤方法，其特征在于，所述深度卷积网络模型包括特征提取模块、时间注意力模块、空间注意力模块和损失函数模块；

所述利用预设的深度卷积网络模型对各视频片段进行时间维度和空间维度的分析处理，筛选出广告场景，包括：

利用所述特征提取模块、所述时间注意力模块和所述空间注意力模块，获取每一个视频片段的视频特征；

利用所述损失函数模块对各视频片段的视频特征进行分析处理，筛选出广告场景。

11.根据权利要求10所述的视频广告过滤方法，其特征在于，所述利用所述特征提取模块、所述时间注意力模块和所述空间注意力模块，获取每一个视频片段的视频特征，包括：

将所述特征图F_b输入所述时间注意力模块，经所述时间注意力模块分析处理，得到四维度轴的时间权重W_t；

将所述特征图F_b和所述时间权重W_t逐元素相乘，并按照第一维的时间轴相加，得到时间上融合的四维度轴的时间特征F_t；

将所述时间特征F_t输入所述空间注意力模块，经所述空间注意力模块分析处理，得到四维度轴的空间权重W_s；

将所述时间特征F_t和所述空间权重W_s逐元素相乘，并分别按照第二维和第三维的空间轴相加，得到四维度轴的空间特征F_s；

将所述空间特征F_s作为所述视频片段的视频特征。

12.根据权利要求10所述的视频广告过滤方法，其特征在于，所述利用所述损失函数模块对各视频片段的视频特征进行分析处理，筛选出广告场景，包括：

13.根据权利要求12所述的视频广告过滤方法，其特征在于，所述利用所述损失函数模块对各视频片段的视频特征进行分析处理，以场景为单位，将相同场景的视频片段合并为一个场景，包括：

将欧式距离小于预设阈值的视频片段合并为一个场景。

14.一种视频广告过滤设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至13中任一项所述的视频广告过滤方法。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的视频广告过滤方法。