CN112312205B

CN112312205B - 一种视频处理方法、装置、电子设备和计算机存储介质

Info

Publication number: CN112312205B
Application number: CN202011133421.3A
Authority: CN
Inventors: 禹常隆; 田植良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2024-03-22
Anticipated expiration: 2040-10-21
Also published as: CN112312205A

Abstract

本申请实施例提供了一种视频处理方法、装置、电子设备和计算机存储介质，其中方法包括：获取待处理视频，所述待处理视频包括多个待处理视频片段；与所述待处理视频具有关联关系的目标候选视频集合，所述目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段；提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征；根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签，有效提升视频的视频内容标签识别过程的自动化以及智能化程度，提高了对视频片段的识别效率和标注的准确度。

Description

一种视频处理方法、装置、电子设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、电子设备和计算机存储介质。

背景技术

目前，随着各种视频播放器的发展，用户可以通过各种视频播放器观看视频，但是现在的某些视频中会嵌入部分广告，导致用户在观看过程中必须观看，无法进行跳过，有时候可能会无意识地看完广告才发现，导致用户的观看体验不好。

针对上述存在的问题，现有的解决方案是通过人工的方式对视频的内嵌广告过滤，具体过程可以是：把过滤广告的任务发布到视频平台，当用户发现存在内嵌广告时，可以对广告片段进行标注过滤。通过人工的方式无法实现设备自动智能化筛选视频的广告片段，导致广告片段识别的自动化程度低下。

发明内容

本申请实施例提供了一种视频处理方法、装置、电子设备和计算机存储介质，可以自动识别视频中视频片段，有效提升视频的视频内容标签识别过程的自动化以及智能化程度，且可提高对视频片段的识别效率和标注的准确度。

本申请实施例一方面提供了一种视频处理方法，包括：

获取待处理视频，所述待处理视频包括多个待处理视频片段；

获取与所述待处理视频具有关联关系的目标候选视频集合，所述目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段；

提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征；

根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签。

本申请实施例一方面提供了一种视频处理装置，包括：

获取模块，用于获取待处理视频，所述待处理视频包括多个待处理视频片段；

所述获取模块，还用于获取与所述待处理视频具有关联关系的目标候选视频集合，所述目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段；

提取模块，用于提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征；

确定模块，用于根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签。

本申请实施例一方面提供了一种电子设备，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述所述的视频处理方法。

本申请实施例一方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现上述所述的视频处理方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被电子设备的处理器执行时，执行上述所述的视频处理方法。

在本申请实施例中，电子设备可以获取与待处理视频具有关联关系的目标候选视频集合，并自动识别待处理视频中视频片段特征和候选视频的候选视频特征，进一步根据与待处理视频相关联的候选视频特征可以准确地确定出待处理视频片段的视频内容标签。上述可知，本申请不需要人工参与，由电子设备自动识别视频片段的视频内容标签，有效提升视频的视频内容标签识别过程的自动化以及智能化程度，提高了对待处理视频片段的识别效率和标注的准确性；进一步地，本申请基于与当前待处理视频相关的目标候选视频来确定视频片段的内容标签，不仅可以丰富视频内容标签的识别方式，还可以提高识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理方法的流程示意图；

图2是本申请实施例提供的一种分类模型的结构示意图；

图3是本申请实施例提供的一种视频处理的流程示意图；

图4是本申请实施例提供的一种视频自回归模型的结构示意图；

图5是本申请实施例提供的一种视频处理装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的视频处理方法涉及人工智能中的计算机视觉技术，可以根据视频和与视频相关联的至少一个目标候选视频，可以自动准确地确定出视频中每个视频片段的视频内容标签，提高对视频片段标注的准确性，进而有利于后续根据视频内容标签对每个视频片段进行处理。在具体实现中，电子设备可以获取待处理视频，并获取与待处理视频相关联的至少一个目标候选视频，其中，待处理视频包括多个待处理视频片段，任一目标候选视频包括多个目标候选视频片段，进一步地，电子设备可以提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征，并根据每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定每个待处理视频片段的视频内容标签。

在一种可行的实施例中，当某个视频播放平台需要播放视频时，电子设备可以先判断需要播放的视频是否存在内嵌广告，其中，该内嵌广告是指将广告嵌入在一段视频中，该广告可以理解为与该段视频不一致的内容，例如该广告可以是具有一定宣传性质的内容(如在视频中嵌入宣传某种产品内容)。首先，电子设备通过视频播放平台获取需要播放的视频，并获取与该视频非常相似的候选视频，然后电子设备确定需要播放的视频包括的多个播放视频片段中每个播放视频片段的特征，以及候选视频包括多个候选视频片段中每个候选视频片段的特征，并将每个播放视频片段的特征与所有候选视频片段的特征进行对比，根据对比结果为每个播放视频片段添加视频内容标签。

进一步地，电子设备可根据每个播放视频片段的视频内容标签对每个播放视频片段进行处理，若播放视频片段为内嵌广告视频内容标签，则可以将该播放视频片段删除；若播放视频片段为正常视频内容标签，则可以将该播放视频片段保留。

请参阅图1，图1为本申请实施例提供的一种视频处理方法的流程示意图。该方法可由电子设备执行，该电子设备可以是不同播放器，本实施例中所描述的视频处理方法，包括以下步骤：

S101、获取待处理视频，该待处理视频包括多个待处理视频片段。

其中，待处理视频可以是指视频播放平台或者播放器播放的视频，如待处理视频可以是当前特定播放器播放的搞笑视频、美食视频等。

在一种可行的实施例中，电子设备获取待处理视频，并对该待处理视频进行分割处理，得到多个待处理视频片段。在具体实现中，可以预先设置针对待处理视频的分割规则，电子设备根据该分割规则对待处理视频进行分割处理，得到多个待处理视频片段。例如，该分割规则为将待处理视频分割为每5秒分一个待处理视频片段。若该待处理视频为2分钟，电子设备按照分割规则可以将待处理视频按照每5秒分割，则可以得到24个待处理视频片段。

S102、获取与待处理视频具有关联关系的目标候选视频集合，目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段。

在具体实现中，电子设备可以先根据待处理视频从网站或视频播放平台等途径获取候选视频集合，并将获取到的候选视频集合经过标题信息、视频时长和视频帧图像进行三次筛选处理，从而得到与待处理视频具有关联关系的目标候选视频集合，可以理解的是，这里涉及的关联关系是指目标候选集合中每个目标候选视频与待处理视频在视频内容、视频时长方面高度相似，或者说基本一致。例如，如果待处理视频为短视频，那么需要获取的目标候选视频集合中的每个候选视频都应该是与待处理视频视频内容相同(或视频内容一致)的短视频，且短视频的视频时长基本一致。一般来说，获取的目标候选视频集合中目标候选视频应该是待处理视频未嵌入广告的版本，或者待处理视频嵌入别的广告的版本。

需要说明的是，将目标候选视频集合中任一目标候选视频分割成多个目标候选视频片段可以参照将待处理视频分割成多个待处理视频片段的处理流程，在此不再赘述。

S103、提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征。

其中，待处理视频特征可以代表待处理视频片段的内容信息，目标候选视频特征可以代表目标候选视频的内容信息。

在一种可行的实施例中，在提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征之前，电子设备可以预先训练一个分类模型，该分类模型结构如图2所示，针对分类模型的训练方式是：给3D卷积神经网络(3D-Convolutional Neural Networks，3D-CNN)加上一个全联通层，然后让该分类模型做分类任务。其中，可以利用有监督的数据进行分类任务，该监督的数据是指有标注视频片段的类别的数据。例如，以视频片段进行分类任务，在做该分类任务的过程中，可将视频片段作为输入，通过3D CNN处理后得到视频向量，并将该视频向量通过非线性变换和全联通层进行处理，从而实现对视频片段所属的类别做一个预测，并根据该视频片段的预测结果和真实标注结果的区别进行反馈学习，更新分类模型的参数，从而完成对分类模型的训练。

进一步地，在训练好分类模型后，电子设备可以利用分类模型中的3D CNN提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征。

S104、根据每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定每个待处理视频片段的视频内容标签。

其中，视频内容标签包括正常视频内容标签和内嵌广告视频内容标签，该正常视频内容标签用于指示待处理视频片段为用户想要观看的视频片段，该内嵌广告视频内容标签用于指示该待处理视频片段为广告(用户不想观看的视频片段)。

在一种可行的实施例中，为了能够确定出每个待处理视频片段的视频内容标签，电子设备可以为多个待处理片段设置轮询优先级，根据轮询优先级从多个待处理视频片段中选择用于当前轮询的目标待处理视频片段，进一步地，电子设备确定目标待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征之间的多个第一相似度。若多个第一相似度中存在至少一个第一相似度大于第一阈值，则将目标待处理视频片段的视频内容标签设置为正常视频内容标签，当所有待处理视频片段都被作为目标待处理视频片段时，停止轮询。其中，第一相似度的数量应该与目标候选视频片段的数量相同，因此可以理解的是，当目标候选视频片段为3个，则电子设备可以确定出当前轮询的目标待处理视频片段和3个目标候选视频片段的目标候选视频特征之间的3个第一相似度。在具体实现中，可以预先设置轮询优先级和第一阈值，轮询优先级和第一阈值可以根据经验或需求进行设置。电子设备在为多个待处理片段设置轮询优先级，根据轮询优先级从多个待处理视频片段中选择用于当前轮询的目标待处理视频片段，并计算目标待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征之间的多个第一相似度之后，可以判断每个第一相似度是否大于第一阈值，若多个第一相似度中存在至少一个大于第一阈值的第一相似度，说明在所有目标候选视频中能够找到和当前轮询的目标待处理视频片段一致的视频片段，则可以认为该目标待处理视频片段一定是正常视频片段不是内嵌广告，并将该目标待处理视频片段的视频内容标签设置为正常视频内容标签。若在多个第一相似度中都不存在大于第一阈值的第一相似度，说明在所有目标候选视频中无法找到当前轮询的目标待处理视频这样的视频片段，则可以认为该目标待处理视频片段一定是内嵌广告。电子设备将目标待处理视频片段的视频内容标签设置为内嵌广告视频内容标签。进一步地，电子设备可以按照轮询优先级可以确定每一个待处理视频片段的视频内容标签，当所有待处理视频片段都被作为目标待处理视频片段，停止轮询。

例如，实例性地给出待处理视频片段的数量为2个，分别为待处理视频片段1、待处理视频片段2，目标候选视频的数量为5个，第一阈值为0.96。电子设备为这两个待处理视频片段设备轮询优先级，设2个待处理视频片段的轮询优先级为待处理视频视频2的优先级高于待处理视频片段1。电子设备根据轮询优先级可以从2个待处理视频片段中选择用于当前轮询的待处理视频片段2。电子设备可以确定待处理视频片段2的待处理视频特征与5个目标候选视频的目标候选视频特征的5个第一相似度，并判断5个第一相似度是否大于0.96，若在5个第一相似度中存在至少一个大于0.96的第一相似度，则将待处理视频片段2的视频内容标签设置为正常视频内容标签；若在5个第一相似度中不存在大于0.96的第一相似度，则将待处理视频片段2的视频内容标签设置为内嵌广告视频内容标签。

当确定待处理视频片段2的视频内容标签后，电子设备根据设置的轮询优先级，可以从2个待处理视频片段中选择用于当前轮询的待处理视频片段1，电子设备可以确定待处理视频片段1的待处理视频特征与5个目标候选视频的目标候选视频特征的5个第一相似度，并判断5个第一相似度是否大于0.96，若在5个第一相似度中存在至少一个大于0.96的第一相似度，则将待处理视频片段1的视频内容标签设置为正常视频内容标签；若在5个第一相似度中不存在大于0.96的第一相似度，则将待处理视频片段1的视频内容标签设置为内嵌广告视频内容标签。当这两个待处理视频片段都作为目标待处理视频片段时，且这两个待处理视频片段都确定了视频内容标签后，停止轮询。

在一种可行的实施例中，电子设备在将所有待处理视频片段的视频内容标签都设置完成后，可以将视频内容标签为正常视频内容标签的待处理视频片段保留，并删除内嵌广告视频内容标签的待处理视频片段，从而实现保证待处理视频中没有内嵌广告。

在一种可行的实施例中，为了确保能够准确地删除内嵌广告视频内容标签的待处理视频片段，电子设备可以在将所有待处理视频片段都设置完成视频内容标签后，将多个待处理视频片段组合为多个视频段，并确定每个视频段包含的待处理视频片段的视频内容标签为正常视频内容标签的正常标签数量，以及确定每个视频段包含的待处理视频片段的片段数量，进而根据每个视频段的正常标签数量和每个视频段的片段数量，确定每个视频段的正常标签比重；并判断正常标签表比重是否小于第二阈值，若正常标签比重小于第二阈值，则删除正常标签比重小于第二阈值的视频段。其中，正常标签比重小于阈值可以理解为在该视频段中基本上是内嵌广告。

在具体实现中，电子设备可以在将所有待处理视频片段都设置完成视频内容标签后，按照组合规则将多个待处理视频片段组合为多个视频段。其中，该组合规则可以按照实际需求进行设置。例如，设组合规则为将多个待处理视频片段以30秒组合为多个视频段。在步骤S101中，每个待处理视频片段为5秒，一共有24个待处理视频片段，此时按照组合规则将24个待处理视频片段进行组合，则可以组合为4个视频段，每个视频段中包括6个待处理视频片段。进一步地，电子设备可以确定每个视频段包含的待处理视频片段的视频内容标签为正常视频内容标签的正常标签数量，以上述4个视频段中的一个为例，若电子设备确定出该视频段中6个待处理视频片段的视频内容标签为正常视频内容标签的正常标签数量为0，那么电子设备根据该视频段的正常标签数量0和该视频段的片段数量6，确定出该视频段的正常标签比重为0，该正常标签表比重小于第二阈值10％，则删除该视频片段。

需要说明的是，在将多个待处理视频片段组合为多个视频段时需要按照待处理视频片段的顺序进行组合，以保证在删除广告视频内容标签的视频段后待处理视频的完整性。

在本申请实施例中，电子设备可以自动识别待处理视频中视频片段，根据与待处理视频相关联的候选视频可以准确地确定出待处理视频片段的视频内容标签，有效提升视频的视频内容标签识别过程的自动化以及智能化程度，且可提高了对视频片段的识别效率和标注的准确性；进一步地，在确定出待处理视频中包括的待处理视频片段的视频内容标签后，将多个待处理视频片段组合为多个视频段时按照待处理视频片段的顺序进行组合，并计算正常标签比重，能够在确保准确地删除内嵌广告视频内容标签的待处理视频片段的同时，保证在删除广告视频内容标签的视频段后待处理视频的完整性。

请参阅图3，图3为本申请实施例提供的一种视频处理方法的流程示意图。该方法可由电子设备执行，该电子设备可以是不同播放器，本实施例中所描述的视频处理方法，包括以下步骤：

S301、获取待处理视频，该待处理视频包括多个待处理视频片段。

在一种可行的实施例中，电子设备可先根据待处理视频从网站或视频播放平台获取候选视频集合，并执行步骤S302-S304对获取到的候选视频集合进行筛选，以得到目标候选视频。其中，网站可以是指能够播放待处理视频的网站。

S302、根据待处理视频的第一标题信息获取第一候选视频集合，第一候选视频集合包括至少一个第一候选视频。

在具体实现中，电子设备可先利用视频播放平台中的搜索引擎搜索与待处理视频的第一标题信息接近的视频，由经验可知，此时搜索到的与待处理视频的第一标题信息接近的视频一般会按照视频点击率进行排列，即点击率高的视频会排在前面。但是由于本申请实施例中，需要获取的是与待处理视频最相关的第一候选视频集合，因此需要计算待处理视频的第一标题信息和所有与待处理视频的第一标题信息接近的视频的相似度，然后根据计算得到的相似度进行重新排列，以获得第一候选视频集合。

在一种可行的实施例中，电子设备可以根据待处理视频的第一标题信息确定候选视频集合，该候选视频集合包括至少一个候选视频。进一步地，电子设备调用词向量模型对第一标题信息进行处理，得到第一标题信息的句子级别词向量；调用词向量模型对每个候选视频的第二标题信息进行处理，得到每个候选视频的第二标题信息的句子级别词向量。在确定第一标题信息的句子级别词向量和每个候选视频的第二标题信息的句子级别词向量之后，电子设备可确定第一标题信息的句子级别词向量和每个候选视频的第二标题信息的句子级别向量之间的第二相似度，根据第二相似度从候选视频集合中确定第一候选视频集合。在具体实现中，电子设备根据待处理视频的第一标题信息利用视频播放平台进行搜索与待处理视频的第一标题信息接近的视频，得到候选视频集合；电子设备在得到候选视频集合后，可以调用词向量模型(word2vec模型)对待处理视频的第一标题信息和候选视频集合中每个候选视频集合的第二标题信息进行处理，其中，调用词向量模型对第一标题信息进行处理，得到第一标题信息的句子级别词向量的流程可以是：调用词向量模型将待处理视频的第一标题信息中的每个词转换成一个词向量，然后将第一标题信息中的所有词向量加和形成第一标题信息的句子级别词向量。调用词向量模型对每个候选视频的第二标题信息进行处理，得到每个候选视频的第二标题信息的句子级别词向量的流程可以是：调用词向量模型将每个候选视频的第二标题信息中的每个词转换成一个词向量，然后将每个候选视频的第二标题信息中的所有词向量加和形成第二标题信息的句子级别词向量。

进一步地，电子设备可将上述第一标题信息的句子级别词向量和每个候选视频的第二标题信息的句子级别向量都计算第二相似度，并根据第二相似度进行重新排序。在根据第二相似度进行排序之后，电子设备可以从候选视频集合中确定大于相似度阈值的第二相似度，并将大于相似度阈值的第二相似度的候选视频确定为第一候选视频集合，其中，相似度阈值可以根据经验或需求进行设置。

S303、根据待处理视频的视频时长和每个第一候选视频的时长，从第一候选视频集合中确定第二候选视频集合，第二候选视频集合包括至少一个第二候选视频。

在具体实现中，电子设备在确定第一候选视频集合后，需要把视频时长严重不匹配的第一候选视频过滤掉，从而得到第二候选视频集合。在一种可行的实施例中，电子设备可以检测待处理视频的视频时长和每个第一候选视频的时长，并确定待处理视频的视频时长和每个第一候选视频的时长之间的时长差距，根据时长差距从第一候选视频集合中确定第二候选视频集合。其中，根据时长差距从第一候选视频集合中确定第二候选视频集合可以是预先根据经验或需求设置时长差距阈值，然后判断待处理视频的视频时长和每个第一候选视频的时长之间的时长差距是否小于时长差距阈值，若存在时长差距小于时长差距阈值，则将时长差距小于时长差距阈值的第一候选视频添加到第二候选视频集合中，从而得到第二候选视频集合。

在另一种可行的实施例中，根据时长差距从第一候选视频集合中确定第二候选视频集合可以是预先根据经验或需求设置时长差距阈值，并确定待处理视频的视频时长和每个第一候选视频的时长之间的时长差距，并根据时长差距与待处理视频确定时长差距百分比，判断待处理视频的视频时长和每个第一候选视频的时长之间的时长差距百分比是否小于时长差距阈值，若存在时长差距百分比小于时长差距阈值，则将时长差距百分比小于时长差距阈值的第一候选视频添加到第二候选视频集合中，从而得到第二候选视频集合。例如，设时长差距阈值为15％，电子设备检测待处理视频的视频时长和每个第一候选视频的时长，并确定待处理视频的视频时长和每个第一候选视频的时长之间的时长差距，并根据时长差距与待处理视频的时长确定时长差距百分比，若存在时长差距百分比小于15％，则将时长差距百分比小于15％对应的第一候选视频添加到第二候选视频集合中。

S304、根据待处理视频的视频帧图像和每个第二候选视频的视频帧图像，从第二候选视频集合中确定目标候选视频集合。

在一种可行的实施例中，电子设备可以将待处理视频和每个第二候选视频输入视频自回归模型中，得到待处理视频的视频帧图像和每个第二候选视频的视频帧图像。进一步地，电子设备可以调用视频自回归模型对待处理视频的视频帧图像进行处理，得到待处理视频的视频级别向量；电子设备可以调用视频自回归模型对每个第二候选视频的视频帧图像进行处理，得到每个第二候选视频的视频级别向量。其中，视频自回归模型的用途是将一个完整视频输入该模型后，会重建出该视频。

在调用视频自回归模型之前，需要对视频自回归模型进行训练，其中，视频自回归模型的架构如图4所示，该视频自回归模型包括卷积神经网络(CNN，Convolutional NeuralNetworks)、循环神经网络(RNN，Recurrent Neural Network)、全联通层、非线性变换。在训练视频自回归模型时，将整个视频输入视频自回归模型，视频自回归模型可以把视频中的每一帧(每一帧可以代表一个时刻)生成对应的视频帧图像，由此可知，一个视频可以得到多张视频帧图像，并将多张视频帧图像一张一张依次输入CNN网络，然后每张视频帧图像都会通过一个CNN网络生成每张视频帧图像的向量，将视频对应的多张视频帧图像的卷积向量组合为卷积向量序列输入循环神经网络RNN中，可以得到该视频的视频级别向量，其中，将经过RNN生成视频的视频级别向量过程称为视频自回归模型中的编码部分。在得到视频的视频级别向量后，需要将视频的视频级别向量进行解码，得到重建图片。在解码时，需要将视频级别向量与上述每张视频帧图像的向量经过视频自回归模型中的还原部分的模型重建出该时刻的原始输入(即在该时刻输入的视频帧图像)。其中还原部分的模型结构是：一个全联通层加一个非线性变换再加一个全联通层。

需要说明的是，最终经过全联通层输出维度的28*28＝784。每个时刻(对应上述每张视频帧图像)输出的结果可以看做是一个28*28的矩阵，矩阵每一个元素代表一个像素点的rgb值(一种颜色标准)。rgb值代表了这个像素点的颜色。28*28的矩阵代表一张视频帧图像长宽分别用28个像素点，所以最终输出的结果是多张视频帧图像。

在一种可行的实施例中，进一步地，电子设备调用视频自回归模型对待处理视频的视频帧图像进行处理，得到待处理视频的视频级别向量只需基于视频自回归模型中的卷积神经网络和循环神经网络对待处理视频的视频帧图像进行处理，得到待处理视频的视频级别向量。在具体实现中，待处理视频的视频帧图像的数量为多个，电子设备基于卷积神经网络对待处理视频的每一张视频帧图像进行卷积处理，得到待处理视频的每一张视频帧图像的卷积向量，并将待处理视频的多张视频帧图像的卷积向量组合为卷积向量序列，其中卷积向量序列包括第一卷积向量和第二卷积向量。然后基于循环神经网络对第一卷积向量进行编码处理，得到第一隐藏特征，进而基于循环神经网络对第一隐藏特征和第二卷积向量进行编码处理，得到待处理视频的视频级别向量。

需要说明的是，其中，由于循环神经网络中一般包括N个隐层，并且下一层的输入包括上一隐层的输出和这一层的输入。因此在本申请实施例中，仅仅实例性地给出基于循环神经网络得到待处理视频的视频级别向量。

在一种可行的实施例中，基于视频自回归模型的卷积神经网络和循环神经网络对每个第二候选视频的视频帧图像进行处理，得到每个第二候选视频的视频级别向量的具体实现过程可参见上述基于视频自回归模型的卷积神经网络和循环神经网络对待处理视频的视频帧图像进行处理，得到待处理视频的视频级别向量的具体实现过程，在此不再赘述。

电子设备在确定待处理视频的视频级别向量和每个第二候选视频的视频级别向量之后，可以确定每个第二候选视频的视频级别向量和待处理视频的视频级别向量之间的第三相似度，并根据第三相似度从第二候选视频集合中确定目标候选集合。在具体实现中，电子设备可以计算每个第二候选视频的视频级别向量和待处理视频的视频级别向量之间的第三相似度，并判断第三相似度是否超过阈值，若存在第三相似度超过阈值，则将超过阈值的第三相似度对应的第二候选视频添加到目标候选视频集合中。

S305、提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征。

S306、根据每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定每个待处理视频片段的视频内容标签。

其中，步骤S305-S306的具体实现方式可参见上述步骤S103-S104，在此不再赘述。

在本申请实施例中，电子设备根据待处理视频的标题信息、视频时长以及视频帧图像对候选视频集合，经过三次筛选，确保得到的目标候选视频集合中每个目标候选视频都是与待处理视频最为相关的视频，从而保证后续根据与待处理视频相关联的候选视频可以准确地确定出待处理视频片段的视频内容标签，提高了对待处理视频片段标注的准确性。

进一步的，请参见图5，其是本申请实施例提供的一种视频处理装置的结构示意图。如图5所示，视频处理装置可以应用于上述图1或图3对应实施例中的电子设备，具体的，视频处理装置可以是运行于电子设备中的一个计算机程序(包括程序代码)，例如视频处理装置为一个应用软件；该视频处理装置可以用于执行本申请实施例提供的方法中的相应步骤。

获取模块501，用于获取待处理视频，所述待处理视频包括多个待处理视频片段；

所述获取模块501，还用于获取与所述待处理视频具有关联关系的目标候选视频集合，所述目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段；

提取模块502，用于提取每个待处理视频片段的待处理视频特征，以及提取每个目标候选视频片段的目标候选视频特征；

确定模块503，用于根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签。

在一种可行的实施例中，所述视频内容标签包括正常视频内容标签；所述确定模块503，具体用于：

为所述多个待处理视频片段设置轮询优先级，根据所述轮询优先级从多个待处理视频片段中选择用于当前轮询的目标待处理视频片段；

确定所述目标待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征之间的多个第一相似度；

若所述多个第一相似度中存在至少一个第一相似度大于第一阈值，则将所述目标待处理视频片段的视频内容标签设置为正常视频内容标签；

当所有待处理视频片段都被作为所述目标待处理视频片段时，停止轮询。

在一种可行的实施例中，所述装置还包括：删除模块504，其中：

所述确定模块503，还用于将所述多个待处理视频片段组合为多个视频段；

所述确定模块503，还用于确定每个视频段包含的待处理视频片段的视频内容标签为正常视频内容标签的正常标签数量；

所述确定模块503，还用于确定每个视频段包含的待处理视频片段的片段数量；

所述确定模块503，还用于根据所述每个视频段的正常标签数量和所述每个视频段的片段数量，确定所述每个视频段的正常标签比重；

所述删除模块504，用于删除所述正常标签比重小于第二阈值的视频段。

在一种可行的实施例中，所述获取模块501，具体用于：

根据所述待处理视频的第一标题信息获取第一候选视频集合，所述第一候选视频集合包括至少一个第一候选视频；

所述确定模块503，具体用于：根据所述待处理视频的视频时长和每个第一候选视频的时长，从所述第一候选视频集合中确定第二候选视频集合，所述第二候选视频集合包括至少一个第二候选视频；根据所述待处理视频的视频帧图像和每个第二候选视频的视频帧图像，从所述第二候选视频集合中确定目标候选视频集合。

在一种可行的实施例中，所述获取模块501，具体用于：

根据所述待处理视频的第一标题信息确定候选视频集合，所述候选视频集合包括至少一个候选视频；

调用词向量模型对第一标题信息进行处理，得到所述第一标题信息的句子级别词向量；

调用词向量模型对每个候选视频的第二标题信息进行处理，得到所述每个候选视频的第二标题信息的句子级别词向量；

确定所述第一标题信息的句子级别词向量和所述每个候选视频的第二标题信息的句子级别向量之间的第二相似度；

根据所述第二相似度从所述候选视频集合中确定第一候选视频集合。

在一种可行的实施例中，所述确定模块503，具体用于：

调用视频自回归模型对所述待处理视频的视频帧图像进行处理，得到所述待处理视频的视频级别向量；

调用所述视频自回归模型对每个第二候选视频的视频帧图像进行处理，得到所述每个第二候选视频的视频级别向量；

确定所述每个第二候选视频的视频级别向量和所述待处理视频的视频级别向量之间的第三相似度；

根据所述第三相似度从所述第二候选视频集合中确定目标候选视频集合。

在一种可行的实施例中，所述视频自回归模型包括卷积神经网络和循环神经网络；待处理视频的视频帧图像的数量是多个；所述确定模块503，具体用于：

基于所述卷积神经网络对所述待处理视频的每一张视频帧图像进行卷积处理，得到所述待处理视频的每一张视频帧图像的卷积向量；

将所述待处理视频的多张视频帧图像的卷积向量组合为卷积向量序列；所述卷积向量序列包括第一卷积向量和第二卷积向量；

基于所述循环神经网络对所述第一卷积向量进行编码处理，得到第一隐藏特征；

基于所述循环神经网络对所述第一隐藏特征和所述第二卷积向量进行编码处理，得到所述待处理视频的视频级别向量。

可以理解的是，本实施例的视频处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例图1或者图3的相关描述，此处不再赘述。

进一步地，请参见图6，图6是本申请实施例提供的一种电子设备的结构示意图。上述图1或图3对应实施例中的电子设备可以为图6所示的电子设备。如图6所示，电子设备可以包括：处理器601、输入设备602，输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器604用于存储计算机程序，所述计算机程序包括程序指令，处理器601用于执行存储器604存储的程序指令。

在本申请实施例中，处理器601通过运行存储器604中的可执行程序代码，执行如下操作：

在一种可行的实施例中，所述视频内容标签包括正常视频内容标签；所述处理器601，具体用于：

在一种可行的实施例中，所述处理器601，还用于：

将所述多个待处理视频片段组合为多个视频段；

确定每个视频段包含的待处理视频片段的视频内容标签为正常视频内容标签的正常标签数量；

确定每个视频段包含的待处理视频片段的片段数量；

根据所述每个视频段的正常标签数量和所述每个视频段的片段数量，确定所述每个视频段的正常标签比重；

删除所述正常标签比重小于第二阈值的视频段。

在一种可行的实施例中，所述处理器601，具体用于：

根据所述待处理视频的视频时长和每个第一候选视频的时长，从所述第一候选视频集合中确定第二候选视频集合，所述第二候选视频集合包括至少一个第二候选视频；

根据所述待处理视频的视频帧图像和每个第二候选视频的视频帧图像，从所述第二候选视频集合中确定目标候选视频集合。

在一种可行的实施例中，所述处理器601，具体用于：

在一种可行的实施例中，所述视频自回归模型包括卷积神经网络和循环神经网络；待处理视频的视频帧图像的数量是多个；所述处理器601，具体用于：

应当理解，在本申请实施例中，所称处理器601可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器601还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。

该输入设备602可以包括键盘等，并向处理器601输入数据信息；该输出设备603可以包括显示器等。

具体实现中，本申请实施例中所描述的处理器601、输入设备602、输出设备603和存储器604可执行上述所有实施例中描述的实现方式，也可执行上述装置中所描述的实现方式，在此不再赘述。

本申请实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述所有实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被电子设备的处理器执行时，执行上述所有实施例中的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

调用视频自回归模型对所述待处理视频的视频帧图像进行处理，得到所述待处理视频的视频级别向量；并调用所述视频自回归模型对每个第二候选视频的视频帧图像进行处理，得到所述每个第二候选视频的视频级别向量；

确定所述每个第二候选视频的视频级别向量和所述待处理视频的视频级别向量之间的第三相似度；并根据所述第三相似度从所述第二候选视频集合中确定目标候选视频集合，所述目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段；所述目标候选视频集合中的目标候选视频包括所述待处理视频未嵌入广告的版本；

根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签；所述视频内容标签包括正常视频内容标签和内嵌广告视频内容标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述多个待处理视频片段组合为多个视频段；

确定每个视频段包含的待处理视频片段的片段数量；

删除所述正常标签比重小于第二阈值的视频段。

4.根据权利要求1所述的方法，其特征在于，所述根据所述待处理视频的第一标题信息获取第一候选视频集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述视频自回归模型包括卷积神经网络和循环神经网络；待处理视频的视频帧图像的数量是多个；

所述调用视频自回归模型对所述待处理视频的视频帧图像进行处理，得到所述待处理视频的视频级别向量，包括：

6.一种图像处理装置，其特征在于，包括：

所述获取模块，还用于根据所述待处理视频的第一标题信息获取第一候选视频集合，所述第一候选视频集合包括至少一个第一候选视频；根据所述待处理视频的视频时长和每个第一候选视频的时长，从所述第一候选视频集合中确定第二候选视频集合，所述第二候选视频集合包括至少一个第二候选视频；调用视频自回归模型对所述待处理视频的视频帧图像进行处理，得到所述待处理视频的视频级别向量；并调用所述视频自回归模型对每个第二候选视频的视频帧图像进行处理，得到所述每个第二候选视频的视频级别向量；以及确定所述每个第二候选视频的视频级别向量和所述待处理视频的视频级别向量之间的第三相似度；并根据所述第三相似度从所述第二候选视频集合中确定目标候选视频集合，所述目标候选视频集合包括至少一个目标候选视频；任一目标候选视频包括多个目标候选视频片段；所述目标候选视频集合中的目标候选视频包括所述待处理视频未嵌入广告的版本；

确定模块，用于根据所述每个待处理视频片段的待处理视频特征和所有目标候选视频片段的目标候选视频特征，确定所述每个待处理视频片段的视频内容标签；所述视频内容标签包括正常视频内容标签和内嵌广告视频内容标签。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-5中任一项所述方法的步骤。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-5任一项所述的方法。