CN113313065A

CN113313065A - 一种视频处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN113313065A
Application number: CN202110700014.4A
Authority: CN
Inventors: 周亮
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-08-27

Abstract

本发明实施例提供了一种视频处理方法、装置、电子设备和可读存储介质，所述方法包括：获取当前视频和所述当前视频中视频帧的时序信息；依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧；分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果；对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息；基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频。根据本发明实施例，通过在时序上寻找视频关键帧，去除视频内冗余的片段，同时提取视频关键帧的图像表达特征，在保证视频表征有效性的同时解决了视频特征提取费时的问题。

Description

一种视频处理方法、装置、电子设备和可读存储介质

技术领域

本发明涉及多媒体技术领域，特别是涉及一种视频处理方法、一种视频处理装置、一种电子设备和一种计算机可读存储介质。

背景技术

网络视频行业发展迅速、业态蓬勃，专业视频网站更是成为影视、综艺、体育资讯等内容的重要输出平台，重塑了社会群体的休闲娱乐方式，成为现代生活中不可或缺的一部分。

短视频生态圈越来越受人们的欢迎，用户可自由地上传下载小视频，分享日常生活。然而面对海量的视频数据，其中一大部分属于重复视频。当前网络上的重复视频主要包括：为视频增加水印，改变视频格式，改变视频帧率、增减片头片尾、不同视频的裁剪拼接等。传统的采用DHash算法(差值哈希算法)进行视频识别的方法无法对上述各种重复视频的作弊方法进行识别。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法和相应的一种视频处理装置、一种电子设备、以及一种计算机可读存储介质。

本发明实施例公开了一种视频处理方法，所述方法包括：

获取当前视频和所述当前视频中视频帧的时序信息；

依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧；

分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果；

对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息；

基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频。

可选地，所述依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧，包括：

获取所述当前视频的时长信息；

计算所述时长信息对应的视频长度与所述预设个数的比值，并将所述比值作为取样间隔；

依据所述时序信息从所述当前视频中按照所述取样间隔等间依次抽取所述预设个数的所述视频关键帧。

可选地，所述分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果，包括：

分别将所述视频关键帧输入预置的卷积神经网络模型，得到对应的关键帧向量特征信息，并将所述关键帧向量特征信息作为所述图像特征分析结果。

可选地，所述视频特征信息包括视频向量特征信息，所述对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息，包括：

将所述预设个数的所述视频关键帧在所述当前视频中的播放顺序作为所述图像特征分析结果的拼接顺序；

按照所述拼接顺序依次拼接所述图像特征分析结果，得到用于表征所述当前视频的所述视频向量特征信息。

可选地，所述基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频，包括：

获取所述预设视频的预设视频特征信息；

计算所述视频特征信息与所述预设视频特征信息的余弦距离，得到对应的余弦距离值；

将所述余弦距离值作为所述当前视频与所述预设视频之间的视频相似度；

根据所述视频相似度判断所述当前视频是否为重复视频。

可选地，所述根据所述视频相似度判断所述当前视频是否为重复视频，包括：

从所述多个视频相似度中确定最大视频相似度；

判断所述最大视频相似度是否大于预设相似度阈值；

若所述最大视频相似度大于所述预设相似度阈值，则判断所述当前视频为重复视频。

可选地，所述预设视频具有标签信息，所述判断所述当前视频是否为重复视频之后，还包括：

若判断所述当前视频为重复视频，则将具有所述最大视频相似度的所述预设视频作为目标相似视频；

获取所述目标相似视频的目标标签信息；

将所述当前视频的当前标签信息配置为所述目标标签信息；

从具有相同的所述目标标签信息的视频中挑选其中一个视频进行视频推荐。

可选地，所述预置的卷积神经网络模型为残差网络模型；所述残差网络模型包括串联的至少一个卷积层和一个池化层，所述卷积层用于对输入的图像进行特征提取；所述池化层用于对最后一个卷积层输出的图像特征进行平均池化，以得到预设维数的图像特征向量。

本发明实施例还公开了一种视频处理装置，所述装置包括：

第一获取模块，用于获取当前视频和所述当前视频中视频帧的时序信息；

抽取模块，用于依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧；

图像特征分析模块，用于分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果；

特征融合模块，用于对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息；

判断模块，用于基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频。

可选地，所述抽取模块，包括：

第一获取子模块，用于获取所述当前视频的时长信息；

第一计算子模块，用于计算所述时长信息对应的视频长度与所述预设个数的比值，并将所述比值作为取样间隔；

抽取子模块，用于依据所述时序信息从所述当前视频中按照所述取样间隔等间依次抽取所述预设个数的所述视频关键帧。

可选地，所述图像特征分析模块，包括：

输入子模块，用于分别将所述视频关键帧输入预置的卷积神经网络模型，得到对应的关键帧向量特征信息，并将所述关键帧向量特征信息作为所述图像特征分析结果。

可选地，所述视频特征信息包括视频向量特征信息，所述特征融合模块，包括：

第一确定子模块，用于将所述预设个数的所述视频关键帧在所述当前视频中的播放顺序作为所述图像特征分析结果的拼接顺序；

拼接子模块，用于按照所述拼接顺序依次拼接所述图像特征分析结果，得到用于表征所述当前视频的所述视频向量特征信息。

可选地，所述判断模块，包括：

第二获取子模块，用于获取所述预设视频的预设视频特征信息；

第二计算子模块，用于计算所述视频特征信息与所述预设视频特征信息的余弦距离，得到对应的余弦距离值；

第二确定子模块，用于将所述余弦距离值作为所述当前视频与所述预设视频之间的视频相似度；

判断子模块，用于根据所述视频相似度判断所述当前视频是否为重复视频。

可选地，所述判断子模块，包括：

确定单元，用于从所述多个视频相似度中确定最大视频相似度；

第一判断单元，用于判断所述最大视频相似度是否大于预设相似度阈值；

第二判断单元，用于若所述最大视频相似度大于所述预设相似度阈值，则判断所述当前视频为重复视频。

可选地，所述预设视频具有标签信息，所述装置，还包括：

确定模块，用于若判断所述当前视频为重复视频，则将具有所述最大视频相似度的所述预设视频作为目标相似视频；

第二获取模块，用于获取所述目标相似视频的目标标签信息；

配置模块，用于将所述当前视频的当前标签信息配置为所述目标标签信息；

挑选模块，用于从具有相同的所述目标标签信息的视频中挑选其中一个视频进行视频推荐。

本发明实施例还公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的一种视频处理方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的一种视频处理方法的步骤。

本发明实施例包括以下优点：

在本发明实施例中，通过在时序上寻找视频关键帧，同时针对视频关键帧进行图像特征提取，获取视频关键帧的图像表达特征作为视频特征以表征该视频进行重复视频的识别。通过采用上述方法，从当前视频中抽取预设个数的视频关键帧，以表达当前视频的视频内容，可以去除视频内冗余片段，通过只对视频关键帧进行图像特征分析，而不是对整个视频进行图像特征分析，解决了视频特征提取时间长，计算资源量大的问题，通过将预设个数的视频关键帧的图像特征分析结果作为整个视频的视频特征，用于判断当前视频是否为重复视频，在保证视频表征有效性的同时提高了提取视频特征的效率，且提高了识别重复视频的视频识别准确率。

附图说明

图1是本发明实施例的一种视频处理方法的步骤流程图；

图2是本发明实施例的另一种视频处理方法的步骤流程图；

图3是本发明实施例的一种视频处理方法的流程示意图；

图4是本发明实施例的一种视频处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

视频分享的生活越来越受人们的欢迎，然而现在视频网站上的海量视频数据有一大部分属于重复视频，重复视频的存在影响了用户的视频观看体验。

此外，对于重复视频的识别，在保护视频版权、打击盗版；减少重复广告视频的曝光率；根据视频内容进行视频推荐等方面具有重要意义。

本发明实施例的核心构思之一在于，通过在时序上寻找视频关键帧，同时针对视频关键帧进行图像特征提取，获取视频关键帧的图像表达特征作为视频特征以表征该视频进行重复视频的识别。通过采用上述方法，通过从当前视频中抽取预设个数的视频关键帧，以表达当前视频的视频内容，可以去除视频内冗余片段，通过只对视频关键帧进行图像特征分析，而不是对整个视频进行图像特征分析，解决了视频特征提取时间长，计算资源量大的问题，通过将预设个数的视频关键帧的图像特征分析结果作为整个视频的视频特征，用于判断当前视频是否为重复视频，在保证视频表征有效性的同时提高了提取视频特征的效率，且提高了识别重复视频的视频识别准确率。

参照图1，示出了本发明实施例的一种视频处理方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取当前视频和所述当前视频中视频帧的时序信息。

在本发明实施例中，可以获取多个视频，并获取多个视频的视频帧时序信息，在实际应用中，本发明的技术方案是对海量的视频数据进行处理的，因此可以获取多个视频，以及多个视频对应的视频帧的时序信息，其中，时序信息是指视频中各视频帧在时间轴上的排序信息。

步骤102，依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧。

根据时序信息从当前视频中抽取视频关键帧，其中，该视频关键帧可以表征当前视频的视频内容，为了提高视频关键帧表征当前视频的有效性，设置了抽取预设个数的视频关键帧，经过试验验证，在实际应用中，对每一个视频，均从中抽取5个视频关键帧，覆盖整个视频的开始到结束。

对于如何抽取每个视频的视频关键帧，可以采用多种抽取方法，在一种示例中，可以在视频播放30秒后开始抽取，在另一种示例中，可以在识别到特定元素后对该视频关键帧进行抽取，从当前视频中抽取视频关键帧的方法可以根据用户实际需要进行设定，对此，本发明实施例不加以限制。

步骤103，分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果。

在抽取得到预设个数的视频关键帧后，分别对各视频关键帧进行图像特征分析，例如，从一视频中抽取5个视频关键帧后，需要对5个视频关键帧均进行图像特征分析，得到对应的5个图像特征分析结果。

图像特征分析结果是指视频关键帧的关键帧图像经过图像特征分析后得到的图像表达特征，根据采用的图像特征分析方法的不同，对应的图像表达特征也不同，图像特征包括图像的颜色特征、纹理特征、形状特征和空间关系特征等，在本发明实施例中，提取的图像特征主要是图像的语义特征。

图像特征分析可以是深度图像特征分析，其中，可以采用卷积神经网络进行图像特征识别，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一，CNN在图像分类和检索中有着很好的效果，且研究表明图像经过CNN网络，不同深度对应不同的图像特征信息，在低层级通常是细节特征，而在高层级则更多是语义特征。高层级的语义特征是一种很好的图像编码方式，在度量图像相似度方面有很好的效果。因此，在本发明实施例中，可以采用卷积神经网络进行深度图像特征分析，以得到视频关键帧的图像语义特征。

步骤104，对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息。

视频特征信息是用于表征当前视频的视频内容异于其他视频的标志信息，在本发明实施例中，将各个视频关键帧对应的图像特征分析结果进行特征融合，得到用于表征当前视频的视频特征信息，即采用视频关键帧的图像特征分析结果作为当前视频的视频特征，与传统将整个视频进行视频特征提取的方法相比，提高了视频特征的提取效率。

步骤105，基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频。

在本发明实施例中，可以预先设置视频数据库，在该视频数据库中存储有多个预设视频，在一种示例中，可以比较当前视频的视频特征信息与预设视频的视频特征信息，若当前视频的视频特征信息与预设视频的视频特征信息相同，则可以判断当前视频为重复视频，否则当前视频不是重复视频。在另一种示例中，可以计算当前视频的视频特征信息与预设视频的视频特征信息的相似度，若该相似度大于设定的阈值，例如90％，则可以判断当前视频为重复视频。

综上，在本发明实施例中，通过在时序上寻找视频关键帧，同时针对视频关键帧进行图像特征提取，获取视频关键帧的图像表达特征作为视频特征以表征该视频进行重复视频的识别。通过采用上述方法，通过从当前视频中抽取预设个数的视频关键帧，以表达当前视频的视频内容，可以去除视频内冗余片段，通过只对视频关键帧进行图像特征分析，而不是对整个视频进行图像特征分析，解决了视频特征提取时间长，计算资源量大的问题，通过将预设个数的视频关键帧的图像特征分析结果作为整个视频的视频特征，用于判断当前视频是否为重复视频，在保证视频表征有效性的同时提高了提取视频特征的效率，且提高了识别重复视频的视频识别准确率。

参照图2，示出了本发明实施例的另一种视频处理方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取当前视频和所述当前视频中视频帧的时序信息。

在本发明实施例中，可以获取批量的当前视频，其中当前视频可以为广告视频，并获取当前视频的时序信息。

步骤202，依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧。

视频关键帧可以表征当前视频的视频内容，在一种优选的实施例中，可以采用以下步骤获取视频中的视频关键帧。

子步骤S11，获取所述当前视频的时长信息。

当前视频的时长信息是指表示当前视频的视频长度的长度信息，在一种示例中，时长信息可以为视频的帧长度信息(即视频总帧数)。

子步骤S12，计算所述时长信息对应的视频长度与所述预设个数的比值，并将所述比值作为取样间隔。

对于每个视频，计算每个视频长度与预设的视频关键帧抽取个数的比值，将该比值作为抽取视频关键帧的取样间隔。例如，若某视频长度为L，需要抽取5个视频关键帧，则该视频的视频关键帧的抽取间隔为D＝L/6。在实际中，本领域技术人员可以综合考虑视频表征的有效性以及视频相似度的计算效率来设定视频关键帧的抽取个数和抽取间隔。

子步骤S13，依据所述时序信息从所述当前视频中按照所述取样间隔等间依次抽取所述预设个数的所述视频关键帧。

在本发明实施例中，对每个视频均按照取样间隔进行等间抽取，若取样间隔为D＝L/6，则抽取第L/6，2L/6，3L/6，4L/6，5L/6帧作为视频关键帧。例如，若L为210帧，D＝35，抽取对应的视频关键帧为第35，70，105，140，175帧。

本发明实施例提供的视频关键帧的抽取方法只是其中一种优选的实施例，本领域技术人员可以根据实际情况对视频关键帧的抽取方法进行优化或调整，例如，可以根据视频长度确定视频关键帧的抽取个数，或者对于某一类视频，可以只抽取在中间位置的视频关键帧即可以表征完整视频的视频内容，此时即可以只抽取中间位置的视频关键帧，对于采用何种方式抽取视频关键帧，本发明实施例不加以限制。

步骤203，分别将所述视频关键帧输入预置的卷积神经网络模型，得到对应的关键帧向量特征信息，并将所述关键帧向量特征信息作为所述图像特征分析结果。

将得到的每个视频关键帧均输入预先训练好的卷积神经网络模型中，输出视频关键帧的关键帧向量特征信息，该关键帧向量特征信息包含视频关键帧的图像语义特征信息。

在本发明中，预置的卷积神经网络模型可以为残差网络模型；残差网络模型包括串联的至少一个卷积层和一个池化层。其中，卷积层用于对输入的图像进行特征提取；池化层用于对最后一个卷积层输出的图像特征进行平均池化，以得到预设维数的图像特征向量。

在一种实施例中，对于预置的卷积神经网络模型，综合考虑图像特征分析的准确性和分析速度可以采用预先训练好的ResNet 18网络(残差网络)进行图像特征分析，ResNet 18网络默认对输入的视频关键帧的图片裁剪到224*224大小，再归一化处理，视频关键帧的图像经过网络后提取最后一个卷积层的图像特征，该图像特征经过AvgPooling(平均池化)后得到一个512维向量，该512维向量为对应的视频关键帧的图像特征分析结果。在实际操作中，为了便于比对，任意视频的视频关键帧输入该卷积神经网络模型后输出的关键帧向量特征信息均为512维的向量特征信息，这是由预置的卷积神经网络模型的结构决定的。

此外，上述提及的ResNet 18网络模型为一种优选的卷积神经网络模型，本领域技术人员可以根据需要提取的图像特征的不同采用不同的模型进行视频关键帧的图像特征提取，对此，本发明实施例不加以限制。

视频特征信息为视频向量特征信息，每个视频在得到预设个数的关键帧向量特征信息后，可以将各个关键帧向量特征信息组合成为视频向量特征信息以表征该视频，具体方法可以参照步骤204至步骤205。

步骤204，将所述预设个数的所述视频关键帧在所述当前视频中的播放顺序作为所述图像特征分析结果的拼接顺序。

将视频关键帧在当前视频中的播放顺序作为对应的关键帧向量特征信息的拼接顺序。

步骤205，按照所述拼接顺序依次拼接所述图像特征分析结果，得到用于表征所述当前视频的所述视频向量特征信息。

在一种实施例中，可以将得到的5个视频关键帧通过预置的卷积神经网络模型后输出的5个512维向量，按顺序拼接，得到一个2560维的向量作为当前视频的视频向量特征信息。

步骤206，基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频。

在本发明实施例中，可以将当前视频与预设视频进行比较，以判断当前视频是否为其中一个预设视频的重复视频，具体的比较方法是基于视频特征信息进行的，在一种优选的示例中，针对步骤206，可以执行以下步骤：

子步骤S21，获取所述预设视频的预设视频特征信息。

从预设的视频数据库中获取预设视频后，可以获取预设视频的预设视频特征信息，需要说明的是，该预设视频特征信息的计算过程与当前视频的视频特征信息的计算过程相同，即预设视频特征信息也是一个2560维的向量。

子步骤S22，计算所述视频特征信息与所述预设视频特征信息的余弦距离，得到对应的余弦距离值。

在本发明实施例中，以余弦距离计算视频相似度，即计算当前视频的视频特征信息和预设视频的预设视频特征信息的余弦距离，也就是计算两个2560维向量之间的余弦距离。

子步骤S23，将所述余弦距离值作为所述当前视频与所述预设视频之间的视频相似度。

通过计算余弦距离得到当前视频与预设视频之间的视频相似度，视频相似度即不同视频之间的相似程度，在本发明实施例中用余弦距离的大小进行视频相似程度的衡量，此外也可以采用其他方法衡量不同视频之间的视频相似度，对此，本发明实施例不加以限制。

子步骤S24，根据所述视频相似度判断所述当前视频是否为重复视频。

若计算得到的余弦距离值大于预设的阈值，则可以判断当前视频为重复视频。

在使用本发明的基于视频关键帧的视频特征提取方法前，线上的视频识别方法是对视频首帧进行DHash算法抽帧获得视频特征，进而进行视频相似的识别。通过在线上随机选取1200个视频，人工校验进行分组，有315个视频无相似视频，分成315组；剩余885个视频存在相似视频，分成了226组，226组中每组的视频不少于2个且不超过10个；分别用本发明的视频识别方法和传统的DHash方法进行评测，当且仅当分组情况与视频真实分组情况完全相同时认为分组正确。相比于传统的DHash识别方法，本发明的方法在准确率上取得了大幅度的提升。

此外，针对子步骤S24，如何判断当前视频为重复视频，具体可以执行以下步骤：

从所述多个视频相似度中确定最大视频相似度；判断所述最大视频相似度是否大于预设相似度阈值；若所述最大视频相似度大于所述预设相似度阈值，则判断所述当前视频为重复视频。

计算当前视频与多个预设视频的视频相似度，也就是计算得到多个余弦距离值，从多个余弦距离值中选取最大余弦距离值，并将该最大余弦距离值与预设的余弦距离阈值进行比对，若最大余弦距离值大于预设的余弦距离阈值，则可以判断当前视频为与具有最大余弦距离值的预设视频的重复视频。

此外，对于重复视频，还可以对其进行分组，具体可以执行以下步骤：

若判断所述当前视频为重复视频，则将具有所述最大视频相似度的所述预设视频作为目标相似视频。

若已经确定当前视频为重复视频，则与当前视频的余弦距离最大的预设视频即为当前视频的最相似视频，也就是目标相似视频。

获取所述目标相似视频的目标标签信息。

在一种示例中，预设视频具有标签信息，获取目标相似视频对应的目标标签信息，对于预设视频的标签信息，可以根据用户实际需要进行设定，例如可以将某预设视频的视频标签设定为A。

将所述当前视频的当前标签信息配置为所述目标标签信息。

将当前视频的标签信息配置为与目标相似视频相同的标签信息，即若目标相似视频的目标标签信息为A，则当前视频也配置为A。

通过为当前视频配置标签，可以根据标签对所有的视频数据进行分组，在一种示例中，当需要对用户进行广告视频推荐的时候，可以从具有相同标签的视频中挑选其中一个广告视频对用户进行推荐，从而避免向用户推荐重复视频，提高用户在视频网站的视频观看体验。

特别地，若遍历所有的预设视频后，均没有找到与当前视频相似的预设视频，即当前视频不是重复视频，则可以为当前视频设置新的标签信息，并将当前视频存储至视频数据库中。

为了使本领域技术人员能够更好地理解本发明实施例步骤201至步骤206，下面通过一个例子加以说明：

参照图3所示为本发明实施例的一种视频处理方法的流程示意图。对于一个帧长度为L的视频，等间抽取5个视频关键帧，即为第L/6，2L/6，3L/6，4L/6和5L/6帧，分别将各视频关键帧输入预先训练好的卷积神经网络模型为每个视频关键帧进行图像特征提取，并将输出的关键帧向量特征信息按顺序拼接后获得视频向量特征信息，对于该视频向量特征信息,计算其与视频库内的每一个预设视频的预设视频向量特征信息的余弦距离，余弦距离最大的特征则为最相似的视频特征，余弦距离最大的视频即为当前视频的最相似视频，该最大的余弦距离值即为当前视频与最相似视频的相似度，若该相似度值大于设定的阈值(如0.96)，则认为二者为重复视频，则将当前视频的标签设置为与最相似视频相同的标签，否则为当前视频设置新的标签，并将当前视频更新到视频库中。

本申请提出的基于视频关键帧的特征提取方法，通过在时序上寻找视频关键帧，去除视频内冗余的片段，更精简地表达视频内容，同时结合CNN网络提取图像特征，可以高效地获取视频关键帧的图像表达特征，最后对视频关键帧的关键帧向量特征信息进行融合获得视频特征，解决了视频特征提取费时的问题，同时保证了重复视频识别效果。此外，基于视频特征计算视频间特征的相似度来为每一个广告视频设置标签，实现对相似的广告视频分组，具体的，对于一个新的视频特征，与视频特征库的每一个视频特征计算相似度并选取最大相似度为最相似特征，如果二者的最大相似度大于给定阈值则将新视频与最相似视频分为一组，否则为该视频创建新的组，为每一个广告视频配置分组标签，进而根据标签进行视频推荐，可以避免用户观看重复视频，提高用户在视频平台的观看体验。

综上，在本发明实施例中，通过在时序上寻找视频关键帧，同时针对视频关键帧进行图像特征提取，获取视频关键帧的图像表达特征作为视频特征以表征该视频进行重复视频的识别。通过采用上述方法，从当前视频中抽取预设个数的视频关键帧，以表达当前视频的视频内容，可以去除视频内冗余片段，通过只对视频关键帧进行图像特征分析，而不是对整个视频进行图像特征分析，解决了视频特征提取时间长，计算资源量大的问题，通过将预设个数的视频关键帧的图像特征分析结果作为整个视频的视频特征，用于判断当前视频是否为重复视频，在保证视频表征有效性的同时提高了提取视频特征的效率，且提高了识别重复视频的视频识别准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明实施例的一种视频处理装置的结构框图，具体可以包括如下模块：

第一获取模块401，用于获取当前视频和所述当前视频中视频帧的时序信息；

抽取模块402，用于依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧；

图像特征分析模块403，用于分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果；

特征融合模块404，用于对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息；

判断模块405，用于基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频。

在本发明实施例中，所述抽取模块，包括：

第一获取子模块，用于获取所述当前视频的时长信息；

在本发明实施例中，所述图像特征分析模块，包括：

在本发明实施例中，所述视频特征信息包括视频向量特征信息，所述特征融合模块，包括：

在本发明实施例中，所述判断模块，包括：

在本发明实施例中，所述判断子模块，包括：

在本发明实施例中，所述预设视频具有标签信息，所述装置，还包括：

在本发明实施例中，所述预置的卷积神经网络模型为残差网络模型；所述残差网络模型包括串联的至少一个卷积层和一个池化层，所述卷积层用于对输入的图像进行特征提取；所述池化层用于对最后一个卷积层输出的图像特征进行平均池化，以得到预设维数的图像特征向量。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述一种视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述一种视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频处理方法、一种视频处理装置、一种电子设备和一种计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取当前视频和所述当前视频中视频帧的时序信息；

2.根据权利要求1所述的方法，其特征在于，所述依据所述时序信息从所述当前视频中抽取预设个数的视频关键帧，包括：

获取所述当前视频的时长信息；

3.根据权利要求1所述的方法，其特征在于，所述分别对所述视频关键帧进行图像特征分析，得到对应的图像特征分析结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述视频特征信息包括视频向量特征信息，所述对所有的所述图像特征分析结果进行特征融合，得到用于表征所述当前视频的视频特征信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述视频特征信息计算所述当前视频与预设视频之间的相似度，判断所述当前视频是否为重复视频，包括：

获取所述预设视频的预设视频特征信息；

根据所述视频相似度判断所述当前视频是否为重复视频。

6.根据权利要求5所述的方法，其特征在于，所述根据所述视频相似度判断所述当前视频是否为重复视频，包括：

从所述多个视频相似度中确定最大视频相似度；

判断所述最大视频相似度是否大于预设相似度阈值；

7.根据权利要求5或6所述的方法，其特征在于，所述预设视频具有标签信息，所述判断所述当前视频是否为重复视频之后，还包括：

获取所述目标相似视频的目标标签信息；

将所述当前视频的当前标签信息配置为所述目标标签信息；

8.根据权利要求3所述的方法，其特征在于，所述预置的卷积神经网络模型为残差网络模型；所述残差网络模型包括串联的至少一个卷积层和一个池化层，所述卷积层用于对输入的图像进行特征提取；所述池化层用于对最后一个卷积层输出的图像特征进行平均池化，以得到预设维数的图像特征向量。

9.一种视频处理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-8中任一项所述的一种视频处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的一种视频处理方法的步骤。