CN113965803A

CN113965803A - 视频数据处理方法、装置、电子设备、存储介质

Info

Publication number: CN113965803A
Application number: CN202111052370.6A
Authority: CN
Inventors: 迟至真; 汪韬; 李思则; 王仲远
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2022-01-21
Anticipated expiration: 2041-09-08
Also published as: CN113965803B

Abstract

本公开关于一种视频数据处理方法、装置、电子设备、存储介质。所述方法包括：根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频；从多个数据采集维度获取与待检测视频对应的待检测数据，对待检测数据进行特征提取，得到待检测视频的待检测多模特征；根据待检测多模特征从视频数据库中确定第二相似视频；根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。该方法通过多路结合的召回策略，不仅可以提升确定视频标签的准确性，还可以提升视频标签的召回能力。

Description

视频数据处理方法、装置、电子设备、存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种视频数据处理方法、装置、电子设备、计算机可读存储介质、计算机程序产品。

背景技术

随着碎片化时代的发展以及用户对个性化内容需求的增长，对影视综艺等的原片视频进行精简编辑得到的短视频，或者针对原片视频的影视解说等短视频能够使用户在很短的时间内了解内容概要，从而逐渐受到用户的欢迎。短视频平台往往会对作者上传的上述短视频进行检测，得到与短视频对应的原片视频的视频名称，根据视频名称判断短视频是否存在版权问题。

相关技术中，可以基于短视频的视频标题、图像帧、语音数据中的任一个进行检测，得到短视频对应的原片视频的视频名称。但是，由于短视频中的视频标题、图像帧、语音数据的可编辑性较强，不同的作者基于相同的原片视频进行二次创作后，可能会得到偏差很大的短视频，导致得到的视频名称存在不够准确的问题。

发明内容

本公开提供一种视频数据处理方法、装置、电子设备、计算机可读存储介质、计算机程序产品，以至少解决相关技术中视频名称的检测不够准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频数据处理方法，包括：

根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频；

从多个数据采集维度获取与所述待检测视频对应的待检测数据，对所述待检测数据进行特征提取，得到所述待检测视频的待检测多模特征；

根据所述待检测多模特征从所述视频数据库中确定第二相似视频；

根据所述第一相似视频的第一视频标签，以及所述第二相似视频的第二视频标签，确定所述待检测视频的目标视频标签。

在其中一个实施例中，所述根据所述第一相似视频的第一视频标签，以及所述第二相似视频的第二视频标签，确定所述待检测视频的目标视频标签，包括：

获取所述第一视频标签的第一优先级，以及所述第二视频标签的第二优先级；

当所述第一优先级高于所述第二优先级时，根据所述第一相似视频的第一视频标签确定所述目标视频标签；

当所述第二优先级高于所述第一优先级时，根据所述第二相似视频的第二视频标签确定所述目标视频标签。

在其中一个实施例中，所述根据所述第一相似视频的第一视频标签确定所述目标视频标签，包括：

当所述第一相似视频的数量为一个时，将所述第一视频标签作为所述目标视频标签；

当所述第一相似视频的数量为多个时，获取与每个所述第一相似视频对应的第一视频标签；

比对多个所述第一视频标签，根据所得到的第一比对结果确定符合预设条件的第一视频标签的第一出现次数；

根据所述第一出现次数从所述第一视频标签中确定出所述目标视频标签。

在其中一个实施例中，所述根据所述第二相似视频的第二视频标签确定所述目标视频标签，包括：

当所述第二相似视频的数量为一个时，将所述第二视频标签作为所述目标视频标签；

当所述第二相似视频的数量为多个时，获取与每个所述第二相似视频对应的第二视频标签；

比对多个所述第二视频标签，根据所得到的第二比对结果确定符合预设条件的第二视频标签的第二出现次数；

根据所述第二出现次数从所述第二视频标签中确定出所述目标视频标签。

获取与所述第一相似视频对应的第一视频标签，以及与所述第二相似视频对应的第二视频标签；

确定符合预设条件的第一视频标签的第一出现次数，以及符合所述预设条件的第二视频标签的第二出现次数；

根据第一权重系数和所述第一出现次数，以及第二权重系数和所述第二出现次数，加权和得到符合所述预设条件的所述第一视频标签和所述第二视频标签的目标出现次数；

根据所述目标出现次数确定所述目标视频标签。

在其中一个实施例中，所述根据所述待检测多模特征从所述视频数据库中确定第二相似视频，包括：

确定所述待检测多模特征与所述视频数据库中各个候选视频的候选多模特征之间的特征相似度，所述候选多模特征是对所述候选视频的候选数据进行特征提取得到的，所述候选数据是从多个所述数据采集维度获取的与所述候选视频对应的数据；

根据所述特征相似度从各个所述候选视频中确定多个所述第二相似视频。

在其中一个实施例中，所述对所述待检测数据进行特征提取，得到所述待检测视频的待检测多模特征，包括：

将所述待检测数据输入至视频分类模型，所述视频分类模型包括与每个所述数据采集维度对应的特征提取网络，以及注意力机制描述模型；

通过与每个所述数据采集维度对应的特征提取网络对相同所述数据采集维度下的待检测数据进行特征提取，得到对应的待检测特征；

通过所述注意力机制描述模型对所得到的多个待检测特征进行融合，得到所述待检测多模特征。

在其中一个实施例中，所述方法还包括：

当根据所述待检测图像帧确定不存在所述第一相似视频，且根据所述待检测多模特征确定不存在所述第二相似视频时，获取所述视频分类模型继续对所述待检测多模特征进行处理输出的视频标签，作为所述目标视频标签。

在其中一个实施例中，所述根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频，包括：

确定所述待检测图像帧与所述视频数据库中各个候选视频的候选图像帧之间的图像帧相似度，从所述待检测视频中提取所述待检测图像帧的方式，与从所述候选视频中提取所述候选图像帧的方式相同；

根据所述图像帧相似度、所述待检测图像帧在所述待检测视频中出现的位置，以及所述候选图像帧在所述候选视频中出现的位置，确定多个所述第一相似视频。

根据本公开实施例的第二方面，提供一种视频数据处理装置，包括：

第一视频确定模块，被配置为执行根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频；

特征生成模块，被配置为执行从多个数据采集维度获取与所述待检测视频对应的待检测数据，对所述待检测数据进行特征提取，得到所述待检测视频的待检测多模特征；

第二视频确定模块，被配置为执行根据所述待检测多模特征从所述视频数据库中确定第二相似视频；

标签确定模块，被配置为执行根据所述第一相似视频的第一视频标签，以及所述第二相似视频的第二视频标签，确定所述待检测视频的目标视频标签。

在其中一个实施例中，所述标签确定模块，包括：

优先级获取单元，被配置为执行获取所述第一视频标签的第一优先级，以及所述第二视频标签的第二优先级；

第一标签确定单元，被配置为执行当所述第一优先级高于所述第二优先级时，根据所述第一相似视频的第一视频标签确定所述目标视频标签；

第二标签确定单元，被配置为执行当所述第二优先级高于所述第一优先级时，根据所述第二相似视频的第二视频标签确定所述目标视频标签。

在其中一个实施例中，所述第一标签确定单元，包括：

第一标签确定子单元，被配置为执行当所述第一相似视频的数量为一个时，将所述第一视频标签作为所述目标视频标签；

第一标签获取子单元，被配置为执行当所述第一相似视频的数量为多个时，获取与每个所述第一相似视频对应的第一视频标签；

第一次数确定子单元，被配置为执行比对多个所述第一视频标签，根据所得到的第一比对结果确定符合预设条件的第一视频标签的第一出现次数；

第二标签确定子单元，被配置为执行根据所述第一出现次数从所述第一视频标签中确定出所述目标视频标签。

在其中一个实施例中，第二标签确定单元，包括：

第三标签确定子单元，被配置为执行当所述第二相似视频的数量为一个时，将所述第二视频标签作为所述目标视频标签；

第二标签获取子单元，被配置为执行当所述第二相似视频的数量为多个时，获取与每个所述第二相似视频对应的第二视频标签；

第二次数确定子单元，被配置为执行比对多个所述第二视频标签，根据所得到的第二比对结果确定符合预设条件的第二视频标签的第二出现次数；

第四标签确定子单元，被配置为执行根据所述第二出现次数从所述第二视频标签中确定出所述目标视频标签。

在其中一个实施例中，所述标签确定模块，包括：

标签获取单元，被配置为执行获取与所述第一相似视频对应的第一视频标签，以及与所述第二相似视频对应的第二视频标签；

次数确定单元，被配置为执行确定符合预设条件的第一视频标签的第一出现次数，以及符合所述预设条件的第二视频标签的第二出现次数；

次数加权单元，被配置为执行根据第一权重系数和所述第一出现次数，以及第二权重系数和所述第二出现次数，加权和得到符合所述预设条件的所述第一视频标签和所述第二视频标签的目标出现次数；

第三标签确定单元，被配置为执行根据所述目标出现次数确定所述目标视频标签。

在其中一个实施例中，所述第二视频确定模块，包括：

第一相似度确定单元，被配置为执行确定所述待检测多模特征与所述视频数据库中各个候选视频的候选多模特征之间的特征相似度，所述候选多模特征是对所述候选视频的候选数据进行特征提取得到的，所述候选数据是从多个所述数据采集维度获取的与所述候选视频对应的数据；

第二视频确定单元，被配置为执行根据所述特征相似度从各个所述候选视频中确定多个所述第二相似视频。

在其中一个实施例中，所述特征生成模块，包括：

输入单元，被配置为执行将所述待检测数据输入至视频分类模型，所述视频分类模型包括与每个所述数据采集维度对应的特征提取网络，以及注意力机制描述模型；

特征提取单元，被配置为执行通过与每个所述数据采集维度对应的特征提取网络对相同所述数据采集维度下的待检测数据进行特征提取，得到对应的待检测特征；

特征融合单元，被配置为执行通过所述注意力机制描述模型对所得到的多个待检测特征进行融合，得到所述待检测多模特征。

在其中一个实施例中，所述装置还包括：

标签分类模块，被配置为执行当根据所述待检测图像帧确定不存在所述第一相似视频，且根据所述待检测多模特征确定不存在所述第二相似视频时，获取所述视频分类模型继续对所述待检测多模特征进行处理输出的视频标签，作为所述目标视频标签。

在其中一个实施例中，所述第一视频确定模块，包括：

第二相似度确定单元，被配置为执行确定所述待检测图像帧与所述视频数据库中各个候选视频的候选图像帧之间的图像帧相似度，从所述待检测视频中提取所述待检测图像帧的方式，与从所述候选视频中提取所述候选图像帧的方式相同；

第一视频确定单元，被配置为执行根据所述图像帧相似度、所述待检测图像帧在所述待检测视频中出现的位置，以及所述候选图像帧在所述候选视频中出现的位置，确定多个所述第一相似视频。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面任一项实施例所述的视频数据处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面任一项实施例所述的视频数据处理方法。

根据本公开实施例的第四方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面任一项实施例所述的视频数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

预先构建包含大量视频(例如影视综艺等的原片视频)的视频数据库，在此基础上进行检索，可以节省数据获取成本。预先部署多路结合的召回策略，在获取待检测视频后，通过一路召回策略根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频；通过另一路召回策略从多个数据采集维度获取与待检测视频对应的待检测数据，对待检测数据进行特征提取，得到待检测视频的待检测多模特征；根据待检测多模特征从视频数据库中确定第二相似视频。最后，根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。通过多路结合的召回策略，不仅可以提升确定视频标签的准确性，还可以提升视频标签的召回能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频数据处理方法的应用环境图。

图2是根据一示例性实施例示出的一种视频数据处理方法的流程图。

图3是根据一示例性实施例示出的一种确定目标视频标签步骤的流程图。

图4是根据一示例性实施例示出的另一种确定目标视频标签步骤的流程图。

图5是根据一示例性实施例示出的一种生成多模特征步骤的流程图。

图6是根据一示例性实施例示出的一种生成多模特征的示意图。

图7是根据一示例性实施例示出的一种基于图像帧确定第一相似视频的示意图。

图8是根据一示例性实施例示出的一种视频数据处理方法的流程图。

图9是据一示例性实施例示出的一种视频数据库的内容示意图。

图10是根据一示例性实施例示出的一种视频数据处理装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本公开所提供的视频数据处理方法，可以应用于如图1所示的应用环境中。其中，终端110通过网络与服务器120进行交互。终端110中安装有应用程序，该应用程序可以是短视频类、即时通信类、电商类等应用程序。服务器120中部署有视频数据库，视频数据库中包含若干视频，或者对若干视频进一步进行处理后得到的数据。其中，若干视频可以但不限于是影视综艺等的原片视频、短视频等。服务器120中还部署有多路召回方式，其中包括基于视频图像帧实现的图像帧召回方式和基于多模特征实现的多模特征召回方式。具体地，终端110将作者上传的待检测视频发送至服务器120。服务器120收到待检测视频后，从待检测视频中获取待检测图像帧，根据待检测图像帧从视频数据库中确定第一相似视频。服务器120从多个数据采集维度获取与待检测视频对应的待检测数据，对待检测数据进行特征提取，得到待检测视频的待检测多模特征；根据待检测多模特征从视频数据库中确定第二相似视频。服务器120根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。

进一步地，本公开的视频数据处理方法可以应用于多种场景中。例如，应用于视频的版权检测场景，那么可以根据所获取的目标视频标签判断待检测视频是否存在版权问题；还可以应用于视频推荐场景，那么可以根据所获取的目标视频标签向用户帐户推荐视频。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种视频数据处理方法的流程图，如图2所示，视频数据处理方法用于服务器中，包括以下步骤。

在步骤S210中，根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频。

其中，待检测视频是指待进行检测标准视频标签的视频。标准视频标签可以是指待检测视频对应的原片视频的标签，例如，待检测视频为针对A电影的影视解说，标准视频标签可以是电影A的名称。待检测视频可以是客户端实时上传的视频；也可以是客户端历史上传的、已存储于服务器数据库中的视频，例如，服务器定时从用户帐户的已上传视频中选取至少一个视频进行检测。

视频数据库中存储有若干供比对的候选视频，每个候选视频通过候选视频标签标注。候选视频标签可以但不限于是影视综艺名称。

具体地，服务器获取待检测视频，按照预先配置的图像帧抽取方式从待检测视频中获取至少一帧待检测图像帧，例如，可以按照固定的时间间隔、固定的图像帧数量、随机等方式从待检测视频中抽取至少一帧待检测图像帧。相应地，服务器可以按照与待检测视频相同的抽帧方式对视频数据库中的每个候选视频进行抽帧，得到对应的至少一帧候选图像帧。

服务器按照预设的相似度算法获取待检测图像帧与每个候选视频对应的候选图像帧之间的图像帧相似度。获取图像帧相似度最高的至少一个候选视频，或者，获取图像帧相似度高于第一阈值的至少一个候选视频，作为第一相似视频。

在步骤S220中，从多个数据采集维度获取与待检测视频对应的待检测数据，对待检测数据进行特征提取，得到待检测视频的待检测多模特征。

其中，数据采集维度可以用于表征数据的来源、类型等，可以但不限于包括文本、序列、语音、图像等采集维度。

具体地，多路召回方式可以同步进行，即，服务器在确定第一相似视频的同时，从每个数据采集维度获取与每个数据采集维度对应的待检测数据。通过已训练的深度学习模型对每个数据采集维度的待检测数据进行特征提取，得到对应的待检测特征。服务器融合多个数据采集维度的待检测特征，得到待检测视频的待检测多模特征。其中，深度学习模型可以是任一种具备特征提取能力的模型。

在步骤S230中，根据待检测多模特征从视频数据库中确定第二相似视频。

具体地，对于视频数据库中的每个候选视频，可以预先多个数据采集维度获取与每个候选视频对应的候选数据。采用上述已训练的深度学习模型对每个候选视频的候选数据进行处理，得到每个候选视频的候选多模特征。服务器获取待检测多模特征与每个候选多模特征之间的特征相似度。将特征相似度最高的至少一个候选视频作为第二相似视频，或者，将特征相似度高于第二阈值的至少一个候选视频作为第二相似视频。

在步骤S240中，根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。

具体地，当第一相似视频和第二相似视频的数量都为一个时，可以随机选取其中一个视频的视频标签作为目标视频标签。当第一相似视频或者第二相似视频的数量为多个时，可以按照视频标签的出现次数确定目标视频标签。例如，第一相似视频包括视频A、视频B，视频A对应的视频标签为标签A，视频B对应的视频标签为标签B；第二相似视频包括视频C、视频D，视频C对应的视频标签为标签A，视频D对应的视频标签为标签D。标签A的出现次数最高，那么可以将标签A作为目标视频标签。

上述视频数据处理方法，预先构建包含大量视频的视频数据库，在此基础上进行检索，可以节省数据获取成本。预先部署多路结合的召回策略，在获取待检测视频后，通过一路召回策略根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频；通过另一路召回策略从多个数据采集维度获取与待检测视频对应的待检测数据，对待检测数据进行特征提取，得到待检测视频的待检测多模特征；根据待检测多模特征从视频数据库中确定第二相似视频。最后，根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。通过多路结合的召回策略，不仅可以提升确定视频标签的准确性，还可以提升视频标签的召回能力。

在一示例性实施例中，如图3所示，步骤S240，根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签，具体可以通过以下步骤实现：

在步骤S310中，获取第一视频标签的第一优先级，以及第二视频标签的第二优先级。

其中，视频标签的优先级可以用于反映各个召回方式的召回能力。召回能力越高，可以配置较高的优先级。召回能力可以通过召回效率、召回准确性、召回成本等中的任一个或多个确定，视具体的应用需求而定。例如，以召回成本为指标配置优先级，若图像帧召回方式的维护成本低于多模特征召回方式的维护成本，那么，可以配置图像帧召回方式的优先级高于多模特征召回方式的优先级。

具体地，服务器在获取第一相似视频的第一视频标签，以及第二相似视频的第二视频标签后，获取图像帧召回方式的优先级，作为第一视频标签的第一优先级，获取多模特征召回方式的优先级，作为第二视频标签的第二优先级。

在步骤S320中，当第一优先级高于第二优先级时，根据第一相似视频的第一视频标签确定目标视频标签。

具体地，当第一优先级高于第二优先级时，若第一相似视频的数量为一个，则将第一相似视频的第一视频标签作为目标视频标签。若第一相似视频的数量为多个，则获取与每个第一相似视频对应的第一视频标签。比对两两第一视频标签，当两两第一视频标签符合预设条件时，则对两两第一视频标签进行聚合处理。最后，获取聚合处理后的每组第一视频标签的第一出现次数，将第一出现次数最高的那组第一视频标签作为目标视频标签。其中，预设条件可以是两两第一视频标签的相似度满足第三阈值(例如，相似度高于99％)。通过按照第一视频标签之间相似度对第一视频标签进行聚合处理，将相似数量最多的视频标签作为目标视频标签，可以确保所得到的视频标签为置信度最高的标签，从而最大化地保证了视频标签的准确性。

举例说明，第一相似视频包括视频A、视频B、视频E、视频F，视频A对应的视频标签为标签A，视频B对应的视频标签为标签B，视频E对应的视频标签为标签A，视频F对应的视频标签为标签C。将两两视频标签进行比对，最终得到聚合结果为2个标签A、1个视频标签B，1个视频标签C。标签A的出现次数(2次)最高，则将标签A作为目标视频标签。

在步骤S330中，当第二优先级高于第一优先级时，根据第二相似视频的第二视频标签确定目标视频标签。

具体地，当第一优先级高于第二优先级时，若第二相似视频的数量为一个，则将该个第二相似视频的第二视频标签作为目标视频标签。若第二相似视频的数量为多个，则获取与每个第二相似视频对应的第二视频标签。比对两两第二视频标签，当两两第二视频标签符合预设条件时，则对两两第二视频标签进行聚合处理。最后，获取聚合处理后的每组第二视频标签的第二出现次数。将第二出现次数最高的那组第二视频标签作为目标视频标签。通过按照第二视频标签之间相似度对第二视频标签进行聚合处理，将相似数量最多的第二视频标签作为目标视频标签，可以确保所得到的视频标签为置信度最高的标签，从而最大化地保证了视频标签的准确性。

本实施例中，预先根据实际需求为各个召回方式配置相应的优先级，使得标签召回的应用过程更具灵活性；通过从优先级最高的召回方式召回得到的标签中筛选出目标视频标签，使得标签召回的应用过程与实际的需求场景更加贴合。

在一示例性实施例中，如图4所示，步骤S240，根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签，还可以通过以下步骤实现：

在步骤S410中，获取与第一相似视频对应的第一视频标签，以及与第二相似视频对应的第二视频标签。

具体地，当第一相似视频的数量为一个时，获取与该个第一相似视频对应的第一视频标签；当第一相似视频的数量为多个时，获取与每个第一相似视频对应的第一视频标签。相应地，当第二相似视频的数量为一个时，获取与该个第二相似视频对应的第二视频标签；当第二相似视频的数量为多个时，获取与每个第二相似视频对应的第二视频标签。

在步骤S420中，确定符合预设条件的第一视频标签的第一出现次数，以及符合预设条件的第二视频标签的第二出现次数。

具体地，服务器比对两两第一视频标签，当两两第一视频标签符合预设条件时，对两两第一视频标签进行聚合处理，获取聚合处理后的每组第一视频标签的第一出现次数。服务器比对两两第二视频标签，当两两第二视频标签符合预设条件时，对两两第二视频标签进行聚合处理，获取聚合处理后的每组第二视频标签的第二出现次数。

在步骤S430中，根据第一权重系数和第一出现次数，以及第二权重系数和第二出现次数，加权和得到符合预设条件的第一视频标签和第二视频标签的目标出现次数。

其中，权重系数可以用于反映各个召回方式的召回能力。召回能力越高，则可以配置较高的权重系数。召回能力可以通过召回效率、召回准确性、召回成本等中的任一个确定，视具体的应用需求而定。例如，以召回成本为指标配置权重系数，若图像帧召回方式的维护成本低于多模特征召回方式的维护成本，那么，可以配置图像帧召回方式的权重系数高于多模特征召回方式的权重系数。

权重系数可以是预先配置的常数；也可以根据当前的召回场景定期在线或者离线更新，例如，通过深度学习模型根据历史召回记录预测得到每种召回方式对应的权重系数。深度学习模型可以是任一种能够预测权重系数的模型，例如，线性模型、神经网络模型、支持向量机、逻辑回归模型等。

具体地，服务器获取图像帧召回方式的第一权重系数，以及多模特征召回方式的第二权重系数。对聚合处理后的第一视频标签和第二视频标签进行加权和，得到聚合处理后的第一视频标签和第二视频标签的目标出现次数。

举例说明，第一权重系数为0.7，第二权重系数为0.3。第一相似视频包括视频A、视频B、视频E、视频F，视频A对应的视频标签为标签A，视频B对应的视频标签为标签B，视频E对应的视频标签为标签A，视频F对应的视频标签为标签C，最终得到聚合结果为2个标签A、1个标签B，1个标签C。

第二相似视频包括视频C、视频D、视频G、视频H，视频C对应的视频标签为标签A，视频D对应的视频标签为标签D，视频G对应的视频标签为标签D，视频H对应的视频标签为标签H。最终得到聚合结果为2个标签D、1个标签A，1个标签H。

根据权重系数对聚合处理后的第一视频标签和第二视频标签进行加权和，则可以得到0.7*(2标签A+标签B+标签C)+0.3(标签A+2标签D+标签H)＝1.7标签A+0.7标签B+0.7标签C+0.6标签D+0.3标签H。即，标签A的目标出现次数为1.7，标签B的出现次数为0.7，标签D的出现次数为0.3，标签H的出现次数为0.3。

在步骤S440中，根据目标出现次数确定目标视频标签。

具体地，服务器可以获取目标出现次数最高的视频标签，作为目标视频标签。即，将上述示例中的标签A作为目标视频标签。

进一步地，当存在两个及以上的视频标签的目标出现次数相同时，则可以按照随机选取、优先级选取等方式，从两个及以上视频标签中确定出目标视频标签。

本实施例中，通过为各个召回方式设置相应的权重系数，为召回能力较高的召回方式赋予较重的权重系数，可以提升召回能力较高的召回方式输出的视频标签的胜出概率，有助于提升标签召回的准确性。

在一示例性实施例中，步骤S230，根据待检测多模特征从视频数据库中确定第二相似视频，包括：确定待检测多模特征与视频数据库中各个候选视频的候选多模特征之间的特征相似度；根据特征相似度从各个候选视频中确定多个第二相似视频。

其中，候选多模特征是对候选视频的候选数据进行特征提取得到的，候选数据是从多个数据采集维度获取的与候选视频对应的数据。对于视频数据库中的每个候选视频，可以从与待检测视频相同的多个数据采集维度获取候选数据。采用应用于待检测视频的相同深度学习模型对每个候选视频的多个数据采集维度的候选数据进行处理，得到每个候选视频的候选多模特征。根据若干候选视频的候选多模特征和候选视频标签构建多模特征索引库。

特征相似度可以使用余弦相似度、汉明距离、马氏距离等表征。

具体地，在获取待检测视频的待检测特征后，服务器获取待检测多模特征与多模特征索引库中的每个候选多模特征之间的特征相似度。将特征相似度最高的至少一个候选视频作为第二相似视频，或者获取高于阈值的特征相似度对应的至少一个候选视频作为第二相似视频。

本实施例中，通过预先构建多模特征索引库，在对待检测视频进行处理时可以直接与多模特征索引库中的多模特征进行比对，极大地加快了召回效率。

在一示例性实施例中，如图5所示，步骤S220，对待检测数据进行特征提取，得到待检测视频的待检测多模特征，具体可以通过以下步骤实现：

在步骤S510中，将待检测数据输入至视频分类模型，视频分类模型包括与每个数据采集维度对应的特征提取网络，以及注意力机制描述模型。

在步骤S520中，通过与每个数据采集维度对应的特征提取网络对相同数据采集维度下的待检测数据进行特征提取，得到对应的待检测特征。

在步骤S530中，通过注意力机制描述模型对所得到的多个待检测特征进行融合，得到待检测多模特征。

其中，视频分类模型为端到端模型，可以采用若干已标注视频标签的视频样本训练完成。与每个数据采集维度对应的特征提取网络可以相同，也可以不同。例如，多个数据采集维度包括语音采集维度和图像采集维度，那么可以设置分别用于对语音数据进行特征提取的特征提取网络，以及用于对图像进行特征提取的特征提取网络。

具体地，服务器将多个数据采集维度下的待检测数据输入至视频分类模型。通过视频分类模型中与各个数据采集维度对应的特征提取网络，对各个数据采集维度下的待检测数据进行特征提取，得到各个数据采集维度下的待检测特征。在多个特征提取网络都处理完毕后，得到多个待检测特征。服务器将多个待检测特征输入至注意力机制描述模型，通过注意力机制描述模型对多个待检测特征进行融合处理，得到待检测多模特征。

图6示例性示出了一种视频分类模型的示意图。如图6所示，多个数据采集维度包括文本采集维度(待检测数据为用户帐户信息、视频标题文本)、图像序列采集维度(待检测数据为连续图像帧)、图像采集维度(待检测数据为视频封面)。通过第一词向量特征提取模型(BERT，Bidirectional Encoder Representations from Transformers)对用户帐户信息进行特征提取，得到用户帐户信息的帐户特征；通过第二词向量特征提取模型对视频标题文本进行特征提取，得到视频标题文本的标题文本特征；通过序列特征提取模型(TSN，Time Sensitive Network)对连续图像帧序列进行特征提取，得到连续图像帧序列的序列特征；通过残差网络(ResNet，Residual network)对视频封面进行特征提取，得到视频封面的封面图像特征。拼接帐户特征、标题文本特征、序列特征和封面图像特征，得到拼接特征。通过注意力机制描述模型(图6中的MLP，Multi-layerPerceptron，多层感知器)对拼接特征进行处理，得到待检测多模特征。

本实施例中，通过从文本、序列、图像等多个数据采集维度获取待检测视频的待检测数据，使视频分类模型能够学习待检测视频的多元化知识，从而使所得到的待检测多模特征能够更加准确且全面地描述待检测视频的特性。

在一示例性实施例中，所述方法还包括：当根据待检测图像帧确定不存在第一相似视频，且根据待检测多模特征确定不存在第二相似视频时，获取视频分类模型继续对待检测多模特征进行处理输出的视频标签，作为目标视频标签。

具体地，视频分类模型还可以包括分类结果输出层。在获取待检测多模特征后，视频分类模型可以继续通过分类结果输出层对待检测多模特征进行处理，输出分类视频标签。当通过图像帧召回方式根据待检测图像帧确定不存在第一相似视频，且通过多模特征召回方式根据待检测多模特征确定不存在第二相似视频时，可以将视频分类模型输出的分类视频标签作为目标视频标签。

继续如图6所示，视频分类模型还包括与注意力机制描述模型连接的逻辑回归层(Softmax)。在得到待检测多模特征后，继续通过逻辑回归层对待检测多模特征进行处理，得到目标视频标签。

本实施例中，通过设置视频标签兜底策略，在多路召回方式都没有召回结果输出的情况下，使服务器依然能够通过兜底策略获取标签召回结果，提升了标签召回的应用稳定性。

在一示例性实施例中，在步骤S210中，根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频，包括：确定待检测图像帧与视频数据库中各个候选视频的候选图像帧之间的图像帧相似度；根据图像帧相似度、待检测图像帧在待检测视频中出现的位置，以及候选图像帧在候选视频中出现的位置，确定多个第一相似视频。

其中，从待检测视频中提取待检测图像帧的方式，可以与从候选视频中提取候选图像帧的方式相同。例如，从待检测视频中均匀地获取N帧待检测图像帧，那么也从候选视频中均匀地获取N帧待检测图像帧。

具体地，服务器可以预先对每个候选视频的候选图像帧进行处理，得到与候选视频图像帧对应的候选图像帧特征。根据若干候选视频的视频标签和候选图像帧特征构建图像帧索引库。在获取待检测视频后，服务器对每帧待检测图像帧进行处理，得到对应的待检测图像帧特征。计算待检测图像帧与图像帧索引库中的候选视频图像帧之间的图像帧相似度。若存在图像帧相似度高于阈值的多个候选图像帧属于同一候选视频，且多个候选图像帧在该候选视频中的位置，与对应的多个待检测图像帧在待检测视频中的位置符合预设要求，则将该候选视频图像帧确定为第一相似视频。

示例性地，待检测视频的起始时间是【0，T0】，通过对待检测视频均匀抽帧，得到多个待检测图像帧。在进行图像帧召回后，确定第0秒的待检测图像帧匹配到图像帧索引库中视频B的第20秒，第T0秒的待检测图像帧匹配到视频B的第40秒，且待检测视频的时间范围(T0秒)和20秒相仿，则可以将视频B作为第一相似视频。

在一些可能性实施例中，参照图7，可以对待检测视频进行分段处理，得到多个待检测分段视频。相应地，预先对候选视频进行相同方式的分段处理，得到多个候选分段视频。针对每个待检测分段视频，可以按照上述图像帧的匹配方式，确定与每个待检测分段视频对应的第一相似视频。在对每个待检测分段视频处理完毕后，整合所有的第一相似视频作为待检测视频的第一相似视频。

进一步地，针对每个分段视频，可以通过以下公式确定与每个待检测分段视频对应的第一相似视频：

其中，i代表每个待检测分段视频的起始帧时间点，j代表每个待检测分段视频的终止帧时间点；k和l都代表待检测分段视频的持续时间间隔。

本实施例中，由于图像帧召回方式能够精准匹配到两段视频中存在重复片段的时间区间，因此，采用图像帧召回方式不仅能够得到精确的目标视频标签，还能够定位到待检测视频在第一相似视频中的具体时间点，从而使视频数据处理的输出结果更加全面。

图8是根据一示例性实施例示出的一种视频数据处理方法的流程图，包括以下步骤。

在步骤S802中，获取待检测视频。

在步骤S804中，通过图像帧召回方式从待检测视频中获取多帧待检测图像帧，并获取每帧待检测图像帧的待检测图像帧特征。

在步骤S806中，获取待检测图像帧特征与视频数据库中每个候选视频的候选图像帧特征的图像帧相似度，根据图像帧相似度确定多个第一相似视频。图像帧召回方式的具体实现方式可以参照上述实施例，在此不作具体阐述。

其中，参照图9，候选视频包括原片视频，可以通过爬虫技术获取各个视频网站的原片视频资源。采用原片视频资源能够保证影视综标签内容的完整性。候选视频还可以包括与原片视频相关的短视频。对于不能快速得到的原片视频资源，可以通过文本标注、人工标注等方式获取与原片视频相关的短视频。

在步骤S808中，通过多模特征召回方式从多个数据采集维度获取与待检测视频对应的待检测数据。

在步骤S810中，将待检测数据输入至视频分类模型，获取待检测多模特征以及分类视频标签。视频分类模型的结构示意图以及具体工作方式可以参照上述图6，以及与图6对应的实施例，在此不做具体阐述。

在步骤S812中，确定待检测多模特征与视频数据库中各个候选视频的候选多模特征之间的特征相似度，根据特征相似度从各个候选视频中确定多个第二相似视频。

在步骤S814中，根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。

在步骤S816中，当确定不存在第一相似视频和第二相似视频时，将视频分类模型输出的分类视频标签作为目标视频标签。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图10是根据一示例性实施例示出的一种视频数据处理装置1000框图。参照图10，该装置包括第一视频确定模块1002、特征生成模块1004、第二视频确定模块1006、标签确定模块1008。

第一视频确定模块1002，被配置为执行根据待检测视频中的待检测图像帧从视频数据库中确定第一相似视频；特征生成模块1004，被配置为执行从多个数据采集维度获取与待检测视频对应的待检测数据，对待检测数据进行特征提取，得到待检测视频的待检测多模特征；第二视频确定模块1006，被配置为执行根据待检测多模特征从视频数据库中确定第二相似视频；标签确定模块1008，被配置为执行根据第一相似视频的第一视频标签，以及第二相似视频的第二视频标签，确定待检测视频的目标视频标签。

在一示例性实施例中，标签确定模块1008，包括：优先级获取单元，被配置为执行获取第一视频标签的第一优先级，以及第二视频标签的第二优先级；第一标签确定单元，被配置为执行当第一优先级高于第二优先级时，根据第一相似视频的第一视频标签确定目标视频标签；第二标签确定单元，被配置为执行当第二优先级高于第一优先级时，根据第二相似视频的第二视频标签确定目标视频标签。

在一示例性实施例中，第一标签确定单元，包括：第一标签确定子单元，被配置为执行当第一相似视频的数量为一个时，将第一视频标签作为目标视频标签；第一标签获取子单元，被配置为执行当第一相似视频的数量为多个时，获取与每个第一相似视频对应的第一视频标签；第一次数确定子单元，被配置为执行比对多个第一视频标签，根据所得到的第一比对结果确定符合预设条件的第一视频标签的第一出现次数；第二标签确定子单元，被配置为执行根据第一出现次数从第一视频标签中确定出目标视频标签。

在一示例性实施例中，第二标签确定单元，包括：第三标签确定子单元，被配置为执行当第二相似视频的数量为一个时，将第二视频标签作为目标视频标签；第二标签获取子单元，被配置为执行当第二相似视频的数量为多个时，获取与每个第二相似视频对应的第二视频标签；第二次数确定子单元，被配置为执行比对多个第二视频标签，根据所得到的第二比对结果确定符合预设条件的第二视频标签的第二出现次数；第四标签确定子单元，被配置为执行根据第二出现次数从第二视频标签中确定出目标视频标签。

在一示例性实施例中，标签确定模块1008，包括：标签获取单元，被配置为执行获取与第一相似视频对应的第一视频标签，以及与第二相似视频对应的第二视频标签；次数确定单元，被配置为执行确定符合预设条件的第一视频标签的第一出现次数，以及符合预设条件的第二视频标签的第二出现次数；次数加权单元，被配置为执行根据第一权重系数和第一出现次数，以及第二权重系数和第二出现次数，加权和得到符合预设条件的第一视频标签和第二视频标签的目标出现次数；第三标签确定单元，被配置为执行根据目标出现次数确定目标视频标签。

在一示例性实施例中，第二视频确定模块1006，包括：第一相似度确定单元，被配置为执行确定待检测多模特征与视频数据库中各个候选视频的候选多模特征之间的特征相似度，候选多模特征是对候选视频的候选数据进行特征提取得到的，候选数据是从多个数据采集维度获取的与候选视频对应的数据；第二视频确定单元，被配置为执行根据特征相似度从各个候选视频中确定多个第二相似视频。

在一示例性实施例中，特征生成模块1004，包括：输入单元，被配置为执行将待检测数据输入至视频分类模型，视频分类模型包括与每个数据采集维度对应的特征提取网络，以及注意力机制描述模型；特征提取单元，被配置为执行通过与每个数据采集维度对应的特征提取网络对相同数据采集维度下的待检测数据进行特征提取，得到对应的待检测特征；特征融合单元，被配置为执行通过注意力机制描述模型对所得到的多个待检测特征进行融合，得到待检测多模特征。

在一示例性实施例中，装置1000还包括：标签分类模块，被配置为执行当根据待检测图像帧确定不存在第一相似视频，且根据待检测多模特征确定不存在第二相似视频时，获取视频分类模型继续对待检测多模特征进行处理输出的视频标签，作为目标视频标签。

在一示例性实施例中，第一视频确定模块1002，包括：第二相似度确定单元，被配置为执行确定待检测图像帧与视频数据库中各个候选视频的候选图像帧之间的图像帧相似度，从待检测视频中提取待检测图像帧的方式，与从候选视频中提取候选图像帧的方式相同；第一视频确定单元，被配置为执行根据图像帧相似度、待检测图像帧在待检测视频中出现的位置，以及候选图像帧在候选视频中出现的位置，确定多个第一相似视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于视频检索的电子设备S00的框图。例如，电子设备S00可以为服务器。参照图11，电子设备S00包括处理组件S20，其进一步包括一个或多个处理器，以及由存储器S22所代表的存储器资源，用于存储可由处理组件S20的执行的指令，例如应用程序。存储器S22中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件S20被配置为执行指令，以执行上述方法。

电子设备S00还可以包括：电源组件S24被配置为执行电子设备S00的电源管理，有线或无线网络接口S26被配置为将电子设备S00连接到网络，和输入输出(I/O)接口S28。电子设备S00可以操作基于存储在存储器S22的操作***，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器S22，上述指令可由电子设备S00的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备S00的处理器执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的视频数据处理方法，其特征在于，所述根据所述第一相似视频的第一视频标签，以及所述第二相似视频的第二视频标签，确定所述待检测视频的目标视频标签，包括：

3.根据权利要求2所述的视频数据处理方法，其特征在于，所述根据所述第一相似视频的第一视频标签确定所述目标视频标签，包括：

4.根据权利要求2所述的视频数据处理方法，其特征在于，所述根据所述第二相似视频的第二视频标签确定所述目标视频标签，包括：

5.根据权利要求1所述的视频数据处理方法，其特征在于，所述根据所述第一相似视频的第一视频标签，以及所述第二相似视频的第二视频标签，确定所述待检测视频的目标视频标签，包括：

根据所述目标出现次数确定所述目标视频标签。

6.根据权利要求1～5任一项所述的视频数据处理方法，其特征在于，所述根据所述待检测多模特征从所述视频数据库中确定第二相似视频，包括：

7.一种视频数据处理装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频数据处理方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的视频数据处理方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6任一项所述的视频数据处理方法。