CN113365102A

CN113365102A - 视频处理方法及装置、标签处理方法及装置

Info

Publication number: CN113365102A
Application number: CN202010143035.6A
Authority: CN
Inventors: 毛超杰; 唐铭谦
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Damo Academy Beijing Technology Co ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2021-09-07
Anticipated expiration: 2040-03-04
Also published as: CN113365102B

Abstract

本申请提供视频处理方法及装置、标签处理方法及装置，其中，所述视频处理方法包括：获取待处理视频；基于所述待处理视频，获得至少一个数据维度的中间视频数据；对所述至少一个数据维度的中间视频数据进行编码，获得与数据维度对应的视频特征；根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签。

Description

视频处理方法及装置、标签处理方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及视频处理方法及装置、标签处理方法及装置。

背景技术

随着网络技术和多媒体技术的迅速发展，网络上涌现出各种各样的资源，比如图片、文字、声音、视频等，这些资源在丰富用户生活的同时，但也使用户在网络上浏览资源的时候面临选择困难，在面临各类资源的时候很难快速定位和找到想要的资源，这就需要对资源进行标签化处理，通过对网络上传播的资源进行解析，解析出资源当中包含的人物、背景等标签，解析出的标签可以用于进行资源搜索。

发明内容

有鉴于此，本申请提供了一种视频处理方法、一种视频处理装置、一种标签处理方法、一种标签处理装置、两种计算设备以及两种计算机可读存储介质。

本申请提供一种视频处理方法，包括：

获取待处理视频；

基于所述待处理视频，获得至少一个数据维度的中间视频数据；

对所述至少一个数据维度的中间视频数据进行编码，获得与数据维度对应的视频特征；

根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签。

可选的，所述标签数据库中记录有通过标签注册写入的标签，所述标签注册包括：

获取待注册标签的至少一个数据维度的一个或者多个标签数据；

根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征；

按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征；

将所述一个或者多个标签数据和所述目标特征，以写入所述标签数据库的方式，对所述待注册标签进行注册。

可选的，所述基于所述待处理视频，获得至少一个数据维度的中间视频数据，包括：

对所述待处理视频进行分解，获得所述至少一个数据维度的中间视频数据。

可选的，所述根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签步骤执行之后，还包括：

基于所述待处理视频的视频标签，确定向用户推荐的目标视频和或者目标对象并进行推荐；

和/或，

基于所述待处理视频的视频标签，对用户的视频浏览行为进行分析，确定所述用户的视频浏览特征数据；所述待处理视频为用户浏览的历史视频。

可选的，所述待处理视频包括互动视频；所述中间视频数据包括所述互动视频中包含的互动数据。

本申请提供一种视频处理装置，包括：

获取模块，被配置为获取待处理视频；

确定模块，被配置为基于所述待处理视频，获得至少一个数据维度的中间视频数据；

编码模块，被配置为对所述至少一个数据维度的中间视频数据进行编码，获得与数据维度对应的视频特征；

检索模块，被配置为根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签。

本申请提供一种标签处理方法，包括：

将所述一个或者多个标签数据和所述目标特征，以写入标签数据库的方式，对所述待注册标签进行注册。

可选的，所述获取待注册标签的至少一个数据维度的一个或者多个标签数据步骤执行之后，且所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征步骤执行之前，包括：

对所述一个或者多个标签数据进行编码，获得标签向量；

计算所述标签向量与所述标签数据库中基准标签向量的相似度；

判断所述相似度是否小于预设相似度阈值；

若是，执行所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征步骤。

针对任意一个数据维度的一个或者多个标签数据，采用聚类算法对所述一个或者多个标签数据进行聚类；

若聚类获得的标签数据集为多个，则将包含标签数据较少的标签数据集从所述一个或者多个标签数据中剔除。

可选的，所述数据维度包括文本维度，所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征，包括：

根据所述文本维度对应的文本编码模型，对所述文本维度的一个或者多个标签文本中至少一者进行文本特征编码，获得所述待注册标签的文本特征。

可选的，所述数据维度包括图像维度，所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征，包括：

根据所述图像维度对应的图像编码模型，对所述图像维度的一个或者多个标签图像中至少一者进行图像特征编码，获得所述待注册标签的图像特征。

可选的，所述按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征，包括：

若所述标签特征的特征数目小于或者等于第一特征数目阈值，将所述标签特征作为所述目标特征。

若所述标签特征的特征数目大于第一特征数目阈值且小于或者等于第二特征数目阈值，采用聚合算法将所述标签特征聚合为所述目标特征。

若所述标签特征的特征数目大于第二特征数目阈值，将所述标签特征作为正样本，并从所述标签数据库中选择标签类型与所述待注册标签的标签类型不同的标签特征作为负样本；

基于所述正样本和所述负样本进行二分类训练；

根据训练获得的训练参数构建参数向量，并将所述参数向量作为所述目标特征。

可选的，所述标签处理方法，还包括：

获取待处理视频；

对所述待处理视频进行分解，获得图像维度的待处理图像数据、文本维度的待处理文本数据和/或声音维度的待处理声音数据；

对所述待处理图像数据进行图像特征编码、对所述待处理文本数据进行文本特征编码和/或对所述待处理声音数据进行声音特征编码，获得所述待处理视频的图像特征、文本特征和/或声音特征；

根据所述图像特征、所述文本特征和/或所述声音特征，在所述标签数据库中进行检索；

根据检索获得的目标特征，确定所述目标特征对应的目标标签为所述待处理视频的视频标签。

可选的，所述根据所述图像特征、所述文本特征和/或所述声音特征，在所述标签数据库中进行检索，包括：

计算所述图像特征、所述文本特征和/或所述声音特征与所述标签数据库中特性向量的特征相似度；

选择特征相似度最高的特征向量作为所述目标特征。

本申请提供一种标签处理装置，包括：

标签数据获取模块，被配置为获取待注册标签的至少一个数据维度的一个或者多个标签数据；

特征编码模块，被配置为根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征；

特征聚合模块，被配置为按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征；

标签注册模块，被配置为将所述一个或者多个标签数据和所述目标特征，以写入标签数据库的方式，对所述待注册标签进行注册。

本申请还提供一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取待处理视频；

本申请还提供一种计算设备，包括：

存储器和处理器；

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述标签处理方法的步骤。

本申请提供的视频处理方法，对待处理视频进行标签化处理的过程中，通过获取所述待处理视频在至少一个数据维度的中间视频数据，利用中间视频数据编码获得的与数据维度对应的视频特征，在标签数据库中进行更加全面和灵活的标签检索，以此实现对待处理视频的标签化处理，从而实现了更加全面和精准的视频内容表达。

本申请提供的标签处理方法，在注册标签的过程中，支持从多个数据维度出发对待注册标签进行注册，并通过预先针对各数据维度设置的编码模型，分别对各数据维度的标签数据进行特征编码处理，并结合各数据维度的标签特征聚合出待注册标签的目标特征，不仅丰富了标签定义的方式，提升了标签注册的灵活性，同时还提升了特征编码的处理的准确性，从而使标签注册过程更具准确性和灵活性。

附图说明

图1是本申请实施例提供的一种视频处理方法处理流程图；

图2是本申请实施例提供的一种视频处理场景示意图；

图3是本申请实施例提供的一种视频处理装置的示意图；

图4是本申请实施例提供的一种标签处理方法处理流程图；

图5是本申请实施例提供的一种标签注册场景示意图；

图6是本申请实施例提供的一种标签处理装置的示意图；

图7是本申请实施例提供的一种计算设备的结构框图；

图8是本申请实施例提供的另一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请一个实施例提供一种视频处理方法、一种视频处理装置、一种标签处理方法、一种标签处理装置、两种计算设备以及两种计算机可读存储介质。以下分别结合本说明书提供的实施例的附图逐一进行详细说明，并且对方法的各个步骤进行说明。

本申请提供的一种视频处理方法实施例如下：

参照附图1，其示出了本实施例提供的一种视频处理方法处理流程图，参照附图2，其示出了本实施例提供的一种视频处理场景的示意图。

步骤S102，获取待处理视频。

实际应用中，视频平台或者视频网站面向用户提供视频浏览访问的过程中，为使用户获得更加高效、快捷的视频浏览体验，通过视频理解技术对视频内容进行识别以对视频进行标签化处理，对用户而言，能够通过视频标签进行更加快速和有效的视频查找和浏览。本申请提供的视频处理方法，通过向用户开放标签数据库中标签的注册，来提升标签数据库中标签的全面性，从而使基于标签数据库对待处理视频的标签化处理更加全面和灵活，同时，对待处理视频进行标签化处理的过程中，在按照数据维度对待处理视频进行分解的基础上，在对用户开放标签注册的标签数据库中进行更加全面和灵活的标签检索，以此实现对待处理视频的标签化处理。

本申请实施例所述待处理视频，可以是按照视频帧形成的视频片段或者完整视频，比如待处理视频可以是影视剧中一个片段(5min电影片段)或者完整的一集(一集电视剧)，此外，待处理视频还可以是完整的一个互动视频或者互动视频中的视频片段。基于此，本实施例对所述待处理视频进行标签化处理获得的视频标签，也可以是针对视频帧的视频标签，或者针对视频片段的视频标签。

步骤S104，基于所述待处理视频，获得至少一个数据维度的中间视频数据。

可选的，基于所述待处理视频，获得至少一个数据维度的中间视频数据，包括：对所述待处理视频进行分解，获得所述至少一个数据维度的中间视频数据。比如，对于获取到的待处理的视频video，按照视频video所包含数据的数据类型对其进行分解，分解后获得视频video在图像维度的图像数据、在文本维度的文本数据以及在声音维度的声音数据。再比如，在待处理视频为互动视频的场景中，此处对互动视频进行解析获得的中间视频数据为互动视频中的弹幕数据或者互动数据(体感互动数据或者AB选择互动数据)。

步骤S106，对所述至少一个数据维度的中间视频数据进行编码，获得与数据维度对应的视频特征。

步骤S108，根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签。

可选的，所述标签数据库中记录有通过标签注册写入的标签，在所述标签数据库中进行的标签注册，具体采用如下方式实现：

需要说明的是，本实施例提供的标签注册过程与下述标签注册方法实施例提供的标签注册处理过程类似，参照下述标签注册方法实施例提供的标签注册的具体实现过程即可。

例如，用户A对视频video进行打标的过程中，首先，读取待处理的视频video；

然后，按照视频video所包含数据的数据类型对其进行分解，分解后获得视频video在图像维度的图像数据、在文本维度的文本数据以及在声音维度的声音数据；

其次，对分解获得的图像数据、文本数据和声音数据进行特征编码，具体采用wordto vector文本特征编码方式将文本数据编码为文本特征向量，利用图像特征编码算法将图像数据编码为图像特征向量，并利用声音特征编码算法将声音数据编码为声音特征向量，

再次，根据文本特征向量、图像特征向量和声音特征向量在标签数据库中进行检索，检索过程具体是计算文本特征向量、图像特征向量和声音特征向量与标签数据库中标签的特征向量的余弦距离，来衡量视频video的文本特征向量、图像特征向量和声音特征向量与标签数据库中标签的特征向量的相似度；

最后，若标签数据库中与视频video的文本特征向量、图像特征向量和声音特征向量相似度最高的特征向量所属的标签为“足球比赛”，则将视频video标记为“足球比赛”标签。

实际应用中，在确定待处理视频的视频标签之后，还可以基于确定的视频标签进行更进一步的推荐处理和分析处理，本申请实施例提供的一种可选实施方式中，基于所述待处理视频的视频标签，确定向用户推荐的目标视频和或者目标对象并进行推荐。例如，根据用户浏览的影视剧视频的视频标签，向用户推荐类似得影视剧，或者向用户推荐影视剧中人物服装或者道具等。

除此之外，还可以基于用户浏览的历史视频的视频标签，对用户的视频浏览行为进行分析，确定所述用户的视频浏览特征数据。例如，基于用户浏览的历史视频分析用户浏览视频过程中的视频浏览偏好，在用户的浏览视频偏好的基础上可以进行更加精准的视频推荐。

综上所述，所述视频处理方法，对待处理视频进行标签化处理的过程中，按照数据维度对待处理视频进行分解，并在标签数据库对外开放标签注册的基础上，在标签数据库中进行更加全面和灵活的标签检索，以此实现对待处理视频的标签化处理，从而实现了更加全面和精准的视频内容表达。

本说明书提供的一种视频处理装置实施例如下：

在上述的实施例中，提供了一种视频处理方法，与之相对应的，还提供了一种视频处理装置，下面结合附图进行说明。

参照附图3，其示出了本实施例提供的一种视频处理装置的示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本申请提供一种视频处理装置，包括：

获取模块302，被配置为获取待处理视频；

确定模块304，被配置为基于所述待处理视频，获得至少一个数据维度的中间视频数据；

编码模块306，被配置为对所述至少一个数据维度的中间视频数据进行编码，获得与数据维度对应的视频特征；

检索模块308，被配置为根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签。

可选的，所述标签数据库中记录有通过标签注册写入的标签，所述标签注册，通过运行如下模块实现：

标签注册模块，被配置为将所述一个或者多个标签数据和所述目标特征，以写入所述标签数据库的方式，对所述待注册标签进行注册。

可选的，所述确定模块304，具体被配置为对所述待处理视频进行分解，获得所述至少一个数据维度的中间视频数据。

可选的，所述的视频处理装置，还包括：

推荐模块，被配置为基于所述待处理视频的视频标签，确定向用户推荐的目标视频和或者目标对象并进行推荐；

和/或，

分析模块，被配置为基于所述待处理视频的视频标签，对用户的视频浏览行为进行分析，确定所述用户的视频浏览特征数据；所述待处理视频为用户浏览的历史视频。

本申请提供的一种标签处理方法实施例如下：

参照附图4，其示出了本实施例提供的一种标签处理方法处理流程图，参见附图5，其示出了本实施例提供的一种标签注册场景示意图。

步骤S402，获取待注册标签的至少一个数据维度的一个或者多个标签数据。

实际应用中，内容平台或者资源网站面向用户提供数据资源访问的过程中，为使用户获得更加高效、快捷的数据资源访问体验，通过对数据资源进行解析以对数据资源进行标签化处理，从而能够通过标签进行更加快速和有效数据资源访问。但在对数据资源进行标签化的过程中，面临的难题是如何对大规模的数据资源进行标签化处理，并且，不同业务场景需要的标签也各不相同，针对不同业务场景定制适配的标签耗时耗力。本申请提供的标签处理方法，允许用户针对数据资源自行注册标签，并且，支持用户通过多种数据维度的标签数据进行标签定义，如附图5所示，用户可以通过一个或者多个数据维度的标签数据对待注册标签进行定义，不仅丰富了用户定义标签的方式，提升了标签注册的灵活性，同时，通过多个数据维度进行标签定义，提升了标签注册的准确性。

本实施例在进行标签注册的过程中，首先获取待注册标签的至少一个数据维度的一个或者多个标签数据。所述数据维度，是指用户对标签进行自定义过程中所采用数据的数据类型，常见的数据维度包括文本维度、图像维度以及声音维度等。以用户注册“宠物狗”标签的场景为例，采用多个数据维度的标签数据对“宠物狗”标签进行定义，则体现为用户采用一张或多张宠物狗的图像、一段或多段文字描述或者一段或多段声音信息进行“宠物狗”标签的定义，或者，用户采用一段或多段文字描述和一张或多张宠物狗的图像共同进行“宠物狗”标签的定义。

实际应用中，标签的使用往往集中在对数据资源进行打标(标签化处理)环节，比如从人物出发对视频资源进行人物标签的标记，从场景出发对图像资源进行场景标签的标记，或者，从语义出发对文本资源进行语义标签的标记，本实施例中，标签存储在标签数据库中，对数据资源进行打标的过程，则是指从标签数据库中检索与数据资源相匹配的标签，按照这一逻辑，标签注册即是指在标签数据库中添加新标签的过程。

具体实施时，在进行标签注册过程中，为提升标签注册的有效性，避免用户注册无效的标签，影响标签数据库中标签的准确性，本实施例提供的一种可选实施方式中，采用如下方式对所述待注册标签进行映射处理：

对所述一个或者多个标签数据进行编码，获得标签向量；

判断所述相似度是否小于预设相似度阈值；

若是，表明与当前进行标签注册的待注册标签与所述标签数据库中已有标签的相似度较低，则执行下述步骤S404；

若否，表明当前进行标签注册的所述待注册标签与所述标签数据库中已有标签的相似度较高，即：当前进行标签注册的所述待注册标签很可能是所述标签数据库中的已有标签，则将所述待注册标签与所述标签数据库中相似度大于预设相似度阈值的已有标签进行映射，具体可以是将针对所述待注册标签的标签数据添加至该已有标签的标签数据中，还可以根据所述待注册标签的标签数据更新该已有标签的标签数据。

例如，用户在对“宠物狗”标签进行注册的过程中，提交了一段针对“宠物狗”标签的文字描述和5张不同品种的宠物狗图像，首先，采用word to vector等文本特征编码方式将文字描述编码为文本特征向量，并利用图像特征编码算法将5张宠物狗图像分别编码为相应的图像特征向量；然后，计算文本特征向量与标签数据库中标签的特征向量的特征相似度，以及，分别计算5个图像特征向量与标签数据库中标签的特征向量的特征相似度；判断计算获得的特征相似度是否小于特征相似度阈值，如果文本特征向量与标签数据库中“宠物犬”标签的文本特征向量的特征相似度大于或者等于特征相似度阈值，且5个图像特征向量中至少一个图像特征向量与“宠物犬”标签的图像特征向量的特征相似度大于或者等于特征相似度阈值，则表明用户当前注册的“宠物狗”标签与标签数据库中的“宠物犬”标签的相似度较高，将用户当前注册的“宠物狗”标签与标签数据库中的“宠物犬”标签进行映射，具体是将用户在注册“宠物狗”标签时提交的文字描述添加至“宠物犬”标签的文本标签数据中，并将至少一个与“宠物犬”标签的图像特征向量的特征相似度大于或者等于特征相似度阈值的图像特征向量，添加至“宠物犬”标签的图像标签数据中。

此外，在实际应用中，用户在进行标签注册的过程中，针对标签注册提交的标签数据的准确性可能会存在一定的偏差，比如用户进行标签注册提交的文字描述信息不一定能精准的描述待注册标签的特征，再比如用户进行标签注册提交的图像也不一定能精准的表征待注册标签的特征，针对这种情况，为提升标签注册提交的标签数据的准确性和有效性，本实施例提供的一种可选实施方式中，采用如下方式对所述待注册标签的标签数据进行清洗：

沿用上例，对于用户在进行“宠物狗”标签注册过程中提交的5张宠物狗图像，采用聚类算法对这5张宠物狗图像进行聚类，若聚类结果为这5张宠物狗图像均为一类，表明用户提交这5张宠物图像之间具有一定的共性特征，不作处理即可；若聚类结果为4张宠物狗图像被分为一类，剩余一张宠物狗图像被分为一类，则表明剩余的该张宠物狗图像与其他4张宠物狗图像的相似性较低，可能的情形是用户上传了不适当的图像，则将该张宠物狗图像从“宠物狗”标签的5张宠物狗图像中剔除。

如果将用户待注册的“宠物狗”标签记为L，并且将用户针对“宠物狗”标签L提交的标签数据记为D，则可将“宠物狗”标签L与标签数据D记为标签元组[L，D]；此外，标签数据D在经过清洗之后，会获得标准化的标签元组[Lstd，D]。

需要说明的是，在对所述待注册标签进行处理的过程中，还可以将上述提供的对所述待注册标签的映射处理过程与针对所述待处理标签的标签数据的清洗过程进行结合，以此来进一步提升标签注册的准确性和有效性。

步骤S404，根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征。

本实施例中，为了提升不同数据维度的标签数据进行特征编码的效率和准确率，针对不同数据维度，分别配置了对应的编码模型来进行特征编码，具体的，本实施例提供的一种可选实施方式中，针对文本维度的标签数据提供了对应的文本编码模型，通过利用所述文本编码模型对所述文本维度的一个或者多个标签数据中至少一者进行特征编码，以此来获得所述待注册标签在所述文本维度的文本特征。

与之相类似，本实施例提供的另一种可选实施方式中，还针对图像维度的标签数据提供了对应的图像编码模型，通过利用图像编码模型对所述图像维度的一个或者多个标签图像中至少一者进行图像特征编码，以此来获得所述待注册标签在所述图像维度的图像特征。

例如，针对用户在对“宠物狗”标签进行注册的过程中提交的一段文字描述和5张不同品种的宠物狗图像，将用户提交的一段文字描述输入BERT(Bidirectional EncoderRepresentation from Transformers)等神经网络模型进行文本特征编码，输出这一段文字描述的文本特征向量；以及，将用户提交的5张宠物狗图像分别输入深度卷积网络模型进行图像特征编码，分别输出这5张宠物狗图像的图像特征向量。

如果将用户待注册的“宠物狗”标签记为L，并且将用户针对“宠物狗”标签L提交的标签数据记为D，则可将“宠物狗”标签L与标签数据D记为标签元组[L，D]，还可在此基础上进一步将文本图像向量和图像特征向量记为V，则能够根据“宠物狗”标签L、标签数据D和特征向量V三者获得标签元组[L，D，V]。

步骤S406，按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征。

在上述步骤按照数据维度对所述待注册标签的标签数据进行特征编码之后，获得所述待注册标签在对应数据维度的标签特征，本实施例中，从所述标签特征的特征数目出发，针对不同数目采用不同的特征聚合方式对所述待注册标签的标签特征进行聚合，以此来提升特征聚合后获得的目标特征的准确性和有效性。

具体的，本实施例按照所述待注册标签的标签特征的特征数目，分为下述3种特征聚合方式对所述标签特征进行特征聚合处理：

(1)所述标签特征的特征数目小于或者等于第一特征数目阈值：

所述第一特征数目阈值的数值大小预先设置，一般设置为1，但也可根据实际场景的业务需求进行设置，若所述待注册标签的标签特征的特征数目小于或者等于所述第一特征数目阈值，则表明特征编码后获得的所述标签特征的特征数目较少，在这种情况下，针对所述标签特征进行聚合处理的特征聚合方式为空，即：按照所述特征聚合方式进行聚合之前和之后的标签特征保持不变，将所述标签特征作为所述目标标签即可。

(2)所述标签特征的特征数目大于第一特征数目阈值且小于或者等于第二特征数目阈值：

第二特征数目阈值的数值大小大于第一特征数目阈值的数值大小，同样是预先设置，在所述标签特征的特征数目大于第一特征数目阈值且小于或者等于第二特征数目阈值的情况下，采用聚合算法将所述标签特征聚合为所述目标特征。

比如，采用求平均的方式将多个标签特征聚合为一个标签特征向量，作为所述待注册标签的代表；再比如，通过将所述待注册标签的多个标签特征输入LSTM(Long Short-Term Memory，长短期记忆网络)模型进行聚合，并将LSTM模型输出的聚合后标签特征作为所述目标标签。

(3)所述标签特征的特征数目大于第二特征数目阈值。

若所述待注册标签的标签数目大于所述第二特征数目阈值，则表明所述待注册标签的标签数目较多，在这种情况下，为使最终聚合获得的所述目标特征能够更加全面和准确的表征所述待注册标签的多个标签特征所携带的特征信息，在此，通过模型训练的方式来提取所述待注册标签的多个标签特征所携带的特征信息，具体采用如下方式实现：

将所述标签特征作为正样本，并从所述标签数据库中选择标签类型与所述待注册标签的标签类型不同的标签特征作为负样本；

基于所述正样本和所述负样本进行二分类训练；

步骤S408，将所述一个或者多个标签数据和所述目标特征，以写入标签数据库的方式，对所述待注册标签进行注册。

如上所述，标签的使用往往集中在对数据资源进行打标(标签化处理)环节，比如从人物出发对视频资源进行人物标签的标记，从场景出发对图像资源进行场景标签的标记，或者，从语义出发对文本资源进行语义标签的标记，本实施例中，标签存储在标签数据库中，对数据资源进行打标的过程，则是指从标签数据库中检索与数据资源相匹配的标签，按照这一逻辑，标签注册即是指在标签数据库中添加新标签的过程。具体的，本实施例通过将所述待注册标签的标签数据和所述目标特征写入所述标签数据库的方式，实现所述待注册标签的注册。

实际应用中，对于所述标签数据库的标签，在对数据资源进行标签化处理的过程中，基于所述标签数据库中的标签对数据资源进行打标，本实施例以视频资源为例，针对基于所述标签数据库对数据资源的标签化处理过程进行说明，除视频资源之外的文本资源、图像资源或者声音资源的标签化处理过程与视频资源的标签化处理过程类似，参照本实施例提供的下述视频资源的标签化处理过程即可，在此不再一一赘述。

本实施例提供的视频资源的标签化处理采用如下方式实现：

1)获取待处理视频；

2)对所述待处理视频进行分解，获得图像维度的待处理图像数据、文本维度的待处理文本数据和/或声音维度的待处理声音数据；

3)对所述待处理图像数据进行图像特征编码、对所述待处理文本数据进行文本特征编码和/或对所述待处理声音数据进行声音特征编码，获得所述待处理视频的图像特征、文本特征和/或声音特征；

4)根据所述图像特征、所述文本特征和/或所述声音特征，在所述标签数据库中进行检索；

可选的，在所述标签数据库中进行检索的过程中，首先计算所述图像特征、所述文本特征和/或所述声音特征与所述标签数据库中特性向量的特征相似度，然后选择特征相似度最高的特征向量作为所述目标特征；

5)根据检索获得的目标特征，确定所述目标特征对应的目标标签为所述待处理视频的视频标签。

综上所述，本申请提供的标签处理方法，在注册标签的过程中，支持从多个数据维度出发对待注册标签进行注册，并通过预先针对各数据维度设置的编码模型，分别对各数据维度的标签数据进行特征编码处理，并结合各数据维度的标签特征聚合出待注册标签的目标特征，不仅丰富了标签定义的方式，提升了标签注册的灵活性，同时还提升了特征编码的处理的准确性，从而使标签注册过程更具准确性和灵活性。

本申请提供的一种标签处理装置实施例如下：

在上述的实施例中，提供了一种标签处理方法，与之相对应的，还提供了一种标签处理装置，下面结合附图进行说明。

参照附图6，其示出了本实施例提供的一种标签处理装置的示意图。

本申请提供一种标签处理装置，包括：

标签数据获取模块602，被配置为获取待注册标签的至少一个数据维度的一个或者多个标签数据；

特征编码模块604，被配置为根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征；

特征聚合模块606，被配置为按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征；

标签注册模块608，被配置为将所述一个或者多个标签数据和所述目标特征，以写入标签数据库的方式，对所述待注册标签进行注册。

可选的，所述标签处理装置，还包括：

标签数据编码模块，被配置为对所述一个或者多个标签数据进行编码，获得标签向量；

相似度计算模块，被配置为计算所述标签向量与所述标签数据库中基准标签向量的相似度；

相似度判断模块，被配置为判断所述相似度是否小于预设相似度阈值；若是，运行所述特征编码模块604。

可选的，所述标签处理装置，还包括：

标签数据聚类模块，被配置为针对任意一个数据维度的一个或者多个标签数据，采用聚类算法对所述一个或者多个标签数据进行聚类；

标签数据剔除模块，被配置为若聚类获得的标签数据集为多个，则将包含标签数据较少的标签数据集从所述一个或者多个标签数据中剔除。

可选的，所述特征编码模块604，具体被配置为根据所述文本维度对应的文本编码模型，对所述文本维度的一个或者多个标签文本中至少一者进行文本特征编码，获得所述待注册标签的文本特征。

可选的，所述特征编码模块604，具体被配置为根据所述图像维度对应的图像编码模型，对所述图像维度的一个或者多个标签图像中至少一者进行图像特征编码，获得所述待注册标签的图像特征。

可选的，所述特征聚合模块606，具体被配置为若所述标签特征的特征数目小于或者等于第一特征数目阈值，将所述标签特征作为所述目标特征。

可选的，所述特征聚合模块606，具体被配置为若所述标签特征的特征数目大于第一特征数目阈值且小于或者等于第二特征数目阈值，采用聚合算法将所述标签特征聚合为所述目标特征。

可选的，所述特征聚合模块606，包括：

样本确定子模块，被配置为若所述标签特征的特征数目大于第二特征数目阈值，将所述标签特征作为正样本，并从所述标签数据库中选择标签类型与所述待注册标签的标签类型不同的标签特征作为负样本；

训练子模块，被配置为基于所述正样本和所述负样本进行二分类训练；

目标特征确定子模块，被配置为根据训练获得的训练参数构建参数向量，并将所述参数向量作为所述目标特征。

可选的，所述标签处理装置，还包括：

待处理视频获取模块，被配置为获取待处理视频；

视频分解模块，被配置为对所述待处理视频进行分解，获得图像维度的待处理图像数据、文本维度的待处理文本数据和/或声音维度的待处理声音数据；

视频数据编码模块，被配置为对所述待处理图像数据进行图像特征编码、对所述待处理文本数据进行文本特征编码和/或对所述待处理声音数据进行声音特征编码，获得所述待处理视频的图像特征、文本特征和/或声音特征；

特征检索模块，被配置为根据所述图像特征、所述文本特征和/或所述声音特征，在所述标签数据库中进行检索；

视频标签确定模块，被配置为根据检索获得的目标特征，确定所述目标特征对应的目标标签为所述待处理视频的视频标签。

可选的，所述特征检索模块，包括：

特征相似度计算子模块，被配置为计算所述图像特征、所述文本特征和/或所述声音特征与所述标签数据库中特性向量的特征相似度；

目标特征选择子模块，被配置为选择特征相似度最高的特征向量作为所述目标特征。

本申请提供的一种计算设备实施例如下：

图7是示出了根据本申请一个实施例提供的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

本申请提供另一种计算设备，包括存储器710、处理器720及存储在存储器上并可在处理器上运行的计算机指令，所述处理器720用于执行如下计算机可执行指令：

获取待处理视频；

本申请提供的另一种计算设备实施例如下：

图8是示出了根据本申请一个实施例提供的计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

本申请提供一种计算设备，包括存储器810、处理器820及存储在存储器上并可在处理器上运行的计算机指令，所述处理器820用于执行如下计算机可执行指令：

可选的，所述获取待注册标签的至少一个数据维度的一个或者多个标签数据指令执行之后，且所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征指令执行之前，所述处理器820还用于执行如下计算机可执行指令：

对所述一个或者多个标签数据进行编码，获得标签向量；

判断所述相似度是否小于预设相似度阈值；

基于所述正样本和所述负样本进行二分类训练；

可选的，所述处理器820还用于执行如下计算机可执行指令：

获取待处理视频；

选择特征相似度最高的特征向量作为所述目标特征。

本申请提供的一种计算机可读存储介质实施例如下：

本申请一个实施例提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本申请提供的另一种计算机可读存储介质实施例如下：

本申请一个实施例提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述标签处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的标签处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述标签处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频处理方法，包括：

获取待处理视频；

2.根据权利要求1所述的视频处理方法，所述标签数据库中记录有通过标签注册写入的标签，所述标签注册包括：

3.根据权利要求1所述的视频处理方法，所述基于所述待处理视频，获得至少一个数据维度的中间视频数据，包括：

4.根据权利要求1所述的视频处理方法，所述根据所述视频特征在标签数据库中进行检索，获得所述待处理视频的视频标签步骤执行之后，还包括：

和/或，

5.根据权利要求1所述的视频处理方法，所述待处理视频包括互动视频；

所述中间视频数据包括所述互动视频中包含的互动数据。

6.一种视频处理装置，包括：

获取模块，被配置为获取待处理视频；

7.一种标签处理方法，包括：

8.根据权利要求7所述的标签处理方法，所述获取待注册标签的至少一个数据维度的一个或者多个标签数据步骤执行之后，且所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征步骤执行之前，包括：

对所述一个或者多个标签数据进行编码，获得标签向量；

判断所述相似度是否小于预设相似度阈值；

9.根据权利要求7所述的标签处理方法，所述获取待注册标签的至少一个数据维度的一个或者多个标签数据步骤执行之后，且所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征步骤执行之前，包括：

10.根据权利要求7所述的标签处理方法，所述数据维度包括文本维度，所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征，包括：

11.根据权利要求7所述的标签处理方法，所述数据维度包括图像维度，所述根据数据维度对应的编码模型，对所述数据维度的一个或者多个标签数据中至少一者进行特征编码，获得所述待注册标签的标签特征，包括：

12.根据权利要求7所述的标签处理方法，所述按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征，包括：

13.根据权利要求7所述的标签处理方法，所述按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征，包括：

14.根据权利要求7所述的标签处理方法，所述按照所述标签特征的特征数目对应的特征聚合方式，对所述标签特征进行聚合，获得目标特征，包括：

基于所述正样本和所述负样本进行二分类训练；

15.根据权利要求7所述的标签处理方法，还包括：

获取待处理视频；

16.根据权利要求15所述的标签处理方法，所述根据所述图像特征、所述文本特征和/或所述声音特征，在所述标签数据库中进行检索，包括：

选择特征相似度最高的特征向量作为所述目标特征。

17.一种标签处理装置，包括：

18.一种计算设备，包括：

存储器和处理器；

获取待处理视频；

19.一种计算设备，包括：

存储器和处理器；

20.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至5任意一项所述视频处理方法的步骤。

21.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求7或16所述标签处理方法的步骤。