CN112188306A

CN112188306A - 一种标签生成方法、装置、设备及存储介质

Info

Publication number: CN112188306A
Application number: CN202011014223.5A
Authority: CN
Inventors: 杨田雨; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-05
Anticipated expiration: 2040-09-23
Also published as: CN112188306B

Abstract

本申请实施例提供了一种标签生成方法、装置、设备及存储介质，包括：标签生成设备获取目标视频，从目标视频中抽取视频帧图像和音频帧，视频帧图像和所述音频帧具有对应关系；将音频帧转换为频谱图，调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型；若目标视频的视频类型为目标视频类型，则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。通过上述方法，标签生成设备通过视频本身内容来生成视频对应的标签，以此提高生成的视频标签的准确性。

Description

一种标签生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种标签生成方法、装置、设备及存储介质。

背景技术

随着互联网的发展，自媒体的应运而生，现如今，互联网上的视频飞速增长，其类型也是五花八门。在这种情况下，视频标签便在视频推荐、分发以及搜索中发挥了重要作用。怎样生成视频标签的技术也成了当下的研究热点之一。

目前，视频标签的生成技术主要是基于已有的文本信息(如标题，视频描述等)进行标签的解析和生成，但是在视频所附带文本信息较少(比如没有标题或描述)或者文本信息不准确的情况下很难有效的生成可靠的标签。因此，怎样高效而又可靠的生成视频标签成为亟待解决的热点问题。

发明内容

本发明实施例提供了一种标签生成方法、装置、设备及存储介质，以此提高生成的视频标签的准确性。

本申请实施例一方面提供了一种标签生成方法，包括：

获取目标视频，从所述目标视频中抽取视频帧图像和音频帧，所述视频帧图像和所述音频帧具有对应关系；

将所述音频帧转换为频谱图，调用视频类型判别模型对所述频谱图和所述视频帧图像进行类型识别处理，得到所述目标视频的视频类型；

若所述目标视频的视频类型为目标视频类型，则调用视频分类模型对所述频谱图和所述视频帧图像进行内容标签识别处理，得到所述目标视频的视频内容标签。

本申请实施例一方面提供了一种标签生成装置，包括：

获取单元，用于获取目标视频，从所述目标视频中抽取视频帧图像和音频帧，所述视频帧图像和所述音频帧具有对应关系；

处理单元，用于将所述音频帧转换为频谱图，调用视频类型判别模型对所述频谱图和所述视频帧图像进行类型识别处理，得到所述目标视频的视频类型；

所述处理单元，还用于若所述目标视频的视频类型为目标视频类型，则调用视频分类模型对所述频谱图和所述视频帧图像进行内容标签识别处理，得到所述目标视频的视频内容标签。

本申请实施例一方面提供了一种标签生成设备，该标签生成设备包括：

存储器，用于存储计算机程序；

处理器，运行所述计算机程序；实现上述所述的标签生成方法。

本申请实施例一方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述的标签生成方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被计算机设备的处理器执行时，执行上述各实施例中的方法。

本申请实施例，标签生成设备获取目标视频，从目标视频中抽取视频帧图像和音频帧，视频帧图像和所述音频帧具有对应关系；将音频帧转换为频谱图，调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型；若目标视频的视频类型为目标视频类型，则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。通过上述方法，标签生成设备通过视频本身内容来生成视频对应的标签，不仅可以提高生成的视频标签的准确性，且不需要视频额外的文本数据就可以生成视频标签，可以降低对视频的数据要求，扩大应用范围。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种标签生成方法的***架构示意图；

图2是本申请实施例提供的一种标签生成设备对视频处理的总体框架图；

图3是本申请实施例提供的一种判别器处理流程示意图；

图4是本申请实施例提供的一种标签生成方法的流程示意图；

图5是本申请实施例提供的另一种标签生成方法的流程示意图；

图6是本申请实施例提供的一种标签生成装置的示意图；

图7是本申请实施例提供的一种标签生成设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的标签生成方法，还涉及：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请涉及人工智能技术下属的计算机视觉技术以及机器学习，其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

结合本申请实施例，通过计算机视觉技术对目标视频进行处理：获取目标视频，并从目标视频中抽取视频帧图像和音频帧，将音频帧转换为频谱图；再结合机器学习对频谱图和视频帧图像进行处理：调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型；若目标视频的视频类型为目标视频类型，则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。通过本申请实施例，标签生成设备通过视频本身内容来生成视频对应的标签，不仅可以提高生成的视频标签的准确性，且不需要视频额外的文本数据就可以生成视频标签，可以降低对视频的数据要求，扩大应用范围。

请参见图1，图1是本申请实施例提供的一种标签生成方法的***架构示意图，该***架构图可以包括多个客户端101、标签生成设备102以及服务器103。其中，客户端101与服务器103能进行通信连接，标签生成设备102与服务器102也能进行通信连接。

其中，客户端101主要以可视化界面的形式向用户展示输入界面，客户端101的界面可以显示用户的输入文本信息；标签生成设备102(也可以是服务器)主要用于本申请中对视频进行分类以及对视频进行标签的生成；服务器103主要用于存储标签生成设备102训练好的模型以及存储通过客户端101上传的视频等。

在一种可能的实现方式中，客户端101检测到用户的输入文本信息后，将输入文本信息发送给服务器103，服务器103将接收到的输入文本信息与服务器103中存储的多个视频内容标签进行匹配，这里的视频内容标签是由标签生成设备102通过调用训练好的模型来确定的，若是服务器103在多个视频内容标签中找到了与输入文本信息相匹配的视频内容标签，就将该视频内容标签对应的视频发送给客户端101，客户端101再以可视化形式将视频呈现给用户。

在本申请实施例中，标签生成设备102主要是用于对视频进行判别与进行视频标签的生成，标签生成设备102总的流程可以如图2所示，包括对视频的判别(视频类别判别模型)和分类(视频分类模型)，其中视频类别判别模型输出的是一个二分类结果，即是或者不是；视频分类模型的输出是一个多分类结果，对与视频标签来说，就是得到的多个视频内容标签。具体的：将视频的图像和音频输入判别器中，对类型进行判断，这里的判断主要是垂直领域的判断，即判断视频是不是属于某一类型，如判断视频是否为游戏、判断视频是否为电影等等。如果判别器输出的结果为是，再将视频的图像和音频输入到分类器中，由分类器判别出视频的标签。该流程可以如图2所示，图2为标签生成设备对视频处理的总体框架图：输入的是图像和音频，首先将图像和音频输入到判别器(即本申请对应的视频类型判别模型)，判别是否为目标视频类型，若是，则将图像和音频输入到分类器(即本申请对应的视频分类模型)，得到视频内容标签。

针对分类器和判别器也有具体的处理流程，以分类器为例，其流程可以如图3所示。其输入为K个图像片段和K个音频片段，其中图像卷积神经网络用于对图像片段进行卷积处理，音频卷积神经网络用于对音频片段进行卷积处理。进一步地，图像片段和音频片段在输入卷积神经网络之前都需要进行预处理。经图像卷积神经网络处理后的图像片段和经音频卷积神经网络处理后的音频片段输入全连接网络层并经过预测融合，最后得到视频的视频内容标签。若是针对游戏的分类，则输出的是具体的游戏名称，若是针对电视剧的分类，则输出的是具体的电视剧名称。对应地，判别器的处理流程和分类器的流程是类型的，这里就不再一一赘述了。

其中，作为在此使用的“客户端”包括但不限于用户设备、具有无线通信功能的手持式设备、车载设备、可穿戴设备或计算设备。示例性地，用户端可以是手机(mobilephone)、平板电脑或带无线收发功能的电脑。客户端还可以是虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制中的无线终端设备、无人驾驶中的无线终端设备、远程医疗中的无线终端设备、智能电网中的无线终端设备、智慧城市(smart city)中的无线终端设备、智慧家庭(smart home)中的无线终端设备等等。本申请实施例中，用于实现客户端的功能的装置可以是终端；也可以是能够支持终端设备实现该功能的装置，例如芯片***，该装置可以被安装在终端设备中。本申请实施例提供的技术方案中，以用于实现客户端的功能的装置是客户端为例，描述本申请实施例提供的技术方案。

请参见图4，图4是本申请实施例提供的一种标签生成方法的流程示意图，本申请实施例主要描述如何进行视频类别的判别以及如何生成视频内容标签的，可以包括以下步骤:

S401、标签生成设备获取目标视频，从目标视频中抽取视频帧图像和音频帧，视频帧图像和音频帧具有对应关系。

其中，目标视频可以指的是从服务器获取的视频集。因此，标签生成设备获取到目标视频后，为了让视频长度统一，就需要对目标视频进行相应的采样。在本申请中，可以采用分段切割的方法对目标视频进行采样抽取，具体是：将目标视频平均分成K个片段，每个片段随机抽取M帧视频帧图像和M帧音频帧。当M等于1时，抽取的是一帧视频帧图像和音频帧，当M大于1时，抽取的是由多个视频帧图像组合而成的视频帧图像序列和多个音频帧组合而成的音频帧序列，视频帧图像和音频帧总是有一一对应关系，如第i帧视频帧图像对应于第i帧音频帧。得到的序列可以表示为{I_k,m,H_k,m}，k＝{1,2,…,K}，m＝{1,2,…,M}，其中，I_k,m代表视频的图像，H_k,m代表视频的音频，K和M的值的设定取决于GPU内存可以承受的大小。在本申请，可以设置成K＝10，M＝3，对于视频帧的长度小于K*M的视频，可以对其进行重新采样，再进行抽取操作。

S402、标签生成设备将音频帧转换为频谱图，调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型。

对于本申请实施例提供的用于目标视频的视频类型判别的模型的输入是图片，因此，得到音频帧后，要对音频帧进行频谱图的转换。一开始得到的音频帧属于时域音频信号，标签生成设备抽取到音频帧后，就对音频帧信号进行加窗处理，对加窗处理后的音频帧进行傅里叶变换，得到频域音频信号。对频域音频信号进行重采样，再调用梅尔滤波器对采样后得到的音频信号进行滤波处理得到梅尔频谱图。其中，采样频率可以设置为16kHz，梅尔滤波器组的个数设置为64个。得到频谱图后，再对频谱图进行尺寸的缩放，让其固定为64*128尺寸，每一帧音频帧都采用相同的处理方式，主要是为了保证输入的频谱图尺寸一样，以避免带来较大的误差。如果目标视频中不存在音频，那么对音频帧的处理部分作置零处理。

在一种可能的实现方式中，视频类型判别模型包括第一图像卷积神经网络、第一音频卷积神经网络以及第一全连接网络，这里的第一图像卷积神经网络、第一音频卷积神经网络以及第一全连接网络是相对于视频分类模型中的第二图像卷积神经网络、第二音频卷积神经网络以及第二全连接网络而言，主要用于区分视频类型判别模型和视频分类模型，则标签生成设备在得到频谱图后调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型的，主要实现方式是：

标签生成设备调用第一图像卷积神经网络对所述视频帧图像进行卷积处理，得到视频帧图像的第一视频帧图像特征，其中，第一图像卷积神经网络可以是Inceptionv3、Inceptionv4、ResNet50以及ResNet101等等，针对不同的卷积神经网络，可以设置成不同的维度。若是采用的神经网络为Inceptionv3，则可以将维度设置成2048。若输入的是一帧视频帧图像，输出的则是一个视频帧图像特征。若是输入的是一个视频帧图像序列，则对应的输出也是视频帧图像特征序列(第一图像卷积神经网络确定视频帧图像特征序列中的每一个视频帧图像特征的方式都相同)。如输入的是经过处理后的I_k,m，则对应的输出也是一个序列，可以用

其中，N表示的是视频帧图像特征的维度。

同时，标签生成设备调用第一音频卷积神经网络对频谱图进行卷积处理，得到第一频谱图特征，将第一视频帧图像特征和第一频谱图特征拼接为目标视频的第一视频特征。其中，第一音频卷积神经网络可以是VGGish，若是采用的神经网络为VGGish，可以设置其维度为128，因此得到的频谱图特征的维度都是128。其中，VGGish具体是计算log(梅尔频谱图+0.01)，得到稳定的梅尔频谱，所加的0.01的偏置是为了避免对0取对数，然后这些特征被以0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含64个梅尔频带，时长10ms(即总共96帧)。针对序列来说，如果是上述的长度为K*M的音频帧序列，那么调用第二音频卷积神经网络对频谱图序列进行卷积处理得到频谱图特征序列，例如，得到的频谱图特征可以用

P对应频谱图特征的维度。

进一步地，标签生成设备将第一视频帧图像特征和第一频谱图特征组合为目标视频的第一视频特征，具体是：标签生成设备采用特征向量串联的方式将第一视频帧图像特征和第一频谱图特征进行融合得到目标视频的第一视频特征。若是第一视频帧图像特征和第一频谱图特征均为一个，得到的便是一个串联的融合后的第一视频特征。若是为第一视频帧图像特征序列与第一频谱图特征序列，如第一频谱图特征序列

和第一视频帧图像特征序列

那么相对应地，得到的融合的第一视频特征也为一个序列，具体可以用

其中，N+P为视频特征对应的维度。

再进一步地，标签生成设备调用第一全连接网络确定第一视频特征与目标视频类型的类型匹配概率。比如说目标视频类型为游戏，则得到的是为游戏视频的类型匹配概率，目标视频类型为电影，则得到的是为电影视频的类型匹配概率。若是得到的类型匹配概率大于第一概率阈值，则将原始视频的视频类型确定为目标视频类型。可以用S_b表示目标视频类型的类型匹配概率，用T_b表示第一概率阈值，若是S_b>T_b，则将原始视频的视频类型确定为目标视频类型，由于该视频类别判别模型一般输出是二类结果，一般T_b可以设置成0.5。

在一种可能的实现方式中，标签生成设备抽取得到目标视频的视频帧图像后，对视频帧图像进行适当的数据增广，其目的是为了防止过拟合现象。主要可以包括对视频帧图像的尺寸缩放、随机颜色处理、去噪处理、高斯模糊等，最后再对音频帧图像进行尺寸固定。在本请实施例中，将视频帧图像尺寸固定为299*299。每一帧视频帧图像都需要进行相同的处理，以保证卷积神经网络的输入的一致性，以免带来较大的误差。

S403、若目标视频的视频类型为目标视频类型，则标签生成设备调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。

其中，视频分类模型包括第二图像卷积神经网络、第二音频卷积神经网络以及第二全连接网络。

在一种可能的实现方式中，标签生成设备调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签，具体的实现方式为：

标签生成设备调用第二音频卷积神经网络对频谱图进行卷积处理，得到第二频谱图特征，再调用第二图像卷积神经网络对视频帧图像进行卷积处理，得到第二视频帧图像特征，并将第二频谱特征和第二视频帧图像特征拼接为第二视频特征，第二图像卷积神经网络也可以是Inceptionv3、Inceptionv4、ResNet50以及ResNet101等等。进一步，标签生成设备再调用第二全连接网络确定第二视频特征和多个视频内容标签的标签匹配概率集合，根据标签匹配概率集合确定目标视频的视频内容标签。

在一种可能的实现方式中，输入视频分类模型的是频谱图序列和视频帧图像序列，经串联处理后的得到的是一个视频特征序列，可以表示为F_k,m＝[V_k,m,A_k,m]。在这种情况下，标签生成设备调用视频分类模型的第二全连接网络对F_k,m＝[V_k,m,A_k,m]进行预测处理，得到便是一个预测序列，可以表示为

C表示视频内容标签的类型。由于有K*M个输入，因此，对应的有K*M个输出，每个输出对应多个类别的视频内容标签以及每个视频内容标签对应的标签匹配概率集合，这在这里，可以采用求平均值的方法，得到目标标签匹配概率集合，将最大的目标标签匹配概率对应的目标标签作为目标视频的视频内容标签。在本申请实施例中，目标视频的视频内容标签可以表示为：L_final＝∑_k,mL_k,m，表明是对其进行了平均处理的。进一步地，还需要确认最大的目标标签匹配概率是否大于第二概率阈值，在大于第二概率阈值的情况下，才将其作为目标视频的视频内容标签。采用阈值判断是为了保证对视频内容标签预测的稳定可靠性。

例如，如目标视频A对应有3个视频特征，现有视频特征A与视频内容标签A之间的匹配概率是0.1，视频特征A与视频内容标签B之间的匹配概率是0.2，视频特征A与视频内容标签C之间的匹配概率是0.7；视频特征B与视频内容标签A之间的匹配概率是0.2，视频特征B与视频内容标签B之间的匹配概率是0.3，视频特征B与视频内容标签C之间的匹配概率是0.5；视频特征C与视频内容标签A之间的匹配概率是0.1，视频特征C与视频内容标签B之间的匹配概率是0.1，视频特征A与视频内容标签C之间的匹配概率是0.8；通过求平均值的方法可以知道，目标视频A与视频内容标签A之间的平均标签匹配概率为(0.1+0.2+0.1)/3＝0.133；目标视频A与视频内容标签B之间的平均标签匹配概率为(0.2+0.3+0.1)/3＝0.2；目标视频A与视频内容标签C之间的平均标签匹配概率为(0.7+0.5+0.8)/3＝0.667；因此，得到的目标标签匹配概率集合数值为＝{0.133,0.2,0.667}，目标标签匹配概率集合中最大的目标标签匹配概率为0.667，则可以确定出0.667对应的视频内容标签C即是目标视频A的视频内容标签。

除了采用平均值的方式确定目标视频的视频内容标签以外，还通过以下方式确定目标视频的视频内容标签：

在一种可能的实现方式中，假设有N个标签匹配概率集合，则对N个标签匹配概率集合平均处理，得到目标标签匹配概率集合，集合包括多个目标标签匹配概率集合，从目标标签匹配概率集合中提取最大的目标标签匹配概率。同时对最大的目标标签匹配概率进行阈值的判断，若是最大的目标标签匹配概率大于第二阈值，则确定最大的目标标签匹配概率对应的视频内容标签作为目标视频的视频内容标签。其中，有一个目标标签匹配概率可以表示非目标类型，这样可以对视频进行类别的进一步判断，以保证生成的标签的可靠性。假设有目标标签匹配概率集合中有3个目标标签匹配概率，然后选取3个中目标标签匹配概率最大的作为目标视频的视频内容标签。

例如，如目标视频A对应有3个视频特征，现有视频特征A与视频内容标签A之间的匹配概率是0.1，视频特征A与视频内容标签B之间的匹配概率是0.6，视频特征A与视频内容标签C之间的匹配概率是0.3；视频特征B与视频内容标签A之间的匹配概率是0.2，视频特征B与视频内容标签B之间的匹配概率是0.3，视频特征B与视频内容标签C之间的匹配概率是0.5；视频特征C与视频内容标签A之间的匹配概率是0.1，视频特征C与视频内容标签B之间的匹配概率是0.1，视频特征A与视频内容标签C之间的匹配概率是0.8。其中，视频特征A对应的最大标签匹配概率为视频内容标签B，视频特征B对应的最大标签匹配概率为视频内容标签C，视频特征C对应的最大标签匹配概率为视频内容标签C，可以看出视频内容标签B的个数为1，视频内容标签C的个数为2，因此，将视频内容标签C作为目标视频A的视频内容标签。

在一种可能的实现方式中，输入视频分类模型的是一个频谱图和一个视频帧图像。在这种情况下，标签生成设备调用视频分类模型的第二全连接网络对串联得到的视频特征进行预测处理，得到目标视频与视频分类模型中多个视频内容标签之间的标签匹配概率，将最大标签匹配概率对应的视频内容标签作为目标视频的视频内容标签。

例如，现有视频特征A与视频内容标签A之间的匹配概率是0.1，目标视频A与视频内容标签B之间的匹配概率是0.2，目标视频A与视频内容标签C之间的匹配概率是0.7。由于0.7＞0.2＞0.1，因此0.7对应的视频内容标签C即是目标视频的视频内容标签。

本申请实施例中，标签生成设备获取目标视频，从目标视频中抽取视频帧图像和音频帧，视频帧图像和所述音频帧具有对应关系；将音频帧转换为频谱图，调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型；若目标视频的视频类型为目标视频类型，则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。通过上述方法，标签生成设备通过视频本身内容来生成视频对应的标签，不仅可以提高生成的视频标签的准确性，且不需要视频额外的文本数据就可以生成视频标签，可以降低对视频的数据要求，扩大应用范围。

请参见图5，为本申请实施例提供的另一种标签生成方法的流程示意图，本申请实施例主要描述的是模型的训练以及一个具体的应用场景，可以包括以下步骤：

S501、标签生成设备获取样本视频，该样本视频携带视频描述文本。

其中，获取样本视频的是为了对初始化模型进行训练，样本视频可以包括了多个视频。进一步地，样本视频可以是游戏、电影、体育等中的任意类型的视频，这里不对视频的类型进行限定，但所有参与模型训练的样本视频都属于同一种类型。

S502、标签生成设备获取多个视频内容标签，在多个视频内容标签中查找与视频描述文本匹配的待确定视频内容标签。

在一种可能的实现方式中，标签生成设备通过爬取等技术手段，从互联网上或者云存储中获取到多个视频内容标签，如游戏对应的具体游戏名称，电影对应的和具体电影名称等；进一步地，在多个视频内容标签中通过分词和同义词映射的方法查找与样本视频的视频描述文本匹配的待确定视频内容标签。

例如，多个视频内容标签分别为标签a、标签b、标签c和标签d，标签手生成设备通过同义词或者分词映射的方法，查找到样本视频的视频描述文本中有与标签a相同的分词或者相近的同义词，则将标签a确定为样本视频的待确定视频内容标签。

S503、标签生成设备将待确定视频内容标签作为样本视频的样本内容标签。

S504、标签生成设备从样本视频中抽取样本视频帧图像和样本音频帧，样本视频帧图像和样本音频帧具有对应关系。

其中，该步骤的处理流程和步骤S401一致，这里便不再赘述。

S505、标签生成设备将样本音频帧转换为样本频谱图，调用初始化模型对样本频谱图和样本视频帧图像进行处理，确定样本视频的预测内容标签。

在一种可能的实现方式中，标签生成设备调用初始化模型对样本频谱图和样本视频帧图像进行处理，同样，需要对样本频谱图和样本视频帧图像进行处理得到样本频谱图特征和样本视频帧图像特征，进而通过调用初始化模型对样本频谱图特征和样本视频帧图像特征进行处理，得到样本视频的预测内容标签，预测内容标签可能与样本视频的样本视频内容标签一致，也可能相差很大。

其中，需要注意的是，就是申请所调用的初始模型是在其他领域已经训练好的分类模型，即在开始训练时，初始模型的模型参数不是随机数，因此本申请只需要通过样本视频对初始模型的模型参数进行finetune(微调)即可，可以加速模型收敛速度；再有，本申请的模型使用2dcnn结构，计算速度相比i3d(膨胀卷积神经网络)更快，本申请的模型可以更快地识别出视频标签内容。

S506、标签生成设备根据预测内容标签和样本内容标签训练初始化模型，得到视频分类模型。

进一步地，标签生成设备在得到预测内容标签后，根据预测内容标签和样本内容标签再次训练初始化模型，将预测视频类型与真实视频内容标签进行对比，再将评估结果反馈给视频分类模型，对初始化模型的参数进行特征调整和优化，当参数趋于稳定时，则得到视频分类模型。

其中，对于视频类型判别模型的训练过程为：标签生成设备获取参考视频，该参考视频可以是包括各种类型的视频，如游戏类视频、电影类视频以及体育类视频等等，每一个参考视频同样携带了相对应的视频描述文本；同时，标签生成设备获取2个视频类型，分别是目标视频类型和非目标视频类型，对任一参考视频来说，在2个视频类型中查找与视频描述文本匹配的视频类型(称为待确定视频类型)，进而将该待确定视频类型确定为该参考视频的参考视频类型。确定了参考视频以及参考视频类型后，对视频类型判别模型的训练过程和步骤S504～S506一样，即标签生成设备基于参考视频以及参考视频类型来训练初始化模型，得到视频类型判别模型。

S507、标签生成设备获取目标视频，从目标视频中抽取视频帧图像和音频帧，视频帧图像和音频帧具有对应关系。

S508、标签生成设备将音频帧转换为频谱图，调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型。

S509、若目标视频的视频类型为目标视频类型，则标签生成设备调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。

其中，步骤S507～步骤S509与步骤S401～步骤S403一致，这里便不再进行一一赘述。

S510、标签生成设备获取用户的输入文本，获取多个待匹配视频以及每个待匹配视频的视频内容标签，从多个待匹配视频的视频内容标签中查找与输入文本匹配的匹配视频内容标签，输出匹配视频内容标签对应的待匹配视频。

通过上述步骤，若是有N个视频，就能得到N个视频内容标签，得到的视频内容标签都存储在服务器中。

在一种可能的实现方式中，当视频经视频类型判别模型和视频分类模型训练后，得到了各个视频的标签后。标签生成设备获取用户的输入文本，该输入文本是用户通过客户端界面输入的，其输入方式可以是键入方式，也可以是语音输入方式。同时标签生成设备从服务器中获取存储好的多个待匹配视频以及每个待匹配视频的视频内容标签，其中，上述的目标视频属于多个待匹配视频中的视频。标签生成设备从多个待匹配视频的视频内容标签中查找与输入文本匹配的匹配视频内容标签，若是找到了相匹配的，就输出匹配视频内容标签对应的待匹配视频。

在一种可能的实现方式中，是对目标视频进行测试，即通过客户端的输入文本信息是通过目标视频生成的视频内容标签，则标签生成设备直接检测视频内容标签。并通过该视频内容标签查到对应的视频，将该视频与目标视频进行对比，看是否为目标视频，若是，则确定出生成的目标视频的视频内容标签是可靠的。

其中，可以使用动量梯度下降法(MomentumSGD)去训练整个网络，其中学习率设置为0.002，每隔30个epoch，学习率衰减为之前的0.1倍，总共学习90个epoch，则停止对模型的训练。

或者根据预测结果与真实结果的评估结果来确定是否停止模型的训练。例如，若是预测视频内容标签与真实视频内容标签的误差小于设定阈值，则停止对模型的训练。

本申请实施例，除了可以实现图4所阐述的步骤，还阐述了标签生成设备对视频类型判别模型和视频分类模型的训练过程，并在视频内容标签生成后，进行场景的测验，标签生成设备获取用户的输入文本，获取多个待匹配视频以及每个待匹配视频的视频内容标签，从多个待匹配视频的视频内容标签中查找与输入文本匹配的匹配视频内容标签，输出匹配视频内容标签对应的待匹配视频。通过上述方法，可以对视频类型判别模型和视频分类模型进行训练，保证了模型的性能，还可以进行场景的测试，从而保证了视频内容标签的准确性和可靠性，可以不依靠视频提供的文本信息，能对视频进行高效的处理，同时，由于采用视频类型判别模型和视频分类模型，可以不受人的主观影响，得到的结果是较为客观的，也可以提高用户对视频搜索的准确率，提升用户体验。

请参见图6，图6为本申请实施例提供的一种标签生成装置的示意图，该标签生成装置60包括：获取单元601、处理单元602以及确定单元603，主要用于执行：

获取单元601，用于获取目标视频，从所述目标视频中抽取视频帧图像和音频帧，所述视频帧图像和所述音频帧具有对应关系；

处理单元602，用于将所述音频帧转换为频谱图，调用视频类型判别模型对所述频谱图和所述视频帧图像进行类型识别处理，得到所述目标视频的视频类型；

所述处理单元602，还用于若所述目标视频的视频类型为目标视频类型，则调用视频分类模型对所述频谱图和所述视频帧图像进行内容标签识别处理，得到所述目标视频的视频内容标签。

在一种可能的实现方式中，所述视频类型判别模型包括第一图像卷积神经网络、第一音频卷积神经网络以及第一全连接网络；

所述处理单元602，调用视频类型判别模型对所述频谱图和所述视频帧图像进行类型识别处理，得到所述目标视频的视频类型，包括(用于)：

调用所述第一图像卷积神经网络对所述视频帧图像进行卷积处理，得到所述视频帧图像的第一视频帧图像特征；

调用所述第一音频卷积神经网络对所述频谱图进行卷积处理，得到第一频谱图特征，将所述第一视频帧图像特征和所述第一频谱图特征拼接为所述目标视频的第一视频特征；

调用所述第一全连接网络确定所述第一视频特征与目标视频类型的类型匹配概率；

若所述类型匹配概率大于第一概率阈值，则将所述目标视频的视频类型确定为所述目标视频类型。

在一种可能的实现方式中，所述视频分类模型包括第二音频卷积神经网络、第二图像卷积神经网络以及第二全连接网络；

所述处理单元602，调用视频分类模型对所述频谱图和所述视频帧图像进行内容标签识别处理，得到所述目标视频的视频内容标签，包括(用于)：

调用所述第二音频卷积神经网络对所述频谱图进行卷积处理，得到第二频谱图特征；

调用所述第二图像卷积神经网络对所述视频帧图像进行卷积处理，得到所述第二视频帧图像特征，并将所述第二频谱特征和所述第二视频帧图像特征拼接为第二视频特征；

调用所述第二全连接网络确定所述第二视频特征和多个视频内容标签的标签匹配概率集合；

根据所述标签匹配概率集合确定所述目标视频的视频内容标签。

在一种可能的实现方式中，所述标签匹配概率集合的数量是N个，N个标签匹配概率集合是由N个视频帧图像和N个音频帧确定的，N为大于1的整数；

确定单元603，用于根据所述标签匹配概率集合确定所述目标视频的视频内容标签，包括：

将N个标签匹配概率集合平均处理，得到目标标签匹配概率集合；

从所述目标标签匹配概率集合中提取最大的目标标签匹配概率；

若所述最大的目标标签匹配概率大于第二概率阈值，则将所述最大的目标标签匹配概率对应的视频内容标签作为所述目标视频的视频内容标签。

在一种可能的实现方式中，所述获取单元601，还用于获取样本视频和所述样本视频的样本内容标签，从所述样本视频中抽取样本视频帧图像和样本音频帧，所述样本视频帧图像和所述样本音频帧具有对应关系；

所述处理单元602，还用于将所述样本音频帧转换为样本频谱图，调用初始化模型对所述样本频谱图和所述样本视频帧图像进行处理，确定所述样本视频的预测内容标签；

所述确定单元603，还用于根据所述预测内容标签和所述样本内容标签训练所述初始化模型，得到所述视频分类模型。

在一种可能的实现方式中，所述获取单元601，用于获取样本视频和所述样本视频的样本内容标签，包括：

获取所述样本视频，所述样本视频携带视频描述文本；

获取所述多个视频内容标签，在所述多个视频内容标签中查找与所述视频描述文本匹配的待确定视频内容标签；

将所述待确定视频内容标签作为所述样本视频的样本内容标签。

在一种可能的实现方式中，所述音频帧属于时域音频信号；

所述处理单元602用于将所述音频帧转换为频谱图，包括：

对所述音频帧进行加窗处理，对加窗处理后的音频帧进行傅里叶变换，得到频域音频信号；

调用滤波器对所述频域音频信号进行转换得到所述频谱图。

在一种可能的实现方式中，所述获取单元601，还用于获取用户的输入文本，获取多个待匹配视频以及每个待匹配视频的视频内容标签，所述目标视频属于所述多个待匹配视频；

处理单元602，还用于从多个待匹配视频的视频内容标签中查找与所述输入文本匹配的匹配视频内容标签，输出所述匹配视频内容标签对应的待匹配视频。

本申请实施例，获取单元601，获取目标视频，从目标视频中抽取视频帧图像和音频帧，视频帧图像和所述音频帧具有对应关系；处理单元602，将音频帧转换为频谱图，调用视频类型判别模型对频谱图和视频帧图像进行类型识别处理，得到目标视频的视频类型；若目标视频的视频类型为目标视频类型，则调用视频分类模型对频谱图和视频帧图像进行内容标签识别处理，得到目标视频的视频内容标签。通过上述方法，标签生成设备通过视频本身内容来生成视频对应的标签，以此提高生成的视频标签的准确性。

请参见图7，图7示出了本申请实施例提供的一种标签生成设备的结构示意图，该标签生成设备70至少包括处理器701以及存储器702。其中，处理器701以及存储器702可通过总线或者其它方式连接。存储器702可以包括计算机可读存储介质，存储器702用于存储计算机程序，计算机程序包括计算机指令，处理器701用于执行存储器702存储的计算机指令。处理器701(或称CPU(Central Processing Unit，中央处理器))是标签生成设备70的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是标签生成设备70中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器702既可以包括标签生成设备70中的内置存储介质，当然也可以包括标签生成设备70所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了标签生成设备70的操作***。并且，在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的存储器702可以是高速RAM存储器，也可以是非不稳定的存储器(Non-VolatileMemory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器701的计算机可读存储介质。

在一种实现方式中，该标签生成设备70可以是图1所示的标签生成***中的标签生成设备102；该存储器702中存储有第一计算机指令；由处理器701加载并执行存储器702中存放的第一计算机指令，以实现图4和图5所示方法实施例中的相应步骤；具体实现中，存储器702中的第一计算机指令由处理器701加载并执行如下步骤：

所述处理器701调用视频类型判别模型对所述频谱图和所述视频帧图像进行类型识别处理，得到所述目标视频的视频类型，包括：

所述处理器701调用视频分类模型对所述频谱图和所述视频帧图像进行内容标签识别处理，得到所述目标视频的视频内容标签，包括：

所述处理器701根据所述标签匹配概率集合确定所述目标视频的视频内容标签，包括：

在一种可能的实现方式中，所述处理器701，还用于：

获取样本视频和所述样本视频的样本内容标签，从所述样本视频中抽取样本视频帧图像和样本音频帧，所述样本视频帧图像和所述样本音频帧具有对应关系；

将所述样本音频帧转换为样本频谱图，调用初始化模型对所述样本频谱图和所述样本视频帧图像进行处理，确定所述样本视频的预测内容标签；

根据所述预测内容标签和所述样本内容标签训练所述初始化模型，得到所述视频分类模型。

在一种可能的实现方式中，所述处理器701，用于获取样本视频和所述样本视频的样本内容标签，包括：

获取所述样本视频，所述样本视频携带视频描述文本；

在一种可能的实现方式中，所述音频帧属于时域音频信号；

所述处理器701将所述音频帧转换为频谱图，包括：

调用滤波器对所述频域音频信号进行转换得到所述频谱图。

在一种可能的实现方式中，所述处理器701，还用于：

获取用户的输入文本，获取多个待匹配视频以及每个待匹配视频的视频内容标签，所述目标视频属于所述多个待匹配视频；

从多个待匹配视频的视频内容标签中查找与所述输入文本匹配的匹配视频内容标签，输出所述匹配视频内容标签对应的待匹配视频。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图4和图5的流程图所对应实施例中的方法，因此，这里将不再进行赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种标签生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频类型判别模型包括第一图像卷积神经网络、第一音频卷积神经网络以及第一全连接网络；

所述调用视频类型判别模型对所述频谱图和所述视频帧图像进行类型识别处理，得到所述目标视频的视频类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述视频分类模型包括第二音频卷积神经网络、第二图像卷积神经网络以及第二全连接网络；

所述调用视频分类模型对所述频谱图和所述视频帧图像进行内容标签识别处理，得到所述目标视频的视频内容标签，包括：

4.根据权利要求3所述方法，其特征在于，所述标签匹配概率集合的数量是N个，N个标签匹配概率集合是由N个视频帧图像和N个音频帧确定的，N为大于1的整数；

所述根据所述标签匹配概率集合确定所述目标视频的视频内容标签，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取样本视频和所述样本视频的样本内容标签，包括：

获取所述样本视频，所述样本视频携带视频描述文本；

7.根据权利要求1所述的方法，其特征在于，所述音频帧属于时域音频信号；

所述将所述音频帧转换为频谱图，包括：

调用滤波器对所述频域音频信号进行转换得到所述频谱图。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种标签生成装置，其特征在于，所述装置包括：

10.一种标签生成设备，其特征在于，所述标签生成设备包括：

存储器，用于存储计算机程序；

处理器，运行所述计算机程序；实现如权利要求1-8任一项所述的标签生成方法。