CN115935008A

CN115935008A - 视频的标签生成方法、装置、介质和计算设备

Info

Publication number: CN115935008A
Application number: CN202310120155.8A
Authority: CN
Inventors: 李文君
Original assignee: Hangzhou Netzhiyi Innovation Technology Co ltd
Current assignee: Hangzhou Netzhiyi Innovation Technology Co ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-04-07
Anticipated expiration: 2043-02-16
Also published as: CN115935008B

Abstract

本公开的实施方式提供了视频的标签生成方法。该方法包括：获取视频中每一帧图像的图像特征、文本特征以及音频特征；根据各个所述图像特征确定图像融合特征；根据各个所述音频特征确定音频融合特征；根据各个所述文本特征确定文本融合特征；根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签。本公开中，视频的标签是通过视频的图像融合特征、音频融合特征以及文本融合特征生成的，也即视频的标签是基于视频本身的内容直接生成的，使得标签与视频的内容的匹配度较高，提高了视频的标签准确性。此外，本公开的实施方式提供了一种视频的标签生成装置、介质和计算设备。

Description

视频的标签生成方法、装置、介质和计算设备

技术领域

本公开的实施方式涉及视频标签领域，更具体地，本公开的实施方式涉及视频的标签生成方法、装置、介质和计算设备。

背景技术

本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

视频是一种音视频的动态影像，可以为用户动态的、直观的展示图像作品。相较于文本，视频更加易于用户的观赏以及理解。

视频在存储、制作、收藏或者展示时，可为视频生成标签，从而通过标签能够让用户更加直观的了解该视频的表达内容。

示例性技术中，将视频的信息输入至模型中得到视频的特征表达，再将视频的特征表达输入至判别器中，判别器输出的判别结果为标签集合中某个标签的概率，若该概率较大，则该标签作为视频的标签。

标签集合中的标签是有限的，在标签集合确定与视频所对应的标签，并不一定符合视频的表达内容，导致出现标签与视频的内容不相符的问题，也即视频的标签准确性较低。

发明内容

本公开提供一种视频的标签生成方法、装置、介质和计算设备，用以解决视频的标签准确性较低的问题。

在本公开实施方式的第一方面中，提供了一种视频的标签生成方法，包括：获取视频中每一帧图像的图像特征、文本特征以及音频特征；对各个所述图像特征进行聚类得到多个第一聚类特征，且对各个音频特征进行聚类得到多个第二聚类特征；根据各个所述第一聚类特征删除各个所述图像特征之间的冗余图像信息得到图像聚合特征，并根据各个所述第二聚类特征删除各个所述音频特征的之间冗余音频信息得到音频融合特征；根据各个所述文本特征确定所述视频的文本融合特征；根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签。

在本公开一实施例中，所述根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签，包括：对所述音频融合特征、所述图像融合特征以及所述文本融合特征进行拼接，得到拼接特征；响应于针对所述拼接特征的滑窗操作，获取所述滑窗操作得到的局部特征；根据所述局部特征以及所述拼接特征获取特征向量，并根据所述特征向量生成所述视频的标签。

在本公开另一实施例中，所述根据各个所述图像特征确定图像融合特征，包括：对各个所述图像特征进行聚类得到多个第一聚类特征；根据各个所述第一聚类特征对应的权重以及各个所述第一聚类特征得到待处理的图像特征；对所述待处理的图像特征进行非线性拟合得到图像融合特征。

在本公开另一实施例中，所述根据各个所述音频特征确定音频融合特征，包括：对各个音频特征进行聚类得到多个第二聚类特征；根据各个所述第二聚类特征删除各个所述音频特征之间的冗余信息得到音频特征信息；对所述音频特征信息进行非线性拟合得到音频融合特征。

在本公开另一实施例中，所述根据各个所述文本特征确定文本融合特征，包括：确定各个所述文本特征对应的特征矩阵；基于多头注意力机制对各个所述特征矩阵进行融合，得到所述视频的文本融合特征。

在本公开另一实施例中，所述获取视频中每一帧图像的图像特征，包括：获取每一帧图像中各个像素点的像素值；对每一帧所述图像的各个所述像素点的像素值进行归一化处理，并对每一帧所述图像的归一化处理后的各个所述像素值进行编码，得到每一帧所述图像的图像特征。

在本公开另一实施例中，所述获取视频中每一帧图像的文本特征，包括：获取每一帧所述图像的文本内容；对每一帧所述图像的文本内容进行离散化处理，并对离散化处理后的各个所述文本内容进行编码得到每一帧所述图像的文本特征。

在本公开另一实施例中，所述获取视频中每一帧图像的音频特征，包括：获取每一帧所述图像的音频；对各个所述音频进行离散化处理以及频谱转换得到各个所述音频所对应的音频频谱；根据所述音频频谱获取所述图像的音频特征。

在本公开实施方式的第二方面中，还提供一种视频的标签生成装置，包括：获取模块，用于获取视频中每一帧图像的图像特征、文本特征以及音频特征；确定模块，用于根据各个所述图像特征确定图像融合特征；所述确定模块，用于根据各个所述音频特征确定音频融合特征；所述确定模块，还用于根据各个所述文本特征确定文本融合特征；生成模块，用于根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签。

在本公开一实施例中，所述生成模块包括：拼接单元，用于对所述音频融合特征、所述图像融合特征以及所述文本融合特征进行拼接，得到拼接特征；第一获取单元，还用于响应于针对所述拼接特征的滑窗操作，获取所述滑窗操作得到的局部特征；第二获取单元，还用于根据所述局部特征以及所述拼接特征获取特征向量，以根据所述特征向量生成所述视频的标签。

在本公开一实施例中，所述确定模块包括：第一聚类单元，用于对各个所述图像特征进行聚类得到多个第一聚类特征；第一删除单元，用于根据各个所述第一聚类特征对应的权重以及各个所述第一聚类特征得到待处理的图像特征；第一拟合单元，用于对所述待处理的图像特征进行非线性拟合得到图像融合特征。

在本公开一实施例中，所述确定模块包括：第二聚类单元，用于对各个音频特征进行聚类得到多个第二聚类特征；第二删除单元，用于根据各个所述第二聚类特征删除各个所述音频特征之间的冗余信息得到音频特征信息；第二拟合单元，用于对所述音频特征信息进行非线性拟合得到音频融合特征。

在本公开一实施例中，所述确定模块包括：确定单元，还用于确定各个所述文本特征对应的特征矩阵；融合单元，用于基于多头注意力机制对各个所述特征矩阵进行融合，得到所述视频的文本融合特征。

在本公开一实施例中，所述获取模块包括：第三获取单元，用于获取每一帧图像中各个像素点的像素值；第一处理单元，用于对每一帧所述图像的各个所述像素点的像素值进行归一化处理，并对每一帧所述图像的归一化处理后的各个所述像素值进行编码，得到每一帧所述图像的图像特征。

在本公开一实施例中，所述获取模块包括：第四获取单元，还用于获取每一帧所述图像的文本内容；第二处理单元，用于对每一帧所述图像的文本内容进行离散化处理，并对离散化处理后的各个所述文本内容进行编码得到每一帧所述图像的文本特征。

在本公开一实施例中，所述获取模块包括：第五获取单元，还用于获取每一帧所述图像的音频；第三处理单元，用于对各个所述音频进行离散化处理以及频谱转换得到各个所述音频所对应的音频频谱；第六获取单元，还用于根据所述音频频谱获取所述图像的音频特征。

在本公开实施方式的第三方面中，还提供一种介质，包括：计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的视频的标签生成方法。

在本公开实施方式的第四方面中，还提供一种计算设备，包括：

存储器以及处理器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如上所述的视频的标签生成方法。

本公开实施方式中，视频的标签是通过视频的图像融合特征、音频融合特征以及文本融合特征生成的，也即视频的标签是基于视频本身的内容直接生成的，使得标签与视频的内容的匹配度较高，提高了视频的标签准确性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开实施方式的视频的标签生成方法应用场景示意图；

图2示意性地示出了根据本公开一实施例的流程示意图；

图3示意性地示出了根据本公开另一实施例的流程示意图；

图4示意性地示出了根据本公开又一实施例的流程示意图；

图5示意性地示出了根据本公开再一实施例的流程示意图；

图6示意性地示出了根据本公开还一实施例的流程示意图；

图7示意性地示出了根据本公开实施例提供的程序产品的示意图；

图8示意性地示出了根据本公开实施例提供的视频的标签生成装置的结构示意图；

图9示意性地示出了根据本公开实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种视频的标签生成方法、装置、介质和计算设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述：视频是一种音视频的动态影像，可以为用户动态的、直观的展示图像作品。相较于文本，视频更加易于用户的观赏以及理解。

本专利发明人发现，视频的标签是从标签集合中获取的，标签集合中的标签是有限的，在标签集合确定与视频所对应的标签，并不一定符合视频的表达内容，导致出现标签与视频的内容不相符的问题，也即视频的标签准确性较低。

本专利发明人因此想到，通过视频的图像融合特征、音频融合特征以及文本融合特征开放式的生成视频的标签，也即视频的标签是基于视频本身的内容直接生成的，使得标签与视频的内容的匹配度较高，提高了视频的标签准确性。

应用场景总览

首先参考图1，图1为本公开实施方式的视频的标签生成方法的应用场景示意图。视频的标签生成装置100先提取视频110中每一帧图像的图像特征、文本特征以及音频特征。视频的标签生成装置100再将各个图像特征合成为图像融合特征、将各个音频特征合成为音频融合特征、且将各个文本特征合成为文本融合特征。视频的标签生成装置100再对图像融合特征、文本融合特征以及音频融合特征进行拼接得到拼接特征，从而得到基于拼接特征生成视频110的标签111。

示例性方法

下面结合图1的应用场景，参考图2-图6来描述根据本公开示例性实施方式的视频的标签生成方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

示例性的，本公开的实施例涉及的视频的标签生成装置可以是任意具备数据处理能力的设备，例如，视频的标签生成装置可为计算机。

参考图2，图2示例性的示出了根据本公开实施例提供的视频的标签生成方法一实施例的流程示意图，视频的标签生成方法包括：

步骤S201，获取视频中每一帧图像的图像特征、文本特征以及音频特征。

在本实施例中，执行主体为视频的标签生成装置，为了便于描述，以下采用装置指代视频的标签生成装置。

装置中设有图像特征提取模型、文本特征提取模型以及音频特征提取模型。装置在获得视频后，基于视频得到输入信息，输入信息中包括有视频中每帧图像的RGB信息，通过将每帧图像的RGB信息输入至图像特征提取模型中即可得到每帧图像的图像深度特征表示。

此外，装置将每帧图像输入至文本特征提取模型，通过文本特征提取模型对每帧图像进行文字识别得到每帧图像的文本深度语义表示，文本深度语义表示即为文本特征。

另外，装置从视频的输入信息中提取音频，音频为每帧图像的背景声音，背景声音可以是音乐、人物对白、旁白或者物品发出的声音。装置将音频输入至音频特征提取模型，得到音频的语义表征，音频的语义表征即为音频特征。

装置可以通过同一模型提取视频中每帧图像的图像特征以及文本特征，也即文本特征提取模型和图像特征提取模型为相同的模型。例如，采用图文-文本的样本训练Uniter（统一者）架构下的模型，即可得到可提取图像特征以及文本特征的模型。

音频特征提取模型可以为深度学习模型，深度学习模型例如为Vggish模型。Vggish模型是通过大量音频训练得到的模型。

步骤S202，根据各个图像特征确定图像融合特征。

由于视频中的各个图像中存在相同的图像部分，也即各帧图像存在冗余信息。例如，所有图像中均包括面包，所以只需要任意一帧图像中的面包，其他桢的图像中的面包即为冗余信息。装置对各个图像特征进行融合，去除冗余信息即可得到图像融合特征。

在一示例中，装置可以将各个图像特征输入聚合网络，即可得到聚合网络所输出的图像融合特征。聚合网络例如为Nextvlad网络。

步骤S203，根据各个音频特征确定音频融合特征。

各个音频特征之间也存在冗余信息，装置对各个音频特征之间的冗余信息进行删除，从而得到音频融合特征。此外，装置可以将各个音频特征输入聚合网络，即可得到聚合网络所输出的音频融合特征。

步骤S204，根据各个文本特征确定文本融合特征。

各个文本特征的融合，实际上是将视频中完整的语句进行向量表达。因此，装置基于各个文本特征得到视频完整的语句，完整的语句的向量表达即为文本融合特征。装置可以将各个文本特征输入聚合网络得到文本融合特征，聚合网络可为Albert网络。

步骤S205，根据音频融合特征、图像融合特征以及文本融合特征生成视频的标签。

装置在得到音频融合特征、图像融合特征以及文本融合特征后，即可得到视频的图像、音频以及文本的向量表达。装置基于音频融合特征、图像融合特征以及文本融合特征得到表征视频的向量特征，再将向量特征输入至语言模型，语言模型即可输出标签，该标签即为视频的标签。

通过本实施例提供的视频的标签生成方法，可以极大的丰富生成视频标签的多样性，不再受到固定标签集合中人工标注的限值，并且节省了人力筛选成本，为视频的推荐提供更好的标签特征表达。

在本实施例中，视频的标签是通过视频的图像融合特征、音频融合特征以及文本融合特征生成的，也即视频的标签是基于视频本身的内容直接生成的，使得标签与视频的内容的匹配度较高，提高了视频的标签准确性。

参照图3，图3为本公开提供的视频的标签生成方法另一实施例的流程示意图，基于图2所示的实施例，步骤S205包括：

步骤S301，对音频融合特征、图像融合特征以及文本融合特征进行拼接，得到拼接特征。

在本实施例中，在得到音频融合特征、图像融合特征以及文本融合特征后，对音频融合特征、图像融合特征以及文本融合特征进行拼接即可得到拼接特征。

具体的，图像融合特征、文本融合特征以及音频融合特征可以是矩阵构成的特征，基于图像融合特征、文本融合特征以及音频融合特征的矩阵即可得到拼接特征的矩阵。例如，音频融合特征是1*D的矩阵特征、图像融合特征是1*D的矩阵特征、且文本融合特征是1*E的矩阵特征，则融合特征为1*（D+D+E）维度的特征。其中，D以及E指的是维度，1表示的是图像帧数，也即各个特征融合之后，图像的帧数变为1。

步骤S302，响应于针对拼接特征的滑窗操作，获取滑窗操作得到的局部特征。

装置在得到拼接特征后，对拼接特征进行滑窗操作，即可得到局部特征。例如，装置对拼接特征进行一次滑窗操作即可得到一个局部特征。拼接特征是全局特征。

步骤S303，根据局部特征以及拼接特征获取特征向量，并根据特征向量生成视频的标签。

在得到局部特征后，装置基于局部特征所设定的权重以及全局特征所设定的权重进行加权计算得到一个特征向量，装置即可基于特征向量生成视频的标签。例如，将特征向量输入至语言模型，得到语言模型输出的标签。语言模型例如为Gpt模型（Generative Pre-Training，生成式预训练模型）。

需要说明的是，滑窗操作得到的局部特征的维度与全局特征的维度不同，因此需要将局部特征的维度与全局特征的维度进行统一。例如，装置获取三个滑窗操作对应的三个局部特征。按照维度拼接的方式对三个局部特征进行拼接，即可得到局部融合特征，再基于局部融合特征的权重以及全局特征的权重进行加权计算得到特征向量。例如，局部特征是1*512维度的特征，全局特征是1*（512+512+512）维度的特征，则三个局部特征维度拼接得到局部融合特征为1*（512+512+512）维度的特征。装置每得到三个局部特征即可生成一个标签，因而，装置可以得到视频的多个标签。三个局部特征的维度拼接可以通过深度学习神经网络实现。

滑动操作的窗口大小1*K可以进行设置，例如，可以将K设置为512，若全局特征是1*（512+512+512）维度的特征，则需要三个局部特征进行维度拼接即可生成一个标签。若K设置为256，且全局特征是1*（512+512+512）维度的特征，则需要获取6个局部特征进行维度拼接才生成一个标签。

在本实施例中，通过对拼接特征进行滑动操作，可以使得音频、图像以及文本特征更充分的融合，从而更加准确的生成视频的标签

参照图4，图4为本公开视频的标签生成方法又一实施例的流程示意图，基于图2或图3所示的实施例，步骤S202包括：

步骤S401，对各个图像特征进行聚类得到多个第一聚类特征。

在本实施例中，图像特征为一个特征矩阵，特征矩阵例如为B*D。B表示的视频的帧数，D表示特征维度。装置对特征矩阵B*D进行聚类，即可得到多个聚类特征，该聚类特征定义为第一聚类特征。具体的，装置可以通过Nextvlad网络对特征矩阵进行聚类得到多个第一聚类特征。

步骤S402，根据各个第一聚类特征对应的权重以及各个第一聚类特征得到待处理的图像特征。

装置可以对不同的第一聚类特征分配权重，通过各个第一聚类特征所对应的权重对各个第一聚类特征进行加权求和得到待处理的图像特征。第一聚类特征即可视为各个图像特征之间所相似的特征，也即第一聚类特征即可视为各个图像特征之间的冗余图像信息，通过对各个第一聚类特征进行加权求和，可以对冗余图像信息进行压缩从而聚合得到有用信息，也即删除各个图像特征之间的冗余图像信息得到有用信息，有用信息可用待处理的图像特征表示。

步骤S403，对待处理的图像特征进行非线性拟合得到图像融合特征。

在得到待处理的图像特征后，对待处理的图像特征进行非线性拟合，即可得到图像融合特征。非线性拟合能够增加特征的非线性表达能力，进而可以得到1*D维度的图像融合特征，也即将多帧图像特征压缩到1维，并且最大程度的保留图像的有用信息。装置可以通过注意力模式的神经网络对待处理的图像特征进行非线性拟合。

在本实施例中，装置通过对各个图像特征之间的冗余图像信息进行删除得到有用的图像信息，再对有用的图像信息进行非线性拟合，从而得到具有非线性表达能力的图像融合特征。

参照图5，图5为本公开视频的标签生成方法再一实施例的流程示意图，基于图2-图4中任一所示的实施例，步骤S203包括：

步骤S501，对各个音频特征进行聚类得到多个第二聚类特征。

在本实施例中，音频特征是一个特征矩阵，特征矩阵例如为M*D。M代表频谱段的个数，一帧图像为一个频谱段，D表示特征维度。装置对各个特征矩阵M*D进行聚类，即可得到多个聚类特征，该聚类特征定义为第二聚类特征。具体的，装置可以通过Nextvlad网络对特征矩阵进行聚类得到多个第二聚类特征。

步骤S502，根据各个第二聚类特征删除各个音频特征之间的冗余信息得到音频特征信息。

装置可以对不同的第二聚类特征分配权重，通过各个第二聚类特征所对应的权重对各个第二聚类特征进行加权求和得到待处理的音频特征。第二聚类特征即可视为各个音频特征之间所相似的特征，也即第二聚类特征即可视为各个音频特征之间的冗余音频信息，通过对各个第二聚类特征进行加权求和，可以对冗余音频信息进行压缩从而聚合得到有用信息，也即删除各个音频特征之间的冗余音频信息得到音频特征信息，音频特征信息可用待处理的音频特征表示。

步骤S503，对音频特征信息进行非线性拟合得到音频融合特征。

在得到待处理的音频特征后，对待处理的音频特征进行非线性拟合，也即对音频特征信息进行非线性拟合，即可得到音频融合特征。非线性拟合能够增加特征的非线性表达能力，进而可以得到1*D维度的音频融合特征，也即将多帧音频特征压缩到1维，并且最大程度的保留音频的有用信息。装置可以通过注意力模式的神经网络对待处理的音频特征进行非线性拟合。

在本实施例中，装置通过对各个音频特征之间的冗余音频信息进行删除得到有用的音频信息，再对有用的音频信息进行非线性拟合，从而得到具有非线性表达能力的音频融合特征。

参照图6，图6为本公开视频的标签生成方法还一实施例的流程示意图，基于图2-图5中任一所示的实施例，步骤S204包括：

步骤S601，确定各个文本特征对应的特征矩阵。

在本实施例中，视频的文本描述特征是L*E的特征矩阵，L表示文本的长度，E表示文本的特征维度，也即装置基于各个文本特征可以得到特征矩阵。特征矩阵可以表征为文本中每个词的特征向量表达。也即一个文本特征即为一个特征矩阵L*E。

步骤S602，基于多头注意力机制对各个特征矩阵进行融合，得到视频的文本融合特征。

特征矩阵可以表征为文本中每个词的特征向量表达，装置基于多头注意力机制对各个特征矩阵进行融合得到文本融合特征。具体的，装置基于多头注意力机制在各个特征矩阵的词与词之间确定交互的语义，并对确定的语义设置对应的权重，基于各个语义以及语义对应的权重进行加权求和得到文本融合特征，也即得到1*E维度的文本融合特征。装置可以直接将各个文本特征输入至Albert网络，即可得到文本融合特征。

在本实施例中，装置通过各个文本特征得到各个特征矩阵，进而通过各个特征矩阵得到视频的准确的文本融合特征。

在一实施例中，获取视频中每一帧图像的图像特征包括：

获取每一帧图像中各个像素点的像素值；

对每一帧图像的各个像素点的像素值进行归一化处理，并对每一帧图像的归一化处理后的各个像素值进行编码，得到每一帧图像的图像特征。

在本实施例中，装置基于视频的输入信息获取每一帧图像的RGB信息，RGB信息即为图像中各个像素点的像素值。

装置对每一帧图像的各个像素点的像素值进行归一化处理，再对归一化处理后的各个像素值进行编码，即可得到每一帧图像的图像深度语义表达，也即得到每一帧图像的图像特征。装置可通过设置Uniter模型的多层图像编码模块对每帧图像的各个像素值进行编码。

在本实施例中，装置对每一帧图像中各个像素点的像素值进行归一化以及编码处理，从而准确的得到每帧图像所对应的图像特征。

在一实施例中，获取视频中每一帧图像的文本特征，包括：

获取每一帧图像的文本内容；

对每一帧图像的文本内容进行离散化处理，并对离散化处理后的各个文本内容进行编码得到每一帧图像的文本特征。

在本实施例中，装置通过识别模型（识别模型可为Uniter模型）对每一帧图像进行文字识别，得到每一帧图像的文本内容。

在得到文本内容后，装置对每一帧图像的文本内容进行离散化处理，再对离散化处理的文本进行编码即可得到每一帧图像的文本特征。装置可通过Uniter模型中的文本编码模块对文本内容进行编码，即可得到文本特征。

例如，文本内容是“咸蛋黄肉松曲奇”，进行数值离散化处理得到[1，6,8,9,14,0,23]，离散化处理后的每个数字对应一个词。对[1，6,8,9,14,0,23]进行编码后即可L*E的矩阵。

在本实施例中，装置对每一帧图像的文本内容进行离散化处理以及编码处理，即可准确的得到每一帧图像的文本特征。

在一实施例中，获取视频中每一帧图像的音频特征，包括：

获取每一帧图像的音频；

对各个音频进行离散化处理以及频谱转换得到各个音频所对应的音频频谱；

根据各个音频频谱获取每一帧图像的音频特征。

在本实施例中，装置获取每一帧图像的音频。音频可以是音乐、旁白、对话以及图像中物品发出的声音的至少一种。

装置得到音频后，基于音频的时序序列对音频进行数值离散化处理。时序即为音频的播放时刻。进行数值离散化处理后，再进行频谱转换即可得到音频对应的音频频谱。可通过梅尔倒谱算法对数值离散化处理的音频进行频谱转换。时序序列的维度为1*K，K表示音频的采样长度。

在得到音频对应的音频频谱后，即可通过音频频谱得到图像的音频特征。具体的，将音频频谱输入至模型中，即可得到模型输出的音频特征。例如，将音频频谱输入vggish模型，音频频谱经过vggish模型的多层卷积神经网络的编码，即可得到音频特征。音频特征为M*D的特征矩阵，M代表频谱段的个数，D代表音频的特征维度。

在本实施例中，装置基于对每一帧图像的音频进行离散化处理、频谱转换，即可准确的得到图像的音频特征。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图7对本公开示例性实施方式的存储介质进行说明。

参考图7所示，存储介质70中存储着根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机执行指令，该计算机执行指令用于使计算设备执行本公开所提供的视频的标签生成方法。然而，本公开的程序产品不限于此。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机执行指令。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的计算机执行指令，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机执行指令可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图8对本公开示例性实施方式的视频的标签生成装置进行说明，视频的标签生成装置用于实现上述任一方法实施例中的方法，其实现原理和技术效果类似。

参考图8，图8示意性地示出了根据本公开实施例提供的视频的标签生成装置的结构示意图。

如图8所示，视频的标签生成装置包括：获取模块810，用于获取视频中每一帧图像的图像特征、文本特征以及音频特征；确定模块820，用于根据各个图像特征确定图像融合特征；确定模块820，用于根据各个音频特征确定音频融合特征；确定模块820，还用于根据各个文本特征确定文本融合特征；生成模块830，用于根据音频融合特征、图像融合特征以及文本融合特征生成视频的标签。

在本公开一实施例中，生成模块830包括：拼接单元，用于对音频融合特征、图像融合特征以及文本融合特征进行拼接，得到拼接特征；第一获取单元，还用于响应于针对拼接特征的滑窗操作，获取滑窗操作得到的局部特征；第二获取单元，还用于根据局部特征以及拼接特征获取特征向量，以根据特征向量生成视频的标签。

在本公开一实施例中，确定模块820包括：第一聚类单元，用于对各个图像特征进行聚类得到多个第一聚类特征；第一删除单元，用于根据各个第一聚类特征对应的权重以及各个第一聚类特征得到待处理的图像特征；第一拟合单元，用于对待处理的图像特征进行非线性拟合得到图像融合特征。

在本公开一实施例中，确定模块820包括：第二聚类单元，用于对各个音频特征进行聚类得到多个第二聚类特征；第二删除单元，用于根据各个第二聚类特征删除各个音频特征之间的冗余信息得到音频特征信息；第二拟合单元，用于对音频特征信息进行非线性拟合得到音频融合特征。

在本公开一实施例中，确定模块820包括：确定单元，还用于确定各个文本特征对应的特征矩阵；融合单元，用于基于多头注意力机制对各个特征矩阵进行融合，得到视频的文本融合特征。

在本公开一实施例中，获取模块810包括：第三获取单元，用于获取每一帧图像中各个像素点的像素值；第一处理单元，用于对每一帧图像的各个像素点的像素值进行归一化处理，并对每一帧图像的归一化处理后的各个像素值进行编码，得到每一帧图像的图像特征。

在本公开一实施例中，获取模块810包括：第四获取单元，还用于获取每一帧图像的文本内容；第二处理单元，用于对每一帧图像的文本内容进行离散化处理，并对离散化处理后的各个文本内容进行编码得到每一帧图像的文本特征。

在本公开一实施例中，获取模块810包括：第五获取单元，还用于获取每一帧图像的音频；第三处理单元，用于对各个音频进行离散化处理以及频谱转换得到各个音频所对应的音频频谱；第六获取单元，还用于根据音频频谱获取图像的音频特征。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图9对本公开示例性实施方式的计算设备进行说明。

图9显示的计算设备90仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。如图9所示，计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于：至少一个处理单元901、至少一个存储单元902，连接不同***组件(包括处理单元901和存储单元902)的总线903。其中，至少一个存储单元902中存储有计算机执行指令；至少一个处理单元901包括处理器，处理器执行该计算机执行指令，以实现上文描述的方法。

总线903包括数据总线、控制总线和地址总线。

存储单元902可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)9021和/或高速缓存存储器9022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)9023。

存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025，这样的程序模块9024包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了视频的标签生成装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种视频的标签生成方法，其特征在于，包括：

获取视频中每一帧图像的图像特征、文本特征以及音频特征；

根据各个所述图像特征确定图像融合特征；

根据各个所述音频特征确定音频融合特征；

根据各个所述文本特征确定文本融合特征；

根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签。

2.根据权利要求1所述的视频的标签生成方法，其特征在于，所述根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签，包括：

对所述音频融合特征、所述图像融合特征以及所述文本融合特征进行拼接，得到拼接特征；

响应于针对所述拼接特征的滑窗操作，获取所述滑窗操作得到的局部特征；

根据所述局部特征以及所述拼接特征获取特征向量，并根据所述特征向量生成所述视频的标签。

3.根据权利要求1所述的视频的标签生成方法，其特征在于，所述根据各个所述图像特征确定图像融合特征，包括：

对各个所述图像特征进行聚类得到多个第一聚类特征；

根据各个所述第一聚类特征对应的权重以及各个所述第一聚类特征得到待处理的图像特征；

对所述待处理的图像特征进行非线性拟合得到图像融合特征。

4.根据权利要求1所述的视频的标签生成方法，其特征在于，所述根据各个所述音频特征确定音频融合特征，包括：

对各个音频特征进行聚类得到多个第二聚类特征；

根据各个所述第二聚类特征删除各个所述音频特征之间的冗余信息得到音频特征信息；

对所述音频特征信息进行非线性拟合得到音频融合特征。

5.根据权利要求1所述的视频的标签生成方法，其特征在于，所述根据各个所述文本特征确定文本融合特征，包括：

确定各个所述文本特征对应的特征矩阵；

基于多头注意力机制对各个所述特征矩阵进行融合，得到所述视频的文本融合特征。

6.根据权利要求1-5任一项所述的视频的标签生成方法，其特征在于，所述获取视频中每一帧图像的图像特征，包括：

获取每一帧图像中各个像素点的像素值；

对每一帧所述图像的各个所述像素点的像素值进行归一化处理，并对每一帧所述图像的归一化处理后的各个所述像素值进行编码，得到每一帧所述图像的图像特征。

7.根据权利要求1-5任一项所述的视频的标签生成方法，其特征在于，所述获取视频中每一帧图像的文本特征，包括：

获取每一帧所述图像的文本内容；

对每一帧所述图像的文本内容进行离散化处理，并对离散化处理后的各个所述文本内容进行编码得到每一帧所述图像的文本特征。

8.根据权利要求1-5任一项所述的视频的标签生成方法，其特征在于，所述获取视频中每一帧图像的音频特征，包括：

获取每一帧所述图像的音频；

对各个所述音频进行离散化处理以及频谱转换得到各个所述音频所对应的音频频谱；

根据所述音频频谱获取所述图像的音频特征。

9.一种视频的标签生成装置，其特征在于，包括：

获取模块，用于获取视频中每一帧图像的图像特征、文本特征以及音频特征；

确定模块，用于根据各个所述图像特征确定图像融合特征；

所述确定模块，用于根据各个所述音频特征确定音频融合特征；

所述确定模块，还用于根据各个所述文本特征确定文本融合特征；

生成模块，用于根据所述音频融合特征、所述图像融合特征以及所述文本融合特征生成所述视频的标签。

10.根据权利要求9所述的视频的标签生成装置，其特征在于，所述生成模块包括：

拼接单元，用于对所述音频融合特征、所述图像融合特征以及所述文本融合特征进行拼接，得到拼接特征；

第一获取单元，还用于响应于针对所述拼接特征的滑窗操作，获取所述滑窗操作得到的局部特征；

第二获取单元，还用于根据所述局部特征以及所述拼接特征获取特征向量，以根据所述特征向量生成所述视频的标签。

11.根据权利要求9所述的视频的标签生成装置，其特征在于，所述确定模块包括：

第一聚类单元，用于对各个所述图像特征进行聚类得到多个第一聚类特征；

第一删除单元，用于根据各个所述第一聚类特征对应的权重以及各个所述第一聚类特征得到待处理的图像特征；

第一拟合单元，用于对所述待处理的图像特征进行非线性拟合得到图像融合特征。

12.根据权利要求11所述的视频的标签生成装置，其特征在于，所述确定模块包括：

第二聚类单元，用于对各个音频特征进行聚类得到多个第二聚类特征；

第二删除单元，用于根据各个所述第二聚类特征删除各个所述音频特征之间的冗余信息得到音频特征信息；

第二拟合单元，用于对所述音频特征信息进行非线性拟合得到音频融合特征。

13.根据权利要求9所述的视频的标签生成装置，其特征在于，所述确定模块包括：

确定单元，还用于确定各个所述文本特征对应的特征矩阵；

融合单元，用于基于多头注意力机制对各个所述特征矩阵进行融合，得到所述视频的文本融合特征。

14.根据权利要求9-13中任一项所述的视频的标签生成装置，其特征在于，所述获取模块包括：

第三获取单元，用于获取每一帧图像中各个像素点的像素值；

第一处理单元，用于对每一帧所述图像的各个所述像素点的像素值进行归一化处理，并对每一帧所述图像的归一化处理后的各个所述像素值进行编码，得到每一帧所述图像的图像特征。

15.根据权利要求9-13中任一项所述的视频的标签生成装置，其特征在于，所述获取模块包括：

第四获取单元，还用于获取每一帧所述图像的文本内容；

第二处理单元，用于对每一帧所述图像的文本内容进行离散化处理，并对离散化处理后的各个所述文本内容进行编码得到每一帧所述图像的文本特征。

16.根据权利要求9-13中任一项所述的视频的标签生成装置，其特征在于，所述获取模块包括：

第五获取单元，还用于获取每一帧所述图像的音频；

第三处理单元，用于对各个所述音频进行离散化处理以及频谱转换得到各个所述音频所对应的音频频谱；

第六获取单元，还用于根据所述音频频谱获取所述图像的音频特征。

17.一种介质，其特征在于，包括：计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的视频的标签生成方法。

18.一种计算设备，其特征在于，包括：

存储器以及处理器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1至8任一项所述的视频的标签生成方法。