CN116541556A

CN116541556A - 标签确定方法、装置、设备以及存储介质

Info

Publication number: CN116541556A
Application number: CN202210013150.0A
Authority: CN
Inventors: 黄剑辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2023-08-04

Abstract

本申请公开了一种标签确定方法、装置、设备以及存储介质，可应用于云技术、人工智能以及车载等场景。通过本申请实施例提供的技术方案，在确定视频标签的过程中，分别获取了目标视频的第一语义特征和描述文本的第二语义特征。基于第一融合参数和第二融合参数将第一语义特征和第二语义特进行融合，得到融合语义特征，后续基于融合语义特征就能够确定视频标签。在融合第一语义特征和第二语义特征的过程中，采用的是分解目标融合参数得到的第一融合参数和第二融合参数，这样能够降低特征融合过程中的参数量，也就降低了融合第一语义特征和第二语义特征的运算量，从而提高确定视频标签的效率。

Description

标签确定方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种标签确定方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，越来越多的用户通过观看视频的方式进行放松和娱乐。为了吸引用户观看视频，视频推荐平台会向用户推送其可能感兴趣的视频。在视频推送过程中，往往是基于视频标签以及用户标签之间的匹配来实现的。

相关技术中，往往会采用人工筛选的方式来确定视频标签，但是人工筛选视频标签的速度较慢，导致确定视频标签的效率较低。

发明内容

本申请实施例提供了一种标签确定方法、装置、设备以及存储介质，可以提升确定视频标签的效率，技术方案如下：

一方面，提供了一种标签确定方法，所述方法包括：

获取目标视频和所述目标视频的描述文本；

对所述目标视频和所述描述文本进行特征提取，得到所述目标视频的第一语义特征和所述描述文本的第二语义特征；

采用第一融合参数和第二融合参数，将所述第一语义特征和所述第二语义特征进行融合，得到所述目标视频的融合语义特征，所述第一融合参数和所述第二融合参数是分解目标融合参数进行所得到的参数，所述目标融合参数为基于样本视频、样本视频的样本描述文本以及样本视频的标签训练得到的融合参数；

基于所述融合语义特征，确定所述目标视频的标签。

一方面，提供了一种标签确定装置，所述装置包括：

获取模块，用于获取目标视频和所述目标视频的描述文本；

特征提取模块，用于对所述目标视频和所述描述文本进行特征提取，得到所述目标视频的第一语义特征和所述描述文本的第二语义特征；

特征融合模块，用于采用第一融合参数和第二融合参数，将所述第一语义特征和所述第二语义特征进行融合，得到所述目标视频的融合语义特征，所述第一融合参数和所述第二融合参数是分解目标融合参数进行所得到的参数，所述目标融合参数为基于样本视频、样本视频的样本描述文本以及样本视频的标签训练得到的融合参数；

标签确定模块，用于基于所述融合语义特征，确定所述目标视频的标签。

在一种可能的实施方式中，所述特征提取模块，用于将所述目标视频输入视听特征提取模型，通过所述视听特征提取模型对所述目标视频进行特征提取，得到所述目标视频的所述第一语义特征；将所述描述文本输入文本特征提取模型，通过所述文本特征提取模型对所述描述文本进行特征提取，得到所述描述文本的所述第二语义特征。

在一种可能的实施方式中，所述特征提取模块，用于执行下述任一项：

通过所述视听特征提取模型，对所述目标视频的图像和音频中的至少一项进行卷积、残差连接以及全连接，得到所述目标视频的所述第一语义特征；

通过所述视听特征提取模型，基于注意力机制对所述目标视频的图像和音频中的至少一项进行编码，得到所述目标视频的所述第一语义特征。

在一种可能的实施方式中，所述特征提取模块，用于通过所述视听特征提取模型，对所述目标视频的图像进行卷积、残差连接以及全连接，得到所述目标视频的图像语义特征；

通过所述视听特征提取模型，对所述目标视频的音频进行卷积、残差连接以及全连接，得到所述目标视频的音频语义特征；

将所述图像语义特征和所述音频语义特征进行融合，得到所述目标视频的所述第一语义特征。

在一种可能的实施方式中，所述特征提取模块，用于通过所述视听特征提取模型，基于注意力机制对所述目标视频的图像进行编码，得到所述目标视频的图像注意力特征；

通过所述视听特征提取模型，基于注意力机制对所述目标视频的音频进行编码，得到所述目标视频的音频注意力特征；

将所述图像注意力特征和所述音频注意力特征进行融合，得到所述目标视频的所述第一语义特征。

通过所述文本特征提取模型对所述描述文本进行序列编码，得到所述目标视频的所述第二语义特征；

通过所述文本特征提取模型，基于注意力机制对所述描述文本进行编码，得到所述目标视频的所述第二语义特征；

通过所述文本特征提取模型对所述描述文本进行嵌入编码，得到所述目标视频的所述第二语义特征。

在一种可能的实施方式中，所述特征融合模块，用于将所述第一融合参数与所述第一语义特征相乘，得到第一融合特征；将所述第二融合参数与所述第二语义特征相乘，得到第二融合特征；将所述第一融合特征和所述第二融合特征相乘，得到所述目标视频的融合语义特征。

在一种可能的实施方式中，所述标签确定模块，用于对所述融合语义特征进行全连接，得到多个候选标签对应的多个预测值；将所述多个候选标签中预测值符合目标条件的候选标签确定为所述目标视频的标签。

在一种可能的实施方式中，所述标签确定模块，用于按照预测值从大至小的顺序，对所述多个候选标签进行排序；将排序后所述多个候选标签中前目标数量个候选标签，确定为所述目标视频的标签。在一种可能的实施方式中，所述装置还包括：

分解模块，用于对所述目标融合参数进行张量分解，得到所述第一融合参数和所述第二融合参数，所述第一融合参数与所述第二融合参数的转置的乘积为所述目标融合参数。

在一种可能的实施方式中，所述装置还包括：

目标融合参数获取模块，用于获取样本视频和所述样本视频的样本描述文本；对所述样本视频和所述样本描述文本进行特征提取，得到所述样本视频的第一样本语义特征和所述样本描述文本的第二样本语义特征；采用所述目标融合参数将所述第一样本语义特征和所述第二样本语义特征进行融合，得到所述样本视频的样本融合语义特征；基于所述样本融合语义特征，确定所述样本视频的预测标签；基于所述样本视频的预测标签和所述样本视频的标注标签之间的差异信息，对所述目标融合参数进行更新。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述标签确定方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述标签确定方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述标签确定方法。

通过本申请实施例提供的技术方案，在确定视频标签的过程中，分别获取了目标视频的第一语义特征和描述文本的第二语义特征。基于第一融合参数和第二融合参数将第一语义特征和第二语义特进行融合，得到融合语义特征，后续基于融合语义特征就能够确定视频标签。在融合第一语义特征和第二语义特征的过程中，采用的是分解目标融合参数得到的第一融合参数和第二融合参数，这样能够降低特征融合过程中的参数量，也就降低了融合第一语义特征和第二语义特征的运算量，从而提高确定视频标签的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种标签确定方法的实施环境的示意图；

图2是本申请实施例提供的一种标签确定方法的流程图；

图3是本申请实施例提供的一种标签确定方法的流程图；

图4是本申请实施例提供的一种标签确定方法的流程图；

图5是本申请实施例提供的一种标签确定装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式做进一步的详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语义特征：用于表示文本所表达语义的特征，不同的文本可以对应于相同的语义特征，例如文本“今天天气怎么样”和文本“今天天气如何”可以对应于同一个语义特征。计算机设备可以将文本中的字符映射为字符向量，根据字符之间的关系，对字符向量进行组合和运算，得到文本的语义特征。例如计算机设备可以采用编解码器的双向编码器表示(Bidirectional Encoder Representations from Transformers，BERT)。

归一化：将取值范围不同的数列映射到(0，1)区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

嵌入编码(Embedded Coding)：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系后映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应地，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

图1是本申请实施例提供的一种标签确定方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选地，终端110包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端110安装和运行有支持标签确定的应用程序。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在介绍完本申请实施例的实施环境之后，下面将结合上述实施环境的相关说明，对本申请实施例的应用场景进行介绍，在下述说明过程中，终端为上述实施环境中的终端110，服务器为上述实施环境中的服务器140。

本申请实施例提供的标签确定方法能够应用在多媒体内容的推荐场景下，也能够应用在多媒体内容检索的场景下，还能够应用在多媒体内容分类的场景下，其中，多媒体内容包括视频、音乐以及图片集等。

以本申请实施例提供的标签确定方法应用在视频推荐的场景下为例，在视频推荐过程中，往往需要为视频添加标签，基于视频标签和用户标签来实现视频的推荐。采用本申请实施例提供的标签确定方法之后，服务器能够对目标视频进行特征提取，得到该目标视频的第一语义特征，该第一语义特征能够从视听的角度反映该目标视频的特征。服务器能够对该目标视频的描述文本进行特征提取，得到该描述文本的第二语义特征，其中，该描述文本为该目标视频的标题、该目标视频的简介或者该目标视频中的字幕等。服务器采用第一融合参数和第二融合参数，将该第一语义特征和该第二语义特征进行融合，得到目标视频的融合语义特征，其中，第一融合参数和第二融合参数是分解目标融合参数得到的，第一融合参数和第二融合参数的参数量均小于该目标融合参数。相较于采用目标融合参数来融合第一语义特征和第二语义特征，采用第一融合参数以及第二融合参数来融合第一语义特征和第二语义特征的运算量较小，融合效率较高。服务器基于该目标视频的融合语义特征就能够确定该目标视频的标签。后续服务器能够基于该目标视频的标签来对该目标视频进行推荐。在上述确定目标视频的标签的过程中无需人工操作，服务器能够自动为目标视频添加标签，标签添加的效率较高。

以本申请实施例提供的标签确定方法应用在视频分类的场景下为例，在视频分类过程中，往往需要为视频添加标签，基于视频标签来实现视频的分类。采用本申请实施例提供的标签确定方法能够确定出该目标视频的标签。后续服务器能够基于该目标视频的标签来对该目标视频进行分类，比如，服务器能够确定出的标签进行聚类，根据聚类结果对视频进行分类。在上述确定目标视频的标签的过程中无需人工操作，服务器能够自动为目标视频添加标签，标签添加的效率较高。

以本申请实施例提供的标签确定方法应用在视频检索的场景下为例，在视频检索之前，往往需要为待检索的视频添加标签，后续能够基于视频标签来实现视频的检索。

需要说明的是，上述是以本申请实施例提供的技术方案分别应用在视频推荐、分类以及检索的场景下为例进行说明的，对于上述说明中基于其他多媒体内容的应用场景，实现过程与上述说明属于同一发明构思，在此不再赘述。在下述说明过程中，以确定目标视频的标签为例进行说明。

另外，在上述对本申请实施例的应用场景进行说明的过程中，是以服务器作为执行主体为例进行的。在其他可能的实施方式中，也可以由终端作为执行主体来执行本申请提供的技术方案，本申请实施例对于执行主体的类型不做限定。

在介绍完本申请实施例的实施环境和应用场景之后，下面将结合上述实施环境和应用场景，对本申请实施例提供的标签确定方法进行说明，以执行主体为服务器为例，参见图2，方法包括：

201、服务器获取目标视频和该目标视频的描述文本。

其中，目标视频为待添加标签的视频，该目标视频的描述文本为该目标视频的标题、简介或者该目标视频中的字幕等。

202、服务器对该目标视频和该描述文本进行特征提取，得到该目标视频的第一语义特征和该描述文本的第二语义特征。

其中，第一语义特征为基于目标视频进行特征提取得到的语义特征，能够反映目标视频的视听特征。第二语义特征为基于目标视频的描述文本提取得到的特征，能够从文本的角度反映目标视频的特征。

203、服务器采用第一融合参数和第二融合参数，将该第一语义特征和该第二语义特征进行融合，得到该目标视频的融合语义特征，该第一融合参数和该第二融合参数是分解目标融合参数进行所得到的参数，该目标融合参数为基于样本视频、样本视频的样本描述文本以及样本视频的标签训练得到的融合参数。

其中，分解目标融合参数的过程，也即是对目标融合参数进行降维的过程，得到的第一融合参数和第二融合参数的维度均低于该目标融合参数，采用该第一融合参数和该第二融合参数进行特征融合的运算量较小，运算速度较快。目标融合参数为训练得到的融合参数，能够对语义特征进行融合，但是目标融合参数的维度较高，采用目标融合参数对语义特征进行融合时的运算量较大。

204、服务器基于该融合语义特征，确定该目标视频的标签。

其中，由于该融合语义特征融合了目标视频的视听特征和文本特征，基于该融合语义特征确定目标视频的标签的准确性较高。

需要说明的是，上述步骤201-204是对本申请实施例提供的技术方案的简单介绍，下面将结合一些例子，对本申请实施例提供的标签确定方法进行更加详细的说明，参见图3，以执行主体为服务器为例，方法包括：

301、服务器获取目标视频和该目标视频的描述文本。

其中，目标视频为待确定标签的视频。在一些实施例中，该目标视频为短视频，比如为吃播类短视频、游戏类短视频、知识类短视频、旅游类短视频以及生活类短视频等。在一些实施例中，该目标视频为长视频，比如为电影或者电视剧等。该目标视频的描述文本为该目标视频的标题、简介或者该目标视频中的字幕等，该描述文本能够从文本的角度来反映目标视频的内容。

在一种可能的实施方式中，服务器从待进行标签确定的视频集合中获取目标视频，该视频集合为待进行标签添加的视频集合，比如为视频制作者刚上传的视频集合，或者为待进行标签扩充的视频集合等。服务器将目标视频的标题、简介以及字幕中的至少一项获取为该目标视频的描述文本。

在一些实施例中，在目标视频的数量为多个的情况下，服务器能够从视频集合中获取多个目标视频。服务器获取该多个目标视频的多个描述文本。其中，服务器从视频集合中获取目标视频的数量与服务器的运算能力成正比，也即是服务器的运算能力越强，服务器在同一时间能够获取越多的目标视频。获取到多个目标视频和多个目标视频的描述文本之后，服务器能够同时对该多个目标视频的描述文本进行处理。

在一种可能的实施方式中，终端显示视频上传页面，该视频上传页面包括视频选择区域和描述文本输入区域，该视频选择区域用于选择向服务器上传的视频，该描述文本输入区域用于输入待上传视频的描述文本。响应于在该视频上传页面上的操作，终端向服务器发送视频选择区域中选中的目标视频以及该描述文本输入区域中的描述文本，服务器获取该目标视频和该目标视频的描述文本。

302、服务器将该目标视频输入视听特征提取模型，通过该视听特征提取模型对该目标视频进行特征提取，得到该目标视频的该第一语义特征。

其中，视听特征提取模型用于对目标视频的视觉信息和听觉信息进行特征提取，得到该目标视频的第一语义特征，其中，该目标视频的视觉信息也即是目标视频的视频帧的相关信息，该目标视频的听觉信息也即是目标视频的音频帧的相关信息。

在一种可能的实施方式中，服务器将该目标视频输入视听特征提取模型，通过该视听特征提取模型，对该目标视频的图像和音频中的至少一项进行卷积、残差连接以及全连接，得到该目标视频的该第一语义特征。在这种情况下，该视听特征提取模型也被称为残差神经网络(ResNet，Residual Neural Network)。

举例来说，服务器将该目标视频的图像输入该视听特征提取模型，通过该视听特征提取模型，对该目标视频的图像进行卷积、残差连接以及全连接，得到该目标视频的图像语义特征。服务器将该目标视频的音频输入该视听特征提取模型，通过该视听特征提取模型，对该目标视频的音频进行卷积、残差连接以及全连接，得到该目标视频的音频语义特征。服务器将该图像语义特征和该音频语义特征进行融合，得到该目标视频的该第一语义特征。其中，目标视频的图像为目标视频的视频帧，音频为目标视频的音频帧。

在一些实施例中，该视听特征提取模型包括视觉特征提取子模型和听觉特征提取子模型。那么在上述举例中，服务器将目标视频的图像输入视觉特征提取子模型，通过该视觉特征提取子模型的卷积层对该目标视频的图像进行卷积，也即是采用卷积核在该图像上进行滑动，得到该图像的第一特征图。服务器通过该视觉特征提取子模型，将该图像与该第一特征图进行叠加，也即是对该第一特征图进行残差连接，得到该图像的第二特征图。服务器通过该视觉特征提取子模型的全连接层，也即是采用该全连接层对应的权重矩阵，对该第二特征图进行全连接，得到该目标视频的图像语义特征。服务器对该目标视频的音频进行时频变换，得到该目标视频的频域信息。服务器将该目标视频的频域信息输入听觉特征提取子模型，通过该听觉特征提取子模型的卷积层对该目标视频的频域信息进行卷积，也即是采用卷积核在该频域信息上进行滑动，得到该频域信息的第三特征图。服务器通过该听觉特征提取子模型，将该频域信息与该第三特征图进行叠加，也即是对该第三特征图进行残差连接，得到该频域信息的第四特征图。服务器通过该听觉特征提取子模型的全连接层，也即是采用该全连接层对应的权重矩阵，对该第四特征图进行全连接，得到该目标视频的音频语义特征。服务器将该目标视频的图像语义特征和音频语义特征进行加权求和，得到该目标视频的第一语义特征。

比如，服务器将该目标视频的图像对应的图像矩阵输入视觉特征提取子模型，该图像矩阵包括三个子矩阵，该三个子矩阵分别对应于该图像的三个颜色通道(RGB)。服务器通过该视觉特征提取子模型对该三个子矩阵进行卷积处理，也即是分别采用三个卷积核在该三个子矩阵上进行滑动，得到该三个子矩阵分别对应的第一特征图，卷积核在子矩阵上进行滑动的过程中，会对被覆盖的区域进行卷积运算，将被覆盖的区域映射为特征值，多个特征值构成了该第一特征图。服务器通过该视觉特征提取子模型的残差层，对该三个子矩阵分别对应的第一特征图进行残差连接，得到该三个子矩阵分别对应的第二特征图，其中，残差连接也即是将第一特征图与对应的子矩阵进行叠加，以保证特征提取过程中不丢失子矩阵中的信息。服务器通过该视觉特征提取子模型的全连接层，对该三个子矩阵分别对应的第二特征图进行全连接，也即是采用全连接层的对应的权重矩阵与对应的第二特征图相乘，将该三个子矩阵分别对应的第二特征图映射为该三个子矩阵分别对应的语义特征。服务器通过该视觉特征提取子模型，将该三个子矩阵分别对应的语义特征进行加权求和，得到该图像的语义特征，也即是该目标视频的图像语义特征。服务器对该目标视频的音频进行分帧和加窗，得到该目标视频的多个音频帧。服务器对该多个音频帧进行傅里叶变换，得到该目标视频的频谱图。服务器将该目标视频的频谱图输入听觉特征提取子模型，通过该听觉特征提取子模型的卷积层对该目标视频的频谱图进行卷积，也即是采用卷积核在该频谱图上进行滑动，得到该频谱图的第三特征图。服务器通过该听觉特征提取子模型，将该频谱图与该第三特征图进行叠加，也即是对该第三特征图进行残差连接，得到该频谱图的第四特征图。服务器通过该听觉特征提取子模型的全连接层，也即是采用该全连接层对应的权重矩阵，对该第四特征图进行全连接，得到该目标视频的音频语义特征。服务器将该目标视频的图像语义特征和音频语义特征进行加权求和，得到该目标视频的第一语义特征。

需要说明的是，在上述说明过程中，是以服务器通过视觉特征提取子模型对目标视频的一个图像进行处理为例进行的，在这种情况下，该图像为该目标视频的封面图像。由于封面图像往往能够表示目标视频最主要的内容，通过对该封面图像进行特征提取得到的图像语义特征也就能够反映目标视频的视觉特征。在其他实施例中，服务器也能够将目标视频的多个视频帧输入该视觉特征提取子模型，通过该视觉特征提取子模型对该多个视频帧分别进行特征提取，得到各个视频帧的视频帧特征。服务器将该多个视频帧的视频帧特征进行融合，得到该目标视频的图像语义特征。通过这样的方式，得到的图像语义特征融合了该目标视频的多个视频帧中的信息，图像语义特征能够更加完整地表示该目标视频的视觉特征。

另外，在上述说明过程中，是以服务器通过视听特征提取模型对该目标视频的图像和音频均进行特征提取为例进行说明的，在其他可能的实施方式中，服务器也能够通过视听特征提取模型对该目标视频的图像和音频中的一项进行特征提取，得到该目标视频的第一语义特征，实现过程与上述说明属于同一发明构思，在此不再赘述。

在一种可能的实施方式中，服务器将该目标视频输入视听特征提取模型，通过该视听特征提取模型，基于注意力机制对该目标视频的图像和音频中的至少一项进行编码，得到该目标视频的该第一语义特征。

举例来说，服务器通过该视听特征提取模型，基于注意力机制对该目标视频的图像进行编码，得到该目标视频的图像注意力特征。服务器通过该视听特征提取模型，基于注意力机制对该目标视频的音频进行编码，得到该目标视频的音频注意力特征。服务器将该图像注意力特征和该音频注意力特征进行融合，得到该目标视频的该第一语义特征。在这种方式下，该视听特征提取模型也即是一个注意力编码模型。

在一些实施例中，该视听特征提取模型包括视觉特征提取子模型和听觉特征提取子模型。那么在上述举例中，服务器将目标视频的多个图像输入视觉特征提取子模型，通过该视觉特征提取子模型对该多个图像进行嵌入编码，得到该多个图像的图像编码和位置编码，其中，该多个图像为该目标视频的多个视频帧，其中，位置编码用于指示对应图像在该目标视频中的位置。服务器通过该视觉特征提取子模型，基于该多个图像的图像编码和位置编码，获取该多个图像之间的注意力权重。服务器通过该视觉特征提取子模型，基于该多个图像之间的注意力权重，将该多个图像的图像编码进行融合，得到该目标视频的图像注意力特征。服务器对该目标视频的音频进行时频变换，得到该目标视频的多个频域信息，其中，该多个频域信息分别对应于该目标视频的音频的多个音频帧。服务器将该目标视频的多个频域信息输入听觉特征提取子模型，通过该听觉特征提取子模型对该多个频域信息进行嵌入编码，得到该多个频域信息的频域信息编码和位置编码。服务器通过该听觉特征提取子模型，基于该多个频域信息的频域信息编码和位置编码，获取该多个频域信息之间的注意力权重。服务器通过该听觉特征提取子模型，基于该多个频域信息之间的注意力权重，将该多个频域信息的频域信息编码进行融合，得到该目标视频的音频注意力特征。服务器将该目标视频的图像注意力特征和音频注意力特征进行加权求和，得到该目标视频的第一语义特征。

比如，服务器将目标视频的多个图像输入视觉特征提取子模型，通过该视觉特征提取子模型，对该多个图像进行图像嵌入编码和位置嵌入编码，得到该多个图像的图像编码和位置编码。服务器通过该视觉特征提取子模型，将各个图像的图像编码和位置编码进行融合，得到各个图像的注意力编码，该注意力编码也就融合了该图像的图像信息和位置信息。服务器通过该视觉特征提取子模型，获取各个图像的查询(Query)矩阵、键(Key)矩阵和值(Value)矩阵，也即是，服务器采用三个线性变换矩阵分别与各个图像的注意力编码相乘，得到各个图像的查询矩阵、键矩阵和值矩阵，其中，该三个线性变换矩阵为训练该视觉特征提取子模型时得到的线性变换矩阵。服务器通过该视觉特征提取子模型，基于各个图像的查询矩阵和键矩阵，确定该多个图像之间的注意力权重。服务器通过该视觉特征提取子模型，基于该多个图像之间的注意力权重，将该多个图像的值矩阵进行融合，得到该目标视频的图像注意力特征。服务器对该目标视频的音频进行分帧和加窗，得到该目标视频的多个音频帧。服务器对该多个音频帧进行傅里叶变换，得到该多个音频帧分别对应的多个频谱图。服务器将目标视频的多个频谱图输入听觉特征提取子模型，通过该听觉特征提取子模型，对该多个频谱图进行频谱图嵌入编码和位置嵌入编码，得到该多个频谱图的频谱图编码和位置编码。服务器通过该听觉特征提取子模型，将各个频谱图的频谱图编码和位置编码进行融合，得到各个频谱图的注意力编码，该注意力编码也就融合了该频谱图的频谱图信息和位置信息。服务器通过该听觉特征提取子模型，获取各个频谱图的查询(Query)矩阵、键(Key)矩阵和值(Value)矩阵，也即是，服务器采用三个线性变换矩阵分别与各个频谱图的注意力编码相乘，得到各个频谱图的查询矩阵、键矩阵和值矩阵，其中，该三个线性变换矩阵为训练该听觉特征提取子模型时得到的线性变换矩阵。服务器通过该听觉特征提取子模型，基于各个频谱图的查询矩阵和键矩阵，确定该多个频谱图之间的注意力权重。服务器通过该听觉特征提取子模型，基于该多个频谱图之间的注意力权重，将该多个频谱图的值矩阵进行融合，得到该目标视频的音频注意力特征。

需要说明的是，在上述说明过程中，是以服务器通过视听特征提取模型对该目标视频的图像和音频均进行特征提取为例进行说明的，在其他可能的实施方式中，服务器也能够通过视听特征提取模型对该目标视频的图像和音频中的一项进行特征提取，得到该目标视频的第一语义特征，实现过程与上述说明属于同一发明构思，在此不再赘述。

在一种可能的实施方式中，服务器将该目标视频输入视听特征提取模型，通过该视听特征提取模型，对该目标视频的图像和音频中的至少一项进行序列编码，得到该目标视频的该第一语义特征。在这种情况下，该视听特征提取模型也就为一个序列编码模型，比如，该视听特征提取模型为长短时记忆网络(Long Short-Term Memory，LSTM)。

举例来说，服务器将该目标视频的多个图像输入该视听特征提取模型，通过该视听特征提取模型，对该多个图像进行序列编码，得到该目标视频的图像特征序列。服务器通过该视听特征提取模型，对该图像特征序列进行全连接，得到该目标视频的图像序列特征。服务器将该目标视频的音频输入该视听特征提取模型，通过该视听特征提取模型，对该音频进行序列编码，得到该目标视频的音频特征序列。服务器通过该视听特征提取模型，对该音频特征序列进行全连接，得到该目标视频的音频序列特征。服务器将该图像序列特征和该音频序列特征进行融合，得到该目标视频的该第一语义特征。

在一些实施例中，该视听特征提取模型包括视觉特征提取子模型和听觉特征提取子模型。那么在上述举例中，服务器对该目标视频的多个图像进行嵌入编码，得到该多个图像分别对应的多个图像编码。服务器将该多个图像编码输入该视觉特征提取子模型，通过该视觉特征提取子模型，按照该多个图像编码的顺序进行序列编码，得到该多个图像编码对应的图像特征序列。服务器通过该视觉特征提取子模型的全连接层，对该图像特征序列进行全连接，得到该目标视频的图像序列特征。服务器对该目标视频的音频进行时频变换，得到该目标视频的多个频域信息。服务器将该目标视频的多个频域信息输入听觉特征提取子模型，通过该听觉特征提取子模型，按照该多个频域信息的顺序进行序列编码，得到该多个频域信息对应的音频特征序列。服务器通过该听觉特征提取子模型的全连接层，对该音频特征序列进行全连接，得到该目标视频的音频序列特征。服务器将该图像序列特征和该音频序列特征进行加权求和，得到该目标视频的该第一语义特征。

303、服务器将该描述文本输入文本特征提取模型，通过该文本特征提取模型对该描述文本进行特征提取，得到该描述文本的该第二语义特征。

在一种可能的实施方式中，服务器将该描述文本输入文本特征提取模型，通过该文本特征提取模型对该描述文本进行序列编码，得到该目标视频的该第二语义特征。在这种情况下，该文本特征提取模型为长短时记忆网络。

举例来说，服务器将该描述文本的多个字符输入文本特征提取模型，通过该文本特征提取模型对该描述文本的多个字符进行序列编码，得到该目标视频的该第二语义特征。

比如，服务器对该描述文本的多个字符进行嵌入编码，得到该多个字符分别对应的多个字符编码。服务器将该多个字符编码输入该文本特征提取模型，通过该文本特征提取模型，按照该多个字符编码的顺序进行序列编码，得到该多个字符编码对应的字符特征序列。服务器通过该文本特征提取模型的全连接层，对该字符特征序列进行全连接，得到该描述文本的第二语义特征。

在一种可能的实施方式中，服务器通过该文本特征提取模型，基于注意力机制对该描述文本进行编码，得到该目标视频的该第二语义特征。

举例来说，服务器将描述文本的多个字符输入文本特征提取模型，通过该文本特征提取模型对该多个字符进行嵌入编码，得到该多个字符的字符编码和位置编码，其中，位置编码用于指示对应字符在该描述文本中的位置。服务器通过该文本特征提取模型，基于该多个字符的字符编码和位置编码，获取该多个字符之间的注意力权重。服务器通过该文本特征提取模型，基于该多个字符之间的注意力权重，将该多个字符的字符编码进行融合，得到该描述文本的第二语义特征。

比如，服务器将描述文本的多个字符输入文本特征提取模型，通过该文本特征提取模型，对该多个字符进行字符嵌入编码和位置嵌入编码，得到该多个字符的字符编码和位置编码。服务器通过该文本特征提取模型，将各个字符的字符编码和位置编码进行融合，得到各个字符的注意力编码，该注意力编码也就融合了该字符的字符信息和位置信息。服务器通过该文本特征提取模型，获取各个字符的查询(Query)矩阵、键(Key)矩阵和值(Value)矩阵，也即是，服务器采用三个线性变换矩阵分别与各个字符的注意力编码相乘，得到各个字符的查询矩阵、键矩阵和值矩阵，其中，该三个线性变换矩阵为训练该文本特征提取模型时得到的线性变换矩阵。服务器通过该文本特征提取模型，基于各个字符的查询矩阵和键矩阵，确定该多个字符之间的注意力权重。服务器通过该文本特征提取模型，基于该多个字符之间的注意力权重，将该多个字符的值矩阵进行融合，得到该描述文本的第二语义特征。

在一种可能的实施方式中，服务器通过该文本特征提取模型对该描述文本进行嵌入编码，得到该目标视频的该第二语义特征。

304、服务器采用第一融合参数和第二融合参数，将该第一语义特征和该第二语义特征进行融合，得到该目标视频的融合语义特征，该第一融合参数和该第二融合参数是分解目标融合参数进行所得到的参数，该目标融合参数为基于样本视频、样本视频的样本描述文本以及样本视频的标签训练得到的融合参数。

在一种可能的实施方式中，服务器将该第一融合参数与该第一语义特征相乘，得到第一融合特征。服务器将该第二融合参数与该第二语义特征相乘，得到第二融合特征。服务器将该第一融合特征和该第二融合特征相乘，得到该目标视频的融合语义特征。在一些实施例中，这个实施方式也被称为基于第一语义特征和第二语义特征基于双线性乘法的二阶交互过程。在一些实施例中，上述步骤304由特征融合模型来执行。

举例来说，服务器采用矩阵的形式来表示第一融合参数以及第二融合参数，分别记作第一融合矩阵以及第二融合矩阵；采用向量的形式来表示第一语义特征和第二语义特征，分别记作第一语义特征向量以及第二语义特征向量。服务器将第一融合矩阵与该第一语义特征向量相乘，得到第一融合特征矩阵。服务器将第二融合矩阵与该第二语义特征向量相乘，得到第二融合特征矩阵。服务器将第一融合特征矩阵与该第二融合特征矩阵的转置相乘，得到该目标视频的融合语义特征矩阵。比如，服务器通过下述公式(1)获取目标视频的融合语义特征矩阵。

logit_i＝(U_i*f_img)*(V_i*f_text)^T+b(1)

其中，logit_i为融合语义特征矩阵，U_i为第一融合参数，f_img为第一语义特征向量，V_i为第二融合参数，f_text为第二语义特征向量，i为参数编号，b为偏置参数。

下面对服务器分解目标融合参数，得到该第一融合参数和该第二融合参数的方法进行说明。

在一种可能的实施方式中，服务器对该目标融合参数进行张量分解，得到该第一融合参数和该第二融合参数，该第一融合参数与该第二融合参数的转置的乘积为该目标融合参数。

其中，对目标融合参数进行张量分解的过程，也即是将一个高维的目标融合参数分解为两个低维的第一融合参数和第二融合参数的过程，换句话说，第一融合参数和第二融合参数的参数量之和小于目标融合参数的参数量。相较于采用目标融合参数来将第一语义特征和第二语义特征进行融合来说，采用维度较低的第一融合参数和第二融合参数来融合第一语义特征和第二语义特征的运算量更小，速度较快。

举例来说，服务器通过下述公式(2)对该目标融合参数进行张量分解，得到该第一融合参数和该第二融合参数。

W_i＝U_i*V_i ^T(2)

其中，W_i为编号为i的目标融合参数，W∈R^n*m，U_i∈R^n*k，V_i∈R^m*k，k＜＜min(m，n)。也即是，在本申请实施例中，采用了两个低秩矩阵U和V去近似该高维矩阵W。

在介绍完服务器对目标融合参数进行张量分解，得到第一融合参数和第二融合参数的过程之后，下面对服务器获取目标融合参数的方法进行说明。

在一种可能的实施方式中，服务器获取样本视频和该样本视频的样本描述文本。服务器对该样本视频和该样本描述文本进行特征提取，得到该样本视频的第一样本语义特征和该样本描述文本的第二样本语义特征。服务器采用该目标融合参数将该第一样本语义特征和该第二样本语义特征进行融合，得到该样本视频的样本融合语义特征。服务器基于该样本融合语义特征，确定该样本视频的预测标签。服务器基于该样本视频的预测标签和该样本视频的标注标签之间的差异信息，对该目标融合参数进行更新。

举例来说，服务器从样本数据库中获取样本视频和样本视频的样本描述文本。服务器将样本视频输入视觉特征提取模型，通过该视觉特征提取模型对样本视频进行特征提取，得到该样本视频的第一样本语义特征。服务器将样本描述文本输入文本特征提取模型，通过该文本特征提取模型对样本描述文本进行特征提取，得到该样本描述文本的第二样本语义特征。服务器采用该目标融合参数将该第一样本语义特征和该第二样本语义特征进行融合，得到该样本视频的样本融合语义特征。服务器基于该样本融合语义特征，确定该样本视频的预测标签对应的预测值。服务器将该样本视频的预测标签对应的预测值和对应标注标签的标注值带入目标损失函数，通过目标损失函数来基于预测值与标注值之间的差值，对该目标融合参数进行更新。

比如，服务器通过下述公式(3)来基于该样本视频的预测标签和该样本视频的标注标签之间的差异信息，构建目标损失函数。

其中，loss为目标损失函数，x_k为编号为k的标签的预测值，y_k为编号为k的标签的标注值，n为标签的数量，||||₂为二范数。

需要说明的是，在确定标签的标注时时，能够根据标签的位置进行，也即是越靠前的标签对应的标注值越高。比如，样本视频的第一个标签的标注值为1，可以将该样本视频的第二个标签的标注值为0.8，每下降一位，标注值减少0.2，以此类推。

305、服务器对该融合语义特征进行全连接，得到多个候选标签对应的多个预测值。

其中，多个候选标签为技术人员根据实际情况设置的标签，或者为服务器从网络上收集的标签，本申请实施例对此不做限定。该多个候选标签存储在服务器上，技术人员能够对该多个候选标签进行扩充和删减，从而使得多个候选标签与视频更加适配。

在一种可能的实施方式中，服务器采用全连接矩阵与该融合语义特征相乘，将该融合语义特征映射为参考预测值序列，该参考预测值序列包括多个参考预测值，该多个参考预测值与该多个候选标签一一对应。服务器对该参考预测值序列进行归一化，得到预测值序列，该预测值序列包括多个预测值，该多个预测值与该多个候选标签一一对应。其中，服务器对该参考预测序列进行归一化的过程，也即是服务器采用归一化函数对该参考预测序列中的多个参考预测值进行归一化，从而得到多个预测值。在一些实施例中，该归一化函数为Softmax(软最大化)函数或者Sigmoid(S型生长)函数，本申请实施例对此不做限定。在一些实施例中，通过上述实施方式得到的预测值也可以被视作对应标签的概率。

306、服务器将该多个候选标签中预测值符合目标条件的候选标签确定为该目标视频的标签。

在一种可能的实施方式中，服务器按照预测值从大至小的顺序，对该多个候选标签进行排序。服务器将排序后该多个候选标签中前目标数量个候选标签，确定为该目标视频的标签。

其中，目标数量由技术人员根据实际情况进行设置，本申请实施例对此不做限定。目标数量越多，那么确定出的目标视频的标签数量也就越多；目标数量越少，那么确定出的目标视频的标签数量也就越少。

下面将结合图4以及上述步骤301-306中各个可选地实施方式，对本申请实施例提供的标签确定方法进行说明，参见图4，本申请实施例提供的标签确定方法通过三个单元来实现，该三个单元包括视听特征提取单元401、文本特征提取单元402以及特征融合单元403。其中，视听特征提取单元401用于提取该目标视频的第一语义特征，文本特征提取单元402用于提取该目标视频的第二语义特征，特征融合单元403用于将第一语义特征和第二语义特征进行融合，得到该目标视频的融合语义特征。服务器能够基于该融合语义特征确定该目标视频的标签以及标签对应的预测值。在一些实施例中，预测值越高，表示对应标签对于该目标视频的重要程度越高。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的一种标签确定装置的结构示意图，参见图5，装置包括：获取模块501、特征提取模块502、特征融合模块503以及标签确定模块504。

获取模块501，用于获取目标视频和该目标视频的描述文本。

特征提取模块502，用于对该目标视频和该描述文本进行特征提取，得到该目标视频的第一语义特征和该描述文本的第二语义特征。

特征融合模块503，用于采用第一融合参数和第二融合参数，将该第一语义特征和该第二语义特征进行融合，得到该目标视频的融合语义特征，该第一融合参数和该第二融合参数是分解目标融合参数进行所得到的参数，该目标融合参数为基于样本视频、样本视频的样本描述文本以及样本视频的标签训练得到的融合参数。

标签确定模块504，用于基于该融合语义特征，确定该目标视频的标签。

在一种可能的实施方式中，该特征提取模块502，用于将该目标视频输入视听特征提取模型，通过该视听特征提取模型对该目标视频进行特征提取，得到该目标视频的该第一语义特征。将该描述文本输入文本特征提取模型，通过该文本特征提取模型对该描述文本进行特征提取，得到该描述文本的该第二语义特征。

在一种可能的实施方式中，该特征提取模块502，用于执行下述任一项：

通过该视听特征提取模型，对该目标视频的图像和音频中的至少一项进行卷积、残差连接以及全连接，得到该目标视频的该第一语义特征。

通过该视听特征提取模型，基于注意力机制对该目标视频的图像和音频中的至少一项进行编码，得到该目标视频的该第一语义特征。

在一种可能的实施方式中，该特征提取模块502，用于通过该视听特征提取模型，对该目标视频的图像进行卷积、残差连接以及全连接，得到该目标视频的图像语义特征。

通过该视听特征提取模型，对该目标视频的音频进行卷积、残差连接以及全连接，得到该目标视频的音频语义特征。

将该图像语义特征和该音频语义特征进行融合，得到该目标视频的该第一语义特征。

在一种可能的实施方式中，该特征提取模块502，用于通过该视听特征提取模型，基于注意力机制对该目标视频的图像进行编码，得到该目标视频的图像注意力特征。

通过该视听特征提取模型，基于注意力机制对该目标视频的音频进行编码，得到该目标视频的音频注意力特征。

将该图像注意力特征和该音频注意力特征进行融合，得到该目标视频的该第一语义特征。

通过该文本特征提取模型对该描述文本进行序列编码，得到该目标视频的该第二语义特征。

通过该文本特征提取模型，基于注意力机制对该描述文本进行编码，得到该目标视频的该第二语义特征。

通过该文本特征提取模型对该描述文本进行嵌入编码，得到该目标视频的该第二语义特征。

在一种可能的实施方式中，该特征融合模块503，用于将该第一融合参数与该第一语义特征相乘，得到第一融合特征。将该第二融合参数与该第二语义特征相乘，得到第二融合特征。将该第一融合特征和该第二融合特征相乘，得到该目标视频的融合语义特征。

在一种可能的实施方式中，该标签确定模块504，用于对该融合语义特征进行全连接，得到多个候选标签对应的多个预测值。将该多个候选标签中预测值符合目标条件的候选标签确定为该目标视频的标签。

在一种可能的实施方式中，该标签确定模块504，用于按照预测值从大至小的顺序，对该多个候选标签进行排序。将排序后该多个候选标签中前目标数量个候选标签，确定为该目标视频的标签。在一种可能的实施方式中，该装置还包括：

分解模块，用于对该目标融合参数进行张量分解，得到该第一融合参数和该第二融合参数，该第一融合参数与该第二融合参数的转置的乘积为该目标融合参数。

在一种可能的实施方式中，该装置还包括：

目标融合参数获取模块501，用于获取样本视频和该样本视频的样本描述文本。对该样本视频和该样本描述文本进行特征提取，得到该样本视频的第一样本语义特征和该样本描述文本的第二样本语义特征。采用该目标融合参数将该第一样本语义特征和该第二样本语义特征进行融合，得到该样本视频的样本融合语义特征。基于该样本融合语义特征，确定该样本视频的预测标签。基于该样本视频的预测标签和该样本视频的标注标签之间的差异信息，对该目标融合参数进行更新。

需要说明的是：上述实施例提供的标签确定装置在确定标签时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的标签确定装置与标签确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图6是本申请实施例提供的一种终端的结构示意图。该终端600包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

通常，终端600包括有：一个或多个处理器601和一个或多个存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器601所执行以实现本申请中方法实施例提供的标签确定方法。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)701和一个或多个的存储器702，其中，所述一个或多个存储器702中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的标签确定方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述标签确定方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种标签确定方法，其特征在于，所述方法包括：

获取目标视频和所述目标视频的描述文本；

基于所述融合语义特征，确定所述目标视频的标签。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频和所述描述文本进行特征提取，得到所述目标视频的第一语义特征和所述描述文本的第二语义特征包括：

将所述目标视频输入视听特征提取模型，通过所述视听特征提取模型对所述目标视频进行特征提取，得到所述目标视频的所述第一语义特征；

将所述描述文本输入文本特征提取模型，通过所述文本特征提取模型对所述描述文本进行特征提取，得到所述描述文本的所述第二语义特征。

3.根据权利要求2所述的方法，其特征在于，所述通过所述视听特征提取模型对所述目标视频进行特征提取，得到所述目标视频的所述第一语义特征包括下述任一项：

4.根据权利要求3所述的方法，其特征在于，所述通过所述视听特征提取模型，对所述目标视频的图像和音频中的至少一项进行卷积、残差连接以及全连接，得到所述目标视频的所述第一语义特征包括：

通过所述视听特征提取模型，对所述目标视频的图像进行卷积、残差连接以及全连接，得到所述目标视频的图像语义特征；

5.根据权利要求3所述的方法，其特征在于，所述通过所述视听特征提取模型，基于注意力机制对所述目标视频的图像和音频中的至少一项进行编码，得到所述目标视频的所述第一语义特征包括：

通过所述视听特征提取模型，基于注意力机制对所述目标视频的图像进行编码，得到所述目标视频的图像注意力特征；

6.根据权利要求2所述的方法，其特征在于，所述通过所述文本特征提取模型对所述描述文本进行特征提取，得到所述描述文本的所述第二语义特征包括下述任一项：

7.根据权利要求1所述的方法，其特征在于，所述采用第一融合参数和第二融合参数，将所述第一语义特征和所述第二语义特征进行融合，得到所述目标视频的融合语义特征包括：

将所述第一融合参数与所述第一语义特征相乘，得到第一融合特征；

将所述第二融合参数与所述第二语义特征相乘，得到第二融合特征；

将所述第一融合特征和所述第二融合特征相乘，得到所述目标视频的融合语义特征。

8.根据权利要求1所述的方法，其特征在于，所述基于所述融合语义特征，确定所述目标视频的标签包括：

对所述融合语义特征进行全连接，得到多个候选标签对应的多个预测值；

将所述多个候选标签中预测值符合目标条件的候选标签确定为所述目标视频的标签。

9.根据权利要求8所述的方法，其特征在于，所述将所述多个候选标签中预测值符合目标条件的候选标签确定为所述目标视频的标签包括：

按照预测值从大至小的顺序，对所述多个候选标签进行排序；

将排序后所述多个候选标签中前目标数量个候选标签，确定为所述目标视频的标签。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述目标融合参数进行张量分解，得到所述第一融合参数和所述第二融合参数，所述第一融合参数与所述第二融合参数的转置的乘积为所述目标融合参数。

11.根据权利要求1所述的方法，其特征在于，所述目标融合参数的获取方法包括：

获取样本视频和所述样本视频的样本描述文本；

对所述样本视频和所述样本描述文本进行特征提取，得到所述样本视频的第一样本语义特征和所述样本描述文本的第二样本语义特征；

采用所述目标融合参数将所述第一样本语义特征和所述第二样本语义特征进行融合，得到所述样本视频的样本融合语义特征；

基于所述样本融合语义特征，确定所述样本视频的预测标签；

基于所述样本视频的预测标签和所述样本视频的标注标签之间的差异信息，对所述目标融合参数进行更新。

12.一种标签确定装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频和所述目标视频的描述文本；

13.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的标签确定方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的标签确定方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至权利要求11任一项所述的标签确定方法。