CN117688206A

CN117688206A - 内容标签的确定方法、装置、设备、存储介质及程序产品

Info

Publication number: CN117688206A
Application number: CN202211031417.5A
Authority: CN
Inventors: 杨煜霖; 马宇航; 陈世哲; 刘霄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2024-03-12

Abstract

本申请公开了一种内容标签的确定方法、装置、设备、存储介质及程序产品，涉及人工智能领域。包括：获取第一视频的第一视频文本以及第一视频帧；分别对第一视频文本与第一视频帧进行特征提取，得到第一文本特征与第一帧特征；基于第一帧特征在帧特征库中搜索召回，得到第一标签集，帧特征库中存储有第二帧特征与内容标签的对应关系；基于第一文本特征在文本特征库中搜索召回，得到第二标签集，文本特征库中存储有第二文本特征与内容标签的对应关系；基于第一标签集与第二标签集，确定第一视频的内容标签。本申请实施例提供的方法，将内容标签的识别过程转化为检索召回的过程，可快速支持识别新增内容标签，提高识别效率。

Description

内容标签的确定方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及人工智能领域，特别涉及一种内容标签的确定方法、装置、设备、存储介质及程序产品。

背景技术

为更好的实现视频推荐、审核以及搜索等功能，需对海量视频设置视频标签，使用户可通过视频标签获取到感兴趣的视频。其中，对于包含影视剧内容的视频，视频标签包含影视剧名称的标签，即内容标签。

相关技术中，计算机设备可利用视频分类模型对视频进行分类，得到视频中内容所属的内容标签。而利用视频分类模型对视频进行分类前，需针对各种内容标签对视频分类模型进行训练，使其具备识别各种内容标签的能力。

然而，采用上述方式较为复杂，当新增内容标签时，仍需对视频分类模型进行训练。

发明内容

本申请实施例提供了一种内容标签的确定方法、装置、设备、存储介质及程序产品，可快速支持识别新增的内容标签，提高识别效率。所述技术方案如下：

一方面，本申请实施例提供了一种内容标签的确定方法，所述方法包括：

获取第一视频的第一视频文本以及第一视频帧；

分别对所述第一视频文本与所述第一视频帧进行特征提取，得到第一文本特征与第一帧特征；

基于所述第一帧特征在帧特征库中搜索召回，得到第一标签集，所述帧特征库中存储有第二帧特征与内容标签的对应关系；

基于所述第一文本特征在文本特征库中搜索召回，得到第二标签集，所述文本特征库中存储有第二文本特征与内容标签的对应关系；

基于所述第一标签集与所述第二标签集，确定所述第一视频的内容标签。

另一方面，本申请实施例提供了一种内容标签的确定装置，所述装置包括：

获取模块，用于获取第一视频的第一视频文本以及第一视频帧；

提取模块，用于分别对所述第一视频文本与所述第一视频帧进行特征提取，得到第一文本特征与第一帧特征；

召回模块，用于基于所述第一帧特征在帧特征库中搜索召回，得到第一标签集，所述帧特征库中存储有第二帧特征与内容标签的对应关系；

所述召回模块，还用于基于所述第一文本特征在文本特征库中搜索召回，得到第二标签集，所述文本特征库中存储有第二文本特征与内容标签的对应关系；

确定模块，用于基于所述第一标签集与所述第二标签集，确定所述第一视频的内容标签。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的内容标签的确定方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的内容标签的确定方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的内容标签的确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，分别构建有文本特征库以及帧特征库，在文本特征库中存储有文本特征与内容标签之间的对应关系，而帧特征库中存储有帧特征与内容标签之间的对应关系。当识别视频内容对应的内容标签时，计算机设备利用待识别的第一视频的视频文本特征以及视频帧特征分别在文本特征库与帧特征库中搜索召回，得到第一视频可能对应的内容标签集合，最终根据内容标签集合确定第一视频的内容标签。该方式中，计算机设备将内容标签的识别过程转化为检索召回的过程，无需使用分类模型进行分类，在存在新增内容标签时，将内容标签与特征的对应关系存储至特征库中即可，无需重新训练分类模型，可快速支持识别新增内容标签，提高识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的内容标签的确定方法的原理示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一个示例性实施例提供的内容标签的确定方法的流程图；

图4示出了本申请另一个示例性实施例提供的内容标签的确定方法的流程图；

图5示出了本申请一个示例性实施例提供的多模态特征提取模块的示意图；

图6示出了本申请一个示例性实施例提供的搜索召回过程的示意图；

图7示出了本申请另一个示例性实施例提供的内容标签的确定方法的流程图；

图8示出了本申请一个示例性实施例提供的特征入库过程的流程图；

图9示出了本申请一个示例性实施例提供的内容标签的确定过程的结构示意图；

图10示出了本申请一个示例性实施例提供的文本特征提取过程的结构示意图；

图11示出了本申请一个示例性实施例提供的帧特征提取网络的训练结构示意图；

图12是本申请一个示例性实施例提供的内容标签的确定装置的结构框图；

图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像分割、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例涉及的内容标签的确定方法，即计算机视觉技术在视频内容识别领域的应用。

本申请实施例提供的方法，可应用于设置视频的内容标签过程中。其中，内容标签是指视频内容所属影视、综艺、动漫等IP作品的作品名称标签，也可称为IP标签。由于不断存在新增影视综艺等，内容标签也不断新增，因此，若采用视频分类模型进行分类，则需不断训练分类器，效率较低。本申请实施例提供一种内容标签的确定方法，可快速支持新增的内容标签。

示意性的，如图1所示，当获取第一视频101后，可获取第一视频101的第一视频文本以及第一视频帧，并对第一视频帧进行特征提取得到第一帧特征102，且对第一视频文本进行特征提取得到第一文本特征103，之后，计算机设备分别基于第一帧特征102在帧特征库中搜索召回，得到第一标签集104；基于第一文本特征103在文本特征库中搜索召回，得到第二标签集105。计算机设备可基于第一标签集104以及第二标签集105确定第一视频101的内容标签106。

本申请实施例提供的内容标签的确定方法可应用于视频标签***，视频标签***可采用本申请实施例提供的方法，对每个视频设置对应的内容标签。且视频标签***还可应用于视频处理的下游任务***中，下游任务***可包括视频分类***以视频推荐***。

其中，视频分类***可根据视频标签***对视频设置的内容标签进行分类，将具有相同内容标签的视频归类。视频推荐***可根据视频标签***对视频设置的内容标签进行视频推荐，比如，当用户根据内容标签搜索视频时，视频推荐***即可根据各个视频的内容标签进行视频推荐。即本申请实施例提供的方法，可应用于视频对应的内容标签的设置过程中。

在一种可能的场景中，可应用于短视频发布场景中，当用户在短视频平台上传创作短视频后，计算机设备可识别创作短视频中视频内容所属的内容标签，发布携带有内容标签的短视频。

在另一种可能的场景中，可应用于视频推荐场景。计算机设备可对批量视频进行识别，识别得到各个视频中视频内容所属的内容标签，从而将各个视频与对应的内容标签进行关联存储。后续在视频推荐过程中，当用户搜索与内容标签相关的视频时，可根据关联存储的视频进行推荐，提高推荐准确性。

上述仅对应用场景进行示意性说明，并不对此构成限定。本申请实施例提供的方法还可应用于其他任意需设置视频的内容标签的场景中。

图2示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端210和服务器220。其中，终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210可以为运行有视频播放发布等功能的程序的电子设备，该电子设备可以是智能手机、平板电脑、笔记本电脑、投影式电脑、台式计算机、智能电视、车载终端等等，本实施例并此不作限定。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选的，服务器220中包含帧特征库以及文本特征库，用于识别视频的内容标签。在一些实施例中，服务器220可从终端210处获取第一视频，通过内容标签识别功能，识别得到视频的内容标签(如识别得到“钢铁侠”)，并向终端210反馈，从而使终端210发布具有内容标签的第一视频。或者，在其他可能的实施方式中，服务器220也可在终端210处获取不同第一视频，并批量识别不同第一视频的内容标签，为视频进行标注，后续可用于视频推荐。

当然，在另一种可能的实施方式中，内容标签的确定过程也可由终端执行。为了方便表述，下述各个实施例以内容标签的确定方法由计算机设备执行为例进行说明，计算机设备可以为终端或服务器。

请参考图3，其示出了本申请一个示例性实施例提供的内容标签的确定方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，获取第一视频的第一视频文本以及第一视频帧。

其中，第一视频指待识别的视频。可选的，第一视频可为剪辑的短视频。

本申请实施例中，基于多模态特征对第一视频的内容标签进行识别，其中，多模态特征包含视频的文本特征以及视频帧特征。在一种可能的实施方式中，计算机设备获取第一视频后，首先提取第一视频的文本信息以及视频帧，得到第一视频文本与第一视频帧。

计算机设备可对第一视频进行抽帧处理，得到第一视频帧。在进行抽帧处理时，可均匀抽取视频帧。可选的，可基于固定时间间隔进行选取，比如，以1s为间隔抽取视频帧。或者，可基于固定帧数进行均匀抽取，比如，每个视频均匀抽取30帧。

而视频文本可包含多方面的文本信息，从而可提取丰富的语义信息。可选的，视频文本包含视频的标题文本、字幕文本以及语音文本。在一种可能的实施方式中，计算机设备可获取第一视频的视频标题，得到第一标题文本；且通过光学字符识别(OpticalCharacter Recognition，OCR)技术对抽帧处理得到的视频帧进行文本识别，得到第一视频的第一字幕文本；且计算机设备还可抽取第一视频的音频，并通过自动语音识别(Automatic Speech Recognition，ASR)技术将语音转化成文本，得到第一语音文本。即第一视频文本包含第一标题文本、第一字幕文本以及第一语音文本。

步骤302，分别对第一视频文本与第一视频帧进行特征提取，得到第一文本特征与第一帧特征。

在一种可能的实施方式中，计算机设备获取第一视频文本以及第一视频帧后，分别对第一视频文本与第一视频帧进行特征提取，得到第一文本特征以及第一帧特征。

可选的，计算机设备可通过文本特征提取网络对第一视频文本进行特征提取。其中，文本特征提取网络可采用bert-base结构，对第一标题文本、第一字幕文本以及第一语音文本进行特征提取，得到第一文本特征。或者，还可采用其他用于提取文本特征的模型结构，本实施例对此不做限定。

可选的，计算机设备可通过帧特征提取网络对第一视频帧进行特征提取。其中，帧特征提取网络可为视觉转换器(Vision Transformer，ViT)模型。在一种可能的实施方式中，可对提取得到的各个第一视频帧进行特征提取，得到各个第一视频帧的第一帧特征。或者，可对提取得到的部分第一视频帧进行特征提取，得到部分第一视频帧的第一帧特征。

步骤303，基于第一帧特征在帧特征库中搜索召回，得到第一标签集，帧特征库中存储有第二帧特征与内容标签的对应关系。

本申请实施例中，计算机设备中预先构建有帧特征库。在构建帧特征库中过程中，可获取待入库视频的视频帧，并对视频帧进行特征提取得到帧特征，从而将提取得到的帧特征与视频的内容标签存储至帧特征库中。其中，帧特征库中存储有第二视频的第二帧特征与第二视频对应的内容标签之间的对应关系。其中，第二视频是指已入库的视频。

在一种可能的实施方式中，计算机设备提取得到第一帧特征后，将第一帧特征与帧特征库中的第二帧特征进行特征匹配，从而基于特征匹配结果，确定第一标签集。其中，第一标签集中包含第一视频可能对应的内容标签，其根据第一视频的图像信息匹配得到。比如，当第一帧特征A与第二帧特征B匹配时，则第二帧特征B对应的内容标签可能同样为第一帧特征A对应的内容标签，可将其加入第一标签集。

可选的，可基于第一视频对应的各个第一帧特征与第二帧特征的匹配结果，确定第一标签集。

步骤304，基于第一文本特征在文本特征库中搜索召回，得到第二标签集，文本特征库中存储有第二文本特征与内容标签的对应关系。

相应的，计算机设备中预先建立有文本特征库，文本特征库与帧特征库组成多模态特征库。在构建文本特征库中过程中，可获取待入库视频的视频文本(包含标题文本、字幕文本以及语音文本等)，并对视频文本进行特征提取，得到文本特征。之后，可将文本特征与视频的内容标签到的对应关系存储至文本特征库中。其中，文本特征库中存储有第二视频的第二文本特征与第二视频的内容标签之间的对应关系。

在一种可能的实施方式中，计算机设备提取得到第一文本特征后，将第一文本特征与文本特征库中的第二文本特征进行特征匹配，基于特征匹配结果，得到第二标签集。其中，第二标签集中包含第二视频可能对应的内容标签，根据第一视频的文本信息匹配得到。

而由于影视剧等在不断新增，因此，内容标签也同时在不断新增。当新增有内容标签时，计算机设备可获取与新增内容标签相关的新增视频，并对新增视频的视频帧与视频文本进行特征提取，得到新增帧特征以及新增文本特征，从而分别将新增帧特征与新增内容标签的对应关系存储至帧特征库中，并将新增文本特征与新增内容标签的对应关系存储至文本特征库中。

由于多模态特征库中已经存在新增内容标签与特征之间的对应关系，因此，可实现对新增内容标签的识别。即本申请实施例提供的方案中，当存在新增内容标签时，仅需将新增内容标签与特征之间的对应关系存储至多模态特征库中即可。而相关技术中通过视频分类模型分类的方案，若需使模型具备识别新增内容标签的能力，还需使用新增内容标签与对应的新增视频对模型重新进行训练，而由于内容标签在持续新增，采用相关技术中方案需对视频分类模型进行不断训练，效率较低。而本申请实施例提供的方案，由于仅需新增内容标签与特征之间的对应关系存储至多模态特征库中，因此，可快速支持识别新增内容标签，有助于提高标签的识别效率。

步骤305，基于第一标签集与第二标签集，确定第一视频的内容标签。

在一种可能的实施方式中，当获取第一标签集以及第二标签集后，可从其中筛选得到第一视频的内容标签。

且在识别得到第一视频的内容标签后，计算机设备还可确定与内容标签相关系列标签，从而得到第一视频的其他标签。比如，当识别到第一视频的内容标签为“钢铁侠”后，还可进一步将“复仇者联盟”、“钢铁侠系列”等作为第一视频的标签。

本申请实施例中，基于第一帧特征在帧特征库中搜索召回，得到第一标签集。且基于第一文本特征在文本特征库中搜索召回，得到第二标签集。下面，将对搜索召回得到第一标签集以及第二标签集的方式进行示例性说明。

请参考图4，其示出了本申请另一个示例性实施例提供的内容标签的确定方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤401，获取第一视频的第一视频文本以及第一视频帧。

步骤402，分别对第一视频文本与第一视频帧进行特征提取，得到第一文本特征与第一帧特征。

其中，步骤401与步骤402的实施方式可参考上述实施例中步骤301与步骤302，本实施例不再赘述。

在一种可能的实施方式中，计算机设备中包含多模态特征提取模块，将第一视频输入多模态特征提取模块，可提取得到第一视频的第一文本特征以及第一帧特征。其中，多模态特征提取模块提取特征过程可如图5所示。将第一视频501输入至多模态特征提取模块502之后，多模态特征提取模块502中音频抽取模块503将抽取第一视频501的音频，并利用ASR模块504对音频进行转换，得到第一语音文本505，且利用抽帧模块506对第一视频501进行抽帧处理，得到第一视频帧，之后，利用OCR模块507对第一视频帧进行文字识别，得到第一字幕文本508，之后，将第一语音文本505、第一字幕文本508以及获取的第一标题文本509输入至文本特征提取网络510进行特征提取，得到第一文本特征511；且将第一视频帧输入帧特征提取网络512进行特征提取，得到第一帧特征513。

步骤403，将第一帧特征与帧特征库中的第二帧特征进行特征匹配，得到至少一个候选帧特征。

其中，候选帧特征是指与第一帧特征相似的第二帧特征。当基于第一帧特征在帧特征库中搜索召回时，计算机设备将第一帧特征与第二帧特征进行特征匹配，在第二帧特征中匹配得到与第一帧特征相似的候选帧特征。在一种可能的实施方式中，该步骤包含步骤403a-403b(图中未示出)：

步骤403a，在第二帧特征中匹配第一帧特征对应的匹配帧特征，匹配帧特征与第一帧特征的匹配度高于其他帧特征与第一帧特征的匹配度。

在一种可能的实施方式中，计算机设备计算第一帧特征与各个第二帧特征之间的特征匹配度，并将匹配度最高的第二帧特征确定为第一帧特征的匹配帧特征。其中，可通过计算第一帧特征与第二帧特征的特征向量之间的向量相似度，得到特征之间的匹配度，向量相似度即为向量之间的余弦相似度。即计算机设备计算第一帧特征与各个第二帧特征的余弦相似度，并将top1的第二帧特征确定为第一帧特征的匹配帧特征。可选的，可利用索引工具Faiss检索第一帧特征的匹配帧特征。

且对于第一视频的各个第一视频帧，计算机设备检索得到各个第一视频帧对应的第二帧特征。示意性的，如图6所示，计算机设备在第一视频中均匀抽取30帧，之后对30帧第一视频帧进行帧特征提取，得到各个第一视频帧对应的第一帧特征601(包括帧特征1，帧特征2，…，帧特征30)。在搜索召回时，计算机设备可分别检索得到与各个第一帧特征匹配度最高的匹配帧特征，得到30个匹配帧特征602。

步骤403b，在匹配帧特征的匹配度大于第一匹配度阈值的情况下，将匹配帧特征确定为候选帧特征。

由于各个匹配帧特征仅是第二帧特征中与第一帧特征匹配度最高的帧特征，其有可能与第一帧特征的相似度并不高，比如，匹配度最高的帧特征与第一帧特征的向量相似度为50％，其对应的内容标签为第一视频对应内容标签的概率较低。因此，在一种可能的实施方式中，在检索到各个第一帧特征对应的匹配帧特征后，为进一步提高检索准确性，将匹配帧特征中与第一帧特征的匹配度高于第一匹配阈值的帧特征确定为候选帧特征。

即计算机设备确定各个匹配帧特征与对应第一帧特征的匹配度，在匹配度大于或等于第一匹配度阈值时，即可将匹配帧特征确定为与第一帧特征相似的候选帧特征。示意性的，第一匹配度阈值可为0.9。示意性的，当第一帧特征A与对应的匹配帧特征B的向量相似度为95％时，即可将匹配帧特征B确定为候选帧特征，而当第一帧特征C与对应的匹配帧特征D的向量相似度为80％时，则将匹配帧特征D过滤。

步骤404，基于候选帧特征对应的第一内容标签，确定第一标签集。

其中，基于第一帧特征在帧特征库中筛选得到的内容标签为第一内容标签。当计算机设备匹配得到至少一个候选帧特征后，根据至少一个候选帧特征对应的内容标签，确定第一标签集。

在一种可能的实施方式中，可将至少一个候选帧特征中各个候选帧特征对应的内容标签添加至第一标签集。而各个候选帧特征对应的第一内容标签可能相同，也可能不同，其中，不同第一内容标签的重复频率并不相同。当重复频率较低(比如，第一内容标签仅出现一次)时，其为第一视频的内容标签的概率也较低，因此，为提高识别内容标签的准确性，在另一种可能的实施方式中，当得到各个候选帧特征对应的第一内容标签后，还可根据各个第一内容标签的重复频率，在第一内容标签中进行筛选，得到第一标签集。

可选的，在第一内容标签的重复频率大于第一频率阈值的情况下，将第一内容标签添加至第一标签集。

其中，第一频率阈值可为第一内容标签在所有第一内容标签中重复次数阈值，比如，可为6。当候选帧特征对应的第一内容标签在所有候选帧特征对应的第一内容标签中重复6次及以上时，可将其添加至第一标签集。

示意性的，当检索到候选帧特征包含15个第二帧特征，且15个第二帧特征对应的内容标签分别包含8个内容标签A，6个内容标签B以及1个内容标签C时，可将内容标签A与内容标签B添加至第一标签集。

如图6所示，在得到各个匹配帧特征后，可首先基于匹配度(score)进行过滤，得到候选帧特征，在基于各个候选帧特征对应的内容标签(tag)的重复频率过滤，得到第一标签集603。

步骤405，将第一文本特征与文本特征库中的第二文本特征进行特征匹配，得到与第一视频匹配的至少一个候选视频，文本特征库中存储有第二文本特征与第二视频之间的对应关系。

其中，每个视频对应一条文本特征。在文本特征库中存储有第二文本特征与其对应的第二视频之间的对应关系。

当基于第一文本特征在文本特征库中搜索召回时，将第一文本特征与文本特征库中第二文本特征进行特征匹配，在第二文本特征中匹配得到与第一文本特征相似的匹配文本特征，从而根据匹配文本特征筛选得到与第一视频匹配的候选视频。在一种可能的实施方式中，该方式可包括步骤405a-405b(图中未示出)：

步骤405a，在第二文本特征中匹配第一文本特征对应的至少一个匹配文本特征。

在一种可能的实施方式中，计算机设备可计算第一文本特征与文本特征库中各个第二文本特征之间的向量相似度，根据各个第二文本特征与第一文本特征之间的向量相似度进行排序，从而得到排序在前的第二文本特征，可将排序在前的K个第二文本特征确定为匹配文本特征。比如，可将排序在top10的第二文本特征确定为第一文本特征的匹配文本特征。

如图6所示，在文本特征提取后，得到第一文本特征604。在搜索召回时，计算机设备可检索得到与第一文本特征匹配的前10个匹配度最高的匹配文本特征605。

步骤405b，在匹配文本特征的匹配度大于第二匹配阈值的情况下，将匹配文本特征对应的第二视频确定为候选视频。

在排序在前的K个第二文本特征中，同样可能存在与第一文本特征相似度并不高的文本特征，其对应的第二视频与第一视频并不匹配。因此，在一种可能的实施方式中，在检索到第一文本特征对应的匹配文本特征后，再基于匹配文本特征与第一文本特征之间的匹配度进行二次筛选。可选的，计算机设备可筛选得到匹配度大于第二匹配阈值的匹配文本特征，并将对应的第二视频确定为与第一视频匹配的候选视频。

示意性的，第二匹配阈值可为0.5。匹配文本特征A与第一文本特征B之间的相似度大于50％时，则可将匹配文本特征A对应的第二视频A确定为候选视频。

步骤406，基于候选视频对应的第二内容标签，确定第二标签集。

其中，基于第一文本特征在文本特征库中筛选得到的内容标签为第二内容标签。在一种可能的实施方式中，可将候选视频对应的第二内容标签均添加至第二标签集。

而在另一种可能的实施方式中，可根据第二内容标签的重复频率，对第二内容标签进行筛选。其中，在第二内容标签的重复频率大于第二频率阈值的情况下，将第二内容标签添加至第二标签集。

可选的，第二频率阈值可为第二内容标签在所有第二内容标签中重复次数阈值，比如，可为5。当候选视频对应的第二内容标签在所有候选帧特征对应的第一内容标签中重复5次及以上时，可将其添加至第二标签集。

如图6所示，在得到各个匹配文本特征后，可首先基于匹配度(score)进行过滤，得到候选视频，在基于各个候选视频对应的内容标签(tag)的重复频率过滤，得到第二标签集606。

步骤407，基于第一标签集与第二标签集，确定第一视频的内容标签。

当获取到第一标签集以及第二标签集后，可基于第一标签集与第二标签集的交集，确定第一视频的内容标签。

本实施例中，计算机设备基于特征在特征库中搜索召回时，首先筛选得到与特征相似的前K个特征，再基于向量相似度进行二次筛选，提高匹配准确性，且二次筛选后，再根据各个内容标签的重复频率进行筛选，得到第一视频可能对应的内容标签集，提高识别内容标签的准确性。

在一种可能的情况下，计算机设备搜索召回的第一标签集与第二标签集可能分别包含基于高准确率召回的标签集与基于高召回率召回的标签集。根据第一标签集与第二标签集确定内容标签时，需分别基于高准确率召回的标签集与高召回率召回的标签集确定第一视频对应的内容标签。下面将以示例性实施例进行说明。

请参考图7，其示出了本申请另一个示例性实施例提供的内容标签的确定方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤701，获取第一视频的第一视频文本以及第一视频帧。

步骤702，分别对第一视频文本与第一视频帧进行特征提取，得到第一文本特征与第一帧特征。

本步骤实施方式可参考上述步骤301与步骤302，本实施例在此不再赘述。

步骤703，基于第一帧特征在帧特征库中搜索召回，得到第一高准确标签集。

其中，在帧特征库中进行搜索召回时，可基于不同标准召回得到不同的第一标签集。在一种可能的实施方式中，可分别基于高准确率与高召回率进行搜索召回。可选的，按照高准确率标准，基于第一帧特征在帧特征库中搜索召回，得到第一高准确标签集。即第一高准确标签集是以高准确率为目标，在帧特征库中搜索召回得到的标签集。

步骤704，基于第一帧特征在帧特征库中搜索召回，得到第一高召回标签集。

可选的，按照高召回率标准，基于第一帧特征在帧特征库中搜索召回，得到第一高召回标签集。即第一高召回标签集是以高召回率为目标，在帧特征库中搜索召回得到的标签集。其中，第一高准确标签集的内容标签准确率高于第一高召回标签集的内容标签准确率，且第一高准确标签集的内容标签数量少于第一高召回标签集的内容标签数量。即按照高准确率标准召回得到的标签集中标签较少且准确率高，而按照高召回率标准召回得到的标签集中标签数量多但是准确率较低。

在一种可能的实施方式中，基于第一帧特征在帧特征库中搜索召回时，分别基于第一匹配度阈值与第一频率阈值进行筛选。因此，在召回得到第一高准确标签集时，为提高召回标签的准确性，可采用高阈值进行过滤，即可采用第一高匹配度阈值以及第一高频率阈值进行筛选过滤。

计算机设备首先匹配得到各个第一帧特征对应的匹配帧特征，再基于第一高匹配度阈值在匹配帧特征中筛选得到候选帧特征，对应候选帧特征对应的第一内容标签，再基于第一高频率阈值进行筛选，得到第一高准确标签集。

示意性，第一高匹配度阈值可为0.9，第一高频率阈值可为6。

而在召回得到第一高召回标签集时，为召回更多标签，可采用低阈值进行过滤，即可采用第一低匹配度阈值以及第一低频率阈值进行筛选过滤，其中，第一低匹配度阈值低于第一高匹配度阈值，第一低频率阈值低于第一高频率阈值。

示意性的，第一低匹配度阈值可为0.5，第一低频率阈值可为4。

步骤705，基于第一文本特征在文本特征库中搜索召回，得到第二高准确标签集。

相应的，在文本特征库中进行搜索召回时，可基于不同标准召回得到不同的第二标签集。在一种可能的实施方式中，可分别基于高准确率与高召回率进行搜索召回。可选的，按照高准确率标准，基于第一文本特征在文本特征库中搜索召回，得到第二高准确标签集。即第二高准确标签集是以高准确率为目标，在文本特征库中搜索召回得到的标签集。

步骤706，基于第一文本特征在文本特征库中搜索召回，得到第二高召回标签集。

可选的，按照高召回率标准，基于第一文本特征在文本特征库中搜索召回，得到第二高召回标签集。即第二高召回标签集是以高召回率为目标，在文本特征库中搜索召回得到的标签集。可选的，第二高准确标签集的内容标签准确率高于第二高召回标签集的内容标签准确率，且第二高准确标签集的内容标签数量少于第二高召回标签集的内容标签数量。

在文本特征库中进行搜索召回时，基于第二匹配度阈值以及第二频率阈值进行筛选过滤。与在帧特征库中搜索召回类似，在按照高准确率标准召回时，可以第二高匹配度阈值以及第二高频率阈值进行筛选过滤，而按照高召回率标准召回时，可以第二低匹配度阈值以及第二低频率阈值进行筛选过滤，其中，第二低匹配度阈值低于第二高匹配度阈值，第二低频率阈值低于第二高频率阈值。

示意性的，第二高匹配度阈值为0.8，第二高频率阈值为5；第二低匹配度阈值为0.5，第二低频率阈值为3。

步骤707，将属于第一高准确标签集的内容标签、属于第二高准确标签集的内容标签、以及属于第一高召回标签集与第二高召回标签集的交集的内容标签，确定为第一视频的内容标签。

可选的，第一标签集包括第一高准确标签集与第一高召回标签集。第二标签集包括第二高准确标签集与第二高召回标签集。

当基于第一标签集与第二标签集确定第一视频的内容标签时，计算机设备确定属于第一高准确标签集内的内容标签、属于第一高召回标签集内的内容标签、以及第二高准确标签集以及第二高召回标签集的交集的内容标签，确定为第一视频的内容标签。即将属于以下三个集合的并集内的内容标签，确定为第一视频的内容标签。三个集合包括：第一高准确标签集；第二高准确标签集；第一高召回标签集与第二高召回标签集的交集。

或者，在另一种可能的实施方式中，还可确定第一高准确标签集、第二高准确标签集、第一高召回标签集以及第二高召回标签集四个集合的交集，将属于四个集合交集的内容标签确定为第一视频的内容标签，提高标签识别准确性。

本实施例中，在特征库中进行搜索召回时，可分别按照不同标准召回得到高准确率的标签集与高召回率的标签集，之后，基于高准确率的标签集与高召回率的标签集确定第一视频的内容标签，一方面，可提高召回标签的丰富性，尽可能识别得到第一视频可能对应的所有内容标签，另一方面，可提高召回标签的准确性。

上述实施例中，基于帧特征库以及文本特征库进行搜索召回，得到第一视频可能对应的内容标签集。而在帧特征库与文本特征库的构建过程中，由于包含海量特征，因此，在特征入库时，需进行去重优化过程，减少特征库内特征冗余问题，从而有助于减少检索量。其中，特征入库过程可包括如下步骤：

步骤801，获取第三视频的第三视频文本以及第三视频帧，第三视频是已标注的视频。

其中，第三视频是指待入库的视频。在建库过程中，对于每个第三视频，均已标注其视频内容对应的内容标签，之后，计算机设备可将第三视频的帧特征、文本特征以及内容标签的对应关系，存储至对应的特征库中。在一种可能的实施方式中，可根据对应关系，构建三元组[vid，特征，内容标签]，以三元组的方式存储在特征库中。其中，vid是指视频标识，用于标识唯一视频。计算机设备在建库过程中，获取到海量视频时，对每个视频设置视频标识。可选的，视频标识可为通用唯一标示符(universally unique identifier，uuid)。

当获取到第三视频时，计算机设备可首先获取第三视频的第三视频文本以及第三视频帧，以便提取第三视频的文本特征以及帧特征。其中，获取第三视频文本以及第三视频帧的方式可参考获取第一视频文本以及第一视频的方式，本实施例不再赘述。

在建库过程中，待入库的第三视频可能是对多个影视作品的混剪视频，相应的，其包含多个内容标签，而该类视频在进行特征入库时，可能存在特征与内容标签不对应的情况，因此，在特征入库时，首先进行标签去重过程。即根据第三视频对应的内容标签数量，对第三视频进行筛选。

可选的，在第三视频的内容标签数量小于数量阈值的情况下，获取第三视频的第三视频文本以及第三视频帧。

即将内容标签数量大于数量阈值的第三视频进行过滤，仅保留内容标签数量小于或等于数量阈值的第三视频。计算机设备可获取该类第三视频的第三视频文本以及第三视频帧。

可选的，数量阈值可为1。即仅在第三视频对应单个内容标签时，才将第三视频对应的特征入库。即特征库中的各个第二视频仅对应一个内容标签。

步骤802，分别对第三视频文本以及第三视频帧进行特征提取，得到第三文本特征以及第三帧特征。

在一种可能的实施方式中，可采用文本特征提取网络对第三视频文本进行特征提取，得到第三文本特征，且可采用帧特征提取网络对第三视频帧进行特征提取，得到第三帧特征。

其中，建库过程中，特征提取所采用的特征提取网络与在线识别第一视频的内容标签过程中，特征提取所采用的特征提取网络相同，均采用同一文本特征提取网络与同一帧特征提取网络。

步骤803，将第三文本特征与第三视频以及第三视频的内容标签的对应关系存储至文本特征库中。

在一种可能的实施方式中，当提取到第三文本特征后，可将第三视频、第三文本特征以及第三视频的内容标签之间的对应关系存储至文本特征库中。可选的，可以三元组的方式进行存储。示意性的，当第三视频vid_j的文本特征为文本特征1，且对应的内容标签为“蜘蛛侠”时，可构建三元组[vid_j，文本特征1，蜘蛛侠]，并将其存储至文本特征库中。

为避免文本特征库中特征冗余，在将文本特征入库过程中，将进行文本特征去重过程。由于一条视频对应一个文本特征，因此，文本特征去重过程仅需考虑特征库中是否存在与第三视频重复的第二视频即可。

可选的，在文本特征库中不包含与第三视频重复的第二视频的情况下，将第三文本特征与第三视频以及第三视频的内容标签的对应关系存储至文本特征库中。

其中，计算机设备可根据视频标识vid判断文本特征库中是否存在与第三视频重复的第二视频，在不包含重复的第二视频的情况下，可将第三视频对应的第三文本特征入库。

步骤804，将第三帧特征与第三视频的内容标签的对应关系存储至帧特征库中。

在一种可能的实施方式中，当提取到第三帧特征后，计算机设备可将第三帧特征以及第三视频的内容标签之间的对应关系存储至帧特征库中。或者，进一步的，可将第三视频、第三帧特征以及第三视频的内容标签之间的对应关系存储至帧特征库中。可选的，计算机设备可以三元组的方式进行存储。示意性的，当第三视频vid_i的帧特征为帧特征1，且对应的内容标签为“钢铁侠”时，可构建三元组[vid_i，帧特征1，钢铁侠]，并将其存储至帧特征库中。

为避免帧特征库中特征冗余，在将帧特征入库过程中，将进行帧特征去重过程。由于一条视频对应多个帧特征，因此，帧特征去重过程中，需在已入库的第二帧特征中检索是否存在与第三帧特征的相似帧特征。当存储相似帧特征时，需对其过滤。

可选的，在帧特征库中不存在相似帧特征的情况下，将第三帧特征与第三视频的内容标签的对应关系存储至帧特征库中，相似帧特征与第三帧特征的相似度大于相似度阈值。

计算机设备可计算第三帧特征与帧特征库中各个第二帧特征之间的向量相似度。当向量相似度大于相似度阈值时，对第三帧特征进行过滤，而当向量相似度小于相似度阈值时，将第三帧特征与第三视频的内容标签的对应关系存储至帧特征库中。其中，相似度阈值可为80％。

步骤805，获取帧特征库与文本特征库中各个特征的特征匹配量以及特征准确率。

对于特征库中的特征，除在入库过程中进行去重优化以外，还可定期对特征库内已入库的特征进行全量的去重优化。在一种可能的实施方式中，可将匹配率较低的特征进行退库，或，将匹配率较高但召回检索错误的特征进行退库。计算机设备可每隔目标周期，获取帧特征库与文本特征库中各个特征的特征匹配量以及特征准确率。其中，特征匹配量是指特征被匹配为匹配特征的次数。可选的，第二帧特征的特征匹配量即为第二帧特征为第一帧特征的匹配帧特征的次数；文本特征的特征匹配量即为第二文本特征为第一文本特征的匹配文本特征的次数。特征准确率是指基于特征库中特征召回得到的内容标签为第一视频的真实内容标签的概率。

步骤806，在特征的特征匹配量低于第一匹配量阈值的情况下，删除特征。

在一种可能的实施方式中，计算机设备可统计目标时间内各个特征的特征匹配量，当特征匹配量低于第一匹配量阈值的时，删除特征库中对应特征。可选的，第一匹配量阈值可为匹配次数，比如，可为20。目标时间可为7天。

在另一种可能的实施方式中，计算机设备可统计目标时间内各个特征的特征匹配量并进行排序，将排序在末端的特征进行删除。比如，将排序在末端的1％的特征进行删除。

步骤807，在特征的特征匹配量高于第二匹配量阈值且特征准确率低于准确率阈值的情况下，删除特征。

当特征匹配量高于第二匹配量阈值时，特征与第一视频的特征匹配率较高，即基于特征对应的内容标签召回的次数较多。计算机设备还可统计各个特征与对应的内容标签与第一视频真实内容标签相符的次数占总次数的比值，得到特征准确率。示意性的，当第二帧特征对应的内容标签被预测为第一视频的内容标签的次数为20次，而其对应的内容标签为第一视频的真实标签的次数为15次时，确定其特征准确率为75。

当特征准确率低于准确率阈值时，表示特征可能与内容标签不符，因此，将特征库中特征进行删除。可选的，准确率阈值可为50％。

示意性的，图9是本申请实施例提供的内容标签的确定方法的结构图。其中，包含离线阶段与在线阶段。其中，在线阶段识别第一视频的内容标签过程中，首先利用特征提取层901对第一视频进行特征提取，其中，首先利用数据装载工具(Extract-Transform-Load，ETL)对第一视频进行处理，得到视频帧以及视频文本，再分别利用特征提取网络进行帧特征提取以及文本特征提取。之后，召回层902分别进行帧特征搜索召回得到第一标签集，且进行文本特征搜索召回得到第二标签集，再将第一标签集与第二标签集输入排序层903中进行排序过滤，得到最终第一视频的内容标签。其中，过滤过程即根据第一高准确标签集、第二高准确标签集、第一高召回标签集与第二高召回标签集的交集进行过滤，且过滤后的标签可根据各个标签对应特征的匹配度进行排序，得到排序过滤后的内容标签。

且离线阶段中，可根据业务回流人审数据构建特征库。在一种可能的实施方式中，计算机设备可根据业务回流人审数据确定待入库的第三视频与内容标签之间的对应关系，之后，利用特征提取层对第三视频进行特征提取，其中，特征提取过程与在线阶段中对第一视频的提取过程相同，之后，计算机设备可根据提取得到的特征对特征库904进行扩库。在线阶段的召回层即可利用特征库进行搜索召回。且计算机设备还对特征库定期进行去重优化，减少特征冗余。

本实施例中，在特征入库过程中，可进行标签去重、文本特征去重以及帧特征去重过程，减少特征库中特征冗余；且还可定期对特征库中部分匹配率较低的特征以及不准确的特征进行退库，删除特征库中不必要的特征，从而减少特征库中特征量。

其中，在多模态特征提取过程中，文本特征由文本特征提取网络对视频文本提取得到。可选的，文本特征提取网络的网络结构可为bert-base结构。在一种可能的实施方式中，计算机设备首先需对文本特征提取网络进行训练。训练过程可包括如下步骤：

步骤一、获取样本视频的样本文本，样本视频是已标注的视频。

首先，计算机设备获取百万级别的短视频作为样本视频。训练样本中，包含3万内容标签量，每个内容标签对应有35个视频。对于每个样本视频，计算机设备可获取样本视频的样本文本，其中，样本文本由标题文本、语音文本以及字幕文本拼接得到。获取样本的标题文本、语音文本以及字幕文本的方式可参考上述实施例，本实施例不再赘述。

步骤二、通过文本特征提取网络对样本文本进行特征提取，得到预测文本特征。

在一种可能的实施方式中，对标题文本、语音文本以及字幕文本拼接过程中，文本头可增加[cls]字符，标题文本，语音文本，字幕文本之间由[sep]字符连接，对于长度不足够512的文本，在文本末尾拼接[pad]字符直至达到512字符。而对于长度大于512的文本，将统一截断为512字符的长度。示意性的，如图10所示，在文本头添加有[cls]字符1001，且在标题文本、语音文本以及字幕文本之间通过[sep]字符1002连接，在末尾拼接有N个[pad]字符1003。

之后，将拼接好的文本输入嵌入(embedding)层进行处理，将每个字符转化为一个稠密向量，得到512个输入的embedding向量。之后，将512个embedding向量输入至文本特征提取网络进行特征编码，得到512个输出embedding，之后，将第一位[cls]字符对应的embedding作为文本特征提取网络的输出，得到预测文本特征。

如图10所示，经过embedding层后，得到各个字符对应的embedding向量1004，再将embedding向量1004输入文本特征提取网络1005进行特征编码，得到512个输出的embedding向量(包含feature_0-feature_511)。其中，将第一位[cls]字符对应的特征编码结果feature_0即为预测文本特征。

步骤三、将预测文本特征输入分类器进行分类，得到样本视频的预测内容标签。

其中，分类器可为一层全连接层。将预测文本特征输入一层全连接层进行编码，得到预测文本特征对应的各个内容标签的概率，从而得到样本视频的预测内容标签。

示意性的，如图10所示，将预测文本特征feature_0经过一层全连接层FC的编码得到logits，其中，logits的维度为3万，即包含的内容标签的类别数。

步骤四、基于预测内容标签与样本视频的真实内容标签之间的多标签分类损失，对文本特征提取网络与分类器进行更新训练。

在一种可能的实施方式中，利用多标签分类损失对文本特征提取网络与分类器进行更新训练。多标签分类损失函数如下：

其中，O即为提取得到的logits，t即为样本视频的ground truth标签。

当损失函数收敛时，可停止训练。

训练完成的文本特征提取网络可用于提取视频的文本特征，在提取过程中，与训练过程中相同，将文本特征提取网络输出的第一位[cls]字符对应的embedding作为提取得到的文本特征。

且训练完成分类器同样具有识别内容标签的能力，其可根据提取得到的文本特征预测得到视频对应的内容标签。因此，在一种可能的实施方式中，可预先利用分类器识别第一视频的内容标签。即提取得到第一视频的第一文本特征之后，计算机设备将第一文本特征输入分类器进行分类，得到参考内容标签。

可选的，分类器可输入第一视频文本对应各个内容标签的预测概率，在预测概率大于概率阈值的情况下，将内容标签确定为参考内容标签。可选的，概率阈值可为80％。

在得到参考内容标签后，计算机设备可基于参考内容标签对特征库中特征进行初步筛选，从而有助于减少检索量，提高识别效率。对于帧特征库，该方式可包括如下步骤：

步骤一、基于参考内容标签在帧特征库中进行筛选，得到参考内容标签对应的候选第二帧特征。

在一种可能的实施方式中，计算机设备确定帧特征库中参考内容标签对应的候选第二帧特征。示意性的，参考内容标签中包含内容标签A，在帧特征库中，内容标签A对应的第二帧特征包含100个，则可将对应的100个第二帧特征确定为候选第二帧特征。

步骤二、基于第一帧特征与候选第二帧特征的特征匹配结果，确定第一标签集。

当得到候选第二帧特征后，计算机设备可将第一帧特征与候选第二帧特征中包含的各个第二帧特征进行特征匹配，得到至少一个候选帧特征，再基于至少一个候选帧特征对应的第一内容标签，确定第一标签集。

即在候选第二帧特征中匹配第一帧特征对应的匹配帧特征，再利用第一匹配度阈值对匹配帧特征进行筛选，得到候选帧特征；再利用第一频率阈值对候选帧特征对应的第一内容标签进行过滤，得到第一标签集。其中，具体匹配过程以及利用第一匹配度阈值与第一频率阈值进行筛选的过程可参考上述步骤403-404，本实施例不再赘述。

相应的，对于文本特征库，该方式可包括如下步骤：

步骤一、基于参考内容标签在文本特征库中进行筛选，得到参考内容标签对应的候选第二文本特征。

在一种可能的实施方式中，计算机设备确定文本特征库中参考内容标签对应的候选第二文本特征。示意性的，参考内容标签中包含内容标签A，在文本特征库中，内容标签A对应的第二文本特征包含50个，则可将对应的50个第二文本特征确定为候选第二帧特征。

步骤二、基于第一文本特征与候选第二文本特征的特征匹配结果，确定第二标签集。

当得到候选第二文本特征后，计算机设备可第一文本特征与候选第二文本特征中包含的各个第二文本特征进行特征匹配，得到与第一视频匹配的至少一个候选视频，再基于候选视频对应的第二内容标签，确定第二标签集。

即在候选第二文本特征中匹配第一文本特征对应的匹配文本特征，再利用第二匹配度阈值对匹配文本特征进行筛选，得到候选视频；再利用第二频率阈值对候选视频对应的第二内容标签进行过滤，得到第二标签集。其中，具体匹配过程以及利用第二匹配度阈值与第二频率阈值进行筛选的过程可参考上述步骤405-406，本实施例不再赘述。

本实施例中，通过多标签分类损失对文本特征提取网络以及分类器进行训练，提高文本特征提取能力。且在识别过程中，采用分类器首先基于第一文本特征得到参考内容标签，再基于参考内容标签在特征库中进行搜索召回，减少检索量，有助于提高识别效率。

可选的，帧特征由帧特征提取网络对视频帧提取得到。在一种可能的实施方式中，计算机设备首先需对帧特征提取网络进行训练。训练过程可包括如下步骤：

步骤一、获取样本图片。

在一种可能的实施方式中，可获取任意千万级图片，可包含场景、人物、人物动作等。或者，在另一种可能的实施方式中，也可获取不同视频提取得到不同视频帧作为样本图片，对帧特征提取网络进行训练。

步骤二、通过第一帧特征提取网络对第一样本图片进行特征提取，得到第一样本帧特征。

在一种可能的实施方式中，采用无监督方式对帧特征提取网络进行训练。可选的，训练结构可采用moco-v3，其中包含第一帧特征网络以及第二帧特征网络。可选的，可由第一帧特征网络对第一样本图片进行特征提取，得到第一样本帧特征。

步骤三、通过第二帧特征提取网络对第二样本图片进行特征提取，得到第二样本帧特征，第二样本图片包括第一样本图片的正样本图片以及负样本图片，第二帧特征提取网络的网络参数根据第一帧特征提取网络的网络参数动量更新。

且通过第二帧特征提取网络对第二样本图片进行特征提取，得到第二样本帧特征，后续可基于第一样本特征与第二样本特征对网络进行无监督式训练。

其中，第二样本图片包含第一样本图片的正样本图片与负样本图片。在一种可能的实施方式中，可对第一样本图片进行数据增强得到第一样本图片的正样本图片，而将其他与第一样本图片内容不同的图片作为第一样本图片的负样本图片。或者，在另一种可能的实施方式中，可对提取视频相邻两帧，一帧为第一样本图片，另一帧为第一样本图片的正样本图片。且可提取不同视频标签对应的视频中两帧图片，一帧为第一样本图片，另一帧为第一样本图片的负样本图片，本实施例对此不做限定。

其中，第二帧特征网络的网络参数根据第一帧特征提取网络的网络参数动量更新。

步骤四、基于第一样本帧特征与第二样本帧特征之间的对比损失，对第一帧特征提取网络进行更新训练。

在一种可能的实施方式中，在得到第一样本帧特征与第二样本帧特征后，首先对第一样本帧特征与第二样本帧特征进行非线性变化，再非线性变换后的第一样本帧特征与第二样本帧特征之间的对比损失，反向更新第一帧特征提取网络。其中，对比损失函数如下：

其中，q即为第一样本帧特征，k⁺为第二样本图片为正样本图片时的第二样本帧特征，k^-为第二样本图片为负样本图片时的第二样本帧特征。

训练完成后，即可利用第一帧特征提取网络进行帧特征提取。

示意性的，使用vit模型作为帧特征提取网络backbone，其输入224*224大小的图片，输出维度为384的特征向量。帧特征提取网络的训练框架，如图11所示。其中，包含第一帧特征提取网络(base-encoder)1101和第二帧特征提取网络(momemtum-encoder)1102，其初始化时为完全相同的vit-small网络，且提取得到第一样本帧特征1103与第二样本帧特征1104后，将第一样本帧特征1103输入特征投影层(base-head)1105，且将第二样本帧特征1104输入特征投影层(momemtum-head)1106进行特征变换，且特征变换后的第一样本帧特征1103还需输入预测层1107，最终基于预测层1107输出的特征向量与特征投影层(momemtum-head)1106输出的特征向量确定对比损失，对第一帧特征提取网络进行反向更新训练。

图12是本申请一个示例性实施例提供的内容标签的确定装置的结构框图，如图12所示，该装置包括：

获取模块1201，用于获取第一视频的第一视频文本以及第一视频帧；

提取模块1202，用于分别对所述第一视频文本与所述第一视频帧进行特征提取，得到第一文本特征与第一帧特征；

召回模块1203，用于基于所述第一帧特征在帧特征库中搜索召回，得到第一标签集，所述帧特征库中存储有第二帧特征与内容标签的对应关系；

所述召回模块1203，还用于基于所述第一文本特征在文本特征库中搜索召回，得到第二标签集，所述文本特征库中存储有第二文本特征与内容标签的对应关系；

确定模块1204，用于基于所述第一标签集与所述第二标签集，确定所述第一视频的内容标签。

可选的，所述召回模块1203，还用于：

将所述第一帧特征与所述帧特征库中的所述第二帧特征进行特征匹配，得到至少一个候选帧特征；

基于所述候选帧特征对应的第一内容标签，确定所述第一标签集；

所述基于所述第一文本特征在文本特征库中搜索召回，得到第二标签集，包括：

将所述第一文本特征与所述文本特征库中的所述第二文本特征进行特征匹配，得到与所述第一视频匹配的至少一个候选视频，所述文本特征库中存储有第二文本特征与第二视频之间的对应关系；

基于所述候选视频对应的第二内容标签，确定所述第二标签集。

可选的，所述召回模块1203，还用于：

在所述第二帧特征中匹配所述第一帧特征对应的匹配帧特征，所述匹配帧特征与所述第一帧特征的匹配度高于其他帧特征与所述第一帧特征的匹配度；

在所述匹配帧特征的匹配度大于第一匹配度阈值的情况下，将所述匹配帧特征确定为所述候选帧特征；

所述基于所述候选帧特征对应的第一内容标签，确定所述第一标签集，包括：

在所述第一内容标签的重复频率大于第一频率阈值的情况下，将所述第一内容标签添加至所述第一标签集。

可选的，所述召回模块1203，还用于：

在所述第二文本特征中匹配所述第一文本特征对应的至少一个匹配文本特征；

在所述匹配文本特征的匹配度大于第二匹配度阈值的情况下，将所述匹配文本特征对应的第二视频确定为所述候选视频；

所述基于所述候选视频对应的第二内容标签，确定所述第二标签集，包括：

在所述第二内容标签的重复频率大于第二频率阈值的情况下，将所述第二内容标签添加至所述第二标签集。

可选的，所述召回模块1203，还用于：

基于所述第一帧特征在所述帧特征库中搜索召回，得到第一高准确标签集；

基于所述第一帧特征在所述帧特征库中搜索召回，得到第一高召回标签集，所述第一高准确标签集的内容标签准确率高于所述第一高召回标签集的内容标签准确率，且所述第一高准确标签集的内容标签数量少于所述第一高召回标签集的内容标签数量；

基于所述第一文本特征在所述文本特征库中搜索召回，得到第二高准确标签集；

基于所述第一文本特征在所述文本特征库中搜索召回，得到第二高召回标签集，所述第二高准确标签集的内容标签准确率高于所述第二高召回标签集的内容标签准确率，且所述第一高准确标签集的内容标签数量少于所述第二高召回标签集的内容标签数量；

所述确定模块1204，还用于：

将属于所述第一高准确标签集的内容标签、属于所述第二高准确标签集的内容标签、以及属于所述第一高召回标签集与所述第二高召回标签集的交集的内容标签，确定为所述第一视频的内容标签。

可选的，所述获取模块1201，还用于获取第三视频的第三视频文本以及第三视频帧，所述第三视频是已标注的视频；

可选的，所述提取模块1202，还用于分别对所述第三视频文本以及所述第三视频帧进行特征提取，得到所述第三文本特征以及所述第三帧特征；

可选的，所述装置还包括：

入库模块，用于将所述第三文本特征与所述第三视频以及所述第三视频的内容标签的对应关系存储至所述文本特征库中；

所述入库模块，还用于将所述第三帧特征与所述第三视频的内容标签的对应关系存储至所述帧特征库中。

可选的，所述入库模块，还用于在所述文本特征库中不包含与所述第三视频重复的第二视频的情况下，将所述第三文本特征与所述第三视频以及所述第三视频的内容标签的对应关系存储至所述文本特征库中；

可选的，所述入库模块，还用于在所述帧特征库中不存在相似帧特征的情况下，将所述第三帧特征与所述第三视频的内容标签的对应关系存储至所述帧特征库中，所述相似帧特征与所述第三帧特征的特征相似度大于相似度阈值。

可选的，所述获取模块1201，还用于：

在所述第三视频的内容标签数量小于数量阈值的情况下，获取所述第三视频的所述第三视频文本以及所述第三视频帧。

可选的，文本特征由文本特征提取网络对视频文本提取得到；

所述获取模块1201，还用于获取样本视频的样本文本，所述样本视频是已标注的视频；

所述提取模块1202，还用于通过所述文本特征提取网络对所述样本文本进行特征提取，得到预测文本特征；

所述装置还包括：

分类模块，用于将所述预测文本特征输入分类器进行分类，得到所述样本视频的预测内容标签；

训练模块，用于基于所述预测内容标签与所述样本视频的真实内容标签之间的多标签分类损失，对所述文本特征提取网络与所述分类器进行更新训练。

可选的，所述分类模块，还用于：

将所述第一文本特征输入所述分类器进行分类，得到参考内容标签；

可选的，所述召回模块1203，还用于：

基于所述参考内容标签在所述帧特征库中进行筛选，得到所述参考内容标签对应的候选第二帧特征；

基于所述第一帧特征与所述候选第二帧特征的特征匹配结果，确定所述第一标签集；

基于所述参考内容标签在所述文本特征库中进行筛选，得到所述参考内容标签对应的候选第二文本特征；

基于所述第一文本特征与所述候选第二文本特征的特征匹配结果，确定所述第二标签集。

可选的，所述获取模块1201，还用于获取样本图片；

可选的，所述提取模块1202，还用于：

通过第一帧特征提取网络对第一样本图片进行特征提取，得到第一样本帧特征；

通过第二帧特征提取网络对第二样本图片进行特征提取，得到第二样本帧特征，所述第二样本图片包括所述第一样本图片的正样本图片以及负样本图片，所述第二帧特征提取网络的网络参数根据所述第一帧特征提取网络的网络参数动量更新；

可选的，所述训练模块，还用于基于所述第一样本帧特征与所述第二样本帧特征之间的对比损失，对所述第一帧特征提取网络进行更新训练。

可选的，所述获取模块1201，还用于：

获取所述帧特征库与所述文本特征库中各个特征的特征匹配量以及特征准确率；

可选的，所述装置还包括：

删除模块，用于在所述特征的特征匹配量低于第一匹配量阈值的情况下，删除所述特征；

所述删除模块，还用于在所述特征的特征匹配量高于第二匹配量阈值且特征准确率低于准确率阈值的情况下，删除所述特征。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图，计算机设备可实现为上述实施例中的终端或服务器。具体来讲：所述计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器1302和只读存储器1303的***存储器1304，以及连接***存储器1304和中央处理单元1301的***总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(Input/Output，I/O***)1306，和用于存储操作***1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

在一些实施例中，所述基本输入/输出***1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到***总线1305的输入输出控制器1313连接到中央处理单元1301。所述基本输入/输出***1306还可以包括输入输出控制器1313以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1313还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到***总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述***总线1305上的网络接口单元1311接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的内容标签的确定方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的内容标签的确定方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的内容标签的确定方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(Solid StateDrives，SSD)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(Resistance RandomAccess Memory，ReRAM)和动态随机存取存储器(Dynamic Random Access Memory，DRAM)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的视频数据都是在充分授权的情况下获取的。

且本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。且本文中提及的“第一”、“第二”等用于区别类似对象，而并不用于限定特定的顺序或先后次序。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种内容标签的确定方法，其特征在于，所述方法包括：

获取第一视频的第一视频文本以及第一视频帧；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一帧特征在帧特征库中搜索召回，得到第一标签集，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一帧特征与所述帧特征库中的第二帧特征进行特征匹配，得到至少一个候选帧特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述第一文本特征与所述文本特征库中的所述第二文本特征进行特征匹配，得到与所述第一视频匹配的至少一个候选视频，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述基于所述第一帧特征在帧特征库中搜索召回，得到第一标签集，包括：

基于所述第一文本特征在所述文本特征库中搜索召回，得到第二高召回标签集，所述第二高准确标签集的内容标签准确率高于所述第二高召回标签集的内容标签准确率，且所述第二高准确标签集的内容标签数量少于所述第二高召回标签集的内容标签数量；

所述基于所述第一标签集与所述第二标签集，确定所述第一视频的内容标签，包括：

6.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取第三视频的第三视频文本以及第三视频帧，所述第三视频是已标注的视频；

分别对所述第三视频文本以及所述第三视频帧进行特征提取，得到所述第三文本特征以及所述第三帧特征；

将所述第三文本特征与所述第三视频以及所述第三视频的内容标签的对应关系存储至所述文本特征库中；

将所述第三帧特征与所述第三视频的内容标签的对应关系存储至所述帧特征库中。

7.根据权利要求6所述的方法，其特征在于，所述将所述第三文本特征与所述第三视频以及所述第三视频的内容标签的对应关系存储至所述文本特征库中，包括：

在所述文本特征库中不包含与所述第三视频重复的第二视频的情况下，将所述第三文本特征与所述第三视频以及所述第三视频的内容标签的对应关系存储至所述文本特征库中；

所述将所述第三帧特征与所述第三视频的内容标签的对应关系存储至所述帧特征库中，包括：

在所述帧特征库中不存在相似帧特征的情况下，将所述第三帧特征与所述第三视频的内容标签的对应关系存储至所述帧特征库中，所述相似帧特征与所述第三帧特征的相似度大于相似度阈值。

8.根据权利要求6所述的方法，其特征在于，所述获取第三视频的第三视频文本以及第三视频帧，包括：

9.根据权利要求1所述的方法，其特征在于，文本特征由文本特征提取网络对视频文本提取得到；

所述方法还包括：

获取样本视频的样本文本，所述样本视频是已标注的视频；

通过所述文本特征提取网络对所述样本文本进行特征提取，得到预测文本特征；

将所述预测文本特征输入分类器进行分类，得到所述样本视频的预测内容标签；

基于所述预测内容标签与所述样本视频的真实内容标签之间的多标签分类损失，对所述文本特征提取网络与所述分类器进行更新训练。

10.根据权利要求9所述的方法，其特征在于，所述分别对所述第一视频文本与所述第一视频帧进行特征提取，得到第一文本特征与第一帧特征之后，所述方法还包括：

所述基于所述第一帧特征在帧特征库中搜索召回，得到第一标签集，包括：

11.根据权利要求1至4任一所述的方法，其特征在于，帧特征由帧特征提取网络对视频帧提取得到，所述方法还包括：

获取样本图片；

基于所述第一样本帧特征与所述第二样本帧特征之间的对比损失，对所述第一帧特征提取网络进行更新训练。

12.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

在所述特征的特征匹配量低于第一匹配量阈值的情况下，删除所述特征；

在所述特征的特征匹配量率高于第二匹配量阈值且特征准确率低于准确率阈值的情况下，删除所述特征。

13.一种内容标签的确定装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至12任一所述的内容标签的确定方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至12任一所述的内容标签的确定方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令以实现如权利要求1至12任一所述的内容标签的确定方法。