CN116992078A

CN116992078A - 视频标签确定方法、装置、设备、存储介质及产品

Info

Publication number: CN116992078A
Application number: CN202211429414.7A
Authority: CN
Inventors: 袁宇辰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-11-03

Abstract

本申请公开了一种视频标签确定方法、装置、设备、存储介质及产品，属于计算机技术领域。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本申请实施例提供的技术方案，通过文本匹配规则对视频的文本进行规则匹配，可以快速确定出能够表征目标视频与目标对象之间关联指向度的档位指标数据，并且在该数据指示目标视频处于中间档位的情况下，还会根据视频和文本两种信息进行融合校验，得到能够表征目标视频与目标对象之间关联情况的结果，进而根据关联结果对上述确定出的档位指标数据进行校准更新，从而得到更加精确的档位指标数据，并依此添加能够表征上述关联指向度的视频档位标签，提升了视频标签的丰富度。

Description

视频标签确定方法、装置、设备、存储介质及产品

技术领域

本申请涉及计算机技术领域，特别涉及一种视频标签确定方法、装置、设备、存储介质及产品。

背景技术

随着互联网技术和计算机技术的发展，视频服务广泛应用，为视频添加标签成为一项重要功能。通过视频标签可有效过滤无关视频素材，或者精细化地向用户推送视频内容。

相关技术中，通常将视频类别、视频对应的话题或者视频文本中提取的词语作为视频的标签，又或者是通过识别视频中的对象类别作为视频的标签。

相关技术中，视频标签的丰富度较低。

发明内容

本申请实施例提供了一种视频标签确定方法、装置、设备、存储介质及产品，能够提升视频标签的丰富度，并且能够提升档位标签的确定速率和准确性，整体提升确定档位标签的效率。

根据本申请实施例的一个方面，提供了一种视频标签确定方法，所述方法包括：

获取文本匹配规则信息以及目标视频对应的视频文本，所述文本匹配规则信息用于确定所述视频文本与预设档位之间的对应关系，所述预设档位是指划分所述目标视频与目标对象之间的关联指向度的档位；

基于所述文本匹配规则信息对所述视频文本进行规则匹配处理，得到所述目标视频对应的目标档位指标数据，所述目标档位指标数据表征根据所述目标视频关联所述目标对象的关联指向度；

在所述目标档位指标数据对应目标档位的情况下，对所述目标视频和所述视频文本进行融合校验处理，得到所述目标视频与所述目标对象之间的关联结果，所述关联结果表征所述目标视频与所述目标对象之间的关联情况，所述目标档位是指所述预设档位中位于第一档位与第二档位之间的中间档位；

根据所述关联结果对所述目标档位指标数据进行更新，得到更新后档位指标数据；

基于所述更新后档位指标数据，确定所述目标视频对应的档位标签。

根据本申请实施例的一个方面，提供了一种视频标签确定装置，所述装置包括：

匹配信息获取模块，用于获取文本匹配规则信息以及目标视频对应的视频文本，所述文本匹配规则信息用于确定所述视频文本与预设档位之间的对应关系，所述预设档位是指划分所述目标视频与目标对象之间的关联指向度的档位；

视频文本匹配模块，用于基于所述文本匹配规则信息对所述视频文本进行规则匹配处理，得到所述目标视频对应的目标档位指标数据，所述目标档位指标数据表征根据所述目标视频关联所述目标对象的关联指向度；

关联结果校验模块，用于在所述目标档位指标数据对应目标档位的情况下，对所述目标视频和所述视频文本进行融合校验处理，得到所述目标视频与所述目标对象之间的关联结果，所述关联结果表征所述目标视频与所述目标对象之间的关联情况，所述目标档位是指所述预设档位中位于第一档位与第二档位之间的中间档位；

指标数据更新模块，用于根据所述关联结果对所述目标档位指标数据进行更新，得到更新后档位指标数据；

档位标签确定模块，用于基于所述更新后档位指标数据，确定所述目标视频对应的档位标签。

在示例性实施例中，所述视频文本包括所述目标视频对应的类别文本，所述类别文本包括至少一个类别等级对应的类别词，所述文本匹配规则信息包括第一匹配规则，所述第一匹配规则包括预设类别词，所述视频文本匹配模块，包括：

类别词遍历单元，用于从所述至少一个类别等级中的最高类别等级开始遍历类别词；

文本查询单元，用于在所述预设类别词中查询遍历到的类别词；

指标数据查询单元，用于在查询到所述遍历到的类别词的情况下，根据所述第一匹配规则查询所述遍历到的类别词对应的第一档位指标数据；

指标数据确定单元，用于在查询到所述第一档位指标数据的情况下，将所述第一档位指标数据确定为所述目标档位指标数据。

在示例性实施例中，所述视频文本匹配模块，还包括：

规则获取单元，用于在均未查询到所述至少一个类别等级对应的类别词，或查询到的类别词均未对应所述第一档位指标数据的情况下，获取至少一条第二匹配规则，所述文本匹配规则信息包括所述至少一条第二匹配规则，每一条第二匹配规则都包括预设字符串以及类别适用范围；

目标规则查询单元，用于在所述至少一条第二匹配规则中查询所述视频文本对应的目标第二匹配规则，所述目标第二匹配规则对应的类别适用范围包括所述类别文本对应的视频类别；

所述文本查询单元，还用于在所述视频文本中查询所述目标第二匹配规则对应的预设字符串；

所述指标数据查询单元，还用于在查询到所述视频文本包括所述目标第二匹配规则中的目标字符串的情况下，根据所述目标第二匹配规则确定第二档位指标数据；

所述指标数据确定单元，还用于将所述第二档位指标数据确定为所述目标档位指标数据。

在示例性实施例中，所述规则获取单元，还用于在未查询到所述目标第二匹配规则，或所述视频文本不包括所述目标第二匹配规则对应的预设字符串的情况下，获取第三匹配规则，所述第三匹配规则包括预设关键词以及所述预设关键词对应的档位；

所述文本查询单元，还用于在所述视频文本中查询所述预设关键词；

所述视频文本匹配模块，还包括：档位确定单元，用于在查询到所述视频文本包括目标关键词的情况下，根据所述第三匹配规则确定所述目标关键词对应的档位；

所述指标数据确定单元，还用于根据所述目标关键词对应的档位确定所述目标档位指标数据。

在示例性实施例中，所述第一匹配规则还包括所述预设类别词对应的默认档位指标数据，所述视频文本匹配模块，还包括：

类别词确定单元，用于在所述视频文本不包括所述预设关键词的情况下，在所述预设类别词中确定所述类别文本对应的目标类别词；

所述指标数据查询单元，还用于基于所述第一匹配规则确定所述目标类别词对应的默认档位指标数据；

所述指标数据确定单元，还用于将所述目标类别词对应的默认档位指标数据确定为所述目标档位指标数据。

在示例性实施例中，所述关联结果校验模块，包括：

特征提取单元，用于在所述目标档位指标数据对应所述目标档位的情况下，对所述目标视频和所述视频文本进行特征提取处理，得到视频特征和文本特征；

特征融合单元，用于对所述视频特征和文本特征进行融合处理，得到融合特征；

关联关系分类单元，用于基于所述融合特征进行关联关系分类处理，得到所述关联结果。

在示例性实施例中，所述特征提取单元，具体用于：

在所述目标档位指标数据对应所述目标档位的情况下，将所述目标视频输入训练好的机器学习模型中的视频特征提取网络进行特征提取处理，得到所述视频特征，所述训练好的机器学习模型还包括文本特征提取网络和分类网络；

将所述视频文本输入所述文本特征提取网络进行特征提取处理，得到所述文本特征；

所述关联关系分类单元，具体用于将所述融合特征输入所述分类网络进行关联关系分类处理，得到所述关联结果。

在示例性实施例中，所述装置还包括模型训练模块，所述模型训练模块包括：

样本获取单元，用于获取多个样本视频以及所述多个样本视频各自对应的关联标签；

样本筛选单元，用于对于所述多个样本视频中的每个第一样本视频，确定与所述第一样本视频对应的第二样本视频，所述第一样本视频对应的第一关联标签与所述第二样本视频对应的第二关联标签不同；

模型训练单元，用于基于所述第一样本视频，所述第一关联标签、所述第二样本视频以及所述第关联标签训练待训练的机器学习模型，得到所述训练好的机器学习模型。

在示例性实施例中，所述模型训练单元包括：

标签特征确定子单元，用于确定所述第一关联标签对应的第一标签特征和所述第二关联标签对应的第二标签特征；

融合特征确定子单元，用于将所述第一样本视频和所述第一样本视频对应的视频文本输入所述待训练的机器学习模型，得到所述第一样本视频对应的第一融合特征；

所述融合特征确定子单元，还用于将所述第二样本视频和所述第二样本视频对应的视频文本输入所述待训练的机器学习模型，得到所述第二样本视频对应的第二融合特征；

相似度矩阵确定子单元，用于基于所述第一标签特征、所述第二标签特征、所述第一融合特征和所述第二融合特征，生成特征相似度矩阵，所述特征相似度矩阵的行对应所述第一融合特征和所述第二融合特征，所述特征相似度矩阵的列对应所述第一标签特征和所述第二标签特征，所述特征相似度矩阵包括各行对应的特征与各列对应的特征之间的相似度；

损失信息确定子单元，用于基于所述特征相似度矩阵中的相似度确定对比学习损失信息；

模型更新子单元，用于根据所述对比学习损失信息更新所述待训练的机器学习模型的参数，得到所述训练好的机器学习模型。

在示例性实施例中，所述指标数据更新模块，具体用于在所述关联结果指示所述目标视频与所述目标对象之间有关联的情况下，保持所述目标档位指标数据不变，得到所述更新后档位指标数据；

所述指标数据更新模块，具体还用于在所述关联结果指示所述目标视频与所述目标对象之间无关联的情况下，将所述第二档位对应的档位指标数据确定为所述更新后档位指标数据；

其中，所述第一档位高于所述目标档位，所述目标档位高于所述第二档位。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频标签确定方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频标签确定方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述视频标签确定方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过文本匹配规则对视频的文本进行规则匹配，可以快速确定出能够表征目标视频与目标对象之间关联指向度的档位指标数据，并且在该数据指示目标视频处于中间档位的情况下，还会根据视频和文本两种信息进行融合校验，得到能够表征目标视频与目标对象之间关联情况的结果，进而根据关联结果对上述确定出的档位指标数据进行校准更新，从而得到更加精确的档位指标数据，并依此添加能够表征上述关联指向度的视频档位标签，提升了视频标签的丰富度，同时提升了档位标签的确定速率和准确性，整体提升了确定视频档位标签的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的视频标签确定方法的流程图一；

图3是本申请一个实施例提供的视频标签确定方法的流程图二；

图4示例性示出了一种基于上述第一匹配规则、第二匹配规则以及第三匹配规则依次进行视频文本规则匹配的流程示意图；

图5示例性示出了一种在广告投放场景下确定档位指标数据的流程示意图；

图6是本申请一个实施例提供的机器学习模型的训练方法的流程图一；

图7示例性示出了一种机器学习模型的网络结构示意图；

图8是本申请一个实施例提供的机器学习模型的训练方法的流程图二；

图9示例性示出了机器学习模型预训练的流程示意图；

图10示例性示出了一种通过对比融合特征与标签特征之间的特征相似度训练机器学习模型的流程示意图；

图11示例性示出了特征相似度矩阵的示意图；

图12示例性示出了训练好的机器学习模型根据输入视频输出相应关联结果的流程示意图；

图13是本申请一个实施例提供的视频标签确定装置的框图；

图14是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

本申请实施例提供的视频标签确定方法涉及人工智能技术，下面对此进行简要说明，以便于本领域技术人员理解。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供视频服务的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以提供视频服务。例如，新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(Augmented Reality，AR)类应用程序等，本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器，可以为视频服务中的视频添加上述档位标签。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参考图2，其示出了本申请一个实施例提供的视频标签确定方法的流程图一。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤(210～240)。

步骤210，获取文本匹配规则信息以及目标视频对应的视频文本。

上述文本匹配规则信息可以用于确定视频文本与预设档位之间的对应关系。

可选地，上述预设档位是指划分目标视频与目标对象之间的关联指向度的档位。可选地，上述关联指向度用于表征指根据目标视频关联到目标对象的容易程度。

可选地，关联指向度与上述容易程度呈正相关。在一种可能的实施方式中，上述关联指向度是指观众观看目标视频之后能够联想到目标对象的容易程度。如果观众观看目标视频之后能够直接联想到目标对象，那就说明观众观看目标视频之后能够联想到目标对象的容易程度较高，关联指向度也相应的较高。

可选地，上述目标对象包括但不限于广告资源对象、多媒体资源对象、虚拟对象等。

在图文、视频广告投放领域中，上述目标对象为广告资源对象，上述关联指向度可以体现目标视频对应的商业价值。比如，用户观看完目标视频之后，可以直接联想到一些广告资源对象，那么就说明根据目标视频关联广告资源对象的关联指向度较高。在这种场景下，关联指向度对应的实际意义即可以理解为视频对应的商业价值，如果用户观看目标视频之后，可以容易联想到广告资源对象，即说明该视频的商业价值较高。举例来说，口红评测视频容易指向相关的口红广告；汽车车型评测的视频容易指向对应车型的汽车广告。

然而，由于视频内容的范围非常广泛，并不是所有视频都能和某种广告相关联。实际上，绝大多数的视频甚至都没有任何商业价值，例如搞笑类、历史人物传记类、社会时事类等视频。如果在生产这些与用户历史浏览素材相关的视频特征时，不加区分地将所有素材都作为特征来源，则势必引入大量无关内容，影响特征的有效性和敏感性。因此，有必要在特征生产之前，基于一定规则对视频进行商业价值判断，以此过滤掉低商业性的视频。

当然，上述目标对象不局限于是广告，也可以是人物、新闻、事件等。关联指向度也可以抽象为一种联想能力，看到视频后联想目标对象的能力。

在示例性实施例中，上述预设档位包括至少三个档位。可选地，至少三个档位各自对应的关联指向度依档位次序逐级递减。

在一种可能的实施方式中，上述预设档位包括四个档位，其定义及示例如下：

1、强关联指向度档位(4档)：该档位的视频能够比较直接具体地指向目标对象。

在广告领域中，强关联指向度档位可以是强商业性档位，能反应比较直接、具体的商业兴趣。例如，视频直接介绍广告物品或服务，能直观、精准地对应某种类型的广告(比如介绍美食的视频可以指向对应的外卖餐饮/本地生活服务；介绍小说的视频可以指向对应的阅读小说相关广告；介绍美妆、穿搭的视频可以指向对应的电商广告。从感兴趣程度来看，用户对该种档位的视频的感兴趣程度，与用户对该视频指向的目标对象的感兴趣程度较为一致，兴趣粒度比较细，置信度高。

示例(以下均以视频素材为例，图文素材类似)：

(1)一个人搬家，用了它，再也不用隔壁邻居来帮忙了！#搬家神器。

(2)某游戏：3秒获胜！

(3)好物推荐：某品牌某型号的移动电源。

2、中关联指向度档位(3档)：该档位的视频能够间接地指向目标范围内的对象。

在广告领域中，中关联指向度档位可以是中商业性档位，体现间接的、较粗粒度的商业兴趣。例如，观众用户观看视频后，通过一度联想能大概率对应一定类型的广告，但无法精准判断(例如介绍绘画技法的文章，可以判断用户对绘画有兴趣，也可能对相关艺术培训或者绘画工具有兴趣)。从感兴趣程度来看，兴趣粒度相对粗，用户对该种档位的视频的感兴趣程度，与用户对该视频指向的目标范围内的对象的感兴趣程度会有一些偏差。

示例：

(1)新手入门8步舞，学会这个舞步，就能跳一支美丽的舞蹈。

(2)如何用棋法“海底捞月”？这一套手法缺一不可，很多棋友根本不懂。

(3)临王献之尺牍：中秋帖，配曲：凤求凰(古琴名曲)。

3、弱关联指向度档位(2档)：该档位的视频能够反映用户对内容的感兴趣程度，但是关联指向度较弱，不容易指向目标对象。

在广告领域中，弱关联指向度档位可以是弱商业性档位，该档位视频能体现用户兴趣，但是商业性较弱。例如，观看视频后，通过二度联想才可能联想到一定类型的广告，但不确定如何具体发挥作用(例如健康类视频，反映了用户对养生类感兴趣，但难以确定具体哪些商品)；从感兴趣程度来看，此档有一定区分作用(比如体育赛事类视频，反映体育方面的相关兴趣偏好；电视剧混剪类视频，反映相关影视作品方面的相关兴趣偏好)。

示例：

(1)演员现场重现经典舞蹈，真精彩。

(2)号称最强金属的振金！

(3)某主播直播间惊现某人物，究竟是谁？

4、无关联指向度档位(1档)：该档位的视频极难指向目标对象。

在广告领域中，无关联指向度档位可以是无商业性档位，该档位的视频跟商业性基本没有联系，例如社会、时事类的大部分视频，搞笑类的大部分素材等。

示例：

(1)社会热点新闻。

(2)自由航行遇恶劣天气。

(3)经典搞笑视频！

在一种可能的实施方式中，上述至少三个档位分别对应不同的档位指标数据区间。比如，上述列举的四个档位分别对应的不同的档位指标数值。例如，强关联指向度档位(4档)对应的档位指标数值为4，中关联指向度档位(3档)对应的档位指标数值为3，弱关联指向度档位(2档)对应的档位指标数值为2，无关联指向度档位(1档)对应的档位指标数值为1。也就是说，档位指标数值越高，关联指向度越高。若某一视频对应的档位指标数据为1，则可以判断该视频对应无关联指向度档位。

可选地，文本匹配规则信息中的匹配规则可以人工添加。实际应用中，可根据需要随时对规则条目进行增减调整；规则调整后可立即生效。

可选地，视频文本包括但不限于目标视频对应的类别文本、目标视频对应的标题文本以及目标视频对应的标签文本。

在一种可能的实施方式中，获取目标视频对应的文本信息，其中包括标题文本、类别文本与标签文本；将标题文本、类别文本与标签文本进行拼接，得到上述视频文本。标题文本、类别文本与标签文本之间可以设置分隔符。具体地，视频文本为视频标题、视频类别以及视频标签所拼接的字符串，中间可以设置自定义的分隔符。例如，一个视频对应的文本信息如下：

在使用分隔符为“|”时，拼接后的数据字符串如下：“角色A：角色B对角色C做了这件事|电视剧，电视剧_精彩片段|角色A，角色B，角色C，角色B_角色C，影片类型，剧集片花”。

可选地，类别文本包括至少一个类别等级对应的类别词。比如，在一些场景中，类别等级分为三级，一级比一级细化。

可选地，文本匹配规则信息包括至少一条第一匹配规则，第一匹配规则包括预设类别词、预设类别词对应的第一档位指标数据。可选地，第一匹配规则还包括预设类别词对应的默认档位指标数据。上述第一档位指标数据可以是该预设类别词对应的最终档位指标数据，默认档位指标数据是预设类别词对应的默认值。上述预设类别词是指预设的视频类别词。

可选地，文本匹配规则信息还包括至少一条第二匹配规则，每一条第二匹配规则都包括预设字符串以及类别适用范围。类别适用范围是指适用第二匹配规则的指定视频类别。可选地，类别适用范围可以是全部类别，也可以是指定的目标视频类别。

可选地，文本匹配规则信息还包括第三匹配规则，第三匹配规则包括预设关键词以及预设关键词对应的档位。上述预设关键词是指预设的一些关键词，如话题标签词、对象名称、人物名称、物品名称之类的词。不同的关键词可以对应不同的档位。

步骤220，基于文本匹配规则信息对视频文本进行规则匹配处理，得到目标视频对应的目标档位指标数据。

目标档位指标数据表征根据目标视频关联目标对象的关联指向度。

通过分析视频对应的视频文本，如标题文本、一二三级视频类别、视频标签等文本信息，可以预测根据目标视频关联目标对象的关联指向度，即确定出上述目标档位数据。比如，在多媒体广告投放领域，通过所输入的视频素材的文本信息(包括标题、一二三级视频类别、视频标签等)，预测该视频素材所具备的商业价值。

可选地，可以按照第一匹配规则、第二匹配规则以及第三匹配规则，依次进行规则匹配。例如，在前一种匹配规则未能匹配出目标档位指标数据的情况下，再基于下一种匹配规则进行匹配判断。如果第一匹配规则、第二匹配规则以及第三匹配规则都匹配失败，则会基于目标视频所对应的视频类别，该输出该视频类别对应的默认档位指标数据作为目标档位指标数据。另一方面，一旦确定在某一种匹配规则下匹配出目标档位指标数据，即可退出规则匹配流程。

在实际应用中，如视频商业价值判断的主要应用场景为视频数据前端过滤，因此势必面对大量(甚至全量)数据的调用。因此，需要尽可能简单高效的匹配方式，本申请实施例提供的技术方案基于规则的文本匹配可以快速输出视频对应的商业价值判断分数，即上述目标档位指标数据，以适应于被大量调用的实际应用场景。

在示例性实施例中，如图3所示，上述步骤220可以包括如下步骤(2201～2204)，图3示出了本申请一个实施例提供的视频标签确定方法的流程图二。

步骤2201，从至少一个类别等级中的最高类别等级开始遍历类别词。

假如目标视频对应有多个不同类别等级的类别词，则先遍历类别等级高的类别词，后遍历类别等级较低的类别词。对于同类别等级的词，可以根据类别词先后顺序，或随机顺序进行遍历。

步骤2202，在预设类别词中查询遍历到的类别词。

查询第一匹配规则中设置的预设类别词中是否包括视频文本中当前遍历的类别词。

步骤2203，在查询到遍历到的类别词的情况下，根据第一匹配规则查询遍历到的类别词对应的第一档位指标数据。

查询到遍历到的类别词即可说明上述第一匹配规则中包括视频文本中的类别词，即可根据第一匹配规则进一步查询该遍历到的类别词是否有对应的第一档位指标数据。因为有些预设类别词仅对应有默认档位指标数据，并不对应有上述第一档位指标数据。

步骤2204，在查询到第一档位指标数据的情况下，将第一档位指标数据确定为目标档位指标数据。

若查询到该类别词对应的第一档位指标数据，即可将该遍历到的类别词对应的第一档位指标数据确定为目标档位指标数据。

本申请实施例提供的技术方案，通过第一匹配规则匹配视频文本中的类别词，可以快速确定目标视频对应的档位指标数据，提升档位指标数据的确定速度。

在示例性实施例中，如图3所示，上述步骤220还可以包括如下步骤(2205～2209)。

步骤2205，在均未查询到至少一个类别等级对应的类别词，或查询到的类别词均未对应第一档位指标数据的情况下，获取至少一条第二匹配规则。

若在遍历上述至少一个类别等级对应的类别词的过程中，始终未在第一匹配规则中查询到任一视频文本中的类别词，或者是查询到的类别词均没有对应的第一档位指标数据，则说明第一匹配规则匹配失败。此时可以根据第二匹配规则对视频文本进行匹配。

步骤2206，在至少一条第二匹配规则中查询视频文本对应的目标第二匹配规则。

目标第二匹配规则对应的类别适用范围包括类别文本对应的视频类别。

可选地，确定类别文本对应的视频类别，然后将视频类别与至少一条第二匹配规则各自对应的类别适用范围进行比较，从而适用于上述视频类别的目标第二匹配规则。

步骤2207，在视频文本中查询目标第二匹配规则对应的预设字符串。

查询视频文本中是否包括目标第二匹配规则对应的预设字符串。

步骤2208，在查询到视频文本包括目标第二匹配规则中的目标字符串的情况下，根据目标第二匹配规则确定第二档位指标数据。

在一些情况下，查询命中字符串的目标第二匹配规则可能不止一条，若是两条以上的情况，则可以根据类别适用范围或者第二档位指标数据确定规则优先级，进而选择优先级最高的第二匹配规则所确定的第二档位指标数据。

比如，视频文本同时命中类别适用范围为全部类别的一条第二匹配规则，以及类别适用范围为本视频类别的一条第二匹配规则，由于类别适用范围为本视频类别的一条第二匹配规则更加精准，则使用该规则确定的第二档位指标数据。

又比如，视频文本同时命中两条第二匹配规则，其中一条第二匹配规则确定的第二档位指标数据大于另一条第二匹配规则确定的第二档位指标数据，则选用较大的第二档位指标数据。

步骤2209，将第二档位指标数据确定为目标档位指标数据。

本申请实施例提供的技术方案，通过特定类别范围下的第二匹配规则对视频文本中的字符串进行匹配，从而可以快速确定出目标视频对应的档位指标数据，提升了规则匹配效率。

在示例性实施例中，如图3所示，上述步骤220还可以包括如下步骤(2210～2213)。

步骤2210，在未查询到目标第二匹配规则，或视频文本不包括目标第二匹配规则对应的预设字符串的情况下，获取第三匹配规则。

第三匹配规则包括预设关键词以及预设关键词对应的档位。

在使用第二匹配规则匹配过程中，若未查询到适用于视频文本的第二匹配规则，或者视频文本中不包括目标第二匹配规则中的预设字符串，则可以认为第二匹配规则匹配失败。此时可以根据第三匹配规则对视频文本进行匹配。

步骤2211，在视频文本中查询预设关键词。

查询视频文本中是否包括第三匹配规则中的预设关键词。

步骤2212，在查询到视频文本包括目标关键词的情况下，根据第三匹配规则确定目标关键词对应的档位。

上述目标关键词是指在视频文本中出现的预设关键词。

上述第三匹配规则中，每一预设关键词都有对应的档位，因此可以根据第三匹配规则查询出上述目标关键词对应的档位。

步骤2213，根据目标关键词对应的档位确定目标档位指标数据。

可选地，若目标关键词只有一个，可以将该档位对应的档位指标数据确定为上述目标档位指标数据。

若目标关键词不止一个，则可以确定各个目标关键词对应的档位，并统计出命中关键词次数最多的档位，从而将命中关键词次数最多的档位所对应的档位指标数据确定为目标档位指标数据。

本申请实施例提供的技术方案，通过预设关键词对视频文本进行匹配，可以快速匹配出目标视频对应的档位指标数据，弥补前两种匹配规则的不足，提升了档位指标数据的匹配效率和准确性。

在示例性实施例中，如图3所示，上述步骤220还可以包括如下步骤(2214～2216)。

步骤2214，在视频文本不包括预设关键词的情况下，在预设类别词中确定类别文本对应的目标类别词。

步骤2215，基于第一匹配规则确定目标类别词对应的默认档位指标数据。

步骤2216，将目标类别词对应的默认档位指标数据确定为目标档位指标数据。

如果上述视频文本不包括预设关键词，则可以认为第三种匹配规则匹配失败，从而在第一匹配规则中确定类别文本对应的目标类别词，即目标视频对应的视频类别，并查找该类别对应的默认档位指标数据作为目标档位指标数据。通过设置默认档位指标数据输出，弥补上述三种匹配规则的不足，防止匹配规则都失效后无法输出档位指标数据的情况发生。

在一个示例中，如图4所示，其示例性示出了一种基于上述第一匹配规则、第二匹配规则以及第三匹配规则依次进行视频文本规则匹配的流程示意图。对于输入的视频素材，先基于第一匹配规则对素材类别进行匹配，若匹配则判断该素材类别对应的最终档位，即上述第一档位指标数据所对应的档位，是否不为空，若不为空则可以直接输出最终档位。若素材类别不匹配第一匹配规则，则基于第二匹配规则对整个素材文本进行匹配，从而查找是否有字符串命中。若是，则输出命中规则中对应的最大档位。若否，则基于第三匹配规则对素材文本进行匹配，从而查找是否有关键词命中。若有，则输出拥有命中关键词最多的单位，否则根据素材类别输出默认档位。

下面示例性列举广告投放领域下的匹配规则内容：

步骤230，在目标档位指标数据对应目标档位的情况下，对目标视频和视频文本进行融合校验处理，得到目标视频与目标对象之间的关联结果。

在实际应用中，常有难以判断档位指标数据的视频，比如上述处于目标档位的视频，此时需要结合更加精细的融合校验处理来识别。

可选地，上述关联结果表征目标视频与目标对象之间的关联情况，目标档位是指预设档位中位于第一档位与第二档位之间的中间档位。

可选地，上述关联结果是表征目标视频与目标对象之间有关联或无关联的结果。关联结果可以只反应有无关联，而不反映关联程度。

上述中间档位可以位于第一档位之后，但位于第二档位之前。第一档位对应的档位指标数据大于等于第一阈值，第二档位对应的档位指标数据小于等于第二阈值。在文本匹配中，若输出的目标档位指标数据对应的档位在第一档位之前，或者在第二档位之后，可以说明判定结果是比较清楚的，要么是有较强的关联指向度，要么是有很弱的关联指向度。但是中间部分的档位所对应的关联指向度相比于上述两种情况，比如无关联指向度档位或强关联指向度档位，较为模糊，主观性更强，因此可以对目标中间档位的视频(约占整体20％-30％)进行更加精准的校验，提升档位指标数据的准确性，同时又不是全部视频都需要精准校验，能够兼顾效率。

需要注意的是，上述融合校验处理，不仅需要用到视频文本，还需要用到例如视频帧、封面图像等视频的视频信息。

在示例性实施例中，如图3所示，上述步骤230可以包括如下步骤(231～233)。

步骤231，在目标档位指标数据对应目标档位的情况下，对目标视频和视频文本进行特征提取处理，得到视频特征和文本特征。

上述视频特征可以是目标视频对应的视频信息的特征，比如视频帧对应的特征等。上述文本特征是视频文本对应的文本特征

可选地，将目标视频输入训练好的机器学习模型中的视频特征提取网络进行特征提取处理，得到视频特征，训练好的机器学习模型还包括文本特征提取网络和分类网络；将视频文本输入文本特征提取网络进行特征提取处理，得到文本特征。

可选地，上述视频特征提取网络是机器学习模型中的视频编码器，上述文本特征提取网络是机器学习模型中的文本编码器。

可选地，机器学习模型是分类模型，用于识别有关联和关联两种类别。

步骤232，对视频特征和文本特征进行融合处理，得到融合特征。

可选地，上述训练好的机器学习模型还包括转换模型，上述视频特征和文本特征输入到上述转换模型进行融合处理，可以得到上述融合特征。

步骤233，基于融合特征进行关联关系分类处理，得到关联结果。

在融合校验阶段，不仅使用视频的文本信息，还融合利用视频的视频信息，能够有效提升视频档位指标数据确定的精准性。

可选地，将融合特征输入分类网络进行关联关系分类处理，得到关联结果。

通过训练好的机器学习模型融合视频特征和文本特征，并对融合特征进行分类处理，可以快速地实现对关联关系的分类，有效提升了精准校验的效率。

本申请实施例提供的技术方案，通过基于文本匹配规则的匹配，可快速有效地进行初步的档位指标数据判断，同时还能基于深度神经网络进行复杂难样本的判断。

步骤240，根据关联结果对目标档位指标数据进行更新，得到更新后档位指标数据。

在关联结果指示目标视频与目标对象之间有关联的情况下，保持目标档位指标数据不变，得到更新后档位指标数据。

在关联结果指示目标视频与目标对象之间无关联的情况下，将第二档位对应的档位指标数据确定为更新后档位指标数据。

其中，第一档位高于目标档位，目标档位高于第二档位。上述第二档位可以是无关联指向度档位。

本申请实施例提供的技术方案，在目标视频与目标对象之间有关联的情况下保持使用文本匹配输出的目标档位指标数据，在无关联的情况下则校正目标档位指标数据对应至无关联档位，有效提升了视频档位指标数据确定的精准性。

在一个示例中，如图5所示，其示例性示出了一种在广告投放场景下确定档位指标数据的流程示意图。图5所示的流程中，分两条支路进行档位指标数据(即商业价值分数)的识别。所有视频素材均会首先经过基于规则的文本匹配处理，以便快速得到初步的商业价值判断结果

对于判断结果为“低商业性”或“中商业性”两档(即中间两档)的素材(约占整体20％-30％)，由于对应的判断规则相比“无商业性”和“强商业性”(即头尾两档)更模糊、主观性更强，需要进一步识别才能得到比较准确的结果。这部分素材会被进一步送入基于深度神经网络的分类模型进行二分类，从而得到深度模型识别的结果。识别结果若为有商业性，即有关联，则输出文本匹配确定的初步的商业价值判断结果，作为其对应的商业价值判断最终结果。识别结果若为无商业性，即无关联，则输出无商业性的商业价值判断结果。

步骤250，基于更新后档位指标数据，确定目标视频对应的档位标签。

档位标签(比如商业价值标签)，本身可作为独立的特征应用，也可用于已有训练数据过滤。过滤条件可以灵活设置，例如，在视频对应无关联指向度档位(如无商业价值时)的情况下，将该视频及其对应的相关特征进行滤除。

可选地，基于上述档位标签，推荐目标视频。可选地，基于上述档位标签，从数据集中删除上述目标视频。

在广告投放领域中，可以根据具体任务需求，基于上档位标签对低商业价值的视频素材进行抑制，如过滤；更新后档位指标数据可以是商业价值判断分数，其本身也可作为独立特征，在广告推荐中作为特征被使用。具体地，在广告投放领域，可以根据视频素材的视频帧+文本(包括标题、类别、标签等)进行商业价值判断，并给出商业性分档分数，整体识别效率较高，可以适用于基于商业价值判断的数据前段过滤。在广告推荐领域的特征生产环节，可有效过滤掉低商业性素材的影响，从而生产更具商业价值的特征标签。

综上所述，本申请实施例提供的技术方案，通过文本匹配规则对视频的文本进行规则匹配，可以快速确定出能够表征目标视频与目标对象之间关联指向度的档位指标数据，并且在该数据指示目标视频处于中间档位的情况下，还会根据视频和文本两种信息进行融合校验，得到能够表征目标视频与目标对象之间关联情况的结果，进而根据关联结果对上述确定出的档位指标数据进行校准更新，从而得到更加精确的档位指标数据，并依此添加能够表征上述关联指向度的视频档位标签，提升了视频标签的丰富度，同时提升了档位标签的确定速率和准确性，整体提升了确定视频档位标签的效率。

请参考图6，其示出了本申请一个实施例提供的机器学习模型的训练方法的流程图一。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20或终端10。该方法可以包括以下几个步骤(610～630)。

步骤610，获取多个样本视频以及多个样本视频各自对应的关联标签。

可选地，上述关联标签是指有关联指向度或无关联指向度的标签。

步骤620，对于多个样本视频中的每个第一样本视频，确定与第一样本视频对应的第二样本视频。

可选地，第一样本视频对应的第一关联标签与第二样本视频对应的第二关联标签不同。

在本申请实施例中，上述关联标签可以只有两种，分别表示两个含义(有关联指向度或无关联指向度)，如果不区分训练样本进行训练，则会导致许多完全不同的样本视频却具有完全一致的标签特征。为了避免上述问题发生，对于每个样本视频，在对比学习训练时，会屏蔽与其标签相同的样本，只将该样本视频与其标注不同的样本视频进行对比训练。

步骤630，基于第一样本视频，第一关联标签、第二样本视频以及第关联标签训练待训练的机器学习模型，得到训练好的机器学习模型。

可选地，上述机器学习模型是基于Contrastive Language-Image Pre-training,(基于对比文本-图像对的预训练模型，CLIP)的分类模型。

在一个示例中，如图7所示，其示例性示出了一种机器学习模型的网络结构示意图。图7左侧部分示出了该机器学习模型的训练过程，即图-文对比学习过程。给定一批图文配对数据，通过图像编码器和文本编码器分别提取它们各自的嵌入特征(即图像特征I1、I2、I3、…、In和文本特征T1、T2、T3、…、Tn)，之后通过对比学习(contrastive learning)，计算图像特征和文本特征两两之间的相似度，得到特征相似度矩阵。对比学习的约束条件是让每张图的图像特征与其对应的文本特征之间的距离最近(即相似度最大，在特征相似度矩阵中就是对角线上的相似度最大)。图7右侧部分示出了测试过程，N个分类的标签(即图中标签1、…、标签n)被封装成对应的句子被送入文本编码器生成N个标签文本特征，而检测图像对应的图像特征与这n个标签文本特征进行相似度计算，找出相似度最大的标签文本特征对应的类别，即分类的结果。

可选地，机器学习模型的基础模型结构不一定要基于CLIP，也可以基于其他任何支持视频帧/文本为输入的对比学习模型。

在一种可能的实施方式中，上述机器学习模型中的图像编码器调整改为视频编码器。

在示例性实施例中，如图8所示，上述步骤630的实施过程可以包括如下步骤(631～636)，图8示出了本申请一个实施例提供的机器学习模型的训练方法的流程图二。

步骤631，确定第一关联标签对应的第一标签特征和第二关联标签对应的第二标签特征。

可选地，将第一关联标签和第二关联标签输入机器学习模型中的标签编码网络进行特征提取处理，得到第一关联标签对应的第一标签特征和第二关联标签对应的第二标签特征。

步骤632，将第一样本视频和第一样本视频对应的视频文本输入待训练的机器学习模型，得到第一样本视频对应的第一融合特征。

可选地，将第一样本视频输入视频编码器进行视频特征提取处理，得到第一样本视频对应的第一视频特征；将第一样本视频对应的视频文本输入文本编码器进行文本特征提取处理，得到第一样本视频对应的第一文本特征；将第一视频特征和第一文本特征输入转换模型进行特征融合，得到第一融合特征。

步骤633，将第二样本视频和第二样本视频对应的视频文本输入待训练的机器学习模型，得到第二样本视频对应的第二融合特征。

可选地，将第二样本视频输入视频编码器进行视频特征提取处理，得到第二样本视频对应的第二视频特征；将第二样本视频对应的视频文本输入文本编码器进行文本特征提取处理，得到第二样本视频对应的第二文本特征；将第二视频特征和第二文本特征输入转换模型进行特征融合，得到第二融合特征。

对于上述机器学习模型而言，可以进行预训练，即第一轮对比学习。模型首先基于样本视频和样本视频文本进行预训练(Pre-training)，如图9所示，其示例性示出了机器学习模型预训练的流程示意图。每次按batch(批次)输入一批样本，按图9所示的方式提取批次内各个样本视频与样本视频文本分别经过视频编码器和文本编码器之后输出的嵌入特征，即样本视频特征和样本文本特征，之后计算样本视频特征和样本文本特征两两之间的相似度，进而通过对比相似度计算预训练对比损失(contrastive loss)信息，从而根据预训练对比损失信息更新视频编码器和文本编码器的参数，直至预训练对比损失信息符合预设条件，实现跨模态特征的语义对齐，并且这一步是下一步生成融合特征的基础。

步骤634，基于第一标签特征、第二标签特征、第一融合特征和第二融合特征，生成特征相似度矩阵。

特征相似度矩阵的行对应第一融合特征和第二融合特征，特征相似度矩阵的列对应第一标签特征和第二标签特征，特征相似度矩阵包括各行对应的特征与各列对应的特征之间的相似度。

步骤635，基于特征相似度矩阵中的相似度确定对比学习损失信息。

机器学习模型完成预训练后，即上述第一轮对比学习训练，冻结已预训练好的视频编码器和文本编码器，去掉预训练对比损失，并增加转换模型(transformer)对样本视频特征和样本文本特征进行特征融合，生成融合模态嵌入特征，即样本融合特征，具体如图10所示，其示例性示出了一种通过对比融合特征与标签特征之间的特征相似度训练机器学习模型的流程示意图。之后，将关联标签信息作为“另一个文本信息”引入，经过一个与文本编码器类似，但是独立的标签编码器，生成关联标签对应的标签特征。后续计算标签特征与融合特征两两之间的特征相似度，并通过对比特征相似度计算对比学习损失信息，进而根据对比学习损失信息更新待训练的机器学习模型的参数，直至对比学习损失信息符合预设条件，从而得到训练好的机器学习模型。

可选地，对第一轮对比学习(预训练)后的视频编码器和文本编码器进行了冻结，防止已训练好的参数受到第二轮对比学习的影响；实际也可以根据需要不冻结。

在进行第二轮对比学习时，需要屏蔽与其标注相同的样本，只训练与其标注不同的样本。下面结合图11所示的特征相似度矩阵，对屏蔽前后的训练效果进行分析，图11示例性示出了特征相似度矩阵的示意图。具体可以这样描述：

若不屏蔽与其标注相同的样本(参考图11左半部分)，任取一行或一列，例如取样本视频V1对应的样本视频特征E1所对应的一行或样本视频V1对应的标签T1所对应的一列，对比学习的目标是使得E1*T1在该行(或列)中最大；之后按此方式遍历所有行/列，完成训练。这其实就是让相似度矩阵中的对角线元素最大化。对于多种标签而言，视频样本与视频文本之间都有复杂的差异，不会有相同的含义，不屏蔽与标注相同的样本进行训练没有任何问题。然而在第二轮对比学习中，标签特征其实只有两个含义(有关联指向度或无关联指向度)，这会导致许多完全不同的样本视频却具有完全一致的标签特征。在此前提下，如果仍直接最大化对角线元素，会出现含义的混淆。

例如图11左半部分，假设在广告投放领域有3个视频素材，其标注分别为无商业性、有商业性、有商业性(无、有、有)；它们对应的融合特征分别为E₀,E₁,E₂，以及它们对应的标签特征分别为T₀,T₁,T₂。当训练到样本1所对应的列时，由于E1,E2都来自于“有商业性”的视频，因此单纯认为E₁T₁>E₂T₁是不合理的；类似地，训练到样本1对应的行时，由于T₁,T₂都来自于“有商业性”的视频(实际上是T₁＝T₂)，认为E₁T₁>E₁T₂也是不合理的。

而通过屏蔽与标注相同的样本可以有效解决该问题。即，对于每个视频样本，在第二轮对比学习时，屏蔽与其标注相同的样本，只训练与其标注不同的样本，如图11右半部分所示。这样一来，在列训练时，只需保证E₁T₁>E₀t₁，而无需关注E₁T₁,E₂T₁的相对关系；类似地，在行训练时，也只需保证E₁T₁>E₁T₀，而无需关注E₁T₁,E₁T₂的相对关系。

步骤636，根据对比学习损失信息更新待训练的机器学习模型的参数，得到训练好的机器学习模型。

可选地，在对比学习损失信息符合预设损失条件的情况下，例如损失值小于预设损失阈值，则可以得到训练好的机器学习模型。

在另外一种可能的实施方式中，可以不进行第二轮对比学习，直接在用于融合特征的转换模型后增加全连接层和分类层，从而计算分类层对应的交叉熵损失来对模型进行参数调整，从而得到训练好的机器学习模型。

对于训练好的机器学习模型，可以进行相应的测试和部署。实际测试或部署中，如图12所示，其示例性示出了训练好的机器学习模型根据输入视频输出相应关联结果的流程示意图，机器学习模型可以基于输入视频的视频信息(如视频帧)和文本信息(如视频文本)，以及各关联标签进行识别，取概率较高的类别作为识别结果。具体地，视频信息经过视频编码器得到视频特征，文本信息经过文本编码器得到文本特征，上述文本特征和视频特征进行融合后得到融合特征；各个关联标签经过标签编码器得到各个标签特征。通过计算融合特征与各个标签特征之间的相似度即可确定目标视频对应的关联标签。若该关联标签是有关联指向度的标签，则认定目标视频与目标对象之间有关联；若该关联标签是无关联指向度的标签，则认定目标视频与目标对象之间无关联，即输出最终的关联关系分类结果。

综上所述，本申请实施例提供的技术方案，在进行针对第一样本视频的训练时，只筛选与其标签不同的第二样本视频进行训练，有效对比不同标签的样本视频之间的差异，防止模型训练坍塌，有效提升了模型的精准性。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图13，其示出了本申请一个实施例提供的视频标签确定装置的框图。该装置具有实现上述视频标签确定方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1300可以包括：

匹配信息获取模块1310，用于获取文本匹配规则信息以及目标视频对应的视频文本，所述文本匹配规则信息用于确定所述视频文本与预设档位之间的对应关系，所述预设档位是指划分所述目标视频与目标对象之间的关联指向度的档位；

视频文本匹配模块1320，用于基于所述文本匹配规则信息对所述视频文本进行规则匹配处理，得到所述目标视频对应的目标档位指标数据，所述目标档位指标数据表征根据所述目标视频关联所述目标对象的关联指向度；

关联结果校验模块1330，用于在所述目标档位指标数据对应目标档位的情况下，对所述目标视频和所述视频文本进行融合校验处理，得到所述目标视频与所述目标对象之间的关联结果，所述关联结果表征所述目标视频与所述目标对象之间的关联情况，所述目标档位是指所述预设档位中位于第一档位与第二档位之间的中间档位；

指标数据更新模块1340，用于根据所述关联结果对所述目标档位指标数据进行更新，得到更新后档位指标数据；

档位标签确定模块1350，用于基于所述更新后档位指标数据，确定所述目标视频对应的档位标签。

在示例性实施例中，所述视频文本匹配模块，还包括：

在示例性实施例中，所述关联结果校验模块，包括：

在示例性实施例中，所述特征提取单元，具体用于：

在示例性实施例中，所述模型训练单元包括：

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述视频标签确定方法。具体来讲：

计算机设备1400包括中央处理单元(Central Processing Unit，CPU)1401、包括随机存取存储器(Random Access Memory，RAM)1402和只读存储器(Read Only Memory，ROM)1403的***存储器1404，以及连接***存储器1404和中央处理单元1401的***总线1405。计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O(Input/Output)***)1406，和用于存储操作***1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

基本输入/输出***1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中显示器1408和输入设备1409都通过连接到***总线1405的输入输出控制器1410连接到中央处理单元1401。基本输入/输出***1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1407通过连接到***总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，大容量存储设备1407可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1404和大容量存储设备1407可以统称为存储器。

根据本申请的各种实施例，计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在***总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述视频标签确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述视频标签确定方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频标签确定方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

另外，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频标签确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频文本包括所述目标视频对应的类别文本，所述类别文本包括至少一个类别等级对应的类别词，所述文本匹配规则信息包括第一匹配规则，所述第一匹配规则包括预设类别词，所述基于所述文本匹配规则信息对所述视频文本进行规则匹配处理，得到所述目标视频对应的目标档位指标数据，包括：

从所述至少一个类别等级中的最高类别等级开始遍历类别词；

在所述预设类别词中查询遍历到的类别词；

在查询到所述遍历到的类别词的情况下，根据所述第一匹配规则查询所述遍历到的类别词对应的第一档位指标数据；

在查询到所述第一档位指标数据的情况下，将所述第一档位指标数据确定为所述目标档位指标数据。

3.根据权利要求2所述的方法，其特征在于，所述在查询到所述遍历到的类别词的情况下，根据所述第一匹配规则查询所述遍历到的类别词对应的第一档位指标数据之后，还包括：

在均未查询到所述至少一个类别等级对应的类别词，或查询到的类别词均未对应所述第一档位指标数据的情况下，获取至少一条第二匹配规则，所述文本匹配规则信息包括所述至少一条第二匹配规则，每一条第二匹配规则都包括预设字符串以及类别适用范围；

在所述至少一条第二匹配规则中查询所述视频文本对应的目标第二匹配规则，所述目标第二匹配规则对应的类别适用范围包括所述类别文本对应的视频类别；

在所述视频文本中查询所述目标第二匹配规则对应的预设字符串；

在查询到所述视频文本包括所述目标第二匹配规则中的目标字符串的情况下，根据所述目标第二匹配规则确定第二档位指标数据；

将所述第二档位指标数据确定为所述目标档位指标数据。

4.根据权利要求3所述的方法，其特征在于，所述在所述至少一条第二匹配规则中查询所述视频文本对应的目标第二匹配规则之后，还包括：

在未查询到所述目标第二匹配规则，或所述视频文本不包括所述目标第二匹配规则对应的预设字符串的情况下，获取第三匹配规则，所述第三匹配规则包括预设关键词以及所述预设关键词对应的档位；

在所述视频文本中查询所述预设关键词；

在查询到所述视频文本包括目标关键词的情况下，根据所述第三匹配规则确定所述目标关键词对应的档位；

根据所述目标关键词对应的档位确定所述目标档位指标数据。

5.根据权利要求4所述的方法，其特征在于，所述第一匹配规则还包括所述预设类别词对应的默认档位指标数据，所述在所述视频文本中查询所述预设关键词之后，还包括：

在所述视频文本不包括所述预设关键词的情况下，在所述预设类别词中确定所述类别文本对应的目标类别词；

基于所述第一匹配规则确定所述目标类别词对应的默认档位指标数据；

将所述目标类别词对应的默认档位指标数据确定为所述目标档位指标数据。

6.根据权利要求1所述的方法，其特征在于，所述在所述目标档位指标数据对应目标档位的情况下，对所述目标视频和所述视频文本进行融合校验处理，得到所述目标视频与所述目标对象之间的关联结果，包括：

在所述目标档位指标数据对应所述目标档位的情况下，对所述目标视频和所述视频文本进行特征提取处理，得到视频特征和文本特征；

对所述视频特征和文本特征进行融合处理，得到融合特征；

基于所述融合特征进行关联关系分类处理，得到所述关联结果。

7.根据权利要求6所述的方法，其特征在于，所述在所述目标档位指标数据对应所述目标档位的情况下，对所述目标视频和所述视频文本进行特征提取处理，得到视频特征和文本特征，包括：

所述基于所述融合特征进行关联关系分类处理，得到所述关联结果，包括：

将所述融合特征输入所述分类网络进行关联关系分类处理，得到所述关联结果。

8.根据权利要求7所述的方法，其特征在于，所述训练好的机器学习模型对应的训练过程包括：

获取多个样本视频以及所述多个样本视频各自对应的关联标签；

对于所述多个样本视频中的每个第一样本视频，确定与所述第一样本视频对应的第二样本视频，所述第一样本视频对应的第一关联标签与所述第二样本视频对应的第二关联标签不同；

基于所述第一样本视频，所述第一关联标签、所述第二样本视频以及所述第关联标签训练待训练的机器学习模型，得到所述训练好的机器学习模型。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一样本视频，所述第一关联标签、所述第二样本视频以及所述第关联标签训练待训练的机器学习模型，得到所述训练好的机器学习模型，包括：

确定所述第一关联标签对应的第一标签特征和所述第二关联标签对应的第二标签特征；

将所述第一样本视频和所述第一样本视频对应的视频文本输入所述待训练的机器学习模型，得到所述第一样本视频对应的第一融合特征；

将所述第二样本视频和所述第二样本视频对应的视频文本输入所述待训练的机器学习模型，得到所述第二样本视频对应的第二融合特征；

基于所述第一标签特征、所述第二标签特征、所述第一融合特征和所述第二融合特征，生成特征相似度矩阵，所述特征相似度矩阵的行对应所述第一融合特征和所述第二融合特征，所述特征相似度矩阵的列对应所述第一标签特征和所述第二标签特征，所述特征相似度矩阵包括各行对应的特征与各列对应的特征之间的相似度；

基于所述特征相似度矩阵中的相似度确定对比学习损失信息；

根据所述对比学习损失信息更新所述待训练的机器学习模型的参数，得到所述训练好的机器学习模型。

10.根据权利要求1至10任一项所述的方法，其特征在于，所述根据所述关联结果对所述目标档位指标数据进行更新，得到更新后档位指标数据，包括：

在所述关联结果指示所述目标视频与所述目标对象之间有关联的情况下，保持所述目标档位指标数据不变，得到所述更新后档位指标数据；

在所述关联结果指示所述目标视频与所述目标对象之间无关联的情况下，将所述第二档位对应的档位指标数据确定为所述更新后档位指标数据；

11.一种视频标签确定装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一项所述的视频标签确定方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一项所述的视频标签确定方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现如权利要求1至10任一项所述的视频标签确定方法。