WO2022188644A1

WO2022188644A1 - 词权重的生成方法、装置、设备及介质

Info

Publication number: WO2022188644A1
Application number: PCT/CN2022/078183
Authority: WO
Inventors: 黄剑辉
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-03-09
Filing date: 2022-02-28
Publication date: 2022-09-15
Also published as: CN113010740A; US20230057010A1; CN113010740B

Abstract

一种词权重的生成方法、装置、设备及介质，属于信息处理领域。所述方法包括：获取视频和视频关联文本，视频关联文本包括至少一个词语(201)；对视频、视频关联文本和词语三种信息的特征进行多模态特征融合，生成词语的中间向量(202)；基于词语的中间向量，生成词语的词权重(203)。

Description

词权重的生成方法、装置、设备及介质

本申请要求于2021年3月9日提交的申请号为202110258046.3、发明名称为“词权重的生成方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息处理领域，特别涉及一种词权重的生成方法、装置、设备及介质。

背景技术

视频标题是用于描述视频的视频内容的文字信息。在视频搜索***中需要基于对视频内容的语义的理解，对视频标题中的各个词语的权重值进行预先提取，以便于后续的视频搜索过程。例如视频标题中某个词语的权重值越高，则该词语与视频内容的关联度越高，因此搜索时该词语的重要程度也会越高。

相关技术中，对词权重的生成方法主要是对视频标题的句子和视频标题中的各词语进行分别编码，得到句子向量和词语向量。对编码完成后的句子向量和词语向量进行特征融合，得到融合向量，对融合向量进行二分类判断，从而判断当前词语是否为核心词，进而输出当前词语的词权重。

上述方法生成的词权重在某些情况下是不准确的。比如，视频标题是“双击这个视频，你会发现烤猪肉比烤鱼肉的做法更简单”，上述方法难以对“烤猪肉”和“烤鱼肉”的权重做出有力区分。

发明内容

本申请提供了一种词权重生成方法、装置、设备及介质，通过融入视频的画面特征信息，能够提高词权重值的准确率和可靠程度。所述技术方案如下：

根据本申请的一个方面，提供了一种词权重生成方法，由计算机设备执行，所述方法包括：

获取视频和视频关联文本，视频关联文本包括至少一个词语，视频关联文本是与视频的内容存在关联关系的文本信息；

对视频、视频关联文本和词语三种信息的特征进行多模态特征融合，生成词语的中间向量；

基于词语的中间向量，生成词语的词权重。

根据本申请的一个方面，提供了一种词权重的生成装置，所述装置包括：

获取模块，用于获取视频和视频关联文本，视频关联文本包括至少一个词语，视频关联文本是与视频的内容存在关联关系的文本信息；

生成模块，用于对视频、视频关联文本和词语三种信息的特征进行多模态特征融合，生成词语的中间向量；

生成模块，还用于基于词语的中间向量，生成词语的词权重。

在一个可选的实施例中，生成模块包括提取模块和融合模块。

在一个可选的实施例中，提取模块，用于提取视频的视频特征向量；提取视频关联文本的文本特征向量；以及提取词语的词语特征向量；

在一个可选的实施例中，融合模块，用于将视频特征向量、文本特征向量和词语特征向量进行融合，得到词语的中间向量。

在一个可选的实施例中，融合模块包括第一融合子模块和第二融合子模块。

在一个可选的实施例中，第一融合子模块，用于将视频特征向量、文本特征向量和词语特征向量进行第一融合，得到第一融合向量；

在一个可选的实施例中，第二融合子模块，用于将第一融合向量和词语特征向量进行第二融合，得到词语的中间向量。

在一个可选的实施例中，第一融合子模块包括第一拼接模块和第一映射模块。

在一个可选的实施例中，第一拼接模块，用于将视频特征向量、文本特征向量和词语特征向量进行依次拼接，得到第一拼接向量；

在一个可选的实施例中，第一映射模块，用于将第一拼接向量进行全连接特征映射，得到第一融合向量。

在一个可选的实施例中，第二融合子模块包括第二拼接模块和第二映射模块。

在一个可选的实施例中，第二拼接模块，用于将第一融合向量和词语特征向量进行依次拼接，得到第二拼接向量；

在一个可选的实施例中，第二映射模块，用于将第二拼接向量进行全连接特征映射，得到词语的中间向量。

在一个可选的实施例中，生成模块还包括转换模块。

在一个可选的实施例中，转换模块，用于将中间向量进行维度变换，得到一维向量；

在一个可选的实施例中，转换模块，还用于将一维向量进行归一化处理，得到词语的词权重。

在一个可选的实施例中，转换模块，用于将一维向量通过阈值函数进行转换，得到词语的词权重。

在一个可选的实施例中，提取模块包括视频提取模块、文本提取模块和词语提取模块。其中，视频提取模块包括分帧模块、提取子模块和计算模块。

在一个可选的实施例中，分帧模块用于对视频进行分帧操作，得到至少两个视频帧；

在一个可选的实施例中，提取子模块用于提取至少两个视频帧的视频帧向量；

在一个可选的实施例中，计算模块用于计算至少两个视频帧的视频帧向量的平均向量，将平均向量确定为视频特征向量；或，计算至少两个视频帧的视频帧向量的加权向量，将加权向量确定为视频特征向量。

在一个可选的实施例中，计算模块，用于：

通过目标检测模型确定每个视频帧包括的目标对象；

通过分类模型对目标对象进行分类，得到每个视频帧对应的目标对象分类；

计算每个视频帧对应的目标对象分类与词语的相似度；

根据每个视频帧对应的相似度确定每个视频帧的视频帧向量的权重，权重与相似度正相关；

根据至少两个视频帧的视频帧向量，以及至少两个视频帧的视频帧向量各自的权重，计算至少两个视频帧的视频帧向量的加权向量，将加权向量确定为视频特征向量。

在一个可选的实施例中，提取子模块还用于调用残差神经网络提取视频中的至少两个视频帧的视频帧向量。

在一个可选的实施例中，文本提取模块，用于调用双向编码转换网络提取视频关联文本的文本特征向量，或，调用长短期记忆网络提取视频关联文本的文本特征向量。

在一个可选的实施例中，词语提取模块包括分词模块和词语提取子模块。

在一个可选的实施例中，分词模块，用于对视频关联文本进行分词，得到词语；

在一个可选的实施例中，词语提取子模块，用于调用深度神经网络提取词语的词语特征向量。

在一个可选的实施例中，分词模块还用于调用中文分词工具对视频关联文本进行分词，得到词语。

在一个可选的实施例中，提取模块，用于：

基于视频中的视频帧，提取得到视频帧向量；

基于视频中的音频帧，提取得到音频帧向量；

基于视频帧中的文本，提取得到文本幕向量；

将视频帧向量、音频帧向量和文本幕向量中的至少两种进行融合，得到视频特征向量。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上所述的词权重生成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上所述的词权重生成方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述词权重生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将视频、视频关联文本和词语进行多维度的特征结合，生成中间向量，基于中间向量，生成词语的词权重。在视频搜索过程中，采用上述词权重生成方法来预先提取词语的权重值，不仅考虑了文本维度的特征，还引入融合了视频维度的特征，基于多维度的特征来进行词权重生成，有利于提升输出的词权重的准确率和可靠程度，提高了视频关联文本中对关键词语和混淆词语之间的区分度。

附图说明

图1是根据一示例性实施例提供的一种词权重生成***的示意图；

图2是本申请一个示例性实施例提供的词权重的生成方法的流程图；

图3是本申请一个示例性实施例提供的词权重生成模型的示意图；

图4是本申请另一个示例性实施例提供的词权重生成模型的示意图；

图5是本申请一个示例性实施例提供的词权重生成方法的流程图；

图6是本申请一个示例性实施例提供的生成视频特征向量的流程图；

图7是本申请一个示例性实施例提供的生成文本特征向量的流程图；

图8是本申请一个示例性实施例提供的生成词语特征向量的流程图；

图9是本申请一个示例性实施例提供的词权重生成模型的训练方法的流程图；

图10是本申请一个示例性实施例提供的词权重生成方法流程图；

图11是本申请的一个示例性实施例提供的词权重生成装置的结构框图；

图12示出了本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

首先，对本申请实施例中涉及的名词进行简单介绍：

词语重要度：指词语对句子表达的意思起到的作用大小。常见的，一个完整句子的组成部分包括主语、谓语、宾语、定语、状语和补语，示例性的，句子为“双击这个视频，你会发现烤猪肉比烤鱼肉的做法更简单”，去掉连接词和人称代词，该句子主要由词语“双击”“视频”“发现”“烤猪肉”“烤鱼肉”“做法”“简单”组成。基于对句子整体的意思理解，容易得到“烤猪肉”、“烤鱼肉”对句子的意思表达起到关键作用。更为具体的，“烤猪肉”比“烤鱼肉”对句子意思表达起的作用更进一步，即，“烤猪肉”词语的重要度比“烤鱼肉”词语的重要度要高。

在一个实施例中，采用词语在句子中的权重值来表示词语的重要度。示意性的，上述句子中，“烤猪肉”的权重值为0.91，“烤鱼肉”的权重值为0.82，即通过权重值的大小比较，可得“烤猪肉”比“烤鱼肉”更重要。

残差神经网络(Residual Network，ResNet)：一种基于深度学习的特征提取神经网络。在传统的深度学习中，在神经网络可以收敛的前提下，随着网络深度增加，网络的表现先是逐渐增加至饱和，然后迅速下降，即为网络退化问题；在传统的深度学习中，存在梯度弥散问题；残差神经网络为深度学习神经网络添加一个恒等映射，解决了上述网络退化问题和梯度弥散问题。

在本申请中，残差神经网络用于将图像转换为可进行运算的数学语言，示例性的，残差神经网络将视频帧转换为视频帧向量，该视频帧向量包含了反映视频帧的内容的信息，即可用该视频帧向量替换上述视频帧。

双向编码转换模型(Bidirectional Encoder Representations from Transformers，BERT)：一种句子转换模型，可实现将真实世界抽象存在的文字转换成能够进行数学公式操作的向量。在一个实施例中，BERT将输入的文本转换为文本向量，该文本向量包含反映文本的内容的信息，即可用该文本向量替换上述文本。

深度神经网络(Deep Neural Networks，DNN)：含有全连接的神经元结构的多层神经网络，实现把真实世界存在的客观事物转换为可以进行数学公式操作的向量。在一个实施例中，DNN将输入的词语转换为词向量，该词向量包含反映词语的内容的信息，即可用该词向量替换上述词语。

阈值函数：实现数值区间的转换，例如，数字x所处区间为[0，100]，通过阈值函数，将数字x转换为区间[0，1]的数字y。通过S型(sigmoid)函数(一种阈值函数)，能够实现将一维向量映射为区间[0，1]上的数字，在本申请中，通过将一维向量映射到区间[0，1]上，得到词权重。

本申请实施例的方案包括模型训练阶段和词权重预测阶段。图1是根据一示例性实施例示出的一种词权重生成***的示意图。如图1所示，在模型训练阶段，模型训练设备110通过预先设置好的训练样本集训练出准确性较高的词权重生成模型，在词权重预测阶段，词权重生成设备120根据训练出的词权重生成模型以及输入的视频和文本，预测文本中词语的权重值。

其中，上述模型训练设备110和词权重预测设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是终端或服务器。

可选的，上述模型训练设备110和词权重预测设备120可以是同一个计算机设备，或者，模型训练设备110和词权重预测设备120也可以是不同的计算机设备。并且，当模型训练设备110和词权重预测设备120是不同的设备时，模型训练设备110和词权重预测设备120可以是同一类型的设备，比如模型训练设备110和词权重预测设备120可以都是服务器；或者，模型训练设备110和词权重预测设备120也可以是不同类型的设备。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

针对词权重的预测阶段进行介绍：

为提升生成的词权重值的准确率和可靠程度，采用图2所述的方法生成词语的词权重。图2示出了本申请一个示例性实施例提供的词权重的生成方法流程图。该方法由计算机设备执行。如图2所示，该方法包括：

步骤201：获取视频和视频关联文本，视频关联文本包括至少一个词语。

视频和视频关联文本之间存在对应关系，具体的，视频关联文本是与视频的内容存在关联关系的文本信息。例如，视频关联文本为视频的标题或视频的视频简介。可选地，在需要比较不同词语之间的词权重的情况下，该视频关联文本包括至少两个词语。

在一个实施例中，视频关联文本是与视频相对应的标题，视频关联文本与视频彼此独立，其中，该标题由人为标注或机器生成，用于简要阐述该视频的中心含义。示例地，视频的内容为介绍烤肉的做法，标题为“教你学会做烤肉”。

在一个实施例中，视频关联文本是与视频相对应的视频简介，视频关联文本与视频彼此独立，其中，该视频简介由人为撰写或机器生成，用于简要阐述该视频的具体内容。示例地，视频的内容为介绍烤肉的做法，视频介绍为“本视频介绍了烤肉的做法，分为预处理、腌制、和烧烤三个步骤”。

可选地，计算机设备通过本地数据库或内容服务器获取视频和视频关联文本。该内容服务器用于存储大量的视频以及视频对应的视频关联文本，并推送至用户侧进行展示。例如该内容服务器为视频点播应用、短视频应用、歌曲应用的后台服务器。该计算机设备与内容服务器为相同或不同的设备。

步骤202：对视频、视频关联文本和词语三种信息的特征进行多模态特征融合，生成词语的中间向量。

其中，多模态特征融合指计算机设备对视频、视频关联文本、词语分别进行特征提取，得到视频特征向量、文本特征向量和词语特征向量，之后对视频特征向量、文本特征向量和词语特征向量进行向量融合运算。由于视频、视频关联文本以及词语是不同模态的信息，因此对视频、视频关联文本以及词语的特征进行特征融合可称为多模态特征融合。

可选地，上述多模态特征融合包括以下两个步骤：

第一，提取视频的视频特征向量；提取视频关联文本的文本特征向量；以及提取词语的词语特征向量；

其中，视频特征向量指示视频特征信息、文本特征向量指示视频关联文本的特征信息、词语特征向量指示词语特征信息。视频特征向量用于反映视频的内容的特征，文本特征向量用于反映文本的语义的特征，词语特征向量用于反映词语的语义的特征。

第二，将视频特征向量、文本特征向量和词语特征向量进行融合，得到词语的中间向量。

其中，通过特征融合得到的中间向量，同时包含视频、视频关联文本和词语的特征信息。

步骤203：基于词语的中间向量，生成词语的词权重。

可选地，基于词语的中间向量生成词语的词权重包括以下两个步骤：

第一、将中间向量进行维度变换，得到一维向量；

计算机设备基于对视频、视频关联文本和词语的特征进行多模态特征融合，能够生成词语的中间向量。其中，中间向量为包含视频、视频关联文本和词语的特征信息的多维度向量；在一个实施例中，通过全连接映射实现将中间向量变换为一维向量。

第二、将一维向量进行归一化处理，得到词语的词权重。

在一个实施例中，计算机设备通过上述全连接映射对中间向量进行维度变换，如中间向量维度为388维，进行维度变换得到1维向量。其中，1维向量包含了词向量在句子向量的重要度信息。通过对1维向量进行归一化处理，能够实现将1维向量转化为区间[0，1]上的一个数值，该数值即为词语的词权重。在一个实施例中，计算机设备通过阈值函数能够实现对一维向量的归一化处理，例如通过sigmoid函数对1维向量进行数值区间的转换，可实现将一维向量映射到区间[0，1]上，得到词权重。可选地，通过线性函数，也能够实现对1维向量的归一化处理，例如最小最大缩放(Min-Max scaling)函数。本申请对实现归一化处理的方式不作限制。

综上所述，通过将视频、视频关联文本和词语的特征结合，生成中间向量，基于中间向量，生成词语的词权重。在视频搜索过程中，采用上述词权重生成方法来预先提取词语的权重值，不仅考虑了文本维度的特征，还引入融合了视频维度的特征，基于多维度的特征来进行词权重生成，有利于提升输出的词权重的准确率和可靠程度，提高了视频关联文本中对关键词语和混淆词语之间的区分度。

图3示出了本申请一个示例性实施例提供的词权重生成模型的示意图，图3中词权重生成模型300包括：分词网络310、转换网络320、融合网络330和映射网络340。其中，分词网络310用于将视频关联文本进行分词得到至少一个词语；转换网络320用于将视频转换为视频特征向量、将视频关联文本转化为文本特征向量、将词语转换为词语特征向量；融合网络330用于将视频特征向量、文本特征向量和词语特征向量融合得到中间向量；映射网络340用于将中间向量映射为中间向量对应的词语的词权重。

图4示出了本申请另一个示例性实施例提供的词权重生成模型的示意图。词权重生成模型包括分词网络310、转换网络320、融合网络330、映射网络340。转换网络320包括第一转换子网络321、第二转换子网322和第三转换子网络323。融合网络330包括第一融合子网络331和第二融合子网络332。

图5示出了本申请一个示例性实施例的词权重生成方法流程图。该方法由计算机设备执行。结合参考图4的词权重生成模型，该词权重生成方法包括：

步骤510：调用第一转换子网络321对视频进行处理，输出视频的视频特征向量；

示例性的，第一转换子网络321用于对视频进行分帧操作，计算机设备通过调用第一转换子网络321对视频进行处理，能够得到视频的至少两个视频帧，然后提取至少两个视频帧的视频帧向量，再计算至少两个视频帧的视频帧向量的平均向量，将平均向量确定为视频特征向量；或，计算至少两个视频帧的视频帧向量的加权向量，将加权向量确定为视频特征向量。

可选地，计算机设备通过目标检测模型确定每个视频帧包括的目标对象，并通过分类模型对目标对象进行分类，得到每个视频帧对应的目标对象分类。该目标检测模型用于检测视频帧包括的目标对象，例如人物、动物、植物、以及不同类型的物体。该分类模型用于对检测到的目标对象进行分类，从而得到目标对象分类。例如检测的目标对象为视频帧中的动物所在的区域，将该区域输入分类模型可得到该目标对象为猫。该目标检测模型以及分类模型基于卷积神经网络(Convolutional Neural Network，CNN)实现。可选地，该目标检测模型不仅能够实现检测视频帧中的目标对象，还能够实现对目标对象进行分类。在该情况下计算机设备通过该目标检测模型即可直接得到目标对象分类。

之后，计算机设备计算每个视频帧对应的目标对象分类与词语的相似度，并根据每个视频帧对应的相似度确定每个视频帧的视频帧向量的权重，该权重与相似度正相关。即目标对象分类与词语的相似越高，该目标对象分类对应的视频帧的视频帧向量的权重越高。在确定每个视频帧的视频帧向量的权重后，计算机设备根据至少两个视频帧的视频帧向量，以及至少两个视频帧的视频帧向量各自的权重，计算至少两个视频帧的视频帧向量的加权向量，并将加权向量确定为视频特征向量。通过上述方式确定视频帧向量的权重，能够实现提升与词语关联的视频帧向量的权重，从而使与词语关联的视频帧在确定视频特征向量的过程中起到更大的作用。能够实现使确定的视频特征向量，更突出视频的特征中与词语存在强关联的特征，进而能够提升确定视频特征向量的准确度。可选地，上述权重还能够是人工设置的。

可选的，上述分帧操作至少包括以下两种处理方式：

第一、根据固定时间间隔提取视频帧；

示意性的，假设视频时长为30s，预设采样时长间隔为0.2s，则计算机设备对视频进行分帧操作指每隔0.2s采集视频帧。

第二、根据预设的采集规则提取视频帧。

在一个实施例中，假设视频时长为30s，预先设定在视频时长的前20％时长内，每隔1s采集视频帧，在视频时长的中间60％时长内，每隔0.2s采集视频帧，在视频时长的后20％时长内，每隔1s采集视频帧。

可选的，上述计算机设备提取至少两个视频帧的视频帧向量包括：调用残差神经网络提取视频中的至少两个视频帧的视频帧向量。

示意性的，如图6所示，计算机设备对视频601分帧，得到四个视频帧602。将四个视频帧602输入至ResNet603，分别得到第一帧向量、第二帧向量、第三帧向量和第四帧向量。将上述四个帧向量取平均或加权得到视频帧向量。在一个实施例中，上述计算至少两个视频帧的视频帧向量的平均向量，指对第一帧向量、第二帧向量、第三帧向量和第四帧向量进行累加之后求平均值。在一个实施例中，上述计算至少两个视频帧的视频帧向量的加权向量，指对第一帧向量、第二帧向量、第三帧向量和第四帧向量进行加权求和。例如，第一帧向量为a、第二帧向量为b、第三帧向量为c和第四帧向量为d，假设对第一帧向量赋予权重0.3，第二帧向量赋予权重0.1，第三帧向量赋予权重0.2和第四帧向量赋予权重0.4，则得到的视频特征向量为0.3a+0.1b+0.2c+0.4d。

步骤520：调用第二转换子网络322对视频关联文本进行处理，输出视频关联文本的文本特征向量；

在一个实施例中，第二转换子网络322包括双向编码转换(Bidirectional Encoder Representation from Transformers，BERT)网络和/或长短期记忆(Long Short-Term Memory，LSTM)网络。计算机设备调用双向编码转换网络提取视频关联文本的文本特征向量，或，调用长短期记忆网络提取所述视频关联文本的文本特征向量。可选地，计算机设备还能够通过分别调用双向编码转换网络和长短期记忆网络，提取视频关联文本的文本特征向量。之后计算两个网络提取到的文本特征向量的平均值或加权平均值，从而得到最终确定的文本特征向量。

可选的，如图7所示，视频关联文本701输入至Bert网络702，得到文本特征向量。

步骤530：调用分词网络310对视频关联文本进行分词，得到词语；

在一个可选的实施例中，分词网络内设jieba(一种第三方中文分词库)，jieba内支持三种分词模式，第一、精确模式：将语句进行最精确的切分，不存在冗余数据，适合做文本分析；第二、全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余数据；第三、搜索引擎模式：在精确模式的基础上，对长词再次进行切分。在实际使用场景中，根据视频关联文本的类型、长短等对模式进行选择，最终实现将视频关联文本转换为至少一个词语。计算机设备通过调用上述分词网络，能够实现对视频关联文本进行分词。

在一个实施例中，视频关联文本为“这鲁班没救了，经济被压制，完全起不来，手机给你来玩！”，其中，在精确模式下分词得到的词语包括“这”“鲁班”“没救了”“经济”“被”“压制”“完全”“起不来”“手机”“给”“你来玩”“！”；在全模式下分词得到的词语包括“鲁班”“没救”“经济”“压制”“完全”“手机”；在搜索引擎模式下分词得到的词语包括“这”“鲁班”“没”“救”“了”“经济”“被”“压制”“完全”“起”“不”来”“手机”“给”“你”“来”“玩”“！”。

步骤540：调用第三转换子网络323对词语进行处理，输出词语的词语特征向量；

在一个实施例中，第三转换子网络323包括深度神经网络。计算机设备调用深度神经网络提取词语的词语特征向量。示意性的，如图8所示，计算机设备将词语输入DNN801，得到词语向量。

步骤550：调用第一融合子网络331将视频特征向量、文本特征向量和词语特征向量进行第一融合，得到第一融合向量；

在一个实施例中，计算机设备调用第一融合子网络将视频特征向量、文本特征向量和词语特征向量进行依次拼接，得到第一拼接向量。之后将第一拼接向量进行全连接特征映射，得到第一融合向量。

上述拼接指对所有向量进行维度拼接，如原本视频帧向量维度为318维、文本向量为50维、词向量为10维，则得到的第一拼接向量维度为378维。在一个实施例中，上述全连接特征映射指对得到的第一拼接向量进行映射，得到第一融合向量。示意性的，第一拼接向量为 [a，b，c]，其中a，b，c分别指示视频信息、视频关联文本信息和词语信息，通过全连接层映射得到第一融合向量[0.9a，3b，10c]，其中，0.9a、3b、10c、分别指示视频信息、视频关联文本信息和词语信息，即全连接特征映射改变了视频信息、视频关联文本信息和词语信息之间的融合程度。上述示例仅起到解释说明作用，实际全连接特征映射实现在高维空间，且融合的程度随着输入的视频、视频关联文本和词语的改变随之发生变化。

步骤560：调用第二融合子网络332将第一融合向量和词语特征向量进行第二融合，得到词语的中间向量；

在一个实施例中，计算机设备调用第二融合子网络332将第一融合向量和词语特征向量进行依次拼接，得到第二拼接向量。之后将第二拼接向量进行全连接特征映射，得到词语的中间向量。拼接和全连接特征映射同第一融合子网络相类似，不再赘述。通过上述第一融合子网络的拼接和第二融合子网络的拼接，强化了当前词语的重要性，提升了词语特征向量在中间向量的权重。

步骤570：调用映射网络340将中间向量进行维度变换，得到一维向量，并将一维向量进行归一化处理，得到词语的词权重。

在一个实施例中，通过上述全连接映射对中间向量进行维度变换，如中间向量维度为388维，进行维度变换得到1维向量。其中，1维向量包含了词语特征向量在文本特征向量的重要度信息。计算机设备通过将1维向量进行归一化处理，能够得到区间[0，1]上的一个值，该值即为词语的词权重。在一个实施例中，计算机设备采用sigmoid函数对1维向量进行数值区间的转换(即归一化处理)，通过将一维向量映射到区间[0，1]上得到词权重。

综上所述，本实施例提供的方法，通过对视频、视频关联文本和词语进行特征提取得到视频特征向量、文本特征向量和词语特征向量，再将上述三种模态的特征向量进行拼接和全连接映射，得到第一融合向量，然后将第一融合向量和词语特征向量进行拼接和全连接映射，得到中间向量，基于中间向量，得到词语的词权重。

本实施例提供的方法，还通过对词语特征向量进行了两次拼接，强化了当前词语特征向量在中间向量的信息量占比，有利于提高视频关联文本中不同词语的权重值区分度。

本实施例提供的方法，还对视频特征向量、文本特征向量和词语特征向量进行融合，不仅考虑了文本维度的特征，还引入融合了视频维度的特征，基于多维度的特征来进行词权重生成，有利于提升输出的词权重的准确率和可靠程度，提高了视频关联文本中对关键词语和混淆词语之间的区分度。

本实施例提供的方法，还通过采用残差神经网络对视频进行特征提取、采用双向编码转换网络或长短期记忆网络对视频关联文本进行特征提取和采用深度神经网络对词语进行特征提取，实现了将自然语言转换为可进行数学运算的特征向量，简化了本申请词权重生成方法的数学运算。

针对模型训练阶段进行介绍：

上述词权重生成模型是采用训练方法训练得到的。图9是本申请的一个示例性实施例提供的词权重生成模型的训练方法的流程图。该方法由计算机设备执行。该方法包括：

步骤901：获取样本视频、样本视频关联文本和样本词权重。

样本视频和样本视频关联文本之间存在对应关系。样本视频关联文本是与样本视频的内容存在关联关系的文本信息。可选地，该样本视频关联文本包括至少一个词语。该样本词权重是人工对样本视频关联文本中的词语进行重要程度标定得到的。

步骤902：将样本视频、样本视频关联文本输入词权重生成模型。

步骤903：获取词权重生成模型输出的预测词权重。

预测词权重指的是计算机设备通过将样本视频和样本视频关联文本输入词权重生成模型，从而得到的词权重生成模型输出的词权重。

步骤904：计算样本词权重和预测词权重的误差。

步骤905：根据误差，优化词权重生成模型的网络参数。

词权重生成模型的网络参数用于调整词权重生成模型的性能，在本申请中，词权重生成模型的网络参数至少包括ResNet的网络参数、BERT的网络参数、DNN的网络参数，视频特征向量、文本特征向量和词语特征向量之间的融合参数。

基于图2的可选实施例中，步骤201获取视频和视频关联文本，视频关联文本包括至少一个词语中，视频的获取方法包括：逐个获取目标视频库中的视频文件作为目标视频进行后续处理。

在一个实施例中，目标视频为视频库中已存储视频文件的一个视频片段，该目标视频的提取包括如下方式中的至少一种：

(1)基于预设时长区间对视频文件进行划分，如：提取视频文件开头前两分钟的视频片段作为视频。

(2)通过人工手动对目标视频进行提取。

也即，基于人工对视频库中已存储的视频文件进行提取，如：观看人认为视频文件中第5至第6分钟的视频片段为本视频文件的核心视频，观看人提取该核心视频作为目标视频。

(3)通过视频提取模型对目标视频进行提取。

即，将视频库中存储的视频文件输入视频提取模型，由视频提取模型对上述视频文件进行特征提取后，对上述视频文件中的帧与帧之间的关联性进行分析，从而对视频文件进行提取，得到目标视频。

在一个实施例中，目标视频为符合筛选条件的视频文件，示意性的，目标视频为指定用户上传的视频文件，或，目标视频为符合要求的视频类型的视频文件，或，视频时长达到阈值的视频文件。

针对目标视频为符合要求的视频类型的视频文件的情况，示例性的，当视频文件为电视剧中的某一集、电影视频、电影片段、纪录片视频等类型的视频时，将该视频文件作为目标视频进行获取。

针对上述目标视频为指定用户上传的视频文件，示例性的，当视频文件为某专业机构上传的视频、某公共人物上传的视频、某权威人士上传的视频时，将该视频文件作为目标视频进行获取。

基于图2的可选实施例中，提取视频的视频特征向量包括以下步骤：

第一、基于视频中的视频帧，提取得到视频帧向量；

其中，视频包括视频帧和音频帧，此处的视频帧表现为画面。其中，画面特征是指从视频的界面表现上提取得到的特征，其中，画面特征中包括与主题名称、弹幕、对白等文本内容对应的特征，也包括与视频画面帧对应的特征。

在一个可选的实施例中，计算机设备采用ResNet特征提取视频帧得到视频帧向量，即将视频帧由原本的自然语言转换为能进行数学运算的向量。

第二、基于视频中的音频帧，提取得到音频帧向量；

音频帧表现为视频中的声音，在一个实施例中，音频帧与画面帧之间达成匹配，即音画同步，即在同一时间点同时提取音频帧和画面帧；在一个实施例中，音频帧与画面帧之间不匹配，即音画异步，即提取音频帧和画面帧的时间点不一致。

在一个可选的实施例中，计算机设备采用卷积神经网络(Convolutional Neural Networks，CNN)对音频帧进行特征提取，得到音频帧向量，即将音频帧由原本的自然语言转换为能进行数学运算的向量。

第三、基于视频帧中的文本，提取得到文本幕向量；

视频帧中的文本是指与目标视频相关的，目标视频所涉及的文本内容，示意性的，视频帧中的文本包括弹幕内容、画面中出现的内容、对白内容等。

在一个可选的实施例中，计算机设备采用BERT特征提取画面上的文本，得到文本幕向量，即将画面上的文本由原本的自然语言转换为能进行数学运算的向量。

第四、将视频帧向量、音频帧向量和文本幕向量中的至少两种进行融合，得到视频特征向量。

在一个实施例中，采用加权方式实现视频帧向量、音频帧向量和文本幕向量中的至少两种进行融合，示意性的，视频帧向量为x、音频帧向量为y、文本幕向量为z，假设对视频帧向量赋予权重0.5，音频帧向量赋予权重0.1，文本幕向量赋予权重0.4，则得到的视频特征向量为0.5x+0.1y+0.4z。

图10是本申请一个示例性实施例提供的词权重生成方法的流程图。示例性的，输入句子“双击这个视频，你会发现烤猪肉比烤鱼肉的做法更简单”可表示为text＝[x0，x1，…]，输入词语为xi，抽取得到的视频关键帧为fi，则句子的编码向量为Vtext＝BERT(text)，关键帧编码向量为Vimg＝ResNet(fi)，词语的编码向量为Vword＝DNN(xi)，则第一融合向量Fusion1＝fusion(Vtext，Vimg，Vword)，其中fusion为多类特征向量拼接后通过全连接方式完成特征映射得到。第二次融合的输入为首次融合得到的Fusion1向量和词语向量，第二融合向量Fusion2＝fusion(Fusion1，Vword)，模型特征融合过程中的两次融合强化了词语的重要性，可以有效的识别该词在句子的重要程度，即词权重值。图10中用

指示关键帧编码向量一个维度信息，用

指示句子编码向量的一个维度信息，用

指示词语编码向量的一个维度信息。第一次融合向量Fusion1和第二次融合向量Fusion2采用上述三种圆的占比关系来表示关键帧编码向量、句子编码向量和词语编码向量的融合程度。

对本申请涉及的应用场景进行介绍：

以本申请提供的方法应用于视频搜索场景为例进行说明，实现视频搜索的过程可分为3个阶段：模型训练阶段、预处理阶段以及搜索阶段。

模型训练阶段：服务器获取样本视频、样本视频关联文本和样本词权重。其中，样本视频关联文本是与样本视频的内容存在关联关系的文本信息，样本词权重是人工对样本视频关联文本中的词语进行重要程度标定得到的。可选地，服务器通过本地数据库或通过内容服务器，获取上述训练样本。在获取到训练样本后，服务器将训练样本输入词权重生成模型，得到词权重生成模型预测的视频关联文本中的词语的预测词权重。之后，服务器根据样本词权重和预测词权重之间的误差，训练词权重生成模型。上述模型训练阶段的实现过程，可实现成为由计算机设备执行的词权重生成模型的训练方法。或者，实现成为词权重生成模型的训练装置。

预处理阶段：服务器获取视频和视频关联文本。示例地，该视频关联文本包括视频的视频标题和/或视频简介。该视频关联文本包括至少一个词语，视频关联文本是与视频的内容存在关联关系的文本信息，该视频关联文本由人为标注或机器生成。可选地，服务器通过本地数据库或通过内容服务器，获取上述信息。上述视频用于推送至用户的客户端进行播放。服务器会对视频关联文本进行分词，从而得到视频关联文本中的各个词语。服务器通过上述完成训练的词权重生成模型提取视频的视频特征向量、视频关联文本的文本特征向量以及视频关联文本中的词语的词语特征向量。并对该三种特征向量进行特征融合，从而生成词语的中间向量。其中，特征融合指对视频特征向量、文本特征向量和词语特征向量进行向量融合运算。具体特征融合过程参考上述图5所示的实施例所示的细节。基于词语的中间向量，服务器能够生成词语的词权重，从而得到视频关联文本中各词语的词权重。示意性的，服务器将中间向量进行维度变换，得到一维向量，再将一维向量通过阈值函数进行转换，得到词语的词权重。

搜索阶段：当用户在终端的客户端上通过搜索词进行视频搜索时，服务器会接收到客户端发送的视频搜索请求。该客户端与服务器有线或无线连接，服务器为客户端的后台服务器，该视频搜索请求包括至少一个搜索词。服务器将该搜索词与各视频的视频关联文本中的词语进行匹配，并根据匹配得到的相似度确定搜索词与视频是否匹配，从而得到匹配视频。在确定相似度的过程中，服务器会使用预处理阶段得到的词权重。具体的，服务器计算搜索词与视频关联文本中的各词语的相似度，并根据词语对应的词权重，计算搜索词与各词语的平均相似度作为搜索词与视频关联文本的相似度。例如，搜索词为x，视频关联文本包括词语o、p、q。x与o的相似度为0.8，x与p的相似度为0.3，x与q的相似度为0.5。o的词权重为0.5，p的词权重为0.2，q的词权重为0.3。则服务器确定的搜索词与视频关联文本的相似度为0.8*0.5+0.3*0.2+0.5*0.3＝0.61。在搜索词与视频关联文本的相似度大于相似度阈值的情况下，服务器会将视频关联文本对应的视频确定为匹配视频。例如该相似度阈值为0.5，则在搜索词为x，视频关联文本包括词语o、p、q的情况下，计算机设备会将该视频关联文本对应的视频确定为匹配视频。可选地，计算机设备会根据搜索词先在视频中快速进行预检索，得到部分视频后，再通过上述方式搜索视频以提升效率。服务器在确定匹配视频后，会将匹配视频发送至客户端以进行播放。上述搜索阶段的实现过程，可实现成为由计算机设备(服务器或终端)执行的视频搜索方法。或者，实现成为视频搜索装置。

需要说明的是，上述预处理阶段在搜索阶段之前执行。或者，上述预处理阶段与搜索阶段穿插进行，例如在服务器接收到搜索请求后，执行预处理阶段，以及搜索阶段的后续步骤。上述介绍仅以本申请提供的方法应用于视频搜索场景为例进行说明，并不用于限制本申请的应用场景。

图11是本申请一个示例性实施例的词权重生成装置的结构框图。如图11所示，该装置包括：

获取模块1120，用于获取视频和视频关联文本，视频关联文本包括至少一个词语，视频关联文本是与视频的内容存在关联关系的文本信息；

生成模块1140，用于对视频、视频关联文本和词语三种信息的特征进行多模态特征融合，生成词语的中间向量；

生成模块1140，还用于基于词语的中间向量，生成词语的词权重。

在一个可选的实施例中，生成模块1140包括提取模块41和融合模块42：

在一个可选的实施例中，提取模块41，用于提取视频的视频特征向量；提取视频关联文本的文本特征向量；以及提取词语的词语特征向量；

在一个可选的实施例中，融合模块42，用于将视频特征向量、文本特征向量和词语特征向量进行融合，得到词语的中间向量。

在一个可选的实施例中，融合模块42包括第一融合子模块421和第二融合子模块422。

在一个可选的实施例中，第一融合子模块421，用于将视频特征向量、文本特征向量和词语特征向量进行第一融合，得到第一融合向量；

在一个可选的实施例中，第二融合子模块422，用于将第一融合向量和词语特征向量进行第二融合，得到词语的中间向量。

在一个可选的实施例中，第一融合子模块421包括第一拼接模块211和第一映射模块212。

在一个可选的实施例中，第一拼接模块211，用于将视频特征向量、文本特征向量和词语特征向量进行依次拼接，得到第一拼接向量；

在一个可选的实施例中，第一映射模块212，用于将第一拼接向量进行全连接特征映射，得到第一融合向量。

在一个可选的实施例中，第二融合子模块422包括第二拼接模块221和第二映射模块222。

在一个可选的实施例中，第二拼接模块221，用于将第一融合向量和词语特征向量进行依次拼接，得到第二拼接向量；

在一个可选的实施例中，第二映射模块222，用于将第二拼接向量进行全连接特征映射，得到词语的中间向量。

在一个可选的实施例中，生成模块1140还包括转换模块43。

在一个可选的实施例中，转换模块43，用于将中间向量进行维度变换，得到一维向量；

在一个可选的实施例中，转换模块43，还用于将一维向量进行归一化处理，得到词语的词权重。

在一个可选的实施例中，转换模块43，用于将一维向量通过阈值函数进行转换，得到词语的词权重。

在一个可选的实施例中，提取模块包括视频提取模块411、文本提取模块412和词语提取模块413。其中，视频提取模块411包括分帧模块111、提取子模块112和计算模块113。

在一个可选的实施例中，分帧模块111用于对视频进行分帧操作，得到至少两个视频帧；

在一个可选的实施例中，提取子模块112用于提取至少两个视频帧的视频帧向量；

在一个可选的实施例中，计算模块113用于计算至少两个视频帧的视频帧向量的平均向量，将平均向量确定为视频特征向量；或，计算至少两个视频帧的视频帧向量的加权向量，将加权向量确定为视频特征向量。

在一个可选的实施例中，计算模块113，用于：

通过目标检测模型确定每个视频帧包括的目标对象。通过分类模型对目标对象进行分类，得到每个视频帧对应的目标对象分类。计算每个视频帧对应的目标对象分类与词语的相似度。根据每个视频帧对应的相似度确定每个视频帧的视频帧向量的权重，权重与相似度正相关。根据至少两个视频帧的视频帧向量，以及至少两个视频帧的视频帧向量各自的权重，计算至少两个视频帧的视频帧向量的加权向量，将加权向量确定为视频特征向量。

在一个可选的实施例中，提取子模块112还用于调用残差神经网络提取视频中的至少两个视频帧的视频帧向量。

在一个可选的实施例中，文本提取模块412，用于调用双向编码转换网络提取视频关联文本的文本特征向量，或，调用长短期记忆网络提取视频关联文本的文本特征向量。

在一个可选的实施例中，词语提取模块413包括分词模块131和词语提取子模块132。

在一个可选的实施例中，分词模块131，用于对视频关联文本进行分词，得到词语；

在一个可选的实施例中，词语提取子模块132，用于调用深度神经网络提取词语的词语特征向量。

在一个可选的实施例中，分词模块131还用于调用中文分词工具对视频关联文本进行分词，得到词语。

在一个可选的实施例中，提取模块41，用于：

基于视频中的视频帧，提取得到视频帧向量。基于视频中的音频帧，提取得到音频帧向量。基于视频帧中的文本，提取得到文本幕向量。将视频帧向量、音频帧向量和文本幕向量中的至少两种进行融合，得到视频特征向量。

综上所述，本装置通过对视频、视频关联文本和词语进行特征提取得到视频特征向量、文本特征向量和词语特征向量，再将上述三种模态的特征向量进行拼接和全连接映射，得到第一融合向量，然后将第一融合向量和词语特征向量进行拼接和全连接映射，得到中间向量，基于中间向量，得到词语的词权重。

上述装置对词语特征向量进行了两次拼接，强化了当前词语特征向量在中间向量的信息量占比，有利于提高视频关联文本中不同词语的权重值区分度。

上述装置实现了在视频搜索过程中，采用上述词权重生成方法来预先提取词语的权重值，不仅考虑了文本维度的特征，还引入融合了视频维度的特征，基于多维度的特征来进行词权重生成，有利于提升输出的词权重的准确率和可靠程度，提高了视频关联文本中对关键词语和混淆词语之间的区分度。

上述装置采用残差神经网络对视频进行特征提取、采用双向编码转换网络或长短期记忆网络对视频关联文本进行特征提取和采用深度神经网络对词语进行特征提取，实现了将自然语言转换为可进行数学运算的特征向量，简化了本申请词权重生成装置的数学运算。

本申请的实施例还提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的词权重生成方法。

图12示出了本申请一个示例性实施例提供的计算机设备1200的结构框图。该计算机设备1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。该计算机设备1200还能够指服务器。

通常，计算机设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的词权重生成方法。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的词权重生成方法。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的词权重生成方法。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的词权重生成方法。

Claims

一种词权重的生成方法，其特征在于，所述方法由计算机设备执行，所述方法包括：

获取视频和视频关联文本，所述视频关联文本包括至少一个词语，所述视频关联文本是与所述视频的内容存在关联关系的文本信息；

对所述视频、所述视频关联文本和所述词语三种信息的特征进行多模态特征融合，生成所述词语的中间向量；

基于所述词语的中间向量，生成所述词语的词权重。
根据权利要求1所述的方法，其特征在于，所述对所述视频、所述视频关联文本和所述词语三种信息的特征进行多模态特征融合，生成所述词语的中间向量，包括：

提取所述视频的视频特征向量；提取所述视频关联文本的文本特征向量；以及提取所述词语的词语特征向量；

将所述视频特征向量、所述文本特征向量和所述词语特征向量进行融合，得到所述词语的中间向量。
根据权利要求2所述的方法，其特征在于，所述将所述视频特征向量、所述文本特征向量和所述词语特征向量进行融合，得到所述词语的中间向量，包括：

将所述视频特征向量、所述文本特征向量和所述词语特征向量进行第一融合，得到第一融合向量；

将所述第一融合向量和所述词语特征向量进行第二融合，得到所述词语的中间向量。
根据权利要求3所述的方法，其特征在于，所述将所述视频特征向量、所述文本特征向量和所述词语特征向量进行第一融合，得到第一融合向量，包括：

将所述视频特征向量、所述文本特征向量和所述词语特征向量进行依次拼接，得到第一拼接向量；

将所述第一拼接向量进行全连接特征映射，得到所述第一融合向量。
根据权利要求3所述的方法，其特征在于，所述将所述第一融合向量和所述词语特征向量进行第二融合，得到所述词语的中间向量，包括：

将所述第一融合向量和所述词语特征向量进行依次拼接，得到第二拼接向量；

将所述第二拼接向量进行全连接特征映射，得到所述词语的中间向量。
根据权利要求1至5任一所述的方法，其特征在于，所述基于所述词语的中间向量，生成所述词语的词权重，包括：

将所述中间向量进行维度变换，得到一维向量；

将所述一维向量进行归一化处理，得到所述词语的词权重。
根据权利要求6所述的方法，其特征在于，所述将所述一维向量进行归一化处理，得到所述词语的词权重，包括：

将所述一维向量通过阈值函数进行转换，得到所述词语的词权重。
根据权利要求2至5任一所述的方法，其特征在于，所述提取所述视频的视频特征向量，包括：

对所述视频进行分帧操作，得到至少两个视频帧；

提取所述至少两个视频帧的视频帧向量；

计算所述至少两个视频帧的视频帧向量的平均向量，将所述平均向量确定为所述视频特征向量；或，计算所述至少两个视频帧的视频帧向量的加权向量，将所述加权向量确定为所述视频特征向量。
根据权利要求8所述的方法，其特征在于，所述计算所述至少两个视频帧的视频帧向量的加权向量，将所述加权向量确定为所述视频特征向量，包括：

通过目标检测模型确定每个视频帧包括的目标对象；

通过分类模型对所述目标对象进行分类，得到所述每个视频帧对应的目标对象分类；

计算所述每个视频帧对应的目标对象分类与所述词语的相似度；

根据所述每个视频帧对应的相似度确定所述每个视频帧的视频帧向量的权重，所述权重与所述相似度正相关；

根据所述至少两个视频帧的视频帧向量，以及所述至少两个视频帧的视频帧向量各自的权重，计算所述至少两个视频帧的视频帧向量的加权向量，将所述加权向量确定为所述视频特征向量。
根据权利要求8所述的方法，其特征在于，所述提取所述至少两个视频帧的视频帧向量，包括：

调用残差神经网络提取所述视频中的所述至少两个视频帧的视频帧向量。
根据权利要求2至5任一所述的方法，其特征在于，所述提取所述视频关联文本的文本特征向量，包括：

调用双向编码转换网络提取所述视频关联文本的文本特征向量；

或，

调用长短期记忆网络提取所述视频关联文本的文本特征向量。
根据权利要求2至5任一所述的方法，其特征在于，所述提取所述词语的词语特征向量，包括：

对所述视频关联文本进行分词，得到所述词语；

调用深度神经网络提取所述词语的词语特征向量。
根据权利要求12所述的方法，其特征在于，所述对所述视频关联文本进行分词，得到所述词语，包括：

调用中文分词工具对所述视频关联文本进行分词，得到所述词语。
根据权利要求8所述的方法，其特征在于，所述提取所述视频的视频特征向量，包括：

基于所述视频中的所述视频帧，提取得到所述视频帧向量；

基于所述视频中的音频帧，提取得到音频帧向量；

基于所述视频帧中的文本，提取得到文本幕向量；

将所述视频帧向量、所述音频帧向量和所述文本幕向量中的至少两种进行融合，得到所述视频特征向量。
一种词权重的生成装置，其特征在于，所述装置包括：

获取模块，用于获取视频和视频关联文本，所述视频关联文本包括至少一个词语，所述视频关联文本是与所述视频的内容存在关联关系的文本信息；

生成模块，用于对所述视频、所述视频关联文本和所述词语三种信息的特征进行多模态特征融合，生成所述词语的中间向量；

生成模块，还用于基于所述词语的中间向量，生成所述词语的词权重。
根据权利要求15所述的装置，其特征在于，所述生成模块包括提取模块和融合模块；

所述提取模块，用于提取所述视频的视频特征向量；提取所述视频关联文本的文本特征向量；以及提取所述词语的词语特征向量；

所述融合模块，用于将所述视频特征向量、所述文本特征向量和所述词语特征向量进行融合，得到所述词语的中间向量。
根据权利要求16所述的装置，其特征在于，所述融合模块包括第一融合子模块和第二融合子模块；

所述第一融合子模块，用于将所述视频特征向量、所述文本特征向量和所述词语特征向量进行第一融合，得到第一融合向量；

所述第二融合子模块，用于将所述第一融合向量和所述词语特征向量进行第二融合，得到所述词语的中间向量。
根据权利要求17所述的装置，其特征在于，所述第一融合子模块包括第一拼接模块和第一映射模块；

所述第一拼接模块，用于将所述视频特征向量、所述文本特征向量和所述词语特征向量进行依次拼接，得到第一拼接向量；

所述第一映射模块，用于将所述第一拼接向量进行全连接特征映射，得到所述第一融合向量。
根据权利要求17所述的装置，其特征在于，所述第二融合子模块包括第二拼接模块和第二映射模块；

所述第二拼接模块，用于将所述第一融合向量和所述词语特征向量进行依次拼接，得到第二拼接向量；

所述第二映射模块，用于将所述第二拼接向量进行全连接特征映射，得到所述词语的中间向量。
根据权利要求15至19任一所述的装置，其特征在于，所述生成模块还包括转换模块；

所述转换模块，用于将所述中间向量进行维度变换，得到一维向量；

所述转换模块，还用于将所述一维向量进行归一化处理，得到所述词语的词权重。
根据权利要求20所述的装置，其特征在于，所述转换模块，用于：

将所述一维向量通过阈值函数进行转换，得到所述词语的词权重。
根据权利要求16至19任一所述的装置，其特征在于，所述提取模块包括视频提取模块，所述视频提取模块包括分帧模块、提取子模块和计算模块；

所述分帧模块，用于对所述视频进行分帧操作，得到至少两个视频帧；

所述提取子模块，用于提取所述至少两个视频帧的视频帧向量；

所述计算模块，用于计算所述至少两个视频帧的视频帧向量的平均向量，将所述平均向量确定为所述视频特征向量；或，计算所述至少两个视频帧的视频帧向量的加权向量，将所述加权向量确定为所述视频特征向量。
根据权利要求22所述的装置，其特征在于，所述计算模块，用于：

通过目标检测模型确定每个视频帧包括的目标对象；

通过分类模型对所述目标对象进行分类，得到所述每个视频帧对应的目标对象分类；

计算所述每个视频帧对应的目标对象分类与所述词语的相似度；

根据所述每个视频帧对应的相似度确定所述每个视频帧的视频帧向量的权重，所述权重与所述相似度正相关；

根据所述至少两个视频帧的视频帧向量，以及所述至少两个视频帧的视频帧向量各自的权重，计算所述至少两个视频帧的视频帧向量的加权向量，将所述加权向量确定为所述视频特征向量。
根据权利要求22所述的装置，其特征在于，所述提取子模块，用于：

调用残差神经网络提取所述视频中的所述至少两个视频帧的视频帧向量。
根据权利要求16至19任一所述的装置，其特征在于，所述提取模块包括文本提取模块，所述文本提取模块，用于：

调用双向编码转换网络提取所述视频关联文本的文本特征向量；

或，

调用长短期记忆网络提取所述视频关联文本的文本特征向量。
根据权利要求16至19任一所述的装置，其特征在于，所述提取模块包括词语提取模块，所述词语提取模块包括分词模块和词语提取子模块；

所述分词模块，用于对所述视频关联文本进行分词，得到所述词语；

所述词语提取子模块，用于调用深度神经网络提取所述词语的词语特征向量。
根据权利要求26所述的装置，其特征在于，所述分词模块，用于：

调用中文分词工具对所述视频关联文本进行分词，得到所述词语。
根据权利要求22所述的装置，其特征在于，所述提取模块，用于：

基于所述视频中的所述视频帧，提取得到所述视频帧向量；

基于所述视频中的音频帧，提取得到音频帧向量；

基于所述视频帧中的文本，提取得到文本幕向量；

将所述视频帧向量、所述音频帧向量和所述文本幕向量中的至少两种进行融合，得到所述视频特征向量。
一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至14任一所述的词权重生成方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至14任一所述的词权重生成方法。
一种计算机程序产品，其中，所述计算机程序产品存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至14任一所述的词权重生成方法。