CN116958852A

CN116958852A - 视频与文本的匹配方法、装置、电子设备和存储介质

Info

Publication number: CN116958852A
Application number: CN202211574887.6A
Authority: CN
Inventors: 闵少波; 蒋杰; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-10-27

Abstract

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频与文本的匹配方法、装置、电子设备和存储介质。其中，方法包括：获取待匹配视频的图像特征，及待匹配文本的单词特征；将图像特征进行至少一次聚合处理，得到待匹配视频对应的视频特征，以及将单词特征进行至少一次聚合处理，得到待匹配文本对应的语句特征；分别将各图像特征与各单词特征进行两两匹配，获得待匹配视频与待匹配文本的第一层级相似度；以及，将视频特征与语句特征进行匹配，获得待匹配视频与待匹配文本的第二层级相似度；基于第一层级相似度与第二层级相似度，获得相应的匹配结果。由于本申请在多个层级对视频与文本特征进行匹配，提高了视频文本检索的准确度。

Description

视频与文本的匹配方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种视频与文本的匹配方法、装置、电子设备和存储介质。

背景技术

现如今，随着互联网技术的发展，浏览视频成为人们生活中必不可少的一项活动，互联网中视频众多，在搜索个人所需的视频、视频内容推广等各种场景下，都需要视频-文本检索技术。

相关技术中，视频-文本检索技术通常是由特征编码器，直接对整个视频提取一个全局的视频向量，以及直接对整条文本数据提取一个全局的文本向量，之后将两者映射到一个共同的嵌入空间中进行学习，使得内容关联大的视频样本与文本样本之间尽可能的近，内容关联小的视频样本与文本样本尽可能的远，最后根据它们之间的余弦相似度直接进行检索任务。但该种情况下，检索结果只能体现视频全局特征和文本全局特征之间的相似度，从而完成视频检索，导致检索结果的准确度不高。

综上，如何提高视频-文本检索的准确度是亟待解决的。

发明内容

本申请实施例提供一种视频与文本的匹配方法、装置、电子设备和存储介质，用以提高视频-文本检索的准确度。

本申请实施例提供的一种视频与文本的匹配方法，包括：

获取待匹配视频所包含的多帧目标图像各自对应的图像特征，及待匹配文本所包含的多个目标单词各自对应的单词特征；

将所述多帧目标图像的图像特征进行至少一次聚合处理，得到所述待匹配视频对应的视频特征，以及将所述多个目标单词的单词特征进行至少一次聚合处理，得到所述待匹配文本对应的语句特征；

分别将各图像特征与各单词特征进行两两匹配，获得所述待匹配视频与所述待匹配文本之间的第一层级相似度；以及，将所述视频特征与所述语句特征进行匹配，获得所述待匹配视频与所述待匹配文本之间的第二层级相似度；

基于第一层级相似度与所述第二层级相似度，获得相应的匹配结果。

在一种可选的实施方式中，在所述获取待匹配视频所包含的多帧目标图像各自对应的图像特征之前，还包括：

响应于文本输入操作，获取对象输入的所述待匹配文本，并从预设视频库中获取多个所述待匹配视频；

对于每个所述待匹配视频，在获得相应的匹配结果之后，所述方法还包括：

基于所述待匹配文本与各待匹配视频的匹配结果，对所述各待匹配视频进行排序；

选取位于指定次序的待匹配视频，作为与所述待匹配文本相匹配的目标视频。

本申请实施例提供的一种视频与文本的匹配装置，包括：

第一获取单元，用于获取待匹配视频所包含的多帧目标图像各自对应的图像特征，及待匹配文本所包含的多个目标单词各自对应的单词特征；

聚合单元，用于将所述多帧目标图像的图像特征进行至少一次聚合处理，得到所述待匹配视频对应的视频特征，以及将所述多个目标单词的单词特征进行至少一次聚合处理，得到所述待匹配文本对应的语句特征；

匹配单元，用于分别将各图像特征与各单词特征进行两两匹配，获得所述待匹配视频与所述待匹配文本之间的第一层级相似度；以及，将所述视频特征与所述语句特征进行匹配，获得所述待匹配视频与所述待匹配文本之间的第二层级相似度；

第二获取单元，用于基于第一层级相似度与所述第二层级相似度，获得相应的匹配结果。

可选的，所述聚合单元具体用于：

基于已训练的视频与文本匹配模型，将所述多帧目标图像的图像特征进行聚合处理，得到所述待匹配视频对应的至少两个局部视频特征；每个局部视频特征用于表征由至少两个目标图像所组成的视频片段的内容信息；

将所述多个目标单词的单词特征进行聚合处理，得到所述待匹配文本对应的至少两个局部语句特征；每个局部语句特征用于表征由至少两个目标单词所组成的短语的语义信息；

基于所述视频与文本匹配模型，将所述至少两个局部视频特征进行聚合处理，得到所述待匹配视频对应的全局视频特征；以及将所述至少两个局部语句特征进行聚合处理，得到所述待匹配文本对应的全局语句特征。

可选的，所述第一层级相似度表征图像与单词级别的相似度；所述匹配单元具体用于：

对于每个图像特征，分别获取所述图像特征与所述各单词特征之间的第一相似度；基于获取的各第一相似度对所述各单词特征进行排序，选取位于指定次序的单词特征对应的第一相似度，作为与所述图像特征对应的目标相似度；以及

对于每个单词特征，分别获取所述单词特征与所述各图像特征之间的第二相似度；基于获取的各第二相似度对所述各图像特征进行排序，选取位于指定次序的图像特征对应的第二相似度，作为与所述单词特征对应的目标相似度；

基于各图像特征对应的目标相似度，以及各单词特征对应的目标相似度，确定所述第一层级相似度。

可选的，所述匹配单元具体用于：

将所述各图像特征对应的目标相似度的平均值，作为图词相似度；

将所述各单词特征对应的目标相似度的平均值，作为词图相似度；

将所述图词相似度与所述词图相似度的平均值，作为所述第一层级相似度。

可选的，所述第二层级相似度包括：表征视频片段与短语级别的局部子层级相似度，表征视频整体与语句级别的全局子层级相似度；所述匹配单元具体用于：分别将各局部视频特征与各局部语句特征进行两两匹配，获得所述待匹配视频与所述待匹配文本之间的局部子层级相似度；以及

将所述全局视频特征与所述全局语句特征进行匹配，获得所述待匹配视频与所述待匹配文本之间的全局子层级相似度。

可选的，所述匹配单元具体用于：

对于每个局部视频特征，分别获取所述局部视频特征与所述各局部语句特征之间的第三相似度；基于获取的各第三相似度对所述各局部语句特征进行排序，选取位于指定次序的局部语句特征对应的第三相似度，作为与所述局部视频特征对应的目标相似度；以及

对于每个局部语句特征，分别获取所述局部语句特征与所述各局部视频特征之间的第四相似度；基于获取的各第四相似度对所述各局部视频特征进行排序，选取位于指定次序的局部视频特征对应的第四相似度，作为与所述局部语句特征对应的目标相似度；

基于各局部视频特征对应的目标相似度，以及各局部语句特征对应的目标相似度，确定所述局部子层级相似度。

可选的，所述匹配单元具体用于：

将所述各局部视频特征对应的目标相似度的平均值，作为视频文本相似度；

将所述各局部语句特征对应的目标相似度的平均值，作为文本视频相似度；

将所述视频文本相似度与所述文本视频相似度的平均值，作为所述局部子层级相似度。

可选的，所述聚合单元具体用于在每次聚合处理时执行以下过程：

将待聚合的第一对象特征进行拼接，并基于所述视频与文本匹配模型中的映射矩阵对拼接结果进行映射处理，获得相应的权重矩阵，所述权重矩阵的维度是基于：待聚合的第一对象特征的数量，以及聚合后的第二对象特征的数量确定的；所述第一对象特征为图像特征、单词特征、局部视频特征、局部语句特征中的至少一种；所述第二对象特征为对第一对象特征进行聚合所得到的相应特征；

基于所述视频与文本匹配模型中的至少一个全连接层，对所述拼接结果进行维度变换，获得相应的变换结果；

基于所述权重矩阵，以及所述变换结果，确定聚合后的第二对象特征。

可选的，所述装置还包括：

训练单元，用于通过下列方式训练得到所述视频与文本匹配模型：

将训练样本集中的各训练样本输入待训练的视频与文本匹配模型，分别获取包含多帧样本图像的各视频训练样本各自对应的样本图像特征，以及获取包含多个样本单词的各文本训练样本各自对应的样本单词特征；

分别将所述各视频训练样本各自对应的多个样本图像特征进行至少一次聚合处理，得到所述各视频训练样本各自对应的样本视频特征；以及分别将所述各文本训练样本各自对应的多个样本单词特征进行至少一次聚合处理，得到所述各文本训练样本各自对应的样本语句特征；

基于获得的各样本图像特征和各样本单词特征之间的差异，以及获得的各样本视频特征和各样本语句特征之间的差异，对所述视频与文本匹配模型进行参数调整。

可选的，所述训练单元具体用于：

对于各视频训练样本，将所述视频训练样本对应的各样本图像特征，与所述各文本训练样本各自对应的各样本单词特征，分别进行两两匹配，基于相应差异获取所述视频训练样本与各文本训练样本之间的第一层级相似度；

将所述视频训练样本对应的样本视频特征，与所述各文本训练样本各自对应的样本语句特征，分别进行两两匹配，基于相应差异获取所述视频训练样本与各文本训练样本之间的第二层级相似度；

基于所述各视频训练样本与所述各文本训练样本的第一层级相似度与第二层级相似度，对所述视频与文本匹配模型进行参数调整。

可选的，所述训练单元具体用于：

分别将所述各视频训练样本各自对应的多个样本图像特征进行聚合处理，得到所述各视频训练样本各自对应的至少两个局部样本视频特征；

分别将所述各文本训练样本各自对应的多个样本单词特征进行聚合处理，得到所述各文本训练样本各自对应的至少两个局部样本语句特征；

分别将所述各视频训练样本各自对应的至少两个局部样本视频特征进行聚合处理，得到所述各视频训练样本各自对应的全局样本视频特征；

分别将所述各文本训练样本各自对应的至少两个局部样本语句特征进行聚合处理，得到所述各文本训练样本各自对应的全局样本语句特征。

可选的，所述第一层级相似度表征样本图像与样本单词级别的相似度；所述第二层级相似度包括：表征样本视频片段与样本短语级别的局部子层级相似度，表征样本视频整体与样本语句级别的全局子层级相似度；所述训练单元具体用于：

将所述视频训练样本对应的各局部样本视频特征，与所述各文本训练样本各自对应的各局部样本语句特征，分别进行两两匹配，获取所述视频训练样本与各文本训练样本的之间的局部子层级相似度；

将所述视频训练样本对应的全局样本视频特征，与所述各文本训练样本各自对应的全局样本语句特征，分别进行两两匹配，获取所述视频训练样本与各文本训练样本的之间的全局子层级相似度。

可选的，所述训练单元具体用于：

基于各视频训练样本与所述各文本训练样本的第一层级相似度，构建图像及单词层级的第一损失函数；

基于各视频训练样本与各文本训练样本的之间的局部子层级相似度，构建视频片段与短语层级的第二损失函数；

基于各视频训练样本与各文本训练样本的之间的全局子层级相似度，构建视频整体与语句层级的第三损失函数；

采用基于所述第一损失函数、第二损失函数与所述第三损失函数构建的目标损失函数，对所述视频与文本匹配模型进行参数调整。

可选的，所述训练单元具体用于：

对于各视频训练样本，基于所述视频训练样本与一个文本训练样本的第一层级相似度，以及所述视频训练样本与各文本训练样本的第一层级相似度，确定所述视频训练样本对应的单词层级相似度比值；

对于各文本训练样本，将所述文本训练样本与一个视频训练样本的第一层级相似度；以及所述文本训练样本与各视频训练样本的第一层级相似度，确定所述文本训练样本对应的图像层级相似度比值；

基于各视频训练样本对应的单词层级相似度比值之和，及各文本训练样本对应的图像层级相似度比值之和，确定所述第一损失函数。

可选的，所述训练单元具体用于：

对于各视频训练样本，将所述视频训练样本与一个文本训练样本的局部子层级相似度，以及所述视频训练样本与各文本训练样本的局部子层级相似度，确定所述视频训练样本对应的短语层级相似度比值；

对于各文本训练样本，将所述文本训练样本与一个视频训练样本的局部子层级相似度；以及所述文本训练样本与各视频训练样本的局部子层级相似度，确定所述文本训练样本对应的视频片段层级相似度比值；

基于各视频训练样本对应的短语层级相似度比值之和，及各文本训练样本对应的视频片段层级相似度比值之和，确定所述第二损失函数。

可选的，所述训练单元具体用于：

对于各视频训练样本，将所述视频训练样本与一个文本训练样本的全局子层级相似度，以及所述视频训练样本与各文本训练样本的全局子层级相似度，确定所述视频训练样本对应的语句层级相似度比值；

对于各文本训练样本，将所述文本训练样本与一个视频训练样本的全局子层级相似度；以及所述文本训练样本与各视频训练样本的全局子层级相似度，确定所述文本训练样本对应的视频整体层级相似度比值；

基于各视频训练样本对应的语句层级相似度比值之和，及各文本训练样本对应的视频整体层级相似度比值之和，确定所述第三损失函数。

可选的，所述装置还包括：

响应单元，用于在所述第一获取单元获取待匹配视频所包含的多帧目标图像各自对应的图像特征之前，响应于文本输入操作，获取对象输入的所述待匹配文本，并从预设视频库中获取多个所述待匹配视频；

对于每个所述待匹配视频，在获得相应的匹配结果之后，基于所述待匹配文本与各待匹配视频的匹配结果，对所述各待匹配视频进行排序；

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一种视频与文本的匹配方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任意一种视频与文本的匹配方法的步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行上述任意一种视频与文本的匹配方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种视频与文本的匹配方法、装置、电子设备和存储介质。由于本申请并非是仅直接对整个待匹配视频与整个待匹配文本进行特征提取，而是考虑到视频和文本数据都是一种层级化的数据结构，视频可以拆分为图像帧，文本可以拆分为单词，因此，本申请首先以帧为单位，提取待匹配视频中部分帧各自对应的图像特征，以及以单词为单位，提取待匹配文本中部分单词个各自对应的单词特征，得到图像-单词层级的特征；再将图像特征与单词特征分别聚合，得到视频-语句层级的视频特征与语句特征，之后，同时基于图像-单词层级的特征，以及视频-语句层级的特征，综合考量待匹配视频与待匹配文本的匹配结果，相较于仅从整个待匹配视频与整个待匹配文本考虑两者是否匹配，本申请所得出的匹配结果更为准确。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种相关技术中，视频-文本检索技术的逻辑示意图；

图2为本申请实施例提供的一种应用场景示意图；

图3为本申请实施例提供的一种视频与文本的匹配方法的实施流程图；

图4A为本申请实施例提供的一种视频均匀采样的示意图；

图4B为本申请实施例提供的一种视频随机采样的示意图；

图5为本申请实施例提供的一种文本单词的采样方法示意图；

图6为本申请实施例提供的一种聚合过程的逻辑示意图；

图7为本申请实施例提供的一种获得目标图像1的图像特征对应的目标相似度的逻辑示意图；

图8为本申请实施例提供的一种获得目标单词1的单词特征对应的目标相似度的逻辑示意图；

图9为本申请实施例提供的一种视频与文本的匹配模型的训练流程图；

图10为本申请实施例提供的一种获得目标损失函数的流程图；

图11为本申请实施例提供的另一种视频与文本的匹配方法流程图；

图12为本申请实施例提供的一种视频与文本匹配模型实际应用时的流程图；

图13为本申请实施例提供的一种视频文本匹配过程的逻辑示意图；

图14为本申请实施例提供的一种视频与文本的匹配装置的结构示意图；

图15为本申请实施例提供的一种电子设备的一个硬件组成结构示意图；

图16为本申请实施例提供的另一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

目标图像：指待匹配视频中的部分或全部图像。在目标图像指部分图像时，具体的，一个待匹配视频包含多帧图像，可以基于随机采样、均匀采样等方法，在待匹配视频所包含的全部帧图像中获取部分图像作为目标图像。

目标单词：指待匹配文本中的部分或全部单次。在目标单词指部分单词时，具体的，一个待匹配文本中包含多个单词，可以在待匹配文本所包含的全部单词中，选取部分单词作为目标单词。

视频特征：包括待匹配视频在视频片段层级对应的局部视频特征，与待匹配视频在视频整体层级对应的全局视频特征，其中，每个待匹配视频的局部视频特征是通过图像特征聚合得到的，视频片段层级的特征；每个待匹配视频的全局视频特征是通过局部视频特征聚合得到的，视频整体层级的特征。

语句特征：包括待匹配文本在短语层级对应的局部语句特征，与待匹配文本在语句层级对应的全局语句特征，其中，每个待匹配文本的局部语句特征是通过单词特征聚合得到的，短语层级的特征；每个待匹配文本的全局语句特征是通过局部语句特征聚合得到的，语句层级的特征。

层级相似度：包括第一层级相似度与第二层级相似度，其中，第一层级相似度是分别将各图像特征与各单词特征进行两两匹配获得的；第二层级相似度进一步包括局部子层级相似度和全局子层级相似度，其中，局部子层级相似度是由各局部视频特征与各局部语句特征进行两两匹配获得的；全局子层级相似度是将全局视频特征与全局语句特征进行匹配获得的。

本申请实施例涉及人工智能(Artificial Intelligence，AI)和机器学习技术(Machine Learning，ML)，基于人工智能中的计算机视觉技术和机器学习而设计。

人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例中的视频与文本匹配模型的训练方法可应用到自动驾驶、医学影像识别、安全***、图像处理、视频处理等领域，将人工智能与这些领域中的视频检索相结合，可以基于文本检索到相应视频，提高视频检索的准确度。

此外，本申请实施例中的视频与文本匹配模型就是采用机器学习或深度学习技术训练得到的。机器学习(Machine Learning，ML)则是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述技术训练得到视频与文本匹配模型后，即可应用该视频与文本匹配模型，对获取到的文本进行解析，检索与之内容相匹配的视频，以及基于文本内容进行视频推广(如广告推广、视频推荐)。

下面对本申请实施例的设计思想进行简要介绍：

现如今，随着互联网技术的发展，浏览视频成为人们生活中必不可少的一项活动，互联网中视频众多，在搜索个人所需的视频、现如今，随着互联网技术的发展，浏览视频成为人们生活中必不可少的一项活动，互联网中视频众多，在搜索个人所需的视频、视频内容推广等各种场景下，都需要视频-文本检索技术。

如图1所示，为本申请实施例提供的一种相关技术中，视频-文本检索技术的逻辑示意图，通常，由外界输入一段文本，检索模型需要对文本进行预处理，以使后续可以全局提取文本特征，之后在对应视频库搜索视频，同样检索模型需要对各个视频进行预处理，如数据增强等，之后在全局提取视觉特征，模型将文本特征与各个视频的视觉特征映射到一个共同的嵌入空间做对比，筛选出最符合的视频内容。为此，模型不仅需要理解视频和文本中的内容所包含的信息，还要将两种模态(文本与视频)的特征在同一嵌入空间中进行匹配对齐，且检索结果只能体现视频全局特征和文本全局特征之间的相似度，导致检索结果的准确度不高。

有基于此，本申请实施例提供了一种视频与文本的匹配方法、装置、电子设备和存储介质，由于本申请并非是仅直接对整个待匹配视频与整个待匹配文本进行特征提取，而是考虑到视频和文本数据都是一种层级化的数据结构，视频可以拆分为帧，文本可以拆分为单词，因此，本申请首先以帧为单位，提取待匹配视频中部分帧各自对应的图像特征，以及以单词为单位，提取待匹配文本中部分单词各自对应的单词特征，得到图像-单词层级的特征；再将图像特征与单词特征分别聚合，得到视频-语句层级的视频特征与语句特征，之后，同时基于图像-单词层级的特征，以及视频-语句层级的特征，综合考量待匹配视频与待匹配文本的匹配结果，相较于仅从整个待匹配视频与整个待匹配文本考虑两者是否匹配，本申请所得出的匹配结果更为准确，且视频-语句层级的特征通过聚合得到，不需要理解视频全局和文本全局中内容信息。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图2所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器220。

在本申请实施例中，终端设备210包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上可以安装有输入文本检索视频的客户端，该客户端可以是软件(例如浏览器、视频-文本检索软件等)，也可以是网页、小程序等，服务器220则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行视频文本匹配的服务器，本申请不做具体限定。服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请各实施例中的视频与文本的匹配方法可以由电子设备执行，该电子设备可以为终端设备210或者服务器220，即，该方法可以由终端设备210或者服务器220单独执行，也可以由终端设备210和服务器220共同执行。比如由服务器220单独执行时，假设现有一应用程序，需要根据该应用程序使用对象最近输入的文本搜索内容，检索与文本内容匹配的视频推广，服务器获取使用对象输入的文本，以及各个待匹配的视频，将各个视频与使用对象输入的文本匹配，以获取匹配结果。以其中一个待匹配的视频i为例，服务器获取视频i的部分或全部帧图像各自对应的图像特征，以及获取使用对象输入的文本中，部分或全部单词各自对应的单词特征，之后服务器将全部图像特征进行聚合处理，获得视频i对应的视频特征，同样服务器对全部的单词特征进行聚合处理，获得文本对应的语句特征；服务器将每个图像特征与每个单词特征进行匹配，以此获得视频i与文本在图像-单词层级的相似度，也即第一层级相似度，并将每个视频特征与语句特征进行匹配，获得视频i与文本在第二层级的相似度；最后，服务器通过各个层级的相似度获得视频i与文本的匹配分数。

在一种可选的实施方式中，终端设备210与服务器220之间可以通过通信网络进行通信。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

需要说明的是，图2所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

本申请实施例中，当服务器的数量为多个时，多个服务器可组成为一区块链，而服务器为区块链上的节点；如本申请实施例所公开的视频与文本的匹配方法，其中所涉及的匹配数据可保存于区块链上，例如，单词特征、图像特征、视频特征、语句特征、相似度等。

此外，本申请实施例可应用于各种场景，不仅包括视频内容推广、依据文本检索视频等场景，还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的视频与文本的匹配方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图3所示，为本申请实施例提供的一种视频与文本的匹配方法的实施流程图，以服务器为执行主体为例，该方法的具体实施流程如S301-S304：

S301：服务器获取待匹配视频所包含的多帧目标图像各自对应的图像特征，及待匹配文本所包含的多个目标单词各自对应的单词特征。

其中，目标图像可以为待匹配视频中的部分或全部图像，在目标图像指部分图像时，每个目标图像是从待匹配视频所包含的各帧图像中采样得到的；目标单词可以为待匹配文本中的部分或全部单词，在目标单词指部分单词时，每个目标单词是从待匹配文本所包含的各个单词中采样得到的。采样数量可以基于实际需求进行设置。视频采样方法可以为随机采样，均匀采样等。文本采样可以为选取前固定个数的单词等。

如图4A所示，为本申请实施例提供的一种视频均匀采样的示意图，一个视频中共包含24帧图像，在24帧图像中采取均匀采样的方法抽取12帧目标图像，则可以抽取第2、4、6、8、……、24帧图像作为目标图像。又如图4B所示，为本申请实施例提供的一种视频随机采样的示意图，在采取随机采样的方法抽取12帧目标图像时，抽取结果没有规律，如可以抽取第1、2、4、……、23帧图像作为目标图像。

如图5所示，为本申请实施例提供的一种文本单词的采样方法示意图，在一段包含多个单词的文本中，选取前32个单词作为目标单词。

需要说明的是，上述中的采样方法及采样数量，本申请只是举例说明，不做具体限定。

以具体场景为例，假设现有需要根据一段输入的文本搜索相应的视频，输入的文本即为待匹配文本，服务器找到一个待匹配视频，需要确定该视频内容是否与待匹配文本所描述内容相符。服务器可以将待匹配文本与待匹配视频输入到已训练的视频与文本匹配模型中，基于视频与文本匹配模型，将待匹配文本与待匹配视频进行匹配。假设服务器采用均匀采样的方式，在待匹配视频中采样了12帧目标图像，并对每帧目标图像进行特征提取，得到对应的图像特征；对于待匹配文本，假设服务器采用分词器对待匹配文本进行序列编码，得到其中每个单词的序号，只取前32个序号对应的单词作为目标单词，并获取各个单词各自对应的单词特征。

具体地，对待匹配视频中的各帧图像进行均匀采样，服务器将每帧目标图像缩放到224×224大小，并都划分为14×4个网格，因此每个网格中共包含16×16个像素点，每个像素点有(r，g，b)三个通道，因此一个网格内共有16×16×3＝768个特征值，最终，待匹配视频的维度为12×196×768。

构造12层变形(Transformer)结构作为视觉编码器，对待匹配视频的12帧目标图像(每帧目标图片维度为196×768)，分别进行特征提取，获得12×196×768维度的提取结果，之后服务器沿着空间维度对提取结果进行平均池化，最终获取12×768维度的提取结果，表示为待匹配视频共有12帧目标图像，每帧目标图像的图像特征包含768个特征值。

上述中，每帧目标图像的图像特征的具体形式可以为一个矩阵、向量等，本申请不做具体限定。

对于输入模型中的待匹配文本，构造12层Transformer结构作为文本编码器，对待匹配文本的32个样本单词，分别进行特征提取，最终获得32×768维度的提取结果，表示待匹配文本共有32个目标单词，每个目标单词的单词特征包含有768个特征值。

上述中，每个目标单词的单词特征的具体形式可以为一个矩阵、向量等，本申请不做具体限定。

S302：服务器将多帧目标图像的图像特征进行至少一次聚合处理，得到待匹配视频对应的视频特征，以及将多个目标单词的单词特征进行至少一次聚合处理，得到待匹配文本对应的语句特征。

其中，视频特征包括对图像特征进行聚合处理得到的多个局部视频特征，和对多个局部视频特征进行聚合处理得到的全局视频特征，语句特征包括对单词特征进行聚合处理得到的多个局部语句特征，和对多个局部语句特征进行聚合处理得到的全局语句特征。

需要说明的是，上述特征提取的过程可基于机器学习来实现，如本申请提供一种通过机器学习训练得到的视频与文本匹配模型。

可选的，服务器将基于已训练的视频与文本匹配模型，将多帧目标图像的图像特征进行聚合处理，得到待匹配视频对应的至少两个局部视频特征；每个局部视频特征用于表征由至少两个目标图像所组成的视频片段的内容信息；以及，服务器将多个目标单词的单词特征进行聚合处理，得到待匹配文本对应的至少两个局部语句特征；每个局部语句特征用于表征由至少两个目标单词所组成的短语的语义信息；之后，服务器基于视频与文本匹配模型，将至少两个局部视频特征进行聚合处理，得到待匹配视频对应的全局视频特征；以及将至少两个局部语句特征进行聚合处理，得到待匹配文本对应的全局语句特征。

上述中，聚合处理的一种可选的实施方式为：服务器将待聚合的第一对象特征进行拼接，并基于视频与文本匹配模型中的映射矩阵对拼接结果进行映射处理，获得相应的权重矩阵；进而，基于视频与文本匹配模型中的至少一个全连接层，对拼接结果进行维度变换，获得相应的变换结果；基于权重矩阵，以及变换结果，确定聚合后的第二对象特征。

其中，权重矩阵的维度是基于：待聚合的第一对象特征的数量，以及聚合后的第二对象特征的数量确定的。第一对象特征可以为图像特征、单词特征、局部视频特征、局部语句特征中的至少一种；第二对象特征为对第一对象特征进行聚合所得到的相应特征。

如，第一对象特征为图像特征，相应的第二对象特征为局部视频特征，权重矩阵维度可以为Nf×Nc；第一对象特征为单词特征，相应的第二对象特征为局部语句特征，权重矩阵维度可以为Nw×Np；第一对象特征为局部视频特征，相应的第二对象特征为全局视频特征，权重矩阵维度可以为Nc×1；第一对象特征为局部语句特征，相应的第二对象特征为全局语句特征，权重矩阵维度可以为Np×1。

也即，对于将多帧目标图像的图像特征聚合为局部视频特征的过程，服务器可以将每帧目标图像对应的图像特征组合为一个矩阵，如记为V^f，V^f∈R^Nf×D，其中，V^f的维度为Nf×D，Nf为目标图像的数量，D为每帧目标图像的图像特征所包含的特征值的数量，之后，服务器基于映射矩阵W₁∈R^D×Nc，将V^f映射为权重矩阵，映射矩阵W的维度为D×Nc，其中Nc为视频片段的数量；之后，服务器将权重矩阵转置，并利用视频与文本匹配模型中的全连接层，将各个目标图像的图像特征，通过权重矩阵组装为视频片段对应的局部视频特征，实现Nf个目标图像聚合为Nc个视频片段的过程，由此获取待匹配视频在视频片段这一层级的特征。

上述这一过程具体公式可以表示为：V^C＝softmax(V^fW₁)^Th(V^f)，其中，V^C是每个视频片段对应的局部视频特征组成的矩阵，每个视频片段对应的局部视频特征中包含D个特征值，V^c∈R^Nc×D；h为全连接层，可以为两层，两层全连接层对应的通道变化为D-2D-D；softmax为归一化指数函数。

同理，对于将多个视频片段的局部视频特征聚合为全局视频特征的过程，服务器基于映射矩阵W₂∈R^D×1，将V^c映射为权重矩阵；之后，服务器将权重矩阵转置，并利用视频与文本匹配模型中的全连接层，将各个视频片段的局部视频特征，通过权重矩阵组装为视频整体对应的全局视频特征，实现Nc个视频片段聚合为Nv＝1个视频整体的过程，由此获取待匹配视频在视频整体这一层级的特征。

上述这一过程具体公式可以表示为：V^v＝softmax(V^cW₂)^Th(V^c)，其中，V^V是视频整体对应的全局视频特征组成的矩阵(或是向量等)，如V^v∈R^1×D，全局视频特征中包含D个特征值。

对于将多个目标单词的单词特征聚合为局部语句特征的过程，服务器基于映射矩阵将每个目标单词对应的单词特征组合为一个矩阵，可以记为T^w，T^w∈R^Nw×D，也即，T^w的维度为Nw×D，其中，Nw为目标单词的数量，D为每个目标单词的单词特征所包含的特征值的数量，之后，服务器基于映射矩阵W₃∈R^D×Np，将T^w映射为权重矩阵，映射矩阵W₃的维度为D×Np，其中Np为短语的数量；之后，服务器将权重矩阵转置，并利用视频与文本匹配模型中的全连接层，将各个目标图像的图像特征，通过权重矩阵组装为短语对应的局部语句特征，实现Nw个目标图像聚合为Np个视频片段的过程，由此获取待匹配文本在短语这一层级的特征。

上述这一过程具体公式可以表示为：T^p＝softmax(T^WW₃)^Th(T^W)，其中，T^p是每个短语对应的局部语句特征组成的矩阵，每个短语对应的局部语句特征中包含D个特征值，T^p∈R^NP×D。

同理，对于将多个短语的局部语句特征聚合为全局语句特征的过程，服务器基于映射矩阵W₄∈R^D×1，将T^p映射为权重矩阵；之后，服务器将权重矩阵转置，并利用视频与文本匹配模型中的全连接层，将各个短语的局部语句特征，通过权重矩阵组装为语句对应的全局语句特征，实现T^p个短语聚合为Ns＝1个语句的过程，由此获取待匹配文本在语句这一层级的特征。

上述这一过程具体公式可以表示为：T^s＝softmax(T^pW₄)^Th(T^p)，其中，T^s是语句对应的全局语句特征组成的矩阵(向量)，全局语句特征中包含D个特征值，T^s∈R^1×D。

如图6所示，为本申请实施例提供的一种聚合过程的逻辑示意图，假设服务器在待匹配视频中获得了12帧目标图像各自对应的，在待匹配文本中取前11个单词作为目标单词并得到个目标单词各自对应的单词特征，之后服务器基于映射矩阵和全连接层，将12帧目标图像各自对应的图像特征聚合为多个视频片段对应的局部视频特征，假设聚合出3个视频片段，之后，服务器再将3个视频片段对应的局部视频特征进行聚合，得到视频整体对应的全局视频特征；同理，服务器将11个目标单词各自对应的单词特征聚合为多个短语对应的局部语句特征，假设聚合出4个短语，短语1为A brown rat，短语2为goes into，短语3为someone’s hand，短语4为then onto a cage。之后，服务器再将4个短语对应的局部语句特征进行聚合，得到语句1对应的全局语句特征，语句1为A brown rat goes into someone’shand then onto a cage。

上述中，哪一帧目标图像与哪一帧目标图像聚合是服务器基于权重确定的，每一个视频片段所包含的目标图像数量可能相同可能不同，且可能存在某一帧目标图像同时存在于多个视频片段中的情况；目标单词的聚合同理，每一个短语所包含的目标单词数量可能相同可能不同，某一个目标图像可能同时存在于多个短语中。

S303：服务器分别将各图像特征与各单词特征进行两两匹配，获得待匹配视频与待匹配文本之间的第一层级相似度；以及，将视频特征与语句特征进行匹配，获得待匹配视频与待匹配文本之间的第二层级相似度。

其中，第一层级相似度表征图像与单词级别的相似度；第二层级相似度包括：表征视频片段与短语级别的局部子层级相似度，以及表征视频整体与语句级别的全局子层级相似度。

上述中，第一层级相似度可以基于图像特征与单词特征之间的相似度获得，具体如下：

可选的，对于每个图像特征，服务器分别获取图像特征与各单词特征之间的第一相似度；基于获取的各第一相似度对各单词特征进行排序，选取位于指定次序的单词特征对应的第一相似度，作为与图像特征对应的目标相似度；服务器将各图像特征对应的目标相似度的平均值，作为图词相似度。

同理，对于每个单词特征，分别获取单词特征与各图像特征之间的第二相似度；基于获取的各第二相似度对各图像特征进行排序，选取位于指定次序的图像特征对应的第二相似度，作为与单词特征对应的目标相似度；服务器将各单词特征对应的目标相似度的平均值，作为词图相似度。

最后，服务器即可将图词相似度与词图相似度的平均值，作为第一层级相似度。

上述中，第一相似度与第二相似度可以通过点积操作获得，也即计算图像特征与各单词特征之间的余弦距离，以及计算单词特征与各图像特征之间的余弦距离，指定次序可以为将相似度由大到小排序时，序列的第一位，也即选取相似度最大的。第一层级相似度的具体公式可以为：

其中，为第一相似度，/>为第二相似度，公式的括号中的左侧项/>为词图相似度，右侧项/>为图词相似度；Nf为目标图像的数量，f代表这是图像层级，V^f是各个目标图像对应的图像特征组成的矩阵；Nw为目标单词的数量，w代表这是单词层级，T^w是各个目标单词对应的单词特征组成的矩阵；/>表示Nf帧目标图像中第m帧目标图像对应的图像特征，/>表示Nw个目标单词中第n个目标单词对应的单词特征，m的取值在1到Nf之间(包括1和Nf)，n的取值在1到Nw之间(包括1和Nw)。

上述中，指定次序也可以为其他次序，本申请不做具体限定。

对于第二层级相似度，服务器分别将各局部视频特征与各局部语句特征进行两两匹配，获得待匹配视频与待匹配文本之间的局部子层级相似度；以及将全局视频特征与全局语句特征进行匹配，获得待匹配视频与待匹配文本之间的全局子层级相似度。

上述中，局部子层级相似度可以根据局部视频特征与局部语句特征之间的相似度获得，可选的，局部子层级相似度的计算方式可以如下：

对于每个局部视频特征，服务器分别获取局部视频特征与各局部语句特征之间的第三相似度；基于获取的各第三相似度对各局部语句特征进行排序，选取位于指定次序的局部语句特征对应的第三相似度，作为与局部视频特征对应的目标相似度；服务器将各局部视频特征对应的目标相似度的平均值，作为视频文本相似度。

同理，对于每个局部语句特征，服务器分别获取局部语句特征与各局部视频特征之间的第四相似度；基于获取的各第四相似度对各局部视频特征进行排序，选取位于指定次序的局部视频特征对应的第四相似度，作为与局部语句特征对应的目标相似度；服务器将各局部语句特征对应的目标相似度的平均值，作为文本视频相似度。

最后，服务器可将视频文本相似度与文本视频相似度的平均值，作为局部子层级相似度。

上述中的第三相似度与第四相似度也可以通过点积操作获得，指定次序同样可以为将相似度由大到小排序时序列的第一位。局部子层级相似度的具体公式可以为：

其中，为第三相似度，/>为第四相似度；公式的括号中，左侧项为文本视频相似度，右侧项/>为视频文本相似度；Nc为视频片段的数量；c代表这是视频片段层级，V^c为各个视频片段对应的局部视频特征组成的矩阵；Np为短语的数量，p代表这是短语层级，T^p是各个短语对应的局部语句特征组成的矩阵；/>表示Nc个视频片段中第m个视频片段对应的局部视频特征，表示Np个短语中第n个短语对应的局部语句特征，m的取值在1到Nc之间(包括1和Nc)，n的取值在1到Np之间(包括1和Np)。

同时，全局子层级相似度的计算方式与局部子层级相似度类似，可以根据全局视频特征与全局语句特征之间的相似度获得，但由于待匹配视频的多个视频片段仅合成一个视频整体，待匹配文本的多个短语仅合成一个语句，全局子层级相似度的计算更简便，可选的，全局子层级相似度的计算方式可以如下：

对于全局子层级相似度，服务器将全局视频特征与全局语句特征进行匹配，获取全局视频特征与全局语句特征之间的第五相似度；并将第五相似度作为全局子层级相似度。

也即，全局子层级相似度的具体公式可以为：

其中，即为第五层级相似度，v代表这是视频整体层级，s表示语句层级；V^V是视频整体对应的全局视频特征组成的矩阵(或是向量等)，T^s是语句对应的全局语句特征组成的矩阵(向量)，m与n的取值只有1，/>表示这一个视频整体对应的全局视频特征，/>表示这一个语句对应的全局语句特征。

沿用S302中的假设，如图7所示，为本申请实施例提供的一种获得目标图像1的图像特征对应的目标相似度的逻辑示意图。对于12个目标图像，分别记为目标图像1、目标图像2、……、目标图像12，对于11个目标单词，分别记为目标单词1、目标单词2、……、目标单词11，服务器通过点积操作，分别求取目标图像1对应的图像特征与目标单词1、目标单词2、……、目标单词11各自对应的单词特征的第一相似度，并选取最大的第一相似度作为目标图像1的图像特征对应的目标相似度。

此外，服务器还需要获取目标图像2、目标图像3、……、目标图像12的图像特征各自对应的目标相似度，并将12个目标图像的图像特征各自对应的目标相似度进行取均值操作，得到图词相似度。

同理，如图8所示，为本申请实施例提供的一种获得目标单词1的单词特征对应的目标相似度的逻辑示意图。服务器通过点积操作，分别求取目标单词1对应的单词特征与目标图像1、目标图像2、……、目标图像12各自对应的图像特征的第二相似度，并选取最大的第二相似度作为目标单词1的单词特征对应的目标相似度，此外，服务器还需要获取目标单词2、目标单词3、……、目标单词11的单词特征各自对应的目标相似度，并将11个目标单词的单词特征各自对应的目标相似度进行取均值操作，得到词图相似度。

最后，服务器将图词相似度与词图相似度的平均值，作为第一层级相似度，假设第一层级相似度为A。

对于局部子层级相似度的获取方法，与第一层级相似度相同。将3个视频片段，分别记为视频片段1，视频片段2，视频片段3，对于四个短语，分别记为短语1，短语2，短语3，短语4。服务器通过点积操作，分别求取视频片段1对应的局部视频特征与短语1，短语2，短语3，短语4各自对应的局部语句特征的第三相似度，并选取最大的第三相似度作为视频片段1的局部视频特征对应的目标相似度，此外，服务器还需要获取视频片段2、视频片段3的局部视频特征各自对应的目标相似度，并将3个视频片段的局部视频特征各自对应的目标相似度进行取均值操作，得到视频文本相似度。

同理，服务器通过点积操作，分别求取短语1对应的局部语句特征与视频片段1、视频片段2、视频片段3各自对应的局部视频特征的第四相似度，并选取最大的第四相似度作为短语1的局部语句特征对应的目标相似度，此外，服务器还需要获取短语2、短语3、短语4的局部语句特征各自对应的目标相似度，并将4个短语的局部语句特征各自对应的目标相似度进行取均值操作，得到文本视频相似度。

最后，服务器将图词相似度与词图相似度的平均值，作为局部子层级相似度，假设局部子层级相似度为B。

对于全局子层级相似度，服务器直接求取视频整体对应的全局视频特征与语句对应的全局语句特征的点积，得到的结果直接作为全局子层级相似度，假设全局子层级相似度为C。

S304：服务器基于第一层级相似度与第二层级相似度，获得相应的匹配结果。

一种可选的实施方式为，可以将第一层级相似度与第二层级相似度中局部子层级相似度和全局子层级相似度加权求和，获得相应的匹配结果。也即：待匹配视频与待匹配文本的匹配分数，也可以基于实际情况设定第一层级相似度、局部子层级相似度和全局子层级相似度的权重。

例如，匹配分数的公式可以为：

其中，α与β的取值在0到1之间，例如α＝0.5，β＝0.1。

沿用S303中的假设，在获取到第一层级相似度与第二层级相似度后，服务器计算待匹配视频与待匹配文本的匹配分数，假设采用上述匹配分数公式进行计算，则计算结果为A+0.5B+0.1C。

另一方面，在S301中提到的已训练的视频与文本匹配模型，是通过多次迭代的方式训练出来的。如图9所示，为本申请实施例提供的一种视频与文本的匹配模型的训练流程图，一次迭代的训练过程如S901-S903：

S901：服务器将训练样本集中的各训练样本输入待训练的视频与文本匹配模型，分别获取包含多帧样本图像的各视频训练样本各自对应的样本图像特征，以及获取包含多个样本单词的各文本训练样本各自对应的样本单词特征。

上述中，训练样本集中的训练样本包括视频训练样本与文本训练样本，假设每次迭代中有2N个训练样本，则其中N个样本为视频训练样本，N个样本为文本训练样本。下面均以每次迭代包含N个视频训练样本与N个文本训练样本为例展开说明。

与模型在应用时相同，假设N＝3，且对于输入模型中的每个视频训练样本各自进行均匀采样，每个视频训练样本采样得到12帧样本图像，服务器将每帧样本图像缩放到224×224大小，并都划分为14×4个网格，因此每个网格中共包含16×16个像素点，每个像素点有(r，g，b)三个通道，因此一个网格内共有16×16×3＝768个特征值，最终，每个视频训练样本的维度均为12×196×768。

构造12层Transformer结构作为视觉编码器，对各个视频训练样本的12帧样本图像(每帧样本图片维度为196×768)，分别进行特征提取，每个视频训练样本获得12×196×768维度的提取结果，之后服务器沿着空间维度对提取结果进行平均池化，最终获取12×768维度的提取结果，表示为一个视频训练样本共有12帧样本图像，每帧样本图像的样本图像特征包含有768个特征值。

对于输入模型中的每个文本训练样本，可以选择采用分词器对文本训练样本数据进行序列编码，得到每个单词的序号，并只取前32个单词组成文本向量。

构造12层Transformer结构作为文本编码器，对各个文本训练样本的32个样本单词，分别进行特征提取，最终每个文本训练样本获得32×768维度的提取结果，表示一个文本训练样本共有32个样本单词，每个样本单词的样本单词特征包含有768个特征值。

S902：服务器分别将各视频训练样本各自对应的多个样本图像特征进行至少一次聚合处理，得到各视频训练样本各自对应的样本视频特征；以及分别将各文本训练样本各自对应的多个样本单词特征进行至少一次聚合处理，得到各文本训练样本各自对应的样本语句特征。

该过程在模型训练中与模型应用时的步骤相同，服务器分别将各视频训练样本各自对应的多个样本图像特征进行聚合处理，得到各视频训练样本各自对应的至少两个局部样本视频特征；分别将各文本训练样本各自对应的多个样本单词特征进行聚合处理，得到各文本训练样本各自对应的至少两个局部样本语句特征；分别将各视频训练样本各自对应的至少两个局部样本视频特征进行聚合处理，得到各视频训练样本各自对应的全局样本视频特征；分别将各文本训练样本各自对应的至少两个局部样本语句特征进行聚合处理，得到各文本训练样本各自对应的全局样本语句特征。

其中，聚合获得局部样本视频特征的具体公式为：

其中，中的i表示这是N个视频训练样本中的第i个视频训练样本，W₁为映射矩阵，可以将/>映射为权重矩阵。

获得局部样本语句特征的具体公式为：

其中，中的j表示这是N个文本训练样本中的第j个文本训练样本，W₃为映射矩阵，可以将/>映射为权重矩阵。

获得全局样本视频特征的具体公式为：

其中，中的i表示这是N个视频训练样本中的第i个视频训练样本，W₂为映射矩阵，可以将/>映射为权重矩阵。

获得全局样本语句特征的具体公式为：

其中，中的j表示这是N个文本训练样本中的第j个文本训练样本，W₄为映射矩阵，可以将/>映射为权重矩阵。

沿用S901中的假设，现有3个视频训练样本，分别为视频训练样本1、视频训练样本2、视频训练样本3，与3个文本训练样本，分别为文本训练样本1、文本训练样本2、文本训练样本3，每个视频训练样本对应12帧样本图像，每帧样本图像的样本图像特征包含768个特征值；每个文本训练样本对应32个样本单词，每个样本单词的样本单词特征包含768个特征值。

服务器将视频训练样本1中12帧样本图像对应的样本图像特征进行聚合处理，假设得到3个样本视频片段各自对应的局部样本视频特征，服务器再将3个样本视频片段对应的局部样本视频特征进行聚合处理，得到1个样本视频整体对应的全局样本视频特征。服务器将视频训练样本2中12帧样本图像对应的样本图像特征进行聚合处理，假设得到4个样本视频片段各自对应的局部样本视频特征，服务器再将4个样本视频片段对应的局部样本视频特征进行聚合处理，得到1个样本视频整体对应的全局样本视频特征。服务器将视频训练样本3中12帧样本图像对应的样本图像特征进行聚合处理，假设得到2个样本视频片段各自对应的局部样本视频特征，服务器再将2个样本视频片段对应的局部样本视频特征进行聚合处理，得到1个样本视频整体对应的全局样本视频特征。

同理，服务器将文本训练样本1中32个样本单词对应的样本单词特征进行聚合处理，假设得到6个样本短语各自对应的局部样本语句特征，服务器再将6个样本短语对应的局部样本语句特征进行聚合处理，得到1个样本语句对应的全局样本语句特征。服务器将文本训练样本2中32个样本单词对应的样本单词特征进行聚合处理，假设得到4个样本短语各自对应的局部样本语句特征，服务器再将4个样本短语对应的局部样本语句特征进行聚合处理，得到1个样本语句对应的全局样本语句特征。服务器将文本训练样本3中32个样本单词对应的样本单词特征进行聚合处理，假设得到3个样本短语各自对应的局部样本语句特征，服务器再将3个样本短语对应的局部样本语句特征进行聚合处理，得到1个样本语句对应的全局样本语句特征。

S903：服务器基于获得的各样本图像特征和各样本单词特征之间的差异，以及获得的各样本视频特征和各样本语句特征之间的差异，对视频与文本匹配模型进行参数调整。

可选的，对于各视频训练样本，服务器将视频训练样本对应的各样本图像特征，与各文本训练样本各自对应的各样本单词特征，分别进行两两匹配，基于相应差异获取视频训练样本与各文本训练样本之间的第一层级相似度；并将视频训练样本对应的样本视频特征，与各文本训练样本各自对应的样本语句特征，分别进行两两匹配，基于相应差异获取视频训练样本与各文本训练样本之间的第二层级相似度；最后，服务器基于各视频训练样本与各文本训练样本的第一层级相似度与第二层级相似度，对视频与文本匹配模型进行参数调整。

上述中，第一层级相似度表征样本图像与样本单词级别的相似度；第二层级相似度包括：表征样本视频片段与样本短语级别的局部子层级相似度，以及表征样本视频整体与样本语句级别的全局子层级相似度。因此，与模型应用时相同，第二层级相似度的获取也分为两部分：服务器将视频训练样本对应的各局部样本视频特征，与各文本训练样本各自对应的各局部样本语句特征，分别进行两两匹配，获取视频训练样本与各文本训练样本的之间的局部子层级相似度；服务器将视频训练样本对应的全局样本视频特征，与各文本训练样本各自对应的全局样本语句特征，分别进行两两匹配，获取视频训练样本与各文本训练样本的之间的全局子层级相似度。

此外，模型训练时，第一层级相似度与第二层级相似度(局部子层级相似度与全局子层级相似度)的计算公式也与模型应用时相同，但由于模型训练时的视频训练样本与文本训练样本分别有多个，因此对于每个视频训练样本，都需要获取该视频训练样本与各个文本训练样本之间的第一层级相似度第二层级相似度/>与同时，对于每个文本训练样本，也都需要获取该文本训练样本与各个视频训练样本之间的第一层级相似度/>第二层级相似度/>与/>

上述中的i表示这是N个视频训练样本中的第i个视频训练样本，j表示这是N个视频训练样本中的第j个视频训练样本。

沿用S902中的假设，服务器将视频训练样本1的样本图像特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的样本单词特征进行匹配，得到视频训练样本1对应文本训练样本1的第一层级相似度视频训练样本1对应文本训练样本2的第一层级相似度/>视频训练样本1对应文本训练样本3的第一层级相似度同理，服务器将视频训练样本2的样本图像特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的样本单词特征进行匹配，得到视频训练样本2对应文本训练样本1的第一层级相似度/>视频训练样本2对应文本训练样本2的第一层级相似度/>视频训练样本2对应文本训练样本3的第一层级相似度服务器将视频训练样本3的样本图像特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的样本单词特征进行匹配，得到视频训练样本3对应文本训练样本1的第一层级相似度/>视频训练样本3对应文本训练样本2的第一层级相似度/>视频训练样本3对应文本训练样本3的第一层级相似度/>

同时，对于每个文本训练样本，服务器获取该文本训练样本与各个视频训练样本之间的第一层级相似度，得到文本训练样本1对应视频训练样本1的第一层级相似度文本训练样本1对应视频训练样本2的第一层级相似度/>文本训练样本1对应视频训练样本3的第一层级相似度/>文本训练样本2对应视频训练样本1的第一层级相似度/>文本训练样本2对应视频训练样本2的第一层级相似度/>文本训练样本2对应视频训练样本3的第一层级相似度/>文本训练样本3对应视频训练样本1的第一层级相似度/>文本训练样本3对应视频训练样本2的第一层级相似度/>文本训练样本3对应视频训练样本3的第一层级相似度/>

同理，服务器可以将视频训练样本1的局部样本视频特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的局部样本语句特征进行匹配，得到局部子层级相似度将视频训练样本2的局部样本视频特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的局部样本语句特征进行匹配，得到局部子层级相似度/>将视频训练样本3的局部样本视频特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的局部样本语句特征进行匹配，得到局部子层级相似度/>

同时，对于每个文本训练样本，服务器获取该文本训练样本与各个视频训练样本之间的局部子层级相似度，得到文本训练样本1对应视频训练样本1、视频训练样本2、视频训练样本3的局部子层级相似度文本训练样本2对应视频训练样本1、视频训练样本2、视频训练样本3的局部子层级相似度文本训练样本3对应视频训练样本1、视频训练样本2、视频训练样本3的局部子层级相似度/>

服务器将视频训练样本1的全局样本视频特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的全局样本语句特征进行匹配，得到全局子层级相似度将视频训练样本2的全局样本视频特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的全局样本语句特征进行匹配，得到全局子层级相似度/> 将视频训练样本3的全局样本视频特征，分别与文本训练样本1、文本训练样本2、文本训练样本3各自对应的全局样本语句特征进行匹配，得到全局子层级相似度/>

同时，对于每个文本训练样本，服务器获取该文本训练样本与各个视频训练样本之间的全局子层级相似度，得到文本训练样本1对应视频训练样本1、视频训练样本2、视频训练样本3的全局子层级相似度文本训练样本2对应视频训练样本1、视频训练样本2、视频训练样本3的全局子层级相似度文本训练样本3对应视频训练样本1、视频训练样本2、视频训练样本3的全局子层级相似度/>

可选的，由于第二层级相似度包括局部子层级相似度以及全局子层级相似度，则服务器基于各视频训练样本与各文本训练样本的第一层级相似度与第二层级相似度，对视频与文本匹配模型进行参数调整，如图10所示，为本申请实施例提供的一种获得目标损失函数的流程图，具体可以包括步骤1001-1004：

步骤1001：服务器基于各视频训练样本与各文本训练样本的第一层级相似度，构建图像及单词层级的第一损失函数。

第一损失函数的构建过程如下：对于各视频训练样本，服务器基于视频训练样本与一个文本训练样本的第一层级相似度，以及视频训练样本与各文本训练样本的第一层级相似度，确定视频训练样本对应的单词层级相似度比值；对于各文本训练样本，服务器将文本训练样本与一个视频训练样本的第一层级相似度；以及文本训练样本与各视频训练样本的第一层级相似度，确定文本训练样本对应的图像层级相似度比值；服务器基于各视频训练样本对应的单词层级相似度比值之和，及各文本训练样本对应的图像层级相似度比值之和，确定第一损失函数。

具体地，可以采用以下公式进行第一损失函数的计算：

上述公式中，分子的两项中的左侧项中，表示e的次方，也即，服务器对一个视频训练样本与一个文本训练样本之间的第一层级相似度进行指数运算，并将对一个视频训练样本与各个文本训练样本之间的第一层级相似度进行指数求和运算，之后，服务器将两者相除，并对相除结果进行对数运算，得到以10为底/>的对数。服务器还需要对其他视频训练样本均进行一遍上述操作，最终都会得到一个对数，服务器将所有对数取平均值。

第一损失函数的计算公式中，分子的右侧项是服务器对一个文本训练样本与一个视频训练样本之间的第一层级相似度进行指数运算，并将对一个文本训练样本与各个视频训练样本之间的第一层级相似度进行指数求和运算，之后，服务器将两者相除，并对相除结果进行对数运算，得到以10为底的对数。与第一损失函数的计算公式中分子的左侧项相同，服务器还需要对其他文本训练样本均进行一遍上述操作，并将得到的所有对数取平均值。

最后，服务器将两项相加，并除以-2，得到第一损失函数。

步骤1002：服务器基于各视频训练样本与各文本训练样本的之间的局部子层级相似度，构建视频片段与短语层级的第二损失函数。

第二损失函数的构建过程如下：对于各视频训练样本，服务器将视频训练样本与一个文本训练样本的局部子层级相似度，以及视频训练样本与各文本训练样本的局部子层级相似度，确定视频训练样本对应的短语层级相似度比值；对于各文本训练样本，服务器将文本训练样本与一个视频训练样本的局部子层级相似度；以及文本训练样本与各视频训练样本的局部子层级相似度，确定文本训练样本对应的视频片段层级相似度比值；服务器基于各视频训练样本对应的短语层级相似度比值之和，及各文本训练样本对应的视频片段层级相似度比值之和，确定第二损失函数。

具体地，可以采用以下公式进行第二损失函数的计算：

上述第二损失函数的计算公式的原理与第一损失函数一致，在此不再赘述。

步骤1003：服务器基于各视频训练样本与各文本训练样本的之间的全局子层级相似度，构建视频整体与语句层级的第三损失函数。

第三损失函数的构建过程如下：对于各视频训练样本，服务器将视频训练样本与一个文本训练样本的全局子层级相似度，以及视频训练样本与各文本训练样本的全局子层级相似度，确定视频训练样本对应的语句层级相似度比值；对于各文本训练样本，服务器将文本训练样本与一个视频训练样本的全局子层级相似度；以及文本训练样本与各视频训练样本的全局子层级相似度，确定文本训练样本对应的视频整体层级相似度比值；服务器基于各视频训练样本对应的语句层级相似度比值之和，及各文本训练样本对应的视频整体层级相似度比值之和，确定第三损失函数。

具体地，可以采用以下公式进行第三损失函数的计算：

与模型应用时相同，全局子层级相似度可以基于全局样本视频特征与全局样本语句特征之间的第五相似度直接获得，因此上述公式可以简化为：

上述第三损失函数的计算公式的原理与第一损失函数、第二损失函数一致，在此不再赘述。

步骤1004：服务器采用基于第一损失函数、第二损失函数与第三损失函数构建的目标损失函数，对视频与文本匹配模型进行参数调整。

具体地，可以基于实际情况为第一损失函数、第二损失函数与第三损失函数设置权重，再根据权重将三个损失函数相加获得目标损失函数。之后，服务器基于目标损失函数对视频与文本匹配模型进行参数调整及训练监督。目标损失函数的计算公式可以为：

其中，α与β的取值在0到1之间，例如α＝0.5，β＝0.1。

综上，假设需要确定一个待匹配文本内容与一个待匹配视频内容是否匹配，如图11所示，为本申请实施例提供的另一种视频与文本的匹配方法流程图，具体地，服务器执行以下步骤：

步骤1101：服务器获取待匹配视频所包含的多帧目标图像各自对应的图像特征，以及待匹配文本所包含的多个目标单词各自对应的单词特征。

步骤1102：服务器基于视频与文本匹配模型，将多帧目标图像的图像特征进行聚合处理，得到待匹配视频对应的至少两个局部视频特征，以及将多个目标单词的单词特征进行聚合处理，得到待匹配文本对应的至少两个局部语句特征。

上述中，目标图像的聚合处理是：服务器将每帧目标图像对应的图像特征组合为一个矩阵，并基于视频与文本匹配模型中的映射矩阵对图像特征组合成的矩阵进行映射处理，获得相应的权重矩阵，之后再基于视频与文本匹配模型中的至少一个全连接层，实现将目标图像聚合为多个视频片段，获得各个视频片段各自对应的局部视频特征。目标单词的聚合处理与目标图像相同。

步骤1103：服务器基于视频与文本匹配模型，将至少两个局部视频特征进行聚合处理，得到待匹配视频对应的全局视频特征；以及将至少两个局部语句特征进行聚合处理，得到待匹配文本对应的全局语句特征。

与步骤1102中的聚合处理相同，服务器将每个视频片段对应的局部视频特征组合为一个矩阵，并基于视频与文本匹配模型中的映射矩阵对局部视频特征组合成的矩阵进行映射处理，获得相应的权重矩阵，之后再基于视频与文本匹配模型中的至少一个全连接层，实现将视频片段聚合为1个视频整体，获得全局视频特征。同理，服务器将多个短语聚合为1个语句。

步骤1104：服务器获取图词相似度。

具体地，服务器分别获取图像特征与各单词特征之间的第一相似度；基于获取的各第一相似度对各单词特征进行排序，选取位于指定次序的单词特征对应的第一相似度，作为与图像特征对应的目标相似度；并将各图像特征对应的目标相似度的平均值，作为图词相似度。

步骤1105：服务器获取词图相似度。

具体地，服务器分别获取单词特征与各图像特征之间的第二相似度；基于获取的各第二相似度对各图像特征进行排序，选取位于指定次序的图像特征对应的第二相似度，作为与单词特征对应的目标相似度；将各单词特征对应的目标相似度的平均值，作为词图相似度。

上述步骤1104与步骤1105可以同时进行，也可以先后进行，本身请不做具体限定。

步骤1106：服务器将图词相似度与词图相似度的平均值，作为第一层级相似度。

步骤1107：服务器获取视频文本相似度。

具体地，服务器分别获取局部视频特征与各局部语句特征之间的第三相似度；基于获取的各第三相似度对各局部语句特征进行排序，选取位于指定次序的局部语句特征对应的第三相似度，作为与局部视频特征对应的目标相似度；并将各局部视频特征对应的目标相似度的平均值，作为视频文本相似度。

步骤1108：服务器获取文本视频相似度。

具体地，服务器分别获取局部语句特征与各局部视频特征之间的第四相似度；基于获取的各第四相似度对各局部视频特征进行排序，选取位于指定次序的局部视频特征对应的第四相似度，作为与局部语句特征对应的目标相似度；并将各局部语句特征对应的目标相似度的平均值，作为文本视频相似度。

上述步骤1107与步骤1108可以同时进行，也可以先后进行，本身请不做具体限定。

步骤1109：服务器将视频文本相似度与文本视频相似度的平均值，作为局部子层级相似度。

步骤1110：服务器将全局视频特征与全局语句特征进行匹配，获取全局子层级相似度。

具体地，服务器获取全局视频特征与全局语句特征之间的第五相似度，并将第五相似度作为全局子层级相似度。

步骤1111：服务器基于第一层级相似度、局部子层级相似度与全局子层级相似度，获得待匹配文本与待匹配视频的匹配分数，并给予匹配分数确定两者内容是否相匹配。

已训练的视频与文本匹配模型可以应用于检索应用程序，或用于视频内容的推广等，视频与文本匹配模型能够响应于文本输入操作，获取对象输入的待匹配文本，并从预设视频库中获取多个待匹配视频；以根据获取到的输入文本，检索到与该文本内容相符的视频内容。

对于每个待匹配视频，在获得相应的匹配结果之后，可以基于待匹配文本与各待匹配视频的匹配结果，对各待匹配视频进行排序，并选取位于指定次序的待匹配视频，作为与待匹配文本相匹配的目标视频。

如图12所示，为本申请实施例中的一个视频与文本匹配模型实际应用时的流程图。服务器对于对象h输入的一段待匹配文本，获取该文本所包含的多个目标单词各自对应的单词特征。服务器对视频库中的每个视频，分别获取其所包含的多帧目标图像各自对应的图像特征，服务器基于视频与文本匹配模型，分别将每个视频的图像特征各自进行聚合处理，得到每个视频各自对应的至少两个局部视频特征，再分别对每个视频各自对应的至少两个局部视频特征进行聚合处理，得到每个视频各自对应的全局视频特征；服务器将待匹配文本的单词特征进行聚合处理，得到待匹配文本对应的至少两个局部语句特征；以及将至少两个局部语句特征进行聚合处理，得到待匹配文本对应的全局语句特征。之后，服务器基于单词特征与各个视频的图像特征，得到每个视频各自与待匹配文本的第一层级相似度；基于局部语句特征与各个视频的局部视频特征，得到每个视频各自与待匹配文本的局部子层级相似度；基于全局语句特征与各个视频的全局视频特征，得到每个视频各自与待匹配文本的全局子层级相似度。最后服务器基于第一层级相似度、局部子层级相似度与全局子层级相似度，获得待匹配文本与各个视频的匹配分数，假设匹配分数为视频2＞视频1＞视频7……，则说明视频2的内容与待匹配文本最为符合，则服务器将视频2传至客户端，由客户端向对象h展示。

综上，如图13所示，为本申请实施例提供的一种视频文本匹配过程的逻辑示意图。本申请在获取一段包含多帧的视频以及一段文本之后，基于视觉编码器与文本编码器对视频中的多帧图片，以及文本中的多个单词进行特征提取，获得视频在图像层级的特征，以及文本在单词层级的特征，并将视频在图像层级的特征，以及文本在单词层级的特征进行交互，获得图像-单词层级相似度；之后对多帧图片各自对应的图像层级的特征聚合，得到视频片段层级的特征，以及对多个单词各自对应的单词层级的特征聚合，得到短语层级的特征，将视频在视频片段层级的特征，以及文本在短语层级的特征进行交互，获得视频片段-短语层级相似度；最后，对多个视频片段各自对应的视频片段层级的特征聚合，得到视频整体层级的特征，以及对多个短语各自对应的短语层级的特征聚合，得到语句层级的特征，将视频在视频整体层级的特征，以及文本在语句层级的特征进行交互，获得视频整体-语句层级。本申请在三个层级上对文本与视频进行匹配，匹配的准确度更高。

基于相同的发明构思，本申请实施例还提供一种视频与文本的匹配装置。

如图14所示，其为视频与文本的匹配装置的结构示意图，可以包括：

第一获取单元1401，用于获取待匹配视频所包含的多帧目标图像各自对应的图像特征，及待匹配文本所包含的多个目标单词各自对应的单词特征；

聚合单元1402，用于将多帧目标图像的图像特征进行至少一次聚合处理，得到待匹配视频对应的视频特征，以及将多个目标单词的单词特征进行至少一次聚合处理，得到待匹配文本对应的语句特征；

匹配单元1403，用于分别将各图像特征与各单词特征进行两两匹配，获得待匹配视频与待匹配文本之间的第一层级相似度；以及，将视频特征与语句特征进行匹配，获得待匹配视频与待匹配文本之间的第二层级相似度；

第二获取单元1404，用于基于第一层级相似度与第二层级相似度，获得相应的匹配结果。

可选的，聚合单元1402具体用于：

基于已训练的视频与文本匹配模型，将多帧目标图像的图像特征进行聚合处理，得到待匹配视频对应的至少两个局部视频特征；每个局部视频特征用于表征由至少两个目标图像所组成的视频片段的内容信息；

将多个目标单词的单词特征进行聚合处理，得到待匹配文本对应的至少两个局部语句特征；每个局部语句特征用于表征由至少两个目标单词所组成的短语的语义信息；

基于视频与文本匹配模型，将至少两个局部视频特征进行聚合处理，得到待匹配视频对应的全局视频特征；以及将至少两个局部语句特征进行聚合处理，得到待匹配文本对应的全局语句特征。

可选的，第一层级相似度表征图像与单词级别的相似度；匹配单元1403具体用于：

对于每个图像特征，分别获取图像特征与各单词特征之间的第一相似度；基于获取的各第一相似度对各单词特征进行排序，选取位于指定次序的单词特征对应的第一相似度，作为与图像特征对应的目标相似度；以及

对于每个单词特征，分别获取单词特征与各图像特征之间的第二相似度；基于获取的各第二相似度对各图像特征进行排序，选取位于指定次序的图像特征对应的第二相似度，作为与单词特征对应的目标相似度；

基于各图像特征对应的目标相似度，以及各单词特征对应的目标相似度，确定第一层级相似度。

可选的，匹配单元1403具体用于：

将各图像特征对应的目标相似度的平均值，作为图词相似度；

将各单词特征对应的目标相似度的平均值，作为词图相似度；

将图词相似度与词图相似度的平均值，作为第一层级相似度。

可选的，第二层级相似度包括：表征视频片段与短语级别的局部子层级相似度，表征视频整体与语句级别的全局子层级相似度；匹配单元1403具体用于：

分别将各局部视频特征与各局部语句特征进行两两匹配，获得待匹配视频与待匹配文本之间的局部子层级相似度；以及

将全局视频特征与全局语句特征进行匹配，获得待匹配视频与待匹配文本之间的全局子层级相似度。

可选的，匹配单元1403具体用于：

对于每个局部视频特征，分别获取局部视频特征与各局部语句特征之间的第三相似度；基于获取的各第三相似度对各局部语句特征进行排序，选取位于指定次序的局部语句特征对应的第三相似度，作为与局部视频特征对应的目标相似度；以及

对于每个局部语句特征，分别获取局部语句特征与各局部视频特征之间的第四相似度；基于获取的各第四相似度对各局部视频特征进行排序，选取位于指定次序的局部视频特征对应的第四相似度，作为与局部语句特征对应的目标相似度；

基于各局部视频特征对应的目标相似度，以及各局部语句特征对应的目标相似度，确定局部子层级相似度。

可选的，匹配单元1403具体用于：

将各局部视频特征对应的目标相似度的平均值，作为视频文本相似度；

将各局部语句特征对应的目标相似度的平均值，作为文本视频相似度；

将视频文本相似度与文本视频相似度的平均值，作为局部子层级相似度。

可选的，聚合单元1402具体用于在每次聚合处理时执行以下过程：

将待聚合的第一对象特征进行拼接，并基于视频与文本匹配模型中的映射矩阵对拼接结果进行映射处理，获得相应的权重矩阵，权重矩阵的维度是基于：待聚合的第一对象特征的数量，以及聚合后的第二对象特征的数量确定的；第一对象特征为图像特征、单词特征、局部视频特征、局部语句特征中的至少一种；第二对象特征为对第一对象特征进行聚合所得到的相应特征；

基于视频与文本匹配模型中的至少一个全连接层，对拼接结果进行维度变换，获得相应的变换结果；

基于权重矩阵，以及变换结果，确定聚合后的第二对象特征。

可选的，装置还包括：

训练单元1405，用于通过下列方式训练得到视频与文本匹配模型：

分别将各视频训练样本各自对应的多个样本图像特征进行至少一次聚合处理，得到各视频训练样本各自对应的样本视频特征；以及分别将各文本训练样本各自对应的多个样本单词特征进行至少一次聚合处理，得到各文本训练样本各自对应的样本语句特征；

基于获得的各样本图像特征和各样本单词特征之间的差异，以及获得的各样本视频特征和各样本语句特征之间的差异，对视频与文本匹配模型进行参数调整。

可选的，训练单元1405具体用于：

对于各视频训练样本，将视频训练样本对应的各样本图像特征，与各文本训练样本各自对应的各样本单词特征，分别进行两两匹配，基于相应差异获取视频训练样本与各文本训练样本之间的第一层级相似度；

将视频训练样本对应的样本视频特征，与各文本训练样本各自对应的样本语句特征，分别进行两两匹配，基于相应差异获取视频训练样本与各文本训练样本之间的第二层级相似度；

基于各视频训练样本与各文本训练样本的第一层级相似度与第二层级相似度，对视频与文本匹配模型进行参数调整。

可选的，训练单元1405具体用于：

分别将各视频训练样本各自对应的多个样本图像特征进行聚合处理，得到各视频训练样本各自对应的至少两个局部样本视频特征；

分别将各文本训练样本各自对应的多个样本单词特征进行聚合处理，得到各文本训练样本各自对应的至少两个局部样本语句特征；

分别将各视频训练样本各自对应的至少两个局部样本视频特征进行聚合处理，得到各视频训练样本各自对应的全局样本视频特征；

分别将各文本训练样本各自对应的至少两个局部样本语句特征进行聚合处理，得到各文本训练样本各自对应的全局样本语句特征。

可选的，第一层级相似度表征样本图像与样本单词级别的相似度；第二层级相似度包括：表征样本视频片段与样本短语级别的局部子层级相似度，表征样本视频整体与样本语句级别的全局子层级相似度；训练单元1405具体用于：

将视频训练样本对应的各局部样本视频特征，与各文本训练样本各自对应的各局部样本语句特征，分别进行两两匹配，获取视频训练样本与各文本训练样本的之间的局部子层级相似度；

将视频训练样本对应的全局样本视频特征，与各文本训练样本各自对应的全局样本语句特征，分别进行两两匹配，获取视频训练样本与各文本训练样本的之间的全局子层级相似度。

可选的，训练单元1405具体用于：

基于各视频训练样本与各文本训练样本的第一层级相似度，构建图像及单词层级的第一损失函数；

采用基于第一损失函数、第二损失函数与第三损失函数构建的目标损失函数，对视频与文本匹配模型进行参数调整。

可选的，训练单元1405具体用于：

对于各视频训练样本，基于视频训练样本与一个文本训练样本的第一层级相似度，以及视频训练样本与各文本训练样本的第一层级相似度，确定视频训练样本对应的单词层级相似度比值；

对于各文本训练样本，将文本训练样本与一个视频训练样本的第一层级相似度；以及文本训练样本与各视频训练样本的第一层级相似度，确定文本训练样本对应的图像层级相似度比值；

基于各视频训练样本对应的单词层级相似度比值之和，及各文本训练样本对应的图像层级相似度比值之和，确定第一损失函数。

可选的，训练单元1405具体用于：

对于各视频训练样本，将视频训练样本与一个文本训练样本的局部子层级相似度，以及视频训练样本与各文本训练样本的局部子层级相似度，确定视频训练样本对应的短语层级相似度比值；

对于各文本训练样本，将文本训练样本与一个视频训练样本的局部子层级相似度；以及文本训练样本与各视频训练样本的局部子层级相似度，确定文本训练样本对应的视频片段层级相似度比值；

基于各视频训练样本对应的短语层级相似度比值之和，及各文本训练样本对应的视频片段层级相似度比值之和，确定第二损失函数。

可选的，训练单元1405具体用于：

对于各视频训练样本，将视频训练样本与一个文本训练样本的全局子层级相似度，以及视频训练样本与各文本训练样本的全局子层级相似度，确定视频训练样本对应的语句层级相似度比值；

对于各文本训练样本，将文本训练样本与一个视频训练样本的全局子层级相似度；以及文本训练样本与各视频训练样本的全局子层级相似度，确定文本训练样本对应的视频整体层级相似度比值；

基于各视频训练样本对应的语句层级相似度比值之和，及各文本训练样本对应的视频整体层级相似度比值之和，确定第三损失函数。

可选的，装置还包括：

响应单元1406，用于在获取待匹配视频所包含的多帧目标图像各自对应的图像特征之前，响应于文本输入操作，获取对象输入的待匹配文本，并从预设视频库中获取多个待匹配视频；

对于每个待匹配视频，在获得相应的匹配结果之后，基于待匹配文本与各待匹配视频的匹配结果，对各待匹配视频进行排序；

选取位于指定次序的待匹配视频，作为与待匹配文本相匹配的目标视频。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本申请示例性实施方式的视频与文本的匹配方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各方面可以实现为***、方法或程序产品。因此，本申请的各方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图2所示的服务器220。在该实施例中，电子设备的结构可以如图15所示，包括存储器1501，通讯模块1503以及一个或多个处理器1502。

存储器1501，用于存储处理器1502执行的计算机程序。存储器1501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1501是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1501可以是上述存储器的组合。

处理器1502，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1502，用于调用存储器1501中存储的计算机程序时实现上述视频与文本的匹配方法。

通讯模块1503用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1501、通讯模块1503和处理器1502之间的具体连接介质。本申请实施例在图15中以存储器1501和处理器1502之间通过总线1504连接，总线1504在图15中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1504可以分为地址总线、数据总线、控制总线等。为便于描述，图15中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1501中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的视频与文本的匹配方法。处理器1502用于执行上述的视频与文本的匹配方法，如图3所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图2所示的终端设备210。在该实施例中，电子设备的结构可以如图16所示，包括：通信组件1610、存储器1620、显示单元1630、摄像头1640、传感器1650、音频电路1660、蓝牙模块1670、处理器1680等部件。

通信组件1610用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助对象(如用户)收发信息。

存储器1620可用于存储软件程序及数据。处理器1680通过运行存储在存储器1620的软件程序或数据，从而执行终端设备210的各种功能以及数据处理。存储器1620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1620存储有使得终端设备210能运行的操作***。本申请中存储器1620可以存储操作***及各种应用程序，还可以存储执行本申请实施例视频与文本的匹配方法的计算机程序。

显示单元1630还可用于显示由对象输入的信息或提供给对象的信息以及终端设备210的各种菜单的图形对象界面(graphical user interface，GUI)。具体地，显示单元1630可以包括设置在终端设备210正面的显示屏1632。其中，显示屏1632可以采用液晶显示器、发光二极管等形式来配置。显示单元1630可以用于显示本申请实施例中的视频检索界面等。

显示单元1630还可用于接收输入的数字或字符信息，产生与终端设备210的对象设置以及功能控制有关的信号输入，具体地，显示单元1630可以包括设置在终端设备210正面的触控屏1631，可收集对象在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触控屏1631可以覆盖在显示屏1632之上，也可以将触控屏1631与显示屏1632集成而实现终端设备210的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1630可以显示应用程序以及对应的操作步骤。

摄像头1640可用于捕获静态图像，对象可以将摄像头1640拍摄的图像通过应用发布。摄像头1640可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1680转换成数字图像信号。

终端设备还可以包括至少一种传感器1650，比如加速度传感器1651、距离传感器1652、指纹传感器1653、温度传感器1654。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1660、扬声器1661、传声器1662可提供对象与终端设备210之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号，传输到扬声器1661，由扬声器1661转换为声音信号输出。终端设备210还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1662将收集的声音信号转换为电信号，由音频电路1660接收后转换为音频数据，再将音频数据输出至通信组件1610以发送给比如另一终端设备210，或者将音频数据输出至存储器1620以便进一步处理。

蓝牙模块1670用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1670与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1680是终端设备的控制中心，利用各种接口和线路连接整个终端的各部分，通过运行或执行存储在存储器1620内的软件程序，以及调用存储在存储器1620内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1680可包括一个或多个处理单元；处理器1680还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作***、对象界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1680中。本申请中处理器1680可以运行操作***、应用程序、对象界面显示及触控响应，以及本申请实施例的视频与文本的匹配方法。另外，处理器1680与显示单元1630耦接。

在一些可能的实施方式中，本申请提供的视频与文本的匹配方法的各方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频与文本的匹配方法中的步骤，例如，电子设备可以执行如图3中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在对象电子设备上执行、部分地在对象电子设备上执行、作为一个独立的软件包执行、部分在对象电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到对象电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频与文本的匹配方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述多帧目标图像的图像特征进行至少一次聚合处理，得到所述待匹配视频对应的视频特征；以及将所述多个目标单词的单词特征进行至少一次聚合处理，得到所述待匹配文本对应的语句特征，包括：

3.如权利要求1所述的方法，其特征在于，所述第一层级相似度表征图像与单词级别的相似度；所述分别将各图像特征与各单词特征进行两两匹配，获得所述待匹配视频与所述待匹配文本之间的第一层级相似度，包括：

4.如权利要求3所述的方法，其特征在于，所述基于各图像特征对应的目标相似度，以及各单词特征对应的目标相似度，确定所述第一层级相似度，包括：

5.如权利要求3所述的方法，其特征在于，所述第二层级相似度包括：表征视频片段与短语级别的局部子层级相似度，表征视频整体与语句级别的全局子层级相似度；

所述将所述视频特征与所述语句特征进行匹配，获得所述待匹配视频与所述待匹配文本之间的第二层级相似度，包括：

分别将各局部视频特征与各局部语句特征进行两两匹配，获得所述待匹配视频与所述待匹配文本之间的局部子层级相似度；以及

6.如权利要求5所述的方法，其特征在于，所述分别将各局部视频特征与各局部语句特征进行两两匹配，获得所述待匹配视频与所述待匹配文本之间的局部子层级相似度，包括：

7.如权利要求6所述的方法，其特征在于，所述基于各局部视频特征对应的目标相似度，以及各局部语句特征对应的目标相似度，确定所述局部子层级相似度，包括：

8.如权利要求2所述的方法，其特征在于，每次聚合处理执行以下过程：

9.如权利要求2所述的方法，其特征在于，所述视频与文本匹配模型是通过下列方式训练得到的：

10.如权利要求9所述的方法，其特征在于，所述基于获得的各样本图像特征和各样本单词特征之间的差异，以及获得的各样本视频特征和各样本语句特征之间的差异，对所述视频与文本匹配模型进行参数调整，包括：

11.如权利要求10所述的方法，其特征在于，所述分别将所述各视频训练样本各自对应的多个样本图像特征进行至少一次聚合处理，得到所述各视频训练样本各自对应的样本视频特征；以及分别将所述各文本训练样本各自对应的多个样本单词特征进行至少一次聚合处理，得到所述各文本训练样本各自对应的样本语句特征，包括：

12.如权利要求11所述的方法，其特征在于，所述第一层级相似度表征样本图像与样本单词级别的相似度；所述第二层级相似度包括：表征样本视频片段与样本短语级别的局部子层级相似度，表征样本视频整体与样本语句级别的全局子层级相似度；

所述将所述视频训练样本对应的样本视频特征，与所述各文本训练样本各自对应的样本语句特征，分别进行两两匹配，获取所述视频训练样本与各文本训练样本的之间的第二层级相似度，包括：

13.如权利要求12所述的方法，其特征在于，所述基于各视频训练样本与所述各文本训练样本的第一层级相似度与第二层级相似度，对所述视频与文本匹配模型进行参数调整，包括：

14.如权利要求13所述的方法，其特征在于，所述基于各视频训练样本与所述各文本训练样本的第一层级相似度，构建图像及单词层级的第一损失函数，包括：

15.如权利要求13所述的方法，其特征在于，所述基于各视频训练样本与各文本训练样本的之间的局部子层级相似度，构建视频片段与短语层级的第二损失函数，包括：

16.如权利要求13所述的方法，其特征在于，所述基于各视频训练样本与各文本训练样本的之间的全局子层级相似度，构建视频整体与语句层级的第三损失函数，包括：

17.一种视频与文本的匹配装置，其特征在于，包括：

18.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～16中任一所述方法的步骤。

19.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1～16中任一所述方法的步骤。

20.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行权利要求1～16中任一所述方法的步骤。