CN113987119A

CN113987119A - 一种数据检索方法、跨模态数据匹配模型处理方法和装置

Info

Publication number: CN113987119A
Application number: CN202111166923.0A
Authority: CN
Inventors: 方晟; 刘梦怡; 王树徽; 卓君宝; 黄庆明; 何源; 薛晖
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-28
Anticipated expiration: 2041-09-30

Abstract

本申请实施例公开了一种数据检索方法、跨模态数据匹配模型处理方法和装置。依据本申请实施例，在跨模态的检索中，对视频数据构建两部分特征数据，一部分是视频帧的图像内容特征，一部分是对应分类预测的多个分类标签的图像语义特征，从而使得视频数据的视频特征既有表征全局信息的内容特征，也有细粒度的语义特征，可以更准确地表征视频数据。其中，为了采用更多维度的语义特征对视频进行更准确地表征，还可以基于已有的初始图像语义特征进行扩展，收集与初始图像语义特征具有语义关联的扩展图像语义特征，本申请实施例还可以基于具有关联的至少一个初始图像语义特征的响应值推导扩展图像语义特征的响应值，丰富了视频的特征维度。

Description

一种数据检索方法、跨模态数据匹配模型处理方法和装置

技术领域

本申请涉及数据处理技术领域，具体涉及一种数据检索方法和装置、一种跨模态数据匹配模型的处理方法和装置、一种计算机设备、一种计算机可读存储介质。

背景技术

随着社会媒体的快速发展，短视频逐渐成为大众的主流浏览信息，如何有效的在视频和文本间建立双向的检索成为一个重要的研究领域。

近来主流的视频文本检索大多是基于隐空间的方案，也即是，通过将视频和文本分别映射到一个共享的公共空间中，实现语义特征的对齐，计算视频和文本之间的特征相似度进行匹配检索。

视频是一种信息非常丰富的模态，如何提取其表征的信息是匹配检索的关键，目前的检索结果的准确性仍然有需要得到提高。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据检索方法、跨模态数据匹配模型处理方法以及计算机设备、计算机可读存储介质。

依据本申请的一个方面，提供了一种数据检索方法，包括：

接收基于视频数据的检索请求；

提取所述视频数据的视频特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

检索文本特征与所述视频数据的视频特征匹配的文本数据；

提供所述文本数据作为检索结果。

依据本申请的另一个方面，提供了一种数据检索方法，包括：

接收基于第一模态数据的检索请求；

查找数据特征与所述第一模态数据的数据特征匹配的第二模态数据；

提供所述第二模态数据作为检索结果；

其中，所述第一模态数据或所述第二模态数据包括视频数据，所述视频数据的视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定。

接收基于文本数据的检索请求；

检索视频特征与所述文本数据的文本特征匹配的视频数据；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

提供所述视频数据作为检索结果。

依据本申请的另一个方面，提供了一种跨模态数据匹配模型的处理方法，包括：

收集多个样本对，所述样本对包括视频数据样本以及对应匹配的文本数据样本；

提取视频数据样本的视频特征以及文本数据样本的文本特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

根据所述视频数据样本的视频特征以及文本数据样本的文本特征，训练基于视频数据查找匹配的文本数据或基于文本数据查找匹配的视频数据的跨模态数据匹配模型。

依据本申请的另一个方面，提供了一种基于视频的数据处理方法，其特征在于，包括：

获取待处理的视频数据；

基于所述视频数据的视频特征执行数据处理流程。

依据本申请的另一个方面，提供了一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如上述任一项所述的方法。

依据本申请的另一个方面，提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如上述任一项所述的方法。

依据本申请实施例，在跨模态的检索中，对视频数据构建两部分特征数据，一部分是视频帧的图像内容特征，一部分是对应分类预测的多个分类标签的图像语义特征，从而使得视频数据的视频特征既有表征全局信息的内容特征，也有细粒度的语义特征，可以更准确地表征视频数据。其中，为了采用更多维度的语义特征对视频进行更准确地表征，还可以基于已有的初始图像语义特征进行扩展，收集与初始图像语义特征具有语义关联的扩展图像语义特征，本申请实施例还可以基于具有关联的至少一个初始图像语义特征的响应值推导扩展图像语义特征的响应值，丰富了视频的特征维度。通过对视频数据提取全面而丰富的特征进行视频表征，有效桥接了不同模态之间的语义鸿沟，显著提高了跨模态视频检索***的性能，可以提高视频文本匹配结果的准确度，有助于获得更准确的检索结果，这个效果也得到了实验验证。

并且，本申请实施例通过对视频数据构架图像内容特征和图像语义特征，对文本数据构建文本语义特征，进而将视频数据和文本数据映射到内容公共空间和语义公共空间中，也即是采用了不同的多维度特征表达，将两个模态的特征编码过程解耦，不影响处理效率，可以克服隐空间方案中特征对齐导致信息丢失、特征表征不够准确的问题，进而提高了视频文本匹配的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一种数据检索方法的一个具体示例；

图2示出了根据本申请实施例一的一种数据检索方法的流程图；

图3示出了根据本申请实施例二的一种数据检索方法的流程图；

图4示出了根据本申请实施例三的一种数据检索方法的流程图；

图5示出了根据本申请实施例四的一种跨模态数据匹配模型的处理方法的流程图；

图6示出了根据本申请实施例五的一种数据检索装置的结构框图；

图7示出了根据本申请实施例六的一种数据检索装置结构框图；

图8示出了根据本申请实施例七的一种数据检索装置的结构框图；

图9示出了根据本申请实施例八的一种跨模态数据匹配模型的处理装置的结构框图；

图10示出了可被用于实现本公开中所述的各个实施例的示例性***。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

针对现有的视频文本匹配应用中，为更准确地对视频进行特征表征，进而提高检索结果的准确性，提出本申请实施实施例的方案。

特征是从数据或数据的相关内容中提取属于特征性的信息，用于对数据进行表征。本申请实施例中，对视频数据构建两部分特征数据，一部分是视频帧的图像内容特征，图像内容特征从视频包括的视频帧图像中直接提取获得，用于表征图像的全局信息。例如，SIFT(Scale-invariant feature transform，即尺度不变特征变换)通过图像中检测出关键点，提取图像的局部特征；方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是通过计算和统计图像局部区域的梯度方向直方图来构成的特征；LBP(Local BinaryPattern，局部二值模式)特征是描述图像局部纹理的特征，具有旋转不变性和灰度不变性等显著的优点。在实际应用中可以根据需要选择一种或多种图像特征提取算法来提取多维度的图像内容特征。还可以选用适用的与图像分析相关的深度学习模型，抽取依据图像特征进行处理之前输入的图像特征数据，作为图像内容特征。例如，针对图像分类模型，可以抽取图像分类模型的分类层(例如ResNet深度残差网络的FC分类层)之前输入的特征数据。

视频数据的另一部分特征数据是图像语义特征，图像语义特征包括初始图像语义特征和扩展图像语义特征。

初始图像语义特征对应分类预测的多个分类标签，以从分类预测模型中抽取多个分类标签构成，初始图像语义特征的单个维度对应分类预测的一个分类标签，初始图像语义特征单个维度的响应值也即是在该分类标签下响应值，可以视为未归一化处理的分类概率。扩展图像分类特征是通过语义扩展获得的与初始图像分类特征相关的语义特征，可以从语义网络中抽取与初始图像分类特征相关的词获得。

相比于图像内容特征，图像语义特征可以对图像进行更细粒度的特征表达。具体实现中，可以通过抽取图像分类模型的分类层之前输入的特征数据作为图像内容特征，从图像分类模型的分类层输出的分类结果数据抽取图像语义特征。

上述图像分类模型可以是任意适用的包括图像分类环节的模型，例如可以是基于图像分析进行各种学习任务的神经网络模型，例如ResNet深度残差网络、ResNeXt模型。还可以将不同网络得到的图像内容特征或图像语义特征分别进行拼接，获得更多维度表征的视频特征。

上述通过图像内容特征和图像语义特征共同构成视频中视频帧的表征信息，从而使得视频数据的视频特征既包括了表征全局的内容信息，又有细粒度的语义信息，可以更准确地表征视频数据，进而用于视频文本匹配时，可以获得更好的匹配结果。

为了采用更多维度的语义特征对视频进行更准确地表征，还可以将上述从分类预测模型中抽取的图像语义特征作为初始图像语义特征，基于已有的初始图像语义特征进行扩展，进一步查找与图像语义特征有语义关联的其他特征作为扩展图像语义特征，丰富了视频的特征维度。通过对视频数据提取全面而丰富的特征进行视频表征，有效桥接了不同模态之间的语义鸿沟，显著提高了跨模态视频检索***的性能，可以提高视频文本匹配结果的准确度，有助于获得更准确的检索结果。

可以从语义网络(ConceptNet)或是语义数据库中抽取与初始图像语义特征关联的扩展图像语义特征，语义网络是一种用实体及其语义关系来表达知识的有向图，其中，节点表示事物、概念、情况、属性、状态、事件、动作等各种实体，节点之间的连线代表词之间的语义关系。

进一步还需要对扩展图像语义特征赋予响应值，本申请实施例创新提出基于具有关联的至少一个初始图像语义特征的响应值推导扩展图像语义特征的响应值，使得扩展图像语义特征的响应值有了可靠的理论支持。

其中，基于视频数据对应初始图像语义特征的响应值确定扩展图像语义特征的响应值时，可以基于初始图像语义特征和扩展图像语义特征构建知识图谱，在图谱上利用注意力图推理对初始图像语义特征的响应值进行扩展，在知识图谱中以图像语义特征为节点，以图像语义特征之间的语义关系数据为节点之间的连接边，其中的初始图像语义特征和扩展图像语义特征以及之间的语义关系数据均从语义网络获得。

进一步，针对知识图谱中各图像语义特征，根据关联的至少一个其他图像语义特征的响应值，更新图像语义特征的响应值，也即是，针对无论是初始图像语义特征还是扩展图像语义特征，均查找与其图像语义特征相关的其他图像语义特征，进一步根据其他图像语义特征的响应值更新该图像语义特征的响应值。

由于初始图像语义特征原本具有对应的响应值，由于第一次计算时扩展图像语义特征的初始值为0，会导致扩展不够充分，可以对知识图谱中的各图像语义特征的响应值迭代更新。考虑到多次计算可能引入过多的噪声，可以根据实际需求设定迭代次数，例如迭代二次。根据与之关联的其他图像语义特征的响应值更新初始图像语义特征的响应值时，会导致计算结果与原本具有对应的响应值有差异，因此，为保留原有的响应程度，并通过门控机制进行响应值的控制，具体可以通过对所述响应值设置更新系数，以使所述视频数据样本的初始图像语义特征保留部分原有的响应值，控制更新的程度。

通过门控机制进行响应值的控制时，β_i记为门控中节点i的更新系数，β_i＝sigmoid(b^T[W_ee_i||W_ff])，

b和W_e是注意力机制的参数，f是视频层面的特征，h′_i就是节点i更新后的响应值，h_i就是节点i更新前的响应值。

根据关联的其他图像语义特征的响应值更新当前的图像语义特征的响应值时，可以将关联的其他图像语义特征的响应值进行加权平均，也可以直接加和，或是可以直接求均值。其中，为了提高结果的准确性，可以提供一些弱监督。

具体而言，可以找出与视频数据样本关联的文本描述信息中出现过的图像语义特征(记为S₀)，将S₀外的其他节点分为S₁,S₂…，分别包含和S₀距离为一跳的节点和两跳的节点，在上述图谱的迭代更新中，将BCE Loss(二分类交叉熵损失)配置为

记为传播BCE Loss，其中，如果图像语义特征i在对应文本描述中，则y_i＝1，否则y_i＝0

代表sigmoid后的节点i的响应，γ是衰减系数。

上述根据初始图像语义特征的响应值预测扩展图像语义特征的响应值时可以采用GAT模型(Graph Attention Network，图注意力模型)来实现概率值的转移矩阵，GAT是一种图卷积网络(Graph convolution Network，GCN)实现，还可以基于其他的GCN，比如GraphSAGE(在图上进行卷积操作的网络结构)，用于在图中进行信息的传播聚合，即节点可以用图卷积网络聚合邻居节点的信息。

如下给出一种根据初始图像语义特征的响应值预测扩展图像语义特征的响应值的示例，以一张图像为例，其对应2048维的图像内容特征，对应1000维的初始图像语义特征，查找到与初始图像语义特征关联的2000个扩展图像语义特征后，去除重复的特征后，构建得到2400维图像语义特征，扩展图像语义特征的响应值表示为r＝{h₁,h₂，…，h_N}，h_i∈R。h_i代表知识图谱中第i个节点的响应值(响应值)，N代表初始图像语义特征和扩展图像语义特征的总数量，其中扩展图像语义特征先以响应值为0作为初始值，图像语义特征采用特征向量表示为{e₁，e₂，…，e_N}。

节点的响应值根据响应值的转移系数和关联的初始图像语义特征的响应值得到，节点i和j的转移系数

其中a和W都是注意力机制中的可学习参数，||代表的是拼接操作，N_i是节点i的邻居节点的集合。

在提取视频数据中视频帧的图像特征后，需要将多个视频帧的图像特征进行聚合，将聚合结果作为视频数据的视频特征。聚合方式可以是将多个视频帧的图像特征中同一个维度的特征进行直接加和，也可以进行加权求和，还可以求平均值等方式，本申请对此不做限制。一种可选的实施例中，可以采用注意力机制针对不同的视频帧赋予不同的叠加权重，从而关注更有用的信息而忽略其他信息，实现与文本描述信息相关的视频帧赋予更高的权重，使得特征表征更为准确。

进一步可以检索文本特征与视频数据的视频特征匹配的文本数据，提供文本数据作为检索结果，反馈在检索页面或是作为下一步处理的依据。

其中，文本数据的文本特征包括文本语义特征，也即是基于文本数据的本身的内容提取的特征，表征文本数据的全局信息。并且，本申请实施例通过对视频数据构架图像内容特征和图像语义特征，对文本数据构建文本语义特征，进而将视频数据和文本数据映射到内容公共空间和语义公共空间中(其中视频数据的图像内容特征和图像语义特征分别映射到公共内容空间和公共语义空间)，也即是采用了不同的多维度特征表达，可以克服隐空间方案中特征对齐导致信息丢失、特征表征不够准确的问题，进而提高了视频文本匹配的准确性。

文本语义特征的提取可以基于BiGRU(双向门控循环单元)实现，结合注意力机制后构成BiGRU-Attention模型，可以分为三部分：文本向量化输入层、隐含层和输出层。GRU是LSTM网络(Long Short-Term Memory，长短期记忆网络)的一种效果很好的变体，LSTM和CRU都是通过各种门函数来将重要特征保留下来，这样就保证了在long-term长时程传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数，因此在参数的数量上也是要少于LSTM，所以整体上GRU的训练速度要快于LSTM。

上述对视频数据中多个视频帧的图像特征进行聚合以及对文本数据中词的文本语义特征进行聚合的过程，除了可以采用分配不同权重的注意力机制实现，还可以利用采用了注意力机制的Transformer结构。其中，针对内容特征的提取，还可以采用双流膨胀卷积网络I3D一类的网络无需针对视频帧进行操作，而是直接进行视频内容特征的提取，I3D网络是对一个非常深的图像分类网络中的卷积和池化kernel从2D扩展到了3D，来无缝的学习时空特征。

进一步，检索文本特征与视频数据的视频特征匹配的文本数据时，可以提取多个文本数据的文本语义特征；根据视频数据的图像内容特征和具有响应值的图像语义特征，与文本数据的文本语义特征的相似度，确定文本特征与视频数据的视频特征匹配的文本数据。

上述图像特征可以对应表达为向量数据，进而将向量相似度作为文本数据与视频数据之间的相似度。还可以将文本数据的文本特征提取划分为两个分支，分别计算相似度，之后对相似度进行加和得到总相似度。

一种可选的实施例中，提取多个文本数据的文本语义特征时，可以提取文本数据中词的语义特征；对多个词的语义特征进行聚合，即可得到文本数据对应的文本特征，其中，可以通过执行注意力机制使得与视频数据相关的词可以配置更高的聚合权重，使得文本与视频数据的关联得到更好的表达。

一种可选的实施例中，检索文本特征与视频数据的视频特征匹配的文本数据基于跨模态数据匹配模型实现，还可以预先收集多个样本对，样本对包括视频数据样本以及对应匹配的文本数据样本，进一步提取视频数据样本的视频特征以及文本数据样本的文本特征，之后根据视频数据样本的视频特征以及文本数据样本的文本特征，训练基于视频数据查找匹配的文本数据或基于文本数据查找匹配的视频数据的跨模态数据匹配模型。

其中，跨模态数据匹配模型的迭代训练可以使用Triplet Loss三元组损失来训练，具体可以依据下述三组数据分别对应的损失函数：样本数据与单独使用图像内容特征的预测结果、样本数据与单独使用图像语义特征的预测结果、以及样本数据与使用图像分类特征和图像语义特征的预测结果。具体实现中还可以采用Angular Loss或者N-pairLoss实现损失函数的计算。

类似的，上述利用视频检索文本的数据检索思路还可以应用于任意两种模态数据之间的跨模态检索场景下，任意两种模态数据的一种包括视频数据，剩余一种可以是文本数据、图像数据、音频数据等任意适用的数据模态。

相应的，这种跨模态的数据检索方案可以提供为，接收基于第一模态数据的检索请求，进一步查找数据特征与所述第一模态数据的数据特征匹配的第二模态数据，提供所述第二模态数据作为检索结果。其中，第一模态数据或所述第二模态数据包括视频数据，视频数据的数据特征依据上述类似的思路获得。具体而言，所述视频数据的视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定。

类似的，上述利用视频检索文本的数据检索思路还可以应用于基于文本数据检索视频数据的场景下，相应提供的数据检索方法，可以包括：接收基于文本数据的检索请求；检索视频特征与文本数据的文本特征匹配的视频数据，其中，所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定。最后可以提供所述视频数据作为检索结果。

本申请实施例还可以对应提供上述跨模态数据匹配模型的训练方案，通过收集多个样本对，样本对包括视频数据样本以及对应匹配的文本数据样本，进一步提取视频数据样本的视频特征以及文本数据样本的文本特征，其中，所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定。最后，根据视频数据样本的视频特征以及文本数据样本的文本特征，训练基于视频数据查找匹配的文本数据或基于文本数据查找匹配的视频数据的跨模态数据匹配模型。

本申请实施例还可以对应提供基于视频的数据处理方法，首先获取待处理的视频数据；提取所述视频数据的视频特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定。

需要说明的是，本申请方案不仅可以应用于视频检索场景(例如媒体资讯类视频搜索、风险视频排查)，还可以基于视频文本的匹配结果应用到其他处理需求中，还可以应用到其他视频应用场景。其中，应用于风险视频排查时，扩展图像语义特征可以加入风险关键词，还可以进一步提高这些风险关键词的权重，以提高视频排查的准确性。

对应可以实施为应用程序、服务、实例、软件形态的功能模块、虚拟机(VirtualMachine，VM)或容器，或者也可以实现为具有图像处理功能的硬件设备(如服务器或终端设备)或硬件芯片(如CPU、GPU或FPGA)等。可以由软件方或提供计算或存储资源的平台方来实现。以平台提供Saas软件即服务(Software-as-a-Service)为例，平台可以利用自身的计算资源提供分类预测模型、跨模态数据匹配模型的训练，知识图谱甚至语义网络的构建和存储的等功能，具体的应用架构可以根据服务需求进行搭建。例如平台可以向使用平台资源的软件方或个人提供基于上述模型或网络、图谱的构建服务，进一步基于检索相关的客户端或服务器等设备提交的检索请求调用上述模型、网络、图谱实现相应的功能，更进一步，上述检索功能和检索数据库的存储都可以基于平台资源实现。

参考图1给出了本申请的一种检索方法的一个示例，以视频数据检索文本数据为例。以视频数据为检索依据，针对视频数据中包括的多个视频帧分别提取图像特征，图像特征包括图像内容特征和图像语义特征，图像语义特征包括初始图像语义特征和扩展图像语义特征，依据初始图像语义特征的响应值进行注意力概念传播(即基于注意力机制进行语义特征的响应值传播)，从而得到扩展图像语义特征的响应值。

其中，扩展图像语义特征可以预先基于语义网络收集得到，并进一步构建由初始图像语义特征和扩展图像语义特征构成的知识图谱，基于知识图谱进行响应值的传播。

进一步基于各个图像帧的图像内容特征和图像语义特征分别进行聚合处理，聚合时可以基于自注意力机制，聚合获得的视频特征分别对应公共语义空间和公共内容空间。

将视频数据的视频特征与文本数据库中的文本数据(以A soccer player goal为例)的文本特征进行匹配，其中，采用BiGRU网络对文本数据提取文本特征，将各个词对应的文本语义特征采用自注意力机制进行聚合，图1中可见，采用了双分支进行文本语义特征的提取，分别对应视频数据的公共语义空间和公共内容空间进行特征相似计算，但实际将两个模态的特征编码过程是解耦的。

最后，将特征相似度确定为视频数据和文本数据的相似度，根据相似度确定与视频数据匹配的目标文本数据，作为检索结果。

其中，响应值的传播如图1下半部所示，蓝色为初始节点，红色为与初始节点关联的扩展节点，可以经过多次节点扩展，例如，与上方蓝色初始节点直接关联的有三个红色扩展节点，左边的红色扩展节点进一步进行二次扩展，增加两个红色扩展节点，下方蓝色节点经过一次扩展得到两个红色扩展节点，继续二次扩展又增加一个红色扩展节点。左侧为虚线截取的部分节点进行响应值传播的示意图，具体传播过程如上文所述。

参照图2，示出了根据本申请实施例一的一种数据检索方法的流程图，该方法具体可以包括以下步骤：

步骤101，接收基于视频数据的检索请求；

步骤102，提取所述视频数据的视频特征；所述视频特征包括视频帧的图像内容特征，以及根据所述图像内容特征进行分类预测后得到的具有响应值的图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

步骤103，检索文本特征与所述视频数据的视频特征匹配的文本数据；

步骤104，提供所述文本数据作为检索结果。

本申请的一种可选实施例中，所述提取所述视频数据的视频特征包括：

提取所述视频数据中视频帧的图像内容特征；

将所述图像内容特征输入分类预测模型，获得所述初始图像语义特征对应的响应值；

根据所述初始图像语义特征对应的响应值确定扩展图像语义特征对应的响应值。

本申请的一种可选实施例中，在所述提取所述视频数据的视频特征之前，所述方法还包括：

抽取初始分类预测模型中包括的分类标签构成图像的初始图像语义特征；

获取与初始图像语义特征具有语义关联的扩展图像特征。

本申请的一种可选实施例中，所述获取与初始图像语义特征具有语义关联的扩展图像特征包括：

从语义网络中抽取与初始图像语义特征具有关联的扩展图像语义特征。

本申请的一种可选实施例中，所述方法还包括：

基于所述初始图像语义特征和扩展图像语义特征构建知识图谱，所述知识图谱以所述图像语义特征为节点，以所述图像语义特征之间的语义关系数据为节点之间的连接边；

所述根据所述初始图像语义特征对应的响应值确定扩展图像语义特征对应的响应值包括：

针对所述知识图谱中各图像语义特征，根据关联的至少一个其他图像语义特征的响应值，更新所述图像语义特征的响应值，其中，其中，通过执行自注意力机制使得所述视频数据样本关联的文本描述信息中出现过的图像语义特征具有更高的影响权重。

本申请的一种可选实施例中，所述知识图谱中的各图像语义特征的响应值迭代更新，通过对所述响应值设置更新系数，以使所述视频数据样本的初始图像语义特征保留部分原有的响应值。

本申请的一种可选实施例中，所述提取所述视频数据的视频特征还包括：

对多个视频帧的图像内容特征以及图像语义特征进行聚合，其中，通过执行自注意力机制使得与关联的文本描述信息相关的视频帧具有更高的聚合权重。

本申请的一种可选实施例中，所述文本数据的文本特征包括文本语义特征，所述检索文本特征与所述视频数据的视频特征匹配的文本数据包括：

提取多个文本数据的文本语义特征；

根据所述视频数据的图像内容特征和图像语义特征，与文本数据的文本语义特征的相似度，确定文本特征与所述视频数据的视频特征匹配的文本数据。

本申请的一种可选实施例中，所述提取多个文本数据的文本语义特征包括：

提取文本数据中词的语义特征；

对多个词的语义特征进行聚合，得到所述文本数据对应的文本特征，其中，通过执行注意力机制使得与视频数据相关的词具有更高的聚合权重。

本申请的一种可选实施例中，所述检索文本特征与所述视频数据的视频特征匹配的文本数据基于跨模态数据匹配模型实现，所述方法还包括：

提取视频数据样本的视频特征以及文本数据样本的文本特征；

本申请的一种可选实施例中，所述跨模态数据匹配模型的迭代训练依据下述三组数据分别对应的损失函数：样本数据与单独使用图像内容特征的预测结果、样本数据与单独使用图像语义特征的预测结果、以及样本数据与使用图像分类特征和图像语义特征的预测结果。

并且，本申请实施例通过对视频数据构架图像内容特征和图像语义特征，对文本数据构建文本语义特征，进而将视频数据和文本数据映射到内容公共空间和语义公共空间中，也即是采用了不同的多维度特征表达，可以克服隐空间方案中特征对齐导致信息丢失、特征表征不够准确的问题，进而提高了视频文本匹配的准确性。

参照图3，示出了根据本申请实施例二的一种数据检索方法的流程图，该方法具体可以包括以下步骤：

步骤201，接收基于第一模态数据的检索请求；

步骤202，查找数据特征与所述第一模态数据的数据特征匹配的第二模态数据；

步骤203，提供所述第二模态数据作为检索结果；

参照图4，示出了根据本申请实施例三的一种数据检索方法的流程图，该方法具体可以包括以下步骤：

步骤301，接收基于文本数据的检索请求；

步骤302，检索视频特征与所述文本数据的文本特征匹配的视频数据；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

步骤303，提供所述视频数据作为检索结果。

参照图5，示出了根据本申请实施例四的一种跨模态数据匹配模型的处理方法的流程图，该方法具体可以包括以下步骤：

步骤401，收集多个样本对，所述样本对包括视频数据样本以及对应匹配的文本数据样本；

步骤402，提取视频数据样本的视频特征以及文本数据样本的文本特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

步骤403，根据所述视频数据样本的视频特征以及文本数据样本的文本特征，训练基于视频数据查找匹配的文本数据或基于文本数据查找匹配的视频数据的跨模态数据匹配模型。

参照图6，示出了根据本申请实施例五的一种数据检索装置的结构框图，该装置具体可以包括：

检索请求模块501，用于接收基于视频数据的检索请求；

视频特征提取模块502，用于提取所述视频数据的视频特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

文本检索模块503，用于检索文本特征与所述视频数据的视频特征匹配的文本数据；

结果提供模块504，用于提供所述文本数据作为检索结果。

本申请的一种可选实施例中，所述视频特征提取模块包括：

内容特征提取子模块，用于提取所述视频数据中视频帧的图像内容特征；

模型预测子模块，用于将所述图像内容特征输入分类预测模型，获得所述初始图像语义特征对应的响应值；

响应值确定模块，用于根据所述初始图像语义特征对应的响应值确定扩展图像语义特征对应的响应值。

本申请的一种可选实施例中，所述装置还包括：

特征抽取模块，用于在所述提取所述视频数据的视频特征之前，抽取初始分类预测模型中包括的分类标签构成图像的初始图像语义特征；

扩展获取模块，用于获取与初始图像语义特征具有语义关联的扩展图像特征。

本申请的一种可选实施例中，所述扩展获取模块具体用于从语义网络中抽取与初始图像语义特征具有关联的扩展图像语义特征。

本申请的一种可选实施例中，所述方法还包括：

图谱构建子模块，用于基于所述初始图像语义特征和扩展图像语义特征构建知识图谱，所述知识图谱以所述图像语义特征为节点，以所述图像语义特征之间的语义关系数据为节点之间的连接边；

所述响应值确定模块包括：

概率更新子模块，用于针对所述知识图谱中各图像语义特征，根据关联的至少一个其他图像语义特征的响应值，更新所述图像语义特征的响应值，其中，通过执行自注意力机制使得所述视频数据样本关联的文本描述信息中出现过的图像语义特征具有更高的影响权重。

本申请的一种可选实施例中，所述所述知识图谱中的各图像语义特征的响应值迭代更新，通过对所述响应值设置更新系数，以使所述视频数据样本的初始图像语义特征保留部分原有的响应值。

本申请的一种可选实施例中，所述特征提取模块还用于对多个视频帧的图像内容特征以及图像语义特征进行聚合，其中，通过执行自注意力机制使得与关联的文本描述信息相关的视频帧具有更高的聚合权重。

本申请的一种可选实施例中，所述文本数据的文本特征包括文本语义特征，所述文本检索模块包括：

文本特征提取子模块，用于提取多个文本数据的文本语义特征；

特征相似度计算子模块，用于根据所述视频数据的图像内容特征和图像语义特征，与文本数据的文本语义特征的相似度，确定文本特征与所述视频数据的视频特征匹配的文本数据。

本申请的一种可选实施例中，所述文本特征提取子模块，具体用于提取文本数据中词的语义特征；对多个词的语义特征进行聚合，得到所述文本数据对应的文本特征，其中，通过执行注意力机制使得与视频数据相关的词具有更高的聚合权重。

本申请的一种可选实施例中，所述检索文本特征与所述视频数据的视频特征匹配的文本数据基于跨模态数据匹配模型实现，所述装置还包括：

样本对收集模块，用于收集多个样本对，所述样本对包括视频数据样本以及对应匹配的文本数据样本；

样本特征抽取模块，用于提取视频数据样本的视频特征以及文本数据样本的文本特征；

跨模态数据匹配模型训练模块，用于根据所述视频数据样本的视频特征以及文本数据样本的文本特征，训练基于视频数据查找匹配的文本数据或基于文本数据查找匹配的视频数据的跨模态数据匹配模型。

参照图7，示出了根据本申请实施例六的一种数据检索装置的结构框图，该装置具体可以包括：

检索请求模块601，接收基于第一模态数据的检索请求；

数据查找模块602，用于查找数据特征与所述第一模态数据的数据特征匹配的第二模态数据；

结果提供模块603，用于提供所述第二模态数据作为检索结果；

参照图8，示出了根据本申请实施例七的一种数据检索装置的结构框图，该装置具体可以包括：

检索请求接收模块701，用于接收基于文本数据的检索请求；

视频数据检索模块702，用于检索视频特征与所述文本数据的文本特征匹配的视频数据；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

检索结果提供模块703，用于提供所述视频数据作为检索结果。

参照图9，示出了根据本申请实施例八的一种跨模态数据匹配模型的处理装置的结构框图，该装置具体可以包括：

样本收集模块801，用于收集多个样本对，所述样本对包括视频数据样本以及对应匹配的文本数据样本；

样本特征提取模块802，用于提取视频数据样本的视频特征以及文本数据样本的文本特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

模型训练模块803，用于根据所述视频数据样本的视频特征以及文本数据样本的文本特征，训练基于视频数据查找匹配的文本数据或基于文本数据查找匹配的视频数据的跨模态数据匹配模型。

本申请实施例还提供了一种基于视频的数据处理装置，具体可以包括：

视频数据获取模块，用于获取待处理的视频数据；

视频特征提取模块，用于提取所述视频数据的视频特征；所述视频特征包括视频帧的图像内容特征和图像语义特征，所述图像语义特征包括初始图像语义特征和扩展图像语义特征，所述初始图像语义特征对应分类预测的多个分类标签，所述初始图像语义特征的响应值通过对所述图像内容特征进行分类预测后得到，所述扩展图像语义特征对应的响应值基于具有关联的至少一个初始图像语义特征的响应值确定；

处理流程执行模块，用于基于所述视频数据的视频特征执行数据处理流程。

本申请实施例还提供了一种电子设备，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如上述实施例中任一项所述的方法。

本申请实施例还提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如上述实施例中任一项所述的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的***。图10示意性地示出了可被用于实现本公开中所述的各个实施例的示例性***(或装置)900。

对于一个实施例，图10示出了示例性***900，该***具有一个或多个处理器902、被耦合到(一个或多个)处理器902中的至少一个的***控制模块(芯片组)904、被耦合到***控制模块904的***存储器906、被耦合到***控制模块904的非易失性存储器(NVM)/存储设备908、被耦合到***控制模块904的一个或多个输入/输出设备910，以及被耦合到***控制模块906的网络接口912。

处理器902可包括一个或多个单核或多核处理器，处理器902可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，***900能够作为本申请实施例中所述的浏览器。

在一些实施例中，***900可包括具有指令的一个或多个计算机可读介质(例如，***存储器906或NVM/存储设备908)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器902。

对于一个实施例，***控制模块904可包括任意适当的接口控制器，以向(一个或多个)处理器902中的至少一个和/或与***控制模块904通信的任意适当的设备或组件提供任意适当的接口。

***控制模块904可包括存储器控制器模块，以向***存储器906提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

***存储器906可被用于例如为***900加载和存储数据和/或指令。对于一个实施例，***存储器906可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，***存储器906可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，***控制模块904可包括一个或多个输入/输出控制器，以向NVM/存储设备908及(一个或多个)输入/输出设备910提供接口。

例如，NVM/存储设备908可被用于存储数据和/或指令。NVM/存储设备908可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备908可包括在物理上作为***900被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备908可通过网络经由(一个或多个)输入/输出设备910进行访问。

(一个或多个)输入/输出设备910可为***900提供接口以与任意其他适当的设备通信，输入/输出设备910可以包括通信组件、音频组件、传感器组件等。网络接口912可为***900提供接口以通过一个或多个网络通信，***900可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G或5G，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器902中的至少一个可与***控制模块904的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器902中的至少一个可与***控制模块904的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例，(一个或多个)处理器902中的至少一个可与***控制模块904的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器902中的至少一个可与***控制模块904的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。

在各个实施例中，***900可以但不限于是：浏览器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，***900可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，***900包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，如果显示器包括触摸面板，显示屏可以被实现为触屏显示器，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还识别与所述触摸或滑动操作相关的持续时间和压力。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在终端设备时，可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。

在一个示例中提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如本申请实施例的方法。

在一个示例中还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本申请实施例的一个或多个的方法。

虽然某些实施例是以说明和描述为目的的，各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现，不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此，显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims

1.一种数据检索方法，其特征在于，包括：

接收基于视频数据的检索请求；

检索文本特征与所述视频数据的视频特征匹配的文本数据；

提供所述文本数据作为检索结果。

2.根据权利要求1所述的方法，其特征在于，所述提取所述视频数据的视频特征包括：

提取所述视频数据中视频帧的图像内容特征；

3.根据权利要求2所述的方法，其特征在于，在所述提取所述视频数据的视频特征之前，所述方法还包括：

获取与初始图像语义特征具有语义关联的扩展图像特征。

4.根据权利要求3所述的方法，其特征在于，所述获取与初始图像语义特征具有语义关联的扩展图像特征包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

针对所述知识图谱中各图像语义特征，根据关联的至少一个其他图像语义特征的响应值，更新所述图像语义特征的响应值，其中，通过执行自注意力机制使得所述视频数据样本关联的文本描述信息中出现过的图像语义特征具有更高的影响权重。

6.根据权利要求5所述的方法，其特征在于，所述知识图谱中的各图像语义特征的响应值迭代更新，通过对所述响应值设置更新系数，以使所述视频数据样本的初始图像语义特征保留部分原有的响应值。

7.根据权利要求1所述的方法，其特征在于，所述提取所述视频数据的视频特征还包括：

8.根据权利要求1所述的方法，其特征在于，所述文本数据的文本特征包括文本语义特征，所述检索文本特征与所述视频数据的视频特征匹配的文本数据包括：

提取多个文本数据的文本语义特征；

9.根据权利要求8所述的方法，其特征在于，所述提取多个文本数据的文本语义特征包括：

提取文本数据中词的语义特征；

10.一种数据检索方法，包括：

接收基于第一模态数据的检索请求；

提供所述第二模态数据作为检索结果；

11.一种数据检索方法，包括：

接收基于文本数据的检索请求；

提供所述视频数据作为检索结果。

12.一种基于视频的数据处理方法，其特征在于，包括：

获取待处理的视频数据；

基于所述视频数据的视频特征执行数据处理流程。

13.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12中任一项所述的方法。

14.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-12中任一项所述的方法。