CN113239159B

CN113239159B - 基于关系推理网络的视频和文本的跨模态检索方法

Info

Publication number: CN113239159B
Application number: CN202110451431.XA
Authority: CN
Inventors: 沈复民; 徐行; 王妮; 邵杰; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-06-20
Anticipated expiration: 2041-04-26
Also published as: CN113239159A

Abstract

本发明涉及跨模态检索领域，公开了一种基于关系推理网络的视频和文本的跨模态检索方法，包括：提取视频数据特征和文本数据特征；运用循环神经网络获取视频全局特征和文本全局特征；运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征；分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征；映射视频融合特征和文本融合特征到公共空间，并对齐公共空间中的视频融合特征分布和文本融合特征分布；对整体网络进行训练。本发明同时关注全局特征和局部关系特征，能更有效的聚焦到单模态数据中的重点信息，进而实现跨模态检索。

Description

基于关系推理网络的视频和文本的跨模态检索方法

技术领域

本发明涉及跨模态检索领域，具体涉及一种基于关系推理网络的视频和文本的跨模态检索方法。

背景技术

跨媒体检索是指用户通过输入任意媒体类型的查询数据，检索出所有媒体类型中的语义相关数据。在本发明中，具体为视频和文本的相互检索。一般情况下，数据集中将提供视频和相应的视频描述文本，跨媒体检索的任务为：对任意一个视频，检索出与其内容描述最相关的视频描述文本，或对任意一个视频描述文本，检索出与其描述最相关的视频。随着互联网中文本、图像、视频等多媒体数据的日益增多，跨越不同模态的检索成为信息检索的新趋势。对于这个问题的难点在于如何获得更有效的模态特征，来全面且有侧重点的表示视频或文字的信息。现在主流方法主要有两类：跨模态检索的传统方法、深度学习方法。

1）跨模态检索的传统方法：传统方法主要通过统计分析的方式学习映射矩阵，通过分析不同模态数据特征之间的关联关系，学习一个能够最大化成对相关性的共同空间，将不同模态的特征映射到这个共同空间得到相同维度的向量表示，实现跨模态的统一表征。

2）跨模态检索的深度学习方法：这些方法旨在利用深度神经网络对非线性关系的抽象能力，促进跨模态关联分析和统一表征学习。现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系，有效提升对复杂跨模态关联的分析能力，以提高跨模态统一表征的检索准确率。

对于视频文本检索任务而言，在对视频进行建模时，时序推理是一个至关重要但困难的部分。对于一个视频而言，尽管现有的卷积神经网络可以提取出很多空域信息，但当涉及到空间转换、背景变换或者时序动作等信息时，卷积神经网络就表现得差强人意，它无法很好的提取到时域上的信息。

另一个现有方法的不足就是，大多数现有方法只关注于模态间的关系和信息，而忽略了单个模态内部信息的关系，如视频中帧与帧之间的关系，文本中词与词之间的关系，从而使得单模态信息表达不够完整和充分。

发明内容

本发明的目的是提供一种基于关系推理网络的视频和文本的跨模态检索方法，达到更好地跨模态检索效果。

本发明解决其技术问题，采用的技术方案是：

基于关系推理网络的视频和文本的跨模态检索方法，包括如下步骤：

步骤1.提取视频数据特征和文本数据特征；

步骤2.运用循环神经网络获取视频全局特征和文本全局特征；

步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征；

步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征；

步骤5.映射视频融合特征和文本融合特征到公共空间，并对齐公共空间中的视频融合特征分布和文本融合特征分布；

步骤6.对步骤1-5的整体网络进行训练；

步骤7.利用训练好的整体网络对视频和文本进行跨模态检索。

进一步的是，步骤1具体是指：

对于视频数据，运用卷积神经网络ResNet进行特征提取，提取出的视频特征序列；

对于文本数据，运用Glove模型进行特征提取，提取出的文本特征序列表示。

进一步的是，步骤2具体是指：

对于提取出的视频数据特征，利用单向循环神经网络获取视频全局特征；

对于提取出的文本数据特征，利用双向循环神经网络获取文本全局特征。

进一步的是，所述单向循环神经网络采用单向的长短期记忆网络Bi-LSTM，利用单向的长短期记忆网络Bi-LSTM对提取出的视频数据特征进行编码，获取视频全局特征；

所述双向循环神经网络采用双向的长短期记忆网络Bi-LSTM，利用双向的长短期记忆网络Bi-LSTM对提取出的文本数据特征进行编码，获取文本全局特征。

进一步的是，步骤3具体包括如下步骤：

步骤301.对于一个给定模态数据特征，进行多规模选取，获得不同尺度规模的数据特征集，所述给定模态包括视频和文本；

步骤302.对每一个尺度规模的数据特征集，运用全部-局部注意力机制，利用该模态的全局特征来对一个尺度规模的数据特征集内的特征进行计算，获得不同特征的权重参数；

步骤303.对每一个尺度规模的数据特征集，将特征集内的每一个特征与其对应的权重参数进行加权求和，从而获得该尺度规模的多尺度局部关系特征。

进一步的是，步骤4具体包括如下步骤：

步骤401.对于一个给定模态数据的多尺度局部关系特征，对每个尺度的局部关系特征，将其与给定模态数据的全局特征进行连接操作，获得该尺度下的全局-局部关系特征；

步骤402.对多尺度的全局-局部关系特征，利用融合函数，将多个尺度的全局-局部关系特征融合成最终的模态融合特征。

进一步的是，步骤5具体为：

将视频融合特征和文本融合特征映射到512维的公共空间中；

利用分布对齐损失函数对齐视频融合特征分布和文本融合特征分布；

进一步的是，步骤6具体为：

采用tripletrankingloss作为损失函数对步骤1-5的整体网络进行训练。

进一步的是，步骤7具体包括如下步骤：

步骤701.对一个给定模态的数据，提取其特征向量；

步骤702.将提取的特征向量输入训练好的整体网络，并映射到公共空间；

步骤703.计算公共空间中所述给定模态以外的模态的数据变量与该给定模态的数据变量的相似性，并对计算结果进行排序，相似性最大的变量对应的原始模态数据为检索结果。

本发明的有益效果是，通过上述基于关系推理网络的视频和文本的跨模态检索方法，通过对单模态数据内部关系的推理，从而获得该模态数据更全面且有侧重点的特征表示，且通过在公共空间里的分布对齐来保证模态数据分布的完整和相似，从而获得更好的跨模态检索效果。

附图说明

图1为本发明实施例1中基于关系推理网络的视频和文本的跨模态检索方法的流程图；

图2为本发明实施例2中整体神经网络连接框架图；

图3为本发明实施例2中多尺度关系推理网络的示意图；

图4为本发明实施例3中的融合过程的示意图。

具体实施方式

下面结合附图及实施例，详细描述本发明的技术方案。

实施例1

本实施例提出一种基于关系推理网络的视频和文本的跨模态检索方法，其流程图见图1，其中，该方法包括如下步骤：

步骤1.提取视频数据特征和文本数据特征。

步骤2.运用循环神经网络获取视频全局特征和文本全局特征。

步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征。

步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征。

步骤5.映射视频融合特征和文本融合特征到公共空间，并对齐公共空间中的视频融合特征分布和文本融合特征分布。

步骤6.对步骤1-5的整体网络进行训练。

实施例2

参见图2和图3，本实施例中提出的基于关系推理网络的视频和文本的跨模态检索方法可以依据视频帧之间的依赖关系，通过关系推理网络，在多个时间尺度提取不同帧之间的依赖关系，构建多个帧之间的隐式关系，获得局部关系特征，同时构建全局特征，并融合多尺度局部关系特征和全局特征，成一个强语义的语义特征，作为视频的融合特征。

另外，依据文本词间的依赖关系，通过关系推理网络，在多个尺度上提取不同词之间的依赖关系，构建多个词之间的隐式关系，获得局部关系特征，同时构建全局特征，并融合多尺度局部关系特征和全局特征，成一个强语义的语义特征，作为文本的融合特征。

接下来，将视频融合特征和文本融合特征映射到公共空间，利用分布对齐损失函数和triplerankingloss函数训练整个网络，然后进行视频文本检索。

这里，通过设计的关系推理网络，更好的捕捉到单模态内部的关系，丰富了单模态特征的表示方式，提高了网络对单模态数据的表征能力，尤其是对视频而言，该网络相比于现存方法，可以更好地捕捉到视频中的时序关系，实现对场景变换、动作等对时序要求较高的检索对象的有效检索。

此外，不同模态的数据具有不同特征表示，存在“异构鸿沟”，难以直接度量相似性，而且在使用triplerankingloss是容易扰乱现有分布，通过引入分布对齐函数可以有效的解决上述两个问题。

实施例3

参见图4，本实施例中提出的基于关系推理网络的视频和文本的跨模态检索方法，先构建训练用的模型，然后对整个网络进行训练，再进行跨模态检索，主要包括步骤S1-步骤S6。

步骤S1:提取多模态数据特征。

多模态的数据包含视频、文本等，这些原始数据以人类接受的方式表示，但是计算机并不能直接处理，需要将他们的特征提取出来，以计算机能够处理的数字表示。

其中，步骤S1具体包括以下步骤:

步骤S11:对于视频，运用卷积神经网络ResNet进行特征提取，视频特征序列表示为

,其中n为帧序列的个数；

步骤S12:对于文本，运用Glove进行特征提取，文本特征序列表示为

,其中m为文本序列的长度。

步骤S2:运用循环神经网络获取视频全局特征和文本全局特征。

本实施例中，运用双向的长短期记忆网络（Bi-LSTM）对文本特征进行编码，双向长短期记忆网络可以有效的利用给定信息的上下文，结合上下文获取整个文本的全局特征，记为

；由于视频具有严格的时序性，所以我们采用单向的长短期记忆网络，对视频特征进行编码，获取视频全局特征，记为/>

。

步骤S3:运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征。

以下以视频为例进行描述，文本操作类同视频，步骤S3具体包括以下步骤:

步骤S31:对视频帧特征进行多规模选取，获得不同尺度规模的数据特征子集，如视频数据特征，可获得2帧视频特征子集，3帧视频特征子集，……，t帧视频特征子集。我们定义规模为t的特征子集为

，其中，/>

。为了保证视频的时序性，我们保持/>

。

步骤S32:对每一个尺度规模的视频特征子集，运用全部-局部注意力机制（Global-to-localattention），利用视频全局特征

来对一个尺度规模的视频特征子集内的特征进行计算，获得不同特征的权重参数，以

为例，计算权重参数矩阵

如下：

其中，[.,.]表示向量的连接操作，

表示tanh函数，/>

和/>

是需要学习的参数，

，再对权重参数矩阵/>

用softmax函数进行归一化操作。

步骤S33:对每一个尺度规模的视频特征子集，将特征子集内的每一个特征与其对应的权重参数进行加权求和，从而获得该尺度规模的多尺度局部关系特征。同样以规模为t的特征子集为例，具体实现如下：

其中，

即为规模为t的局部关系特征，最终得到的视频的局部关系特征为：

。

步骤S4:分别融合单模态数据的全局特征和局部关系特征获得视频融合特征。

以下以视频为例进行描述，文本操作类同视频，步骤S4具体包括：

步骤S41:对于视频的多尺度局部关系特征

，对每个尺度的局部关系特征，将其与给定模态数据的全局特征进行连接操作，获得该尺度下的全局-局部关系特征，以规模为t的局部关系特征/>

为例，操作如下：

其中，

表示一个全连接函数，

是激活函数。

步骤S42:对多尺度的全局-局部关系特征，利用融合函数，将多个尺度的全局-局部关系特征融合成最终的模态融合特征，具体操作如下

步骤S5:映射视频融合特征和文本融合特征到公共空间，利用分布对齐损失和tripletranking损失来训练该网络。

所述步骤S5具体包括：

步骤S51:将视频融合特征和文本融合特征映射到512维的公共空间中；

我们用

和/>

表示最终的视频特征和文本特征，/>

表示处理的批次数据(mini-batch)的大小。

步骤S52:利用分布对齐损失函数来对齐视频融合特征分布和文本融合特征分布；

我们用KL散度来衡量两个分布的相似性，分布对齐损失函数具体实现如下：

其中，

表示L2归一化，/>

表示/>

代表的视频，与其他文本特征的相似性。

其中，

表示视频i和文本j是匹配的，为0则不匹配。通过KL散度计算公式我们获得利用视频检索文本的分布对齐损失函数/>

，具体表示如下：

同理可以获得文本检索视频的分布对齐损失函数

。最终的分布对齐损失函数/>

如下：

步骤S53:采用tripletrankingloss作为损失函数对整个网络进行训练。

步骤S6：跨模态检索数据。

步骤S61：对一个给定模态的数据，如一段文本或者一段视频，提取其特征向量；

步骤S62：将提取的特征向量输入训练好的网络，映射到公共空间；

步骤S63：计算公共空间空间中其他模态数据变量与此检索目标变量的相似性，进行排序，相似性最大的变量对应的原始模态数据为检索结果。

实施例4

本实施例在实施例2或实施例3的基础上，进一步优化，采用top-k指标来评估我们的模型，top-k指模型返回的分类特征分数中前k个结果中有正确标签的视频序列或文本序列所占的比例，是最常用的分类评估方法，在本实例中中具体表示为R@k，其中k分别为1，5和10。表1表2中，MedR表示正确标签在实验结果中的中位数，rsum表示所有R@k的求和结果。

在大规模视频文本检索数据集TGIF和MSVD数据集上测试本发明。TGIF数据集包含100，000个视频动画和120，000条描述文本，选取89,504个视频样本和对应的描述文本作为训练集，11,351个视频样本和对应的描述文本作为测试集。测试比较结果如下表1所示：

表1

MSVD数据集包含1，970个Youtube视频，每条视频包含5个描述文本。我们选取1,300个视频样本作为训练集，670个视频样本作为测试集。测试比较结果如下表2所示：

表2

从表1、表2可以看出，本发明在所有的测试集上均优于现有的方法。

并且，本发明在视频-文本检索场景中获得了最高的检索准确率，在TGIF数据集上，我们相较于之前的最好方法,在rsum上提升了67.7%，在MSVD数据集上的top-1准确率相较于之前的最好方法提高了24.2%。在所有度量方式上均优于现有方法提高了视频行为分类的识别准确度。

Claims

1.基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，包括如下步骤：

步骤1.提取视频数据特征和文本数据特征；

步骤6.对步骤1-5的整体网络进行训练；

步骤7.利用训练好的整体网络对视频和文本进行跨模态检索；

具体的，步骤3具体包括如下步骤：

步骤303.对每一个尺度规模的数据特征集，将特征集内的每一个特征与其对应的权重参数进行加权求和，从而获得该尺度规模的多尺度局部关系特征；

步骤4具体包括如下步骤：

2.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，步骤1具体是指：

3.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，步骤2具体是指：

4.根据权利要求3所述的基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，

所述单向循环神经网络采用单向的长短期记忆网络Bi-LSTM，利用单向的长短期记忆网络Bi-LSTM对提取出的视频数据特征进行编码，获取视频全局特征；

5.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，步骤5具体为：

将视频融合特征和文本融合特征映射到512维的公共空间中；

利用分布对齐损失函数对齐视频融合特征分布和文本融合特征分布。

6.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，步骤6具体为：

采用triplet ranking loss作为损失函数对步骤1-5的整体网络进行训练。

7.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法，其特征在于，步骤7具体包括如下步骤：

步骤701.对一个给定模态的数据，提取其特征向量；