CN112488063B

CN112488063B - 一种基于多阶段聚合Transformer模型的视频语句定位方法

Info

Publication number: CN112488063B
Application number: CN202011508292.1A
Authority: CN
Inventors: 杨阳; 张明星
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-06-14
Anticipated expiration: 2040-12-18
Also published as: CN112488063A

Abstract

本发明公开了一种基于多阶段聚合Transformer模型的视频语句定位方法，在视频语句Transformer模型中，每个视频切片或者单词都可以根据自身的语义自适应地聚合和对齐来自两种模态中所有其他视频切片或者单词的信息。通过多层叠加，最后所得到的视频语句联合表示具有丰富的视觉语言线索捕捉能力，能够实现更精细的匹配。在多阶段聚合模块中，将其开始阶段的阶段特征、中间阶段的阶段特征和结束阶段的阶段特征串联起来，构成该候选片段的特征表示。由于所获得的特征表示捕捉了不同阶段的特定信息，因此非常适合准确定位视频片段的起始位置和终止位置。这两个模块整合在一起，形成一个既有效又高效的网络，提高视频语句定位的准确度。

Description

一种基于多阶段聚合Transformer模型的视频语句定位方法

技术领域

本发明属于视频语句定位检索技术领域，更为具体地讲，涉及一种基于多阶段聚合Transformer模型的视频语句定位方法。

背景技术

视频定位是计算机视觉***中一个基本的问题，具有广泛的应用。在过去的十年里，人们对视频动作定位进行了大量的研究和相关的应用***开发。近年来，随着多媒体数据的兴起和人们需求的多样化，视频中语句的定位问题(视频语句定位)逐渐变得重要起来。视频语句定位的目的是在一段很长的视频中定位要查询的语句相对应的某个视频片段。与视频动作定位相比，语句定位具有更大的挑战性和更广阔的应用前景，比如视频检索、视频字幕自动生成、人机智能交互等。

视频语句定位是一项具有挑战性的任务。除了需要理解视频内容外，还需要将视频和语句之间的语义进行匹配。

现有视频语句定位一般可分为两类：一阶段法和两阶段法。一阶段方法以视频和查询语句作为输入，直接预测被查询视频片段起始点和终止点，直接生成与查询语句相关联的视频片段。一阶段法可以进行端到端训练，但它们很容易失去一些正确的视频片段。然而，两阶段法遵循候选片段生成和候选片段排名两个过程。它们通常先从视频中生成一系列的候选片段，然后根据候选片段与查询语句的匹配程度对候选片段进行排序。许多方法都遵循这条路线。两阶段法虽然能够召回很多可能正确的候选视频片段，但是也存在几个关键的问题没有得到很好的解决：

1)、如何有效地对视频和语句之间进行细粒度的语义匹配？

2)、如何在原始长视频中准确定位与语句匹配的视频片段起始点和终止点？

对于第1个问题，现有的大多数方法通常是分别处理视频和语句序列，然后将它们进行匹配。但是，分别单独处理视频和语句序列，比如首先将语句编码成一个向量然后进行匹配，将不可避免地丢失语句中一些详细的语义内容，从而无法实现细致的匹配；

对于第2个问题，现有的方法通常使用全卷积、平均池化或RoI Pooling操作来获得候选片段的特征表示。然而这些操作所获得的特征，它们的时序区分性不够强。例如，某个视频片段中通常包含一些不同的阶段，如开始阶段、中间阶段和结束阶段。这些阶段的信息对于时刻起始点和终止点的精确定位是非常重要的。然而，平均池化操作完全丢弃了阶段信息，无法对不同阶段进行精确匹配来实现精确的定位。尽管全卷积操作或RoI Pooling操作可以在一定程度上刻画不同的阶段，但它们不依赖于显式的特定阶段的特征，因此在更精确的定位方面也存在不足。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多阶段聚合Transformer模型的视频语句定位方法，以提高视频语句定位的准确度。

为实现上述发明目的，本发明基于多阶段聚合Transformer模型的视频语句定位方法，其特征在于，包括以下步骤：

(1)、视频切片特征、单词特征提取

将视频按照时间均匀地划分为N个时刻点，在每一个时刻点，采集一个视频切片(由连续的多帧，如50帧的图像组成)，对每个视频切片进行特征提取，得到切片特征(得到总共N个切片特征)，N个切片特征按照时刻顺序放置，形成视频特征序列；

对语句的每个单词进行词转向量(Doc2Vec)，得到单词特征，然后按照在语句中的顺序放置，形成语句特征序列；

将视频特征序列中的切片特征、语句特征序列的单词特征映射到相同的维度，得到视频特征序列

语句特征序列

其中，

表示视频第i个切片的切片特征，

表示语句第j个单词的单词特征；

(2)、构建视频语句Transformer模型，并对视频特征序列、语句特征序列进行计算

构建一个D层视频语句Transformer模型，其中，第d层，d＝1,2,...,D的输出为：

其中，V、L分别表示视频和语句，Q、K、W为可学习参数，其中，不同下标表示不同参数，Att(·)为注意力计算函数；

视频特征序列

语句特征序列

作为视频语句Transformer模型的输入进行计算，得到第D层输出视频特征序列

语句特征序列

(3)、构建多阶段聚合模块，计算三个阶段的阶段特征序列和预测分数序列

计算开始阶段、中间阶段和结束阶段的阶段特征序列r^sta、r^mid、r^end：

其中，开始阶段特征序列r^sta由N个切片的阶段特征

组成，中间阶段特征序列r^mid由N个切片的阶段特征

组成，结束阶段特征序列r^end由N个切片的阶段特征

组成，

分别为计算三个阶段的阶段特征序列的多层感知器(MLP，Multi-layer Perceptron)；

计算开始阶段、中间阶段和结束阶段的预测分数序列p^sta、p^mid、p^end：

其中，开始阶段预测分数序列p^sta由N个切片的预测分数

组成，中间阶段预测分数序列p^mid由N个切片的预测分数

组成，结束阶段预测分数序列p^end由N个切片的预测分数

组成，

分别为计算三个阶段的预测分数序列的多层感知器；

(4)、训练多阶段聚合Transformer模型

视频语句Transformer模型与多阶段聚合模块构成多阶段聚合Transformer模型；

构建视频语句训练数据集，其中每条数据包括一个视频、一个语句，以及语句定位的视频片段的视频切片开始位置

结束位置

从视频语句训练数据集提出一条数据，将语句中随机屏蔽一个单词，并用标记“MASK”取代，然后将视频、语句按照步骤(1)～(3)进行处理，再计算每个视频切片开始阶段、中间阶段、结束阶段的真实分数

其中，

σ_sta、σ_midσ_end为未归一化的二维高斯分布的标准差，σ_sta、α_mid、α_end为正值的标量，用于控制标准差的值；

4.1)、计算预测层上的加权交叉熵损失L_stage：

4.2)、计算第z个候选片段的视频切片开始位置、结束位置的预测值

以及匹配分数预测值

4.3)、计算边界回归损失L_regress：

其中，Z为候选片段的总数，

分别为第z个候选片段的视频切片开始位置、结束位置；

4.4)、计算匹配分数加权交叉熵损失L_match：

其中，y_z为是第z个候选片段与语句定位的视频片段(开始位置

到结束位置

的视频）的重合度；

4.5)、计算屏蔽单词预测的交叉熵损失L_word

L_word＝-logp^mask

其中，p^mask是根据语句特征序列

预测为屏蔽的单词的概率；

4.6)、计算训练多阶段聚合Transformer模型的整个网络的损失L_total

L_total＝L_stage+L_regress+L_match+L_word

4.7)、更新整个网络的参数

依次从视频语句训练数据集取出一条数据，依据损失L_total对整个网络的参数进行更新，直到视频语句训练数据集的数据为空，这样得到训练好的多阶段聚合Transformer模型；

(5)、视频语句定位

输入视频和不含掩蔽单词的完整查询语句，按照步骤(1)～(3)进行处理，再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值(构成新的候选片段)，然后根据匹配分数从高到低对新的候选片段进行排序，再使用NMS(非极大值抑制)去除重叠超过70％的新的候选片段，并返回前1或前5个新的候选片段作为最终定位出的视频片段。

本发明的目的是这样实现的。

针对上述现有方法存在的问题，本发明构建了一个多阶段聚合Transformer模型用于视频语句定位网络。多阶段聚合Transformer模型由两部分组成：视频语句Transformer模型和位于视频语句Transformer模型之上的多阶段聚合模块。在视频语句Transformer模型中，保留了一个单一的BERT架构，但将BERT参数解耦到不同的分组中，以分别处理视频和语句信息。视频语句Transformer模型在保持单BERT结构的紧凑性和效率的同时，更有效地对视频和语句两种模态进行建模。在视频语句Transformer模型中，每个视频切片或者单词都可以根据自身的语义自适应地聚合和对齐来自两种模态中所有其他视频切片或者单词的信息。通过多层叠加，最后所得到的视频语句联合表示具有丰富的视觉语言线索捕捉能力，能够实现更精细的匹配。此外。在多阶段聚合模块中，分别为每个视频切片计算三个对应于不同阶段的阶段特征，即开始阶段、中间阶段和结束阶段的阶段特征。然后对某一候选片段，将其开始阶段的阶段特征、中间阶段的阶段特征和结束阶段的阶段特征串联起来，构成该候选片段的特征表示。由于所获得的特征表示捕捉了不同阶段的特定信息，因此非常适合准确定位视频片段的起始位置和终止位置。这两个模块整合在一起，形成一个既有效又高效的网络，提高视频语句定位的准确度。

附图说明

图1是本发明基于多阶段聚合Transformer模型的视频语句定位方法一种具体实施方式流程图；

图2是视频切片示意图；

图3是本发明基于多阶段聚合Transformer模型的视频语句定位方法一种具体实施方式的原理示意图；

图4是视频语句定位一种具体实施方式流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明基于多阶段聚合Transformer模型的视频语句定位方法一种具体实施方式流程图。

在本实施例中，如图1所示，基于多阶段聚合Transformer模型的视频语句定位方法包括以下步骤：

步骤S1：视频切片特征、单词特征提取

在本实施例中，如图2所示，将视频按照时间均匀地划分为N个时刻点，在每一个时刻点，采集一个视频切片(由连续的多帧，如50帧的图像组成)，对每个视频切片进行特征提取，得到切片特征(得到总共N个切片特征)，N个切片特征按照时刻顺序放置，形成视频特征序列。

对语句的每个单词进行词转向量(Doc2Vec)，得到单词特征，然后按照在语句中的顺序放置，形成语句特征序列。

语句特征序列

其中，

表示视频第i个切片的切片特征，

表示语句第j个单词的单词特征。

步骤S2：构建视频语句Transformer模型，并对视频特征序列、语句特征序列进行计算

现有的大多数方法通常是分别处理视频和语句序列，然后将它们进行匹配。但是，单独处理这两种序列，比如首先将语句编码成一个向量然后进行匹配，将不可避免地丢失语句中一些详细的语义内容，从而无法实现细致的匹配。为了解决这一问题，如图3所示，本发明构建了一个全新的视频语句Transformer模型作为主干网，其中，第d层，d＝1,2,...,D的输出为：

视频特征序列

语句特征序列

作为视频语句Transformer模型的输入进行计算，按照公式(1)逐层计算，得到第D层输出视频特征序列

语句特征序列

与之前广泛使用的单BERT模型相比，本发明中的多阶段聚合Transformer模型其架构没有改变，没有引入任何额外的计算，只是使用不同的参数来处理不同的模态内容，这样既保持了模型的紧凑性和效率，又提高了模型的多模态建模能力。同时，本发明中的多阶段聚合Transformer模型，也不同于其他多模态BERT模型，后者使用两个BERT流来实现不同模态的内容。这种基于两个BERT流的模型引入了额外的跨模态层来实现多模态交互，而本发明中的多阶段聚合Transformer模型保持了与原始BERT模型相同的结构，更加紧凑和高效。

多阶段聚合Transformer模型由多层如公式(1)的计算过程组成。经过多层叠加后，得到的视频语句联合表示具有丰富的视觉语言线索的聚合和对齐能力。视频中的每一切片都可以与查询语句中的每个单词进行交互，从而实现更详细、更准确的视频语句匹配。这对于精确定位非常重要。

步骤S3：构建多阶段聚合模块，计算三个阶段的阶段特征序列和预测分数序列

在经过视频语句Transformer模型之后，所得到的视频语句联合表示即视频特征序列

语句特征序列

具有更丰富的信息和更精细的匹配。然而，为了克服现有方法忽略了视频片段中所包含的不同阶段的问题，本发明在视频语句Transformer模型上提出了一个多阶段聚合模块，以其达到能精确地定位所查询的视频片段的起始位置和结束位置。在多阶段聚合模块中，本发明分别为视频序列中的每一视频切片计算对应于不同时间阶段的三个阶段的阶段特征，即开始阶段、中间阶段和结束阶段的阶段特征

为了提高对不同阶段特征的区分能力，本发明在这些阶段特征上添加了一个预测层，分别对开始阶段、中间阶段和结束阶段的分数进行预测。

在本实施例中，如图3所示，多阶段聚合模块用于计算开始阶段、中间阶段和结束阶段的阶段特征序列r^sta、r^mid、r^end：

其中，开始阶段特征序列r^sta由N个切片的阶段特征

组成，中间阶段特征序列r^mid由N个切片的阶段特征

组成，结束阶段特征序列r^end由N个切片的阶段特征

组成，

分别为计算三个阶段的阶段特征序列的多层感知器(MLP，Multi-layer Perceptron)。

其中，开始阶段预测分数序列p^sta由N个切片的预测分数

组成，中间阶段预测分数序列p^mid由N个切片的预测分数

组成，结束阶段预测分数序列p^end由N个切片的预测分数

组成，

分别为计算三个阶段的预测分数序列的多层感知器。

步骤S4：训练多阶段聚合Transformer模型

结束位置

其中，

σ_sta、σ_mid、σ_end为未归一化的二维高斯分布的标准差，α_sta、α_mid、α_end为正值的标量，用于控制标准差的值，α_sta、α_mid、α_end的值越大，在视频片段的起始/中间/结束位置附近视频切片的起始/中间/结束位置的得分越高。

步骤S4.1：计算预测层上的加权交叉熵损失L_stage：

步骤S4.2：计算第z个候选片段的视频切片开始位置、结束位置的预测值

以及匹配分数预测值

因为三个阶段都是特定于起始、中间和结束阶段的，所以这个串联的特征对于精确的视频片段定位是非常有区分力的。

步骤S4.3：计算边界回归损失L_regress：

其中，Z为候选片段的总数，

分别为第z个候选片段的视频切片开始位置、结束位置。

步骤S4.4：计算匹配分数加权交叉熵损失L_match：

到结束位置

的视频)的重合度。

不同于以往预测IoU时不计算回归，在本发明的IoU预测是预测回归后的候选片段和真实之间的IoU，这使得本发明可以度量边界回归的质量。

为了生成候选片段，任何候选片段生成方法都可以应用在本发明的框架中。为了简便，本发明首先枚举由连续视频切片组成的所有可能的视频片段。然后，对于较短的视频，可以密集地选取它们作为候选片段。对于较长的视频，可以逐渐增加采样间隔，稀疏地选取它们作为候选片段。这种方法的主要思想是去除冗余的有很大的重叠的候选片段。

步骤S4.5：计算屏蔽单词预测的交叉熵损失L_word

L_word＝-logp^mask

其中，p^mask是根据语句特征序列

预测为屏蔽的单词的概率。

在训练过程中，本发明将语句对作为网络的输入。与原来的Transformer模型类似，语句序列中一个单词随机屏蔽。对于屏蔽单词，它被替换为一个特殊的标记“[MASK]”。然后，让模型根据未掩蔽的单词和来自视频序列的信息来预测屏蔽单词。值得说明的是，预测一些重要的词，例如一些对应物体的名词和一些对应动作的动词，需要视频序列的信息。因此，屏蔽单词预测不仅使Transformer模型学会了语言，还能更好地对齐视频和语句模态。匹配单词预测的损失函数是标准的交叉熵损失。本发明没有在任何其他数据集上预先训练视频语句Transformer模型，所有参数都是随机初始化的。

步骤S4.6：计算训练多阶段聚合Transformer模型的整个网络的损失L_total

L_total＝L_stage+L_regress+L_match+L_word

步骤S4.7：更新整个网络的参数

本发明没有在任何其他数据集上预先训练视频语句Transformer模型，所有参数都是随机初始化的。

步骤S5：视频语句定位

输入视频和不含掩蔽单词的完整查询语句，如图4所示，按照步骤(1)～(3)进行处理，再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值(构成新的候选片段)，然后根据匹配分数从高到低对新的候选片段进行排序，再使用NMS(非极大值抑制)去除重叠超过70％的新的候选片段，并返回前1或前5个新的候选片段作为最终定位出的视频片段。

性能测评

本发明在两个大型公共数据集上进行实验，分别是ActivityNet_Captions[14]和TACoS[24]。ActivityNet_Captions包含20K个视频和100K个查询语句。视频的平均长度是2分钟。它包含127个与烹饪活动相关的视频，平均持续时间为4.79分钟。平均每个视频有148个查询语句。TACoS数据集包含18,818个片段语句对。TACoS是一个非常具有挑战性的数据。其查询语句包含多层次的活动，这些活动包含不同层次的细节。

利用Rank n@IoU＝m来评估本发明。它表示正确的定位占所有定位的百分比，其中正确的定位定义为在输出的结果中至少有一个与ground truth相匹配的片段。如果某个片段和ground truth之间的IoU大于m则该片段与ground truth相匹配。

使用Adam优化本发明中的网络。批大小设置为16，学习率设置为0.0001。Transformer层数设置为6层。所有层的特征维度设置为512。标准差标量分别为0.25,α_s，α_m0.21。在ActivityNet_Captions和TACoS中，Transformer注意力头的数量被分别设置为16和32。利用C3D网络提取视频切片特征。对于ActivityNet_Captions数据集，将采样的视频切片长度设置为32，对于TACo S数据集设置为128。

将本发明提出的多阶段聚合Transformer网络与当前各种最先进的方法进行了比较，对比结果如表1-2所示。

表1

表1是与其他方法在ActivityNet_Captions数据集上的对比结果。

表2

表2是与其他方法在TACoS数据集上的对比结果。

从实验结果可以看出，与以前的方法相比，本发明取得了显著的提升。尽管本发明在ActivityNet_captions数据集上比CSMGAN[18]的Rank1@IoU＝0.5值低1.09点，但它在所有其他指标上都优于CSMGAN。特别是对于Rank1@IoU＝0.7和Rank5@IoU＝0.7指标，本发明分别比CSMGAN高出2.63和3.55点。注意到IoU＝0.7是评判一个片段是否正确的更严格的标准，这表明本发明可以实现更高质量的定位。此外，在TACoS数据集上，本发明比CSMGAN在所有评估指标上都高出了10个百分点以上，这表明了本发明对比CSMGAN方法的优越性。此外，对比其他方法，本发明也取得了压倒性的优势，这些结果充分说明了本发明的有效性。在本发明视频语句Transformer模型中，每个视频切片可以与查询语句中的每个单词进行交互，从而得到更详细、更准确的视频语句对齐。由于本发明的多阶段聚合模块，计算的视频片段表示可以匹配不同阶段的活动。本发明的两个模块紧密结合在一起，形成了一个非常有效且高效的片段定位网络。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多阶段聚合Transformer模型的视频语句定位方法，其特征在于，包括以下步骤：

(1)、视频切片特征、单词特征提取

将视频按照时间均匀地划分为N个时刻点，在每一个时刻点，采集一个视频切片，由连续的多帧图像组成，对每个视频切片进行特征提取，得到总共N个切片特征，N个切片特征按照时刻顺序放置，形成视频特征序列；

对语句的每个单词进行词转向量，得到单词特征，然后按照在语句中的顺序放置，形成语句特征序列；

语句特征序列

其中，

表示视频第i个切片的切片特征，

表示语句第j个单词的单词特征；

构建一个D层视频语句Transformer模型，其中，第d层，d＝1,2,…,D的输出为：

视频特征序列

语句特征序列

语句特征序列

其中，开始阶段特征序列r^sta由N个切片的阶段特征r_i ^sta，i＝1,2,...N组成，中间阶段特征序列r^mid由N个切片的阶段特征r_i ^mid，i＝1,2,...N组成，结束阶段特征序列r^end由N个切片的阶段特征r_i ^end，i＝1,2,...N组成，MLP₁ ^sta、MLP₁ ^mid、MLP₁ ^end分别为计算三个阶段的阶段特征序列的多层感知器(MLP，Multi-layer Perceptron)；

其中，开始阶段预测分数序列p^sta由N个切片的预测分数

组成，中间阶段预测分数序列p^mid由N个切片的预测分数

组成，结束阶段预测分数序列p^end由N个切片的预测分数

组成，

分别为计算三个阶段的预测分数序列的多层感知器；

(4)、训练多阶段聚合Transformer模型

结束位置

其中，

4.1)、计算预测层上的加权交叉熵损失L_stage：

以及匹配分数预测值

其中，

分别为第z个候选片段的视频切片开始位置、中间位置、结束位置，

分别为步骤(3)中得到的阶段特征序列r^sta、r^mid、r^end相应位置的阶段特征；

4.3)、计算边界回归损失L_regress：

其中，Z为候选片段的总数；

4.4)、计算匹配分数加权交叉熵损失L_match：

其中，y_z为是第z个候选片段与语句定位的视频片段即开始位置

到结束位置

的视频的重合度；

4.5)、计算屏蔽单词预测的交叉熵损失L_word

L_word＝-log p^mask

其中，p^mask是根据语句特征序列

预测为屏蔽的单词的概率；

L_total＝L_stage+L_regress+L_match+L_word

4.7)、更新整个网络的参数

(5)、视频语句定位

输入视频和不含掩蔽单词的完整查询语句，按照步骤(1)～(3)进行处理，再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值，并构成新的候选片段，然后根据匹配分数从高到低对新的候选片段进行排序，再使用非极大值抑制去除重叠超过70％的新的候选片段，并返回前1或前5个新的候选片段作为最终定位出的视频片段。