CN114357124B

CN114357124B - 一种基于语言重建和图机制的视频段落定位方法

Info

Publication number: CN114357124B
Application number: CN202210270425.9A
Authority: CN
Inventors: 徐行; 蒋寻; 沈复民; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-14
Anticipated expiration: 2042-03-18
Also published as: CN114357124A

Abstract

本发明涉及多模态视频理解中的跨模态内容检索技术领域，公开了一种基于语言重建和图机制的视频段落定位方法，包括：选择数据集，构建视频段落，使用损失函数训练模型，最后验证模型效果。本发明用于提高细粒度的异构数据之间的信息交互能力，增强对视频内容的理解，提高模型对视频‑文本的跨模态内容理解能力。本发明可用于各种多模态视频理解场合，如网络视频APP、智慧安防***、大规模视频内容检索等，可改善用户软件使用体验，提高视频、安防、社会治理等相关领域工作人员的工作效率。

Description

一种基于语言重建和图机制的视频段落定位方法

技术领域

本发明涉及多模态视频理解中的跨模态内容检索技术领域，具体地说，是一种基于语言重建和图机制的视频段落定位方法，用于提高细粒度的异构数据之间的信息交互能力，增强对视频内容的理解，提高模型对视频-文本的跨模态内容理解能力。

背景技术

作为互联网时代的多媒体技术热点，多模态视频理解在近年来在吸引了众多来自工业界和学术界的目光。时序语言定位技术是多模态视频理解中最具挑战性的任务之一，其旨在根据给定的查询文本信息，从未经裁剪过的长视频中进行视频片段级别的检索，要求计算机定位查询文本所描述的事件在此长视频中的片段位置。时序语言定位技术存在较广泛的运用场景：随着大媒体时代的逐步来临，互联网视频审核工作也开始变得繁重起来，通过应用时序语言定位技术，我们可以实现细粒度的跨模态视频内容检索，把人力从繁琐的视频审核和查找中解放出来。同时，此项技术还可以部署在智能安防、社会治理、人机交互等领域，有效改善用户使用体验，提高工作效率。

根据查询文本的形式，目前时序语言定位技术可以分为两类，第一种为视频句子定位，即查询文本仅为单个句子，检索目标为单个事件，算法模型以“一对多”的形式从包含多个事件的长视频中检索出目标片段；第二种为视频段落定位，查询文本为包含多个句子的段落，描述了复数个事件，算法模型以“多对多”的形式完成各个事件片段的检索。在过去十年里，视频句子定位技术一直是研究的热点，并取得了较大的发展，但随着多模态数据的增加，这种单一事件定位机制的弊端便逐渐暴露了出来：例如，针对多个类似事件出现在视频中时，视频句子定位很容易混淆多个事件的逻辑关系从而导致错误定位，这是由于其仅利用视频进行事件级别的上下文建模，而忽略了文本模态的上下文建模，造成模型对视频内容理解的不充分，在实际使用中，面对反复出现的相同或相近事件，事件级别的文本上下文缺失则导致了事件片段的错误检索。而视频段落定位方法，通过输入多个事件的描述语句作为查询文本，可以从文本模态挖掘出更多的事件级别的上下文信息，从而降低错误对齐的可能性。

但是，视频段落定位中复数个事件的定位，也带来了新的挑战。首先，采用段落作为查询文本，会呈现出更多的复杂性，导致模态融合的难度变大，由于“多对多”的定位方式，在模态融合中每个句子都是对视频中各个事件是可见的，从而带来更高的误对齐可能性。其次，虽然可以靠保持每个句子的时序关系，以提供足够的时间信息，但随着句子的增多，这种方法也要求我们的模型具有更好的长程上下文建模能力。

因此，为了解决现有视频段落定位的技术问题，本发明提供了一种基于语言重建和图机制的视频段落定位方法，通过向Transformer引入多模态图机制，提高细粒度的异构数据之间的信息交互能力；通过事件特征解码器在多个事件之间进行上下文建模，增强对视频内容的理解；同时设计了一个语言重建器，对查询文本进行重构，进一步提高模型对视频-文本的跨模态内容理解能力。

发明内容

本发明的目的在于提供一种基于语言重建和图机制的视频段落定位方法，通过向Transformer引入多模态图机制，提高细粒度的异构数据之间的信息交互能力；通过事件特征解码器在多个事件之间进行上下文建模，增强对视频内容的理解；同时设计了一个语言重建器，对查询文本进行重构，进一步提高模型对视频-文本的跨模态内容理解能力。

本发明通过下述技术方案实现：一种基于语言重建和图机制的视频段落定位方法，包括以下步骤：

步骤S1.选择训练数据集，提取视频-段落对作为定位算法模型的输入；

步骤S2.加载预训练的3D卷积神经网络的模型参数，提取所述视频-段落对中的视频模态，获取片段级视频特征；

步骤S3.提取所述视频-段落对中的文本模态，使用GloVe编码将文本模态中的各个单词表示为固定维度的词向量作为查询文本编码；

步骤S4.使用投影层和正则化处理查询文本编码，获取单词级文本特征，随后将单词级文本特征按句子拆分，并将得到的每个句子依次输入到双向门控编码单元中，提取出句子级文本特征；

步骤S5. 将片段级视频特征和单词级文本特征连结在一起，将每个特征点作为一个图结点，每条边的强度设为可学习参数，初始化为一张由视频特征结点和文本特征结点组成的多模态全连接图，并输入到多模态图编码器中进行多模态特征融合，使得每个结点能够选择性地从邻居结点获取信息，实现细粒度的特征交互；

步骤S6.提取多模态图编码器处理后的多模态图中的视频特征结点，和步骤S4中提取的句子级文本特征一起输入到事件特征解码器中，得到目标事件的多模态特征，并使用多层感知机预测该事件在完整视频中相对位置；

步骤S7.使用步骤S6中得到的每个目标事件的多模态特征，同时提取多模态图编码器处理后的多模态图中的文本特征结点，一起输入到语言重建器中，将每个文本特征结点重新翻译为段落查询文本，实现查询文本重构；

步骤S8.根据步骤S6中预测的结果计算时序位置信息损失；

步骤S9.提取事件特征解码器中的注意力权重矩阵，计算注意力引导损失；

步骤S10.根据步骤S7中文本重构的结果计算语言重构损失；

步骤S11.采用Adam优化器，并使用恒定学习率策略对定位算法模型进行训练。

在本发明中，不同于传统的视频和音频领域，本发明为视频和文本领域；本发明属于时序语言定位/视频片段检索，即给定一个或多个自然语言的描述文本（描述视频中一个或多个片段），根据该文本检索出视频片段在视频中的位置，两个模态之间非自然对齐状态，需要根据文本模态内的语义进行模态匹配，进一步实现检索；本发明神经网络模型构成较为更加复杂，结构差异较大，包括但不限于：1）采用了多模态图的方式实现了多模态信息交互。2）设计了事件特征解码器，利用文本模态在事件级别（非常规的单词级别或是视频片段级别）进行了上下文建模以更好的理解长视频内容；3）设计了语言重建器，重构出查询文本，以提高模型对深层语义的理解能力。

本发明也不同于传统的视频时刻定位，传统的视频时刻定位关注于单句时刻定位，即每次仅给出一个查询句子，完成一个事件的定位，本发明关注于段落时刻定位，即可以给出一个由数个句子组成的段落来完成复数个事件的定位；传统的视频时刻定位是通过对视频片段的预先划分以完成视频上下文的建模，之后根据视频内容有选择性的筛选查询句子中的关键文本词语。本发明是通过建立多模态图，利用图建模层，使得每个结点（视频片段结点或文本词语结点）从其邻居结点获取信息。

为了更好地实现本发明，进一步地，还包括对定位算法模型的验证方式：在测试阶段不需进行语言重建，通过去除训练完成的基于语言重建和图机制的视频段落定位方法中的语言重建器提高模型推理速度；使用去除语言重建器后的剩余部分作为测评模型，对视频和段落文本对进行视频多片段检索，以验证定位算法模型的效果。

为了更好地实现本发明，进一步地，步骤S5中多模态图编码器的推理过程包括:

步骤S5.1. 将视频结点和文本结点连结，边权值设置为可学习值，初始化多模态图；

步骤S5.2. 将多模态图传入多模态图编码器中，进行多模态图建模，通过Transformer编码器对图建模层、视频和文本的位置编码获取单层多模态图建模；

步骤S5.3.多模态图编码器由多层步骤S5.2中所述单层多模态图建模结构构成，采用迭代的方式不断更新多模态图。

为了更好地实现本发明，进一步地，步骤S5.2包括：

在图建模层GM(·)中进行多模态图推理使每个结点的从其邻居结点获取信息，并更新自身和边的权值。

为了更好地实现本发明，进一步地，步骤S6包括：

提取多模态图编码器处理后的多模态图中的视频特征结点，作为事件特征解码器的已编码信号输入，句子级文本特征作为事件特征解码器的查询信号输入，通过自注意力机制挖掘多事件之间的上下文关系，通过跨模态注意力机制得到目标事件的多模态特征，最后使用多层感知机预测各个事件在完整视频中的相对位置。

为了更好地实现本发明，进一步地，步骤S7包括：

将步骤S6中得到的目标事件的多模态特征作为语言重建器的已编码信号输入，提取多模态图编码器处理后的多模态图中的文本结点作为语言重建器的查询信号输入，计算每个文本结点在已编码词汇中的概率分布，选择概率最大的单词作为重建结果。

为了更好地实现本发明，进一步地，步骤S8包括：

使用步骤S6中每个事件的预测结果，根据事件的预测结果、全部事件数、实际标注和G-IOU损失函数计算位置信息损失。

为了更好地实现本发明，进一步地，步骤S9包括：

提取事件特征解码器中的跨模态注意力机制中的注意力权重，计算注意力引导损失。

为了更好地实现本发明，进一步地，步骤S10包括：

根据语言重建器的预测结果，计算重构损失。

为了更好地实现本发明，进一步地，步骤S10还包括：

将位置损失、注意力引导损失、重构损失进行加权求和，作为最终的训练目标

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明向视频段落定位中引入了图建模机制，通过建立多模态图来促进细粒度的异构数据之间的信息交互；

（2）本发明设计了一个事件特征解码器，通过探究事件之间的上下文关系，降低了视频段落定位中多个事件定位的对齐误差，有效地提高了事件定位的可靠性；

（3）本发明设计了一个语言重构器，通过对查询文本的重构，辅助模型提高视频-文本的跨模态理解能力，挖掘异构数据之间的深层语义，同时提高了模型的可解释性；

（4）本发明经测试，有效地提高了时序语言定位的精度，与现有技术相比，在多事件定位上具有较明显优势；

（5）本发明可用于各种多模态视频理解场合，如网络视频APP、智慧安防***、大规模视频内容检索等，可改善用户软件使用体验，提高视频、安防、社会治理等相关领域工作人员的工作效率。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明所提供的一种基于语言重建和图机制的视频段落定位方法的流程图。

图2为本发明所提供的一种基于语言重建和图机制的视频段落定位方法的结构示意图。

图3为本发明所提供的一种基于语言重建和图机制的视频段落定位方法的在Charades-STA数据集上的示意图。

图4为本发明所提供的一种基于语言重建和图机制的视频段落定位方法的在Activity Net-Caption数据集上的示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本实施例的一种基于语言重建和图机制的视频段落定位方法，如图1和图2所示，包括以下步骤：步骤S1.选择训练数据集，提取视频-段落对作为定位算法模型的输入；

步骤S8.根据步骤S6中预测的结果计算时序位置信息损失；

步骤S10.根据步骤S7中文本重构的结果计算语言重构损失；

本实施例中的定位算法模型是指基于语言重建和图机制的视频段落定位模型，本实施例中提取所述视频-段落对中的视频模态，获取片段级视频特征即每个特征向量提取自视频中固定长度的视频片段。本实施例中使用GloVe编码将文本模态中的各个单词表示为以固定维度的词向量使用，固定维度常用设置是300维度。

本发明的工作原理/工作过程为：1个单词的长度为1，l W个单词的长度为l W，先使用预训练卷积神经网络提取片段级视频特征，使用GloVe、带正则化的映射层和双向门控循环单元（biGRU）提取单词级文本特征和句子级文本特征。使用多模态图编码器进行细粒度的多模态特征建模，使用事件特征解码器和多层感知机预测多个事件在未裁剪长视频中的相对位置，训练阶段使用语言重建器重构查询文本。

实施例2：

本实施例在实施例1的基础上做进一步优化，本实施例提供了一种定位算法模型的验证方式：在测试阶段不需进行语言重建，通过去除训练完成的基于语言重建和图机制的视频段落定位方法中的语言重建器提高模型推理速度；使用去除语言重建器后的剩余部分作为测评模型，对视频和段落文本对进行视频多片段检索，以验证定位算法模型的效果。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1或2的基础上做进一步优化，本实施例提供了模态图编码器的推理过程包括:

步骤S5.2. 将多模态图传入多模态图编码器中，进行多模态图建模，其中,单层多模态图建模的过程表示为：

；

其中，GM(·)代表图建模层，Enc(·)代表Transformer编码器，

代表第i次图建模后的多模态图，

分别为视频和文本的位置编码，[；]为连结运算符；

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3任一项的基础上做进一步优化，本实施例提供了在图建模层GM(·)中进行多模态图推理使每个结点的从其邻居结点获取信息，并更新自身和边的权值，单层图建模层表示为：

；

其中，

代表第i层时第j个结点的数值，

为第j个结点的邻居结点集合，

为第i次迭代中，第j个结点和第k个结点之间的边权值，

为第i个图建模层的可学习参数矩阵，σ(·)和LN(·)分别为激活函数层和线性映射层。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项基础上做进一步优化，本实施例提供了将多模态图编码器处理后的多模态图中的视频特征结点提取出来，作为事件特征解码器的已编码信号输入，句子级文本特征作为事件特征解码器的查询信号输入，通过自注意力机制挖掘多事件之间的上下文关系，通过跨模态注意力机制得到目标事件的多模态特征，最后使用多层感知机预测各个事件在完整视频中的相对位置，表示为：

；

其中，

为第i个事件的多模态特征，

为第i个事件的句子级文本特征，NV为多模态图中的视频结点，PS为句子层面的位置编码，DECT(·)为事件特征解码器，MLP(·)为多层感知机，

为第i个事件的预测结果，即归一化时间戳。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项基础上做进一步优化，本实施例公开了：

将步骤S6中得到的目标事件的多模态特征作为语言重建器的已编码信号输入，提取多模态图编码器处理后的多模态图中的文本结点作为语言重建器的查询信号输入，计算每个文本结点在已编码词汇中的概率分布，选择概率最大的单词作为重建结果，表示为：

;

其中，FE为目标事件的多模态特征，NW为文本结点，PW为单词级别的位置信息编码。DECLR(·)为语言重建器，P为每个重建单词的概率分布。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

实施例7：

本实施例在上述实施例1-6任一项基础上做进一步优化，本实施例公开了使用步骤S6中每个事件的预测结果，计算位置信息损失

，表示为：

，

其中，

、

分别指第i个事件的预测结果和实际标注，

指G-IOU损失函数，K为全部事件数。

本实施例的其他部分与上述实施例1-6任一项相同，故不再赘述。

实施例8：

本实施例在上述实施例1-7任一项基础上做进一步优化，本实施例公开了：

提取事件特征解码器中的跨模态注意力机制中的注意力权重，计算注意力引导损失

：

；

其中，

、

分别指第i个片段级视频特征的实际标注和注意力权值，

为片段级视频特征总长度。

本实施例的其他部分与上述实施例1-7任一项相同，故不再赘述。

实施例9：

本实施例在上述实施例1-8任一项基础上做进一步优化，本实施例公开了：根据语言重建器的预测结果，计算重构损失

，并表示为：

；

其中，

为第i个单词，

为单词总长度，

为用于稳定训练的第一超参数。

本实施例的其他部分与上述实施例1-8任一项相同，故不再赘述。

实施例10：

本实施例在上述实施例1-9任一项基础上做进一步优化，本实施例公开了：将位置损失、注意力引导损失、重构损失进行加权求和，作为最终的训练目标

，并表示为：

；

其中，α、β、γ分别为平衡损失函数的第二超参数、第三超参数和第四超参数。

本实施例的其他部分与上述实施例1-9任一项相同，故不再赘述。

将本发明用到具体场景中进行举例：

第一场景案例：在Charades-STA数据集上开展效果评估工作。包含6672个日常生活视频。每个视频大约有2.4个带注释的时刻，时刻的平均持续时间为8.2秒。该数据集涉及6670/16124 个视频/句子，分为训练和测试部分，分别为 5336/12404 和 1334/3720。在该实施案例中，本发明应用C3D作为原始视频特征提取器以得到视频的RGB特征。基于上述特征，本发明在该数据集上与其他方法所比较的结果分别如图3所示。

第二场景案例：在Activity Net-Caption数据集上开展效果评估工作。该数据是时序语言定位任务中最大的数据集，包含大约 2 万个开放域视频。平均每个视频包含3.65个查询，每个查询平均有13.48个词。数据集被拆分为训练集，验证集1和验证集2，分别含有 10009/37421、4917/17505 和 4885/17031 个视频/句子的，本发明在验证集1上进行验证，在验证集2上用于测试。本发明与其他现有方法对比的结果如图4所示。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于语言重建和图机制的视频段落定位方法，其特征在于，包括以下步骤：

步骤S5.3.多模态图编码器由多层步骤S5.2中所述单层多模态图建模结构构成，采用迭代的方式不断更新多模态图；

步骤S8.根据步骤S6中预测的结果计算时序位置信息损失；

步骤S10.根据步骤S7中文本重构的结果计算语言重构损失；

2.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，还包括对定位算法模型的验证方式：

在测试阶段不需进行语言重建，通过去除训练完成的基于语言重建和图机制的视频段落定位方法中的语言重建器提高模型推理速度；使用去除语言重建器后的剩余部分作为测评模型，对视频和段落文本对进行视频多片段检索，以验证定位算法模型的效果。

3.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S5.2包括：

4.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S6包括：

5.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S7包括：

6.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S8包括：

7.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S9包括：

8.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S10包括：根据语言重建器的预测结果，计算重构损失。

9.根据权利要求6或7或8任一项所述的一种基于语言重建和图机制的视频段落定位方法，其特征在于，所述步骤S10还包括：

将位置损失、注意力引导损失、重构损失进行加权求和，作为最终的训练目标。