CN115618061B

CN115618061B - 一种语义对齐的视频问答方法

Info

Publication number: CN115618061B
Application number: CN202211502821.6A
Authority: CN
Inventors: 刘文印; 钟经谋; 梁达勇; 陈俊洪; 西木; 林大润; 黄可思
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-10
Anticipated expiration: 2042-11-29
Also published as: CN115618061A

Abstract

本发明公开了一种语义对齐的视频问答方法，具体步骤为：通过进行问题语义解析及编码，获得问题语义特征，对问题语义特征进行融合，获得问题的全局特征；通过语义视觉选择模块和问题条件视觉模块进行视频解析及编码，融合语义视觉特征和问题条件视觉特征获得视觉全局特征；通过对齐问题解析出的语义的跨模态特征缩小语义鸿沟；基于问题的全局特征和视觉全局特征进行解码推理答案。本发明使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息，使用对比学习缩小跨模态语义鸿沟，并融合问题解析出的语义视觉特征和问题条件视觉特征，丰富视觉特征搜索空间，根据问题特征和视觉特征解码视频问答的答案，提高了视频问答的准确率。

Description

一种语义对齐的视频问答方法

技术领域

本发明属于计算机视觉和语言处理技术领域，尤其涉及一种语义对齐的视频问答方法。

背景技术

视频问答在人机协同和人机交互中发挥不可或缺的作用，视频问答的发展促进了交互式人工智能的发展。作为人机交互的重要部分，视频问答为实现智能家居、个人智能助手的落地以及全面智能化的生活提供了重要的技术支持。例如，使用自然语言与智能问答机器人交互，智能问答机器人通过观察动态视觉世界给予反馈，加快工作效率。同时，视频问答在视频监控和视频内容查找中也有重要的应用。

视频问答是视觉语言任务中最流行的一种，它旨在打破视觉特征和语言语义的鸿沟以实现人机交互。视频问答的研究可以三个方面：一是基于注意力机制的方法，它使用跨注意力机制将问题特征融合到视频特征中，使视频特征带有问题条件。二是基于图结构的方法，它使用图网络结构对视觉元素和语言元素之间的交互进行建模。三是基于分层结构的方法，它使用不同粒度的视觉元素进行推理。第一种方法可以优化了视觉特征，但其不能学习语言以及视觉内部的交互。第二种方法优化了语言以及视觉信息，但不能很好地缩小语言和视觉特征的歧义。第三种方法优化了视觉信息，使视觉信息更加丰富，但语言和视觉特征的歧义仍然不能很好地缩小它们之间的鸿沟。

现有的技术方案存在以下缺点：（1）基于注意力机制的方法不能有效地捕捉模态内的交互。（2）基于图结构模型的方法并没有模态间的交互，不能有效地缩小模态间的鸿沟。（3）基于分层结构模型的方法使用池化的方法构建视觉金字塔，虽然提取到丰富的视觉特征，但这些视觉特征是基于时间长短而来的复杂度，可以提供给问题更加丰富的搜索空间，但仍无法从根本上缩小语言和视觉特征之间的鸿沟。

综上，为了缩小语言和视觉之间的鸿沟，实现更准确的视频问答，本发明提出一种语义对齐的视频问答方法。

发明内容

为解决上述问题，本发明提出了一种语义对齐的视频问答方法，通过对齐问题解析出的语义的语言和视觉特征，缩小跨模态鸿沟，并融合解析语义视觉特征和问题条件视觉特征，丰富视觉特征搜索空间，最后根据问题特征和视觉特征解码视频问答的答案，提高了视频问答的准确率。

为实现上述目的，本发明提供了一种语义对齐的视频问答方法，包括以下步骤：

通过语义分析工具进行问题语义解析及编码，获得问题解析语义特征，对所述问题解析语义特征进行融合，获得问题全局特征；

通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码，融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征；

通过对齐解析语义的语言特征和对应的视觉特征，缩小跨模态鸿沟，通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征；

将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。

优选的，通过语义分析工具进行问题语义解析的方法包括：

使用AllenNLP提供的语义角色标签工具对问题进行解析，将问题解析为动作部分和对象部分。

优选的，对问题进行编码的方法包括：

将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入；

将所述300维词嵌入送入双向LSTM中获取单词表征；

基于所述单词表征，使用注意力池化，获取问题的全局编码。

优选的，获得问题解析语义特征的方法包括：

根据问题语义解析的结构，对动作语义和对象语义的索引所对应的特征进行平均池化，得到问题动作语义特征和问题对象语义特征。

优选的，对所述问题解析语义特征进行融合，获得问题全局特征的方法包括：

将问题动作语义特征和问题对象语义特征进行拼接，使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。

优选的，获得视觉全局特征的方法包括：

获取视频的外观特征、运动特征和物体特征；

对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析，获得视觉语义特征；

基于所述外观特征、所述运动特征和所述物体特征，使用多头跨注意力模块，生成问题条件视觉特征；

基于所述视觉语义特征和所述问题条件视觉特征，获得视觉全局特征。

优选的，基于所述视觉语义特征和所述问题条件视觉特征，获得视觉全局特征的方法包括：

将问题条件物体特征重塑，对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征；

使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征；

使用拼接操作融合所述解析语义视觉特征；

基于融合的问题条件视觉特征和融合的解析语义视觉特征，使用两个注意力池化操作分别获取各自的全局特征并进行加法操作，得到视觉全局特征。

优选的，对齐解析语义的语言特征和对应的视觉特征的方法包括：

使用余弦相似性衡量不同模态的相似性；

将语义相同的跨模态特征作为正样本对，将语义不同的跨模态特征作为负样本对，使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。

优选的，将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括：

对于开放式问答：将所述问题解析语义的全局特征和所述视觉全局特征进行拼接，并送入到一个带有softmax的全连接层进行分类，最小化交叉熵损失优化模型；

对于多选问答：将每个候选答案与相应的问题拼接起来得到获选集，分别获取获选集中的文本全局特征，并共享视觉全局特征，通过哈达玛积将文本全局特征和视觉全局特征融合，采用带有softmax的全连接层进行分类，使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。

与现有技术相比，本发明具有如下优点和技术效果：

本发明提供一种语义对齐的视频问答的方法，使用问题解析的动作和对象语义指导生成对应的视觉语义特征，使用对比学习对齐解析语义跨模态特征，缩小语言视觉语义鸿沟；构建问题条件视觉特征和解析语义视觉特征并将它们与问题特征融合在一起指导答案的推理，为解码器提供丰富的特征。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的一种语义对齐的视频问答方法流程示意图；

图2为本发明实施例的一种语义对齐的视频问答***结构示意图；

图3为本发明实施例的问题语义解析示意图；

图4为本发明实施例的对齐文本和视觉动作语义特征以及对象语义特征的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本发明提供了一种语义对齐的视频问答方法，包括以下步骤：

S101：通过语义分析工具进行问题语义解析及编码，获得问题解析语义特征，对所述问题解析语义特征进行融合，获得问题全局特征；

S102：通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码，融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征；

S103：通过对齐解析语义的语言特征和对应的视觉特征，缩小跨模态鸿沟，通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征；

S104：将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。

S101的具体实施过程为：使用AllenNLP提供的语义角色标签工具对问题进行解析，将问题解析为动作部分和对象部分。使用预训练的Golve向量初始化词嵌入，使用双向LSTM编码。根据解析语义索引使用平均池化操作获取解析语义特征，将解析语义特征拼接并使用池化操作与问题池化全局特征进行加法操作获得关注解析语义的问题全局特征。

S102的具体实施过程为：对每个视频平均采样

个片段。使用预训练的ResNeXt- 101提取片段的运动特征，使用预训练的ResNet-101提取片段中间帧的外观特征，使用 Faster R-CNN获取片段中间帧的感兴趣区域物体特征。

使用两个线性层将视频的外观特征和运动特征转换到

维空间，对于帧的感兴趣区域，将其特征和其对应的边框位置信息和时间位置信息进行拼接，并使用带有ELU激活的线性层将其转换到

维空间。通过与问题全局特征的相关性聚集外观特征获得外观特征的全局特征。同样地，可以得到运动特征的全局特征。对于物体特征，将其维度重塑，并使用同样的方法得到物体全局特征。对于外观特征的动作语义和对象语义特征，使用跨注意力机制进行获取。同样地，可以得到关于运动特征的动作语义特征、对象语义特征和关于物体特征的动作语义特征、对象语义特征。然后使用层归一化和加法操作将外观特征、运动特征和物体特征融合到一起。

使用多头跨注意力模块生成问题条件视觉特征。

将问题条件物体特征重塑，然后对每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征。对于视觉语义特征的融合，使用拼接操作。最后，使用两个注意力池化操作分别获取各自的全局特征，并将两种全局特征进行加法操作，得到最终的视觉全局特征。

S103的具体实施过程为：将动作语义和对象语义拼接为整个特征对，将样本中语义一致的视觉文本特征对当作正样本对，将样本内语义不同的视觉文本特征对作为负样本对，使用对比损失的目的是在特征空间中，将同一语义的问题特征和视觉特征拉近，不同语义的不同模态特征拉远，以此缩小跨模态鸿沟。

S104的具体实施过程为：对于开放式问答，将问题全局特征和视觉全局特征进行拼接，送入到一个带有softmax的全连接层进行分类。

对于多选问答，将每个候选答案与相应的问题拼接起来得到获选集，分别获取获选集中的文本全局特征，并共享视觉全局特征，通过哈达玛积将文本全局特征和视觉全局特征融合，采用带有softmax的全连接层进行分类。

模型学习：对于开放式问答，采用最小化交叉熵损失优化模型。对于多选问答，使用铰链损失函数最大化正样本问答对和负样本问答对的间隔。最后，将对比学习损失和经验学习损失进行加权操作。

如图2所示，本发明还提供了一种语义对齐的视频问答***，主要可以分为四个部分：问题语义解析及编码模块、问题条件的视频解析及编码模块、解析语义的语言视觉特征对齐模块和答案解码器，

所述问题语义解析及编码模块用于通过语义分析工具进行问题语义解析及编码，获得问题解析语义特征，对所述问题解析语义特征进行融合，获得问题全局特征；

所述问题条件的视频解析及编码模块用于通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码，融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征；

所述问题解析语义的语言视觉特征对齐模块用于通过对齐解析语义的语言特征和对应的视觉特征，缩小跨模态鸿沟，通过优化语言和视觉的语义特征去优化问题和视觉的全局特征；

所述答案解码器用于将问题全局特征和视觉全局特征进行融合送入答案解码器推理答案。

在本实施例中，关于问题语义解析及编码部分：问题语义解析：使用AllenNLP提供的语义角色标签工具对问题进行解析，将问题解析为动作部分和对象部分，如图3所示。

问题编码。首先将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入。然后将其送入双向LSTM中获取问题单词特征

，其中

是问题的单词长度，

为512。使用注意力池化操作获取问题的全局编码

，其中

，

，

为可学习参数。同时，根据问题语义解析的结构，对动作语义和对象语义的索引所对应的特征进行平均池化，得到问题动作语义特征

和问题对象语义特征

，其中

和

为问题中动作的个数和对象的个数。具体的，将问题中动作的个数设置为2，对象的个数设置为5。如果解析出来的动作或对象个数不足则填充0，若出现超过设置个数的情况，则根据特征大小选择。

融合问题特征。将问题动作语义特征和问题对象语义特征进行拼接的问题特征

，

为问题动作语义特征，

为问题对象语义特征，并使用注意力池化操作并与问题全局特征相加得到关注问题解析语义的全局特征

，

为问题全局特征。

在本实施例中，关于问题条件的视频解析及编码部分：特征提取：对每个视频平均采样长度为

的

个片段，其中

为片段长度，

，

为片段个数，

。使用在 Kinect数据集预训练的ResNeXt-101提取片段的运动特征

，

为第

个片段的运动特征，

，使用预训练的ResNet-101提取片段中间帧的外观特征

，

为第

个片段中间帧的外观特征，

。为了获取粒度更细的视觉特征，使用 Faster R-CNN获取片段中间帧的

个感兴趣区域物体特征

，

为第

个片段中间帧第

个感兴趣区域特征，

，取

。

视频语义解析。首先，使用两个线性层将视频的外观特征和运动特征转换到

维空间，

。对于帧的感兴趣区域，将其特征和其对应的边框位置信息和时间位置信息进行拼接，并使用带有ELU激活的线性层将其转换到

维空间。其次，根据问题解析的特征生成视觉相对应的特征。具体地，对于视觉外观特征的全局特征，计算每个片段的外观特征与问题全局特征的相关性

，

为片段中间帧的外观特征，然后根据相关性聚集外观特征

。同样地，可以得到运动特征的全局特征

。对于物体特征，将其维度重塑为

，并使用同样的方法得到物体全局特征

，

为物体特征与问题全局特征的相关性。对于外观特征的动作语义和对象语义特征，使用跨注意力机制进行获取。具体地，将问题的动作语义和对象语义作为查询，外观特征作为键和值获得外观特征的动作语义特征，其公式化为

，

为问题动作语义特征，

为视频特征提取的外观特征。同样地，获得外观特征的对象语义特征

。同样地，可以得到关于运动特征的动作语义特征

、运动特征的对象语义特征

和关于物体特征的动作语义特征

、对象语义特征

。然后使用层归一化和加法操作将外观特征、运动特征和物体特征融合到一起，即

，

表示关注问题全局特征的视频特征，

。

使用多头跨注意力模块生成问题条件视觉特征。具体的，分别生成问题条件外观特征、运动特征和物体特征。对外观特征，我们首先使用多头跨注意力模块生成视频与外观特征对应的问题特征，即

，其中

，

为可学习参数，

是第

个注意力头的可学习参数，注意力头的个数

。然后使用残差连接得到问题条件外观特征

。对运动特征和重塑后的物体特征进行同样的操作可以得到问题条件运动特征

和问题条件物体特征

。

融合视觉特征。将问题条件物体特征重塑为

，然后对每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征

，

是第k个片段的问题条件物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征获得问题条件视觉特征

。对于视觉语义特征的融合，使用拼接操作获得视觉语义特征

，

，

为视频动作语义特征，

为视频对象语义特征。最后，使用两个注意力池化操作分别获取各自的全局特征，并将两种全局特征进行加法操作，得到最终的问题条件视觉特征和视觉语义特征融合的视觉全局特征

，

为视觉语义特征。

在本实施例中，关于使用对比学习对齐问题解析语义语言特征和对应的视觉特征部分：将动作语义和对象语义拼接为整个特征对，将样本中语义一致的视觉文本特征对当作正样本对，将样本内语义不同的视觉文本特征对作为负样本对，如图4所示，表示同样语义的特征对为正样本对，具体地，比如表示动作1的语言特征

和视觉特征

为正样本对，表示不同语义的特征对为负样本对，比如

为

负样本集，

分别为表示动作2，对象1，对象2，对象3的视觉特征。使用对比损失的目的是在特征空间中，将同一语义的问题特征和视觉特征拉近，不同语义的不同模态特征拉远，以此缩小跨模态鸿沟。对比损失为

，其中，

，使用余弦相似性衡量跨模态特征的相似性，

是预定义的间隔，

对应S(Q⁺, V^-)的上标表示在样本内语义配对/非配对的正/负样本。

在本实施例中，关于使用答案解码器解码答案部分：

对于开放式问答，将问题全局特征

和视觉全局特征

进行拼接，送入到一个带有softmax的全连接层进行分类，即

，其中

和

均为可学习参数，

是开放式问答答案集合的大小，

为关注问题解析语义的问题全局特征。

对于多选问答，将每个候选答案与相应的问题拼接起来得到获选集，分别获取获选集中的文本全局特征

，并共享视觉全局特征

通过哈达玛积将文本全局特征和视觉全局特征融合，采用带有softmax的全连接层进行分类，即

，其中

均为可学习参数。

模型学习。对于开放式问答，最小化交叉熵损失优化模型：

，其中

是第

个样本的预测分数，如果答案指数与第

个样本的基本真理答案相对应，

，否则为0。对于多选问答，使用铰链损失函数最大化正样本问答对和负样本问答对的间隔：

，其中

是多选问答的选择个数，

是正样本对，

是负样本对。最后，将对比学习损失和经验学习损失进行加权操作，最终的损失表示为

，其中，

为超参数，具体地，我们将其设置为1。

本发明通过语义解析工具解析问题，使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息，使用对比学习缩小跨模态语义鸿沟，并融合问题解析出的语义视觉特征和问题条件视觉特征，丰富视觉特征搜索空间，根据问题特征和视觉特征解码视频问答的答案，提高了视频问答的准确率。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语义对齐的视频问答方法，其特征在于，包括以下步骤：

将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案；

获得视觉全局特征的方法包括：

获取视频的外观特征、运动特征和物体特征；

基于所述视觉语义特征和所述问题条件视觉特征，获得视觉全局特征；

基于所述视觉语义特征和所述问题条件视觉特征，获得视觉全局特征的方法包括：

使用拼接操作融合所述解析语义视觉特征；

2.根据权利要求1所述的语义对齐的视频问答方法，其特征在于，通过语义分析工具进行问题语义解析的方法包括：

3.根据权利要求1所述的语义对齐的视频问答方法，其特征在于，对问题进行编码的方法包括：

将所述300维词嵌入送入双向LSTM中获取单词表征；

4.根据权利要求1所述的语义对齐的视频问答方法，其特征在于，获得问题解析语义特征的方法包括：

5.根据权利要求1所述的语义对齐的视频问答方法，其特征在于，对所述问题解析语义特征进行融合，获得问题全局特征的方法包括：

6.根据权利要求1所述的语义对齐的视频问答方法，其特征在于，对齐解析语义的语言特征和对应的视觉特征的方法包括：

使用余弦相似性衡量不同模态的相似性；

7.根据权利要求1所述的语义对齐的视频问答方法，其特征在于，将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括：