CN115618061B - 一种语义对齐的视频问答方法 - Google Patents
一种语义对齐的视频问答方法 Download PDFInfo
- Publication number
- CN115618061B CN115618061B CN202211502821.6A CN202211502821A CN115618061B CN 115618061 B CN115618061 B CN 115618061B CN 202211502821 A CN202211502821 A CN 202211502821A CN 115618061 B CN115618061 B CN 115618061B
- Authority
- CN
- China
- Prior art keywords
- features
- visual
- semantic
- global
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语义对齐的视频问答方法,具体步骤为:通过进行问题语义解析及编码,获得问题语义特征,对问题语义特征进行融合,获得问题的全局特征;通过语义视觉选择模块和问题条件视觉模块进行视频解析及编码,融合语义视觉特征和问题条件视觉特征获得视觉全局特征;通过对齐问题解析出的语义的跨模态特征缩小语义鸿沟;基于问题的全局特征和视觉全局特征进行解码推理答案。本发明使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息,使用对比学习缩小跨模态语义鸿沟,并融合问题解析出的语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
Description
技术领域
本发明属于计算机视觉和语言处理技术领域,尤其涉及一种语义对齐的视频问答方法。
背景技术
视频问答在人机协同和人机交互中发挥不可或缺的作用,视频问答的发展促进了交互式人工智能的发展。作为人机交互的重要部分,视频问答为实现智能家居、个人智能助手的落地以及全面智能化的生活提供了重要的技术支持。例如,使用自然语言与智能问答机器人交互,智能问答机器人通过观察动态视觉世界给予反馈,加快工作效率。同时,视频问答在视频监控和视频内容查找中也有重要的应用。
视频问答是视觉语言任务中最流行的一种,它旨在打破视觉特征和语言语义的鸿沟以实现人机交互。视频问答的研究可以三个方面:一是基于注意力机制的方法,它使用跨注意力机制将问题特征融合到视频特征中,使视频特征带有问题条件。二是基于图结构的方法,它使用图网络结构对视觉元素和语言元素之间的交互进行建模。三是基于分层结构的方法,它使用不同粒度的视觉元素进行推理。第一种方法可以优化了视觉特征,但其不能学习语言以及视觉内部的交互。第二种方法优化了语言以及视觉信息,但不能很好地缩小语言和视觉特征的歧义。第三种方法优化了视觉信息,使视觉信息更加丰富,但语言和视觉特征的歧义仍然不能很好地缩小它们之间的鸿沟。
现有的技术方案存在以下缺点:(1)基于注意力机制的方法不能有效地捕捉模态内的交互。(2)基于图结构模型的方法并没有模态间的交互,不能有效地缩小模态间的鸿沟。(3)基于分层结构模型的方法使用池化的方法构建视觉金字塔,虽然提取到丰富的视觉特征,但这些视觉特征是基于时间长短而来的复杂度,可以提供给问题更加丰富的搜索空间,但仍无法从根本上缩小语言和视觉特征之间的鸿沟。
综上,为了缩小语言和视觉之间的鸿沟,实现更准确的视频问答,本发明提出一种语义对齐的视频问答方法。
发明内容
为解决上述问题,本发明提出了一种语义对齐的视频问答方法,通过对齐问题解析出的语义的语言和视觉特征,缩小跨模态鸿沟,并融合解析语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,最后根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
为实现上述目的,本发明提供了一种语义对齐的视频问答方法,包括以下步骤:
通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
优选的,通过语义分析工具进行问题语义解析的方法包括:
使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
优选的,对问题进行编码的方法包括:
将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
优选的,获得问题解析语义特征的方法包括:
根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
优选的,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:
将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
优选的,获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征。
优选的,基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:
将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
优选的,对齐解析语义的语言特征和对应的视觉特征的方法包括:
使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
优选的,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:
对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供一种语义对齐的视频问答的方法,使用问题解析的动作和对象语义指导生成对应的视觉语义特征,使用对比学习对齐解析语义跨模态特征,缩小语言视觉语义鸿沟;构建问题条件视觉特征和解析语义视觉特征并将它们与问题特征融合在一起指导答案的推理,为解码器提供丰富的特征。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的一种语义对齐的视频问答方法流程示意图;
图2为本发明实施例的一种语义对齐的视频问答***结构示意图;
图3为本发明实施例的问题语义解析示意图;
图4为本发明实施例的对齐文本和视觉动作语义特征以及对象语义特征的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本发明提供了一种语义对齐的视频问答方法,包括以下步骤:
S101:通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
S102:通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
S103:通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
S104:将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
S101的具体实施过程为:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。使用预训练的Golve向量初始化词嵌入,使用双向LSTM编码。根据解析语义索引使用平均池化操作获取解析语义特征,将解析语义特征拼接并使用池化操作与问题池化全局特征进行加法操作获得关注解析语义的问题全局特征。
S102的具体实施过程为:对每个视频平均采样个片段。使用预训练的ResNeXt-
101提取片段的运动特征,使用预训练的ResNet-101提取片段中间帧的外观特征,使用
Faster R-CNN获取片段中间帧的感兴趣区域物体特征。
使用两个线性层将视频的外观特征和运动特征转换到维空间,对于帧的感兴趣
区域,将其特征和其对应的边框位置信息和时间位置信息进行拼接,并使用带有ELU激活的
线性层将其转换到维空间。通过与问题全局特征的相关性聚集外观特征获得外观特征
的全局特征。同样地,可以得到运动特征的全局特征。对于物体特征,将其维度重塑,并使用
同样的方法得到物体全局特征。对于外观特征的动作语义和对象语义特征,使用跨注意力
机制进行获取。同样地,可以得到关于运动特征的动作语义特征、对象语义特征和关于物体
特征的动作语义特征、对象语义特征。然后使用层归一化和加法操作将外观特征、运动特征
和物体特征融合到一起。
使用多头跨注意力模块生成问题条件视觉特征。
将问题条件物体特征重塑,然后对每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征。对于视觉语义特征的融合,使用拼接操作。最后,使用两个注意力池化操作分别获取各自的全局特征,并将两种全局特征进行加法操作,得到最终的视觉全局特征。
S103的具体实施过程为:将动作语义和对象语义拼接为整个特征对,将样本中语义一致的视觉文本特征对当作正样本对,将样本内语义不同的视觉文本特征对作为负样本对,使用对比损失的目的是在特征空间中,将同一语义的问题特征和视觉特征拉近,不同语义的不同模态特征拉远,以此缩小跨模态鸿沟。
S104的具体实施过程为:对于开放式问答,将问题全局特征和视觉全局特征进行拼接,送入到一个带有softmax的全连接层进行分类。
对于多选问答,将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类。
模型学习:对于开放式问答,采用最小化交叉熵损失优化模型。对于多选问答,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔。最后,将对比学习损失和经验学习损失进行加权操作。
如图2所示,本发明还提供了一种语义对齐的视频问答***,主要可以分为四个部分:问题语义解析及编码模块、问题条件的视频解析及编码模块、解析语义的语言视觉特征对齐模块和答案解码器,
所述问题语义解析及编码模块用于通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
所述问题条件的视频解析及编码模块用于通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
所述问题解析语义的语言视觉特征对齐模块用于通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征去优化问题和视觉的全局特征;
所述答案解码器用于将问题全局特征和视觉全局特征进行融合送入答案解码器推理答案。
在本实施例中,关于问题语义解析及编码部分:问题语义解析:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分,如图3所示。
问题编码。首先将问题的所有单词表示为用预训练的Golve向量初始化的300维词
嵌入。然后将其送入双向LSTM中获取问题单词特征 ,其中是问题的单词长度,为512。使用注意力池化操作获取问题的全局编码,其中,,为可学习参数。同时,根据问题语义解析的结构,对动作语
义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和
问题对象语义特征,其中和为问题中动作的个数和对象的个数。具体
的,将问题中动作的个数设置为2,对象的个数设置为5。如果解析出来的动作或对象个数不
足则填充0,若出现超过设置个数的情况,则根据特征大小选择。
融合问题特征。将问题动作语义特征和问题对象语义特征进行拼接的问题特征,为问题动作语义特征,为问题对象语义特征,并使
用注意力池化操作并与问题全局特征相加得到关注问题解析语义的全局特征,为问题全局特征。
在本实施例中,关于问题条件的视频解析及编码部分:特征提取:对每个视频平均
采样长度为的个片段,其中为片段长度,,为片段个数,。使用在
Kinect数据集预训练的ResNeXt-101提取片段的运动特征,为第个片段
的运动特征,,使用预训练的ResNet-101提取片段中间帧的外观特征
,为第个片段中间帧的外观特征,。为了获取粒度更细的视觉特征,使用
Faster R-CNN获取片段中间帧的个感兴趣区域物体特征,为第个片
段中间帧第个感兴趣区域特征,,取。
视频语义解析。首先,使用两个线性层将视频的外观特征和运动特征转换到维
空间,。对于帧的感兴趣区域,将其特征和其对应的边框位置信息和时间位置信息进
行拼接,并使用带有ELU激活的线性层将其转换到维空间。其次,根据问题解析的特征生
成视觉相对应的特征。具体地,对于视觉外观特征的全局特征,计算每个片段的外观特征与
问题全局特征的相关性,为片段中间帧的外观特征,然后根据相关
性聚集外观特征。同样地,可以得到运动特征的全局特征。对于物体特征,将
其维度重塑为,并使用同样的方法得到物体全局特征,为物体特征与问题全局特征的相关性。对于外观特征
的动作语义和对象语义特征,使用跨注意力机制进行获取。具体地,将问题的动作语义和对
象语义作为查询,外观特征作为键和值获得外观特征的动作语义特征,其公式化为,为问题动作语义特征,为视频特征提取
的外观特征。同样地,获得外观特征的对象语义特征。同样地,可以得到关于运动特征的动作语义特
征、运动特征的对象语义特征和关于物体特征的动作语义特征、对象语义特征。然后使用层归一化和加法操作将外观特征、运动特征和物体特征融合到一起,即,表示关注问题全局特征的视频特征,。
使用多头跨注意力模块生成问题条件视觉特征。具体的,分别生成问题条件外观
特征、运动特征和物体特征。对外观特征,我们首先使用多头跨注意力模块生成视频与外观
特征对应的问题特征,即,其中,为可学习参数,
是第个注意力头的可学习参数,注意力头的个数。然后使用残差连接得到问题条件
外观特征。对运动特征和重塑后的物体特征进行同样的操作可以得到问
题条件运动特征和问题条件物体特征。
融合视觉特征。将问题条件物体特征重塑为,然后对每一帧的物体特
征使用注意力池化操作得到剪辑级别的物体特征,是第k个片段的
问题条件物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征获
得问题条件视觉特征。对于视觉语义特征的融合,使用拼接操作获得视觉语
义特征,,为视频动作语义特征,为视频对象
语义特征。最后,使用两个注意力池化操作分别获取各自的全局特征,并将两种全局特征进
行加法操作,得到最终的问题条件视觉特征和视觉语义特征融合的视觉全局特征,为视觉语义特征。
在本实施例中,关于使用对比学习对齐问题解析语义语言特征和对应的视觉特征
部分:将动作语义和对象语义拼接为整个特征对,将样本中语义一致的视觉文本特征对当
作正样本对,将样本内语义不同的视觉文本特征对作为负样本对,如图4所示,表示同样语
义的特征对为正样本对,具体地,比如表示动作1的语言特征和视觉特征为正样本
对,表示不同语义的特征对为负样本对,比如为负样本集,分别为表示动作2,对象1,对象2,对象3的视觉特征。使用对比损失的
目的是在特征空间中,将同一语义的问题特征和视觉特征拉近,不同语义的不同模态特征
拉远,以此缩小跨模态鸿沟。对比损失为 ,其中,,使用余弦相
似性衡量跨模态特征的相似性,是预定义的间隔,对应S(Q+, V-)的上标表示在样
本内语义配对/非配对的正/负样本。
在本实施例中,关于使用答案解码器解码答案部分:
对于多选问答,将每个候选答案与相应的问题拼接起来得到获选集,分别获取获
选集中的文本全局特征,并共享视觉全局特征通过哈达玛积将文本全局特征和视觉
全局特征融合,采用带有softmax的全连接层进行分类,即,其中均为可学习参数。
模型学习。对于开放式问答,最小化交叉熵损失优化模型:,其
中是第个样本的预测分数,如果答案指数与第个样本的基本真理答案相对应,,否则为0。对于多选问答,使用铰链损失函数最大化正样本问答对和负样本问答对
的间隔:,其中是多选问答的选择个数,是正样
本对,是负样本对。最后,将对比学习损失和经验学习损失进行加权操作,最终的损失表
示为,其中,为超参数,具体地,我们将其设置为1。
本发明通过语义解析工具解析问题,使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息,使用对比学习缩小跨模态语义鸿沟,并融合问题解析出的语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种语义对齐的视频问答方法,其特征在于,包括以下步骤:
通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案;
获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:
将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
2.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,通过语义分析工具进行问题语义解析的方法包括:
使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
3.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对问题进行编码的方法包括:
将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
4.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,获得问题解析语义特征的方法包括:
根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
5.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:
将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
6.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对齐解析语义的语言特征和对应的视觉特征的方法包括:
使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
7.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:
对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211502821.6A CN115618061B (zh) | 2022-11-29 | 2022-11-29 | 一种语义对齐的视频问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211502821.6A CN115618061B (zh) | 2022-11-29 | 2022-11-29 | 一种语义对齐的视频问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618061A CN115618061A (zh) | 2023-01-17 |
CN115618061B true CN115618061B (zh) | 2023-03-10 |
Family
ID=84880634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211502821.6A Active CN115618061B (zh) | 2022-11-29 | 2022-11-29 | 一种语义对齐的视频问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618061B (zh) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
CN106682194B (zh) * | 2016-12-29 | 2020-05-22 | 北京百度网讯科技有限公司 | 基于深度问答的答案定位方法及装置 |
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
CN111782838B (zh) * | 2020-06-30 | 2024-04-05 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111949824B (zh) * | 2020-07-08 | 2023-11-03 | 合肥工业大学 | 基于语义对齐的视觉问答方法和***、存储介质 |
CN112527993B (zh) * | 2020-12-17 | 2022-08-05 | 浙江财经大学东方学院 | 一种跨媒体层次化深度视频问答推理框架 |
US11650073B2 (en) * | 2021-05-10 | 2023-05-16 | André SKUPIN | Knowledge space analytics |
CN114663677A (zh) * | 2022-04-08 | 2022-06-24 | 杭州电子科技大学 | 一种基于跨模态预训练特征增强的视觉问答方法 |
CN114969298A (zh) * | 2022-06-15 | 2022-08-30 | 茅台学院 | 一种基于跨模态异质图神经网络的视频问答方法 |
CN115017358B (zh) * | 2022-08-09 | 2022-11-04 | 南京理工大学 | 一种多模态交互的跨模态检索方法及*** |
-
2022
- 2022-11-29 CN CN202211502821.6A patent/CN115618061B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115618061A (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390103A (zh) | 基于双编码器的短文本自动摘要方法及*** | |
CN113515951B (zh) | 基于知识增强注意力网络和组级语义的故事描述生成方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN110888980B (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN112256847B (zh) | 融合事实文本的知识库问答方法 | |
CN114419387A (zh) | 基于预训练模型和召回排序的跨模态检索***及方法 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN114677631B (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
CN115358289A (zh) | 一种融合多类型知识库和推理技术的文本生成算法 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN116226347A (zh) | 一种基于多模态数据的细粒度视频情绪内容问答方法和*** | |
CN116303977A (zh) | 一种基于特征分类的问答方法及*** | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及*** | |
CN116821696B (zh) | 表格问答模型的训练方法、装置、设备及存储介质 | |
CN113918702A (zh) | 一种基于语义匹配的在线法律自动问答方法及*** | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及*** | |
CN116385946B (zh) | 面向视频的目标片段定位方法、***、存储介质及设备 | |
CN117292146A (zh) | 一种面向工业场景的构建多模态大语言模型的方法、***和应用方法 | |
CN115618061B (zh) | 一种语义对齐的视频问答方法 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN114239575A (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN116738359B (zh) | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |