CN115712709A - 基于多关系图模型的多模态对话问答生成方法 - Google Patents

基于多关系图模型的多模态对话问答生成方法 Download PDF

Info

Publication number
CN115712709A
CN115712709A CN202211451009.5A CN202211451009A CN115712709A CN 115712709 A CN115712709 A CN 115712709A CN 202211451009 A CN202211451009 A CN 202211451009A CN 115712709 A CN115712709 A CN 115712709A
Authority
CN
China
Prior art keywords
video
graph
text
model
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211451009.5A
Other languages
English (en)
Inventor
吕姚嘉
朱文轩
刘铭
徐洁馨
李秋霞
秦兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
China Merchants Bank Co Ltd
Original Assignee
Harbin Institute of Technology
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, China Merchants Bank Co Ltd filed Critical Harbin Institute of Technology
Priority to CN202211451009.5A priority Critical patent/CN115712709A/zh
Publication of CN115712709A publication Critical patent/CN115712709A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

基于多关系图模型的多模态对话问答生成方法,涉及一种多模态对话问答生成方法。本发明为了解决现有的多模态对话***仅考虑场景序列化信息而导致现有模型效果一般的问题。本发明首先将视频序列化切分为多个视频片段,对于每个片段获取该片段的色彩特征、光流特征和音频特征,并拼接起来,再加入位置信息和模态信息得到各个视频片段的序列表示;将每个视频片段视作顶点,构建基于全联通关系的视频图并输入图卷积神经网络,得到视频隐藏层序列以及与原视频序列的融合表示;然后利用相似的方式处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文本序列的融合表示;最后利用神经网络模型生成回答。

Description

基于多关系图模型的多模态对话问答生成方法
技术领域
本发明属于对话问答技术领域,具体涉及一种多模态对话问答生成方法。
背景技术
当前对话问答***领域内研究主要分为文本和多模态两大分支。文本对话问答任务主要具有两大难点:回答生成需要对话上下文推理和欠缺大规模对话数据集。由于预训练语言模型(Language Models,LMs)已经从其它文本数据中习得丰富的语义信息,可以进行一定程度的推理,并且有效弥补对话数据量不足的问题,使***在低资源背景下仍能取得较好的结果。因此,将预训练语言模型引入对话问答任务可以加深***对文本的理解,基于历史对话轮次的推理处理当前用户提问,提高生成回答的质量。ISCA2020中,Whang等人在开放域对话中应用预训练语言模型来选择候选回答,其中预训练语言模型的输出(如BERT中的[CLS]标志)被用作每个对话上下文和候选答案对的上下文表示。WNGT2019中,Budzianowski等人假设可以获得真实对话状态,将输入合并为单个序列以生成任务导向型对话的响应。由于对话状态和数据库状态可以视作原始文本输入,可以使用预训练语言模型对***进行微调。ICASSP2020中,Lai等人引入GPT-2模型,利用模型的输出表示预测插槽值,进而跟踪对话状态。
ACL2020中,层次指针网络也在文本对话***中得到了广泛应用。ICLR2019中,Wu等人合并了全局编码器和本地解码器,实现了在任务导向型对话设置中共享外部知识。NAACL2019中,Reddy等人面向任务导向型对话设计了一个多级存储的框架。ACL2019中,Tian等人探索了如何在训练过程中提取有价值的信息,并以此搭建了一个记忆启动架构。此外,多任务学习也被证明可以优化自然语言回答的表现。ACL2019中Chen等人的工作中,工作记忆被引入该任务,通过与两个长期记忆充分交互,它可以捕获对话历史和知识库的元组以生成高质量回答。EMNLP2019中,Lin等人鉴于异构记忆网络具有同时利用话上下文、用户提问和知识库信息的能力,也将其应用于该领域的研究。
多模态对话问答为实现功能强大的对话***开创了新的格局。当前研究主要聚焦于如何利用静态图像和文本之间多粒度互补信息弥合语言和视觉的差距,例如CVPR2017中,Das等人提出的视觉对话(Visual Dialog)任务提供了图片及与之相关的多轮对话,要求模型可以根据给定的图像和对话历史,用自然语言正确回答提问者相关的问题。尽管该任务在推进多模态对话问答***的发展进程上具有重大意义,但根据静态图像的对话存在一定固有的限制,它很大程度上限制了问答***对时空变化的动态感知能力,使之无法合理应对许多需要理解特定场景上下文以作出合理推断的应用。因此,为提升问答***对时空智能性,引入一个新任务——视听场景感知对话(Audio-Visual Scene-Aware Dialog,AVSD),它可以看作视觉对话的一般形式,即基于连续图片帧和音频信息的视觉对话,相较于视觉对话有更广泛的应用前景。然而,现有方案主要使用独立编码器对不同模态分别进行编码,然后利用注意力机制融合其表示并生成响应语句。这种后期融合的方案只考虑了场景和对话的序列化特征,且忽视了不同模态间多粒度语义互补关系,导致现有模型的效果并不尽如人意。因此,探索对话场景的语义信息表示和模态融合方式对实现更高性能的多模态对话问答***具有重要意义。
与此同时,多模态对话领域相关研究的重心正在向如何充分融合多源异构信息偏移,包括图像、音频、视频和文本等。相较于文本对话问答,多模态对话问答任务额外引入了对话相关的音视频特征,因而需要解决不同模态间的细粒度交互问题。
注意力机制是该领域的主流研究方法,它可以缩小视觉和语言模态表示间的差距。CVPR2018中,Wu等人设计的CoAtt模型包含一个序列化的共同注意力机制的编码器,使得每个输入特征由其它两个特征以序列化的方式共同提供。ACL2019中Gan等人提出的ReDAN模型和AAAI2020中Chen等人提出的DMRM模型通过基于双注意力机制的多步推理来回答图像相关的一系列问题。ECCV2020中,Nguyen等人设计的LTMI模型利用多头注意力机制关注模态的交互关系。
基于注意力机制实现的Transformer架构的预训练语言模型体系结构也在学习视觉-文本自然语言处理任务的跨模态表示上表现良好。在图像描述任务中,AAAI2020中Li等人构造基于BERT的架构改善文本和视觉表示,NIPS2019中,Lu等人使用相似的方法应对视觉问答任务,和前者区别在于在处理多模态输入时,将视觉和文本表示分开而非合并为整个序列。IJCNLP2019中,Alberti等人关注到前期融合或后期融合的方法对于丰富跨模态表示的重要作用。ICCV2019中,Sun等人提出VideoBERT模型,它利用BERT模型生成视频描述,并舍弃了用视觉特征代表视频帧的方法,转而将框架级的特征转化为视觉标记作为模型的原始输入。
近期研究还探索了图片或对话历史的更高级语义表示,尤其是基于图结构对图片或对话历史的建模方式。AAAI2020中,Jiang等人提出的DualVD模型从视觉和语义两个角度详细描述图片的特征,具体而言,视觉图模型帮助提取包括实体和关系在内的表面信息,语义图模型推进对话问答***从全局到局部视觉语义理解的转变。CVPR2020中,Guo等人设计的CAG模型以实体相关的视觉表示和历史相关的上下文表示建立图结点,以自适应的Top-K信息传递机制更新相应的边权,建立视觉-语义相关的动态图用于后续推理。ACL2021中,Chen等人提出的GoG模型考虑到不同关系之间同样具有交互,因此建模了基于对话历史的当前提问依存关系图和基于当前提问的物体(区域)关系图。
发明内容
本发明的目的是为了解决现有的多模态对话***仅考虑场景序列化信息而导致现有模型效果一般的问题,进而提出一种基于多关系图模型的多模态对话问答生成方法。
一种基于多关系图模型的多模态对话问答生成方法,包括以下步骤:
S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,获取该片段的色彩特征
Figure BDA0003949948550000031
和光流特征
Figure BDA0003949948550000032
以及音频特征
Figure BDA0003949948550000033
将色彩特征
Figure BDA0003949948550000034
光流特征
Figure BDA0003949948550000035
和音频特征
Figure BDA0003949948550000036
拼接起来得到
Figure BDA0003949948550000037
再加入位置信息
Figure BDA0003949948550000038
和模态信息
Figure BDA0003949948550000039
得到各个视频片段的序列表示Vt;表达式为:
Figure BDA00039499485500000310
Figure BDA00039499485500000311
其中,位置信息
Figure BDA00039499485500000312
中使用数字指代每个视频片段出现的次序,模态信息
Figure BDA00039499485500000313
中使用标识符[video]统一标识视频特征,在实际计算时将其转换成固定维度的向量;
S2、针对视听场景表示V=(V1,V2,...,Vm),V1,V2,...,Vm即为各个视频片段的序列表示,将每个视频片段视作顶点,构建基于全联通关系的视频图
Figure BDA00039499485500000314
其中
Figure BDA00039499485500000315
εV是有向依赖边的集合,对于每条有向依赖边(Vi,Vj,lij),lij表示从Vi到Vj的依赖关系,且设置为1;
将视频图输入图卷积神经网络,输出视频隐藏层序列GV
S3、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表示
Figure BDA00039499485500000316
并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入;
S4、基于视听场景标题C和对话历史H得到对应的词向量表示Cfeature和Hfeature;将标题词向量Cfeature和对话历史词向量Hfeature拼接起来,再加入位置信息Tpos和模态信息Tmod得到文本序列表示T;表达式为:
Tfeature=[Cfeature,Hfeature],
T=Tfeature+Tmod+Tpos,
其中,位置信息Tpos中使用数字指代标题和每个问答对中单词出现的次序,Tpos中使用标识符[cap]统一标识视听场景标题,标识符[usr1]标识提问者,标识符[usr2]标识回答者,在实际计算时分别将其转换成固定维度的向量;
S5、将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构
Figure BDA0003949948550000041
和/或基于完整对话共指关系的图结构
Figure BDA0003949948550000042
然后将句子级依存关系的图结构
Figure BDA0003949948550000043
和/或基于完整对话共指关系的图结构
Figure BDA0003949948550000044
分别输入图卷积神经网络,得到各自对应的文本隐藏层序列;
S6、将句子级依存关系的图结构
Figure BDA0003949948550000045
和/或基于完整对话共指关系的图结构
Figure BDA0003949948550000046
对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示
Figure BDA0003949948550000047
并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入;
S7、将
Figure BDA0003949948550000048
Figure BDA0003949948550000049
拼接获得增强多模态输入,并将增强多模态输入基于GPT-2架构的多层Transformer模型生成回答。
进一步地,S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系的图结构
Figure BDA00039499485500000410
并得到对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用StanfordCoreNLP文本解析工具分析该句子的句法依存关系,将每个词向量视作顶点,并依据句法依存关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列GD
或者,
S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于完整对话共指关系的图结构
Figure BDA00039499485500000411
并得到各自对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用StanfordCoreNLP文本解析工具分析该句子的共指关系,将每个词向量视作顶点,并依据句子的共指关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列GC
或者,
S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构
Figure BDA00039499485500000412
和基于完整对话共指关系的图结构
Figure BDA00039499485500000413
并得到各自对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用StanfordCoreNLP文本解析工具分别分析该句子的句法依存关系和该句子的共指关系,将每个词向量视作顶点,分别构建基于句子级依存关系的图结构
Figure BDA00039499485500000414
和基于完整对话共指关系的图结构
Figure BDA00039499485500000415
然后将两个图结构分别输入图卷积神经网络,输出文本隐藏层序列GD和GC
进一步地,S5中所述图卷积神经网络的每层图卷积神经网络计算的表达式为:
Figure BDA0003949948550000051
其中,f(Hv (l+1),Av)表示每层图卷积,针对
Figure BDA0003949948550000052
Figure BDA0003949948550000053
Ad分别表示各自对应的邻接矩阵,
Figure BDA0003949948550000054
为对应的度矩阵,加入单位矩阵Id得到
Figure BDA0003949948550000055
相应地,得到对应的度矩阵
Figure BDA0003949948550000056
以便于归一化操作,l为图卷积神经网络层数,
Figure BDA0003949948550000057
为第l层图卷积神经网络的隐藏状态,
Figure BDA0003949948550000058
进一步地,S2中所述图卷积神经网络的每层图卷积神经网络计算的表达式为:
Figure BDA0003949948550000059
其中,f(Hv (l+1),Av)表示每层图卷积;Av
Figure BDA00039499485500000510
的邻接矩阵,i,j分别表示
Figure BDA00039499485500000511
的第i,j个结点,
Figure BDA00039499485500000512
是Av第i行第j列的值;
Figure BDA00039499485500000513
Figure BDA00039499485500000514
的度矩阵,
Figure BDA00039499485500000515
是Dv第i行第i列的值;为使模型可以考虑结点自身表示,加入单位矩阵Iv得到
Figure BDA00039499485500000516
相应地,得到对应的度矩阵
Figure BDA00039499485500000517
以便于归一化操作;l为图卷积神经网络层数,
Figure BDA00039499485500000518
为第l层图卷积神经网络的隐藏状态,
Figure BDA00039499485500000519
V为原视频序列表示,
Figure BDA00039499485500000520
为可训练权重。
进一步地,在基于GPT-2架构的多层Transformer模型进行处理时,还要将S3中的
Figure BDA00039499485500000521
输入到线性全连接层中,并将输出结果投影到与S6中
Figure BDA00039499485500000522
相同的向量空间,将两者拼接以获得完整的多模态输入表示,然后将其输入到预训练语言模型GPT-2中。
优选地,S7中的基于GPT-2架构的多层Transformer模型为由12层具有带掩码的多头注意力机制的Transformer解码器模块堆叠而成。
进一步地,所述的基于GPT-2架构的多层Transformer模型在训练过程中使用负对数似然损失函数进行训练,训练过程包括以下步骤:
基于音视频特征V、标题C、对话历史H<n和当前问题Qn生成回答
Figure BDA00039499485500000523
通过最小化负对数似然损失函数,使得输出的下一个词为源序列对应词的可能性最大化:
Figure BDA00039499485500000524
其中,
Figure BDA00039499485500000525
表示回答Rn的前j-1个单词,θ指可训练模型参数,(V,C,H,Q)集合从整个训练集D中采样,E(V,C,H,Q,R)~D表示期望。
或者,
所述的基于GPT-2架构的多层Transformer模型在训练过程中基于音视频、标题和对话历史特征的回答预测任务RPT、音视频的标题预测任务CPT和音视频-文本匹配任务VTMT进行联合训练,训练过程包括以下步骤:
RPT部分旨在基于音视频特征V、标题C、对话历史H<n和当前问题Qn生成回答
Figure BDA0003949948550000061
通过最小化负对数似然损失函数,使得模型输出的下一个词为源序列对应词的可能性最大化:
Figure BDA0003949948550000062
其中,
Figure BDA0003949948550000063
表示回答Rn的前j-1个单词,θ指可训练模型参数,(V,C,H,Q)集合从整个训练集D中采样,E(V,C,H,Q,R)~D表示期望;
CPT部分和RPT部分相似,对于给定的音视频特征V,通过最小化负对数似然损失函数的方式生成标题C={c1,c2,...,cL},损失函数如下所示:
Figure BDA0003949948550000064
其中,c<i代表标题C的前i-1个词;
VTMT部分旨在判断给定的音视频特征V和给定的文本特征是否匹配,给定的文本特征包括标题C、对话历史H<n、当前问题Qn和生成回答Rn;选取一定比例的训练数据,随机使用不正确的音视频特征替换对应的原始输入,并将GPT2模块隐藏状态的最终输出通过线性全连接层得到匹配与否的概率,然后使用二值交叉熵计算损失函数:
Figure BDA0003949948550000065
其中,X=(V,C,H,Q,R),Y是表征音视频特征和文本特征是否匹配的标签。
有益效果:
本发明一种基于多关系图模型的多模态对话问答生成方法,根据不同模态的特点构建多关系图模型以丰富多模态特征表示。通过建模连续视频片段中实体的对应关系,以及连续对话中隐含的句法、语义关系,进一步加深***对场景与对话的理解,改进了现有方法只考虑时序、语序编码的不足,进一步提高生成回答的质量。
本发明旨在改进当前预训练模型架构仅利用了视频或文本的序列化信息来获取每个视频片段或单词所对应的嵌入表示,导致多模态对话问答***生成回答不理想的情况。额外加入图卷积神经网络,使模型具备了有效编码多关系图结构信息的能力。具体而言,该模型引入图卷积神经网络,通过计算当前结点的邻接点集的数据分布,赋予当前节点相应的权值,在堆叠多层图卷积神经网络后,模型具备了推理距当前节点多个跳跃的结点的能力,从而可以捕获当前结点和远距离结点之间的交互信息,进而在一个框架内同时表示所有单词之间的句法或语义关系。
该发明可以有效提升了***生成响应的各项指标,包括BLEU、METEOR、ROUGE-L、CIDEr等。在视听场景感知对话相关数据集上,本发明将***生成回答和人工标注的回答进行多指标对比,实验结果表明,该方法生成回答符合人类表述的基本***均提升了1%,这充分说明了其有效性与优越性。
附图说明
图1为本发明流程图;
图2为本发明整体模型架构;
图3为预训练语言模型的基础单元框图;
图4为基于依存关系的图模型构建示例;
图5为基于共指关系的图模型构建示例。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
本实施方式为一种基于多关系图模型的多模态对话问答生成方法,包括以下步骤:
步骤一、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,使用I3D模型获取该片段的色彩特征
Figure BDA0003949948550000071
和光流特征
Figure BDA0003949948550000072
使用VGGish模型获取该片段的音频特征
Figure BDA0003949948550000073
将色彩特征
Figure BDA0003949948550000074
光流特征
Figure BDA0003949948550000075
和音频特征
Figure BDA0003949948550000076
拼接起来得到
Figure BDA0003949948550000077
加入位置信息
Figure BDA0003949948550000078
和模态信息
Figure BDA0003949948550000079
得到各个视频片段的序列表示Vt;表达式为:
Figure BDA00039499485500000710
Figure BDA00039499485500000711
其中,位置信息
Figure BDA00039499485500000712
中使用数字指代每个视频片段出现的次序,模态信息
Figure BDA00039499485500000713
中使用标识符[video]统一标识视频特征,在实际计算时将其转换成固定维度的向量,在图2中
Figure BDA0003949948550000081
表示为V1,V2,V3,V4,V5,其对应的
Figure BDA0003949948550000082
均标记为[video]。
步骤二、给定视听场景表示V=(V1,V2,...,Vm),V1,V2,...,Vm即为各个视频片段的序列表示,将每个视频片段视作顶点,构建基于全联通关系的视频图
Figure BDA0003949948550000083
其中
Figure BDA0003949948550000084
εV是有向依赖边的集合,对于每条有向依赖边(Vi,Vj,lij),lij表示从Vi到Vj的依赖关系,且设置为1;
将视频图输入图卷积神经网络,输出视频隐藏层序列GV;每层图卷积神经网络计算的表达式为:
Figure BDA0003949948550000085
其中,f(Hv (l+1),Av)表示每层图卷积;Av
Figure BDA0003949948550000086
的邻接矩阵,i,j分别表示
Figure BDA0003949948550000087
的第i,j个结点,
Figure BDA0003949948550000088
是Av第i行第j列的值;
Figure BDA0003949948550000089
Figure BDA00039499485500000810
的度矩阵,
Figure BDA00039499485500000811
是Dv第i行第i列的值;为使模型可以考虑结点自身表示,加入单位矩阵Iv得到
Figure BDA00039499485500000812
相应地,得到对应的度矩阵
Figure BDA00039499485500000813
以便于归一化操作;l为图卷积神经网络层数,
Figure BDA00039499485500000814
为第l层图卷积神经网络的隐藏状态,
Figure BDA00039499485500000815
V为原视频序列表示,
Figure BDA00039499485500000816
为可训练权重。
步骤三、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表示
Figure BDA00039499485500000817
并作为后续GPT2模型的部分输入;表达式为:
Figure BDA00039499485500000818
其中,WM,WV为训练权重。
步骤四、使用GPT2 Tokenizer得到基于Word Pieces的视听场景标题C和对话历史H的词向量表示Cfeature和Hfeature。将标题词向量Cfeature和对话历史词向量Hfeature拼接起来,加入位置信息Tpos和模态信息Tmod得到文本序列表示T;表达式为:
Tfeature=[Cfeature,Hfeature],
T=Tfeature+Tmod+Tpos,
其中,位置信息Tpos中使用数字指代标题和每个问答对中单词出现的次序,Tpos中使用标识符[cap]统一标识视听场景标题,标识符[usr1]标识提问者,标识符[usr2]标识回答者,在实际计算时分别将其转换成固定维度的向量,图2给出了一个具体示例。Feature层使用GPT2 Tokenizer将文本“[cap]a woman…[eos][usr1]is the woman…[eos]”编码为Tfeature,根据每句话的来源不同,将文本“[cap]a woman…[eos]”对应的Tmod标记为[cap],将文本“[usr1]is the woman…”对应的Tmod标记为[usr1],将文本“[usr2]yes she is…”和“[usr2]nothing much…[eos]”对应的Tmod标记为[usr2]。
步骤五、将每个词向量视作顶点,依据Stanford CoreNLP文本解析工具构建基于句子级依存关系的文本图
Figure BDA0003949948550000091
图4给出了一个具体示例。对于当前文本“does the womaneat or drink anything”,首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的句法依存关系(图中词向量之间的连线),将每个词向量视作顶点,即可依据该依存关系建模图结构,将该图输入图卷积神经网络,输出文本隐藏层序列GD;表达式为:
Figure BDA0003949948550000092
其中Ad
Figure BDA0003949948550000093
的邻接矩阵,
Figure BDA0003949948550000094
Figure BDA0003949948550000095
的度矩阵,为使模型可以考虑结点自身表示,加入单位矩阵Id得到
Figure BDA0003949948550000096
相应地,得到对应的度矩阵
Figure BDA0003949948550000097
以便于归一化操作,l为图卷积神经网络层数,
Figure BDA0003949948550000098
为第l层图卷积神经网络的隐藏状态,
Figure BDA0003949948550000099
步骤六、将文本隐藏层序列GD和原文本序列表示T输入线性层得到文本的融合表示
Figure BDA00039499485500000910
并作为后续GPT2模型的部分输入;表达式为:
Figure BDA00039499485500000911
其中,WN,WD为可训练权重。
步骤七、构建多模态对话问答的GPT2模型(详见图2和图3)。图2给出了模型整体架构,这是一个基于GPT-2架构的多层Transformer模型。该模型是由12层具有带掩码的多头注意力机制的Transformer解码器模块堆叠而成。为了使模型同时具备融合多模态特征和生成合理回答的能力,对基于生成任务的GPT-2模型做出了一定改动,使之更符合多模态对话问答任务的需要。具体而言,该模型将步骤三的结果
Figure BDA00039499485500000912
输入到线性全连接层中,并将输出结果投影到与步骤六的结果
Figure BDA00039499485500000913
相同的向量空间,将两者拼接以获得完整的多模态输入表示,然后将其输入到预训练语言模型GPT-2中。
图3展示了GPT-2模型中每个Transformer解码器模块的具体架构。该模块主要由带掩码的多头注意力机制和前馈神经网络构成。其中,掩码多头注意力机制Masked Self-Attention可以检测各模态输入自身和彼此间的细粒度的长期依赖关系,包括视频对象的时空关系、对话历史间的共指关系、视频局部特征和文本词汇的指代关系等,以生成基于视听觉特征并且符合用户提问的合理回答。
步骤八、将
Figure BDA0003949948550000101
Figure BDA0003949948550000102
拼接获得增强多模态输入表示作为步骤七构建的多模态对话问答的GPT2模型的完整输入,基于该模型设计损失函数进行联合训练,得到训练好的模型,进而针对给定视听场景和用户提问生成合理回答。
训练时使用负对数似然损失函数,使模型具备基于音视频、标题和对话历史特征的预测回答的能力。形式化而言,模型基于音视频特征V、标题C、对话历史H<n和当前问题Qn生成回答
Figure BDA0003949948550000103
通过最小化负对数似然损失函数,使得输出的下一个词为源序列对应词的可能性最大化:
Figure BDA0003949948550000104
其中,
Figure BDA0003949948550000105
表示回答Rn的前j-1个单词,θ指可训练模型参数,(V,C,H,Q)集合从整个训练集D中采样,E(V,C,H,Q,R)~D表示期望。
具体实施方式二:
本实施方式为一种基于多关系图模型的多模态对话问答生成方法,本实施方式与具体实施方式一不同的是:
所述步骤五中将步骤四得到的文本序列表示T中的每个词向量视作顶点,依据Stanford CoreNLP文本解析工具构建基于完整对话共指关系的文本图
Figure BDA0003949948550000106
图5给出了一个具体示例。对于当前文本“a woman…a fridge…the woman…she…it”,首先使用GPT2Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的共指关系,即上下文中“a woman”、“the woman”、“she”之间存在共指关系,“afridge”、“it”之间存在共指关系,将每个词向量视作顶点,即可依据该共指关系建模图结构,即在“a woman”、“the woman”、“she”之间建立边,同时在“a fridge”、“it”之间建立边,将该图输入图卷积神经网络,输出文本隐藏层序列GC,具体计算公式与具体实施方式一步骤五中表达式相同;
步骤六将步骤四和步骤五得到的文本隐藏层序列GC和原文本序列表示T输入线性层得到文本的融合表示
Figure BDA0003949948550000107
并作为后续GPT2模型的部分输入;表达式为:
Figure BDA0003949948550000108
其中,
Figure BDA0003949948550000111
为可训练权重。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:
本实施方式为一种基于多关系图模型的多模态对话问答生成方法,本实施方式与具体实施方式一或二不同的是:
所述步骤五中将步骤四得到的文本序列表示T中的每个词向量视作顶点,依据Stanford CoreNLP文本解析工具构建基于句子级依存关系的文本图
Figure BDA0003949948550000112
和基于完整对话共指关系的文本图
Figure BDA0003949948550000113
将两图分别输入图卷积神经网络,输出文本隐藏层序列GD和GC,具体计算公式与具体实施方式一步骤五中表达式相同。
步骤六将步骤四和步骤五得到的文本隐藏层序列GD以及GC和原文本序列表示T输入线性层得到文本的融合表示
Figure BDA0003949948550000114
并作为后续GPT2模型的部分输入;表达式为:
Figure BDA0003949948550000115
其中,
Figure BDA0003949948550000116
Figure BDA0003949948550000117
为可训练权重。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:
本实施方式为一种基于多关系图模型的多模态对话问答生成方法,本实施方式与具体实施方式一至三之一不同的是:
所述步骤八中为促进不同模态信息的融合,模型训练时引入三个任务进行微调,包括基于音视频、标题和对话历史特征的回答预测任务(Response Prediction Task,RPT)、基于音视频的标题预测任务(Caption Prediction Task,CPT)和音视频-文本匹配任务(Video-Text Matching Task,VTMT)。前三个具体实施方式只使用了一个损失函数,是单任务学习的方式。具体实施方式四设计了三个损失函数,采用多任务学习的方式增强模型理解不同模态信息的能力。
RPT部分旨在基于音视频特征V、标题C、对话历史H<n和当前问题Qn生成回答
Figure BDA0003949948550000118
通过最小化负对数似然损失函数,使得模型输出的下一个词为源序列对应词的可能性最大化:
Figure BDA0003949948550000119
其中,
Figure BDA00039499485500001110
表示回答Rn的前j-1个单词,θ指可训练模型参数,(V,C,H,Q)集合从整个训练集D中采样,E(V,C,H,Q,R)~D表示期望。
CPT部分和RPT部分相似,对于给定的音视频特征V,通过最小化负对数似然损失函数的方式生成标题C={c1,c2,...,cL},损失函数如下所示:
Figure BDA0003949948550000121
其中,c<i代表标题C的前i-1个词。
VTMT部分旨在判断给定的音视频特征V和给定的文本特征(包括标题C、对话历史H<n、当前问题Qn和生成回答Rn)是否匹配,从而以微调预训练语言模型的方式将其成功应用到对话域任务上来。具体而言,该任务选取大约15%的训练数据,随机使用不正确的音视频特征替换对应的原始输入,并将GPT2模块隐藏状态的最终输出通过线性全连接层得到匹配与否的概率,然后使用二值交叉熵计算损失函数,以增强***对场景的理解,计算公式如下所示:
Figure BDA0003949948550000122
其中,X=(V,C,H,Q,R),Y是表征音视频特征和文本特征是否匹配的标签。
其它步骤及参数与具体实施方式一至三之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
数据集选取ICASSP2019中Hori等人发布的第七届对话***技术挑战赛(The 7thDialog System Technology Challenge,DSTC7)的视听场景感知对话数据集进行***性能评估,为保证衡量不同模型间性能差异的公平性和合理性,数据集的划分方式与挑战赛中任务设置保持一致。该数据集大小和划分方式如表1所示。
表1 DSTC7-AVSD数据集概述
Figure BDA0003949948550000123
评估指标选用使用自然语言生成任务中常用的指标,包括BLEU、METEOR、ROUGE-L和CIDEr等,这些指标可以从不同角度计算预测回答和真实回答之间的语义相似度和语言流畅度,从而科学反映***性能。
实验参数设置如表2所示。具体而言,在编码过程中,设置Adam优化器的学习率为6.25e-5,涉及对话历史最多为3轮,Transformer模块的隐藏状态为768,批处理大小为8。在解码过程中,采用波束搜索算法,设置波束宽度为5,句子最大长度为20,长度惩罚为0.3。
表2实验参数设置
Figure BDA0003949948550000131
表3比较了在DSTC7-AVSD上基线模型和本发明生成结果的差异。可以看到,在该样例中,提问者提及的“television”未在标题和对话历史中出现,因此***需要结合音视频信息并进行简单的推理才能正确回答该问题。此时基线模型对于该问题的回答充分说明基线模型并没有完全理解提问者的问题指向,欠缺推理能力,对于无法在标题、摘要或对话历史中找到特定信息的问题,无法给出正确答案,甚至出现答非所问的情况。
而和基线模型相比,本发明可以基于给定的视频和文本,对两者信息进行充分交互,从而捕获不同模态输入之间隐藏的复杂依赖关系,提取更丰富的特征表示并基于推理生成高质量、自然的回答。
表3 VGPT模型生成的DSTC7-AVSD样例
Figure BDA0003949948550000132
Figure BDA0003949948550000141
为了客观全面地验证本发明的有效性,对于DSTC7-AVSD数据集将其与相关的基线方法进行比较,具体结果如表4所示,其中每个指标的最优结果均已加粗展示:
(1)ICASSP2019中Hori等人提出的朴素融合模型(Naive Fusion)为DSTC7组织者提供的多模态基线方法,它使用含有问题指向的LSTM模型分别提取视频和音频特征,同时使用分层LSTM编码对话历史,最后借由投影矩阵组合所有模态以生成回答。
(2)AAAI2019中Sanabria等人提出的分层注意力机制模型(HierarchicalAttention,HA)引入视频摘要任务的迁移学习,获取更多视觉细节,获得了DSTC7-AVSD挑战赛的第一名。
(3)ACL2019中Le等人提出的多模态Transformer网络(Multimodal TransformerNetworks,MTN)是DSTC8-AVSD挑战赛之前最高水平的***,它采用基于Transformer的自动编码模块,以问题为导向关注视觉特征。
(4)TASLP2021中Li等人提出的通用多模态Transformer网络(UniversalMultimodal Transformer,UMT)是目前该任务下最先进的对话问答***,它引入预训练的GPT-2模型,采用多任务学习的方式学习视听场景的融合表示。
表4基于DSTC7-AVSD数据集的客观评估结果
Figure BDA0003949948550000142
实验结果表明,本发明使用具体实施方式三在DSTC7-AVSD测试集的几乎所有自动化指标上都优于现有的方法,在BLEU-2、BLEU-2、BLEU-2和CIDEr指标上相较于该任务下目前最先进模型UMT平均提升了1%。这说明通过引入多关系图结构编码可以使对话***生成更高质量的回答并显著提升模型的性能。得益于图卷积神经网络的结构特征,所有单词间的多种句法和语义信息可以在一个框架内展现。相较于多层感知器(MultilayerPerceptron,MLP),因此在计算当前结点的表示时可以综合考虑其邻居节点的信息,而对于远距离的连通点,可以通过堆叠多层图卷积神经网络获取,从而扩大了自身的“感受野”。
实施例二:
数据集选取TASLP2021中Kim等人发布的第八届对话***技术挑战赛(The 8thDialog System Technology Challenge,DSTC8)的视听场景感知对话数据集进行***性能评估,为保证衡量不同模型间性能差异的公平性和合理性,数据集的划分方式与挑战赛中任务设置保持一致。
该数据集大小和划分方式如表5所示。
表5 DSTC8-AVSD数据集概述
Figure BDA0003949948550000151
实验参数设置和表2一致。
为了客观全面地验证本发明的有效性,对于DSTC8-AVSD数据集将其与相关的基线方法进行比较,具体结果如表6所示,其中每个指标的最优结果均已加粗展示:
(1)arXiv2020中Chu等人提出的多步联合模态注意力网络(Multi-step Joint-Modality Attention Network,JMAN)设计了基于循环神经网络的模型架构,运用多步骤注意力机制,并将每次推理过程兼顾视觉和文本的表示,以更好地整合两种不同模态的信息。
(2)arXiv2020中Lee等人提出的多模态语义Transformer网络(MultimodalSemantic Transformer Network,MSTN)相较于传统Transformer体系架构,额外设计了一个基于注意力的单词嵌入层,使得模型在生成阶段可以更多地将单词含义纳入考虑范围。
表6基于DSTC8-AVSD数据集的客观评估结果
Figure BDA0003949948550000152
Figure BDA0003949948550000161
实验结果表明,本发明使用具体实施方式一在DSTC8-AVSD测试集的几乎所有自动化指标上都优于现有模型。其中,在表征句子自然程度的CIDEr指标上的提升尤为明显,提升了0.012(1.240vs.1.252),这说明局部依赖关系和全局共指关系可以从不同角度反映文本的功能相似性以编码文本信息,从而改善已有模型的表现。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种基于多关系图模型的多模态对话问答生成方法,其特征在于,包括以下步骤:
S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,获取该片段的色彩特征
Figure FDA0003949948540000011
和光流特征
Figure FDA0003949948540000012
以及音频特征
Figure FDA0003949948540000013
将色彩特征
Figure FDA0003949948540000014
光流特征
Figure FDA0003949948540000015
和音频特征
Figure FDA0003949948540000016
拼接起来得到
Figure FDA0003949948540000017
再加入位置信息
Figure FDA0003949948540000018
和模态信息
Figure FDA0003949948540000019
得到各个视频片段的序列表示Vt;表达式为:
Figure FDA00039499485400000110
Figure FDA00039499485400000111
其中,位置信息
Figure FDA00039499485400000112
中使用数字指代每个视频片段出现的次序,模态信息
Figure FDA00039499485400000113
中使用标识符[video]统一标识视频特征,在实际计算时将其转换成固定维度的向量;
S2、针对视听场景表示V=(V1,V2,...,Vm),V1,V2,...,Vm即为各个视频片段的序列表示,将每个视频片段视作顶点,构建基于全联通关系的视频图
Figure FDA00039499485400000114
其中
Figure FDA00039499485400000115
Figure FDA00039499485400000116
是有向依赖边的集合,对于每条有向依赖边(Vi,Vj,lij),lij表示从Vi到Vj的依赖关系,且设置为1;
将视频图输入图卷积神经网络,输出视频隐藏层序列GV
S3、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表示
Figure FDA00039499485400000117
并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入;
S4、基于视听场景标题C和对话历史H得到对应的词向量表示Cfeature和Hfeature;将标题词向量Cfeature和对话历史词向量Hfeature拼接起来,再加入位置信息Tpos和模态信息Tmod得到文本序列表示T;表达式为:
Tfeature=[Cfeature,Hfeature],
T=Tfeature+Tmod+Tpos,
其中,位置信息Tpos中使用数字指代标题和每个问答对中单词出现的次序,Tpos中使用标识符[cap]统一标识视听场景标题,标识符[usr1]标识提问者,标识符[usr2]标识回答者,在实际计算时分别将其转换成固定维度的向量;
S5、将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构
Figure FDA00039499485400000118
和/或基于完整对话共指关系的图结构
Figure FDA00039499485400000119
然后将句子级依存关系的图结构
Figure FDA00039499485400000120
和/或基于完整对话共指关系的图结构
Figure FDA00039499485400000121
分别输入图卷积神经网络,得到各自对应的文本隐藏层序列;
S6、将句子级依存关系的图结构
Figure FDA0003949948540000021
和/或基于完整对话共指关系的图结构
Figure FDA0003949948540000022
对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示
Figure FDA0003949948540000023
并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入;
S7、将
Figure FDA0003949948540000024
Figure FDA0003949948540000025
拼接获得增强多模态输入,并将增强多模态输入基于GPT-2架构的多层Transformer模型生成回答。
2.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系的图结构
Figure FDA0003949948540000026
并得到对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的句法依存关系,将每个词向量视作顶点,并依据句法依存关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列GD
3.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于完整对话共指关系的图结构
Figure FDA0003949948540000027
并得到各自对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的共指关系,将每个词向量视作顶点,并依据句子的共指关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列GC
4.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构
Figure FDA0003949948540000028
和基于完整对话共指关系的图结构
Figure FDA0003949948540000029
并得到各自对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分别分析该句子的句法依存关系和该句子的共指关系,将每个词向量视作顶点,分别构建基于句子级依存关系的图结构
Figure FDA00039499485400000210
和基于完整对话共指关系的图结构
Figure FDA00039499485400000211
然后将两个图结构分别输入图卷积神经网络,输出文本隐藏层序列GD和GC
5.根据权利要求1、2、3或4所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中所述图卷积神经网络的每层图卷积神经网络计算的表达式为:
Figure FDA00039499485400000212
其中,f(Hv (l+1),Av)表示每层图卷积,针对
Figure FDA00039499485400000213
Figure FDA00039499485400000214
Ad分别表示各自对应的邻接矩阵,
Figure FDA0003949948540000031
为对应的度矩阵,加入单位矩阵Id得到
Figure FDA0003949948540000032
相应地,得到对应的度矩阵
Figure FDA0003949948540000033
以便于归一化操作,l为图卷积神经网络层数,
Figure FDA0003949948540000034
为第l层图卷积神经网络的隐藏状态,
Figure FDA0003949948540000035
6.根据权利要求5所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S2中所述图卷积神经网络的每层图卷积神经网络计算的表达式为:
Figure FDA0003949948540000036
其中,f(Hv (l+1),Av)表示每层图卷积;Av
Figure FDA0003949948540000037
的邻接矩阵,i,j分别表示
Figure FDA0003949948540000038
的第i,j个结点,
Figure FDA0003949948540000039
是Av第i行第j列的值;
Figure FDA00039499485400000310
Figure FDA00039499485400000311
的度矩阵,
Figure FDA00039499485400000312
是Dv第i行第i列的值;为使模型可以考虑结点自身表示,加入单位矩阵Iv得到
Figure FDA00039499485400000313
相应地,得到对应的度矩阵
Figure FDA00039499485400000314
以便于归一化操作;l为图卷积神经网络层数,
Figure FDA00039499485400000315
为第l层图卷积神经网络的隐藏状态,
Figure FDA00039499485400000316
V为原视频序列表示,
Figure FDA00039499485400000317
为可训练权重。
7.根据权利要求6所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,在基于GPT-2架构的多层Transformer模型进行处理时,还要将S3中的
Figure FDA00039499485400000318
输入到线性全连接层中,并将输出结果投影到与S6中
Figure FDA00039499485400000319
相同的向量空间,将两者拼接以获得完整的多模态输入表示,然后将其输入到预训练语言模型GPT-2中。
8.根据权利要求7所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S7中的基于GPT-2架构的多层Transformer模型为由12层具有带掩码的多头注意力机制的Transformer解码器模块堆叠而成。
9.根据权利要求8所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,所述的基于GPT-2架构的多层Transformer模型在训练过程中使用负对数似然损失函数进行训练,训练过程包括以下步骤:
基于音视频特征V、标题C、对话历史H<n和当前问题Qn生成回答
Figure FDA00039499485400000320
通过最小化负对数似然损失函数,使得输出的下一个词为源序列对应词的可能性最大化:
Figure FDA00039499485400000321
其中,
Figure FDA00039499485400000322
表示回答Rn的前j-1个单词,θ指可训练模型参数,(V,C,H,Q)集合从整个训练集D中采样,E(V,C,H,Q,R)-D表示期望。
10.根据权利要求8所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,所述的基于GPT-2架构的多层Transformer模型在训练过程中基于音视频、标题和对话历史特征的回答预测任务RPT、音视频的标题预测任务CPT和音视频-文本匹配任务VTMT进行联合训练,训练过程包括以下步骤:
RPT部分旨在基于音视频特征V、标题C、对话历史H<n和当前问题Qn生成回答
Figure FDA0003949948540000041
通过最小化负对数似然损失函数,使得模型输出的下一个词为源序列对应词的可能性最大化:
Figure FDA0003949948540000042
其中,
Figure FDA0003949948540000043
表示回答Rn的前j-1个单词,θ指可训练模型参数,(V,C,H,Q)集合从整个训练集D中采样,E(V,C,H,Q,R)~D表示期望;
CPT部分和RPT部分相似,对于给定的音视频特征V,通过最小化负对数似然损失函数的方式生成标题C={c1,c2,...,cL},损失函数如下所示:
Figure FDA0003949948540000044
其中,c<i代表标题C的前i-1个词;
VTMT部分旨在判断给定的音视频特征V和给定的文本特征是否匹配,给定的文本特征包括标题C、对话历史H<n、当前问题Qn和生成回答Rn;选取一定比例的训练数据,随机使用不正确的音视频特征替换对应的原始输入,并将GPT2模块隐藏状态的最终输出通过线性全连接层得到匹配与否的概率,然后使用二值交叉熵计算损失函数:
Figure FDA0003949948540000045
其中,X=(V,C,H,Q,R),Y是表征音视频特征和文本特征是否匹配的标签。
CN202211451009.5A 2022-11-18 2022-11-18 基于多关系图模型的多模态对话问答生成方法 Pending CN115712709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211451009.5A CN115712709A (zh) 2022-11-18 2022-11-18 基于多关系图模型的多模态对话问答生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211451009.5A CN115712709A (zh) 2022-11-18 2022-11-18 基于多关系图模型的多模态对话问答生成方法

Publications (1)

Publication Number Publication Date
CN115712709A true CN115712709A (zh) 2023-02-24

Family

ID=85233794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211451009.5A Pending CN115712709A (zh) 2022-11-18 2022-11-18 基于多关系图模型的多模态对话问答生成方法

Country Status (1)

Country Link
CN (1) CN115712709A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108206A (zh) * 2023-04-13 2023-05-12 中南大学 一种金融数据实体关系的联合抽取方法及相关设备
CN116757460A (zh) * 2023-08-23 2023-09-15 南京争锋信息科技有限公司 基于深度学***台构建方法及***
CN117708307A (zh) * 2024-02-06 2024-03-15 西北工业大学 一种大语言模型微调和Adapter融合方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108206A (zh) * 2023-04-13 2023-05-12 中南大学 一种金融数据实体关系的联合抽取方法及相关设备
CN116757460A (zh) * 2023-08-23 2023-09-15 南京争锋信息科技有限公司 基于深度学***台构建方法及***
CN116757460B (zh) * 2023-08-23 2024-01-09 南京争锋信息科技有限公司 基于深度学***台构建方法及***
CN117708307A (zh) * 2024-02-06 2024-03-15 西北工业大学 一种大语言模型微调和Adapter融合方法及装置
CN117708307B (zh) * 2024-02-06 2024-05-14 西北工业大学 一种大语言模型微调和Adapter融合方法及装置

Similar Documents

Publication Publication Date Title
Uppal et al. Multimodal research in vision and language: A review of current and emerging trends
Huang et al. Image captioning with end-to-end attribute detection and subsequent attributes prediction
Gao et al. Hierarchical representation network with auxiliary tasks for video captioning and video question answering
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
US20220398486A1 (en) Learning content recommendation system based on artificial intelligence learning and operating method thereof
CN113157965B (zh) 音频可视化模型训练及音频可视化方法、装置及设备
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及***
CN113127623A (zh) 一种基于混合专家模型和联合学习的知识库问题生成方法
CN115391511A (zh) 视频问答方法、装置、***及存储介质
CN114020891A (zh) 双通道语义定位多粒度注意互增强的视频问答方法与***
CN112069781B (zh) 一种评语生成方法、装置、终端设备及存储介质
Jhunjhunwala et al. Multi-action dialog policy learning with interactive human teaching
Varghese et al. Towards participatory video 2.0
CN114969298A (zh) 一种基于跨模态异质图神经网络的视频问答方法
Nagao Artificial intelligence accelerates human learning: Discussion data analytics
CN115687638A (zh) 基于三元组森林的实体关系联合抽取方法及***
CN115659279A (zh) 一种基于图文交互的多模态数据融合方法
Zhu et al. Describing unseen videos via multi-modal cooperative dialog agents
Wang et al. SCANET: Improving multimodal representation and fusion with sparse‐and cross‐attention for multimodal sentiment analysis
Wang et al. What is the competence boundary of Algorithms? An institutional perspective on AI-based video generation
Wang et al. How to make a BLT sandwich? learning to reason towards understanding web instructional videos
CN115379242A (zh) 一种三线性编码***及视频-语言表征学习方法
CN112632263B (zh) 一种基于gcn与指针网络的自然语言到sparql语句的生成***及方法
Dean Altering screenwriting frameworks through practice-based research: a methodological approach
CN115422329A (zh) 一种基于知识驱动的多路筛选融合对话生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination