CN116226347A

CN116226347A - 一种基于多模态数据的细粒度视频情绪内容问答方法和***

Info

Publication number: CN116226347A
Application number: CN202310184746.1A
Authority: CN
Inventors: 马翠霞; 秦航宇; 杜肖兵; 邓小明; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-10-26
Filing date: 2023-03-01
Publication date: 2023-06-06

Abstract

本发明属于视频问答领域，具体涉及一种基于多模态数据的细粒度视频情绪内容问答方法和***。本发明基于情节记忆网络构建视频情绪推理基线模型，设计针对视觉、音频和文本数据的多分支处理模块，并借助Transformer编码器编码多模态数据中的时序依赖，提取出的多模态特征包含多角度情绪内容，能够精确地完成细粒度视频情绪内容问答任务。本发明利用Transformer编码器在视频、音频和文本序列上学习时序关联关系，并提取与情绪分类相关的高维多模态特征，该时序关联关系对分析视频包含的情绪信息至关重要。本发明能够有效提高基于多模态的细粒度视频情绪内容问答任务结果的准确率。

Description

一种基于多模态数据的细粒度视频情绪内容问答方法和***

技术领域

本发明属于视频问答领域，具体涉及一种基于多模态数据的细粒度视频情绪内容问答方法和***。

背景技术

近年来，电影/电视节目中的情感分析在情感计算和人工智能***设计等领域得到越来越多的关注。电影/电视节目包含了丰富的交互场景和人物关系，视频中的角色能够体验与现实世界中的人类一样的情绪，例如奖励引起的兴奋，离别引起的悲伤。视频中以人为中心的视频场景与现实生活中的社交场景密切相关，这为训练人工智能***理解情绪背后的高级语义信息，即引发情绪的原因、意图和人的行为动机等，提供了平台，视频中包含的丰富情感为研究视频内容本身包含的情感内容提供了数据支持。

智能***需要具备对视频场景细粒度理解的能力，不仅能够识别情绪类别还能够通过可解释性方式对情绪背后的原因、意图和用户的行为动机等推理。在研究视频包含的情感内容的工作中，视频的多模态信息常被用来作为分析数据来源，如视频情绪识别人物。基于多模态信息的视频情绪识别方法主要通过音频、文本和视觉等信息来理解视频内容所传达的情感。例如，基于视频上下文信息和视频中人物的面部表情信息，使用由RNN组成的级联结构式模型来识别视频中的情绪；通过整合视频中人物的面部表情特征和视频背景信息，基于双流编码模型来识别视频情绪；基于视觉内容和文本词汇之间的相互作用，采用协同记忆网络识别多模态信息中的情感；基于多模态转换网络，将视觉和听觉表征统一映射到同一特征空间用于视频情绪识别等。上述显视频情感理解技术研究主要集中在视频情绪识别方法上，对于视频中情绪推理研究较少。随着智能交互应用的发展，研究人员开始探索基于多模态场景推理情绪背后的潜在原因的方法，例如基于视频对话中的多模态信息提取情感-原因对，通过对多模态信息的理解对情绪背后的原因进行推断。因此，在基于多模态信息的视频情绪识别的基础上，进一步研究视频情绪推理方法，为深入理解视频多模态内容中诱发情绪的原因提供支持。

为提高人机交互的智能性，在识别视频情绪的基础上，还需要正确理解用户的情感需求和意图，这也正是视频情绪推理工作的主要研究内容。因此，对视频情感理解技术的深度研究中，需要进一步研究如何使用可解释性方式对视频交互场景中的情绪推理，即理解视频背后的原因、意图和用户的行为动机。视频情绪推理工作需要针对以人为中心的视频交互场景进行，只有将人放在具体的情境之中，才能够充分利用交互过程中的多模态信息，完成对情绪的理解，进而对情绪涉及的多个方面进行推理。

1)现有技术：情感原因提取和情感推理

在对话文本上下文或多模态场景中发现特定情感表达背后的潜在原因一直是情感计算领域的一个热门话题。情感原因提取是情感分析的一项细化任务，其目的是探究对话中某种情感表达背后的潜在原因。Rui Xia等人(参考文献：Xia R,Zhang M,DingZ.RTHN:A rnn-transformer hierarchical network for emotion cause extraction[C]//Proceedings of the Twenty-Eighth International Joint Conference onArtificial Intelligence,IJCAI 2019,Macao,China,August 10-16,2019.ijcai.org,2019:5285-5291.)考虑了对话中多个子句之间的关系并用于情感原因提取工作。由于视频中的对话本身就是由多模态信息组成的，Rui Xia等人(参考文献：Wang F,Ding Z,Xia R,et al.Multi modal emotion-cause pair extraction in conversations[J].CoRR,2021,abs/2110.08020.)进一步提出多模态情感-原因对提取任务，并从对话的多模态信息中联合提取情绪及其诱发原因。MECPE是对ECE任务的进一步探究，要求模型具有较强的视频多模态信息理解和情绪推断能力，因为情绪的原因不一定只来自文本信息，有可能来自视觉场景。

此外，意见挖掘是文本情感分析中的一个重要问题，其中情感推理在文本情感分析任务中是处理“who holds the opinion and why”问题的一个子任务。虽然目前在视频情感理解领域对视频情绪推理任务的研究还比较少，但是从上面的相关工作可以看到对具有多模态信息的视频进行情绪推理具有深远的研究意义和应用价值。因此目前亟需一种可解释性的方式对视频中的情绪进行推理，充分理解视频多模态内容中诱发情绪的原因、意图以及人的行为动机等。

2)现有技术：多模态情感分析

视频中的多模态情感分析旨在通过音频、文本和视觉信息来理解视频内容所传达的情感。如Sun Man-Chin等人(参考文献：Sun M C,Hsu S H,Yang M C,et al.Context-aware cascade attention-based rnn for video emotion recognition[C]//2018FirstAsian Conference on Affective Computing and Intelligent Interaction(ACIIAsia).IEEE,2018:1-6.)提出了一个由两个RNN组成的级联结构式模型，利用视频上下文信息和视频中人物的面部表情信息来识别视频中的情绪。Lee Jiyoung等人(参考文献：LeeJ,Kim S,Kim S,et al.Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:10143-10152.)设计了一个深度网络以联合和提升的方式整合视频中人物的面部表情特征和视频背景信息来识别视频情绪。Nan Xu等人(参考文献：Xu N,Mao W,Chen G.A co-memory network for multimodal sentiment analysis[C]//The 41st InternationalACM SIGIR Conference on Research&Development in Information Re-trieval,SIGIR2018,Ann Arbor,MI,USA,July 08-12,2018.ACM,2018:929-932.)采用协同记忆网络对视觉内容和文本词汇之间的相互作用进行迭代建模，用于多模态情感分析。Qi Fan等人(参考文献：Qi F,Yang X,Xu C.Zero-shot video emotion recognition via multimodalprotagonist-aware transformer network[C]//MM’21:ACM Multimedia Conference,Virtual Event,China,Oc-tober 20-24,2021.ACM,2021:1074-1083.)提出了多模态转换网络，将视觉和听觉表征统一映射到同一特征空间用于视频情绪识别。

然而，上述多模态情感分析研究主要集中在由情绪标签监督的情绪识别任务上。近几年，一些工作开始关注对视频情绪的进一步理解。不同于对视频中角色的情绪类别直接识别，Guangyao Shen等人(参考文献：Shen G,Wang X,Duan X,et al.Memor:A datasetfor multimodal emotion reasoning in videos[C]//MM’20:The 28th ACMInternational Conference on Multimedia,Virtual Event/Seattle,WA,USA,October12-16,2020.ACM,2020:493-502.)提出了基于视频多模态信息的角色情绪推理，针对视频交互场景中缺少多模态信息的角色的情绪识别问题，提出借助同一场景下其他角色的情绪来对其进行情绪推理，该过程并不涉及对情绪背后的原因、意图和人的行为动机的理解。Zadeh等人(参考文献：Zadeh A,Chan M,Liang P P,et al.Social-iq:A questionanswering benchmark for artificial social intelligence[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8807-8817.)构建了Social-IQ数据集，并标注部分带有情感或情绪信息的问题-答案对，用以支持社会智能***通过推理问题的答案了解用户的心理状态。由上可知，在对多模态情感分析的基础上，基于多模态信息对视频情绪推理符合多模态情感分析的发展趋势，是下一步需要重点探究的问题。

3)现有技术：问答技术

与传统的基于情感标签的情绪识别不同，人工智能***需要超越情绪标签监督的情绪识别，实现通过可解释性方式对视频中情感进行推理的能力。问答技术是一种对潜在现象理解程度进行探索的可解释性方法，问答技术被用于不同研究领域并取得了不错的成果，例如自然语言处理、视觉和语言以及常识推理领域等。视频问答是一项以自然语言格式回答给定视频问题的任务，由于其在社会智能***和认知机器人等领域的适用性，在过去几年中引起了广泛的关注。目前在视频问答领域已有多种方法，包括注意力机制、多模态融合方法、动态记忆网络、多模态关系学习等，基于视频问答公开数据集取得了不错的结果，所以本发明选择依托问答任务来实现模型对视频情感的推理。

发明内容

视频情绪推理是目前视频情感理解领域的研究热点，基于问答形式的可解释性推理方式为理解视频中的情绪提供一种高效的方法。一般视频中情绪背后的原因、意图以及人的行为动机等相关信息会蕴含在视频多模态数据中，对视频场景进行细粒度的理解，并从多模态信息中提取对情绪推理有用的信息是有必要的。一般基于视频多模态信息的情绪推理工作中，一次推理很难学习到充分的有效信息，所以多步推理是提升模型效果的关键。

为解决上述问题，本发明提出的技术方案如下：

一种基于多模态数据的细粒度视频情绪内容问答方法，其步骤包括：

1)以若干句对话为单位对长视频进行分割，并分割对应的字幕文本与音频，得到若干视频片段；

2)对于一个视频片段提取多模态特征，包括视觉特征、音频特征和文本特征，并将对应的问题-答案对进行编码，得到问题编码q_T以及答案编码

3)对提取的多模态特征分别进行时序编码；

4)基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息，使用视频中人物的面部特征增强视觉分支，使用视频故事梗概信息中的故事情节信息增强文本分支，得到增强后的多模态特征；

5)将增强后的多模态特征输入情节记忆网络，利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索，捕捉情绪推理过程中的多模态关键信息，得到视频上下文表示C^v,a,t；

6)将上述问题编码q_T以及答案编码

和视频上下文表示C^v,a,t输入答案预测模块，分别学习针对问题编码和答案编码的情境感知注意力，得到最终的情感问答结果P。

进一步地，所述以若干句对话为单位对长视频进行分割，是以n句对话为单位对长视频进行分割，其中n≤20。

进一步地，所述视觉特征包括全局视觉特征和面部特征。

进一步地，提取全局视觉特征的方法包括：使用在ImageNet数据集上预训练的Resnet-152模型。

进一步地，提取面部特征的方法包括：使用预训练模型MTCNN检测视频帧中的面部区域，使用视频中的主要角色(例如《老友记》视频中的6个主要角色)的面部区域数据微调在Facenet上预训练的VGGFace2模型，得到面部识别特征；使用在FER2013数据集上预训练的Facenet模型提取面部表情特征；将面部识别特征和面部表情特征拼接组成视频中人物的面部特征。

进一步地，提取音频特征的方法包括：使用openSIMLE音频特征提取器。

进一步地，提取文本特征和对问题-答案对进行编码的方法包括：采用预训练好的GloVe词嵌入工具方法。

进一步地，编码多模态信息的方法包括：使用transformer编码器。

进一步地，所述从视频的多模态特征中提取问题相关信息，是通过以下步骤使用问题引导注意力得到问题相关的特征表示：

1)将面部特征

与问题编码q_T进行点乘，得到问题和特征之间的相似度s；

2)利用softmax函数处理点乘结果s，得到表示面部特征

的空间注意力a^f；

3)将空间注意力a^f与面部特征

进行点乘，得到问题相关的特征表示/>

进一步地，通过以下步骤得到情节记忆网络输出的视频上下文表示C^v,a,t：

1)注意力机制：计算t次更新过程的门机制注意力得分

其中F_attn表示注意力函数(参考文献：Xiong C,Merity S,Socher R.Dynamic memory networksfor visual and textual question answering[C]//JMLR Workshop and ConferenceProceedings:volume 48Proceedings of the 33nd International Conference onMachine Learning,ICML 2016,New York City,NY,USA,June 19-24,2016.JMLR.org,2016:2397-2406.)，f_i表示输出实时序列中的第i个事实向量，m^t-1是记忆网络模块中的第t-1次更新后的状态，q表示问题编码向量；

2)记忆单元更新机制：计算记忆网络模块中GRU(gated recurrent unit)的第i个单元的隐藏层状态

其中h_i表示GRU中第i个单元的隐藏层状态，并且GRU的最后一层隐藏层状态作为第t次记忆单元更新的视频多模态上下文表示

其中下标的t为第t次更新，上标的t为text文本模态；最后，更新第t次记忆单元状态

其中F_mem是记忆更新函数。

进一步地，通过以下步骤得到答案预测模块的视频问答结果：

1)使用上下文匹配模块(参考文献：Seo M J,Kembhavi A,Farhadi A,etal.Bidirectional attention flow for machine comprehension[C]//5thInternational Conference on Learning Representations,ICLR 2017,Toulon,France,April 24-26,2017,Conference Track Proceedings.OpenReview.net,2017.)计算各个模态特征与问题、答案表示的融合表示

其中E_m记忆网络模块输出的各个模态特征，q^v,a,t是情景感知的问题表示，/>

是情景感知的答案表示.

2)使用softmax函数和FC层处理融合表示，得到各个分支对答案预测概率分布

3)拼接三个模态得到的答案预测分布，并使用linear和softmax函数处理，得到最终答案预测概率分布P＝softmax(linear([P_v；P_a；P_t]))。

进一步地，利用一视频情绪内容问答模型实现步骤3)-6)，其中视频情绪内容问答模型采用端到端的训练，视频情绪内容问答模型的损失函数

其中是对五个候选答案的预测分布，P＝[p₀,…,p₄]中每一个元素p_i表示样本对应的答案是a_i的概率；y＝[y₀,…,y₄]是样本标签的独热编码表示，当样本对应的答案是a_i时y_i＝1，否则y_i＝0。

一种基于多模态数据的细粒度视频情绪内容问答***，其包括：

视频分割模块，用于以若干句对话为单位对长视频进行分割，并分割对应的字幕文本与音频，得到若干视频片段；

多模态特征提取模块，用于对于一个视频片段提取多模态特征，包括视觉特征、音频特征和文本特征，并将对应的问题-答案对进行编码，得到问题编码以及答案编码；

编码模块，用于对提取的多模态特征分别进行时序编码；

多模态特征增强模块，用于基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息，使用视频中人物的面部特征增强视觉分支，使用视频故事梗概信息中的故事情节信息增强文本分支，得到增强后的多模态特征；

情节记忆网络模块，用于将增强后的多模态特征输入情节记忆网络，利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索，捕捉情绪推理过程中的多模态关键信息，得到视频上下文表示；

答案预测模块，用于以问题编码以及答案编码和视频上下文表示为输入，分别学习针对问题编码和答案编码的情境感知注意力，得到最终的情感问答结果。

一种计算机设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行以上所述方法的指令。

一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现以上所述的方法。

综上，和现有技术相比，本发明具有的优点和积极效果如下：

1.本发明基于情节记忆网络(Episode Memory Network)构建视频情绪推理基线模型，设计针对视觉、音频和文本数据的多分支处理模块，并借助Transformer编码器编码多模态数据中的时序依赖，提取出的多模态特征包含多角度情绪内容，能够精确地完成细粒度视频情绪内容问答任务。

2.本发明利用transformer编码器在视频、音频和文本序列上学习时序关联关系，并提取与情绪分类相关的高维多模态特征，该时序关联关系对分析视频包含的情绪信息至关重要。

3.本发明参考人在情绪推理过程中对人脸以及故事情节信息的关注，在视觉分支和文本分支中分别使用问题引导的注意力机制(Question-guided Attention)关注视觉特征中的面部表情特征和文本特征中的故事情节信息，并对文本特征中的故事梗概信息提取，有效提高了模型方法的推理精度和问答准确率。

4.本发明针对单步推理学习到的有效信息较少的问题，通过情节记忆网络对记忆单元的多步更新过程累积用于推理的多模态线索，用于最终情感相关问题答案预测，能够有效提高基于多模态的细粒度视频情绪内容问答任务结果。

附图说明

图1.多模态细粒度视频情绪内容问答任务示意图。

图2.基于多模态数据的细粒度视频情绪内容问答方法的网络框架流程图。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的多模态数据的细粒度视频情绪内容问答方法，但不构成对本发明的限制。

请参考图1、图2，本发明提出一种基于多模态信息的细粒度视频情绪内容问答方法，该方法基于视觉分支、音频分支和文本分支从视频多模态信息中提取问题相关特征；使用问题引导注意力对视觉特征中的面部表情特征信息提取，对文本特征中的故事梗概信息提取；通过多步迭代式更新情节记忆存储单元捕捉情感相关的线索实现多步情绪推理，分别利用Transformer编码器学习多模态数据时序依赖关系；利用问题引导注意力机制分别提取视觉分支中人脸表情信息和文本分支中故事情节信息；最后通过情节记忆网络的多步推理积累情绪推理线索，学习有效的视频上下文表示用于答案预测。

1.多模态特征提取

1)视觉特征提取

首先按照3fps从视频中提取视频帧用于后续视觉特征提取。本发明主要针对视频帧数据提取两种视觉特征：视频帧全局视觉特征和面部特征。

全局视觉特征：使用在ImageNet数据集上预训练的Resnet-152模型处理视频帧得到特征维度为204的视频帧视觉特征。然后，将一个视频片段对应的视频帧视觉特征堆叠起来得到表示整个视频片段的视觉特征

其中n_clp表示视频片段中的视频帧数目。

面部特征：首先使用预训练模型MTCNN检测视频帧中的面部区域，基于视频中人物的面部区域主要提取两种特征，面部识别特征和面部表情特征。例如，通过使用《老友记》视频中的6个主要角色的面部区域数据微调在Facenet上预训练的VGGFace2模型得到面部识别特征；使用在FER2013数据集上预训练Facenet模型提取面部表情特征。最终，将面部识别特征和面部表情特征拼接组成视频中人物面部特征

其中n_f表示每一个视频片段中人脸面部区域数目。/>

本方法中的视觉分支的输入数据是V^clp和V^f。

2)音频特征提取

首先为了让音频数据和字幕文本对齐，根据字幕文本出现的时间戳将视频片段对应的音频数据切分成与字幕文本对应的20段，支持模型对音频片段之间的上下文关系学习。使用openSIMLE特征提取器在ComParE_2016配置文件的指导下对每一个视频片段对应的20段音频提取6373维的声学特征。最终每一个视频片段对应的声学特征可以表示为

其中n_a表示一个视频片段对应的音频段数目。

本方法中的音频分支的输入数据是A。

3)文本特征提取

对输入的文本数据首先提取字向量特征，借助在Wikipedia2014和Gigaword5上面训练的GloVe得到300维的词编码特征，得到每一段视频对应的字幕文本的特征表示S∈

其中n_set表示一个视频片段对应的字幕文本句子个数，n_wrd表示每一个句子中的单词个数。另外，每一个视频片段对应的故事梗概文本特征可以表示为

其中n_ks表示每一个视频片段对应的故事梗概中的句子数目，n_kw表示每一个句子中的单词数目。

本方法中的文本分支对应的输入数据为S和K。

2.基于Transformer的多模态信息编码

Transformer在大量的自然语言处理问题中表现出色，具有学习长距离数据依赖的能力。Transformer对序列数据的长时依赖学习能力主要依赖于自注意力机制。此外，为了能够学习序列数据在不同特征子空间的信息，本发明使用多头注意力机制在Transformer中通过并行处理多个自注意力机制来实现，公式表示为:

MHA(Q,K,V)＝Concat(head₁,…,head_k)W⁰

其中，Q表示查询(query)矩阵，K表示键值(key)矩阵，V表示价值(value)矩阵，W是权重矩阵，Attention(·)表示自注意力机制计算过程。head_i表示多头注意力机制中的第i个“注意力头”。本方法使用三个独立的Transformer编码器来对每个分支的序列输入数据进行时序编码处理，Transformer编码器层数为2，多头注意力中的“注意力头”的数目为6。

对于视觉分支，输入数据包括V^clp和V^f。在对输入数据进一步编码之前，首先使用线性变换层分别处理视觉特征V^clp和V^f，将两种视觉特征维度统一为300，得到线性变换后的视觉特征

和/>

然后，将/>

和/>

分别作为Transformer编码器的输入数据，学习视频视觉序列特征的时序依赖信息。然后，Transformer编码器的最后一层输出作为进一步编码得到的视觉特征/>

和/>

对于音频分支，使用同样方法通过线性变换和Transformer的编码处理，得到音频数据的进一步编码特征

对于文本分支，使用同样方法通过线性变换和Transformer的编码处理，得到文本特特征

和/>

对于数据中的问题文本特征和答案文本特征，同样使用独立的Transformer编码器进行编码处理，得到问题文本表示/>

和答案文本表示/>

其中，n_q是问题文本语句中的单词个数，/>

是答案文本语句a_iT中的单词个数。

3.问题引导注意力

受人类推理某种情绪背后的潜在原因的认知过程的启发，本发明使用视频中人物的面部特征来增强视觉分支，并使用视频故事梗概信息中的故事情节信息来增强文本分支。面部表情是人类情感的直接反映，在理解和推理视频中的情绪时，人们倾向于关注视频中人物的面部表情。使用面部表情增强视觉分支的第一步是借助注意力机制提取面部特征中与问题相关的信息。以视觉分支为例，问题引导注意力机制如下所示:

a^f＝softmax(s)

其中，s表示问题和面部特征之间的相似度，a^f表示面部特征

的空间注意力分数，最后通过依据空间注意力得分提取与问题相关的特征得到面部特征表示/>

增强后的视觉分支的视觉特征可以表示为/>

其中/>

n_v是视频片段对应的视频帧数目，；表示连接符号。

4.多模态情节记忆网络

情节记忆网络被设计用来从网络输入的事实序列中检索与问题相关的信息来回答问题，特别适用于需要依赖视频上下文推理的问题。本发明中利用情节记忆网络来更新和存储从多模态特征中提取的情绪推理线索。

在本发明中，三个独立分支对应的记忆网络模块在结构与上述情节记忆网络相同。每一个记忆网络模块需要进行3次更新，并且每一种模态特征被映射成输入事实表示矩阵F。

Visual-M是视觉分支对应的视觉记忆网络模块。首先将视觉特征组织成输入视觉记忆网络模块的视觉事实矩阵，将视频片段组织成每10秒作为一个处理单元。由于对视频帧的提取使用3fps，所以将视频片段按照每30帧进行切分，可以得到视频视觉表示V_s＝

其中，s_i表示第i个切分片段，n_s表示视频切分片段的个数。所以，/>

表示输入视觉记忆网络模块的视觉事实矩阵，并且f_i＝s_i。经过视觉记忆网络模块的处理，可以得到最终的视觉上下文表示/>

其中包含与问题相关的视觉信息。

Audio-M是音频分支对应的音频记忆网络模块，通过多步更新从音频特征中提取与问题相关的特征。在音频分支中经过Transformer编码器编码得到的音频特征

作为音频记忆网络模块的输入，即音频记忆网络模块的音频事实矩阵为

其中n_a是音频分段的数目。通过与视觉记忆网络模块相似的处理，可以得到音频记忆网络模块最后一次更新状态/>

作为最终的音频上下文表示/>

/>

Textual-M是文本分支对应的文本记忆网络模块，旨在通过学习文本特征和问题编码之间的交互关系来学习和存储文本特征中的情感信息。文本分支中的文本表示

作为文本记忆网络的输入文本事实矩阵F_t，其中sn_i表文本句向量表示，l_t表示文本特征中句子的数量。经过文本记忆网络多步更新对与问题相关的文本特征的学习，最后输出文本上下文表示/>

用于答案预测。

5、答案预测

答案预测模块旨在对视频多模态特征表示和问题-答案对编码进行联合建模，以预测问题对应的答案。答案预测模块的核心是上下文匹配模块。上下文匹配模块将最终的多模态上下文表示C^v,a,t、问题编码q_T以及答案编码

作为输入，分别学习针对问题编码和答案编码的情境感知注意力，可以得到情景感知的问题表示q^v,a,t，和情景感知的答案表示/>

由于在本发明的三个分支中，上下文匹配模块的工作原理是一样的，只是处理的视频模态特征不同，所以以视觉分支中上下文匹配模块为例陈述其工作过程。

视觉记忆网络模块输出作为视觉分支的上下文匹配模块的视觉特征输入，经过计算针对问题编码的视觉特征感知注意力可以得到视觉感知问题表示

另外，经过计算针对答案编码的视觉特征感知注意力可以得到视觉感知答案表示

最后，视觉分支答案预测模块对视觉特征C^v、问题表示q_v和答案表示

的融合表示如下:

其中，

表示元素间的乘法。视觉分支对答案预测概率分布计算如下:

其中，

对于音频分支和文本分支，可以使用相同的计算过程得到音频分支对答案的预测概率分布/>

和文本分支对答案的预测概率分布/>

最终答案预测概率分布计算如下：

P＝softmax(linear([P_v；P_a；P_t]))

用于最终的答案预测。

6、基于多模态数据的细粒度视频情绪内容问答模型的训练和验证

进一步的，对上述基于多模态数据的细粒度视频情绪内容问答深度学习模型进行训练和验证。该模型的损失函数为：

该模型的总体训练目标为：

/>

其中，X_R代表整个数据集所有的样本数据，θ_v,θ_a,θ_t分别是视觉分支、音频分支和文本分支的参数。通过对视觉分支、音频分支和文本分支的，更新参数θ_v,θ_a,θ_t。

本发明的另一实施例提供一种基于多模态数据的细粒度视频情绪内容问答***，其包括：

编码模块，用于对提取的多模态特征分别进行时序编码；

其中各模块的具体实施过程参见前文对本发明方法的描述。

实验数据：本发明所提出的方法与其他方法对比结果如表1所示。

表1

	方法	图像模态	音频模态	文本模态	准确率(％)
						1	Random	-	-	-	20.00
2	Longest Answer	-	-	-	32.24
						3	Shortest Answer	-	-	-	16.27
4	HRCN	P	-	-	47.41
						5	HGA	P	-	P	57.99
6	Two-stream	P	P	-	59.90
						7	Two-stream	P	-	P	58.46
8	Two-stream	-	P	P	58.59
						9	Two-stream	P	P	P	61.16
10	本发明方法-双模态	P	P	-	61.88
						11	本发明方法-双模态	P	-	P	69.07
12	本发明方法-双模态	-	P	P	58.91
						13	本发明方法	P	P	P	65.62

本发明的另一实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行以上所述方法的指令。

本发明的另一实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现以上所述的方法。

以上对本发明所述的基于多模态数据的细粒度视频情绪内容问答算法进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于多模态数据的细粒度视频情绪内容问答方法，其特征在于，包括以下步骤：

2)对于一个视频片段提取多模态特征，包括视觉特征、音频特征和文本特征，并将对应的问题-答案对进行编码，得到问题编码以及答案编码；

3)对提取的多模态特征分别进行时序编码；

5)将增强后的多模态特征输入情节记忆网络，利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索，捕捉情绪推理过程中的多模态关键信息，得到视频上下文表示；

6)将问题编码以及答案编码和视频上下文表示输入答案预测模块，分别学习针对问题编码和答案编码的情境感知注意力，得到最终的情感问答结果。

2.根据权利要求1所述的方法，其特征在于，所述视觉特征包括全局视觉特征和面部特征；使用在ImageNet数据集上预训练的Resnet-152模型提取全局视觉特征；提取面部特征的方法包括：使用预训练模型MTCNN检测视频帧中的面部区域，使用视频中主要角色的面部区域数据微调在Facenet上预训练的VGGFace2模型得到面部识别特征；使用在FER2013数据集上预训练的Facenet模型提取面部表情特征；将面部识别特征和面部表情特征拼接组成视频中人物的面部特征。

3.根据权利要求1所述的方法，其特征在于，采用openSIMLE音频特征提取器提取所述音频特征；采用预训练好的GloVe词嵌入工具方法提取所述文本特征和对问题-答案对进行编码；所述对提取的多模态特征分别进行时序编码，是使用transformer编码器进行时序编码。

4.根据权利要求1所述的方法，其特征在于，所述从视频的多模态特征中提取问题相关信息，是使用问题引导注意力得到问题相关的特征表示，包括以下步骤：

1)将面部特征