CN116226347A - 一种基于多模态数据的细粒度视频情绪内容问答方法和*** - Google Patents

一种基于多模态数据的细粒度视频情绪内容问答方法和*** Download PDF

Info

Publication number
CN116226347A
CN116226347A CN202310184746.1A CN202310184746A CN116226347A CN 116226347 A CN116226347 A CN 116226347A CN 202310184746 A CN202310184746 A CN 202310184746A CN 116226347 A CN116226347 A CN 116226347A
Authority
CN
China
Prior art keywords
video
features
question
answer
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310184746.1A
Other languages
English (en)
Inventor
马翠霞
秦航宇
杜肖兵
邓小明
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Publication of CN116226347A publication Critical patent/CN116226347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明属于视频问答领域,具体涉及一种基于多模态数据的细粒度视频情绪内容问答方法和***。本发明基于情节记忆网络构建视频情绪推理基线模型,设计针对视觉、音频和文本数据的多分支处理模块,并借助Transformer编码器编码多模态数据中的时序依赖,提取出的多模态特征包含多角度情绪内容,能够精确地完成细粒度视频情绪内容问答任务。本发明利用Transformer编码器在视频、音频和文本序列上学习时序关联关系,并提取与情绪分类相关的高维多模态特征,该时序关联关系对分析视频包含的情绪信息至关重要。本发明能够有效提高基于多模态的细粒度视频情绪内容问答任务结果的准确率。

Description

一种基于多模态数据的细粒度视频情绪内容问答方法和***
技术领域
本发明属于视频问答领域,具体涉及一种基于多模态数据的细粒度视频情绪内容问答方法和***。
背景技术
近年来,电影/电视节目中的情感分析在情感计算和人工智能***设计等领域得到越来越多的关注。电影/电视节目包含了丰富的交互场景和人物关系,视频中的角色能够体验与现实世界中的人类一样的情绪,例如奖励引起的兴奋,离别引起的悲伤。视频中以人为中心的视频场景与现实生活中的社交场景密切相关,这为训练人工智能***理解情绪背后的高级语义信息,即引发情绪的原因、意图和人的行为动机等,提供了平台,视频中包含的丰富情感为研究视频内容本身包含的情感内容提供了数据支持。
智能***需要具备对视频场景细粒度理解的能力,不仅能够识别情绪类别还能够通过可解释性方式对情绪背后的原因、意图和用户的行为动机等推理。在研究视频包含的情感内容的工作中,视频的多模态信息常被用来作为分析数据来源,如视频情绪识别人物。基于多模态信息的视频情绪识别方法主要通过音频、文本和视觉等信息来理解视频内容所传达的情感。例如,基于视频上下文信息和视频中人物的面部表情信息,使用由RNN组成的级联结构式模型来识别视频中的情绪;通过整合视频中人物的面部表情特征和视频背景信息,基于双流编码模型来识别视频情绪;基于视觉内容和文本词汇之间的相互作用,采用协同记忆网络识别多模态信息中的情感;基于多模态转换网络,将视觉和听觉表征统一映射到同一特征空间用于视频情绪识别等。上述显视频情感理解技术研究主要集中在视频情绪识别方法上,对于视频中情绪推理研究较少。随着智能交互应用的发展,研究人员开始探索基于多模态场景推理情绪背后的潜在原因的方法,例如基于视频对话中的多模态信息提取情感-原因对,通过对多模态信息的理解对情绪背后的原因进行推断。因此,在基于多模态信息的视频情绪识别的基础上,进一步研究视频情绪推理方法,为深入理解视频多模态内容中诱发情绪的原因提供支持。
为提高人机交互的智能性,在识别视频情绪的基础上,还需要正确理解用户的情感需求和意图,这也正是视频情绪推理工作的主要研究内容。因此,对视频情感理解技术的深度研究中,需要进一步研究如何使用可解释性方式对视频交互场景中的情绪推理,即理解视频背后的原因、意图和用户的行为动机。视频情绪推理工作需要针对以人为中心的视频交互场景进行,只有将人放在具体的情境之中,才能够充分利用交互过程中的多模态信息,完成对情绪的理解,进而对情绪涉及的多个方面进行推理。
1)现有技术:情感原因提取和情感推理
在对话文本上下文或多模态场景中发现特定情感表达背后的潜在原因一直是情感计算领域的一个热门话题。情感原因提取是情感分析的一项细化任务,其目的是探究对话中某种情感表达背后的潜在原因。Rui Xia等人(参考文献:Xia R,Zhang M,DingZ.RTHN:A rnn-transformer hierarchical network for emotion cause extraction[C]//Proceedings of the Twenty-Eighth International Joint Conference onArtificial Intelligence,IJCAI 2019,Macao,China,August 10-16,2019.ijcai.org,2019:5285-5291.)考虑了对话中多个子句之间的关系并用于情感原因提取工作。由于视频中的对话本身就是由多模态信息组成的,Rui Xia等人(参考文献:Wang F,Ding Z,Xia R,et al.Multi modal emotion-cause pair extraction in conversations[J].CoRR,2021,abs/2110.08020.)进一步提出多模态情感-原因对提取任务,并从对话的多模态信息中联合提取情绪及其诱发原因。MECPE是对ECE任务的进一步探究,要求模型具有较强的视频多模态信息理解和情绪推断能力,因为情绪的原因不一定只来自文本信息,有可能来自视觉场景。
此外,意见挖掘是文本情感分析中的一个重要问题,其中情感推理在文本情感分析任务中是处理“who holds the opinion and why”问题的一个子任务。虽然目前在视频情感理解领域对视频情绪推理任务的研究还比较少,但是从上面的相关工作可以看到对具有多模态信息的视频进行情绪推理具有深远的研究意义和应用价值。因此目前亟需一种可解释性的方式对视频中的情绪进行推理,充分理解视频多模态内容中诱发情绪的原因、意图以及人的行为动机等。
2)现有技术:多模态情感分析
视频中的多模态情感分析旨在通过音频、文本和视觉信息来理解视频内容所传达的情感。如Sun Man-Chin等人(参考文献:Sun M C,Hsu S H,Yang M C,et al.Context-aware cascade attention-based rnn for video emotion recognition[C]//2018FirstAsian Conference on Affective Computing and Intelligent Interaction(ACIIAsia).IEEE,2018:1-6.)提出了一个由两个RNN组成的级联结构式模型,利用视频上下文信息和视频中人物的面部表情信息来识别视频中的情绪。Lee Jiyoung等人(参考文献:LeeJ,Kim S,Kim S,et al.Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:10143-10152.)设计了一个深度网络以联合和提升的方式整合视频中人物的面部表情特征和视频背景信息来识别视频情绪。Nan Xu等人(参考文献:Xu N,Mao W,Chen G.A co-memory network for multimodal sentiment analysis[C]//The 41st InternationalACM SIGIR Conference on Research&Development in Information Re-trieval,SIGIR2018,Ann Arbor,MI,USA,July 08-12,2018.ACM,2018:929-932.)采用协同记忆网络对视觉内容和文本词汇之间的相互作用进行迭代建模,用于多模态情感分析。Qi Fan等人(参考文献:Qi F,Yang X,Xu C.Zero-shot video emotion recognition via multimodalprotagonist-aware transformer network[C]//MM’21:ACM Multimedia Conference,Virtual Event,China,Oc-tober 20-24,2021.ACM,2021:1074-1083.)提出了多模态转换网络,将视觉和听觉表征统一映射到同一特征空间用于视频情绪识别。
然而,上述多模态情感分析研究主要集中在由情绪标签监督的情绪识别任务上。近几年,一些工作开始关注对视频情绪的进一步理解。不同于对视频中角色的情绪类别直接识别,Guangyao Shen等人(参考文献:Shen G,Wang X,Duan X,et al.Memor:A datasetfor multimodal emotion reasoning in videos[C]//MM’20:The 28th ACMInternational Conference on Multimedia,Virtual Event/Seattle,WA,USA,October12-16,2020.ACM,2020:493-502.)提出了基于视频多模态信息的角色情绪推理,针对视频交互场景中缺少多模态信息的角色的情绪识别问题,提出借助同一场景下其他角色的情绪来对其进行情绪推理,该过程并不涉及对情绪背后的原因、意图和人的行为动机的理解。Zadeh等人(参考文献:Zadeh A,Chan M,Liang P P,et al.Social-iq:A questionanswering benchmark for artificial social intelligence[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8807-8817.)构建了Social-IQ数据集,并标注部分带有情感或情绪信息的问题-答案对,用以支持社会智能***通过推理问题的答案了解用户的心理状态。由上可知,在对多模态情感分析的基础上,基于多模态信息对视频情绪推理符合多模态情感分析的发展趋势,是下一步需要重点探究的问题。
3)现有技术:问答技术
与传统的基于情感标签的情绪识别不同,人工智能***需要超越情绪标签监督的情绪识别,实现通过可解释性方式对视频中情感进行推理的能力。问答技术是一种对潜在现象理解程度进行探索的可解释性方法,问答技术被用于不同研究领域并取得了不错的成果,例如自然语言处理、视觉和语言以及常识推理领域等。视频问答是一项以自然语言格式回答给定视频问题的任务,由于其在社会智能***和认知机器人等领域的适用性,在过去几年中引起了广泛的关注。目前在视频问答领域已有多种方法,包括注意力机制、多模态融合方法、动态记忆网络、多模态关系学习等,基于视频问答公开数据集取得了不错的结果,所以本发明选择依托问答任务来实现模型对视频情感的推理。
发明内容
视频情绪推理是目前视频情感理解领域的研究热点,基于问答形式的可解释性推理方式为理解视频中的情绪提供一种高效的方法。一般视频中情绪背后的原因、意图以及人的行为动机等相关信息会蕴含在视频多模态数据中,对视频场景进行细粒度的理解,并从多模态信息中提取对情绪推理有用的信息是有必要的。一般基于视频多模态信息的情绪推理工作中,一次推理很难学习到充分的有效信息,所以多步推理是提升模型效果的关键。
为解决上述问题,本发明提出的技术方案如下:
一种基于多模态数据的细粒度视频情绪内容问答方法,其步骤包括:
1)以若干句对话为单位对长视频进行分割,并分割对应的字幕文本与音频,得到若干视频片段;
2)对于一个视频片段提取多模态特征,包括视觉特征、音频特征和文本特征,并将对应的问题-答案对进行编码,得到问题编码qT以及答案编码
Figure BDA0004103337060000041
3)对提取的多模态特征分别进行时序编码;
4)基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息,使用视频中人物的面部特征增强视觉分支,使用视频故事梗概信息中的故事情节信息增强文本分支,得到增强后的多模态特征;
5)将增强后的多模态特征输入情节记忆网络,利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索,捕捉情绪推理过程中的多模态关键信息,得到视频上下文表示Cv,a,t
6)将上述问题编码qT以及答案编码
Figure BDA0004103337060000042
和视频上下文表示Cv,a,t输入答案预测模块,分别学习针对问题编码和答案编码的情境感知注意力,得到最终的情感问答结果P。
进一步地,所述以若干句对话为单位对长视频进行分割,是以n句对话为单位对长视频进行分割,其中n≤20。
进一步地,所述视觉特征包括全局视觉特征和面部特征。
进一步地,提取全局视觉特征的方法包括:使用在ImageNet数据集上预训练的Resnet-152模型。
进一步地,提取面部特征的方法包括:使用预训练模型MTCNN检测视频帧中的面部区域,使用视频中的主要角色(例如《老友记》视频中的6个主要角色)的面部区域数据微调在Facenet上预训练的VGGFace2模型,得到面部识别特征;使用在FER2013数据集上预训练的Facenet模型提取面部表情特征;将面部识别特征和面部表情特征拼接组成视频中人物的面部特征。
进一步地,提取音频特征的方法包括:使用openSIMLE音频特征提取器。
进一步地,提取文本特征和对问题-答案对进行编码的方法包括:采用预训练好的GloVe词嵌入工具方法。
进一步地,编码多模态信息的方法包括:使用transformer编码器。
进一步地,所述从视频的多模态特征中提取问题相关信息,是通过以下步骤使用问题引导注意力得到问题相关的特征表示:
1)将面部特征
Figure BDA0004103337060000051
与问题编码qT进行点乘,得到问题和特征之间的相似度s;
2)利用softmax函数处理点乘结果s,得到表示面部特征
Figure BDA0004103337060000052
的空间注意力af
3)将空间注意力af与面部特征
Figure BDA0004103337060000053
进行点乘,得到问题相关的特征表示/>
Figure BDA0004103337060000054
进一步地,通过以下步骤得到情节记忆网络输出的视频上下文表示Cv,a,t
1)注意力机制:计算t次更新过程的门机制注意力得分
Figure BDA0004103337060000055
其中Fattn表示注意力函数(参考文献:Xiong C,Merity S,Socher R.Dynamic memory networksfor visual and textual question answering[C]//JMLR Workshop and ConferenceProceedings:volume 48Proceedings of the 33nd International Conference onMachine Learning,ICML 2016,New York City,NY,USA,June 19-24,2016.JMLR.org,2016:2397-2406.),fi表示输出实时序列中的第i个事实向量,mt-1是记忆网络模块中的第t-1次更新后的状态,q表示问题编码向量;
2)记忆单元更新机制:计算记忆网络模块中GRU(gated recurrent unit)的第i个单元的隐藏层状态
Figure BDA0004103337060000056
其中hi表示GRU中第i个单元的隐藏层状态,并且GRU的最后一层隐藏层状态作为第t次记忆单元更新的视频多模态上下文表示
Figure BDA0004103337060000057
其中下标的t为第t次更新,上标的t为text文本模态;最后,更新第t次记忆单元状态
Figure BDA0004103337060000058
Figure BDA0004103337060000059
其中Fmem是记忆更新函数。
进一步地,通过以下步骤得到答案预测模块的视频问答结果:
1)使用上下文匹配模块(参考文献:Seo M J,Kembhavi A,Farhadi A,etal.Bidirectional attention flow for machine comprehension[C]//5thInternational Conference on Learning Representations,ICLR 2017,Toulon,France,April 24-26,2017,Conference Track Proceedings.OpenReview.net,2017.)计算各个模态特征与问题、答案表示的融合表示
Figure BDA00041033370600000512
Figure BDA00041033370600000510
其中Em记忆网络模块输出的各个模态特征,qv,a,t是情景感知的问题表示,/>
Figure BDA00041033370600000511
是情景感知的答案表示.
2)使用softmax函数和FC层处理融合表示,得到各个分支对答案预测概率分布
Figure BDA0004103337060000061
Figure BDA0004103337060000062
3)拼接三个模态得到的答案预测分布,并使用linear和softmax函数处理,得到最终答案预测概率分布P=softmax(linear([Pv;Pa;Pt]))。
进一步地,利用一视频情绪内容问答模型实现步骤3)-6),其中视频情绪内容问答模型采用端到端的训练,视频情绪内容问答模型的损失函数
Figure BDA0004103337060000063
其中是对五个候选答案的预测分布,P=[p0,…,p4]中每一个元素pi表示样本对应的答案是ai的概率;y=[y0,…,y4]是样本标签的独热编码表示,当样本对应的答案是ai时yi=1,否则yi=0。
一种基于多模态数据的细粒度视频情绪内容问答***,其包括:
视频分割模块,用于以若干句对话为单位对长视频进行分割,并分割对应的字幕文本与音频,得到若干视频片段;
多模态特征提取模块,用于对于一个视频片段提取多模态特征,包括视觉特征、音频特征和文本特征,并将对应的问题-答案对进行编码,得到问题编码以及答案编码;
编码模块,用于对提取的多模态特征分别进行时序编码;
多模态特征增强模块,用于基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息,使用视频中人物的面部特征增强视觉分支,使用视频故事梗概信息中的故事情节信息增强文本分支,得到增强后的多模态特征;
情节记忆网络模块,用于将增强后的多模态特征输入情节记忆网络,利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索,捕捉情绪推理过程中的多模态关键信息,得到视频上下文表示;
答案预测模块,用于以问题编码以及答案编码和视频上下文表示为输入,分别学习针对问题编码和答案编码的情境感知注意力,得到最终的情感问答结果。
一种计算机设备,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行以上所述方法的指令。
一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现以上所述的方法。
综上,和现有技术相比,本发明具有的优点和积极效果如下:
1.本发明基于情节记忆网络(Episode Memory Network)构建视频情绪推理基线模型,设计针对视觉、音频和文本数据的多分支处理模块,并借助Transformer编码器编码多模态数据中的时序依赖,提取出的多模态特征包含多角度情绪内容,能够精确地完成细粒度视频情绪内容问答任务。
2.本发明利用transformer编码器在视频、音频和文本序列上学习时序关联关系,并提取与情绪分类相关的高维多模态特征,该时序关联关系对分析视频包含的情绪信息至关重要。
3.本发明参考人在情绪推理过程中对人脸以及故事情节信息的关注,在视觉分支和文本分支中分别使用问题引导的注意力机制(Question-guided Attention)关注视觉特征中的面部表情特征和文本特征中的故事情节信息,并对文本特征中的故事梗概信息提取,有效提高了模型方法的推理精度和问答准确率。
4.本发明针对单步推理学习到的有效信息较少的问题,通过情节记忆网络对记忆单元的多步更新过程累积用于推理的多模态线索,用于最终情感相关问题答案预测,能够有效提高基于多模态的细粒度视频情绪内容问答任务结果。
附图说明
图1.多模态细粒度视频情绪内容问答任务示意图。
图2.基于多模态数据的细粒度视频情绪内容问答方法的网络框架流程图。
具体实施方式
为了使本技术领域的人员更好的理解本发明,以下结合附图进一步详细描述本发明所提供的多模态数据的细粒度视频情绪内容问答方法,但不构成对本发明的限制。
请参考图1、图2,本发明提出一种基于多模态信息的细粒度视频情绪内容问答方法,该方法基于视觉分支、音频分支和文本分支从视频多模态信息中提取问题相关特征;使用问题引导注意力对视觉特征中的面部表情特征信息提取,对文本特征中的故事梗概信息提取;通过多步迭代式更新情节记忆存储单元捕捉情感相关的线索实现多步情绪推理,分别利用Transformer编码器学习多模态数据时序依赖关系;利用问题引导注意力机制分别提取视觉分支中人脸表情信息和文本分支中故事情节信息;最后通过情节记忆网络的多步推理积累情绪推理线索,学习有效的视频上下文表示用于答案预测。
1.多模态特征提取
1)视觉特征提取
首先按照3fps从视频中提取视频帧用于后续视觉特征提取。本发明主要针对视频帧数据提取两种视觉特征:视频帧全局视觉特征和面部特征。
全局视觉特征:使用在ImageNet数据集上预训练的Resnet-152模型处理视频帧得到特征维度为204的视频帧视觉特征。然后,将一个视频片段对应的视频帧视觉特征堆叠起来得到表示整个视频片段的视觉特征
Figure BDA0004103337060000081
其中nclp表示视频片段中的视频帧数目。
面部特征:首先使用预训练模型MTCNN检测视频帧中的面部区域,基于视频中人物的面部区域主要提取两种特征,面部识别特征和面部表情特征。例如,通过使用《老友记》视频中的6个主要角色的面部区域数据微调在Facenet上预训练的VGGFace2模型得到面部识别特征;使用在FER2013数据集上预训练Facenet模型提取面部表情特征。最终,将面部识别特征和面部表情特征拼接组成视频中人物面部特征
Figure BDA0004103337060000082
其中nf表示每一个视频片段中人脸面部区域数目。/>
本方法中的视觉分支的输入数据是Vclp和Vf
2)音频特征提取
首先为了让音频数据和字幕文本对齐,根据字幕文本出现的时间戳将视频片段对应的音频数据切分成与字幕文本对应的20段,支持模型对音频片段之间的上下文关系学习。使用openSIMLE特征提取器在ComParE_2016配置文件的指导下对每一个视频片段对应的20段音频提取6373维的声学特征。最终每一个视频片段对应的声学特征可以表示为
Figure BDA0004103337060000083
其中na表示一个视频片段对应的音频段数目。
本方法中的音频分支的输入数据是A。
3)文本特征提取
对输入的文本数据首先提取字向量特征,借助在Wikipedia2014和Gigaword5上面训练的GloVe得到300维的词编码特征,得到每一段视频对应的字幕文本的特征表示S∈
Figure BDA0004103337060000084
其中nset表示一个视频片段对应的字幕文本句子个数,nwrd表示每一个句子中的单词个数。另外,每一个视频片段对应的故事梗概文本特征可以表示为
Figure BDA0004103337060000085
其中nks表示每一个视频片段对应的故事梗概中的句子数目,nkw表示每一个句子中的单词数目。
本方法中的文本分支对应的输入数据为S和K。
2.基于Transformer的多模态信息编码
Transformer在大量的自然语言处理问题中表现出色,具有学习长距离数据依赖的能力。Transformer对序列数据的长时依赖学习能力主要依赖于自注意力机制。此外,为了能够学习序列数据在不同特征子空间的信息,本发明使用多头注意力机制在Transformer中通过并行处理多个自注意力机制来实现,公式表示为:
MHA(Q,K,V)=Concat(head1,…,headk)W0
Figure BDA0004103337060000086
Figure BDA0004103337060000091
其中,Q表示查询(query)矩阵,K表示键值(key)矩阵,V表示价值(value)矩阵,W是权重矩阵,Attention(·)表示自注意力机制计算过程。headi表示多头注意力机制中的第i个“注意力头”。本方法使用三个独立的Transformer编码器来对每个分支的序列输入数据进行时序编码处理,Transformer编码器层数为2,多头注意力中的“注意力头”的数目为6。
对于视觉分支,输入数据包括Vclp和Vf。在对输入数据进一步编码之前,首先使用线性变换层分别处理视觉特征Vclp和Vf,将两种视觉特征维度统一为300,得到线性变换后的视觉特征
Figure BDA0004103337060000092
和/>
Figure BDA0004103337060000093
然后,将/>
Figure BDA0004103337060000094
和/>
Figure BDA0004103337060000095
分别作为Transformer编码器的输入数据,学习视频视觉序列特征的时序依赖信息。然后,Transformer编码器的最后一层输出作为进一步编码得到的视觉特征/>
Figure BDA0004103337060000096
和/>
Figure BDA0004103337060000097
对于音频分支,使用同样方法通过线性变换和Transformer的编码处理,得到音频数据的进一步编码特征
Figure BDA0004103337060000098
对于文本分支,使用同样方法通过线性变换和Transformer的编码处理,得到文本特特征
Figure BDA0004103337060000099
和/>
Figure BDA00041033370600000910
对于数据中的问题文本特征和答案文本特征,同样使用独立的Transformer编码器进行编码处理,得到问题文本表示/>
Figure BDA00041033370600000911
和答案文本表示/>
Figure BDA00041033370600000912
Figure BDA00041033370600000913
其中,nq是问题文本语句中的单词个数,/>
Figure BDA00041033370600000914
是答案文本语句aiT中的单词个数。
3.问题引导注意力
受人类推理某种情绪背后的潜在原因的认知过程的启发,本发明使用视频中人物的面部特征来增强视觉分支,并使用视频故事梗概信息中的故事情节信息来增强文本分支。面部表情是人类情感的直接反映,在理解和推理视频中的情绪时,人们倾向于关注视频中人物的面部表情。使用面部表情增强视觉分支的第一步是借助注意力机制提取面部特征中与问题相关的信息。以视觉分支为例,问题引导注意力机制如下所示:
Figure BDA00041033370600000915
af=softmax(s)
Figure BDA00041033370600000916
其中,s表示问题和面部特征之间的相似度,af表示面部特征
Figure BDA00041033370600000917
的空间注意力分数,最后通过依据空间注意力得分提取与问题相关的特征得到面部特征表示/>
Figure BDA00041033370600000918
增强后的视觉分支的视觉特征可以表示为/>
Figure BDA0004103337060000101
其中/>
Figure BDA0004103337060000102
nv是视频片段对应的视频帧数目,;表示连接符号。
4.多模态情节记忆网络
情节记忆网络被设计用来从网络输入的事实序列中检索与问题相关的信息来回答问题,特别适用于需要依赖视频上下文推理的问题。本发明中利用情节记忆网络来更新和存储从多模态特征中提取的情绪推理线索。
在本发明中,三个独立分支对应的记忆网络模块在结构与上述情节记忆网络相同。每一个记忆网络模块需要进行3次更新,并且每一种模态特征被映射成输入事实表示矩阵F。
Visual-M是视觉分支对应的视觉记忆网络模块。首先将视觉特征组织成输入视觉记忆网络模块的视觉事实矩阵,将视频片段组织成每10秒作为一个处理单元。由于对视频帧的提取使用3fps,所以将视频片段按照每30帧进行切分,可以得到视频视觉表示Vs
Figure BDA0004103337060000103
其中,si表示第i个切分片段,ns表示视频切分片段的个数。所以,/>
Figure BDA0004103337060000104
Figure BDA0004103337060000105
表示输入视觉记忆网络模块的视觉事实矩阵,并且fi=si。经过视觉记忆网络模块的处理,可以得到最终的视觉上下文表示/>
Figure BDA0004103337060000106
其中包含与问题相关的视觉信息。
Audio-M是音频分支对应的音频记忆网络模块,通过多步更新从音频特征中提取与问题相关的特征。在音频分支中经过Transformer编码器编码得到的音频特征
Figure BDA0004103337060000107
作为音频记忆网络模块的输入,即音频记忆网络模块的音频事实矩阵为
Figure BDA0004103337060000108
其中na是音频分段的数目。通过与视觉记忆网络模块相似的处理,可以得到音频记忆网络模块最后一次更新状态/>
Figure BDA0004103337060000109
作为最终的音频上下文表示/>
Figure BDA00041033370600001010
/>
Textual-M是文本分支对应的文本记忆网络模块,旨在通过学习文本特征和问题编码之间的交互关系来学习和存储文本特征中的情感信息。文本分支中的文本表示
Figure BDA00041033370600001011
Figure BDA00041033370600001012
作为文本记忆网络的输入文本事实矩阵Ft,其中sni表文本句向量表示,lt表示文本特征中句子的数量。经过文本记忆网络多步更新对与问题相关的文本特征的学习,最后输出文本上下文表示/>
Figure BDA00041033370600001013
用于答案预测。
5、答案预测
答案预测模块旨在对视频多模态特征表示和问题-答案对编码进行联合建模,以预测问题对应的答案。答案预测模块的核心是上下文匹配模块。上下文匹配模块将最终的多模态上下文表示Cv,a,t、问题编码qT以及答案编码
Figure BDA00041033370600001014
作为输入,分别学习针对问题编码和答案编码的情境感知注意力,可以得到情景感知的问题表示qv,a,t,和情景感知的答案表示/>
Figure BDA00041033370600001015
由于在本发明的三个分支中,上下文匹配模块的工作原理是一样的,只是处理的视频模态特征不同,所以以视觉分支中上下文匹配模块为例陈述其工作过程。
视觉记忆网络模块输出作为视觉分支的上下文匹配模块的视觉特征输入,经过计算针对问题编码的视觉特征感知注意力可以得到视觉感知问题表示
Figure BDA0004103337060000111
另外,经过计算针对答案编码的视觉特征感知注意力可以得到视觉感知答案表示
Figure BDA0004103337060000112
最后,视觉分支答案预测模块对视觉特征Cv、问题表示qv和答案表示
Figure BDA0004103337060000113
的融合表示如下:
Figure BDA0004103337060000114
其中,
Figure BDA0004103337060000115
表示元素间的乘法。视觉分支对答案预测概率分布计算如下:
Figure BDA0004103337060000116
其中,
Figure BDA0004103337060000117
对于音频分支和文本分支,可以使用相同的计算过程得到音频分支对答案的预测概率分布/>
Figure BDA0004103337060000118
和文本分支对答案的预测概率分布/>
Figure BDA0004103337060000119
最终答案预测概率分布计算如下:
P=softmax(linear([Pv;Pa;Pt]))
Figure BDA00041033370600001110
用于最终的答案预测。
6、基于多模态数据的细粒度视频情绪内容问答模型的训练和验证
进一步的,对上述基于多模态数据的细粒度视频情绪内容问答深度学习模型进行训练和验证。该模型的损失函数为:
Figure BDA00041033370600001111
该模型的总体训练目标为:
Figure BDA00041033370600001112
/>
其中,XR代表整个数据集所有的样本数据,θvat分别是视觉分支、音频分支和文本分支的参数。通过对视觉分支、音频分支和文本分支的,更新参数θvat
本发明的另一实施例提供一种基于多模态数据的细粒度视频情绪内容问答***,其包括:
视频分割模块,用于以若干句对话为单位对长视频进行分割,并分割对应的字幕文本与音频,得到若干视频片段;
多模态特征提取模块,用于对于一个视频片段提取多模态特征,包括视觉特征、音频特征和文本特征,并将对应的问题-答案对进行编码,得到问题编码以及答案编码;
编码模块,用于对提取的多模态特征分别进行时序编码;
多模态特征增强模块,用于基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息,使用视频中人物的面部特征增强视觉分支,使用视频故事梗概信息中的故事情节信息增强文本分支,得到增强后的多模态特征;
情节记忆网络模块,用于将增强后的多模态特征输入情节记忆网络,利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索,捕捉情绪推理过程中的多模态关键信息,得到视频上下文表示;
答案预测模块,用于以问题编码以及答案编码和视频上下文表示为输入,分别学习针对问题编码和答案编码的情境感知注意力,得到最终的情感问答结果。
其中各模块的具体实施过程参见前文对本发明方法的描述。
实验数据:本发明所提出的方法与其他方法对比结果如表1所示。
表1
方法 图像模态 音频模态 文本模态 准确率(%)
1 Random - - - 20.00
2 Longest Answer - - - 32.24
3 Shortest Answer - - - 16.27
4 HRCN P - - 47.41
5 HGA P - P 57.99
6 Two-stream P P - 59.90
7 Two-stream P - P 58.46
8 Two-stream - P P 58.59
9 Two-stream P P P 61.16
10 本发明方法-双模态 P P - 61.88
11 本发明方法-双模态 P - P 69.07
12 本发明方法-双模态 - P P 58.91
13 本发明方法 P P P 65.62
本发明的另一实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行以上所述方法的指令。
本发明的另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现以上所述的方法。
以上对本发明所述的基于多模态数据的细粒度视频情绪内容问答算法进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (10)

1.一种基于多模态数据的细粒度视频情绪内容问答方法,其特征在于,包括以下步骤:
1)以若干句对话为单位对长视频进行分割,并分割对应的字幕文本与音频,得到若干视频片段;
2)对于一个视频片段提取多模态特征,包括视觉特征、音频特征和文本特征,并将对应的问题-答案对进行编码,得到问题编码以及答案编码;
3)对提取的多模态特征分别进行时序编码;
4)基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息,使用视频中人物的面部特征增强视觉分支,使用视频故事梗概信息中的故事情节信息增强文本分支,得到增强后的多模态特征;
5)将增强后的多模态特征输入情节记忆网络,利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索,捕捉情绪推理过程中的多模态关键信息,得到视频上下文表示;
6)将问题编码以及答案编码和视频上下文表示输入答案预测模块,分别学习针对问题编码和答案编码的情境感知注意力,得到最终的情感问答结果。
2.根据权利要求1所述的方法,其特征在于,所述视觉特征包括全局视觉特征和面部特征;使用在ImageNet数据集上预训练的Resnet-152模型提取全局视觉特征;提取面部特征的方法包括:使用预训练模型MTCNN检测视频帧中的面部区域,使用视频中主要角色的面部区域数据微调在Facenet上预训练的VGGFace2模型得到面部识别特征;使用在FER2013数据集上预训练的Facenet模型提取面部表情特征;将面部识别特征和面部表情特征拼接组成视频中人物的面部特征。
3.根据权利要求1所述的方法,其特征在于,采用openSIMLE音频特征提取器提取所述音频特征;采用预训练好的GloVe词嵌入工具方法提取所述文本特征和对问题-答案对进行编码;所述对提取的多模态特征分别进行时序编码,是使用transformer编码器进行时序编码。
4.根据权利要求1所述的方法,其特征在于,所述从视频的多模态特征中提取问题相关信息,是使用问题引导注意力得到问题相关的特征表示,包括以下步骤:
1)将面部特征
Figure FDA0004103337050000011
与问题编码qT进行点乘,得到问题和特征之间的相似度s;
2)利用softmax函数处理点乘结果s,得到表示面部特征
Figure FDA0004103337050000012
的空间注意力af
3)将空间注意力af与特征
Figure FDA0004103337050000013
进行点乘,得到问题相关的特征表示/>
Figure FDA0004103337050000014
5.根据权利要求1所述的方法,其特征在于,通过以下步骤得到所述情节记忆网络输出的视频上下文表示Cv,a,t
1)注意力机制:计算t次更新过程的门机制注意力得分
Figure FDA0004103337050000021
其中Fattn表示注意力函数,fi表示输出实时序列中的第i个事实向量,mt-1是记忆网络模块中的第t-1次更新后的状态,q表示问题编码向量;
2)记忆单元更新机制:计算记忆网络模块中GRU的第i个单元的隐藏层状态
Figure FDA0004103337050000022
Figure FDA0004103337050000023
其中hi表示GRU中第i个单元的隐藏层状态,并且GRU的最后一层隐藏层状态作为第t次记忆单元更新的视频上下文表示/>
Figure FDA0004103337050000024
最后,更新第t次记忆单元状态/>
Figure FDA0004103337050000025
其中Fmem是记忆更新函数。
6.根据权利要求1所述的方法,其特征在于,通过以下步骤得到所述答案预测模块的视频问答结果:
使用上下文匹配模块计算各个模态特征与问题、答案表示的融合表示;
使用softmax函数和FC层处理融合表示,得到各个分支对答案预测的概率分布;
拼接三个模态得到的答案预测的概率分布,并使用linear和softmax函数处理,得到最终答案预测概率分布。
7.根据权利要求1所述的方法,其特征在于,利用视频情绪内容问答模型实现步骤3)-6),其中视频情绪内容问答模型采用端到端的训练,视频情绪内容问答模型的损失函数
Figure FDA0004103337050000026
P=[p0,…,p4]中每一个元素pi表示样本对应的答案是ai的概率;y=[y0,…,y4]是样本标签的独热编码表示,当样本对应的答案是ai时yi=1,否则yi=0。
8.一种基于多模态数据的细粒度视频情绪内容问答***,其特征在于,包括以下步骤:
视频分割模块,用于以若干句对话为单位对长视频进行分割,并分割对应的字幕文本与音频,得到若干视频片段;
多模态特征提取模块,用于对于一个视频片段提取多模态特征,包括视觉特征、音频特征和文本特征,并将对应的问题-答案对进行编码,得到问题编码以及答案编码;
编码模块,用于对提取的多模态特征分别进行时序编码;
多模态特征增强模块,用于基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息,使用视频中人物的面部特征增强视觉分支,使用视频故事梗概信息中的故事情节信息增强文本分支,得到增强后的多模态特征;
情节记忆网络模块,用于将增强后的多模态特征输入情节记忆网络,利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索,捕捉情绪推理过程中的多模态关键信息,得到视频上下文表示;
答案预测模块,用于以问题编码以及答案编码和视频上下文表示为输入,分别学习针对问题编码和答案编码的情境感知注意力,得到最终的情感问答结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
CN202310184746.1A 2022-10-26 2023-03-01 一种基于多模态数据的细粒度视频情绪内容问答方法和*** Pending CN116226347A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022113201198 2022-10-26
CN202211320119 2022-10-26

Publications (1)

Publication Number Publication Date
CN116226347A true CN116226347A (zh) 2023-06-06

Family

ID=86580223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310184746.1A Pending CN116226347A (zh) 2022-10-26 2023-03-01 一种基于多模态数据的细粒度视频情绪内容问答方法和***

Country Status (1)

Country Link
CN (1) CN116226347A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635785A (zh) * 2024-01-24 2024-03-01 卓世科技(海南)有限公司 一种护工数字人生成方法及***
CN117891913A (zh) * 2023-12-26 2024-04-16 大湾区大学(筹) 多模态视听问题的答案预测方法、电子设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891913A (zh) * 2023-12-26 2024-04-16 大湾区大学(筹) 多模态视听问题的答案预测方法、电子设备及介质
CN117635785A (zh) * 2024-01-24 2024-03-01 卓世科技(海南)有限公司 一种护工数字人生成方法及***
CN117635785B (zh) * 2024-01-24 2024-05-28 卓世科技(海南)有限公司 一种护工数字人生成方法及***

Similar Documents

Publication Publication Date Title
Liu et al. Multi-modal fusion network with complementarity and importance for emotion recognition
Huang et al. Image captioning with end-to-end attribute detection and subsequent attributes prediction
Shou et al. Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis
Saha et al. Towards emotion-aided multi-modal dialogue act classification
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
Huang et al. Multimodal continuous emotion recognition with data augmentation using recurrent neural networks
CN116226347A (zh) 一种基于多模态数据的细粒度视频情绪内容问答方法和***
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN113392265A (zh) 多媒体处理方法、装置及设备
Wu et al. Research on the Application of Deep Learning-based BERT Model in Sentiment Analysis
Gan et al. DHF-Net: A hierarchical feature interactive fusion network for dialogue emotion recognition
Zeng et al. Robust multimodal sentiment analysis via tag encoding of uncertain missing modalities
Xu et al. Gar-net: A graph attention reasoning network for conversation understanding
Chaudhary et al. Signnet ii: A transformer-based two-way sign language translation model
Sun et al. Rumour detection technology based on the BiGRU_capsule network
Yang et al. Self-adaptive context and modal-interaction modeling for multimodal emotion recognition
Du et al. Multimodal emotion recognition based on feature fusion and residual connection
Weng et al. A survey of artificial intelligence techniques on MOOC of legal education
Manousaki et al. Vlmah: Visual-linguistic modeling of action history for effective action anticipation
Xu et al. Humor Detection System for MuSE 2023: Contextual Modeling, Pesudo Labelling, and Post-smoothing
CN113191135A (zh) 一种融合颜文字的多类别情感提取方法
Li et al. CCMA: CapsNet for audio–video sentiment analysis using cross-modal attention
CN118093936B (zh) 视频标签处理方法、装置、计算机设备和存储介质
Yang et al. GME-dialogue-NET: gated multimodal sentiment analysis model based on fusion mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination