CN117496388A - 基于动态记忆网络的跨模态视频描述模型 - Google Patents
基于动态记忆网络的跨模态视频描述模型 Download PDFInfo
- Publication number
- CN117496388A CN117496388A CN202310646828.3A CN202310646828A CN117496388A CN 117496388 A CN117496388 A CN 117496388A CN 202310646828 A CN202310646828 A CN 202310646828A CN 117496388 A CN117496388 A CN 117496388A
- Authority
- CN
- China
- Prior art keywords
- video
- attention
- layer
- features
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 92
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000010606 normalization Methods 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims abstract description 10
- 230000000750 progressive effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 45
- 230000007246 mechanism Effects 0.000 description 30
- 238000013461 design Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 230000014509 gene expression Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000011160 research Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000002360 explosive Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 241001416152 Bos frontalis Species 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于基于动态记忆网络的跨模态视频描述的方法,包括:将视频输入到编码器中以获得与所述视频相对应的视频特征,作为所述编码器的输出;基于所述视频特征与历史注意力特征来产生上下文信息;将所述视频特征和所述上下文信息输入融合卷积的多头自注意力层;将所述多头自注意力层的输出经由第一前馈全连接层和归一化层输入到基于通道注意力的多头注意力层,其中,所述基于通道注意力的多头注意力层用于通道的重新加权;将所述通道注意力的多头注意力层经过第二前馈全连接层和归一化层后采用sigmoid激活函数输出。
Description
技术领域
本发明涉及图像和视频处理领域,更具体而言,涉及基于人工神经网络网络的视频检索,再更具体而言,涉及用于基于动态记忆网络的跨模态视频描述模型的方法、装置和计算机程序产品。
背景技术
视频已成为人们日常生产和生活中必不可少的媒体形式。随着互联网应用的快速发展,视频用户呈现出爆发式增长的态势。截至2022年12月,我国网络视频(含短视频)用户规模达10.31亿,较2021年12月增长5586万,占网民整体的96.5%。其中短视频用户规模为10.12亿,较2021年12月增长7770万,占网民整体的94.8%。大规模的用户数量带来了海量的视频数据,其中包含的取之不尽的信息是互联网上最为宝贵的资源。然而,面对如此海量的视频数据,如何高效检索到需要的视频内容,充分挖掘视频包含的信息成为视频领域的一个关键性技术难题。视频检索和描述技术应运而生。
对于视频检索任务,如何理解视频中的多模态信息以及查询语句的文本信息,并进行跨模态信息的对齐与交互,是视频检索任务的核心问题。视频检索旨在利用用户提供的自然语言查询语句,在众多视频中找到最符合语句描述的目标视频。传统的视频检索技术仅允许输入关键词,通过人工标注的视频内容标签检索相关视频。随着视频数据的爆发式增长和检索技术的发展,传统的视频检索方式已不再适用。首先,传统方式需要人工使用关键词注释视频内容,难以满足视频数据爆发式增长的态势;其次,传统方式本质上是基于关键词匹配的检索技术,没有充分利用视频本身的语义信息,对视频内容的适应能力不强;第三,与图像、文本等相比,视频数据的结构更为复杂,往往包含多种模态的数据,如图像、音频、文本、运动等,不同模态数据之间存在异质性,使跨模态视频检索变得困难。
对于视频描述任务,如何捕捉到视频数据中的时空信息,构建连贯的视频特征向量,对于形成通顺、准确的文本段落十分重要。视频描述旨在利用自然语言描述视频中的单个或多个事件,广泛适用于人机交互、视频标题生成等。与静止的单帧图像不同,视频是由连续的帧组成的,一个典型的视频片段持续5到10秒,包含120到240帧,可能涉及多个静态对象和多种动态行为,因此,视频描述比图像描述更具挑战性。虽然视频包含如此大量的信息,但人们不会对视频中的所有内容进行描述,也很难确定最相关的对象并对事件进行适当的描述。因此,一个好的描述生成模型需要能够关注视频中最相关的部分,这对机器来说是项非常困难的任务。早期研究通过识别视频中的实体以及它们之间的时间和空间关系,并将其编码为概念性特征,包括对象、动作以及场景等,然后再通过自然语言模型翻译为完整的文本描述。这种视频描述模型多基于固定的模板定式,存在低级特征和高级特征之间的语义鸿沟,这种鸿沟的产生本质上也是由于不同模态数据之间的异质性造成的。
不同的语言和不同背景下收集的数据集都可以被视为不同的模态。有些情况下,数据的存在形式虽然不同,但所描述的都是同一事物或事件。视频通常包括视觉、文本、语音等多种模态信息,单一模态往往难以表征视频的全部内容,所以视频检索与描述研究往往需要多种模态信息来丰富模型对于同一事物或事件的认识,这就需要实现不同模态数据之间的关系建模。然而,视频本身具有内容丰富、原始数据量巨大、先验结构少等特点,这让机器理解并建立多模态之间的联系成为了一项棘手的问题,使得视频检索和视频描述任务变得相当困难。为解决视频检索与视频描述任务中不同模态带来的语义鸿沟问题,视频向量化技术蓬勃发展。近五年来,利用向量化技术解决跨模态问题的最新研究都采用了深度学习技术,这些研究成果在对原始数据进行向量化处理后,使用映射学习技术将不同模态的特征映射到同一公共子空间,通过目标函数在训练迭代中使得具有相同意义的文本、视频等不断逼近,从而消除不同模态之间的语义差距。
综上所述,面临海量视频数据,传统的方法难以有效利用海量数据信息,亟待强大的视频检索与描述模型。此外,视频检索与描述任务的研究还需要充分利用现有视频数据中不同模态之间的数据交互,探究具有更强表征能力的视频特征向量构建模型。视频检索与描述技术的发展会为许多应用领域带来巨大的机遇。因此本文对视频检索与视频描述的研究讨论,存在重要的研究意义和社会价值。
(1)视频向量化
向量化是指将现实世界中的多媒体数据按照一定的方法转换为向量的过程,它将探究不同模态之间语义相似的过程转化为对向量间距离或角度的计算。视频向量化是从视频中提取关键帧,从每一帧中提取特征,包括局部特征和全局特征,并将其转换为结构化向量的过程。将视频转换为向量后,计算视频间的相似度就相当于计算向量间的相似度。转换方法决定了原始数据向量表示的准确性。当前,视频向量化技术大致分可为以下三类:
第一类方法采用视频内容有监督地学习视频向量。通常基于视频的种类有监督地训练一个动作识别网络,然后从网络的中间层提取视频向量,这类方法的重点在于动作识别网络的设计。Bei Chen等人提出一个三维密集连接卷积网络(DenseNet3D),用密集连接卷积网络中的三维卷积取代原来的卷积层,以捕捉视频的时空特征(Chen B,Yuan J,BaoX.Automatic 2D-to-3D video conversion using 3Ddensely connected convolutionalnetworks[C]//In 2019IEEE 31st International Conference on Tools withArtificial Intelligence(ICTAI),2019.361-367)。Christoph Feichtenhofer等人研究了在空间和时间上融合ConvNet网络的方法,以便更好地利用空间与时间信息(Feichtenhofer C,Pinz A,Zisserman A.Convolutional Two-Stream Network Fusionfor Video Action Recognition[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016.1933-1941)。冯凯等人提出了一种基于3D残差网络的视频向量化方法,利用帧与帧之间的动态关系来提升模型对于视频特征的提取能力(冯凯,崔弘,吴锐.基于3D残差网络的视频哈希检索[J].电子设计工程,2021,29(22):128-133)。
第二类方法使用视频内容无监督地学习视频向量嵌入。第一类方法需要大量的视频标注,十分耗时、耗力。无监督学习方法不需要额外的标注,从视频自身的结构信息中学习特征表示,例如,视频重建和未来帧预测、视频帧先后顺序验证、视频的多模态信息等。Mithun等人利用视频的图像、运动和音频信息进行特征向量的构建,采用双嵌入空间匹配学习视频表示(Mithun NC,Li J,Metze F,et al.Learning Joint Embedding withMultimodal Cues for Cross-Modal Video-Text Retrieval[C]//Proceedings of the2018ACM on International Conference on Multimedia Retrieval,2018.19-27)。YangLiu等人将视频划分为运动、RGB、场景、人脸、OCR、语音和音频7种模态,利用多模态信息间的交互,生成综合性较强的特征向量(Liu Y,Albanie S,Nagrani A,et al.Use What YouHave:Video retrieval using representations from collaborative experts[R].arXiv preprint arXiv:190713487,2019)。Simonyan等人将视频以单帧和多帧光流图像的形式输入到双流卷积网络中,捕捉对象静止和运动情形下的互补外观信息(Simonyan K,Zisserman A.Two-stream Convolutional Networks for Action Recognition inVideos[C]//Advances in Neural Information Processing Systems(NeurIPS),2014.568-576)。HanFang等人和Karpathy等人对视频序列基于时间信息构建特征向量,并探索了多种时序特征融合的方法(Fang H,Xiong P,Xu L,et al.CLIP2Video:MasteringVideo-Text Retrieval via Image CLIP[R].arXiv preprint arXiv:210611097,2021;Karpathy A,Joulin A,Fei-Fei L.Deep Fragment Embeddings for BidirectionalImage Sentence Mapping[C]//Advances in Neural Information Processing Systems(NeurIPS),2014.1889-1897)。
第三类方法通过用户行为学习视频向量。如果知道每个用户的视频观看序列,由于用户有特定类型的视频观看喜好,用户在短时间内一起观看的视频通常有很高的相似性,利用用户观看序列信息,可以学习得到视频的向量嵌入(谭金波.网络视频检索的用户信息行为研究[J].图书情报工作,2013,57(8):125-129)。其中Item2Vec将自然语言处理中经典的Word2Vec方法应用到用户行为数据中,并在后续工作中不断优化(Barkan O,Koenigstein N.Item2Vec:Neural Item Embedding for Collaborative Filtering[J].In 2016IEEE 26th International Workshop on Machine Learning for SignalProcessing(MLSP),2016.1-6;Mikolov T,Chen K,Corrado G,et al.EfficientEstimation of Word Representations in Vector Space[C]//InternationalConference on Learning Representations,2013)。DeepWalk基于图的随机游走学习视频嵌入,是介于图方法和Item2Vec方法之间的过渡(Macskassy S,Perlich C,Leskovec J,etal.DeepWalk:Online Learning of Social Representations[C]//Proceedings ofthe20th ACM SIGKDDInternational Conference on Knowledge Discovery and DataMining,2014.701-710)。
(2)跨模态视频检索技术
视频-文本检索(Video-Text Retrieval)要求根据文本检索视频,或根据视频检索文本。目前的主流方法首先将视频和文本编码成特征向量,然后学习一个联合嵌入空间(Joint Embedding Space),由于在空间中含义相近的向量,其位置是相近的,因此可以通过计算向量间相似度实现检索。随着采用深度学习技术在自然语言处理、计算机视觉等领域的研究愈来愈多,深度学习技术自然也被应用于视频检索领域,用以表达不同模态间更深层次的语义信息,获得更好的检索性能。
采用深度学习技术的视频检索模型主要由特征提取和相似度计算两部分组成,按照网络结构可划分为单流法和双流法,如图1所示。
单流法利用一个网络同时处理文本查询和视频数据,这种方法同时输入所有的数据,因此可以产生准确的相关性估计。VideoBERT、ActBERT是两个基于Transformer构建的视频检索单流模型,受到自然语言处理领域对于语言建模的启发,将视频与文本共同输入到一个网络进行训练,有益于在大量未标记的数据上做自监督学习。然而,单流方法有一个显著的缺点,即它是不可扩展的,对于每一个输入查询,搜索***都要计算每一个视频序列的全部前向传播。
双流法使用两个不同的神经网络处理文本查询和视频数据,然后嵌入在一个公共空间中,计算文本查询和视频片段之间的语义相似度。示意图如图1(b)所示。如RyanKiros等人受多模态学习和机器翻译最新进展的启发,对视觉和文本的联合嵌入空间进行了研究。Mithun等人采用CNN获取图像、运动和音频等多模态线索,GRU获取查询的文本特征,再嵌入联合空间。Dong等人使用了三个分支模型分别编码视频和文本查询,嵌入公共空间进行学习。双流模型是可扩展的,这种模型允许预先计算来自数据库的所有视频的向量嵌入,因此可以迅速获取相关视频。同时,双流模型可单独通过文本网络输出查询向量,只需计算新的查询嵌入和所有预计算的视频嵌入之间的相关性,即可完成视频检索任务。
按照信息表达方式,视频检索模型可划分为单模法和多模法。基于单模态的方法将视频数据视为一种模态来提取相量表示和后续处理,如图2所示。Han Fang等人采用ViT模型直接对视频帧数据进行向量化操作,提取出非重叠的图像块,并使用线性投影将每个块映射到一维序列中。其中,ViT模型是针对图像数据,基于Transformer结构所设计的一种图像编码器,能够较好的建模视觉信息。Huaishao Luo等人将视频视为一个整体,通过一个用于扁平化图像块的线性投影模块,使用ViT来获得帧的向量表示。Max Bain等人对ViT和Transformer结构进行改编和扩展,提出的向量化模型中包含了对空间和时间的关注。
需要指出的是,视频数据中往往包含文本、图像、音频、视频等形式的内容,它们大多用于描述相同的事件或主题,单模法难以有效提取视频的特征,因此多模法的研究逐渐成为热点。
在多模法中,视频划分为多种模态信息,模态的认定可以是外观、音频、动作等,如图3所示,也可以是全局与局部、高层与底层的不同划分结果。Yang Liu等人将视频划分为对象、场景、动作、人脸、OCR、语音、音频七种模态信息,并设计了一种联合网络来融合多模态信息进行视频检索任务。Valentin Gabeur等人大致沿用了前者所采用的多种模态特征,不同的是其采用多模态Transformer网络进行模态融合,该网络为不同模态添加了类别标签和时间编码,再由BERT输出文本查询向量,通过计算查询和视频向量的相似度完成跨模态检索任务。Song等人使用多义实例嵌入网络(PIE-Net)获取全局信息和多个局部特征信息进行视频检索,该网络利用Transformer模型进行局部和全局编码器的设计。Song Liu等人提出层次跨模态对比匹配网络HCM,该网络的底层和高层侧重编码不同层次的信息,并分别计算相似度再结合获取视频排名。多种模态的划分基于人为设定的抽象概念,研究表示这有利于探索视频的语义信息,形成更强的视频表征向量,跨越不同模态进行视频检索任务。
(3)跨模态视频描述
视频描述生成(Video Description/Captioning)要求给定一个视频,生成描述这个视频内容的一段文字,这个任务可以理解为视频序列到文本序列的端到端任务。在近些年的研究中,大多工作都使用编码器-解码器(Encoder-Decoder)的结构,如图4所示。现有的视频描述模型主要有两种方法,一种是基于语言模板的方法,一种是基于神经网络的方法。
基于语言模板的方法一般从收集主语、宾语、动词的基本理解开始,然后把它们放在预定义的句子模板中,得到作为输出的句子。该方法一般分为两个阶段完成视频描述生成任务。第一阶段为内容识别,主要对视频片段中的对象进行视觉识别和分类。第二阶段为生成文本描述,包括将第一阶段识别的对象映射到主语、动词和宾语(即SVO)的概念中,并将其填入到人为设置的模板中。这些模板是使用语法或基于规则的***创建的,只在非常有限的环境中有效,即对象和动作数量有限的短片段或视频。Fang Hao等人使用多个实例来训练视觉检测器,检测标题中经常出现的词语,再将这些词语输入到语言模型中完成描述生成任务。Jiasen Lu等人的描述生成方法首先生成一个句子模板,其填空的位置匹配相关的图像区域。然后,通过对象检测器在指定区域内识别出所需对象,再采用这些对象来进行填充。
基于神经网络的方法通常将视频送入卷积神经网络中获取图像特征,卷积神经网络的替换模型是多样的。提取特征的精度取决于所使用的模型类型,并以单词的形式被送入循环神经网络中。各种模型都可以作为循环神经网络使用。这些模型都有不同的结构,但目的都是生成文本描述。
(4)Transformer模型
视频检索与描述技术在实际应用场景中有着巨大的落地价值,特别在当前视频数据爆发式增长的形势下,如何使用视频数据,使其更加高效和准确地去服务终端用户具有重要意义。随着近几年机器学习和深度学习的快速发展,人们对于视频数据的处理更加智能化,基本摆脱了传统方法下基于人为注释和本质是文本检索***的方法,视频检索与描述技术取得了重大突破。视频和文本的模态差异较大,视频所携带的信息比较丰富,可包含多种模态信息;文本所携带的信息比较简洁,主要为语义信息,所以视频、文本两种信息本质上存在着不对等的情况。因此,如何缩小视频文本之间的模态差异,并且在现有的信息下能够将两者匹配起来,这一直是领域内研究的难点。
谷歌在2017年提出了Transformer模型,该模型是一种基于自注意力机制模块并进一步通过堆叠编码器-解码器(Encoder-Decoder)形成的结构,其在机器翻译任务中取得了BLEU值的新高。当前,Transformer模型已经成为自然语言处理领域中的首选模型,特别是对于许多预训练模型(PTMs)来说。除了与语言相关的应用,Transformer模型还被应用于计算机视觉、音频处理,甚至其他学科。
(1)编码器。如图5左侧所示,Transformer模型的编码器结构是由N=6个相同的层以堆栈的形式组成的。每个层各有两个子层,第一个子层是一个多头的自注意力层,第二层是一个全连接前馈神经网络层。在两个子层的周围都采用了一个残差连接和归一化操作。子层的输出形式如下。
LayerNorm(x+Sublayer(x))(2-1)
其中Sublayer(x)是由子层本身实现的函数。模型中所有的子层以及嵌入层的输出维度都为512。
(2)解码器。如图5右侧所示,Transformer模型的解码器结构在原文中也是由N=6个相同层的堆栈组成。解码器主要由三个子层构成,分别是掩码多头的自注意力层、多头的自注意力层和全连接前馈神经网络层。在多头的自注意力层的位置对于编码器堆栈的输出进行了多头关注操作。与编码器类似,在每个子层周围也采用了残差连接和归一化操作。
注意力机制是将一个查询向量和一组键-值向量映射到一个输出向量。输出向量是值的加权和,其中分配给每个值的权重是由查询和与之相应的键通过兼容性函数来计算的。
(1)自注意力结构。在实际中,自注意力模块的输入可以是单词的表示向量x组成的矩阵X或者上一个编码器模块的输出。而Q,K,V是将自注意力模块的输入进行线性变换操作后得到的矩阵。自注意力模块的输出表达式如下:
其中dk是Q,K矩阵的列数,即向量维度,此操作是为了防止内积过大。Q矩阵乘以K矩阵的转置后,得到的矩阵行列数都为n(n表示句子中单词数量),这个矩阵可以表示单词之间的相关度。
(2)多头自注意力模块。如图2所示,多头自注意力模块是由多个自注意力结构以并行形式组合而成的模块,该模块允许模型在不同的位置共同关注来自不同表征子空间的信息。数学表达式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (2-3)
where headi=Attention(QWi Q,KWi K,VWi V) (2-4)
其中投影的参数矩阵是和
除了注意力子层之外,编码器和解码器中的每一层都包含一个全连接的前馈神经网络,它在模型中的任何应用位置上采用的都是相同的结构。其由两个线性变换,中间有一个ReLU激活函数的形式组成。
FFN(x)=max(0,xW1+b1)W2+b2 (2-5)
虽然不同位置的线性变换是相同的,但它们在各层使用不同的参数。
(5)基于Transformer的多模双流视频检索方法
基于Transformer的多模双流视频检索方法将视频和文本分别输入到两个神经网络结构,视频端使用多种模态信息的形式输入到基于Transformer设计的视频编码器中,如MMT、HiT、MDMMT模型,文本端大多使用基于Transformer设计的BERT模型。如ValentinGabeur等人采用多模态Transformer模型对对象、场景、动作、人脸、OCR、语音、音频七种模态信息进行融合,该模型为不同模态添加了类别标签和时间编码,再由BERT输出文本查询向量,通过计算查询和视频向量的相似度完成跨模态检索任务。Song Liu等人将视频特征划分为运动特征、外观特征和音频特征输入到基于Transformer的视频编码器中,文本端使用BERT模型获取文本特征,以双流的网络结构进行视频检索。以下分别介绍基于Transformer的多模双流视频检索模型的各部分关键技术理论,模型示意图如图6所示。
基于Transformer的多模态视频检索方法首先将视频进行多种模态的划分,再将划分后的视频特征经过基于Transformer的视频编码器,就可得到所需的视频表示序列。该视频编码器遵循Ashish Vaswani等人提出的Transformer编码器的结构,由堆叠的自我注意力层和全连接前馈层组成。视频编码器的输入Ω(v)是一组视频嵌入,且具有相同的维度dmodel。每一个嵌入都包含其特征向量F(v),类别标签E(v),以及该特征在视频中被提取的时间T(v),数学表达式如下:
Ω(v)=F(v)+E(v)+T(v) (2-6)
其中,特征F是利用不同模态之间的相关性和长期的时间关系来学习的联合表征。
使用了N个预训练的特征每个特征都是在其领域下采用特定的模型进行训练得来,然后利用这些模型参数从当前视频中提取特征。对于一个视频v,每个特定的模型提取的特征可由K个特征组成的序列/>表示。这些特定领域的模型能够较好地提取视频的语义特征。每个特定模型的输出特征Fn的维度为/>为了使不同的模态特征投射到一个共同的维度dmodel中,将把每一种模态分别输送到线性层中,使得特征投射到dmodel的维度上。
Transformer编码器输入的每个特征序列都会产生一个嵌入,从而使得一种模态特征会产生多个嵌入。为了使每种模态拥有一个特有的嵌入,视频编码器定义了一种聚合嵌入它将收集每种模态的信息并将其置于上下文中理解。聚合嵌入/>采用最大值池化层来聚合和初始化这个嵌入,即:
然后,视频编码器的输入特征序列即可表示为:
为识别不同的模态信息,模型学习N个维度为dmodel的嵌入E(v)={E1,...,EN}来区分不同模态的嵌入。视频编码器关于模态类别嵌入序列的表达式如下。
E(v)=[E1,E1,...,E1,...,EN,EN,...,EN] (2-9)
基于Transformer的视频编码器在进行数据输入时,需要提供视频中每个特征被提取的时间的信息。假设视频的最大持续时间为tmax秒,模型将学习时间序列维度为dmodel,最长时间为D=|tmax|的时序特征{T1,...,TD}。在时间范围[t,t+1]内提取的每个模态特征均被嵌入为Tt+1时序特征。例如,在视频7.4s时提取的特征将被用时间嵌入T8进行时间编码。此外,模型还学习了两个额外的时间嵌入Tagg和Tunk,它们分别编码聚合特征和未知时间信息的特征。视频编码器的时间嵌入序列即可表示为:
T(v)=[Tagg,T1,...,TD,...,Tagg,T1,...,TD] (2-10)
如图7所示,视频嵌入Ω(v)定义为特征、类别嵌入和时间嵌入的总和,为输入到基于Transformer的视频编码器中做好了前期准备,公式可表示为:
视频编码器对视频嵌入Ω(v)进行上下文处理后,将产生视频表示Ψagg(v)。如图6所示,一般仅保留每个模态的聚合嵌入。因此,视频表示Ψagg(v)由对应的聚合特征的输出嵌入组成,即
其中VideoEncoder(·)可以是各种基于Transformer模型的视频编码器结构。
文本编码器通常分为两个阶段计算查询表示Φ(c):首先,获取查询的嵌入h(c),然后用函数g将其投射到N个不同的空间中,即对于嵌入函数h,一般使用预训练的BERT模型。
具体来说,从BERT的[CLS]输出中提取单一查询嵌入h(c)。为使这个查询表示与视频特征的大小相匹配,还需使用函数g学习尽可能多的门控嵌入模块,为视频的每种模态特征生成一份查询表示。文本编码器生成的查询表示由N个嵌入组成,可由公式(2-13)表示。
视频检索模型最终将计算视频表示与文本表示之间的相似度s完成检索任务,视频v的每种模态i与查询c的相似度计算可表达为:
其中wi(c)代表第i个模态的权重。
为了获得这些混合权重,将通过线性层处理查询表示h(c),然后执行softmax操作,即
其中(ai,...,aN)是线性层的权重。wi(c)、φi和都可以对每个查询和每个视频进行离线预计算,因此,检索操作只涉及点乘操作。
(6)基于动态记忆网络的一阶段视频描述方法
基于动态记忆网络的一阶段视频描述方法不进行事件定位步骤,直接将视频输入到视频编码器中,且在形成视频表示向量时采用了动态记忆网络技术,从而生成文本描述的过程。动态记忆网络是解决视频建模中的语境碎片化问题,该问题是由于视频编码器一般在分离且固定长度的片段上操作,没有任何跨片段的信息流。如Jie Lei等人使用Transformer模型直接对真实视频进行特征编码,并增加了外部记忆模块以保证视频的连贯性。Yuqing Song等人整体上采用Transformer模型对未进行事件定位的视频编解码,并提出了一种具有添加功能和删除功能的动态视频记忆网络。下面以具有增删功能的动态记忆网络为例,介绍一阶段视频描述模型的各部分关键技术理论,模型示意图如图8所示。
编码器将视频v转化为片段层面的特征序列。具体来说,首先将v分成不重叠的片段,每个片段有64帧,并使用预训练的CNN等模型来提取每个片段的特征,即其中L是片段的数量。为了编码片段之间的长距离时间依赖,需在X0上应用N个Transformer层,如下所示。
Xi=FFN(Xi-1+MultiHead(Xi-1,Xi-1,Xi-1) (2-16)
其中FFN(·)和MultiHead(·)为前馈网络层和多头注意力层。隐藏状态XN被作为编码的视频特征Venc∈RL×d,其中d是特征维度。
对于解码器,由Transformer结构在长文本生成中的优势,通常使用N层的Transformer模型来解码出文本描述。除了编码器中的自我注意力模块,解码器还采用了交叉多头注意力机制,在每个解码步骤中计算Venc的注意权重。因此,每个词都是根据之前预测的词和被关注的视频内容生成的。
一般情况下,视频描述模型仅通过编码后的视频特征序列Venc,采用基于时间注意力机制的解码器来生成文本描述。然而,视频通常包含丰富的时间逻辑结构,这很难通过传统的注意力从有限的训练实例中学***均值)是第t步时视频记忆Mt上的总体注意力权重。网络将在下一步利用历史窗口W的注意力历史{αt-W,...,αt},将Mt更新为Mt+1,使用注意力历史而不是αt,是因为希望记忆网络在一个完整的短语或句子产生后更新视频记忆。动态记忆网络将注意力历史汇总到如下所示,以使得最近步骤的注意力更加重要。
其中wj是历史衰减权重。
注意力历史特征被作为参数用于两个模块来更新视频记忆,包括渐进式记忆暴露模块中的"添加"操作,以逐步向视频记忆中添加更多的视频片段特征,以及过度访问记忆抑制模块中的"擦除"操作,以擦除已经描述过的视频片段。
渐进式记忆暴露模块为了保持事件描述的连贯性,如遵循时间顺序,逐步将视频特征序列Venc添加在所关注的视频记忆M中。初始化M0如下:
M0=u0*Venc (2-19)
其中ut∈RL表示在步骤t的曝光状态,它记录了每个片段特征添加到视频记忆中的比例。ut,i∈[0,1]且不断更新,其中ut,i=1表示第i个片段特征不应该再被添加到视频记忆中。S表示初始化的窗口长度。它可以使解码器首先关注视频的开头,而不是随机地开始生成段落。
添加门用于决定是否在步骤/>时将新的特征"添加"到记忆中。因为当没有视觉词产生或被访问的视频帧没有被完全描述时,视频记忆的更新应该减少。/>的计算方法如下:
其中σ为Sigmoid函数,ht为第t步的输出隐藏状态,fadd是一个全连接网络,参数为θadd。
然后,根据每个片段的特征与之前的上下文信息的视觉相关性,计算它是否需要被添加到新的视频记忆中。上下文信息可以使模型在下一步描述视频内容时与之前的事件相关,以保持事件的一致性。/>是基于聚合后的注意力历史/>计算的,公式如下。
因此,将每个片段特征添加到视频记忆的概率计算公式为:
其中fvis是类似于fadd的全连接网络。
基于每个片段特征的添加门和添加概率/>渐进式记忆暴露模块逐渐将视频特征添加到视频记忆中,即:
其中是中间记忆特征,将通过"擦除"操作进一步处理。
除了描述的连贯性,描述视频的不同内容对视频文本的生成也很重要。为了防止解码器只关注少数突出的帧,过度访问记忆抑制模块削弱已经访问的特征,以鼓励模型描述更多未见的视频帧。与渐进式记忆暴露模块类似,采用作为擦除门来决定是否在第t步擦除记忆,具体如下:
为了确保要删除的过度关注特征实际上已经被描述,需进一步计算它们与生成词的语义相关性,如下:
其中是类似于(2-17)中/>计算的历史隐藏状态。
最后,视频记忆可以更新为Mt+1,公式如下:
基于动态记忆网络的视频特征模型能够不断更新向量表示,构建表达能力更强的视频特征,显著提升了描述性能。然而,现有研究对记忆状态的深层语义挖掘十分有限,针对动态记忆网络所生成的视频特征存在冗余、准确度不高的情况。更具体而言,现有描述模型的动态记忆网络中,缺乏对于记忆状态的深度特征学习,使得视频特征向量重构时易产生冗余或不精确的情况。
发明内容
基于动态记忆网络的视频特征模型能够不断更新向量表示,构建表达能力更强的视频特征,显著提升了描述性能。然而,现有研究对记忆状态的深层语义挖掘十分有限,针对动态记忆网络所生成的视频特征存在冗余、准确度不高的情况,本文提出了一种基于多头注意力(Multi-head Attention)和通道注意力(Channel Attention)的跨模态视频描述方法。该方法采用多头注意力机制获得更多的语义信息,进一步地,设计了一种通道注意力模块来降低的多头间的混合信息瓶颈问题,动态构建流畅、准确的视频特征向量,从而提高跨模态视频描述性能。
根据一个方面,本公开内容提出了一种用于基于动态记忆网络的跨模态视频描述的方法,其用于视频记忆网络中的渐进式记忆暴露模块中的更新判决模块,所述更新判决模块用于对视频特征进行添加操作,如图9所示。所述方法包括:
将视频输入到编码器中以获得与所述视频相对应的视频特征,作为所述编码器的输出;
基于所述视频特征与历史注意力特征来产生上下文信息;
将所述视频特征和所述上下文信息输入融合卷积的多头自注意力层;
将所述多头自注意力层的输出经由第一前馈全连接层和归一化层输入到基于通道注意力的多头注意力层,其中,所述基于通道注意力的多头注意力层用于通道的重新加权;
将所述通道注意力的多头注意力层经过第二前馈全连接层和归一化层后采用sigmoid激活函数输出。
根据进一步的方面,所述方法还包括:
将所述输出与来自Transform解码器的经由线性层和sigmoid激活函数的输出相加,以得到输出概率。
根据进一步的方面,其中,所述Transform解码器的输入包括文本特征和所述上下文信息。
根据进一步的方面,其中,基于所述视频特征与历史注意力特征的乘积来产生所述上下文信息。
根据进一步的方面,其中,所述融合卷积的多头自注意力层、所述第一前馈全连接层和归一化层、所述基于通道注意力的多头注意力层和所述第二前馈全连接层和归一化层位于动态视频记忆网络的渐进式记忆暴露模块之中,以用于对视频特征进行添加操作。
根据进一步的方面,其中,所述融合卷积的多头自注意力层包括线性层、缩放点积注意力层、联接层和线性层。
根据进一步的方面,其中,所述基于通道注意力的多头注意力层通过对通道维度进行平均,生成一个输入序列原型,聚合了输入序列每个空间位置的所有通道信息。
根据进一步的方面,其中,所述基于通道注意力的多头注意力层使用Sigmoid函数来归一化注意权重,然后将其与所述视频特征的输入序列特征相乘。
根据进一步的方面,其中,所述基于通道注意力的多头注意力层在输入序列特征和输入序列原型之间计算相关性。
根据另一方面,提出了一种用于执行所述的方法的计算机程序产品。根据进一步的方面,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
根据另一方面,提出了一种设备,该设备包括:一个或多个处理器;存储器,其中存储有计算机代码,所述计算机代码当由所述处理器执行时,实现所述的方法。
附图说明
图1示出了两种视频检索模型结构示意图。
图2示出了基于单模态的视频表示的示意图。
图3示出了基于多模态的视频表示的示意图。
图4示出了视频描述基本框架的示意图。
图5示出了Transformer-模型结构的示意图。
图6示出了基于Transformer的多模双流视频检索模型
图7示出了基于Transformer的视频编码器多模态嵌入方式的示意图。
图8示出了基于动态记忆网络的一阶段视频描述模型的示意图。
图9示出了视频记忆(Video Memory)网络详情图的示意图。
图10示出了基于MHA和CHA的更新判决模块的示意图。
图11示出了多头自注意力机制递进结构图的示意图。
图12示出了基于多头注意力机制的并行式记忆状态重用模块的示意图。
图13示出了基于多头注意力机制的级联式记忆状态重用模块的示意图。
图14示出了通道注意力模块(CHA)的示意图。
图15示出了根据本发明的实施例的用于实现本公开内容的各个方面的设备。
具体实施方式
现在参考附图来描述各种方案。在以下描述中,为了进行解释,阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而,显然,在没有这些具体细节的情况下也能够实现这些方案。
如在本申请中所使用的,术语“组件”、“模块”、“***”等等旨在指代与计算机相关的实体,例如但不限于,硬件、固件、硬件和软件的组合、软件,或者是执行中的软件。例如,组件可以是但不限于:在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/或计算机。举例而言,运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内,并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外,这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信,例如根据具有一个或多个数据分组的信号,例如,来自于借助于信号与本地***、分布式***中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他***交互的一个组件的数据。
基于动态记忆网络的视频特征模型能够不断更新向量表示,构建表达能力更强的视频特征,显著提升了描述性能。然而,现有研究对记忆状态的深层语义挖掘十分有限,针对动态记忆网络所生成的视频特征存在冗余、准确度不高的情况,本文提出了一种基于多头注意力(Multi-head Attention)和通道注意力(Channel Attention)的跨模态视频描述方法。
根据本公开内容的方法采用多头注意力机制获得更多的语义信息。
进一步地,根据本公开内容的方法采用了一种通道注意力模块来降低的多头间的混合信息瓶颈问题,动态构建流畅、准确的视频特征向量,从而提高跨模态视频描述性能。
(1)基于动态记忆网络的视频特征重构模型
TDP-C模型的动态视频记忆网络在每个步骤t采用视频记忆Mt,这些步骤动态更新,使视觉注意在不同事件上移动(Song Y,Chen S,Jin Q.Towards Diverse ParagraphCaptioning for Untrimmed Videos[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2021)。因而,动态记忆网络能够增强解码器中的时间注意机制。该网络主要通过两个操作来完成更新视频特征的过程,一是渐进式记忆暴露模块的“添加”操作,用于逐步向记忆中添加更多的视频片段特征;二是过访问内存衰减模块的“擦除”操作,用于删除已经描述过的片段,如图9左侧所示。
更新判决模块位于动态视频记忆网络的渐进式记忆暴露模块之中,该模块主要用于对视频特征进行添加操作。对添加操作进行展开,可以看到更新判决模块由Transformer解码器、线性层和sigmoid函数组成,如图9右侧所示,它的输入由编码器的输出视频特征历史注意力特征/>和文本特征yt-1组成。/>和/>两者采用对应元素相乘操作产生一个上下文信息/>本公开内容所提出的级联式更新判决模块就是根据此特征建立起来的。
(2)视频描述模型与动态记忆网络的分析
动态记忆网络(Dynamic Memory Network,DMN)是一种端到端可训练的神经网络结构,旨在处理多种输入数据类型(如图像、文本等)并生成描述性输出。通过研究现有技术可以发现,在现有技术的视频描述模型中,动态记忆网络起到了重要的作用;然而,在更新视频特征时,它们大多直接采用上一阶段的记忆状态,而不对其进行信息处理。事实上,在视频描述任务中,对记忆状态的重用(或有效利用)具有重要意义。一方面,在处理序列数据(如文本或视频)时,DMN需要从输入中捕获和整合关键信息。通过重用记忆状态,DMN可以在多个时间步上累积信息,从而捕捉输入中的长距离依赖关系和上下文信息,这有助于提高模型在处理复杂任务时的性能;另一方面,DMN需要进行多轮推理来重构视频特征表示,这意味着模型需要在不同推理步骤中利用之前的知识。通过重用记忆状态,DMN可以在多轮推理过程中有效地传递和更新信息,从而生成更准确的结果。
视频段落通常包含丰富的时间逻辑结构,传统的注意力很难从有限的训练样本中学习到时间信息,动态记忆网络对这一问题有了一定的解决。然而,在现有的视频描述模型中,动态记忆网络所提取的特征信息还存在冗余和不精确的情况,这是由于网络对视频信息的高层次语义理解还是十分有限。网络的更新判决模块在决定是否将片段特征添加到视频记忆中时,采用的指导因素包括上一时刻的文本特征yt-1和上下文信息上下文信息/>是一个动态变化的信息矩阵,保存了网络选择的视频片段,可以视为一种记忆状态。上下文信息/>与输入特征高度相似,且具有基础的语义信息。在此基础上,如果能够有效利用上下文信息/>继续挖掘深层次特征,从语义角度上计算片段添加到视频记忆状态的概率,重构更佳精确的视频记忆特征,将有助于提高视频描述任务的性能。
针对上述问题,一方面,本公开内容考虑在动态记忆网络中引入多头注意力机制,生成更多的语义空间,加强模型的特征表达能力,获得更准确的语义向量。另一方面,引入多头注意力的同时,将面对其潜在的混合信息瓶颈问题,即不同头学***均的聚合来自不同子空间的信息,以达到降低信息间互相干扰的目的。
(3)基于多头注意力(MHA,Multi-head Attention)和通道注意力(CHA,ChannelAttention)的跨模态视频描述方法
如前所述,现有描述模型的动态记忆网络中,缺乏对于记忆状态的深度特征学习,使得视频特征向量重构时易产生冗余或不精确的情况。
为了解决上述技术问题,本公开内容提出一种跨模态视频描述方法,该方法采用多头自注意力机制使网络拥有更多的语义空间。同时,为改善多头注意力机制易产生混合信息瓶颈的问题,提出一种通道注意力模块,用于降低特征信息间的互扰性。该方法增强了模型对视频序列的表征能力,提高了视频描述任务的性能。下面将对提出方法的主要模块,即基于MHA(Multi-head Attention)和CHA(Channel Attention)的更新判决模块设计、联合多头注意力机制的动态记忆重用模块设计和通道注意力模块设计作详细介绍。
(3.1)基于MHA和CHA的更新判决模块设计
该模型的整体结构如图10所示。图10示出了基于MHA和CHA的更新判决模块的示意图。提出的更新判决模块将上下文信息和编码器输出的视频特征/>首先输入到融合动态卷积的多头自注意力层中丰富特征的语义信息,再经过一个前馈全连接层和归一化层;然后,输入到一个基于通道注意力的多头注意力层中构建更完整的信息表达,再经过一个前馈全连接层和归一化层后采用sigmoid激活函数输出,整体采用了简单的捷径操作。在与原判决模块的结合上,本公开内容采用了相加和相乘两种方式,经过后续实验对比,采用了相加的形式进行概率输出。
(3.2)联合多头注意力机制的记忆状态重用模块设计
渐进式记忆暴露模块能够连贯地移动到不同的事件上,模块采用注意力历史作为获取上下文信息的输入变量,这样可以使记忆网络在一个完整的短语或句子产生后更新视频记忆,公式如下:
其中wj是历史衰减权重,是滑动窗口内Mt上的总体注意力权重。
此外,该模块根据片段特征与之前上下文的视觉相关性,来判断是否要将它们加入到视频记忆中。该上下文信息可以使模型保持事件和描述的一致性。上下文是根据聚合的注意内容历史来计算的:
其中是带有衰减权重的历史注意力特征,/>是编码器输出的视频特征。
最后,将每个片段特征添加到视频记忆中的概率计算方式为:
递进结构图如图11所示。图11示出了多头自注意力机制递进结构图的示意图。
多头注意力机制引入动态记忆网络的方式启发于Jie Lei等人的MART模型,重点关注了MART模型的外部记忆模型。该模块在步骤t,即解码第t个视频段,第l层利用一个多头注意力聚合来自它的中间隐态和来自上个步骤的记忆状态的信息。使用一个前馈层进一步编码记忆增强的隐藏状态,然后利用一个残差连接合并中间隐藏状态和层范数,以生成隐藏状态的输出。整个记忆更新过程的公式如下:
其中⊙表示哈达玛积(Hadamard Product),和/>是可训练的权重,/>和/>是可训练的偏差。/>是细胞内部状态。/>是更新门,控制从上一个记忆状态中保留哪些信息,从而减少冗余并保持生成段落的一致性。
本文首先采用多头自注意力机制对记忆状态进行重复利用,提出方案一和方案二,如图12(a)和图12(b)所示。方案一采用多头自注意力机制处理上下文信息可以在不同的子空间中生成更多的表示,从不同角度去理解视频数据;方案二让上下文信息/>通过一个线性层,并采用相加的方式与多头自注意力的输出进行融合。这里主要考虑对上下文信息/>原型的传递,实验证明,尽管多头自注意力机制确实丰富了视频的特征表达,但在段落的准确度和流畅度上还存在一定的问题。后续实验表明,方案二的设计理念使得模型生成的段落内容更加流畅。
进一步地,本章针对多头注意力机制潜在的混合信息瓶颈问题,提出一种通道注意力模块。通过与自注意力模块相结合,本章提出两种基于通道注意力和自注意力的记忆状态重用模块,并首先采用并行结构设计,如图12(c)和图12(d)所示。方案三将自注意力和通道注意力设计在同一多头注意力层中,通道注意力模块的引入使得视频描述模型在短语匹配上,获得了一定的收益。方案四是将自注意力和通道注意力设计为两个模块,分别输出一组特征信息。这种设计产生了更多的子空间,旨在给模型创造更大的空间,生成丰富的表达。在后续的实验中,可以发现,方案四的结构虽然使生成的文段描述具有更大的区别度,但与方案三相比,其削弱了生成文段的准确度。
原始算法将片段特征添加到视频记忆中的概率计算方式为公式(4-4),方案三改进的算法将片段特征添加到视频记忆中的概率计算方式为:
上述提出的所有方法主要利用Transformer的自注意力收集所有元素间的相关性,但自注意力结构偏向于获得高注意力的部分,削弱了剩余注意力部分的表达。通道注意力的引入就是为了平衡高注意力部分的占比,使价值较大的子空间不限制其他子空间的重要性,收集到更完整的视频特征表示。
此外,本公开内容还设计了一种类似于Transformer结构的级联式记忆状态重用模块,该模块把多头自注意力模块的输出,作为多头通道注意力模块的输入,如图13(a)所示。在方案三的基础上,为进一步完善记忆状态重用模块,将多头自注意力层改进为融合动态卷积的多头自注意力层,形成全新的级联式记忆状态重用模块,如图13(b)所示。该模型完成了对上下文信息的有效利用,缓解了混合信息瓶颈问题,降低冗余的同时,提高了特征的准确度。
(3.3)通道注意力模块的设计
模块设计整体采用多头注意力机制,但该机制存在着潜在的混合信息瓶颈问题,因此如何聚合来自不同子空间的信息至关重要。本公开内容提出一种通道注意力设计,通过重新加权来促进通道选择,以加强不同语义空间中信息的共生关系。与MLP块中的静态卷积操作不同,注意力设计是动态的,并且依赖于内容,其生成的特征更具组合性和鲁棒性。
首先,为促进更多的成分表示,引入了通道重新加权,因为某些头或通道确实比其他头或通道捕获到了更多的重要信息。其次,重新加权机制应该在空间上更全面地考虑每个通道,以提升分组信息的利用,而不是做出“非常局部”的通道聚合决策。通道注意模块(Channel Attention,CHA)采用自注意力设计,将MLP块移动到自注意力块中,然后与来自通道注意分支的D×D通道注意矩阵相乘。与自注意力模块计算输入序列特征之间的关联矩阵不同,通道注意模块通过对通道维度进行平均,生成一个输入序列原型,聚合了输入序列每个空间位置的所有通道信息。因此,在输入序列特征和输入序列原型之间计算相关性,其生成的关联矩阵所包含的信息是丰富的。其次,通道注意模块没有应用Softmax函数,而是使用Sigmoid函数来归一化注意权重,然后将其与输入序列特征相乘。此结构不强制通道仅选择少数“重要”的输入序列特征,而是基于空间相关性重新加权每个通道。通常情况下,通道特征被认为是独立的,价值较大的通道不应限制其他通道的重要性。通过结合以上的设计概念,提出的通道自注意力计算如下:
其中,σ表示沿输入序列维度的softmax操作,表示输入序列原型/>具体结构如图14所示。
根据本公开内容的一个实施例,提出了一种用于基于动态记忆网络的跨模态视频描述的方法,其用于视频记忆网络中的渐进式记忆暴露模块中的更新判决模块,所述更新判决模块用于对视频特征进行添加操作,如图9所示。
图10示出了根据本公开内容的一个实施例的,基于MHA和CHA的更新判决模块的示意图。结合图9可知,本公开内容的一个具体实施例是对图9中的更新判决模块的改进,以便优化视频记忆网络中对视频特征进行添加的操作。
如图10所示,根据本公开内容的一个具体实施例的方法包括:
将视频输入到编码器中以获得与所述视频相对应的视频特征作为所述编码器的输出;基于所述视频特征/>与历史注意力特征/>来产生上下文信息/>
将所述视频特征和所述上下文信息/>输入融合卷积的多头自注意力层;
将所述多头自注意力层的输出经由第一前馈全连接层和归一化层输入到基于通道注意力的多头注意力层,其中,所述基于通道注意力的多头注意力层用于通道的重新加权;
将所述通道注意力的多头注意力层经过第二前馈全连接层和归一化层后采用sigmoid激活函数输出。
如上所述地,提出的更新判决模块将上下文信息和编码器输出的视频特征/>首先输入到融合动态卷积的多头自注意力层中丰富特征的语义信息,再经过一个前馈全连接层和归一化层;然后,输入到一个基于通道注意力的多头注意力层中构建更完整的信息表达,再经过一个前馈全连接层和归一化层后采用sigmoid激活函数输出,整体采用了简单的捷径操作。
基于MHA和CHA的更新判决模块能更好的建模视频动态特征,提高视频描述任务的性能。这是由于多头注意力机制为记忆状态构建了多个子空间,丰富了语义表达;通道注意力机制通过平均聚合来自不同子空间的信息加强了信息的连贯性,降低了信息间的互相干扰。
根据本公开内容的一个优选实施例,所述方法还包括:
将所述输出与来自Transform解码器的经由线性层和sigmoid激活函数的输出相加,以得到输出概率,如图9所示,更新判决模块由Transformer解码器、线性层和sigmoid函数组成。
根据本公开内容的一个优选实施例,所述Transform解码器的输入包括文本特征(yt-1)和所述上下文信息其中,文本特征(yt-1)可以来源于文本编码器或文本查询。
根据本公开内容的一个优选实施例,基于所述视频特征与历史注意力特征的乘积来产生所述上下文信息/>其中,/>和/>两者采用对应元素相乘操作产生一个上下文信息/>其中/>是带有衰减权重的历史注意力特征,/>是编码器输出的视频特征。
根据本公开内容的一个优选实施例,所述融合卷积的多头自注意力层、所述第一前馈全连接层和归一化层、所述基于通道注意力的多头注意力层和所述第二前馈全连接层和归一化层位于动态视频记忆网络的渐进式记忆暴露模块之中,以用于对视频特征进行添加操作,例如如图9所示。
根据本公开内容的一个优选实施例,所述融合卷积的多头自注意力层包括线性层、缩放点积注意力层、联接层和线性层,例如,如图11所示。
根据本公开内容的一个优选实施例,所述基于通道注意力的多头注意力层通过对通道维度进行平均,生成一个输入序列原型,聚合了输入序列每个空间位置的所有通道信息,例如如图14所示。
根据本公开内容的一个优选实施例,所述基于通道注意力的多头注意力层使用Sigmoid函数来归一化注意权重,然后将其与所述视频特征的输入序列特征相乘,例如,如图14所示。
根据本公开内容的一个优选实施例,所述基于通道注意力的多头注意力层在输入序列特征和输入序列原型之间计算相关性,例如,如图14所示。
图15示出了根据本发明的实施例的用于实现本公开内容的各个方面的设备。
本公开内容还可以涉及执行本文所述方法的计算机程序产品。根据具体实施例,该计算机程序产品具有非暂时性存储介质,其上存储有计算机代码/指令,当其被处理器执行时,可以实现本文所述的各种操作。
当用硬件实现时,本文的各种技术可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合,来实现或执行。通用处理器可以是微处理器,但是可替换地,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外,至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。
当用ASIC、FPGA等硬件电路来实现本文的各种技术时,其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个***上的各种约束条件来以各种方式设计和实现这些电路,来实现本发明所公开的各种功能。
尽管前述公开文件论述了示例性方案和/或实施例,但应注意,在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下,可以在此做出许多变化和修改。而且,尽管以单数形式描述或要求的所述方案和/或实施例的要素,但也可以设想复数的情况,除非明确表示了限于单数。另外,任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用,除非表明了有所不同。
Claims (10)
1.一种用于基于动态记忆网络的跨模态视频描述的方法,包括:
将视频输入到编码器中以获得与所述视频相对应的视频特征,作为所述编码器的输出;
基于所述视频特征与历史注意力特征来产生上下文信息;
将所述视频特征和所述上下文信息输入融合卷积的多头自注意力层;
将所述多头自注意力层的输出经由第一前馈全连接层和归一化层输入到基于通道注意力的多头注意力层,其中,所述基于通道注意力的多头注意力层用于通道的重新加权;以及
将所述通道注意力的多头注意力层经过第二前馈全连接层和归一化层后采用sigmoid激活函数输出。
2.如权利要求1所述的方法,还包括:
将所述输出与来自Transform解码器的经由线性层和sigmoid激活函数的输出相加,以得到输出概率。
3.如权利要求1-2中任一项所述的方法,其中,
所述Transform解码器的输入包括文本特征和所述上下文信息。
4.如权利要求1-3中任一项所述的方法,其中,
基于所述视频特征与历史注意力特征的乘积来产生所述上下文信息。
5.如权利要求1-4中任一项所述的方法,其中,
所述融合卷积的多头自注意力层、所述第一前馈全连接层和归一化层、所述基于通道注意力的多头注意力层和所述第二前馈全连接层和归一化层位于动态视频记忆网络的渐进式记忆暴露模块之中,以用于对视频特征进行添加操作。
6.如权利要求1-5中任一项所述的方法,其中,
所述融合卷积的多头自注意力层包括线性层、缩放点积注意力层、联接层和线性层。
7.如权利要求1-6中任一项所述的方法,其中,
所述基于通道注意力的多头注意力层通过对通道维度进行平均,生成一个输入序列原型,聚合了输入序列每个空间位置的所有通道信息。
8.如权利要求1-7中任一项所述的方法,其中,
所述基于通道注意力的多头注意力层使用Sigmoid函数来归一化注意权重,然后将其与所述视频特征的输入序列特征相乘。
9.如权利要求1-8中任一项所述的方法,其中,
所述基于通道注意力的多头注意力层在输入序列特征和输入序列原型之间计算相关性。
10.一种计算机程序产品,包括非暂时性存储介质,所述非暂时性存储介质中存储有用于执行根据权利要求1-9中任一项所述的方法的代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310646828.3A CN117496388A (zh) | 2023-06-02 | 2023-06-02 | 基于动态记忆网络的跨模态视频描述模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310646828.3A CN117496388A (zh) | 2023-06-02 | 2023-06-02 | 基于动态记忆网络的跨模态视频描述模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496388A true CN117496388A (zh) | 2024-02-02 |
Family
ID=89671340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310646828.3A Pending CN117496388A (zh) | 2023-06-02 | 2023-06-02 | 基于动态记忆网络的跨模态视频描述模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496388A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992805A (zh) * | 2024-04-07 | 2024-05-07 | 武汉商学院 | 基于张量积图融合扩散的零样本跨模态检索方法、*** |
-
2023
- 2023-06-02 CN CN202310646828.3A patent/CN117496388A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992805A (zh) * | 2024-04-07 | 2024-05-07 | 武汉商学院 | 基于张量积图融合扩散的零样本跨模态检索方法、*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A survey on vision transformer | |
Zhang et al. | Video captioning with object-aware spatio-temporal correlation and aggregation | |
Xu et al. | Modal-adversarial semantic learning network for extendable cross-modal retrieval | |
CN110781306B (zh) | 一种英文文本的方面层情感分类方法及*** | |
Camporese et al. | Knowledge distillation for action anticipation via label smoothing | |
Zhao et al. | Videowhisper: Toward discriminative unsupervised video feature learning with attention-based recurrent neural networks | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助*** | |
Li et al. | A deep reinforcement learning framework for Identifying funny scenes in movies | |
Zhang et al. | Exploring pairwise relationships adaptively from linguistic context in image captioning | |
Tian et al. | An attempt towards interpretable audio-visual video captioning | |
Zhang et al. | The elements of temporal sentence grounding in videos: A survey and future directions | |
CN117496388A (zh) | 基于动态记忆网络的跨模态视频描述模型 | |
CN114579707B (zh) | 一种基于bert神经网络与多语义学习的方面级情感分析方法 | |
Hossain et al. | Bi-SAN-CAP: Bi-directional self-attention for image captioning | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与*** | |
CN111104797B (zh) | 一种基于对偶的序列到序列生成的论文网络表示学习方法 | |
Yousif et al. | Exploring deep learning approaches for video captioning: A comprehensive review | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
Sairam et al. | Image Captioning using CNN and LSTM | |
CN114298052B (zh) | 一种基于概率图的实体联合标注关系抽取方法和*** | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
Manousaki et al. | Vlmah: Visual-linguistic modeling of action history for effective action anticipation | |
Phuc et al. | Video captioning in Vietnamese using deep learning | |
Xu et al. | Multimodal interaction fusion network based on transformer for video captioning | |
Niu et al. | Semantic enhanced video captioning with multi-feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |