CN114817627A - 基于多面视频表示学习的文本到视频的跨模态检索方法 - Google Patents

基于多面视频表示学习的文本到视频的跨模态检索方法 Download PDF

Info

Publication number
CN114817627A
CN114817627A CN202210425802.1A CN202210425802A CN114817627A CN 114817627 A CN114817627 A CN 114817627A CN 202210425802 A CN202210425802 A CN 202210425802A CN 114817627 A CN114817627 A CN 114817627A
Authority
CN
China
Prior art keywords
video
text
features
coding
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210425802.1A
Other languages
English (en)
Inventor
董建锋
陈先客
王勋
刘宝龙
包翠竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202210425802.1A priority Critical patent/CN114817627A/zh
Publication of CN114817627A publication Critical patent/CN114817627A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多面视频表示学习的文本到视频的跨模态检索方法,该方法包括:获取视频和文本初步特征;使用视频分镜工具将视频初始帧按照不同场景进行分组后,输入显示编码分支进行显式编码,得到视频不同场景的显式多面表示;将视频初始特征输入到隐式编码分支,通过前导特征多重注意力网络对视频初始特征进行隐式编码,获得表达视频不同语义内容的隐式多面表示;将两分支的多面编码相互融合得到多面视频特征表示;将多面视频特征表示和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两模态之间相关度,以端到端的方式训练模型,实现文本到视频的跨模态检索。本发明方法利用视频多面表示思想,提高了检索性能。

Description

基于多面视频表示学习的文本到视频的跨模态检索方法
技术领域
本发明涉及视频跨模态检索技术领域,尤其涉及一种基于多面视频表示学习的文本到视频的跨模态检索方法。
背景技术
近年来,由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展,每天都会有海量的多媒体数据被创造并上传至互联网,不同模态的数据,如文字、图像和视频等正在以***性的速度在增长,而这些多媒体数据也已经成为现代人们获取信息的最主要来源。尤其是视频数据,人们将更容易地上传和共享自己所创造的视频,同时如何从中快速且准确地检索出用户所需求的视频是一个艰巨的挑战。文本到视频的跨模态检索就是缓解这个挑战的关键技术之一。
现有的文本到视频的跨模态检索假设所有的视频没有任何文本标注,用户通过自然语句描述其查询需求,检索模型通过计算文本和视频的跨模态相关度返回与查询相关度较高的视频。该检索模式的核心是计算文本和视频的跨模态相关度。现有文本到视频的跨模态检索方法的模型结构基本以高效的双塔形式为主,视频和其对应的查询文本分别由其各自的特征编码器编码为视频及文本向量后,映射到一个公共空间中进行特征表示的学习。但这种传统的模型编码输出方式存在着不足:由于视频和文本的特性,一个视频在拍摄过程中随着拍摄者的移动或者视角切换等,可能存在着多种不同的场景,一个查询文本可能并不会描述对应视频的全部内容,既查询文本和视频是部分相关的。若仅仅将视频表示为一个单一的特征向量,可能会模糊视频中的多场景信息,导致对视频的表示不准确,最终影响到文本-视频检索结果的准确性。
发明内容
本发明针对现有技术的不足,提出一种基于多面视频表示学习的文本到视频的跨模态检索方法。
本发明的目的是通过以下技术方案实现的:一种基于多面视频表示学习的文本到视频的跨模态检索方法,包括以下步骤:
(1)分别对文本和视频进行特征预提取,得到文本和特征这两种模态数据的初始特征;
(2)对步骤(1)得到的视频初始特征进行显式多面表示编码,包括:使用视频分镜工具将视频初始帧按照不同场景进行对应分组,将分组后的视频初始特征输入到显示编码分支进行显式编码,得到视频不同场景的显式多面表示;
(3)对步骤(1)得到的视频初始特征进行隐式多面表示编码,包括:将视频初始特征输入到隐式编码分支,通过前导特征多重注意力网络对视频初始特征进行隐式编码,获得表达视频不同语义内容的隐式多面表示;
(4)将步骤(2)得到的显式多面表示和步骤(4)得到的隐式多面表示进行交互编码,得到多面视频特征表示;
(5)以并行的方式对文本初始特征进行编码,得到文本特征;
(6)将步骤(4)得到的多面视频特征表示和步骤(5)得到的文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型;
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。
进一步地,所述步骤(1)中提取视频和文本特征的方法包括:
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频初始特征;
(1-2)利用BERT模型自带的字典,对文本中的每个单词进行下标编码,作为文本初始特征。
进一步地,所述步骤(2)中,由于显式编码分支的输入为已经通过视频分镜工具切分好的视频分组,只需要考虑建模各个视频分组内的特征表示,并不需要该分支去学习复杂的视频分割;该步骤包括以下子步骤:
(2-1)利用视频内各帧的分组下标,对视频每帧进行所在分组的类型嵌入编码,以此来区分每帧所归属的场景;
(2-2)将进行类型嵌入编码后的视频帧输入到transformer中建模各个视频分组内帧之间的互信息以及各个视频分组之间的互信息;
(2-3)利用各帧的分组下标将transformer输出的特征按分组进行聚合,得到显式编码后的显式多面表示。
进一步地,所述步骤(3)具体为:
现有技术在获取视频全局信息方面往往只是简单地对视频初始特征进行最大或者平均池化操后作为全局特征,但是视频是由图像序列组成的,其存在着时序性,所以将时序信息加入全局特征是十分重要的。通过步骤(1)获得的视频初始特征,利用双向LSTM(bi-LSTM)来对视频初始进行编码,获得双向LSTM每个时刻的隐藏状态,通过对这些隐藏状态做最大池化操作,得到视频全局特征,同时保留每个时刻的隐藏状态作为视频时序特征。
对于一个视频,我们希望其编码出的多个特征代表着视频的不同场景,它们是相互区分的。假设一个视频设定的输出段数为n,则对它进行n次前导特征注意力编码。在每次编码过程中,首先使用一个全连接层(Fc)对本步骤得到的视频全局特征进行编码,得到特定全局注意力指导特征,并结合前一次前导特征注意力编码的输出特征计算出对应权重对本步骤中得到的视频时序特征进行加权和,输出当前段特征。
将对视频的多次前导特征注意力编码后得到的多段输出特征作为输入视频最终的隐式多面表示。
进一步地,所述步骤(3-2)中,针对第i次编码,将视频全局特征q与第i-1次编码输出的视频特征ei-1进行拼接并使用全连接层Fci以及ReLu激活函数,生成全局注意力指导特征gi,即:
gi=ReLu(Fci([q,ei-1]))
使用全连接层
Figure BDA0003608468620000041
对全局注意力指导特征gi进行降维,得到特征
Figure BDA0003608468620000042
使用全连接层
Figure BDA0003608468620000043
对视频时序特征fv进行降维,得到与
Figure BDA0003608468620000044
相同维度的特征
Figure BDA0003608468620000045
对于
Figure BDA0003608468620000046
按行维度与
Figure BDA0003608468620000047
相加,即:
Figure BDA0003608468620000048
Figure BDA0003608468620000049
Figure BDA00036084686200000410
Figure BDA00036084686200000411
使用tanh激活函数以及全连接层
Figure BDA00036084686200000412
得到视频每帧的聚合权重
Figure BDA00036084686200000413
并对视频时序特征fv进行加权和,得到第i次前导特征注意力编码的输出ei,即:
Figure BDA00036084686200000414
Figure BDA00036084686200000415
进一步地,所述步骤(4)具体为:虽然显式编码分支对视频多面编码的可解释性较强,但是也附带着较强的主观信息,需要隐式编码分支自身学习出的不可解释的隐式编码来进行信息补全,所以设计了交互编码模块,隐式编码分支输出的每个隐式特征与显式编码分支输出的所有显式特征计算余弦相似度,得到每个显式特征对于当前隐式特征的权重,对所有显式特征进行加权和,再与当前隐式特征相加,得到多面视频特征表示。
进一步地,所述步骤(5)具体为:对于步骤(1)中获得的文本初始特征,首先对文本进行位置编码(positional embedding),并输入到直接调用的现有BERT(BidirectionalEncoder Representations from Transformers)文本编码模型中,得到文本单词级别的输出。同时鉴于BERT模型的特性,它输出的文本特征的首位([CLS])蕴含了整句话的语义,所以选取[CLS]作为文本端的输出特征。
进一步地,所述步骤(6)中,利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下:
(6-1)将步骤(4)得到的多面视频特征表示和步骤(5)得到的文本特征分别通过全连接层映射到一个统一的公共空间进行表达,并且在全连接层之后使用批归一化(BN)层;
(6-2)通过三元排序损失,以端到端的方式训练模型,使模型自动学习两个模态之间的相关性。
进一步地,所述步骤(7)具体为:
(7-1)将输入的文本查询和所有候选视频通过训练好的模型映射一个到公共空间;
(7-2)计算文本查询和所有候选视频在公共空间的相似度,由于每个视频都会输出多个特征,选取当前视频所有输出特征与查询文本的相似度最大值,并根据相似度对候选视频进行排序,返回检索结果。
本发明的有益效果是:本发明方法使用显式与隐式两个方面对视频进行表示。对于显式方面,借用网上开源的视频分镜工具,将视频分成多组不同的场景并进行编码,以此来达到多面表示的目的。对于隐式方面,提出了前导特征多重注意力网络,首次使用具有多段特征输出能力的视频编码网络进行视频特征学习。在对视频进行显式和隐式的多面表示之后,再将两种表示通过编码网络进行交互编码,得到最终的多段视频特征,最后将多段视频特征和对应的文本特征映射到公共空间,计算它们在公共空间的相关度并取最大值作为最终的文本-视频相关度,实现文本到视频的跨模态检索。本发明利用视频多面表示的思想,与一般的深度学习视频检索模型相比检索的性能有着很大程度上的提升。
附图说明
图1为本发明实施例提供的视频多面表示的显式编码网络结构示意图;
图2为本发明实施例提供的视频多面表示的隐式编码网络结构示意图;
图3为本发明实施例提供的基于多面视频表示学习的公共空间学习模型的结构示意图。
具体实施方式
以下将结合附图和具体实施方式对本发明进行详细说明。
为解决文本到视频的跨模态检索问题,本发明提出了一种基于多面视频表示学习的文本到视频的跨模态检索方法,在一个实施例中,具体步骤如下:
(1)利用不同的特征提取方法分别提取视频和文本这两种模态的特征。
(1-1)对于给定的一个视频,预先指定每隔0.5秒从视频中均匀提取出j个视频帧。然后使用在ImageNet数据集上训练好的卷积神经网络(CNN)模型,比如ResNet模型,提取每帧的深度特征。这样,视频就可以由一系列特征向量{v1,v2,...,vt,...,vj}来描述,其中vt表示第t帧的特征向量,同时在输入预提取的视频帧特征向量时,使用了数据增强方面的思想,随机舍弃20%的视频帧特征向量,从而进一步提升模型对不同视频特征的鲁棒性。
(1-2)在提取一个视频的全部帧特征的同时,运用视频分镜工具对视频初始帧进行分类。本实施例选取了网上开源的分镜工具PySceneDetect,以及PySceneDetect中基于内容感知的分镜算法。首先将视频帧的RGB值转换成HSV值(HSV颜色空间由色调、饱和度、敏感程度三个方面的数据构成,与RGB相比更为复杂,同时也更容易跟踪与分割物体),接着计算相邻帧所有像素之间的HSV值之差并取平均值,最后通过判断所计算出的平均差值是否超过设定的阈值来确认两帧是否处于同一场景。遍历完所有视频帧后即可分配完视频帧的所属场景,同时保留场景分组下标。将视频的初始帧输入到视频分镜工具中,并将帧间HSV差值的阈值手动设置为27,得到视频的s个场景,每个场景都有对应的部分视频帧特征,例如场景
Figure BDA0003608468620000061
并创建字典以键值对的方式保存每帧对应的场景下标labels={v1:1,v2:1,…vj:s}。
(1-3)给定长度为l的句子,由于BERT模型有自带的字典,本实施例使用每个单词在字典中的下标来进行对应编码。因此,可生成一个字典下标编码向量序列{w1,w2,...,wt,...,wl},其中wt表示第t个单词在字典中的下标。这就初步提取了文本的特征。
通过上述步骤的特征提取,分别得到了视频和文本的初始特征,但这些特征只是简单的通过CNN模型和字典编码分别提取视频和文本的初始特征以及一些预处理,接下来主要是通过多面视频编码网络多视频特征进行表示。
(2)多面视频编码网络对在步骤(1)中得到的视频视觉特征分别进行显式以及隐式的多面编码,并对显式多面表示和隐式多面表示进行交互编码,得到多面视频特征表示。对于显式和隐式多面编码的步骤如下:
(2-1)显式多面编码。图1为显式编码网络结构示意图,对于显式编码分支输入的视频帧{v1,v2,...,vj},首先根据保存的每帧对应场景下标对视频每帧特征进行类型嵌入编码(type-embedding),以此来区分每帧所归属的场景,即:
Figure BDA0003608468620000071
其次在将视频特征输入transformer之前,一些文献中提出特征在transformer网络中编码时,维度为768或1024会表现出更好的性能,所以我们将特征通过线性层先进行降维,同时达到减少transformer的网络参数的效果,对于这里使用的transformer网络,我们将其设置为2层,4头自注意力编码。即:
Figure BDA0003608468620000072
接着我们将各个场景对应的k帧通过平均池化进行聚合,得到显式多面编码分支的视频多面表示,即:
Figure BDA0003608468620000073
(2-2)隐式多面编码。图2为隐式编码网络结构示意图,由于步骤(1)中已经利用预训练的CNN模型提取了视频每帧的特征,因此我们首先对这些特征进行时序信息的编码,已知双向循环神经网络能有效地利用给定序列的过去和未来的上下文信息。因此,我们利用其对视频时序信息进行建模。我们采用双向LSTM(bi-LSTM)网络。双向LSTM由两个独立的LSTM层组成,即前向LSTM和后向LSTM。前向LSTM按正常顺序编码视频帧的特征,即从前往后的顺序;而后向LSTM以相反的顺序编码视频帧特征。令
Figure BDA0003608468620000074
Figure BDA0003608468620000075
表示指定时间步t=1,2,...,j的相应隐藏状态。两种隐藏状态生成为:
Figure BDA0003608468620000076
Figure BDA0003608468620000077
其中
Figure BDA0003608468620000078
Figure BDA0003608468620000079
表示的是前向LSTM和后向LSTM,其上一时间步的信息分别由
Figure BDA00036084686200000710
Figure BDA00036084686200000711
承载。拼接当前时间步的
Figure BDA00036084686200000712
Figure BDA00036084686200000713
就获得了双向LSTM在t时刻的输出
Figure BDA0003608468620000081
设置前向和后向LSTM的隐藏状态大小为1024维。因此,ht的大小是2048维。将所有输出放在一起,得到一个特征映射H={h1,h2,…,hj},大小为2048×j维。将基于bi-LSTM的编码表示为fv作为时序编码特征。同时通过沿着行维度在H上应用最大池化操作来获得视频全局信息特征q,即
Figure BDA0003608468620000082
其中j为视频帧的个数,ht是时间步为t时的隐藏状态。
获取了视频的全局信息特征q以及时序特征fv后,就可以进行前导注意力网络特征的编码。如图1所示,若要视频输出n个特征,则需要进行n次前导网络注意力特征编码,具体的编码步骤如下:
以第i次编码为例,对于视频全局信息特征q,让其与第i-1次编码所输出的视频特征ei-1(若为第一次编码,则e0为全0向量)进行拼接并使用全连接层Fci(不同次编码时不共享参数)以及ReLu激活函数,生成全局信息指导向量gi,即:
gi=ReLu(Fci([q,ei-1]))
可以认为gi同时携带了视频视频中某一时间段场景的全局信息以及这个时间段之前被编码出的所有场景信息,并可以与视频的时序特征fv相结合来生成对应的视频场景段特征。首先,再次使用全连接层
Figure BDA0003608468620000083
(不同次编码时共享参数),将原2048维的特征gi进行降维,得到特征
Figure BDA0003608468620000084
对于时序特征
Figure BDA0003608468620000085
也使用全连接层
Figure BDA0003608468620000086
(不同次编码时共享参数)进行降维,得到
Figure BDA0003608468620000087
接着,对于
Figure BDA0003608468620000088
将其包含的每个帧级别特征
Figure BDA0003608468620000089
Figure BDA00036084686200000810
相加,以此来达到凸显特定场景帧并抑制与当前场景不相关帧的目的,即:
Figure BDA00036084686200000811
Figure BDA00036084686200000812
Figure BDA00036084686200000813
接着,对
Figure BDA00036084686200000814
使用tanh激活函数以及一层全连接层
Figure BDA00036084686200000815
(不同次编码时共享参数)得到视频所有帧的聚合权重
Figure BDA0003608468620000091
以视频每帧的权重
Figure BDA0003608468620000092
和视频每帧的初始时序特征
Figure BDA0003608468620000093
相乘后进行加权和,得到第i次前导注意力网络特征编码的输出
Figure BDA0003608468620000094
即:
Figure BDA0003608468620000095
Figure BDA0003608468620000096
经过n次前导注意力网络特征编码后,得到隐式多面编码分支的视频多面表示:
E={e1,e2,…,en}
(3)显式与隐式编码分支交互编码。由于隐式编码分支输出的特征维度为2048,显式编码分支输出的特征维度为1024,所以首先将显式编码分支输出特征由全连接层映射为2048维,便于后续的特征融合。对与每个隐式编码特征ei,计算其与每个经过映射后显式编码特征
Figure BDA0003608468620000097
的相似度αi,并根据αi来对
Figure BDA0003608468620000098
进行加权和,得到与ei相关的显式编码场景特征si,将ei与si进行相加,得到最终的视频多面编码
Figure BDA0003608468620000099
即:
Figure BDA00036084686200000910
mi=si+ei
(4)于(1-3)所提取的文本特征
Figure BDA00036084686200000911
调用现有的BERT模型,并在其公布的所有已经训练好的模型中,选取了参数较少的bert-base(tansformer层数为12层,每层12个heads)。文本特征经过BERT编码后并不会被聚合,仍为word-level的特征
Figure BDA00036084686200000912
同时鉴于BERT模型的特性,它输出的文本特征的首位([CLS])蕴含了整句话的语义,所以选取[CLS]作为文本端的输出特征
Figure BDA00036084686200000913
(5)通过步骤(3)和(4)获得视频的多面表示特征和文本的编码特征
Figure BDA00036084686200000914
Figure BDA00036084686200000915
后。由于
Figure BDA00036084686200000916
Figure BDA00036084686200000917
之间没有相关,因此它们不能直接进行比较。对于视频特征与文本特征的相似度计算,需要将它们特征向量映射到统一的公共空间中才能进行计算。因此,我们利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型,使得模型能够自动学习文本和视频两个模态数据之间的关系,以此实现文本到视频的跨模态检索。步骤如下:
(5-1)在给定编码的视频的特征向量
Figure BDA0003608468620000101
和句子的特征向量
Figure BDA0003608468620000102
通过全连接(FC)层将它们映射到一个公共空间中。此外,在FC层之后另外使用批归一化(BN)层,这有助于模型的性能提升。最终,视频v和句子s在公共空间中的视频多段特征向量集合f(v)和句子特征向量f(s)为:
Figure BDA0003608468620000103
Figure BDA0003608468620000104
其中Wv和Ws是FC层的仿射矩阵参数,bv和bs为偏置项。
(5-2)除了用于提取视频特征的预训练的图像卷积网络参数是固定的之外,视频和文本的编码网络参数和公共空间学习网络参数都是以端到端的方式一起训练的。我们将所有可训练参数记为θ,用Sθ(v,s)表示视频v和文本s相似度,由于f(v)为视频特征段集合,则f(v)和f(s)之间将会有多个余弦相似度(代表文本和视频某一段之间的相似度),取多个余弦相似度的最大值来作为Sθ(v,s)。
使用三元排序损失(marginal ranking loss),它通过最难负样本(hardestnegative sample)来惩罚模型。具体地,一个相关视频-句子对的损失函数L(v,s;θ)定义为:
L(v,s;θ)=max(0,α+Sθ(v,s-)-Sθ(v,s))+max(0,α+Sθ(v-,s)-Sθ(v,s))
其中α是边际常数(margin),设为0.2,s-和v-分别表示与视频v的不相关的句子示例和与句子s的不相关的视频示例。这两个不相关的样本不是随机抽样的,而是会选择当前小批量数据中模型预测最相似但实际为不相关的句子和视频。
(5-3)通过最小化三元排序损失函数在训练集上的值以端到端的方式训练模型。采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法,批量数据(mini-batch)的大小设为128,初始学习率为0.0001,最大训练周期设为50。在训练过程中,如果验证集上的性能在两个连续的周期后没有提升,则将学习率除以2;如果连续10个训练周期验证集上的性能都没有提升,则停止训练。
(6)通过步骤(5)对模型的训练,模型已经学习到了视频和文本之间的相互的联系。给定一个文本查询,模型从一个候选视频集中找出与文本查询的相关视频,并将其作为检索结果,具体步骤如下:
(6-1)将给定的文本查询和所有候选视频通过步骤(6)训练好的模型映射一个到公共空间,文本s表示成f(s),视频v表示成f(v)。
(6-2)计算文本查询和所有候选视频在公共空间的余弦相似度,然后根据余弦相似度对所有候选视频进行降序排序,并将排序靠前的视频作为检索结果返回,以此实现文本到视频的跨模态检索。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

1.一种基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,包括以下步骤:
(1)分别对文本和视频进行特征预提取,得到文本和特征这两种模态数据的初始特征;
(2)对步骤(1)得到的视频初始特征进行显式多面表示编码,包括:使用视频分镜工具将视频初始帧按照不同场景进行对应分组,将分组后的视频初始特征输入到显示编码分支进行显式编码,得到视频不同场景的显式多面表示;
(3)对步骤(1)得到的视频初始特征进行隐式多面表示编码,包括:将视频初始特征输入到隐式编码分支,通过前导特征多重注意力网络对视频初始特征进行隐式编码,获得表达视频不同语义内容的隐式多面表示;
(4)将步骤(2)得到的显式多面表示和步骤(4)得到的隐式多面表示进行交互编码,得到多面视频特征表示;
(5)以并行的方式对文本初始特征进行编码,得到文本特征;
(6)将步骤(4)得到的多面视频特征表示和步骤(5)得到的文本特征分别映射到公共空间中,利用公共空间学习算法来学习两个模态之间的相关度,最后以端到端的方式训练模型;
(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。
2.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(1)中提取视频和文本特征的方法包括:
(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取,获得视频初始特征;
(1-2)利用BERT模型自带的字典,对文本中的每个单词进行下标编码,作为文本初始特征。
3.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(2)具体为:
(2-1)利用视频内各帧的分组下标,对视频每帧进行所在分组的类型嵌入编码,以此来区分每帧所归属的场景;
(2-2)将进行类型嵌入编码后的视频帧输入到transformer中建模各个视频分组内帧之间的互信息以及各个视频分组之间的互信息;
(2-3)利用各帧的分组下标将transformer输出的特征按分组进行聚合,得到显式编码后的显式多面表示。
4.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(3)具体为:
(3-1)利用双向LSTM对视频初始特征进行编码,获得双向LSTM每个时刻的隐藏状态,通过对隐藏状态做最大池化操作,得到视频全局特征,同时保留每个时刻的隐藏状态作为视频时序特征;
(3-2)假设一个视频设定的输出段数为n,则对视频进行n次前导特征注意力编码;在每次编码过程中,使用一个全连接层对视频全局特征进行编码,得到特定全局注意力指导特征,并结合前一次前导特征注意力编码的输出特征计算出对应权重对视频时序特征进行加权和,输出当前段特征;
(3-3)将对视频的多次前导特征注意力编码后得到的多段输出特征作为输入视频最终的隐式多面表示。
5.根据权利要求4所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(3-2)中,针对第i次编码,将视频全局特征q与第i-1次编码输出的视频特征ei-1进行拼接并使用全连接层Fci以及ReLu激活函数,生成全局注意力指导特征gi,即:
gi=ReLu(Fci([q,ei-1]))
使用全连接层
Figure FDA0003608468610000021
对全局注意力指导特征gi进行降维,得到特征
Figure FDA0003608468610000022
使用全连接层
Figure FDA0003608468610000023
对视频时序特征fv进行降维,得到与
Figure FDA0003608468610000024
相同维度的特征
Figure FDA0003608468610000025
对于
Figure FDA0003608468610000026
按行维度与
Figure FDA0003608468610000027
相加,即:
Figure FDA0003608468610000028
Figure FDA0003608468610000031
Figure FDA0003608468610000032
Figure FDA0003608468610000033
使用tanh激活函数以及全连接层
Figure FDA0003608468610000034
得到视频每帧的聚合权重
Figure FDA0003608468610000035
并对视频时序特征fv进行加权和,得到第i次前导特征注意力编码的输出ei,即:
Figure FDA0003608468610000036
Figure FDA0003608468610000037
6.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(4)具体为:隐式编码分支输出的每个隐式特征与显式编码分支输出的所有显式特征计算余弦相似度,得到每个显式特征对于当前隐式特征的权重,对所有显式特征进行加权和,再与当前隐式特征相加,得到多面视频特征表示。
7.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(5)具体为:对文本进行位置编码,并输入到BERT模型中,得到文本单词级别的输出;选取BERT模型输出的文本特征的首位[CLS]作为文本端的输出特征。
8.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(6)中,利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下:
(6-1)将步骤(4)得到的多面视频特征表示和步骤(5)得到的文本特征分别通过全连接层映射到一个统一的公共空间进行表达,并且在全连接层之后使用批归一化层;
(6-2)通过三元排序损失,以端到端的方式训练模型,使模型自动学习两个模态之间的相关性。
9.根据权利要求1所述的基于多面视频表示学习的文本到视频的跨模态检索方法,其特征在于,所述步骤(7)具体为:
(7-1)将输入的文本查询和所有候选视频通过训练好的模型映射一个到公共空间;
(7-2)计算文本查询和所有候选视频在公共空间的相似度,并根据相似度对候选视频进行排序,返回检索结果。
CN202210425802.1A 2022-04-21 2022-04-21 基于多面视频表示学习的文本到视频的跨模态检索方法 Pending CN114817627A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210425802.1A CN114817627A (zh) 2022-04-21 2022-04-21 基于多面视频表示学习的文本到视频的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210425802.1A CN114817627A (zh) 2022-04-21 2022-04-21 基于多面视频表示学习的文本到视频的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN114817627A true CN114817627A (zh) 2022-07-29

Family

ID=82505449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210425802.1A Pending CN114817627A (zh) 2022-04-21 2022-04-21 基于多面视频表示学习的文本到视频的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN114817627A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493608A (zh) * 2023-12-26 2024-02-02 西安邮电大学 一种文本视频检索方法、***及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493608A (zh) * 2023-12-26 2024-02-02 西安邮电大学 一种文本视频检索方法、***及计算机存储介质
CN117493608B (zh) * 2023-12-26 2024-04-12 西安邮电大学 一种文本视频检索方法、***及计算机存储介质

Similar Documents

Publication Publication Date Title
CN109389091B (zh) 基于神经网络和注意力机制结合的文字识别***及方法
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110119786B (zh) 文本话题分类方法及装置
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
CN109002852B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及***
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111259197B (zh) 一种基于预编码语义特征的视频描述生成方法
CN116524593A (zh) 一种动态手势识别方法、***、设备及介质
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索***
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN111680190A (zh) 一种融合视觉语义信息的视频缩略图推荐方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及***
CN114612748A (zh) 一种基于特征解耦的跨模态视频片段检索方法
CN114817627A (zh) 基于多面视频表示学习的文本到视频的跨模态检索方法
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
CN111242114B (zh) 文字识别方法及装置
CN117173715A (zh) 一种注意力视觉问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination