CN117473119B - 一种文本视频检索方法及装置 - Google Patents

一种文本视频检索方法及装置 Download PDF

Info

Publication number
CN117473119B
CN117473119B CN202311811165.2A CN202311811165A CN117473119B CN 117473119 B CN117473119 B CN 117473119B CN 202311811165 A CN202311811165 A CN 202311811165A CN 117473119 B CN117473119 B CN 117473119B
Authority
CN
China
Prior art keywords
text
frame
video
video data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311811165.2A
Other languages
English (en)
Other versions
CN117473119A (zh
Inventor
吴梦霞
曹敏
曾子胤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202311811165.2A priority Critical patent/CN117473119B/zh
Publication of CN117473119A publication Critical patent/CN117473119A/zh
Application granted granted Critical
Publication of CN117473119B publication Critical patent/CN117473119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及多模态检索领域,公开了一种文本视频检索方法及装置,包括:获取文本样本的编码文本特征与动量文本特征;提取每帧样本图像的编码图像特征与动量图像特征;将每个视频数据多帧样本图像的编码图像特征输入帧选择模块,获取重要性分数;基于动量文本特征与每个动量图像特征的余弦相似度,获取每帧样本图像的相关性分数;构建约束样本图像重要性分数与相关性分数分布一致的散度损失函数;训练直至散度损失函数收敛,获取预先训练好的帧选择模块;利用包含预先训练好的帧选择模块的文本视频检索模型,基于待检测文本及检索视频集,选取每个检索视频数据的K帧优化关键帧,构建优化视频特征,计算与待检测文本的相似性来选取相关视频。

Description

一种文本视频检索方法及装置
技术领域
本发明涉及多模态检索技术领域,尤其是指一种文本视频检索方法及装置。
背景技术
文本-视频检索TVR(Text-to-Video Retrieval)是一项多模态任务,旨在根据给定的自然语言文本查询,从视频数据库中检索出与其相关的视频。这项技术在多个领域具有广泛的应用价值。一方面,它被用于视频搜索引擎和视频推荐***,满足用户的信息检索需求;另一方面,这项技术可用于帮助管理视频内容,有助于维护互联网信息资源的质量和安全性。在文本-视频检索中,视频帧选择对检索模型的效率和性能的双向提升至关重要。目前常见的帧选择方法可以分为基于文本引导的方法和基于无文本引导的方法。
基于文本引导的帧选择方法利用文本信息过滤掉文本无关帧,目的是过滤掉视频中与文本无关的帧,进而帮助文本-视频的语义对齐。具体地,根据视频帧和文本是否有交互,可分为基于文本直接引导的有交互的帧选择方法和基于文本间接引导的无交互帧选择方法。
基于文本直接引导的有交互的帧选择方法:通过计算帧与文本间的余弦相似度,或者构造复杂的信息融合模块来衡量帧与文本的相似度,进而选择与文本相关性高的帧用于检索;其通过计算文本特征和视频帧特征之间的相关性,来选择关键帧;需要文本视频信息在线交互,检索时增加了额外的选帧上的时间开销,且仍然需要保存视频中所有帧的特征,存储资源消耗大。基于文本间接引导的无交互帧选择方法:通过学习一个打分模块,计算视频帧的重要性分数并选择关键帧;检索时,由于无需与文本在线交互,因此可离线选择关键帧并保存,不带来额外的时间开销并减少了保存视频帧特征的存储资源消耗。但现有的方法在训练打分模块时,是将视频特征与文本特征进行视频-文本级别的对齐约束,使打分模块学习到选择关键帧的能力。但该方法在训练打分模块时,缺少直接的帧级别的标注信息,导致选帧性能较差,进而导致检索性能下降。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中在训练帧选择模块时,缺少直接的帧级别的标注信息,导致帧选择模块对于关键帧的选取不准确,进而导致文本视频检索性能下降的问题。
为解决上述技术问题,本发明提供了一种文本视频检索方法,包括:
获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;
获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;
基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:
利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;
将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前K个重要性分数所对应的样本图像,作为K帧优化关键帧;
利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;
利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。
在本发明的一个实施例中,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:
对于每个视频数据将其对应的多帧样本图像输入帧选择模块,获取每帧样本图像的重要性分数,表示为:
其中,每个视频数据中所有图像样本的重要性分数集合,表示为,/>表示每个视频数据中预采样获取的样本图像的个数;/>表示视频数据中第/>帧图像样本的编码图像特征;/>表示多层感知机;/>表示归一化指数函数。
在本发明的一个实施例中,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:
计算任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取样本图像关于该文本样本的相关性分数,表示为:/>
每个视频数据的N帧样本图像对应的相关性分数,组成该视频数据的伪标签集合,表示为:
其中,表示动量文本特征,/>表示第/>帧样本图像的动量图像特征,/>表示第/>帧样本图像关于文本样本的相关性分数,N表示每个视频数据中样本图像的帧数。
在本发明的一个实施例中,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:
其中,表示散度损失函数,KL()表示KL散度,B表示训练批次,/>表示训练批次中第/>个视频数据的重要性分数集合,/>表示训练批次中第/>个视频数据的伪标签集合;/>表示训练批次中第/>个视频数据中第/>帧样本图像的相关性得分,表示训练批次中第/>个视频数据中第/>帧样本图像的重要性得分。
在本发明的一个实施例中,所述利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个视频数据的优化视频特征,包括:
基于每个优化关键帧的重要性分数,加权该优化关键帧对应的编码图像特征/>,获取加权特征,表示为:/>
对每个检索视频数据,将其K个优化关键帧对应的样本图像的加权特征进行求和,获取该检索视频数据的视频特征,表示为:/>
其中,表示第/>帧优化关键帧的重要性分数,/>表示第/>帧优化关键帧的编码图像特征,/>表示优化关键帧总个数,/>表示归一化指数函数。
在本发明的一个实施例中,所述获取预先训练好的帧选择模块后,还包括:
在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择K帧样本图像,作为视频数据的K帧关键帧;
在每个视频数据中,利用每帧关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取K个加权特征后求和,获取该视频数据的视频特征;
基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建文本到视频的对比损失,表示为:
基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建视频到文本的对比损失,表示为:
基于文本到视频的对比损失和视频到文本的对比损失,构建视频文本对比损失,表示为:
基于文本数据集与视频数据集训练帧选择模块,直至视频文本对比损失与散度损失函数收敛,获取预先训练好的帧选择模块;
其中,表示训练批次,/>表示可学习温度参数,/>表示余弦相似度,/>表示训练批次中第m个视频数据的视频特征,/>表示训练批次中第n个视频数据的视频特征,表示训练批次中第m个文本样本的编码文本特征,/>表示训练批次中第n个文本样本的编码文本特征;1≤m≤B,1≤n≤B。
在本发明的一个实施例中,所述获取预先训练好的帧选择模块后,还包括:
在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择K帧样本图像,作为视频数据的K帧关键帧;
将文本样本的编码文本特征与视频数据的K帧关键帧所对应的编码图像特征,输入视频文本多模态编码器中,获取多模态融合特征;
将所述多模态融合特征输入二分类器,获取二分类概率;
基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失;
基于所述视频文本匹配损失,对所述预先训练好的帧选择模块进行优化,直至视频文本匹配损失收敛,获取预训练好的帧选择模块。
在本发明的一个实施例中,所述基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失,表示为:
其中,表示匹配损失函数;/>为二维one-hot向量,表示视频文本匹配真实标签;/>表示二分类概率;/>表示交叉熵损失函数/>在文本数据集与视频数据集中数据分布满足(V,T)~D下的期望。
在本发明的一个实施例中,所述文本编码器为Bert,所述视觉编码器为VisionTransformer。
本发明实施例还提供了一种文本视频检索装置,包括:
特征提取模块,用于获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
重要性分数计算模块,用于对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
相关性分数计算模块,用于基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
训练模块,用于基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
检索模块,用于获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前K个重要性分数所对应的样本图像,作为K帧优化关键帧;利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的文本视频检索方法,基于文本编码器与视频编码器获取编码文本特征与编码图像特征,输入由多层感知机组成的帧选择模块,获取每帧样本图像的重要性分数;基于文本动量编码器和视频动量编码器获取的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;基于重要性分数与相关性分数,构建约束每帧图像样本的重要性分数与相关性分数分布一致的散度损失函数;从而利用知识蒸馏技术,将文本特征与每帧样本图像的图像特征之间的相关性分数的知识迁移至帧选择模块,实现对帧选择模块的帧级别的监督,更好地学习到视频数据中样本图像与文本的相关性,来训练帧选择模块,从而选取出更有效的关键帧,提高了关键帧选择的准确性;利用准确有效的关键帧,进行文本视频检索,大大提升了检索的性能和效率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明所提供的文本视频检索方法步骤流程图;
图2是本发明所提供的文本视频检索模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明的文本视频检索方法步骤流程图,具体步骤包括:
S101:获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;
S102:获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
S103:对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
对于每个视频数据将其对应的多帧样本图像输入帧选择模块,获取每帧样本图像的重要性分数,表示为:
其中,每个视频数据中所有图像样本的重要性分数集合,表示为,/>表示每个视频数据中预采样获取的样本图像的个数;/>表示视频数据中第/>帧图像样本的编码图像特征;/>表示多层感知机;/>表示归一化指数函数。
S104:基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
计算任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取样本图像关于该文本样本的相关性分数,表示为:/>
每个视频数据的N帧样本图像对应的相关性分数,组成该视频数据的伪标签集合,表示为:
其中,表示动量文本特征,/>表示第/>帧样本图像的动量图像特征,/>表示第/>帧样本图像关于文本样本的相关性分数,N表示每个视频数据中样本图像的帧数。
S105:基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;
其中,表示散度损失函数,KL()表示KL散度,B表示训练批次,/>表示训练批次中第/>个视频数据的重要性分数集合,/>表示训练批次中第/>个视频数据的伪标签集合;/>表示训练批次中第/>个视频数据中第/>帧样本图像的相关性得分,表示训练批次中第/>个视频数据中第/>帧样本图像的重要性得分。
S106:基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
在文本数据集中选取新的文本样本,获取视频数据集中每个视频数据的多帧样本图像关于该文本样本的相关性分数,与多帧样本图像的重要性分数,计算散度损失函数,直至散度损失函数收敛;
S107:获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:
S107-1:利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;
S107-2:将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前K个重要性分数所对应的样本图像,作为K帧优化关键帧;
S107-3:利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;
基于每个优化关键帧的重要性分数,加权该优化关键帧对应的编码图像特征/>,获取加权特征,表示为:/>
对每个检索视频数据,将其K个优化关键帧对应的样本图像的加权特征进行求和,获取该检索视频数据的视频特征,表示为:/>
其中,表示第/>帧优化关键帧的重要性分数,/>表示第/>帧优化关键帧的编码图像特征,/>表示优化关键帧总个数,/>表示归一化指数函数。
S107-4:利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。
具体地,在本实施例中,待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,可以直接计算余弦相似度,也可以将编码文本特征和优化视频特征进行融合,得到文本-视频多模态特征,将该特征送入线性二分类模块,根据二分类结果判断文本视频是否匹配,其中,二分类的结果为一个二维的向量,其中一个维度表示匹配的得分(s1),另一个维度表示不匹配的得分(s2),以文本视频的匹配度分数,即s1,为相似度。
本发明所述的文本视频检索方法,基于文本编码器与视频编码器获取编码文本特征与编码图像特征,输入由多层感知机组成的帧选择模块,获取每帧样本图像的重要性分数;基于文本动量编码器和视频动量编码器获取的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;基于重要性分数与相关性分数,构建约束每帧图像样本的重要性分数与相关性分数分布一致的散度损失函数;从而利用知识蒸馏技术,将文本特征与每帧样本图像的图像特征之间的相关性分数的知识迁移至帧选择模块,实现对帧选择模块的帧级别的监督,更好地学习到视频数据中样本图像与文本的相关性,来训练帧选择模块,从而选取出更有效的关键帧,提高了关键帧选择的准确性;利用准确有效的关键帧,进行文本视频检索,大大提升了检索的性能和效率。
本发明的帧选择模块,以视频数据集中每个视频数据的多帧样本图像的图像特征为输入,输出关键帧,实现离线关键帧选择;且轻量级的帧选择模块能够嵌入到现有的文本视频检索模型进行端对端训练,使用便捷。
基于上述实施例,在本发明实施例中,在获取预选训练好的帧选择模块后,还包括:
在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择K帧样本图像,作为视频数据的K帧关键帧;
在每个视频数据中,利用每帧关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取K个加权特征后求和,获取该视频数据的视频特征;
基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建文本到视频的对比损失,表示为:
基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建视频到文本的对比损失,表示为:
基于文本到视频的对比损失和视频到文本的对比损失,构建视频文本对比损失,表示为:
基于文本数据集与视频数据集训练帧选择模块,直至视频文本对比损失与散度损失函数收敛,获取预先训练好的帧选择模块;
其中,表示训练批次,/>表示可学习温度参数,/>表示余弦相似度,/>表示训练批次中第m个视频数据的视频特征,/>表示训练批次中第n个视频数据的视频特征,表示训练批次中第m个文本样本的编码文本特征,/>表示训练批次中第n个文本样本的编码文本特征;1≤m≤B,1≤n≤B。
基于上述实施例,在本发明实施例中,获取预先训练好的帧选择模块后,还包括:
在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择K帧样本图像,作为视频数据的K帧关键帧;
将文本样本的编码文本特征与视频数据的K帧关键帧所对应的编码图像特征,输入视频文本多模态编码器中,获取多模态融合特征;
将所述多模态融合特征输入二分类器,获取二分类概率;
基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失,表示为:
其中,表示匹配损失函数;/>为二维one-hot向量,表示视频文本匹配真实标签;/>表示二分类概率;/>表示交叉熵损失函数/>在文本数据集与视频数据集中数据分布满足(V,T)~D下的期望。
基于所述视频文本匹配损失,对所述预先训练好的帧选择模块进行优化,直至视频文本匹配损失收敛,获取预训练好的帧选择模块。
基于上述实施例,在本发明实施例中,基于散度损失函数、视频文本对比损失函数/>与匹配损失函数/>,构建总损失函数/>,对包含预先训练好的帧选择模块的文本视频检索模型进行训练优化,以便提取更准确的关键帧,从而根据准确的关键帧获取准确的视频特征,进行文本视频检索。
基于上述实施例,在本实施例中,以DiDeMo数据集为例,验证本发明所提供的文本视频检索方法;DiDeMo数据集包含训练集和测试集。数据集汇总每个视频有若干个与之局部匹配的文本描述,将同一个视频的所有文本拼接成一个段落,作为对完整视频的描述,用于文本-视频检索任务。构建如图2所示的文本视频检索模型;其中,视觉编码器为VisionTransformer、文本编码器为Bert,分别用于提取视频帧和文本的特征;视觉动量编码器、文本动量编码器分别与视觉编码器、文本编码器有相同的网络结构,并在训练过程中进行动量更新,以获得更加鲁棒的视频帧特征与文本特征,用作为蒸馏的教师模型,来提供关键帧的伪标注信息();帧选择模块由一个单隐藏层的多层感知机(MLP)组成组成,用于对视频帧特征打分,得到帧的重要性分数(/>),进而根据该分数选择分数最高的K帧作为关键帧;视觉-文本多模态编码器在Bert模型的基础上增加了cross-attention,用于视频和文本特征的进一步融合。
S201:对每个视频数据进行预采样,采样后的帧数记为N,将N个视频帧和文本分别送入视觉编码器和文本编码器,得到对应的特征,分别记为和/>。同时,将视频帧和文本分别送入视觉动量编码器和文本动量编码器,得到对应的特征,分别记为/>和/>
S202:将送入帧选择模块,计算帧的重要性分数/>,其中,每一帧的重要性分数/>,/>表示第i帧的特征。根据S从/>中选出分数最高的/>帧,对应的特征记为/>
S203:从S中取出关键帧对应的相关性分数,记为。接着基于/>加权关键帧特征,得到视频特征/>:/>
视频-文本对比损失表示为:
其中,和/>分别表示文本到视频和视频到文本的对比损失。B是训练批次大小,/>是可学习的温度参数,cos()表示余弦相似度;
S204:利用视觉动量编码器和文本动量编码器计算的视频帧特征和文本特征,计算视频帧与文本的余弦相似度,得到视频帧关于文本的相关性分数,,其中/>=cos(/>)。将/>视为视频帧相关性分数的伪标签,该重要性表表征了与文本信息的相关程度。通过/>损失约束帧选择模块输出的相关性分数/>分布一致:
其中,KL()表示KL散度,N表示视频帧数,B表示批次大小,表示一个批次内的第j个样本。
S205:将选出的关键帧和/>送入视频-文本多模态编码器进行模态间信息的深度融合,输出多模态融合特征/>
S206:将送入一个二分类器,得到一个二分类概率/>。使用视频-文本匹配损失/>训练检索模型:
其中是一个二维的one-hot向量,表示视频-文本匹配的真实标签,/>表示在训练数据的分布下(V,T)~D,交叉熵函数/>的期望;
综上,整个模型的训练损失为:
其中,和/>分别用于调节/>和/>在整个损失中占的比例。
在本实施例中,为了训练帧选择模块,一方面,使用视频-文本对比损失实现视频-文本级别的约束。另一方面,使用知识蒸馏对帧选择模块进行更直接的帧级别的约束/>。通过该损失,将动量编码器学习到的视频帧与文本的相关性知识迁移给帧选择模块,因此帧选择模块能更好地学习到视频帧与文本的相关性,进而选择更有效的关键帧。
基于上述实施例,本发明实施例提供了一种文本视频检索装置,具体包括:
特征提取模块100,用于获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
重要性分数计算模块200,用于对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
相关性分数计算模块300,用于基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
训练模块400,用于基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
检索模块500,用于获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前K个重要性分数所对应的样本图像,作为K帧优化关键帧;利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的余弦相似度,获取余弦相似度最高所对应的检索视频数据,为待检测文本的相关视频。
本实施例的文本视频检索装置用于实现前述的文本视频检索方法,因此文本视频检索装置中的具体实施方式可见前文中的文本视频检索方法的实施例部分,例如,特征提取模块100,用于实现上述文本视频检索方法中步骤S101与S102;重要性分数计算模块200,用于实现上述文本视频检索方法中步骤S103;相关性分数计算模块300,用于实现上述文本视频检索方法中步骤S104;训练模块400,用于实现上述文本视频检索方法中步骤S105和S106;检索模块500,用于实现上述文本视频检索方法中步骤S107,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明所述的文本视频检索方法,基于文本编码器与视频编码器获取编码文本特征与编码图像特征,输入由多层感知机组成的帧选择模块,获取每帧样本图像的重要性分数;基于文本动量编码器和视频动量编码器获取的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;基于重要性分数与相关性分数,构建约束每帧图像样本的重要性分数与相关性分数分布一致的散度损失函数;从而利用知识蒸馏技术,将文本特征与每帧样本图像的图像特征之间的相关性分数的知识迁移至帧选择模块,实现对帧选择模块的帧级别的监督,更好地学习到视频数据中样本图像与文本的相关性,来训练帧选择模块,从而选取出更有效的关键帧,提高了关键帧选择的准确性;利用准确有效的关键帧,进行文本视频检索,大大提升了检索的性能和效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种文本视频检索方法,其特征在于,包括:
获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;
获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;
基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:
利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;
将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前K个重要性分数所对应的样本图像,作为K帧优化关键帧;
利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;
利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。
2.根据权利要求1所述的文本视频检索方法,其特征在于,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:
对于每个视频数据将其对应的多帧样本图像输入帧选择模块,获取每帧样本图像的重要性分数,表示为:
其中,每个视频数据中所有图像样本的重要性分数集合,表示为表示每个视频数据中预采样获取的样本图像的个数;/>表示视频数据中第/>帧图像样本的编码图像特征;/>表示多层感知机;/>表示归一化指数函数。
3.根据权利要求2所述的文本视频检索方法,其特征在于,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:
计算任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取样本图像关于该文本样本的相关性分数,表示为:/>
每个视频数据的N帧样本图像对应的相关性分数,组成该视频数据的伪标签集合,表示为:
其中,表示动量文本特征,/>表示第/>帧样本图像的动量图像特征,/>表示第/>帧样本图像关于文本样本的相关性分数,N表示每个视频数据中样本图像的帧数。
4.根据权利要求3所述的文本视频检索方法,其特征在于,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:
其中,表示散度损失函数,KL()表示KL散度,B表示训练批次,/>表示训练批次中第/>个视频数据的重要性分数集合,/>表示训练批次中第/>个视频数据的伪标签集合;/>表示训练批次中第/>个视频数据中第/>帧样本图像的相关性得分,/>表示训练批次中第/>个视频数据中第/>帧样本图像的重要性得分。
5.根据权利要求1所述的文本视频检索方法,其特征在于,所述利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个视频数据的优化视频特征,包括:
基于每个优化关键帧的重要性分数,加权该优化关键帧对应的编码图像特征/>,获取加权特征,表示为:/>
对每个检索视频数据,将其K个优化关键帧对应的样本图像的加权特征进行求和,获取该检索视频数据的视频特征,表示为:/>
其中,表示第/>帧优化关键帧的重要性分数,/>表示第/>帧优化关键帧的编码图像特征,/>表示优化关键帧总个数,/>表示归一化指数函数。
6.根据权利要求1所述的文本视频检索方法,其特征在于,所述获取预先训练好的帧选择模块后,还包括:
在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择K帧样本图像,作为视频数据的K帧关键帧;
在每个视频数据中,利用每帧关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取K个加权特征后求和,获取该视频数据的视频特征;
基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建文本到视频的对比损失,表示为:
基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建视频到文本的对比损失,表示为:
基于文本到视频的对比损失和视频到文本的对比损失,构建视频文本对比损失,表示为:
基于文本数据集与视频数据集训练帧选择模块,直至视频文本对比损失与散度损失函数收敛,获取预先训练好的帧选择模块;
其中,表示训练批次,/>表示可学习温度参数,/>表示余弦相似度,/>表示训练批次中第m个视频数据的视频特征,/>表示训练批次中第n个视频数据的视频特征,/>表示训练批次中第m个文本样本的编码文本特征,/>表示训练批次中第n个文本样本的编码文本特征;1≤m≤B,1≤n≤B。
7.根据权利要求1所述的文本视频检索方法,其特征在于,所述获取预先训练好的帧选择模块后,还包括:
在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择K帧样本图像,作为视频数据的K帧关键帧;
将文本样本的编码文本特征与视频数据的K帧关键帧所对应的编码图像特征,输入视频文本多模态编码器中,获取多模态融合特征;
将所述多模态融合特征输入二分类器,获取二分类概率;
基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失;
基于所述视频文本匹配损失,对所述预先训练好的帧选择模块进行优化,直至视频文本匹配损失收敛,获取预训练好的帧选择模块。
8.根据权利要求7所述的文本视频检索方法,其特征在于,所述基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失,表示为:
其中,表示匹配损失函数;/>为二维one-hot向量,表示视频文本匹配真实标签;/>表示二分类概率;/>表示交叉熵损失函数/>在文本数据集与视频数据集中数据分布满足(V,T)~D下的期望。
9.根据权利要求1所述的文本视频检索方法,其特征在于,所述文本编码器为Bert,所述视觉编码器为Vision Transformer。
10.一种文本视频检索装置,其特征在于,包括:
特征提取模块,用于获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;
重要性分数计算模块,用于对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;
相关性分数计算模块,用于基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;
训练模块,用于基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;
检索模块,用于获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前K个重要性分数所对应的样本图像,作为K帧优化关键帧;利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的K帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。
CN202311811165.2A 2023-12-27 2023-12-27 一种文本视频检索方法及装置 Active CN117473119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311811165.2A CN117473119B (zh) 2023-12-27 2023-12-27 一种文本视频检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311811165.2A CN117473119B (zh) 2023-12-27 2023-12-27 一种文本视频检索方法及装置

Publications (2)

Publication Number Publication Date
CN117473119A CN117473119A (zh) 2024-01-30
CN117473119B true CN117473119B (zh) 2024-03-01

Family

ID=89627813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311811165.2A Active CN117473119B (zh) 2023-12-27 2023-12-27 一种文本视频检索方法及装置

Country Status (1)

Country Link
CN (1) CN117473119B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910307A (zh) * 2023-07-31 2023-10-20 中国科学院合肥物质科学研究院 一种跨模态视频文本检索方法、***、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230259779A1 (en) * 2022-02-15 2023-08-17 Samsung Electronics Co., Ltd. Method of processing multimodal tasks, and an apparatus for the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910307A (zh) * 2023-07-31 2023-10-20 中国科学院合肥物质科学研究院 一种跨模态视频文本检索方法、***、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Empirical Study of Frame Selection for Text-to-Video Retrieval;Mengxia Wu 等;arXiv;20231101;1-12 *
视频文本跨模态检索研究综述;陈磊 等;计算机工程与应用;20230818;1-23 *

Also Published As

Publication number Publication date
CN117473119A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
US11288444B2 (en) Optimization techniques for artificial intelligence
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN107798624B (zh) 一种软件问答社区中的技术标签推荐方法
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN110083729B (zh) 一种图像搜索的方法及***
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
CN111241310A (zh) 一种深度跨模态哈希检索方法、设备及介质
Wang et al. News recommendation via multi-interest news sequence modelling
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN115292533B (zh) 视觉定位驱动的跨模态行人检索方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN117473119B (zh) 一种文本视频检索方法及装置
CN114970467A (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
CN114565804A (zh) 一种nlp模型训练识别***
CN114254622A (zh) 一种意图识别方法和装置
CN111666437A (zh) 一种基于局部匹配的图文检索方法及装置
CN113837910B (zh) 试题推荐方法、装置、电子设备和存储介质
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质
CN113297845B (zh) 一种基于多层次双向循环神经网络的简历块分类方法
CN111767727B (zh) 数据处理方法及装置
CN113536013B (zh) 一种跨媒体图像检索方法及***
CN114036946B (zh) 一种文本特征提取及辅助检索的***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant