CN113946710B

CN113946710B - 一种基于多模态与自监督表征学习的视频检索方法

Info

Publication number: CN113946710B
Application number: CN202111186741.XA
Authority: CN
Inventors: 丁勇; 朱子奇; 徐晓舒; 汤峻
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2024-06-11
Anticipated expiration: 2041-10-12
Also published as: CN113946710A

Abstract

本发明公开了一种基于多模态与自监督表征学***台的新闻事件聚合、版权保护侵权检索、多模态检索等问题的解决方案。本发明主要包括如下步骤：1.通过无标注图片数据和图片‑文本对数据构建监督数据集，利用监督数据集训练图片特征提取网络。2.通过对视频帧进行特征提取并计算领域密度的方法构建特征频次库。3.提取视频表征并构建视频库，利用近邻检索的方法进行视频检索。基于本发明所提出方法的基于多模态与自监督表征学习的视频检索方法在测试数据集中具有较高的准确率和召回率，具有良好的鲁棒性。

Description

一种基于多模态与自监督表征学习的视频检索方法

技术领域

本发明属于计算机技术及图像处理领域，尤其涉及一种基于多模态与自监督表征学习的视频检索方法。

背景技术

2015年以前，图片检索、图文搜索是互联网上最重要的技术之一。在搜索引擎上通过文本搜图片、图片搜图片，在电商平台上搜商品图片等，都是非常重要的应用。搜索技术也急需从图文需求迅速迈向视频需求。

视频检索是一个非常重要但极具挑战性的问题，近些年，我们目睹了通过互联网生成的视频量的急剧增加，社交媒体应用程序和视频共享平台的迅猛发展加剧了这一问题。由于在视频平台上用户会在极短时间内发布大量视频，这些视频可能与某些原始视频几乎是重复的，或只是从不同的角度或在不同的时间描绘同一事件。从事件重构和新闻验证的角度来说，能够有效检索与目标事件相关的所有视频对于许多应用都是必不可少的。

同时，我们还观察到大量视频实际上是从他人那里窃取内容，违规进行二次剪辑，以低成本获取巨大的非法利益。2021年4月，多家影视公司、视频平台及影视行业协会发表联合声明，宣布将对网络上针对影视作品内容未经授权进行剪辑、切条、搬运、传播等行为，发起法律维权行动，这使得针对视频的版权保护和过滤成为重要需求。

因此，如何只通过视频内容本身，就能够通过一个搜索的视频，将视频库里具有相似画面、相似语义内容的视频以高准确率、高召回率的算法检索出来，成为了当前业界继续攻克的难题。

发明内容

本发明公开了一种基于多模态与自监督表征学***台的新闻事件聚合、版权保护侵权检索、多模态检索等问题的解决方案。

本发明解决其技术问题所采用的技术方案如下：

步骤1：收集图像及对应的文本信息，所述的文本信息包括图像对应的标题、标签或文本描述；所述的图像及对应的文本信息构成图像-文本对；

步骤2：利用步骤1中得到的图像构建自监督正样本集合；

步骤3：利用步骤1中得到的图像-文本对和步骤2中得到的自监督正样本集合同步训练图片特征提取网络和文本特征提取网络；其中图像-文本对用于监督图片特征提取网络和文本特征提取网络，构建双网络对比学习损失函数；自监督正样本集合用于监督图片特征提取网络，构建单网络对比学习损失函数；

步骤4：收集视频并抽取关健帧，每一帧通过步骤3训练好的图片特征提取网络提取图片特征向量，构成所有关键帧图像的特征空间；在所有关键帧图像的特征空间中遍历每一个帧图像，在邻域内做近邻检索，统计邻域内的帧图像数量作为频次，对频次高于阈值的图片特征向量进行稀疏化注册到特征频次库中；

步骤5：分别计算被搜索的视频库中的每一个视频、以及待搜索视频的视频级特征向量：

针对每一个视频，均匀抽帧后通过步骤3训练好的图片特征提取网络提取每一帧图像的图像特征向量，每一帧图像的图像特征向量都在步骤4的特征频次库中进行top1阈值检索，检索到的频次计为图像特征向量的频次；对所有帧的图像特征向量及其频次倒数进行加权求均值，作为视频级特征向量；

步骤6：利用被搜索的视频库中每一个视频的视频级特征向量构建近邻搜索图，对待搜索视频的视频级特征向量在近邻搜索图中进行搜索，得到检索结果。

本发明的有益效果：

第一，本发明利用图片自监督算法，和全监督算法相比，不需要针对具体任务的标注数据，节省了人力成本，为相似图片检索召回提供了解决方案。第二，本发明利用多模态双网络对比学***均相比，有更高的信息承载量和鲁棒性，和全监督的视频表征网络相比，节省了标注的人力成本和算力资源，在更高的准确率和召回率的基础上，降低了复杂度。

附图说明

图1为本发明实施例示出的一种图片特征提取网络结构示意图；

图2为本发明实施例示出的文本特征提取网络结构示意图；

图3为本发明实施例示出的基于图片-文本对的多模态双网络监督训练示意图；

图4为本发明实施例示出的基于图片的自监督单网络监督训练示意图；

图5为本发明中实施例示出的基于近邻图的快速检索方法示意图。

具体实施方式

下面结合附图对本发明方法作进一步说明。

本发明提出了一种基于多模态与自监督表征学***台内部或互联网公开的图片数据即可训练表征网络。给定一个搜索视频，可以在千万级视频库中找到画面相似或事件相似的视频。该技术可以为短视频平台的新闻事件聚合、版权保护侵权检索、多模态检索等问题的解决方案。

一种基于多模态与自监督表征学习的视频检索方法，其具体实施步骤如下：

步骤1：收集足够数量的图像及对应的文本信息，所述的文本信息包括图像对应的标题、标签或文本描述；所述的图像及对应的文本信息构成图像-文本对。

步骤2：利用步骤1中得到的图像构建自监督数据集。以每一幅图像作为基准，对该图像进行随机参数的图像空间变换(如仿射变换、随机裁剪、网格失真、随机旋转、高斯模糊等)，生成的变换后的图像作为该基准图像的自监督正样本集合。

如图1所示，图片特征提取网络采用K.He等(K.He,X.Zhang,S.Ren,andJ.Sun.Deep residual learning for image recognition.In Proceedings of CVPR)提出的ResNet-50网络结构。

如图2所示，文本特征提取网络采用Jacob Devlin等(Jacob Devlin,Ming-WeiChang,Kenton Lee,and Kristina Toutanova.Bert:Pre-training of deepbidirectional transformers for language understanding.)提出的BERT网络结构。

步骤3：利用步骤1中得到的图像-文本对和步骤2中得到的自监督正样本集合同步训练图片特征提取网络和文本特征提取网络。

如图3，其中图像-文本对用于监督图片特征提取网络和文本特征提取网络，构建双网络对比学习损失函数。

如图4，自监督正样本集合用于监督图片特征提取网络，构建单网络对比学习损失函数。

具体监督训练方法计算规则为：

(1)每一个大小为N的batch，输入原始图像{x_k}，k＝1,2,…,N，图像对应的文本信息记为{t_k}。

(2)利用数据增强方法，k＝1,2,…,N有：a_k＝augment(x_k)，augment为仿射变换、随机裁剪、网格失真、随机旋转、高斯模糊的随机组合；得到数据增强后的图像{a_k}，k＝1,2,…,N。

(3)图片特征提取网络记为f(.)，文本特征提取网络记为h(.)，对k＝1,2,…,N有：z_k＝f(x_k),e_k＝h(t_k),u_k＝f(a_k)

其中，z_k为原始图像的图片特征，u_k为数据增强后的图像的图片特征，e_k为文本信息的文本特征。

(4)计算相似度矩阵：

其中，表示第i个原始图像的图片特征与第j个文本信息的文本特征之间的相似度矩阵，/>表示第i个原始图像的图片特征与第j个数据增强后的图像的图片特征之间的相似度矩阵，上角标T表示转置，|.|表示取向量的模长。

(5)计算总损失值loss：

loss＝α×loss^t+β×loss^a

其中，loss^t表示双网络对比学习损失函数，loss^a表示单网络对比学习损失函数，N每一次训练的图像数量，即batch大小；τ表示放大系数；exp(.)表示指数运算；α、β分别为两个损失函数的权重。

(6)根据计算得到的总损失值loss，通过梯度下降法更新图片特征提取网络和文本特征提取网络。

步骤4：收集视频并对视频抽取关健帧，每一帧通过步骤3训练的图片特征提取网络提取图片特征向量，构成所有关键帧图像的特征空间。在所有关键帧图像的特征空间中遍历每一个帧图像，在邻域内做近邻检索，统计邻域内的帧图像数量，即该帧图像特征的频次。对频次高于阈值的图像特征向量进行稀疏化注册到特征频次库中。

在本发明的一种实施中，近邻检索统计频次的具体方法为：

统计关键帧的图片特征向量z_i在邻域中的向量集合其中，D表示包含n个关键帧的图片特征向量的集合，θ表示阈值。N_θ(x_i)集合中包含的元素数量计为F_i，即该图片特征向量的频次。

步骤5：对于搜索和注册的视频，均匀抽帧，通过步骤3训练的图片特征提取网络提取每一帧图像的图像特征向量，每一帧图像特征向量都在步骤4的特征频次库中进行top1阈值检索，检索到的频次计为该图像特征向量的频次。对所有帧的图像特征向量及其频次倒数进行加权求均值，作为视频级特征向量。

在本发明的一种实施中，所述的视频级特征向量计算方法为：

每一帧图像特征向量z_i在步骤4的特征频次库中进行top1检索，即找到z_r满足：

提取z_r的频次F_r，则z_i的权重更新为：

视频级特征向量计算为：

其中，Norm(.)表示向量的归一化，n′表示视频均匀抽帧的数量，本实施例中，每一秒抽取一帧。

步骤6：将需要被检索到的视频通过步骤5的方法计算视频级特征向量，通过构建近邻检索图的方式存储在数据库中。对于搜索视频也通过步骤5的方法计算视频级特征向量，在如图5的近邻搜索图中进行搜索，得到检索结果。

在本发明的一种实施中，搜索方法采用Malkov等(Y.A.Malkov and D.A.Yashunin.Efficient and robust approximate nearest neighbor search usingHierarchical Navigable Small World graphs.IEEE Transactions on PatternAnalysis and Machine Intelligence)提出的HNSW高效检索方法。

为了验证本发明所述的基于多模态与自监督表征学习的视频检索方法的有效性，我们在Kordopatis-Zilos,G.,Papadopoulos,S.,Patras,I.,&Kompatsiaris,I. 发表在IEEE Transactions on Multimedia,2019的FIVR-200K数据集 (http://ndd.iti.gr/fivr/)上进行测试。

FIVR-200K包含225,960个视频和100个查询。它是为细粒度的事件视频检索而构造的，包括三个检索任务：(1)重复场景视频检索(DSVR)用于检索共享同一相机捕获的至少一个场景的视频，而无需进行任何转换。(2)互补场景视频检索(CSVR)用于检索包含相同时空片段的一部分且具有不同视图的视频。(3)事件场景视频检索(ISVR)是指在没有相同的重叠时空片段的情况下，对捕获相同事件的视频进行检索。

每一个query视频的mAP评测指标为：

其中，r_i为第i个召回视频的排序。总体的指标为所有query的mAP的平均。

表1本发明所述算法在FIVR-200K数据集上的实验结果(单位：％)

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.基于多模态与自监督表征学习的视频检索方法，其特征在于，包括以下步骤：

步骤2：利用步骤1中得到的图像构建自监督正样本集合；

所述步骤3中的训练方法为：

(1)每一个大小为N的batch，输入原始图像{x_k}，k＝1,2,…,N，图像对应的文本信息记为{t_k}；

(2)数据增强：a_k＝augment(x_k)，augment为仿射变换、随机裁剪、网格失真、随机旋转、高斯模糊的随机组合；得到数据增强后的图像{a_k}，k＝1,2,…,N；

(3)将图片特征提取网络记为f(.)，文本特征提取网络记为h(.)，对k＝1,2,…,N有：

z_k＝f(x_k),e_k＝h(t_k),u_k＝f(a_k)

其中，z_k为原始图像的图片特征，u_k为数据增强后的图像的图片特征，e_k为文本信息的文本特征；

(4)计算相似度矩阵：

其中，表示第i个原始图像的图片特征与第j个文本信息的文本特征之间的相似度矩阵，/>表示第i个原始图像的图片特征与第j个数据增强后的图像的图片特征之间的相似度矩阵，上角标T表示转置，|.|表示取向量的模长；

(5)计算总损失值loss：

loss＝α×loss^t+β×loss^a

其中，loss^t表示双网络对比学习损失函数，loss^a表示单网络对比学习损失函数，N每一次训练的图像数量，即batch大小；τ表示放大系数；exp(.)表示指数运算；α、β分别为两个损失函数的权重；

(6)根据计算得到的总损失值loss，通过梯度下降法同步更新图片特征提取网络和文本特征提取网络；

2.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法，其特征在于，所述的图片特征提取网络采用BERT网络结构。

3.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法，其特征在于，所述步骤4中的近邻检索统计频次的方法为：

统计关键帧的图片特征向量z_i在邻域中的向量集合其中，D表示包含n个关键帧的图片特征向量的集合，θ表示阈值；N_θ(x_i)集合中包含的元素数量为图片特征向量的频次F_i。

4.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法，其特征在于，所述步骤5中的视频向量计算方法为：

提取z_r的频次F_r，则z_i的权重更新为：

视频级特征向量计算为：

其中，Norm(.)表示向量的归一化，n′表示视频均匀抽帧的数量。

5.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法，其特征在于，所述步骤6中的近邻搜索图构建和检索采用HNSW检索方法。

6.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法，其特征在于，步骤2构建自监督正样本集合的过程为：以每一幅图像作为基准图像进行随机参数的图像空间变换，包括仿射变换、随机裁剪、网格失真、随机旋转、高斯模糊中的一种或多种方式组合，生成变换后的图像作为基准图像的自监督正样本集合。