CN113946710B - 一种基于多模态与自监督表征学习的视频检索方法 - Google Patents

一种基于多模态与自监督表征学习的视频检索方法 Download PDF

Info

Publication number
CN113946710B
CN113946710B CN202111186741.XA CN202111186741A CN113946710B CN 113946710 B CN113946710 B CN 113946710B CN 202111186741 A CN202111186741 A CN 202111186741A CN 113946710 B CN113946710 B CN 113946710B
Authority
CN
China
Prior art keywords
video
image
feature
picture
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111186741.XA
Other languages
English (en)
Other versions
CN113946710A (zh
Inventor
丁勇
朱子奇
徐晓舒
汤峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111186741.XA priority Critical patent/CN113946710B/zh
Publication of CN113946710A publication Critical patent/CN113946710A/zh
Application granted granted Critical
Publication of CN113946710B publication Critical patent/CN113946710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态与自监督表征学***台的新闻事件聚合、版权保护侵权检索、多模态检索等问题的解决方案。本发明主要包括如下步骤:1.通过无标注图片数据和图片‑文本对数据构建监督数据集,利用监督数据集训练图片特征提取网络。2.通过对视频帧进行特征提取并计算领域密度的方法构建特征频次库。3.提取视频表征并构建视频库,利用近邻检索的方法进行视频检索。基于本发明所提出方法的基于多模态与自监督表征学习的视频检索方法在测试数据集中具有较高的准确率和召回率,具有良好的鲁棒性。

Description

一种基于多模态与自监督表征学习的视频检索方法
技术领域
本发明属于计算机技术及图像处理领域,尤其涉及一种基于多模态与自监 督表征学习的视频检索方法。
背景技术
2015年以前,图片检索、图文搜索是互联网上最重要的技术之一。在搜索 引擎上通过文本搜图片、图片搜图片,在电商平台上搜商品图片等,都是非常重 要的应用。搜索技术也急需从图文需求迅速迈向视频需求。
视频检索是一个非常重要但极具挑战性的问题,近些年,我们目睹了通过互 联网生成的视频量的急剧增加,社交媒体应用程序和视频共享平台的迅猛发展加 剧了这一问题。由于在视频平台上用户会在极短时间内发布大量视频,这些视频 可能与某些原始视频几乎是重复的,或只是从不同的角度或在不同的时间描绘同 一事件。从事件重构和新闻验证的角度来说,能够有效检索与目标事件相关的所 有视频对于许多应用都是必不可少的。
同时,我们还观察到大量视频实际上是从他人那里窃取内容,违规进行二次 剪辑,以低成本获取巨大的非法利益。2021年4月,多家影视公司、视频平台 及影视行业协会发表联合声明,宣布将对网络上针对影视作品内容未经授权进行 剪辑、切条、搬运、传播等行为,发起法律维权行动,这使得针对视频的版权保 护和过滤成为重要需求。
因此,如何只通过视频内容本身,就能够通过一个搜索的视频,将视频库里 具有相似画面、相似语义内容的视频以高准确率、高召回率的算法检索出来,成 为了当前业界继续攻克的难题。
发明内容
本发明公开了一种基于多模态与自监督表征学***台的新闻事件聚合、版权保护侵权检索、 多模态检索等问题的解决方案。
本发明解决其技术问题所采用的技术方案如下:
步骤1:收集图像及对应的文本信息,所述的文本信息包括图像对应的标题、 标签或文本描述;所述的图像及对应的文本信息构成图像-文本对;
步骤2:利用步骤1中得到的图像构建自监督正样本集合;
步骤3:利用步骤1中得到的图像-文本对和步骤2中得到的自监督正样本集 合同步训练图片特征提取网络和文本特征提取网络;其中图像-文本对用于监督 图片特征提取网络和文本特征提取网络,构建双网络对比学习损失函数;自监 督正样本集合用于监督图片特征提取网络,构建单网络对比学习损失函数;
步骤4:收集视频并抽取关健帧,每一帧通过步骤3训练好的图片特征提取 网络提取图片特征向量,构成所有关键帧图像的特征空间;在所有关键帧图像 的特征空间中遍历每一个帧图像,在邻域内做近邻检索,统计邻域内的帧图像 数量作为频次,对频次高于阈值的图片特征向量进行稀疏化注册到特征频次库 中;
步骤5:分别计算被搜索的视频库中的每一个视频、以及待搜索视频的视频 级特征向量:
针对每一个视频,均匀抽帧后通过步骤3训练好的图片特征提取网络提取每 一帧图像的图像特征向量,每一帧图像的图像特征向量都在步骤4的特征频次 库中进行top1阈值检索,检索到的频次计为图像特征向量的频次;对所有帧的 图像特征向量及其频次倒数进行加权求均值,作为视频级特征向量;
步骤6:利用被搜索的视频库中每一个视频的视频级特征向量构建近邻搜索 图,对待搜索视频的视频级特征向量在近邻搜索图中进行搜索,得到检索结果。
本发明的有益效果:
第一,本发明利用图片自监督算法,和全监督算法相比,不需要针对具体任 务的标注数据,节省了人力成本,为相似图片检索召回提供了解决方案。第二, 本发明利用多模态双网络对比学***均相比,有更高的信息承载量和鲁棒 性,和全监督的视频表征网络相比,节省了标注的人力成本和算力资源,在更高 的准确率和召回率的基础上,降低了复杂度。
附图说明
图1为本发明实施例示出的一种图片特征提取网络结构示意图;
图2为本发明实施例示出的文本特征提取网络结构示意图;
图3为本发明实施例示出的基于图片-文本对的多模态双网络监督训练示意 图;
图4为本发明实施例示出的基于图片的自监督单网络监督训练示意图;
图5为本发明中实施例示出的基于近邻图的快速检索方法示意图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
本发明提出了一种基于多模态与自监督表征学***台内部或互联网公开的图片数据即可训 练表征网络。给定一个搜索视频,可以在千万级视频库中找到画面相似或事件相 似的视频。该技术可以为短视频平台的新闻事件聚合、版权保护侵权检索、多模 态检索等问题的解决方案。
一种基于多模态与自监督表征学习的视频检索方法,其具体实施步骤如下:
步骤1:收集足够数量的图像及对应的文本信息,所述的文本信息包括图像 对应的标题、标签或文本描述;所述的图像及对应的文本信息构成图像-文本对。
步骤2:利用步骤1中得到的图像构建自监督数据集。以每一幅图像作为基 准,对该图像进行随机参数的图像空间变换(如仿射变换、随机裁剪、网格失 真、随机旋转、高斯模糊等),生成的变换后的图像作为该基准图像的自监督 正样本集合。
如图1所示,图片特征提取网络采用K.He等(K.He,X.Zhang,S.Ren,andJ.Sun.Deep residual learning for image recognition.In Proceedings of CVPR)提出 的ResNet-50网络结构。
如图2所示,文本特征提取网络采用Jacob Devlin等(Jacob Devlin,Ming-WeiChang,Kenton Lee,and Kristina Toutanova.Bert:Pre-training of deepbidirectional transformers for language understanding.)提出的BERT网络结构。
步骤3:利用步骤1中得到的图像-文本对和步骤2中得到的自监督正样本 集合同步训练图片特征提取网络和文本特征提取网络。
如图3,其中图像-文本对用于监督图片特征提取网络和文本特征提取网络, 构建双网络对比学习损失函数。
如图4,自监督正样本集合用于监督图片特征提取网络,构建单网络对比学 习损失函数。
具体监督训练方法计算规则为:
(1)每一个大小为N的batch,输入原始图像{xk},k=1,2,…,N,图像对应 的文本信息记为{tk}。
(2)利用数据增强方法,k=1,2,…,N有:ak=augment(xk),augment为仿射 变换、随机裁剪、网格失真、随机旋转、高斯模糊的随机组合;得到数据增强 后的图像{ak},k=1,2,…,N。
(3)图片特征提取网络记为f(.),文本特征提取网络记为h(.),对k=1,2,…,N有:zk=f(xk),ek=h(tk),uk=f(ak)
其中,zk为原始图像的图片特征,uk为数据增强后的图像的图片特征,ek为 文本信息的文本特征。
(4)计算相似度矩阵:
其中,表示第i个原始图像的图片特征与第j个文本信息的文本特征之间 的相似度矩阵,/>表示第i个原始图像的图片特征与第j个数据增强后的图像的 图片特征之间的相似度矩阵,上角标T表示转置,|.|表示取向量的模长。
(5)计算总损失值loss:
loss=α×losst+β×lossa
其中,losst表示双网络对比学习损失函数,lossa表示单网络对比学习损失函 数,N每一次训练的图像数量,即batch大小;τ表示放大系数;exp(.)表示指数 运算;α、β分别为两个损失函数的权重。
(6)根据计算得到的总损失值loss,通过梯度下降法更新图片特征提取网络 和文本特征提取网络。
步骤4:收集视频并对视频抽取关健帧,每一帧通过步骤3训练的图片特征 提取网络提取图片特征向量,构成所有关键帧图像的特征空间。在所有关键帧 图像的特征空间中遍历每一个帧图像,在邻域内做近邻检索,统计邻域内的帧 图像数量,即该帧图像特征的频次。对频次高于阈值的图像特征向量进行稀疏 化注册到特征频次库中。
在本发明的一种实施中,近邻检索统计频次的具体方法为:
统计关键帧的图片特征向量zi在邻域中的向量集合其中,D表示包含n个关键帧的图片特征向 量的集合,θ表示阈值。Nθ(xi)集合中包含的元素数量计为Fi,即该图片特征向 量的频次。
步骤5:对于搜索和注册的视频,均匀抽帧,通过步骤3训练的图片特征提 取网络提取每一帧图像的图像特征向量,每一帧图像特征向量都在步骤4的特 征频次库中进行top1阈值检索,检索到的频次计为该图像特征向量的频次。对 所有帧的图像特征向量及其频次倒数进行加权求均值,作为视频级特征向量。
在本发明的一种实施中,所述的视频级特征向量计算方法为:
每一帧图像特征向量zi在步骤4的特征频次库中进行top1检索,即找到zr满足:
提取zr的频次Fr,则zi的权重更新为:
视频级特征向量计算为:
其中,Norm(.)表示向量的归一化,n′表示视频均匀抽帧的数量,本实施例 中,每一秒抽取一帧。
步骤6:将需要被检索到的视频通过步骤5的方法计算视频级特征向量,通 过构建近邻检索图的方式存储在数据库中。对于搜索视频也通过步骤5的方法计 算视频级特征向量,在如图5的近邻搜索图中进行搜索,得到检索结果。
在本发明的一种实施中,搜索方法采用Malkov等(Y.A.Malkov and D.A.Yashunin.Efficient and robust approximate nearest neighbor search usingHierarchical Navigable Small World graphs.IEEE Transactions on PatternAnalysis and Machine Intelligence)提出的HNSW高效检索方法。
为了验证本发明所述的基于多模态与自监督表征学习的视频检索方法的有 效性,我们在Kordopatis-Zilos,G.,Papadopoulos,S.,Patras,I.,&Kompatsiaris,I. 发表在IEEE Transactions on Multimedia,2019的FIVR-200K数据集 (http://ndd.iti.gr/fivr/)上进行测试。
FIVR-200K包含225,960个视频和100个查询。它是为细粒度的事件视频检 索而构造的,包括三个检索任务:(1)重复场景视频检索(DSVR)用于检索 共享同一相机捕获的至少一个场景的视频,而无需进行任何转换。(2)互补场 景视频检索(CSVR)用于检索包含相同时空片段的一部分且具有不同视图的视 频。(3)事件场景视频检索(ISVR)是指在没有相同的重叠时空片段的情况下, 对捕获相同事件的视频进行检索。
每一个query视频的mAP评测指标为:
其中,ri为第i个召回视频的排序。总体的指标为所有query的mAP的平均。
表1本发明所述算法在FIVR-200K数据集上的实验结果(单位:%)
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还 可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联 想到的所有变形,均应认为是本发明的保护范围。

Claims (6)

1.基于多模态与自监督表征学习的视频检索方法,其特征在于,包括以下步骤:
步骤1:收集图像及对应的文本信息,所述的文本信息包括图像对应的标题、标签或文本描述;所述的图像及对应的文本信息构成图像-文本对;
步骤2:利用步骤1中得到的图像构建自监督正样本集合;
步骤3:利用步骤1中得到的图像-文本对和步骤2中得到的自监督正样本集合同步训练图片特征提取网络和文本特征提取网络;其中图像-文本对用于监督图片特征提取网络和文本特征提取网络,构建双网络对比学习损失函数;自监督正样本集合用于监督图片特征提取网络,构建单网络对比学习损失函数;
所述步骤3中的训练方法为:
(1)每一个大小为N的batch,输入原始图像{xk},k=1,2,…,N,图像对应的文本信息记为{tk};
(2)数据增强:ak=augment(xk),augment为仿射变换、随机裁剪、网格失真、随机旋转、高斯模糊的随机组合;得到数据增强后的图像{ak},k=1,2,…,N;
(3)将图片特征提取网络记为f(.),文本特征提取网络记为h(.),对k=1,2,…,N有:
zk=f(xk),ek=h(tk),uk=f(ak)
其中,zk为原始图像的图片特征,uk为数据增强后的图像的图片特征,ek为文本信息的文本特征;
(4)计算相似度矩阵:
其中,表示第i个原始图像的图片特征与第j个文本信息的文本特征之间的相似度矩阵,/>表示第i个原始图像的图片特征与第j个数据增强后的图像的图片特征之间的相似度矩阵,上角标T表示转置,|.|表示取向量的模长;
(5)计算总损失值loss:
loss=α×losst+β×lossa
其中,losst表示双网络对比学习损失函数,lossa表示单网络对比学习损失函数,N每一次训练的图像数量,即batch大小;τ表示放大系数;exp(.)表示指数运算;α、β分别为两个损失函数的权重;
(6)根据计算得到的总损失值loss,通过梯度下降法同步更新图片特征提取网络和文本特征提取网络;
步骤4:收集视频并抽取关健帧,每一帧通过步骤3训练好的图片特征提取网络提取图片特征向量,构成所有关键帧图像的特征空间;在所有关键帧图像的特征空间中遍历每一个帧图像,在邻域内做近邻检索,统计邻域内的帧图像数量作为频次,对频次高于阈值的图片特征向量进行稀疏化注册到特征频次库中;
步骤5:分别计算被搜索的视频库中的每一个视频、以及待搜索视频的视频级特征向量:
针对每一个视频,均匀抽帧后通过步骤3训练好的图片特征提取网络提取每一帧图像的图像特征向量,每一帧图像的图像特征向量都在步骤4的特征频次库中进行top1阈值检索,检索到的频次计为图像特征向量的频次;对所有帧的图像特征向量及其频次倒数进行加权求均值,作为视频级特征向量;
步骤6:利用被搜索的视频库中每一个视频的视频级特征向量构建近邻搜索图,对待搜索视频的视频级特征向量在近邻搜索图中进行搜索,得到检索结果。
2.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法,其特征在于,所述的图片特征提取网络采用BERT网络结构。
3.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法,其特征在于,所述步骤4中的近邻检索统计频次的方法为:
统计关键帧的图片特征向量zi在邻域中的向量集合其中,D表示包含n个关键帧的图片特征向量的集合,θ表示阈值;Nθ(xi)集合中包含的元素数量为图片特征向量的频次Fi
4.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法,其特征在于,所述步骤5中的视频向量计算方法为:
每一帧图像特征向量zi在步骤4的特征频次库中进行top1检索,即找到zr满足:
提取zr的频次Fr,则zi的权重更新为:
视频级特征向量计算为:
其中,Norm(.)表示向量的归一化,n′表示视频均匀抽帧的数量。
5.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法,其特征在于,所述步骤6中的近邻搜索图构建和检索采用HNSW检索方法。
6.如权利要求1所述的基于多模态与自监督表征学习的视频检索方法,其特征在于,步骤2构建自监督正样本集合的过程为:以每一幅图像作为基准图像进行随机参数的图像空间变换,包括仿射变换、随机裁剪、网格失真、随机旋转、高斯模糊中的一种或多种方式组合,生成变换后的图像作为基准图像的自监督正样本集合。
CN202111186741.XA 2021-10-12 2021-10-12 一种基于多模态与自监督表征学习的视频检索方法 Active CN113946710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111186741.XA CN113946710B (zh) 2021-10-12 2021-10-12 一种基于多模态与自监督表征学习的视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111186741.XA CN113946710B (zh) 2021-10-12 2021-10-12 一种基于多模态与自监督表征学习的视频检索方法

Publications (2)

Publication Number Publication Date
CN113946710A CN113946710A (zh) 2022-01-18
CN113946710B true CN113946710B (zh) 2024-06-11

Family

ID=79330510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111186741.XA Active CN113946710B (zh) 2021-10-12 2021-10-12 一种基于多模态与自监督表征学习的视频检索方法

Country Status (1)

Country Link
CN (1) CN113946710B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510585B (zh) * 2022-02-15 2023-11-21 北京有竹居网络技术有限公司 一种信息表征模型构建方法、信息表征方法
CN114610911B (zh) * 2022-03-04 2023-09-19 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN113064959A (zh) * 2020-01-02 2021-07-02 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113342922A (zh) * 2021-06-17 2021-09-03 北京邮电大学 一种基于标签细粒度自监督的跨模态检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319686A (zh) * 2018-02-01 2018-07-24 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN113064959A (zh) * 2020-01-02 2021-07-02 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113342922A (zh) * 2021-06-17 2021-09-03 北京邮电大学 一种基于标签细粒度自监督的跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于反馈日志的工程图纸检索模型研究;余怀全;鲁付俊;梁昌勇;丁勇;;计算机应用研究;20110615(06);全文 *

Also Published As

Publication number Publication date
CN113946710A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
CN113946710B (zh) 一种基于多模态与自监督表征学习的视频检索方法
Wang et al. Object detection using clustering algorithm adaptive searching regions in aerial images
Gao et al. [Retracted] AGTH‐Net: Attention‐Based Graph Convolution‐Guided Third‐Order Hourglass Network for Sports Video Classification
CN104317946A (zh) 一种基于多张关键图的图像内容检索方法
CN108363771B (zh) 一种面向公安侦查应用的图像检索方法
Kim et al. TVDP: Translational visual data platform for smart cities
Jin et al. Network video summarization based on key frame extraction via superpixel segmentation
Seetharaman et al. Statistical tests of hypothesis based color image retrieval
Jing et al. Flood event image recognition via social media image and text analysis
Kalakoti Key-Frame Detection and Video Retrieval Based on DC Coefficient-Based Cosine Orthogonality and Multivariate Statistical Tests.
Chavan et al. Superintendence Video Summarization
Shi et al. A lightweight image splicing tampering localization method based on MobileNetV2 and SRM
Zhang et al. Human action recognition based on multifeature fusion
Karray et al. Indexing video summaries for quick video browsing
Adly et al. Development of an Effective Bootleg Videos Retrieval System as a Part of Content-Based Video Search Engine
Xue et al. ISD-SSD: image splicing detection by using modified single shot MultiBox detector
Semnani et al. House price prediction using satellite imagery
Vadivukarassi et al. A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset
Paiz-Reyes et al. GIF image retrieval in cloud computing environment
Van Gool et al. Mining from large image sets
Ranjan et al. Video Summary Based on Visual and Mid-level Semantic Features
Rahman et al. Creation of video summary with the extracted salient frames using color moment, color histogram and speeded up robust features
Dhamecha et al. Video summarization using feature vector clustering
Apostolidis et al. Video fragmentation and reverse search on the web
Sebastine et al. Semantic web for content based video retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant