CN113239159B - 基于关系推理网络的视频和文本的跨模态检索方法 - Google Patents
基于关系推理网络的视频和文本的跨模态检索方法 Download PDFInfo
- Publication number
- CN113239159B CN113239159B CN202110451431.XA CN202110451431A CN113239159B CN 113239159 B CN113239159 B CN 113239159B CN 202110451431 A CN202110451431 A CN 202110451431A CN 113239159 B CN113239159 B CN 113239159B
- Authority
- CN
- China
- Prior art keywords
- video
- text
- features
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及跨模态检索领域,公开了一种基于关系推理网络的视频和文本的跨模态检索方法,包括:提取视频数据特征和文本数据特征;运用循环神经网络获取视频全局特征和文本全局特征;运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;对整体网络进行训练。本发明同时关注全局特征和局部关系特征,能更有效的聚焦到单模态数据中的重点信息,进而实现跨模态检索。
Description
技术领域
本发明涉及跨模态检索领域,具体涉及一种基于关系推理网络的视频和文本的跨模态检索方法。
背景技术
跨媒体检索是指用户通过输入任意媒体类型的查询数据,检索出所有媒体类型中的语义相关数据。在本发明中,具体为视频和文本的相互检索。一般情况下,数据集中将提供视频和相应的视频描述文本,跨媒体检索的任务为:对任意一个视频,检索出与其内容描述最相关的视频描述文本,或对任意一个视频描述文本,检索出与其描述最相关的视频。随着互联网中文本、图像、视频等多媒体数据的日益增多,跨越不同模态的检索成为信息检索的新趋势。对于这个问题的难点在于如何获得更有效的模态特征,来全面且有侧重点的表示视频或文字的信息。现在主流方法主要有两类:跨模态检索的传统方法、深度学习方法。
1)跨模态检索的传统方法:传统方法主要通过统计分析的方式学习映射矩阵,通过分析不同模态数据特征之间的关联关系,学习一个能够最大化成对相关性的共同空间,将不同模态的特征映射到这个共同空间得到相同维度的向量表示,实现跨模态的统一表征。
2)跨模态检索的深度学习方法:这些方法旨在利用深度神经网络对非线性关系的抽象能力,促进跨模态关联分析和统一表征学习。现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系,有效提升对复杂跨模态关联的分析能力,以提高跨模态统一表征的检索准确率。
对于视频文本检索任务而言,在对视频进行建模时,时序推理是一个至关重要但困难的部分。对于一个视频而言,尽管现有的卷积神经网络可以提取出很多空域信息,但当涉及到空间转换、背景变换或者时序动作等信息时,卷积神经网络就表现得差强人意,它无法很好的提取到时域上的信息。
另一个现有方法的不足就是,大多数现有方法只关注于模态间的关系和信息,而忽略了单个模态内部信息的关系,如视频中帧与帧之间的关系,文本中词与词之间的关系,从而使得单模态信息表达不够完整和充分。
发明内容
本发明的目的是提供一种基于关系推理网络的视频和文本的跨模态检索方法,达到更好地跨模态检索效果。
本发明解决其技术问题,采用的技术方案是:
基于关系推理网络的视频和文本的跨模态检索方法,包括如下步骤:
步骤1.提取视频数据特征和文本数据特征;
步骤2.运用循环神经网络获取视频全局特征和文本全局特征;
步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;
步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;
步骤5.映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;
步骤6.对步骤1-5的整体网络进行训练;
步骤7.利用训练好的整体网络对视频和文本进行跨模态检索。
进一步的是,步骤1具体是指:
对于视频数据,运用卷积神经网络ResNet进行特征提取,提取出的视频特征序列;
对于文本数据,运用Glove模型进行特征提取,提取出的文本特征序列表示。
进一步的是,步骤2具体是指:
对于提取出的视频数据特征,利用单向循环神经网络获取视频全局特征;
对于提取出的文本数据特征,利用双向循环神经网络获取文本全局特征。
进一步的是,所述单向循环神经网络采用单向的长短期记忆网络Bi-LSTM,利用单向的长短期记忆网络Bi-LSTM对提取出的视频数据特征进行编码,获取视频全局特征;
所述双向循环神经网络采用双向的长短期记忆网络Bi-LSTM,利用双向的长短期记忆网络Bi-LSTM对提取出的文本数据特征进行编码,获取文本全局特征。
进一步的是,步骤3具体包括如下步骤:
步骤301.对于一个给定模态数据特征,进行多规模选取,获得不同尺度规模的数据特征集,所述给定模态包括视频和文本;
步骤302.对每一个尺度规模的数据特征集,运用全部-局部注意力机制,利用该模态的全局特征来对一个尺度规模的数据特征集内的特征进行计算,获得不同特征的权重参数;
步骤303.对每一个尺度规模的数据特征集,将特征集内的每一个特征与其对应的权重参数进行加权求和,从而获得该尺度规模的多尺度局部关系特征。
进一步的是,步骤4具体包括如下步骤:
步骤401.对于一个给定模态数据的多尺度局部关系特征,对每个尺度的局部关系特征,将其与给定模态数据的全局特征进行连接操作,获得该尺度下的全局-局部关系特征;
步骤402.对多尺度的全局-局部关系特征,利用融合函数,将多个尺度的全局-局部关系特征融合成最终的模态融合特征。
进一步的是,步骤5具体为:
将视频融合特征和文本融合特征映射到512维的公共空间中;
利用分布对齐损失函数对齐视频融合特征分布和文本融合特征分布;
进一步的是,步骤6具体为:
采用tripletrankingloss作为损失函数对步骤1-5的整体网络进行训练。
进一步的是,步骤7具体包括如下步骤:
步骤701.对一个给定模态的数据,提取其特征向量;
步骤702.将提取的特征向量输入训练好的整体网络,并映射到公共空间;
步骤703.计算公共空间中所述给定模态以外的模态的数据变量与该给定模态的数据变量的相似性,并对计算结果进行排序,相似性最大的变量对应的原始模态数据为检索结果。
本发明的有益效果是,通过上述基于关系推理网络的视频和文本的跨模态检索方法,通过对单模态数据内部关系的推理,从而获得该模态数据更全面且有侧重点的特征表示,且通过在公共空间里的分布对齐来保证模态数据分布的完整和相似,从而获得更好的跨模态检索效果。
附图说明
图1为本发明实施例1中基于关系推理网络的视频和文本的跨模态检索方法的流程图;
图2为本发明实施例2中整体神经网络连接框架图;
图3为本发明实施例2中多尺度关系推理网络的示意图;
图4为本发明实施例3中的融合过程的示意图。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
实施例1
本实施例提出一种基于关系推理网络的视频和文本的跨模态检索方法,其流程图见图1,其中,该方法包括如下步骤:
步骤1.提取视频数据特征和文本数据特征。
步骤2.运用循环神经网络获取视频全局特征和文本全局特征。
步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征。
步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征。
步骤5.映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布。
步骤6.对步骤1-5的整体网络进行训练。
步骤7.利用训练好的整体网络对视频和文本进行跨模态检索。
实施例2
参见图2和图3,本实施例中提出的基于关系推理网络的视频和文本的跨模态检索方法可以依据视频帧之间的依赖关系,通过关系推理网络,在多个时间尺度提取不同帧之间的依赖关系,构建多个帧之间的隐式关系,获得局部关系特征,同时构建全局特征,并融合多尺度局部关系特征和全局特征,成一个强语义的语义特征,作为视频的融合特征。
另外,依据文本词间的依赖关系,通过关系推理网络,在多个尺度上提取不同词之间的依赖关系,构建多个词之间的隐式关系,获得局部关系特征,同时构建全局特征,并融合多尺度局部关系特征和全局特征,成一个强语义的语义特征,作为文本的融合特征。
接下来,将视频融合特征和文本融合特征映射到公共空间,利用分布对齐损失函数和triplerankingloss函数训练整个网络,然后进行视频文本检索。
这里,通过设计的关系推理网络,更好的捕捉到单模态内部的关系,丰富了单模态特征的表示方式,提高了网络对单模态数据的表征能力,尤其是对视频而言,该网络相比于现存方法,可以更好地捕捉到视频中的时序关系,实现对场景变换、动作等对时序要求较高的检索对象的有效检索。
此外,不同模态的数据具有不同特征表示,存在“异构鸿沟”,难以直接度量相似性,而且在使用triplerankingloss是容易扰乱现有分布,通过引入分布对齐函数可以有效的解决上述两个问题。
实施例3
参见图4,本实施例中提出的基于关系推理网络的视频和文本的跨模态检索方法,先构建训练用的模型,然后对整个网络进行训练,再进行跨模态检索,主要包括步骤S1-步骤S6。
步骤S1:提取多模态数据特征。
多模态的数据包含视频、文本等,这些原始数据以人类接受的方式表示,但是计算机并不能直接处理,需要将他们的特征提取出来,以计算机能够处理的数字表示。
其中,步骤S1具体包括以下步骤:
步骤S2:运用循环神经网络获取视频全局特征和文本全局特征。
本实施例中,运用双向的长短期记忆网络(Bi-LSTM)对文本特征进行编码,双向长短期记忆网络可以有效的利用给定信息的上下文,结合上下文获取整个文本的全局特征,记为;由于视频具有严格的时序性,所以我们采用单向的长短期记忆网络,对视频特征进行编码,获取视频全局特征,记为/>。
步骤S3:运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征。
以下以视频为例进行描述,文本操作类同视频,步骤S3具体包括以下步骤:
步骤S31:对视频帧特征进行多规模选取,获得不同尺度规模的数据特征子集,如视频数据特征,可获得2帧视频特征子集,3帧视频特征子集,……,t帧视频特征子集。我们定义规模为t的特征子集为,其中,/>。为了保证视频的时序性,我们保持/>。
步骤S32:对每一个尺度规模的视频特征子集,运用全部-局部注意力机制
(Global-to-localattention),利用视频全局特征来对一个尺度规模的视频特征子
集内的特征进行计算,获得不同特征的权重参数,以为例,计算权重参数矩阵如下:
步骤S33:对每一个尺度规模的视频特征子集,将特征子集内的每一个特征与其对应的权重参数进行加权求和,从而获得该尺度规模的多尺度局部关系特征。同样以规模为t的特征子集为例,具体实现如下:
步骤S4:分别融合单模态数据的全局特征和局部关系特征获得视频融合特征。
以下以视频为例进行描述,文本操作类同视频,步骤S4具体包括:
步骤S42:对多尺度的全局-局部关系特征,利用融合函数,将多个尺度的全局-局部关系特征融合成最终的模态融合特征,具体操作如下
步骤S5:映射视频融合特征和文本融合特征到公共空间,利用分布对齐损失和tripletranking损失来训练该网络。
所述步骤S5具体包括:
步骤S51:将视频融合特征和文本融合特征映射到512维的公共空间中;
步骤S52:利用分布对齐损失函数来对齐视频融合特征分布和文本融合特征分布;
我们用KL散度来衡量两个分布的相似性,分布对齐损失函数具体实现如下:
步骤S53:采用tripletrankingloss作为损失函数对整个网络进行训练。
步骤S6:跨模态检索数据。
步骤S61:对一个给定模态的数据,如一段文本或者一段视频,提取其特征向量;
步骤S62:将提取的特征向量输入训练好的网络,映射到公共空间;
步骤S63:计算公共空间空间中其他模态数据变量与此检索目标变量的相似性,进行排序,相似性最大的变量对应的原始模态数据为检索结果。
实施例4
本实施例在实施例2或实施例3的基础上,进一步优化,采用top-k指标来评估我们的模型,top-k指模型返回的分类特征分数中前k个结果中有正确标签的视频序列或文本序列所占的比例,是最常用的分类评估方法,在本实例中中具体表示为R@k,其中k分别为1,5和10。表1表2中,MedR表示正确标签在实验结果中的中位数,rsum表示所有R@k的求和结果。
在大规模视频文本检索数据集TGIF和MSVD数据集上测试本发明。TGIF数据集包含100,000个视频动画和120,000条描述文本,选取89,504个视频样本和对应的描述文本作为训练集,11,351个视频样本和对应的描述文本作为测试集。测试比较结果如下表1所示:
表1
MSVD数据集包含1,970个Youtube视频,每条视频包含5个描述文本。我们选取1,300个视频样本作为训练集,670个视频样本作为测试集。测试比较结果如下表2所示:
表2
从表1、表2可以看出,本发明在所有的测试集上均优于现有的方法。
并且,本发明在视频-文本检索场景中获得了最高的检索准确率,在TGIF数据集上,我们相较于之前的最好方法,在rsum上提升了67.7%,在MSVD数据集上的top-1准确率相较于之前的最好方法提高了24.2%。在所有度量方式上均优于现有方法提高了视频行为分类的识别准确度。
Claims (7)
1.基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,包括如下步骤:
步骤1.提取视频数据特征和文本数据特征;
步骤2.运用循环神经网络获取视频全局特征和文本全局特征;
步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;
步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;
步骤5.映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;
步骤6.对步骤1-5的整体网络进行训练;
步骤7.利用训练好的整体网络对视频和文本进行跨模态检索;
具体的,步骤3具体包括如下步骤:
步骤301.对于一个给定模态数据特征,进行多规模选取,获得不同尺度规模的数据特征集,所述给定模态包括视频和文本;
步骤302.对每一个尺度规模的数据特征集,运用全部-局部注意力机制,利用该模态的全局特征来对一个尺度规模的数据特征集内的特征进行计算,获得不同特征的权重参数;
步骤303.对每一个尺度规模的数据特征集,将特征集内的每一个特征与其对应的权重参数进行加权求和,从而获得该尺度规模的多尺度局部关系特征;
步骤4具体包括如下步骤:
步骤401.对于一个给定模态数据的多尺度局部关系特征,对每个尺度的局部关系特征,将其与给定模态数据的全局特征进行连接操作,获得该尺度下的全局-局部关系特征;
步骤402.对多尺度的全局-局部关系特征,利用融合函数,将多个尺度的全局-局部关系特征融合成最终的模态融合特征。
2.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤1具体是指:
对于视频数据,运用卷积神经网络ResNet进行特征提取,提取出的视频特征序列;
对于文本数据,运用Glove模型进行特征提取,提取出的文本特征序列表示。
3.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤2具体是指:
对于提取出的视频数据特征,利用单向循环神经网络获取视频全局特征;
对于提取出的文本数据特征,利用双向循环神经网络获取文本全局特征。
4.根据权利要求3所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,
所述单向循环神经网络采用单向的长短期记忆网络Bi-LSTM,利用单向的长短期记忆网络Bi-LSTM对提取出的视频数据特征进行编码,获取视频全局特征;
所述双向循环神经网络采用双向的长短期记忆网络Bi-LSTM,利用双向的长短期记忆网络Bi-LSTM对提取出的文本数据特征进行编码,获取文本全局特征。
5.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤5具体为:
将视频融合特征和文本融合特征映射到512维的公共空间中;
利用分布对齐损失函数对齐视频融合特征分布和文本融合特征分布。
6.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤6具体为:
采用triplet ranking loss作为损失函数对步骤1-5的整体网络进行训练。
7.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤7具体包括如下步骤:
步骤701.对一个给定模态的数据,提取其特征向量;
步骤702.将提取的特征向量输入训练好的整体网络,并映射到公共空间;
步骤703.计算公共空间中所述给定模态以外的模态的数据变量与该给定模态的数据变量的相似性,并对计算结果进行排序,相似性最大的变量对应的原始模态数据为检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110451431.XA CN113239159B (zh) | 2021-04-26 | 2021-04-26 | 基于关系推理网络的视频和文本的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110451431.XA CN113239159B (zh) | 2021-04-26 | 2021-04-26 | 基于关系推理网络的视频和文本的跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239159A CN113239159A (zh) | 2021-08-10 |
CN113239159B true CN113239159B (zh) | 2023-06-20 |
Family
ID=77129160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110451431.XA Active CN113239159B (zh) | 2021-04-26 | 2021-04-26 | 基于关系推理网络的视频和文本的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239159B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806482B (zh) * | 2021-09-17 | 2023-12-12 | ***数智科技有限公司 | 视频文本跨模态检索方法、装置、存储介质和设备 |
CN114612759B (zh) * | 2022-03-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 视频处理方法、查询视频的方法和模型训练方法、装置 |
CN115455171B (zh) * | 2022-11-08 | 2023-05-23 | 苏州浪潮智能科技有限公司 | 文本视频的互检索以及模型训练方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649440A (zh) * | 2016-09-13 | 2017-05-10 | 西安理工大学 | 融合全局r特征的近似重复视频检索方法 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN111309971A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工商大学 | 一种基于多级编码的文本到视频的跨模态检索方法 |
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087125B2 (en) * | 2009-08-10 | 2015-07-21 | Pixel Forensics, Inc. | Robust video retrieval utilizing video data |
-
2021
- 2021-04-26 CN CN202110451431.XA patent/CN113239159B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649440A (zh) * | 2016-09-13 | 2017-05-10 | 西安理工大学 | 融合全局r特征的近似重复视频检索方法 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN111309971A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工商大学 | 一种基于多级编码的文本到视频的跨模态检索方法 |
CN112241468A (zh) * | 2020-07-23 | 2021-01-19 | 哈尔滨工业大学(深圳) | 一种基于多头目自注意力机制的跨模态视频检索方法、***及存储介质 |
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
Non-Patent Citations (2)
Title |
---|
Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning;Shizhe Chen 等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200805;10635-10644 * |
融合两级相似度的跨媒体图像文本检索;李志欣 等;《电子学报》;20210215;第49卷(第2期);268-274 * |
Also Published As
Publication number | Publication date |
---|---|
CN113239159A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Tree-augmented cross-modal encoding for complex-query video retrieval | |
Torabi et al. | Learning language-visual embedding for movie understanding with natural-language | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
Wang et al. | Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval | |
CN113806630B (zh) | 基于注意力的多视角特征融合跨域推荐方法及装置 | |
CN109598586A (zh) | 一种基于注意力模型的推荐方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
Long et al. | Bi-calibration networks for weakly-supervised video representation learning | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
CN114020871B (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
Zheng | [Retracted] The Importance of Traditional Sports into College Physical Education Based on Big Data Dynamic Programming Algorithm | |
Arya et al. | Predicting behavioural patterns in discussion forums using deep learning on hypergraphs | |
Lu et al. | Mining latent attributes from click-through logs for image recognition | |
CN107886054A (zh) | 一种基于稀疏核字典的视频摘要选择方法 | |
CN114022233A (zh) | 一种新型的商品推荐方法 | |
Zeng et al. | Event-driven network for cross-modal retrieval | |
Patel et al. | A survey on context based similarity techniques for image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |