CN105205096B - 一种跨文本模态和图像模态的数据检索方法 - Google Patents

一种跨文本模态和图像模态的数据检索方法 Download PDF

Info

Publication number
CN105205096B
CN105205096B CN201510507013.2A CN201510507013A CN105205096B CN 105205096 B CN105205096 B CN 105205096B CN 201510507013 A CN201510507013 A CN 201510507013A CN 105205096 B CN105205096 B CN 105205096B
Authority
CN
China
Prior art keywords
data
text
image
image modalities
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510507013.2A
Other languages
English (en)
Other versions
CN105205096A (zh
Inventor
赫然
谭铁牛
孙哲南
梁坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zhongke Intelligent Identification Co ltd
Original Assignee
Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd filed Critical Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Priority to CN201510507013.2A priority Critical patent/CN105205096B/zh
Publication of CN105205096A publication Critical patent/CN105205096A/zh
Application granted granted Critical
Publication of CN105205096B publication Critical patent/CN105205096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨文本模态和图像模态的数据检索方法,包括步骤:将全部文本和图像模态数据分成多个样本对进行联合聚类;根据所述联合聚类中心,对全部数据分别进行主亲和力的计算;将文本模态数据和图像模态数据的语义向量作为逻辑斯特回归分类器的输出表达,将主亲和力非线性表达中心化后作为输入表达来进行训练,得到多个分类函数;当用户需要检索文本或者图像模态数据样本时,分别计算主亲和力并输入到所述分类函数中,得到文本或者图像模态数据样本的语义层表达,然后归一化处理生成最终表达;利用内积距离计算公式计算检索结果。本发明公开的一种跨文本模态和图像模态的数据检索方法,其可快速有效跨模态检索,显著减少跨模态检索时间。

Description

一种跨文本模态和图像模态的数据检索方法
技术领域
本发明涉及计算机视觉、模式识别、多媒体检索等数据检索技术领域,特别是涉及一种跨文本模态和图像模态的数据检索方法。
背景技术
目前处于移动互联网时代,数据量与日俱增,尤其是绝大多数数据携有多模态信息。其中,以网页为例,一个网页文件既包括了文本信息又包括了图像信息,如何合理的利用多模态信息设计,实现更为人性化的搜索引擎备受人们关注。然而,值得注意的是,文本模态、图像模态这两种模态在特征表达层面并不对称,除此以外,这两种模态特征的长度以及区分能力更是相差很大,这为跨模态检索带来很大的挑战。目前,与单一模态的图像或文本模态检索相比较而言,跨模态检索有着更大的应用前景,目前,热门正在不断推进跨模态检索领域的发展。
通常,一个跨模态检索***采用共享子空间的方法,希望不同模态在子空间上的表达满足一定的特性,比如,同一对样本的表达尽可能接近,不同对样本的表达尽可能疏远。根据给定信息的丰富程度,可以将跨模态检索任务分为两种,即无监督跨模态检索和有监督跨模态检索。这两种检索任务最大的差异在于是否存在额外的语义标注信息。仍以网页为例,图像信息来源自一部电影的海报,文本信息来源电影内容的描述,无监督跨模态只需要知道哪些电影海报和哪些电影内容是对应的,而有监督跨模态检索还需要知道这些电影海报以及电影内容对应属于哪个类别,属于恐怖类别、喜剧类别或者科幻类别等等。
为了提高跨模态检索的效果,目前,越来越多的研究侧重于有监督的任务。在这些研究中,尤以基于子空间学习的方法最受研究者青睐。其基本思想是,希望学习到一个子空间,使得文本、图像两种模态在这个空间上的投影满足一些限制条件。这些限制条件包括同一文本、图像对之间的子空间表达尽可能接近,同类(语义标注信息一致)的图像和文本对相比于不同类(语义标注信息不一致)的图像和文本对更加接近。利用这些约束条件,去优化求解满足条件的子空间,最终在这个子空间上进行最后的检索任务。
然而,当前的子空间学习方法存在一个很大的弊端,即求解的时间和空间复杂度比较大,严重影响了跨模态检索的效率。这是因为现有技术人员在设计子空间学习时加入了诸如稀疏表示还有低秩等模式识别中常见的约束。这些约束一方面增加了优化求解的难度,另一方面,放缩后的优化求解也不能保证解的最优性。其中,以低秩约束为例,处理低秩约束通常使用多乘子交替方向法ADMM迭代优化算法,这样,在每一次迭代中会不可避免的出现F范数与核范数共存的情况,在这种情况下,特征值分解用于优化求解,然而,随着样本的增加,矩阵特征值分解的时、空间复杂度太大,不方便投入到实际应用中。除此以外,传统的跨模态算法,诸如相关成分分析以及偏最小二乘等经典算法往往采用线性的投影函数,从原始特征空间计算其在共享子空间上的投影。
因此,目前迫切需要开发出一种方法,其可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求。
发明内容
有鉴于此,本发明的目的是提供一种跨文本模态和图像模态的数据检索方法,其与现有模态检索方法相比较,可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求,可以很好地适用于计算机视觉、模式识别、多媒体检索等数据检索技术领域,具有重大的生产实践意义。
为此,本发明提供了一种跨文本模态和图像模态的数据检索方法,其特征在于,包括以下步骤:
第一步:将文本模态数据库中的全部文本模态数据和图像模态数据库中的全部图像模态数据分成多个样本对,每个样本对包括一个文本模态数据和一个图像模态数据;
第二步:将每个样本对的特征进行联合聚类,获得全部文本模态数据和图像模态数据的联合聚类中心;
第三步:根据所述联合聚类中心,对全部的文本模态数据和图像模态数据分别进行主亲和力的计算,分别获得本模态数据和图像模态数据的主亲和力非线性表达;
第四步:根据文本模态数据和图像模态数据自身具有的语义标注信息,生成一组长度等于类别数的语义向量,并将所述语义向量作为逻辑斯特回归分类器的输出表达,同时将文本模态数据和图像模态数据的主亲和力非线性表达中心化后作为输入表达来进行逻辑斯特回归分类器的训练,最终训练得到多个分类函数;
第五步:当用户需要检索至少一个文本模态数据样本或者图像模态数据样本时,分别计算该文本模态数据样本或者图像模态数据样本的主亲和力并将该主亲和力输入到所述分类函数中,分别得到文本模态数据样本或者图像模态数据样本的语义层表达;
第六步:将所述文本模态数据样本和图像模态数据样本的语义层表达进行归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达;
第七步:根据所述最终的文本模态数据样本和图像模态数据样本的语义层表达,利用内积距离计算公式计算用户需要检索的文本模态数据样本与作为待检索对象的所述图像模态数据库内所有图像模态数据的距离,按照距离大小的升序输出对所述图像模态数据库内所有图像模态数据的检索结果,或者计算用户需要检索的图像模态数据样本与作为待检索对象的所述文本模态数据库中所有文本模态数据的距离,按照距离大小的升序输出对所述文本模态数据库内所有文本像模态数据的检索结果。
其中,所述第二步具体包括以下步骤:
首先,将每个不同的样本对,即文本模态数据和图像模态数据对的特征串联起来,得到全部样本对初始特征串联的顺序fi=[fi (1)fi (2)],fi (1)和fi (2)分别为文本模态数据和图像模态数据对应的原始特征表达;
接着,利用联合聚类算法得到全部样本对的初始特征串联的顺序fi,i∈[1,n]的聚类中心uj,j∈[1,m],其中m和n分别为聚类中心的数目以及训练样本个数;
最后,将获得的所述聚类中心uj,j∈[1,m]按照全部样本对初始特征串联的顺序fi=[fi (1) fi (2)]重新拆成两个部分,这样得到的认定为文本模态和图像模态这两种不同模态数据的联合聚类中心。
其中,在所述第三步中,采用径向基函数作为主亲和力的测度,所述第三步具体包括以下步骤:
利用径向基函数核其中x和y分别指代任意两个向量,δ指的是核函数的宽度,分别计算文本模态数据和图像模态数据的原始特征距离与其m个聚类中心k∈[1,2],j∈[1,m]的主亲和力表达i∈[1,m],k∈[1,2],展开如下:
其中k等于1和2分别代表文本和图像两种模态的数据,m为大于0的整数。
其中,在所述第四步中,对所述文本模态数据和图像模态数据的主亲和力非线性表达进行中心化处理的操作如下:
其中,所述第四步具体包括以下步骤:
将文本模态数据和图像模态数据的主亲和力非线性表达中心化后,作为带有L2约束的多类逻辑斯特回归函数的输入表达,作为回归函数的输出表达,对应文本模态数据和图像模态数据,分别训练出对应的分类函数k∈[1,2],i∈[1,t],其中,yi=[0,0...,1,...0,0]t∈Rt中非零元素1的位置对应于训练样本的标签信息,t为文本模态数据和图像模态数据中的不同语义标签的类别数目。
其中,所述第五步具体包括以下步骤:
对输入的文本或图像模态数据样本首先分别计算出他们的主亲和力表达减去主亲和力表达的均值后,再分别利用其对应的分类函数k∈[1,2],i∈[1,t],计算其在语义空间的表达其中s(x,y)=xTy,k等于1和2分别为文本和图像两种模态数据下的语义层表达。
其中,所述第六步具体包括步骤:
将所述文本模态数据样本和图像模态数据样本的语义层表达分别投影到单纯形上,实现归一化处理,分别生成最终的文本模态数据和图像模态数据的语义层表达,归一化处理如下:
其中,在所述第七步中,所述需要检索的文本模态数据样本或者图像模态数据样本,与对应的作为待检索对象的另外一种模态数据库,即所述图像模态数据库或者文本模态数据库的内积距离计算公式为:
式中,x和y均为列向量,x指代任意的图像特征向量,y指代任意的文本特征向量,r为作为待检索对象的另外一种模态数据库的大小,分别为文本模态和图像模态这两种模态数据库下第i个样本的归一化后语义层表达,i为大于0的整数。
由以上本发明提供的技术方案可见,与现有技术相比较,本发明提供了一种跨文本模态和图像模态的数据检索方法,其与现有模态检索方法相比较,可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求,可以很好地适用于计算机视觉、模式识别、多媒体检索等数据检索技术领域,具有重大的生产实践意义。
附图说明
图1为本发明提供的一种跨文本模态和图像模态的数据检索方法的流程图;
图2是文本模态数据库中的文本模态数据和图像模态数据库中的图像模态数据经过主亲和力表达的示意图,黑色实心点分别表示为文本和图像聚类中心,月亮形代表当前待检索的样本;
图3是本发明在PASCAL-VOC、NUS-WIDE以及Wiki等三个数据库上检索效果的平均准确率与其他方法的对比示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方式对本发明作进一步的详细说明。
本发明提供了一种跨文本模态和图像模态的数据检索方法,其针对实际环境下基于子空间学习的跨模态检索算法优化算法的时间和空间复杂度较高以及效果并不理想的问题,本发明通过基于主亲和力的跨模态模型合理利用非线性特征表达能力,并将语义标准信息作为共享子空间,避免了传统子空间学习面临的优化难题,从而最终得到的检索方法具有更好的适应性,并在实验中取得了最好的效果。本发明一方面可以减小检索过程中运算的时间和空间复杂度,另一方面提高了跨模态数据检索的效率和准确度。
参见图1,本发明提供了一种跨文本模态和图像模态的数据检索方法,该方法包括以下步骤:
步骤S101:将文本模态数据库中的全部文本模态数据和图像模态数据库中的全部图像模态数据分成多个样本对,每个样本对包括一个文本模态数据和一个图像模态数据;
步骤S102:将每个样本对的特征进行联合聚类,获得全部文本模态数据和图像模态数据的联合聚类中心;
步骤S103:根据所述联合聚类中心,对全部的文本模态数据和图像模态数据(即两种模态数据)分别进行主亲和力的计算,分别获得本模态数据和图像模态数据的主亲和力非线性表达;
步骤S104:根据文本模态数据和图像模态数据自身具有的语义标注信息(即语义标签),生成一组长度等于类别数(其中类别数指的是所有文本模态数据或图像模态数据不同语义标签的个数)的语义向量,并将所述语义向量作为逻辑斯特回归分类器的输出表达,同时将文本模态数据和图像模态数据的主亲和力非线性表达中心化后作为输入表达来进行逻辑斯特回归分类器的训练,最终训练得到多个分类函数;
步骤S105:当用户需要检索至少一个文本模态数据样本或者图像模态数据样本时,分别计算该文本模态数据样本或者图像模态数据样本的主亲和力并将该主亲和力输入到所述分类函数中(即步骤S104中逻辑斯特回归获得的分类函数),分别得到文本模态数据样本或者图像模态数据样本的表达,称之为语义层表达;
步骤S106:将所述文本模态数据样本和图像模态数据样本的语义层表达进行归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达;
步骤S107:根据所述最终的文本模态数据样本和图像模态数据样本的语义层表达,利用内积距离计算公式计算用户需要检索的文本模态数据样本与作为待检索对象的所述图像模态数据库内所有图像模态数据的距离,按照距离大小的升序(即递增排序)输出对所述图像模态数据库内所有图像模态数据的检索结果,或者计算用户需要检索的图像模态数据样本与作为待检索对象的所述文本模态数据库中所有文本模态数据的距离,按照距离大小的升序(即递增排序)输出对所述文本模态数据库内所有文本像模态数据的检索结果。
对于本发明,在步骤S102中,本发明所使用的特征为现有不同模态的常用特征,如文本模态下的隐含狄利克雷分配LDA特征、图像模态下的尺度不变特征转换SIFT特征或者场景自发激活记忆GIST特征等,需要事先分别对不同模态提取这些相应的特征。
在步骤S102中,需要说明的是,将每个样本对的特征串联起来进行联合聚类,可以使用现有的k均值聚类算法或者其他可以实现联合聚类的算法。
对于本发明,具体实现上,所述步骤S102具体包括以下步骤:
步骤S1021:首先,将每个不同的样本对,即文本模态数据和图像模态数据对的特征串联起来,分别得到全部样本对的初始特征串联的顺序fi=[fi (1) fi (2)],fi (1)和fi (2)分别为文本模态数据和图像模态数据对应的原始特征表达;
步骤S1022:接着,利用联合聚类算法得到全部样本对的初始特征串联的顺序fi,i∈[1,n]的聚类中心uj,j∈[1,m],其中m和n分别为聚类中心的数目以及训练样本个数,m通常设置为多个模态(如文本模态和图像模态)数据中最长的特征的长度;
步骤S1023:最后,将获得的所述聚类中心uj,j∈[1,m]按照全部样本对初始特征串联的顺序fi=[fi (1) fi (2)]重新拆成两个部分,这样得到的就可以认定为文本模态和图像模态这两种不同模态数据的联合聚类中心。
对于本发明,为了不影响以上步骤S102的运算执行时间,本发明采用了一种现有快速的k均值聚类算法lites-kmeans。
对于步骤S103,本发明在跨模态问题中引入主亲和力表达,相比较传统的相关成分分析等原始特征,增加了模型的表达能力,与此同时相比核方法选用所有样本之间的亲和力关系作为输入,主亲和力大大减小了算法的存储空间。
在步骤S103中,具体实现上,可以采用径向基函数作为主亲和力的测度。因此,对于本发明,所述步骤S103具体可以包括以下步骤:
参见图2,利用径向基函数核其中x和y分别指代任意两个向量,δ指的是核函数的宽度,分别计算文本模态数据和图像模态数据的原始特征与其模态下m个(m为大于0的整数)聚类中心k∈[1,2],j∈[1,m]的主亲和力表达i∈[1,m],k∈[1,2],其中k等于1和2分别代表文本和图像两种模态,也就是图2中模态1和模态2分别代表文本模态和图像模态两种模态的数据,该主亲和力表达展开如下:
为了方便起见,这里的δ并没有使用距离的均值而是取了经验值0.4作为标准差。
在步骤S104中,具体实现上,所述文本模态数据和图像模态数据的主亲和力非线性表达优先进行中心化处理,然后输入到带有L2约束的多类逻辑斯特回归函数中,这样做的好处在于避免接下来训练分类函数出现的非零偏置问题。中心化处理操作如下所示:
因此,对于本发明,所述步骤S104具体可以包括以下步骤:
将文本模态数据和图像模态数据的主亲和力非线性表达中心化后,作为带有L2约束的多类逻辑斯特回归函数的输入表达,作为回归函数的输出表达,对应文本模态数据和图像模态数据,分别训练出对应的分类函数k∈[1,2],j∈[1,m],其中yi=[0,0...,1,...0,0]t∈Rt中非零元素的位置对应于训练样本的标签信息,t为多模态数据(文本模态数据和图像模态数据)中的不同语义标签的类别数目。
具体实现上,所训练出的t个分类函数即为k∈[1,2],i∈[1,t],其中t为训练样本的类别总数(即不同语义标签的个数),目标函数如下所示:
其中,C为超参数,通过交叉验证选取,最小化而不是是为了增加代价函数的连续性,方便优化。
具体实现上,利用现有的liblinear相关工具可以快速的对上面的目标函数进行优化。
在本发明中,值得注意的是,带有L2约束的多类逻辑斯特回归函数有且只有一个参数,即上面公式中的C,本发明选用的C在50~100之间。相比于传统的多类逻辑斯特回归函数,增加L2约束可以最大化分类界面之间的距离,类似于支持向量机SVM的最大化间隔机制。
在本发明中,对于步骤S105,在数据的检索阶段,对输入的文本或图像模态数据样本首先分别计算出他们的主亲和力表达减去主亲和力表达的均值后,再分别利用其对应的分类函数k∈[1,2],i∈[1,t],计算其在语义空间的表达其中s(x,y)=xTy,k等于1和2分别为文本和图像两种模态数据下的语义层表达。
对于本发明,所述步骤S106具体为:将所述文本模态数据样本和图像模态数据样本的语义层表达分别投影到单纯形上,实现归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达。具体归一化处理如下:
在本发明中,对于步骤S107,需要说明的是,对于一个用户需要检索的文本模态数据样本,其与作为检索对象的图像模态距离越近,说明它们的相似度越高,跨模态检索的准确性也就越高。
在本发明中,对于步骤S107,所述内积距离计算公式为:
式中,x和y均为列向量,x指代任意的图像特征向量,y指代任意的文本特征向量,r为作为待检测对象的另外一种模态的数据库大小,分别为文本模态和图像模态这两种模态数据库下第i个样本的归一化后的语义层表达,i为大于0的整数。
对于步骤S107,需要说明的是,根据内积距离分别计算文本模态和图像模态这两种模态最终共享子空间的距离,以文本模态下第i个测试样本跨模态检索为例,作为用户需要检索的文本模态数据样本(即查询样本),i∈[1,r]作为待检索对象的图像模态数据库,在共享子空间上计算查询样本与待检索对象的图像模态数据库的相似度距离 s(x,y)=xTy,并对进行递增排序,就是对跨模态检索后的结果。
对于本发明,开展跨模态检索采用的协议是,给定一个文本模态数据的表达计算其与另一个图像模态数据库中多个图像的表达i∈[1,r]的内积距离,按照内积距离的大小关系进行重新升序排序,即为跨模态的检索结果,实现需要检索的文本模块数据样本在另外一种模态数据库(即图像模态数据库)中的跨模态检索。以次类推,本发明还可以进行用户输入的图像模态数据样本在另外一种模态数据库(即文本模块数据库)中的跨模态检索。
为更加清楚地理解本发明的技术方案,下面结合具体实施例来进一步说明。
为了详细说明本发明的具体实施方式及验证本发明的有效性,将本发明提出的方法应用于三个公开的常用跨模态数据库,即PASCAL-VOC、NUS-WIDE和Wiki数据库。其中,PASCAL-VOC数据库包含20类文本、图像对,其中2808幅训练图像和文本对,2841幅测试图像和文本对,其中图像特征用512维场景自发激活记忆Gist特征,文本特征来自于399维的词频特征;NUS-WIDE数据库则包含21类文本、图像对,其中36110幅训练图像和文本对,36109幅测试图像和文本对,其中图像特征用500维尺度不变特征转换Sift特征,文本特征来自于1000维的词频特征;Wiki数据库则包含10类文本和图像对,其中1300幅训练图像和文本对,1566幅测试图像和文本对,其中图像特征用128维Sift特征,文本特征来自于10维的隐含狄利克雷分配LDA特征。
按照上面本发明提供的运行步骤S103,本发明可以首先将所有训练集数据输入模型进行训练,针对3个数据库,聚类数目应和原始的特征维度一致,设为500,500和200,这样得到的主亲和力分别中心化后,送入到多类逻辑斯特模型中,得到相应数目的分类函数W。对于测试标准,采用一个模态(如以文本模态数据样本作为查询样本)下的数据作为查询,另一个模态(如图像模态)下的数据作为待检索数据库进行实验。首先,对两个不同模态利用分类函数W分别计算其投影后的表达并进行归一化。最终直接利用内积距离计算需要查询的文本模态数据样本与图像模块数据库内所有图像模块数据的相似度,作为检索的指标。
图3展示了本发明提供的方法的平均准确度MAP和其他方法的对比,其中-i与-c分别表示使用内积距离和使用余弦距离的效果。有监督信息的3视角典范成分分析方法CCA-3V是跨模态检索最好的方法,语义对应匹配SCM是和本发明方法最为类似的方法,和这些方法比较,本发明提供的方法在查询文本和查询图像均能达到最好的检索效果。除此以外,使用内积距离可以进一步提高本发明的检索效果。因此,本发明在实际环境中的跨模态应用中是一种极为有效的方法,可以显著提高综合识别率。
需要说明的是,本发明在文本、图像跨模态检索的问题上提出了更加简洁的模型和方法,该方法也可以应用于其他跨模态任务上,如视频、文本。本发明提出的跨文本模态和图像模态的数据检索方法可以同时节约储存空间和时间代价,并显著提高文本、图像跨模态检索的效果。
由上面的技术方案可知,本发明提供了一种简单有效地跨模态学习算法。针对实际应用环境下的跨模态检索问题而提出,可以快速有效的返回跨模态数据检索的结果。本发明通过引入与联合聚类中心的亲和关系,增强了模型的拟合能力,同时与以往基于子空间学习算法的检索方法不同,不需要学习共享子空间,而是本发明采取两步算法,在第一步给定样本对的子空间表达,本发明使用的是语义信息表达yi,为了避免模型的拟合程度不够,选用主亲和力作为特征非线性映射的一种方式,最后使用L2约束的多类逻辑斯特模型学习非线性特征与语义信息之间的投影函数W,从而本发明提供的方法大大减小了模型的存储空间复杂度和计算时间复杂度,加快了大规模跨模态数据的训练时间,最终可以获得更好的跨模态数据检索效果。
因此,基于本发明提供的一种跨文本模态和图像模态的数据检索方法,其与现有模态检索方法相比较,可以在保证高精度的同时,快速、有效地对大规模的数据进行跨模态检索,显著减少跨模态检索的时间,节约人们宝贵的时间,满足人们对跨模态数据的检索需求,可以很好地适用于计算机视觉、模式识别、多媒体检索等数据检索技术领域,具有重大的生产实践意义。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种跨文本模态和图像模态的数据检索方法,其特征在于,包括以下步骤:
第一步:将文本模态数据库中的全部文本模态数据和图像模态数据库中的全部图像模态数据分成多个样本对,每个样本对包括一个文本模态数据和一个图像模态数据;
第二步:将每个样本对的特征进行联合聚类,获得全部文本模态数据和图像模态数据的联合聚类中心;
第三步:根据所述联合聚类中心,对全部的文本模态数据和图像模态数据分别进行主亲和力的计算,分别获得本模态数据和图像模态数据的主亲和力非线性表达;
第四步:根据文本模态数据和图像模态数据自身具有的语义标注信息,生成一组长度等于类别数的语义向量,并将所述语义向量作为逻辑斯特回归分类器的输出表达,同时将文本模态数据和图像模态数据的主亲和力非线性表达中心化后作为输入表达来进行逻辑斯特回归分类器的训练,最终训练得到多个分类函数;
第五步:当用户需要检索至少一个文本模态数据样本或者图像模态数据样本时,分别计算该文本模态数据样本或者图像模态数据样本的主亲和力并将该主亲和力输入到所述分类函数中,分别得到文本模态数据样本或者图像模态数据样本的语义层表达;
第六步:将所述文本模态数据样本和图像模态数据样本的语义层表达进行归一化处理,分别生成最终的文本模态数据样本和图像模态数据样本的语义层表达;
第七步:根据所述最终的文本模态数据样本和图像模态数据样本的语义层表达,利用内积距离计算公式计算用户需要检索的文本模态数据样本与作为待检索对象的所述图像模态数据库内所有图像模态数据的距离,按照距离大小的升序输出对所述图像模态数据库内所有图像模态数据的检索结果,或者计算用户需要检索的图像模态数据样本与作为待检索对象的所述文本模态数据库中所有文本模态数据的距离,按照距离大小的升序输出对所述文本模态数据库内所有文本像模态数据的检索结果。
2.如权利要求1所述的方法,其特征在于,所述第二步具体包括以下步骤:
首先,将每个不同的样本对,即文本模态数据和图像模态数据对的特征串联起来,得到全部样本对初始特征串联的顺序fi=[fi (1)fi (2)],fi (1)和fi (2)分别为文本模态数据和图像模态数据对应的原始特征表达;
接着,利用联合聚类算法得到全部样本对的初始特征串联的顺序fi,i∈[1,n]的聚类中心uj,j∈[1,m],其中m和n分别为聚类中心的数目以及训练样本个数;
最后,将获得的所述聚类中心uj,j∈[1,m]按照全部样本对初始特征串联的顺序fi=[fi (1)fi (2)]重新拆成两个部分,这样得到的认定为文本模态和图像模态这两种不同模态数据的联合聚类中心。
3.如权利要求2所述的方法,其特征在于,在所述第三步中,采用径向基函数作为主亲和力的测度,所述第三步具体包括以下步骤:
利用径向基函数核其中x和y分别指代任意两个向量,δ指的是核函数的宽度,分别计算文本模态数据和图像模态数据的原始特征距离与其m个聚类中心的主亲和力表达展开如下:
其中k等于1和2分别代表文本和图像两种模态的数据,m为大于0的整数。
4.如权利要求3所述的方法,其特征在于,在所述第四步中,对所述文本模态数据和图像模态数据的主亲和力非线性表达进行中心化处理的操作如下:
5.如权利要求3所述的方法,其特征在于,所述第四步具体包括以下步骤:
将文本模态数据和图像模态数据的主亲和力非线性表达中心化后,作为带有L2约束的多类逻辑斯特回归函数的输入表达,作为回归函数的输出表达,对应文本模态数据和图像模态数据,分别训练出对应的分类函数其中,yi=[0,0...,1,...0,0]t∈Rt中非零元素1的位置对应于训练样本的标签信息,t为文本模态数据和图像模态数据中的不同语义标签的类别数目。
6.如权利要求5所述的方法,其特征在于,所述第五步具体包括以下步骤:
对输入的文本或图像模态数据样本首先分别计算出他们的主亲和力表达减去主亲和力表达的均值后,再分别利用其对应的分类函数计算其在语义空间的表达其中k等于1和2分别为文本和图像两种模态数据下的语义层表达。
7.如权利要求6所述的方法,其特征在于,所述第六步具体包括步骤:
将所述文本模态数据样本和图像模态数据样本的语义层表达分别投影到单纯形上,实现归一化处理,分别生成最终的文本模态数据和图像模态数据的语义层表达,归一化处理如下:
8.如权利要求7所述的方法,其特征在于,在所述第七步中,所述需要检索的文本模态数据样本或者图像模态数据样本,与对应的作为待检索对象的另外一种模态数据库,即所述图像模态数据库或者文本模态数据库的内积距离计算公式为:
式中,x和y均为列向量,x指代任意的图像特征向量,y指代任意的文本特征向量,r为作为待检索对象的另外一种模态数据库的大小,分别为文本模态和图像模态这两种模态数据库下第i个样本的归一化后语义层表达,i为大于0的整数。
CN201510507013.2A 2015-08-18 2015-08-18 一种跨文本模态和图像模态的数据检索方法 Active CN105205096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510507013.2A CN105205096B (zh) 2015-08-18 2015-08-18 一种跨文本模态和图像模态的数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510507013.2A CN105205096B (zh) 2015-08-18 2015-08-18 一种跨文本模态和图像模态的数据检索方法

Publications (2)

Publication Number Publication Date
CN105205096A CN105205096A (zh) 2015-12-30
CN105205096B true CN105205096B (zh) 2019-02-12

Family

ID=54952780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510507013.2A Active CN105205096B (zh) 2015-08-18 2015-08-18 一种跨文本模态和图像模态的数据检索方法

Country Status (1)

Country Link
CN (1) CN105205096B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740879B (zh) * 2016-01-15 2019-05-21 天津大学 基于多模态判别分析的零样本图像分类方法
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型
EP3343432B1 (en) * 2016-12-29 2024-03-20 Elektrobit Automotive GmbH Generating training images for machine learning-based object recognition systems
CN106886601B (zh) * 2017-03-02 2018-09-04 大连理工大学 一种基于子空间混合超图学习的交叉模态检索方法
CN107193983A (zh) * 2017-05-27 2017-09-22 北京小米移动软件有限公司 图像搜索方法及装置
CN107402993B (zh) * 2017-07-17 2018-09-11 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN108960073B (zh) * 2018-06-05 2020-07-24 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
CN109284414B (zh) * 2018-09-30 2020-12-04 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和***
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109739991A (zh) * 2018-11-22 2019-05-10 国网天津市电力公司 基于共享特征空间的模态异质电力数据统一语义主题建模方法
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
CN110597878B (zh) * 2019-09-16 2023-09-15 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN111353076B (zh) * 2020-02-21 2023-10-10 华为云计算技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111930972B (zh) * 2020-08-04 2021-04-27 山东大学 利用标签层次信息的多媒体数据跨模态检索方法及***
CN112464993B (zh) * 2020-11-05 2022-12-09 苏州浪潮智能科技有限公司 一种多模态模型训练方法、装置、设备及存储介质
CN113360700B (zh) * 2021-06-30 2023-09-29 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113254678B (zh) * 2021-07-14 2021-10-01 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
CN114154645B (zh) * 2021-12-03 2022-05-17 中国科学院空间应用工程与技术中心 跨中心图像联合学习方法、***、存储介质及电子设备
CN116662599A (zh) * 2023-07-28 2023-08-29 知呱呱(天津)大数据技术有限公司 一种基于对比学习算法的多模态商标检索方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693316A (zh) * 2012-05-29 2012-09-26 中国科学院自动化研究所 基于线性泛化回归模型的跨媒体检索方法
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7185049B1 (en) * 1999-02-01 2007-02-27 At&T Corp. Multimedia integration description scheme, method and system for MPEG-7

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693316A (zh) * 2012-05-29 2012-09-26 中国科学院自动化研究所 基于线性泛化回归模型的跨媒体检索方法
CN103425757A (zh) * 2013-07-31 2013-12-04 复旦大学 融合多模态信息的跨媒体人物新闻检索方法与***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Two-step Approach to Cross-modal Hashing;Kaiye Wang et al.;《Proceedings of the 5th ACM on International Conference on Multimedia Retrieval》;20150630;第459-462页

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN114780777B (zh) * 2022-04-06 2022-12-20 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端

Also Published As

Publication number Publication date
CN105205096A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105205096B (zh) 一种跨文本模态和图像模态的数据检索方法
CN106649715B (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
CN103309953B (zh) 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
Ayache et al. Evaluation of active learning strategies for video indexing
Mensink et al. Tree-structured CRF models for interactive image labeling
Chen et al. Differential topic models
Zhang et al. Adaptively Unified Semi-supervised Learning for Cross-Modal Retrieval.
Li Tag relevance fusion for social image retrieval
Xu et al. Coupled dictionary learning and feature mapping for cross-modal retrieval
Wu et al. Enhancing bag-of-words models with semantics-preserving metric learning
Gao et al. Cross modal similarity learning with active queries
Dumancic et al. Clustering-based relational unsupervised representation learning with an explicit distributed representation
Nevzorova et al. Towards a recommender system for the choice of UDC code for mathematical articles
Zhang et al. Proximity-aware heterogeneous information network embedding
CN117556067B (zh) 数据检索方法、装置、计算机设备和存储介质
CN111143400A (zh) 一种全栈式检索方法、***、引擎及电子设备
Song et al. Sparse multi-modal topical coding for image annotation
Chen et al. An annotation rule extraction algorithm for image retrieval
CN109255098B (zh) 一种基于重构约束的矩阵分解哈希方法
CN106775694A (zh) 一种软件配置代码制品的层次分类方法
Sun Research on product attribute extraction and classification method for online review
Remil et al. Data‐Driven Sparse Priors of 3D Shapes
Giannakopoulos et al. Content visualization of scientific corpora using an extensible relational database implementation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 300457 unit 1001, block 1, msd-g1, TEDA, No.57, 2nd Street, Binhai New Area Economic and Technological Development Zone, Tianjin

Patentee after: Tianjin Zhongke intelligent identification Co.,Ltd.

Address before: 300457 No. 57, Second Avenue, Economic and Technological Development Zone, Binhai New Area, Tianjin

Patentee before: TIANJIN ZHONGKE INTELLIGENT IDENTIFICATION INDUSTRY TECHNOLOGY RESEARCH INSTITUTE Co.,Ltd.

CP03 Change of name, title or address