CN104317837A - 一种基于主题模型的跨模态检索方法 - Google Patents

一种基于主题模型的跨模态检索方法 Download PDF

Info

Publication number
CN104317837A
CN104317837A CN201410532057.6A CN201410532057A CN104317837A CN 104317837 A CN104317837 A CN 104317837A CN 201410532057 A CN201410532057 A CN 201410532057A CN 104317837 A CN104317837 A CN 104317837A
Authority
CN
China
Prior art keywords
data
theme
cross
module state
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410532057.6A
Other languages
English (en)
Other versions
CN104317837B (zh
Inventor
庄越挺
吴飞
李玺
王彦斐
宋骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410532057.6A priority Critical patent/CN104317837B/zh
Publication of CN104317837A publication Critical patent/CN104317837A/zh
Application granted granted Critical
Publication of CN104317837B publication Critical patent/CN104317837B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题模型的跨模态检索方法。它包括如下步骤:1)对数据库中各种类型模态数据提取特征和记录标签;2)基于主题的跨模态检索图模型的建立;3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。本发明引入跨模态主题和不同模态主题增强概念,并且利用了标签信息,既增强了主题建模的可解释性和灵活性,而且具有很好的可扩展性和判别性。

Description

一种基于主题模型的跨模态检索方法
技术领域
本发明涉及跨模态检索,一种基于主题模型的跨模态检索方法。
背景技术
如今,各种类型数据在互联网上广泛存在,如文本、图像、声音和地理位置数据等等。同一语义内容往往通过不同类型数据来进行表达,因此跨媒体检索成为一种需求。比如,根据文本去检索与文本所包含语义相关的图像,或者根据图像去检索与图像有关的文本新闻报道。
现有的检索方法大多针对单一类型媒体数据,如文本检索文本或图像检索图像。最近,也出现了若干跨模态方法,但是这些跨模态检索方法大都是在同模态数据之间先做相似度计算,然后利用已知的不同类型模态数据之间存在的对应关系来实现跨模态数据检索,这些方法很少直接关联不同类型模态数据进行跨模态检索。在同一类型模态数据间进行关联比较的检索方法,其无法学习得到跨模态数据之间关系,查询效果不理想。因此,有必要提出直接建立不同模态间关联关系的跨模态检索方法。但是,不同模态数据由于底层特征构成差异巨大,表达含义丰富,使得跨媒体检索面临“语义鸿沟”的难题。为了克服语义鸿沟,需要学习跨媒体数据在语义层面的关联性。
基于这样的认识,一些方法将不同模态的数据看作随机变量,将其映射到一个隐含空间,在隐含空间来度量不同类型模态数据的相似性。为了寻找一种更好的映射,出现了线性映射、非线性映射、稀疏映射和最大间隔映射等方法。但是这些基于映射的方法完全依赖于数据的统计特性,对跨模态数据内在机理的分析较为欠缺,学习得到的隐含空间不具有很好可解释性。
作为一种文本聚类的方法,主题模型能够挖掘文本中隐性语义。近年来,主题模型在图像分析领域也取得了较好成功。因此,本发明提出一种基于主题模型的跨模态检索方法。基于主题的跨模态检索方法,将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述基于映射方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的“主题”具有较强的可解释性。
发明内容
本发明的目的在于提供一种基于主题模型的跨模态检索方法,以便可以通过一种模态类型数据直接检索到与之相关的另外一种或几种模态类型的数据。
基于主题模型的跨模态检索方法包括如下步骤:
1)对数据库中各种类型模态数据提取特征和记录标签;
2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;
3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;
4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;
5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。
所述的步骤1)包括:
1)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中名词,将数据库中出现过的所有单词构成字典,统计字典中单词出现在每个文本中次数,用字典中单词出现的次数作为每个文本数据的表达;
2)对数据库内所有其他类型模态的数据提取底层特征作为单词,并进行聚类,用聚类中心点代表底层特征,形成该模态数据的字典;统计字典中每个单词出现在该模态数据中的次数,用字典中单词出现的次数作为每个模态数据的表达;
3)对数据库中不同类型模态数据,统计它们的标签信息,即记录每一个模态数据所属于的类别。
所述的步骤2)包括:
1)对于具有相关关系的不同模态数据,它们之间的相似性强弱通过其主题比例分布度量如下:
假设πi和πj是具有相关关系的两种不同模态数据的主题比例分布,这两个不同模态数据之间的相似性通过定义在其主题空间的势函数来计算,势函数的定义如公式(1)所示,
Ψ(πij)=exp(-λf(πij))  (1)
其中λ是一个非负缩放比例参数,f(πij)是对称KL-divergence距离,定义为 f ( π i , π j ) = 1 2 ( D KL ( π i | | π j ) + D KL ( π j | | π i ) ) = 1 2 Σ k = 1 K ( π ik log π ik π jk + π jk log π jk π ik ) , 其中,K是πi和πj的维度,即主题数目;
2)利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,由于相互关联的不同模态数据组成的跨模态文档具有一个共同的标签,因此通过跨模态文档经验主题频率向量采用softmax函数回归推理得到标签信息,计算如公式(2)所示,跨模态文档的经验主题频率由其所包含各种类型模态数据的经验主题频率拼接而成:
c d = soft max ( z ‾ d , η ) - - - ( 2 )
其中,为跨模态文档d的经验主题频率向量,M为跨模态文档d所包含的模态个数,为模态m所对应数据的经验主题频率,softmax函数的表达式为 p ( c | z ‾ d , η ) = exp ( η c T z ‾ d ) Σ l = 1 C exp ( η l T z ‾ d ) .
所述的步骤3)包括:
1)由***自动设定,或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β1…M统一初始值β、不同模态数据相关关系比例系数λ初始值,以及各个类别初始化类别参数η1…C统一初始值η,并且设定好迭代次数、收敛条件等参数;
2)对于包含相互关联的不同模态数据,称之为一个跨模态文档。对各个跨模态文档d中模态类型为m所对应数据中每一个单词xdmn,随机分配K个主题中的某个主题作为单词xdmn的主题zdmn
3)对于各个跨模态文档d,统计模态类型为m所对应数据在各个主题k上所分配单词数ndmk
4)对于模态类型为m所对应数据,统计单词v属于某个主题k的频率nmkv
5)已知模态类型为m所对应数据在各个主题k上所分配单词数ndmk,主题k的主题比例分布由公式(3)计算得到:
π ^ dmk = n dmk + α Σ k = 1 K ( n dmk + α ) - - - ( 3 )
6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词xdmn的主题分配zdmn,根据除xdmn以外其他单词具有主题通过按如下公式(4)完成,公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题zdmn
其中,表示整个文档集合;ndmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数,计数时不包含xdmn这一单词;nmkv是模态类型为m对应数据所包含主题k中单词v出现的频率,计数时不包含xdmn这一单词;是单词xdmn所包含主题zdmn为k时跨模态文档d的经验主题频率向量,是排除单词xdmn主题分配时跨模态文档d的经验主题频率向量;是排除单词xdmn主题分配时跨模态文档d中模态m的数据的主题比例分布,是单词xdmn所包含主题zdmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布;
7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后,按照以下公式(5)(6)(7)来更新参数α,β1…M和η1…C
α ← α [ Σ d = 1 D Σ m = 1 M Σ k = 1 K ( Ψ ( n dmk + α ) - Ψ ( α ) ) ] K [ Σ d = 1 D Σ m = 1 M ( Ψ ( Σ k = 1 K ( n dmk + α ) ) - Ψ ( Σ k - 1 K α ) ) ] - - - ( 5 )
β m ← β m [ Σ k = 1 K Σ v = 1 V ( Ψ ( n mkv + β m ) - Ψ ( β m ) ) ] V m [ Σ k = 1 K ( Ψ ( Σ v = 1 V ( n mkv + β m ) ) - Ψ ( V m β m ) ) ] - - - ( 6 )
η c = η c + ϵ × Σ d = 1 D [ z ‾ d ( 1 { c d = c } - p ( c d = c | z ‾ d ; η ) ) ] , 其中ε设为0.001(7);
8)检查算法是否满足收敛条件,如不满足返回3);
9)算法收敛后,则可得到每个跨模态文档所包含的各种模态类型数据中所有单词主题分布,于是模态类型为m的数据所包含单词v在主题k上分布可通过如下公式(8)计算:
φ ^ mkv = n mkv + β m Σ v = 1 V ( n mkv + β m ) - - - ( 8 ) .
所述的步骤4)包括:
1)假设给定模态类型为p的检索样例数据X={x1,x2,…xN},要检索与之相关的模态类型为q的数据,首先计算模态类型为q的所有数据的主题比例,然后计算在此主题比例下生成模态类型为p的检索样例数据X={x1,x2,…xN}的可能性大小,记模态类型为q的第i个数据产生X的概率为si,通过如下公式(9)来计算这一生成概率:
s i = p ( X | π i ) = Σ n = 1 N p ( x n | π i ) = ∏ n = 1 N Σ k = 1 K p ( x n | z = k ) p ( z = k | π i ) - - - ( 9 )
其中,πi是模态类型为q的第i个数据的主题比例,p(z=k|πi)是模态类型为p数据的主题-单词分布
2)按照si对模态类型为q的数据进行排序,找到与模态类型为p的检索样例数据X相关数据。
所述的步骤5)包括:
1)以对应性来评价跨模态检索。基于两种模态类型数据之间存在的对应关系,当某种类型模态数据出现时,另外一种类型模态数据也出现,采用百分比Percentage和平均排序倒数Mean Reciprocal Rank(MRR)两种评价来进行评价:1)Percentage:对于给定的t%指标,如果与检索样例数据所对应的另外一种模态类型数据排在t%前,则认为跨媒体检索结果正确,否则认为检索错误;2)Mean Reciprocal Rank(MRR):定义为:其中,|Q|是检索样例数据的个数,ranki是检索样例数据i所对应的另外一种模态类型数据在返回结果中的位置;
2)以区别来评价跨模态检索。基于两种类型模态数据是否属于标签所标识的同一类别来衡量跨模态检索性能。如果检索样例数据与检索结果中另外一种模态类型数据为同一类别,则认为其相关,否则认为不相关。具体采用信息检索中平均精度均值MAP(Mean Average Precision)这一指标来衡量。为了计算MAP,先要计算每个检索样例的平均精度AP(Average Precision),对每一个检索样例,如果其得到的检索结果包含的数据数目为R,AP定义为:其中,L是返回结果中与检索样例相关的数据个数,如检索样例与检索结果中数据如果来自同一类别,则两者相关;prec(r)表示1…r检索结果中与检索样例相关数据所占比例,如果检索结果中第r个数据与检索样例相关,则δ(r)=1,否则δ(r)=0,MAP定义为所有检索样例AP值的平均值。
本发明具有的有益的效果是:
1.本发明与传统的跨媒体检索方法相比,可以直接关联比较不同模态类型数据,而不是依靠同一模态类型数据之间关联比较,然后再通过对应关系进行不同模态数据之间相似性度量,这样能挖掘跨媒体数据间的隐含关联关系。
2.与其他直接关联比较不同模态数据的跨模态检索方法相比,通过主题建模这一生成式方法来发掘隐含主题空间,可学习得到更有解释性的“主题语义空间”。
3.本发明引入独特的跨模态主题这一概念,来增强跨模态主题,并且利用了跨模态数据具有的标签信息,使得学习得到“主题语义空间”更具有判别性。
附图说明
图1是本发明核心算法的概率图模型表达,其中,带阴影的圆圈表示可观测变量,α、β1…M、η1…C为超参数,其余为隐变量。在图中,假设一共有D个跨模态文档和M个模态,虚线代表跨模态文档中属于某一特定模态类型数据的主题比例不仅与其先验超参数有关,还和与之关联的同一跨模态文档中其他模态数据有关。
图2是实施例维奇百科数据库中对应图像和文本的示例。
具体实施方式
基于主题模型的跨模态检索方法包括如下步骤:
1)对数据库中各种类型模态数据提取特征和记录标签;
2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;
3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;
4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;
5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。
所述的步骤1)包括:
1)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中名词,将数据库中出现过的所有单词构成字典,统计字典中单词出现在每个文本中次数,用字典中单词出现的次数作为每个文本数据的表达;
2)对数据库内所有其他类型模态的数据提取底层特征作为单词,并进行聚类,用聚类中心点代表底层特征,形成该模态数据的字典;统计字典中每个单词出现在该模态数据中的次数,用字典中单词出现的次数作为每个模态数据的表达;
3)对数据库中不同类型模态数据,统计它们的标签信息,即记录每一个模态数据所属于的类别。
所述的步骤2)包括:
1)对于具有相关关系的不同模态数据,它们之间的相似性强弱通过其主题比例分布度量如下:
假设πi和πj是具有相关关系的两种不同模态数据的主题比例分布,这两个不同模态数据之间的相似性通过定义在其主题空间的势函数来计算,势函数的定义如公式(1)所示,
Ψ(πij)=exp(-λf(πij))  (1)
其中λ是一个非负缩放比例参数,f(πij)是对称KL-divergence距离,定义为 f ( π i , π j ) = 1 2 ( D KL ( π i | | π j ) + D KL ( π j | | π i ) ) = 1 2 Σ k = 1 K ( π ik log π ik π jk + π jk log π jk π ik ) , 其中,K是πi和πj的维度,即主题数目;
2)利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,由于相互关联的不同模态数据组成的跨模态文档具有一个共同的标签,因此通过跨模态文档经验主题频率向量采用softmax函数回归推理得到标签信息,计算如公式(2)所示,跨模态文档的经验主题频率由其所包含各种类型模态数据的经验主题频率拼接而成:
c d = soft max ( z ‾ d , η ) - - - ( 2 )
其中,为跨模态文档d的经验主题频率向量,M为跨模态文档d所包含的模态个数,为模态m所对应数据的经验主题频率,softmax函数的表达式为 p ( c | z ‾ d , η ) = exp ( η c T z ‾ d ) Σ l = 1 C exp ( η l T z ‾ d ) .
所述的步骤3)包括:
1)由***自动设定,或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β1…M统一初始值β、不同模态数据相关关系比例系数λ初始值,以及各个类别初始化类别参数η1…C统一初始值η,并且设定好迭代次数、收敛条件等参数;
2)对于包含相互关联的不同模态数据,称之为一个跨模态文档。对各个跨模态文档d中模态类型为m所对应数据中每一个单词xdmn,随机分配K个主题中的某个主题作为单词xdmn的主题zdmn
3)对于各个跨模态文档d,统计模态类型为m所对应数据在各个主题k上所分配单词数ndmk
4)对于模态类型为m所对应数据,统计单词v属于某个主题k的频率nmkv
5)已知模态类型为m所对应数据在各个主题k上所分配单词数ndmk,主题k的主题比例分布由公式(3)计算得到:
π ^ dmk = n dmk + α Σ k = 1 K ( n dmk + α ) - - - ( 3 )
6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词xdmn的主题分配zdmn,根据除xdmn以外其他单词具有主题通过按如下公式(4)完成,公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题zdmn
其中,表示整个文档集合;ndmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数,计数时不包含xdmn这一单词;nmkv是模态类型为m对应数据所包含主题k中单词v出现的频率,计数时不包含xdmn这一单词;是单词xdmn所包含主题zdmn为k时跨模态文档d的经验主题频率向量,是排除单词xdmn主题分配时跨模态文档d的经验主题频率向量;是排除单词xdmn主题分配时跨模态文档d中模态m的数据的主题比例分布,是单词xdmn所包含主题zdmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布;
7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后,按照以下公式(5)(6)(7)来更新参数α,β1…M和η1…C
α ← α [ Σ d = 1 D Σ m = 1 M Σ k = 1 K ( Ψ ( n dmk + α ) - Ψ ( α ) ) ] K [ Σ d = 1 D Σ m = 1 M ( Ψ ( Σ k = 1 K ( n dmk + α ) ) - Ψ ( Σ k - 1 K α ) ) ] - - - ( 5 )
β m ← β m [ Σ k = 1 K Σ v = 1 V ( Ψ ( n mkv + β m ) - Ψ ( β m ) ) ] V m [ Σ k = 1 K ( Ψ ( Σ v = 1 V ( n mkv + β m ) ) - Ψ ( V m β m ) ) ] - - - ( 6 )
η c = η c + ϵ × Σ d = 1 D [ z ‾ d ( 1 { c d = c } - p ( c d = c | z ‾ d ; η ) ) ] , 其中ε设为0.001(7);
8)检查算法是否满足收敛条件,如不满足返回3);
9)算法收敛后,则可得到每个跨模态文档所包含的各种模态类型数据中所有单词主题分布,于是模态类型为m的数据所包含单词v在主题k上分布可通过如下公式(8)计算:
φ ^ mkv = n mkv + β m Σ v = 1 V ( n mkv + β m ) - - - ( 8 ) .
所述的步骤4)包括:
1)假设给定模态类型为p的检索样例数据X={x1,x2,…xN},要检索与之相关的模态类型为q的数据,首先计算模态类型为q的所有数据的主题比例,然后计算在此主题比例下生成模态类型为p的检索样例数据X={x1,x2,…xN}的可能性大小,记模态类型为q的第i个数据产生X的概率为si,通过如下公式(9)来计算这一生成概率:
s i = p ( X | π i ) = Σ n = 1 N p ( x n | π i ) = ∏ n = 1 N Σ k = 1 K p ( x n | z = k ) p ( z = k | π i ) - - - ( 9 )
其中,πi是模态类型为q的第i个数据的主题比例,p(z=k|πi)是模态类型为p数据的主题-单词分布
2)按照si对模态类型为q的数据进行排序,找到与模态类型为p的检索样例数据X相关数据。
所述的步骤5)包括:
1)以对应性来评价跨模态检索。基于两种模态类型数据之间存在的对应关系,当某种类型模态数据出现时,另外一种类型模态数据也出现,采用百分比Percentage和平均排序倒数Mean Reciprocal Rank(MRR)两种评价来进行评价:1)Percentage:对于给定的t%指标,如果与检索样例数据所对应的另外一种模态类型数据排在t%前,则认为跨媒体检索结果正确,否则认为检索错误;2)Mean Reciprocal Rank(MRR):定义为:其中,|Q|是检索样例数据的个数,ranki是检索样例数据i所对应的另外一种模态类型数据在返回结果中的位置;
2)以区别来评价跨模态检索。基于两种类型模态数据是否属于标签所标识的同一类别来衡量跨模态检索性能。如果检索样例数据与检索结果中另外一种模态类型数据为同一类别,则认为其相关,否则认为不相关。具体采用信息检索中平均精度均值MAP(Mean Average Precision)这一指标来衡量。为了计算MAP,先要计算每个检索样例的平均精度AP(Average Precision),对每一个检索样例,如果其得到的检索结果包含的数据数目为R,AP定义为:其中,L是返回结果中与检索样例相关的数据个数,如检索样例与检索结果中数据如果来自同一类别,则两者相关;prec(r)表示1…r检索结果中与检索样例相关数据所占比例,如果检索结果中第r个数据与检索样例相关,则δ(r)=1,否则δ(r)=0,MAP定义为所有检索样例AP值的平均值。
实施例
为了验证本发明的效果,利用“***-特色文本”(Wikipedia feature articles)的网页,每个网页中包含了一张图像以及几段对图像内容进行描述的文本构成跨模态文档,将这些跨模态文档数据作为本发明实验的数据集(如附图2)。这里,数据集包含文字和图像两个模态,文本的词库字典大小设为5000维,图像的聚类中心点个数设为1000。整个数据集划分为10个类别。数据库共包含2866个跨媒体文档,随机选择其中的1/5用作测试,其他文档作为训练数据。按照具体实施方式中描述的步骤,所得的实验结果如下:
表1.***数据集上的结果
同时,本发明在公开数据集NUS-WIDE上也进行了跨媒体检索实验。NUS-WIDE数据包含图像和图像上传者对图像的描述标注构成的跨模态文档,同时包含可以作为类别信息的概念标签。数据集包含81个概念(类别),仅选择那些具有最普遍的10个类作为唯一标签的跨模态文档,得到26813个跨模态文档,随机选择其中的1/5用作测试,其他文档作为训练数据。按照具体实施方式中描述的步骤,所得的实验结果如下:
表2.NUS-WIDE数据集上的结果

Claims (6)

1.一种基于主题模型的跨模态检索方法,其特征在于包括如下步骤:
1)对数据库中各种类型模态数据提取特征和记录标签;
2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;
3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;
4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;
5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。
2.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤1)包括:
1)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中名词,将数据库中出现过的所有单词构成字典,统计字典中单词出现在每个文本中次数,用字典中单词出现的次数作为每个文本数据的表达;
2)对数据库内所有其他类型模态的数据提取底层特征作为单词,并进行聚类,用聚类中心点代表底层特征,形成该模态数据的字典;统计字典中每个单词出现在该模态数据中的次数,用字典中单词出现的次数作为每个模态数据的表达;
3)对数据库中不同类型模态数据,统计它们的标签信息,即记录每一个模态数据所属于的类别。
3.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤2)包括:
1)对于具有相关关系的不同模态数据,它们之间的相似性强弱通过其主题比例分布度量如下:
假设πi和πj是具有相关关系的两种不同模态数据的主题比例分布,这两个不同模态数据之间的相似性通过定义在其主题空间的势函数来计算,势函数的定义如公式(1)所示,
Ψ(πij)=exp(-λf(πij))   (1)
其中λ是一个非负缩放比例参数,f(πij)是对称KL-divergence距离,定义为 f ( π i , π j ) = 1 2 ( D KL ( π i | | π j ) + D KL ( π j | | π i ) ) = 1 2 Σ k = 1 K ( π ik log π ik π jk + π jk log π jk π ik ) , 其中,K是πi和πj的维度,即主题数目;
2)利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,由于相互关联的不同模态数据组成的跨模态文档具有一个共同的标签,因此通过跨模态文档经验主题频率向量采用softmax函数回归推理得到标签信息,计算如公式(2)所示,跨模态文档的经验主题频率由其所包含各种类型模态数据的经验主题频率拼接而成:
c d = soft max ( z ‾ d , η ) - - - ( 2 )
其中,为跨模态文档d的经验主题频率向量,M为跨模态文档d所包含的模态个数,为模态m所对应数据的经验主题频率,softmax函数的表达式为 p ( c | z ‾ d , η ) = exp ( η c T z ‾ d ) Σ l = 1 C exp ( η l T z ‾ d ) .
4.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤3)包括:
1)由***自动设定,或者由用户指定主题比例Dirichlet分布超参数α初始值、各个模态的单词Dirichlet分布超参数β1…M统一初始值β、不同模态数据相关关系比例系数λ初始值,以及各个类别初始化类别参数η1…C统一初始值η,并且设定好迭代次数、收敛条件等参数;
2)对于包含相互关联的不同模态数据,称之为一个跨模态文档。对各个跨模态文档d中模态类型为m所对应数据中每一个单词xdmn,随机分配K个主题中的某个主题作为单词xdmn的主题zdmn
3)对于各个跨模态文档d,统计模态类型为m所对应数据在各个主题k上所分配单词数ndmk
4)对于模态类型为m所对应数据,统计单词v属于某个主题k的频率nmkv
5)已知模态类型为m所对应数据在各个主题k上所分配单词数ndmk,主题k的主题比例分布由公式(3)计算得到:
π ^ dmk = n dmk + α Σ k = 1 K ( n dmk + α ) - - - ( 3 )
6)更新各个跨模态文档d中所包含模态类型为m的对应数据中每一个单词xdmn的主题分配zdmn,根据除xdmn以外其他单词具有主题通过按如下公式(4)完成,公式(4)表示概率采样跨模态文档d中模态m数据的第n个单词的主题zdmn
其中,表示整个文档集合;ndmk是跨模态文档d中模态类型为m所对应数据包含主题k分配的单词数,计数时不包含xdmn这一单词;nmkv是模态类型为m对应数据所包含主题k中单词v出现的频率,计数时不包含xdmn这一单词;是单词xdmn所包含主题zdmn为k时跨模态文档d的经验主题频率向量,是排除单词xdmn主题分配时跨模态文档d的经验主题频率向量;是排除单词xdmn主题分配时
跨模态文档d中模态m的数据的主题比例分布,是单词xdmn所包含主题zdmn为k时跨模态文档d中模态类型为m所对应数据的主题比例分布;
7)更新每个跨模态文档所包含模态类型数据中所有单词具有的主题分配后,按照以下公式(5)(6)(7)来更新参数α,β1…Mη1…C
α ← α [ Σ d = 1 D Σ m = 1 M Σ k = 1 K ( ψ ( n dmk + α ) - ψ ( α ) ) ] K [ Σ d = 1 D Σ m = 1 M ( ψ ( Σ k = 1 K ( n dmk + α ) ) - ψ ( Σ k - 1 K α ) ) ] - - - ( 5 )
β ← β m [ Σ k = 1 K Σ v = 1 V ( ψ ( n mkv + β m ) - ψ ( β m ) ) ] V m [ Σ k = 1 K ( ψ ( Σ v = 1 V ( n mkv + β m ) ) - Ψ ( V m β m ) ) ] - - - ( 6 )
η c = η c + ϵ × Σ d = 1 D [ z ‾ d ( 1 { c d = c } - p ( c d = c | z ‾ d ; η ) ) ] , 其中ε设为0.001  (7);
8)检查算法是否满足收敛条件,如不满足返回3);
9)算法收敛后,则可得到每个跨模态文档所包含的各种模态类型数据中所有单词主题分布,于是模态类型为m的数据所包含单词v在主题k上分布可通过如下公式(8)计算:
φ ^ mkv = n mkv + β m Σ v = 1 V ( n mkv + β m ) - - - ( 8 ) .
5.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤4)包括:
1)假设给定模态类型为p的检索样例数据X={x1,x2,…xN},要检索与之相关的模态类型为q的数据,首先计算模态类型为q的所有数据的主题比例,然后计算在此主题比例下生成模态类型为p的检索样例数据X={x1,x2,…xN}的可能性大小,记模态类型为q的第i个数据产生X的概率为si,通过如下公式(9)来计算这一生成概率:
s i = p ( X | π i ) = Σ n = 1 N p ( x n | π i ) = Π n = 1 N Σ k = 1 K p ( x n | z = k ) p ( z = k | π i ) - - - ( 9 )
其中,πi是模态类型为q的第i个数据的主题比例,p(z=k|πi)是模态类型为p数据的主题-单词分布
2)按照si对模态类型为q的数据进行排序,找到与模态类型为p的检索样例数据X相关数据。
6.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤5)包括:
1)以对应性来评价跨模态检索。基于两种模态类型数据之间存在的对应关系,当某种类型模态数据出现时,另外一种类型模态数据也出现,采用百分比Percentage和平均排序倒数Mean Reciprocal Rank(MRR)两种评价来进行评价:1)Percentage:对于给定的t%指标,如果与检索样例数据所对应的另外一种模态类型数据排在t%前,则认为跨媒体检索结果正确,否则认为检索错误;2)Mean Reciprocal Rank(MRR):定义为:其中,|Q|是检索样例数据的个数,ranki是检索样例数据i所对应的另外一种模态类型数据在返回结果中的位置;
2)以区别来评价跨模态检索。基于两种类型模态数据是否属于标签所标识的同一类别来衡量跨模态检索性能。如果检索样例数据与检索结果中另外一种模态类型数据为同一类别,则认为其相关,否则认为不相关。具体采用信息检索中平均精度均值MAP(Mean Average Precision)这一指标来衡量。为了计算MAP,先要计算每个检索样例的平均精度AP(Average Precision),对每一个检索样例,如果其得到的检索结果包含的数据数目为R,AP定义为:其中,L是返回结果中与检索样例相关的数据个数,如检索样例与检索结果中数据如果来自同一类别,则两者相关;prec(r)表示1…r检索结果中与检索样例相关数据所占比例,如果检索结果中第r个数据与检索样例相关,则δ(r)=1,否则δ(r)=0,MAP定义为所有检索样例AP值的平均值。
CN201410532057.6A 2014-10-10 2014-10-10 一种基于主题模型的跨模态检索方法 Expired - Fee Related CN104317837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410532057.6A CN104317837B (zh) 2014-10-10 2014-10-10 一种基于主题模型的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410532057.6A CN104317837B (zh) 2014-10-10 2014-10-10 一种基于主题模型的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN104317837A true CN104317837A (zh) 2015-01-28
CN104317837B CN104317837B (zh) 2017-06-23

Family

ID=52373069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410532057.6A Expired - Fee Related CN104317837B (zh) 2014-10-10 2014-10-10 一种基于主题模型的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN104317837B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005616A (zh) * 2015-07-20 2015-10-28 清华大学 基于文本图片特征交互扩充的文本图解方法及***
CN105335499A (zh) * 2015-10-27 2016-02-17 盐城工学院 一种基于分布-收敛模型的文献聚类方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107633259A (zh) * 2017-08-21 2018-01-26 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN117033724A (zh) * 2023-08-24 2023-11-10 青海昇云信息科技有限公司 基于语义关联的多模态数据检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303694A (zh) * 2008-04-30 2008-11-12 浙江大学 融合不同模态信息实现媒体间交叉检索的方法
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN103488713A (zh) * 2013-09-10 2014-01-01 浙江大学 一种可直接度量不同模态数据间相似性的跨模态检索方法
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303694A (zh) * 2008-04-30 2008-11-12 浙江大学 融合不同模态信息实现媒体间交叉检索的方法
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN103488713A (zh) * 2013-09-10 2014-01-01 浙江大学 一种可直接度量不同模态数据间相似性的跨模态检索方法
CN103559193A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于选择单元的主题建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUETING ZHUANG 等: "Supervised Coupled Dictionary Learning with Group Structures for Multi-Modal Retrieval", 《PROCEEDINGS OF THE TWENTY-SEVENTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005616A (zh) * 2015-07-20 2015-10-28 清华大学 基于文本图片特征交互扩充的文本图解方法及***
CN105335499A (zh) * 2015-10-27 2016-02-17 盐城工学院 一种基于分布-收敛模型的文献聚类方法
CN105335499B (zh) * 2015-10-27 2019-04-05 盐城工学院 一种基于分布-收敛模型的文献聚类方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN107633259A (zh) * 2017-08-21 2018-01-26 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN107633259B (zh) * 2017-08-21 2020-03-31 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN117033724A (zh) * 2023-08-24 2023-11-10 青海昇云信息科技有限公司 基于语义关联的多模态数据检索方法
CN117033724B (zh) * 2023-08-24 2024-05-03 广州市景心科技股份有限公司 基于语义关联的多模态数据检索方法

Also Published As

Publication number Publication date
CN104317837B (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
Comber et al. Machine learning innovations in address matching: A practical comparison of word2vec and CRFs
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN104317837A (zh) 一种基于主题模型的跨模态检索方法
US9305083B2 (en) Author disambiguation
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN107315738A (zh) 一种文本信息的创新度评估方法
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及***
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
Lalata et al. A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
Dobrovolskyi et al. Collecting the Seminal Scientific Abstracts with Topic Modelling, Snowball Sampling and Citation Analysis.
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
CN106844765B (zh) 基于卷积神经网络的显著信息检测方法及装置
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
Iparraguirre-Villanueva et al. Search and classify topics in a corpus of text using the latent dirichlet allocation model
Truskinger et al. Decision support for the efficient annotation of bioacoustic events
CN111814457B (zh) 一种电网工程合同文本生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170623

Termination date: 20181010

CF01 Termination of patent right due to non-payment of annual fee