CN101075263A - 融合伪相关反馈与检索技术的自动图像标注方法 - Google Patents

融合伪相关反馈与检索技术的自动图像标注方法 Download PDF

Info

Publication number
CN101075263A
CN101075263A CN 200710118106 CN200710118106A CN101075263A CN 101075263 A CN101075263 A CN 101075263A CN 200710118106 CN200710118106 CN 200710118106 CN 200710118106 A CN200710118106 A CN 200710118106A CN 101075263 A CN101075263 A CN 101075263A
Authority
CN
China
Prior art keywords
mark
image
marking method
speech
associated picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710118106
Other languages
English (en)
Other versions
CN100535906C (zh
Inventor
赵耀
赵玉凤
朱振峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CNB2007101181061A priority Critical patent/CN100535906C/zh
Publication of CN101075263A publication Critical patent/CN101075263A/zh
Application granted granted Critical
Publication of CN100535906C publication Critical patent/CN100535906C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融合伪相关反馈与检索技术的自动图像标注方法,包含:步骤1,在已标注的图像库中对未标注的查询图像进行检索,得到k个相关图像及相关图像的标注词集合;步骤2,计算每个标注词标注查询图像的后验概率;步骤3,根据k个相关图像提取均值向量作为新的查询向量,重复步骤1、2,直到最大迭代次数N;步骤4,计算每个标注词在每轮标注词集合中的稳定性因子;步骤5,根据后验概率及稳定性因子的值,计算每个标注词标注查询图像的排序概率,对查询图像进行标注。本发明的优点在于:提高了检索性能及标注的准确性,极大地改善了标注的可伸缩性,是一个灵活可靠、有实用价值的标注方法。

Description

融合伪相关反馈与检索技术的自动图像标注方法
技术领域
本发明涉及一种新型的自动图像标注方法,尤其涉及一种融合伪相关反馈与检索技术的自动图像标注方法。
背景技术
随着大量多媒体的出现,对其进行有效地管理和检索成为目前一个重要的研究课题。在上世纪70到80年代,对图像的检索主要是基于文本的检索,与图像相关的文本都是手工标注上去的,标注的工作量大,而且依赖于标注者的个人主观判断。在1992年首次提出了基于内容的图像检索(CBIR-Content Based Image Retrieval)技术,它可以自动提取图像的底层特征、自动检索。现在有许多CBIR***已经被开发出来。然而,由于“语义鸿沟”问题的存在,使得检索结果的精度不高,不能满足用户的需求。因此,最近提出了自动图像标注方法,可以有效地缓解这个问题,减少了工作量与标注的主观性,又可以保留基于文本检索的优点。
在自动图像标注研究中,如何学习建立图像内容与关键词之间的关系模型是一项关键技术。通常来说,在已经标注好的训练图像集合中,关键词是标注给整幅图像的,由于将图像分割成了区域的集合,因此并未标注到区域上。首先,在每幅图像中,找到区域与标注词之间的一个对应关系。然后,根据这个对应关系,建立图像内容与关键词之间的关系模型。因此,研究的目的在于如何找到区域与关键词之间的对应关系,使之尽可能的准确。
在现有技术中,已经有许多成熟的自动图像标注方法,一类标注是基于概率模型的方法。其中,早期的Barnard and Duygulu等人提出的基于翻译模型(TM)的标注策略是比较经典的方法。根据关键词与区域的共现信息,使用了经典的统计机器翻译模型,将图像的一系列关键词翻译成区域符号的集合。为了进一步提高建立区域与关键词的概率关系模型,人们相继引入了隐变量的概率模型、相关图像与标注词之间概率模型等一系列的基于概率模型的标注方法,具有更好的标注性能。这类方法要求不断的估计概率模型中的参数,而且在图像内容与关键词之间存在的“语义鸿沟”,使得标注性能受到很大的制约。
第二类标注是基于分类的方法,在这类方法中,每一个关键词作为一个独立的语义类别。具有代表性的工作有应用支持向量机(SVM-Support Vector Machine)进行的分类、贝叶斯点机制、自动语言索引、以及估计每个关键词的视觉特征的分布等标注方法。由于每个关键词建立一个分类器,因此这类方法不太适用大量关键词的情况,限制了标注方法的可移植性。
第三类标注是基于图的方法,这类方法将图像描述成一个图的连接关系。其中,Pan等首次提出了基于图的自动标注(CCap-Graph-basedautomatic caption)方法,他们将所有图像、区域和关键词表达成为一个节点的三种数据类型,并根据三者内在的联系连接建立成一个图。另外,基于流行排序的图像标注方法也被提出。这类方法受到训练图像集合大小的制约,如果训练集增大,那么建立的图也会变得很庞大。
第四类标注是融合了检索技术的标注方法,该方法有效地融合了当前的检索技术进行标注,进而提高了图像标注的性能。在这种图像标注方法里,将未标注的图像看作是查询图像。首先,根据检索技术找到查询图像的一些相关图像集合。然后,从相关图像的标注词的集合中,可以应用一些文本技术挖掘出标注结果。首次提出融合检索技术进行标注的方法,即AnnoSearch方法,该方法要求用户给查询图像一个初始标注词,可以说该方法是一个半自动的过程。为了简化标注过程,进行改进,提出了基于检索的标注算法(SBIA-Search Based Image Annotation),该方法无须用户提供初始标注词,实现了检索与标注的全自动化。基于检索的标注方法避免了复杂的参数学习的过程。而且,由于通过检索找到相关的图像,因此,该方法不受训练集或者标注词集合的限制。最近,这种标注方法受到很大的关注。
下面,对现有的基于检索的标注策略做一介绍性的比较。
(1)AnnoSearch方法
在AnnoSearch方法中,将未标注图像作为查询图像。首先,由用户给查询图像提供一个初始的标注词。然后,根据基于文本的图像检索技术,在Web中检索到与查询图像相关的图像集合,同时也得到一个相关图像的标注词集合。最后,对这个标注词集合上进行聚类,给出相关标注词的排序列表,从中决定查询图像的标注结果。该方法的检索精度依赖于用户提供的初始标注词,因此,在一定程度增加了用户的负担,而且还具有用户的主观性。
(2)SBIA方法
在SBIA方法中,同样将未标注图像作为查询图像,但不需要用户提供任何的初始标注词。首先,根据基于内容的图像检索方法,在Web中检索到与查询图像相关的图像集合,同样得到一个相关图像的标注词集合。然后,根据文本检索技术,分析标注词集合的每个标注词的相关性,并融合词典中该标注词的重要性,给每个标注词进行排序。该方法实现了完全自动化的标注方法,与AnnoSearch方法比较,该方法减轻了用户的负担,但缺陷在于标注性能仍然很低。
从这两个融合检索的标注方法的实验结果中可以看出,检索结果的优劣,在很大程度上决定了标注的性能。一般来讲,由于减少了用户的负担,消除了用户的主观性,完全自动的图像标注优于半自动的图像标注方法。而且,对图像内容的适应能力越强,标注性能越好。另外,检索效果佳的标注方法优于粗糙检索的标注方法。
然而,现有的这两种融合检索的标注方法中,都是进行简单地初始检索,这严重的限制了相关标注词集合的准确性,制约了标注性能的提高。分析其内在原因,现有的简单检索技术不能获得较多的相关图像;而且,对标注词的排序也是一次性的,缺乏对标注词的本身文本特性较好的利用。
发明内容
基于现有技术中存在的上述缺陷,本发明提供了一种融合伪相关反馈与检索的自动图像标注方法,较好的解决了所述问题。该方法包含:
步骤1:在已标注的图像库中对未标注的查询图像Iq进行检索,得到k个相关图像Ir及相关图像的标注词集合Ψw;步骤2:计算每个标注词w(w∈Ψw)标注查询图像Iq的后验概率p(w|Iq);步骤3:根据k个相关图像提取均值向量Imean作为新的查询向量,重复步骤1、2,直到最大迭代次数N;步骤4:计算每个标注词 w ( w ∈ U i = 1 N Ψ w ( i ) ) 在每轮标注词集合中的稳定性因子λi(w),i=1,2,...,N;步骤5:根据后验概率p(w|Iq)及稳定性因子λi(w),i=1,2,...,N的值,计算每个标注词 w ( w ∈ U i = 1 N Ψ w ( i ) ) 标注查询图像Iq的排序概率f(w),对查询图像Iq进行标注。
一种自动图像标注方法,其中,步骤1进一步包含:确定相关图像Ir与查询图像Iq之间的相似性,由相似性度量公式p(Ir|Iq)=ωr·S(Ir|Iq)给出。
一种自动图像标注方法,其中,S(Ir|Iq)=exp(-D(Ir,Iq)), ω r = exp ( - D ( I r , I mean ) 2 2 σ 2 ) .
一种自动图像标注方法,其中,步骤2进一步包含:后验概率p(w|Iq)由相似性度量p(Ir|Iq)及每个标注词w(w∈Ψw)标注相关图像Ir的概率
Figure A20071011810600074
确定,p(w|Iq)=p(w|Ir)·p(Ir|Iq)。
一种自动图像标注方法,其中, I mean = 1 k Σ r = 1 k I r .
一种自动图像标注方法,其中, λ i ( w ) = tf i × idf = tf i ln ( n + 1 ) .
一种自动图像标注方法,其中, f ( w ) = Σ i = 1 N λ i ( w ) · p i ( w | I q ) .
本发明的优点在于:(1)在保证标注速度的情况下,应用伪相关反馈技术提高了检索的性能。(2)本发明采用的是完全自动的标注方法。(3)考虑了标注词自身的文本属性,对标注词列表进行了重新排序。
附图说明
图1为本发明的自动图像标注方法的框架模型;
图2为本发明的自动图像标注方法的与现有技术的标注方法的性能比较。
具体实施方式
有关本发明的技术内容及详细说明,现配合附图说明如下:
图1为本发明的融合伪相关反馈与检索的自动图像标注方法的框架模型图。如图所示,步骤1:设定未标注图像Iq为查询图像,在已标注的图像库中进行检索,找到k个最邻近的图像,他们构成了相关图像的集合Ψq及相关图像的标注词集合Ψw。假设排在最前的几个图像为相关图像,用Ir表示。相关图像Ir与查询图像Iq之间的相似性度量p(Ir|Iq)由下式给出:
              p(Ir|Iq)=ωr·S(Ir|Iq)           (1)
(a)S(Ir|Iq)为相关图像Ir与查询图像Iq之间的相似度,它的定义如下式:
              S(Ir|Iq)=exp(-D(Ir,Iq))         (2)
其中,D(Ir,Iq)是相关图像Ir与查询图像Iq之间的欧式距离。
(b)ωr为相关图像Ir的权重,反映相关图像Ir自身的可靠性,且满足 Σ r = 1 k ω r = 1 .
ω r = exp ( - D ( I r , I mean ) 2 2 σ 2 ) - - - ( 3 )
其中,Imean和σ分别是k个相关图像的均值与方差,D(Ir,Imean)是相关图像Ir与均值向量Imean之间的欧式距离。ωr越大,Ir的可靠性越大。
其次,为了简化计算,由下式计算每个标注词w(w∈Ψw)标注相关图像Ir的概率p(w|Ir):
Figure A20071011810600083
步骤2:根据k个相关图像自动提取具有更强表达能力的查询向量,以便进行下一轮的检索,这部分工作被称为查询的修改。即均值向量Imean作为新的查询向量。
I mean = 1 k Σ r = 1 k I r - - - ( 5 )
步骤3:综合公式(1)和公式(4),依据下式计算每个标注词w(w∈Ψw)标注查询图像Iq的后验概率p(w|Iq):
           p(w|Iq)=p(w|Ir)·p(Ir|Iq)          (6)
步骤4:重复执行步骤1至3,直到预先设定的最大迭代次数N。具体地说,设定在第i(i=1,2,...,N)轮检索中,查询图像标记为Iq (i),得到的相关图像标记为Ir (i),他们构成的相关图像集合标记为Ψq (i),相关图像的标注词集合标记为Ψw (i),相关图像Ir (i)与查询图像Iq (i)之间的相似性度量标记为p(Ir (i)|Iq (i)),标注词集合Ψw (i)内的每个标注词w标注相关图像Ir (i)的概率标记为p(w|Ir (i)),以及根据公式(6)计算得到的标注词w标注查询图像Iq的后验概率标记为pi(w|Iq)。
步骤5:综合N轮的标注词集合Ψw (i),i=1,2,...,N,计算每个标注词 w ( w ∈ U i = 1 N Ψ w ( i ) ) 在每轮标注词集合中的稳定性λi(w),i=1,2,...,N。本发明采用了文本检索技术中的tf-idf权重框架,将关键词作为文本检索中的短语,将每轮的关键词集合Ψw (i)作为文档,让tfi表达标注词w在Ψw (i)中出现的频率,让idf表示标注词w出现在Ψw (i),i=1,2,...,N的逆文档频率。定义如下式:
λ i ( w ) = tf i × idf = tf i ln ( n + 1 ) - - - ( 7 )
其中,n是包含关键词w的标注词集合的个数。这样,尽管一个可用的标注词出现的次数少,稳定性因子λi(w)也确保了该标注词具有标注该查询图像的可能性。
步骤6:综合N轮的检索结果,依据公式(6)公式(7)的输出值,计算每个标注词 w ( w ∈ U i = 1 N Ψ w ( i ) ) 标注查询图像Iq的排序概率,即
f ( w ) = Σ i = 1 N λ i ( w ) · p i ( w | I q ) - - - ( 8 )
步骤7:根据公式(8)得到的每个标注词w的输出概率进行排序,选择最后的标注词列表。一般来讲,标注词的选择策略有两种方式:一是事先设定一个实验的阈值,根据每个标注词的排序函数f(w)的输出值,选择其值大于该阈值的关键词来标注图像,这种方法确保了标注的可伸缩性。二是根据标注词的排序函数f(w)的输出值,选择排在最靠前的5个关键词来标注图像。本发明采用第二种的标注词选择策略。
如图2为本发明的自动图像标注方法的与现有技术的标注方法的性能比较,其中MBRM方法是基于经典的概率模型的标注方法,SBIA方法是融合了检索技术的标注方法,但该方法中的检索是简单的基于内容的图像检索方法。如图2所示,融合检索技术的标注方法的性能要比经典的概率模型的标注性能要高,而且,本发明的的融合伪相关反馈与检索的标注方法,还要比融合一般的检索方法的标注方法的性能——平均准确率和平均标全率都能够提高10%左右。其原因在于,通过检索技术找到未标注图像的相关图像的集合,进而找到了相关的标注词集合,在此基础上根据文本的特性挖掘的标注结果,效果要提高很多,这在一定程度上是基于高层语义层面的标注方法。另外,通过伪相关反馈技术,在一定程度上提高了检索的性能,进而更提高了标注的准确性。而且,本发明对更大的图像训练集具有更强的适应力,极大地改善了标注的可伸缩性,避免了复杂的参数估计的监督学习过程,是一个灵活可靠、有实用价值的标注方法。

Claims (7)

1、一种融合伪相关反馈与检索的自动图像标注方法,其特征在于,包含:
步骤1:在已标注的图像库中对未标注的查询图像Iq进行检索,得到k个相关图像Ir及相关图像的标注词集合Ψw
步骤2:计算每个标注词w(w∈Ψw)标注查询图像Iq的后验概率p(w|Iq);
步骤3:根据k个相关图像提取均值向量Imean作为新的查询向量,重复步骤1、2,直到最大迭代次数N;
步骤4:计算每个标注词 w ( w ∈ Σ i = 1 N Ψ w ( i ) ) 在每轮标注词集合中的稳定性因子λi(w),i=1,2,...,N;
步骤5:根据后验概率p(w|Iq)及稳定性因子λi(w),i=1,2,...,N的值,计算每个标注词 w ( w ∈ Σ i = 1 N Ψ w ( i ) ) 标注查询图像Iq的排序概率f(w),对查询图像Iq进行标注。
2、根据权利要求1所述的一种自动图像标注方法,其特征在于,步骤1进一步包含:确定相关图像Ir与查询图像Iq之间的相似性,由相似性度量公式p(Ir|Iq)=ωr·S(Ir|Iq)给出。
3、根据权利要求2所述的一种自动图像标注方法,其特征在于,S(Ir|Iq)=exp(-D(Ir,Iq)), ω r = exp ( - D ( I r , I mean ) 2 2 σ 2 ) .
4、根据权利要求2所述的一种自动图像标注方法,其特征在于,步骤2进一步包含:后验概率p(w|Iq)由相似性度量p(Ir|Iq)及每个标注词w(w∈Ψw)标注相关图像Ir的概率
Figure A2007101181060002C4
确定,p(w|Iq)=p(w|Ir)·p(Ir|Iq)。
5、根据权利要求1所述的一种自动图像标注方法,其特征在于,
I mean = 1 k Σ r = 1 k I r .
6、根据权利要求1所述的一种自动图像标注方法,其特征在于,
λ i ( w ) = t f i × idf = tf i ln ( n + 1 ) .
7、根据权利要求1所述的一种自动图像标注方法,其特征在于, f ( w ) = Σ i = 1 N λ i ( w ) · p i ( w | I q ) .
CNB2007101181061A 2007-06-28 2007-06-28 融合伪相关反馈与检索技术的自动图像标注方法 Expired - Fee Related CN100535906C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101181061A CN100535906C (zh) 2007-06-28 2007-06-28 融合伪相关反馈与检索技术的自动图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101181061A CN100535906C (zh) 2007-06-28 2007-06-28 融合伪相关反馈与检索技术的自动图像标注方法

Publications (2)

Publication Number Publication Date
CN101075263A true CN101075263A (zh) 2007-11-21
CN100535906C CN100535906C (zh) 2009-09-02

Family

ID=38976314

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101181061A Expired - Fee Related CN100535906C (zh) 2007-06-28 2007-06-28 融合伪相关反馈与检索技术的自动图像标注方法

Country Status (1)

Country Link
CN (1) CN100535906C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923581A (zh) * 2010-09-13 2010-12-22 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种反馈式近似图像检索***和方法
CN102298606A (zh) * 2011-06-01 2011-12-28 清华大学 基于标签图模型随机游走的图像自动标注方法及装置
CN102637199A (zh) * 2012-02-29 2012-08-15 浙江大学 一种基于半监督主题建模的图像标注方法
CN103198117A (zh) * 2013-03-29 2013-07-10 天津大学 基于内容的图像伪相关重排序方法
CN104834693A (zh) * 2015-04-21 2015-08-12 上海交通大学 基于深度搜索的视觉图像检索方法及***
CN105701119A (zh) * 2014-11-21 2016-06-22 财团法人资讯工业策进会 检索过滤方法及其处理装置
CN108431800A (zh) * 2015-12-17 2018-08-21 株式会社日立制作所 图像处理装置、图像检索界面显示装置以及图像检索界面的显示方法
CN109857884A (zh) * 2018-12-20 2019-06-07 郑州轻工业学院 一种自动图像语义描述方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923581B (zh) * 2010-09-13 2012-09-26 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种反馈式图像检索方法
CN101923581A (zh) * 2010-09-13 2010-12-22 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种反馈式近似图像检索***和方法
CN102298606A (zh) * 2011-06-01 2011-12-28 清华大学 基于标签图模型随机游走的图像自动标注方法及装置
CN102637199A (zh) * 2012-02-29 2012-08-15 浙江大学 一种基于半监督主题建模的图像标注方法
CN102637199B (zh) * 2012-02-29 2014-01-29 浙江大学 一种基于半监督主题建模的图像标注方法
CN103198117A (zh) * 2013-03-29 2013-07-10 天津大学 基于内容的图像伪相关重排序方法
CN103198117B (zh) * 2013-03-29 2016-01-27 天津大学 基于内容的图像伪相关重排序方法
CN105701119A (zh) * 2014-11-21 2016-06-22 财团法人资讯工业策进会 检索过滤方法及其处理装置
CN104834693A (zh) * 2015-04-21 2015-08-12 上海交通大学 基于深度搜索的视觉图像检索方法及***
CN104834693B (zh) * 2015-04-21 2017-11-28 上海交通大学 基于深度搜索的视觉图像检索方法及***
CN108431800A (zh) * 2015-12-17 2018-08-21 株式会社日立制作所 图像处理装置、图像检索界面显示装置以及图像检索界面的显示方法
CN108431800B (zh) * 2015-12-17 2021-12-14 株式会社日立制作所 图像处理装置以及图像检索界面的显示方法
CN109857884A (zh) * 2018-12-20 2019-06-07 郑州轻工业学院 一种自动图像语义描述方法
CN109857884B (zh) * 2018-12-20 2023-02-07 郑州轻工业学院 一种自动图像语义描述方法

Also Published As

Publication number Publication date
CN100535906C (zh) 2009-09-02

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN101075263A (zh) 融合伪相关反馈与检索技术的自动图像标注方法
Wang et al. Annosearch: Image auto-annotation by search
KR101190230B1 (ko) 정보 검색 시스템에서의 문구 식별
US10445359B2 (en) Method and system for classifying media content
US8150170B2 (en) Statistical approach to large-scale image annotation
Hsu et al. Reranking methods for visual search
US7917492B2 (en) Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8612427B2 (en) Information retrieval system for archiving multiple document versions
KR101223172B1 (ko) 정보 검색 시스템에서의 문구 기반 서치
WO2017070656A1 (en) Video content retrieval system
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
Selvan et al. Survey on web page ranking algorithms
BR102013016668A2 (pt) Sistema e método para busca fonética de dados
Tsikrika et al. Image annotation using clickthrough data
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
Denoyer et al. Structured multimedia document classification
Mukherjee et al. Bootstrapping semantic annotation for content-rich html documents
Barrio et al. Sampling strategies for information extraction over the deep web
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理***及方法
Ao et al. News keywords extraction algorithm based on TextRank and classified TF-IDF
Zhu et al. Deep metric multi-view hashing for multimedia retrieval
Van Zwol et al. Ranking entity facets based on user click feedback
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选***
Derieux¹ et al. Combining semantics and statistics for patent classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090902

Termination date: 20120628