CN101315663B - 一种基于区域潜在语义特征的自然场景图像分类方法 - Google Patents

一种基于区域潜在语义特征的自然场景图像分类方法 Download PDF

Info

Publication number
CN101315663B
CN101315663B CN2008100315773A CN200810031577A CN101315663B CN 101315663 B CN101315663 B CN 101315663B CN 2008100315773 A CN2008100315773 A CN 2008100315773A CN 200810031577 A CN200810031577 A CN 200810031577A CN 101315663 B CN101315663 B CN 101315663B
Authority
CN
China
Prior art keywords
image
natural scene
classification
potential semantic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008100315773A
Other languages
English (en)
Other versions
CN101315663A (zh
Inventor
吴玲达
谢毓湘
曾璞
杨征
栾悉道
文军
陈丹雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN2008100315773A priority Critical patent/CN101315663B/zh
Publication of CN101315663A publication Critical patent/CN101315663A/zh
Application granted granted Critical
Publication of CN101315663B publication Critical patent/CN101315663B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于区域潜在语义特征的自然场景图像分类方法,目的是利用图像的区域潜在语义信息和该信息在空间的分布规律来进行自然场景图像分类。技术方案是先建立自然场景图像分类代表集;然后对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表;再在自然场景图像分类代表集上生成图像区域潜在语义模型;接着对任意一幅图像提取图像区域潜在语义特征;最后生成自然场景分类模型,根据自然场景分类模型对图像的区域潜在语义特征进行分类。本发明引入了区域潜在语义特征,不仅描述了图像分块的区域信息而且还包含图像分块在空间的分布信息,相比于其他方法能得到更高的准确率,且不需要人工标注,自动化程度高。

Description

一种基于区域潜在语义特征的自然场景图像分类方法
技术领域
本发明涉及多媒体信息处理技术领域里关于图像分类的方法,尤其是一种通过提取图像的区域潜在语义特征来实现对自然场景图像进行分类的方法,是一种综合考虑了图像区域所包含的信息以及这些区域信息在图像的空间分布来进行自然场景图像分类的方法。
背景技术
互联网的快速发展、信息存储与传输技术的发展以及数码设备的普及带来图像数据的***性增长,这就对如何进行大量图像数据的检索与浏览提出了新的技术挑战。面对数量如此巨大的图像数据,传统的依靠人工来对图像进行分类的管理方式因为需要耗费大量的人力资源而变得不可行。因此,如何利用计算机将图像自动分类到一些预定义的类别中就成为其中的一个关键问题。由于自然场景图像在人们的日常生活中十分常见,数量也十分巨大,因此对于自然场景图像的分类问题的研究就成为了当前计算机视觉和多媒体信息管理领域的一个热点问题。
传统的自然场景图像分类方法通常使用色彩、纹理和形状等图像底层物理特征来直接与各种分类方法相结合,从而实现对图像的分类。采用底层物理特征的一个主要问题在于底层物理特征往往只反映图像在物理感知层次上的特点,而不是人们所关注的认知层面的内容。近年来,为了克服底层物理特征与人类认知语义之间的鸿沟,使用中间语义特征来对自然场景建模的方法得到了广泛的关注。Oliva和Torralba使用一组视觉感知属性来描述场景的主要空间结构,他们定义了自然度、宽阔度、粗糙度、伸展度和险峻度等视觉感知属性,通过分析底层特征来得到这些视觉感知属性。Vogel等人则首先将局部图像区域分类到一些预定义的语义概念中,然后根据这些语义概念在图像中出现的频率来描述图像。但在这些方法中,为了得到预定义的语义概念模型,往往需要大量的人工标注样本。为了减少生成中间语义所需的人工标注工作,一些采用文本主题模型的方法被用于图像场景分类,这些方法主要以Lifeifei、Quelhas以及Bosch提出的方法为代表。这些方法通常先提取图像中的尺度不变特征(Scale Invariant Feature Transform,SIFT),然后将图像的SIFT特征通过聚类生成一个视觉词汇表来表示聚类中心。在生成了视觉词汇表后将图像中的SIFT特征映射成一个个的视觉词汇,从而采用文本中最常见的词袋特征(Bag of Word,BOW)来表示图像,最后应用文本分类中的概率潜在语义分析方法(Probabilistic Latent Semantic Analysis,PLSA)和潜在Dirichlet分析方法(LatentDirichlet Analysis,LDA)等主题分析方法来找出图像最可能属于的主题或者潜在语义,从而完成图像的场景分类。这类方法能够很大地减少对人工标注的需求,但是它们通常是根据图像中视觉词汇出现的总体情况来进行场景分类,它们既没有考虑视觉词汇在空间的分布特点,也无法利用图像中区域语义构成的上下文信息来进行场景分类,因此在图像视觉词汇总体分布规律不显著的情况下往往不能得到好的分类结果。
发明内容
本发明要解决的技术问题是如何综合利用图像区域所包含的潜在语义信息和这些区域包含的潜在语义信息在空间的分布规律来进行自然场景图像分类。本发明提供一种基于区域潜在语义特征的自然场景图像分类方法,首先通过对图像进行空间金字塔分块来生成图像区域,然后使用概率潜在语义分析方法来得到区域潜在语义特征(即每个分块区域包含每一个潜在语义的概率值),最后利用区域潜在语义特征来构建相应的分类器模型,从而将自然场景图像自动分类到预定义的类别。本发明通过综合利用图像的区域语义信息和区域信息在图像上的空间分布情况,提高了分类的准确性和智能性,减少了人工参与的程度,能够满足图像管理和检索的需求。
本发明的技术方案如下:
第一步,建立自然场景图像分类代表集。方法是:
1.1、根据使用需要定义N个自然场景图像类别,类别编号为1~N,N为自然数。
1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表。
1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集。
第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表。方法是:
2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样,得到每幅图像的网格采样点SP,方法是:对输入图像Ig按M×M像素大小的网格进行采样,其中M为2的整数次幂,建议M取8或16;
2.2、对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征:在采样点SP周围P×P(P为自然数,取值范围为8-20,建议P取16)像素大小的区域上计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量;
2.3、使用K均值聚类方法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表。K为自然数,一般取值为500-1000,建议K取为800。
第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW描述,并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型(即潜在语义出现时的视觉词汇出现的后验概率),具体包括以下步骤:
3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的SIFT特征映射到对应的视觉词汇:计算图像Ig中每个网格采样点的SIFT特征与通用视觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;
3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L(1≤L≤4)层空间金字塔分块:给定任意图像Ig和分层数L,分别在L个层次上对图像进行均匀分块,其中第l(1≤l≤L)层的图像分块是对图像进行2l-1×2l-1的均匀分块,这样对一幅图像进行L层空间金字塔分块一共可以得到Q=(4L-1)/3个大小和空间位置各不相同的图像区域。例如采用3层空间金子塔分块,一幅图像通过3层空间金字塔分块可以得到21个不同大小和不同空间位置的图像区域。
3.3、对3.2中得到的每个图像分块区域分别采用BOW(Bag of Word,BOW)描述生成方法来生成构建分块的词袋描述,即对任意自然场景代表图像Ig上的一个图像分块区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述,具体方法如下:
3.3.1根据图像Ig上的所有网格采样点和分块区域大小,找出所有包含在分块区域中的网格采样点;
3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇,统计视觉词汇表中每个视觉词汇在图像区域中出现的次数。
3.3.2用向量[f1,...,fk,...,fK]表示图像区域的BOW描述,fk表示视觉词汇表中第k个视觉词汇在图像区域中出现的次数,1≤k≤K,K为第二步中生成的通用视觉词汇表的大小。
3.4、对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集合进行PLSA分析,生成区域潜在语义模型。方法是:
自然场景图像分类代表集的所有图像的分块区域集合一共有I个区域,将其中每个图像区域看作一个单独的文档,第i个图像区域用ri来表示;将第二步中生成的通用视觉词汇看作文档中的词汇,一共有K个视觉词汇,第k个视觉词汇用vk来表示;图像所有区域包含的潜在语义的数目为S个(S一般取20-80),第s个潜在语义用zs来表示,且n(ri,vk)表示第k个视觉词汇vk在第i个区域ri中出现的次数。生成基于PLSA的区域潜在语义模型的方法如下:
在PLSA方法中,假设“文档-词”之间是条件独立的,并且潜在语义在文档或词上分布也是条件独立的。
首先使用下式来表示“文档-词”的条件概率:
P ( r i , v k ) = P ( r i ) Σ s = 1 S P ( v k | z s ) P ( z s | r i ) - - - ( 1 )
P(vk|zs)为潜在语义zs出现时的视觉词汇vk的后验概率,它描述了视觉词汇vk对潜在语义zs的贡献度,所有的P(vk|zs)值就构成了区域潜在语义模型。P(zs|ri)表示图像区域ri中包含潜在语义zs的后验概率,它描述了图像区域ri中具有相应潜在语义zs的概率。P(ri)是图像区域ri出现的概率。
然后根据极大似然估计原则,通过概率潜在语义分析,求取如下对数似然函数的极大值来计算PLSA的P(vk|zs)以生成区域潜在语义模型:
Σ i I Σ k K n ( r i , v k ) log P ( r i , v k ) - - - ( 2 )
在有隐含变量的模型中,极大似然估计的标准过程是期望最大(EM)算法。
因此采用EM算法对P(vk|zs)进行极大似然估计,EM算法交替于两个步骤(E步和M步)直至收敛:
3.4.1、在E步,利用当前估计的参数值来计算区域ri中包含视觉词汇vk时潜在语义zs出现的后验概率P(zs|ri,vk),其中P(zs)为潜在语义zs出现的概率:
P ( z s | r i , v k ) = P ( z s ) P ( z s | r i ) P ( v k | z s ) Σ c = 1 S P ( z c ) P ( z c | r i ) P ( v k | z c ) - - - ( 3 )
3.4.2、在M步,利用上一步的期望值P(zs|ri,vk)来最大化当前的参数估计:
P ( v k | z s ) = Σ i I n ( r i , v k ) P ( z s | r i , v k ) Σ i I Σ m K n ( r i , v m ) P ( z s | r i , v m ) - - - ( 4 )
P ( z s | r i ) = Σ k K n ( r i , v k ) P ( z s | r i , v k ) Σ k K Σ c S n ( r i , v k ) P ( z c | r i , v k ) - - - ( 5 )
p ( z s ) = Σ i I Σ k K n ( r i , v k ) P ( z s | r i , v k ) Σ i I Σ k K n ( r i , v k ) - - - ( 6 )
在分块BOW描述集合上循环E步和M步,迭代公式(3)(4)(5)(6)直到收敛,收敛条件为迭代次数大于300或者连续两次迭代得到的P(zs|ri,vk)差值小于0.001,得到所有P(vk|zs)。
第四步,对任意一幅图像提取图像区域潜在语义特征,方法是:
4.1、采用2.1所述的网格采样方法对图像进行网格采样,然后采用2.2所述的SIFT特征提取方法提取出每个采样点的SIFT特征;
4.2、对于该图像采用第三步所述视觉词汇映射、空间金字塔分块和BOW描述生成方法来生成每个金字塔分块区域的BOW描述;
4.3、对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型P(vk|zs),用EM算法迭代公式(3)(5)(6)直至收敛,得到每个图像分块区域ri具有潜在语义zs的概率P(zs|ri)。
4.4、构建图像区域潜在语义特征,方法是:
对一幅图像进行L层空间金字塔分块得到的区域数为Q=(4L-1)/3个,而潜在语义的个数为S,因此,对于每一个分块区域ri可以得到一个S维的特征向量[P(z1|ri),…,P(zS|ri)]。由于区域的潜在语义在空间上的分布也有助于图像场景分类,因此,将图像所有分块区域的S维特征向量连接起来就构成了图像的区域潜在语义特征,其形式为[P(z1|r1),…,P(zS|r1),…P(z1|rQ),…P(zS|rQ)]。
第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据,运用支持向量机SVM(Support Vector Machine)算法生成自然场景分类模型。
第六步,根据自然场景分类模型对图像的区域潜在语义特征进行分类。方法是:
将第四步提取出的任意图像的区域潜在语义特征提交给自然场景分类模型,在模型中比较该区域潜在语义特征与模型中各个类别特征的距离,距离最小的类别就是最终的自然场景图像类别。
采用本发明图像场景分类方法可以达到以下技术效果:
1、和Feifei、Quelhas以及Bosch等人提出的场景分类方法相比,本发明通过在第四步引入区域潜在语义特征,不仅描述了图像分块的区域信息而且还包含图像分块在空间的分布信息,因此相比于其他三类方法能得到更高的准确率。
2、Vogel等人的方法既需要对图像区域进行标注,也需要对整个图像标注来完成图像的场景分类,而本发明只需要一次指定一组预定义类别的图像(即自然场景分类代表集)就可以自动生成通用视觉词汇表、区域潜在语义模型和场景分类模型,不需要人工标注,自动化程度高。
附图说明
图1为本发明基于区域潜在语义特征的自然场景图像分类方法的流程图。
图2为本发明第二步生成通用视觉词汇表的流程图。
图3为本发明第三步生成图像区域潜在语义模型的流程图。
图4为本发明第四步提取图像区域潜在语义特征的流程图。
图5为本发明示例中所采用国际标准场景图像类别库中的样例图像。
图6为在图5所示国际标准场景图像库中采用本发明进行场景分类的准确率示意图。
图7为采用本发明进行场景分类与其它方法的性能比较。
具体实施方式
图1为本发明基于区域潜在语义特征的自然场景图像分类方法的流程图,具体步骤包括:
第一步,建立自然场景图像分类代表集;
第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征提取,生成通用视觉词汇表;
第三步,在自然场景图像分类代表集上生成图像区域潜在语义模型;
第四步,对任意图像提取图像区域潜在语义特征;
第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据,运用支持向量机SVM算法生成自然场景分类模型;
第六步,对任意一幅图像根据图像区域潜在语义特征和自然场景分类模型进行分类,得到该幅图像所属的类别。
图2为本发明第二步生成通用视觉词汇表的流程图。具体步骤包括:
2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法得到采样点;
2.2、对图像的每一个网格采样点SP,采用SIFT特征提取方法得到每个网格采样点的SIFT特征;
2.3,对所有提取的SIFT特征进行K均值聚类得到通用视觉词汇表。
图3为本发明第三步生成图像区域潜在语义模型的流程图。具体步骤包括:
3.1,对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法对每个采样点进行视觉词汇映射;
3.2,对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L(1≤L≤4)层空间金字塔分块,得到图像区域集合;
3.3,对每个图像区域分别采用BOW描述生成方法得到其词袋描述;
3.4,对自然场景图像分类代表集中所有图像的分块区域的BOW描述集合进行PLSA分析,生成区域潜在语义模型。
图4为本发明第四步提取任意图像区域潜在语义的流程图。具体步骤包括:
4.1,采用网格采样和SIFT特征提取方法来生成图像的网格采样点及每个采样点的SIFT特征;
4.2,采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来得到图像的每个金字塔分块的BOW描述;
4.3,对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型P(vk|zs)应用PLSA分析,得到每个图像分块区域具有潜在语义z的概率P(zs|ri)。
4.4,构建图像区域潜在语义特征。
图5为使用本发明方法在国际标准场景图像库上进行自然场景图像分类的例子。该国际标准自然场景图像集定义了13类自然场景,分别是卧室、海岸、森林、高速公路、城市、厨房、起居室、山脉、办公室、乡村、街道、郊区别墅、高楼。图5中给出了这些风景类别的一些样例图像。每类场景大约有200-400幅图像。
图6为采用本发明对图5所示13类自然场景得到的每类场景的平均分类准确率示意图。具体示例过程如下:
第一步,从每类场景中随机选择100幅图像,一共1300幅图像作为自然场景分类代表集,而每类场景中剩余的图像则全部作为待分类的图像。
第二步,在自然场景分类代表集上根据本发明第二步来生成通用视觉词汇表并保存,其中M取8,P取16,K取800。
第三步,在自然场景分类代表集上根据本发明第三步来生成图像区域潜在语义模型并保存,其中L取3,S取20。
第四步,导入通用视觉词汇表和图像区域潜在语义模型,对于自然场景分类代表集中的图像按本发明第四步提取区域潜在语义特征并保存。
第五步,导入所有从代表集图像中提取出的区域潜在语义特征,并与每幅图像的类别序号一起输入SVM算法,得到相应的SVM分类模型并保存。
第六步,对于待分类的图像,先用本发明第四步提取出图像的区域潜在语义特征,然后将该特征和SVM分类模型输入SVM预测程序,得到最终的图像类别序号并保存。
对于所有待分类的图像,比较其预测的类别序号和其原所属类别序号,得到场景分类的准确率。通过重复上面六步的过程十次,得到十次场景分类准确率,对其取平均值就得到平均场景分类准确率。如图6所示,其中横坐标表示场景类别序号,纵坐标表示某类的平均分类准确率。例如,当横坐标为1时,对应的纵坐标为70。它表示对于第1类自然场景——卧室,采用本发明通过10次分类得到平均分类准确率为70%。
图7为采用本发明与其它方法的平均分类准确率的比较。图中的平均分类准确性通过对图5所示13类场景的平均分类准确率取平均值得到。本发明方法的平均分类准确性即为对图6所示的13个平均场景分类准确率取平均,由于本发明通过综合利用图像的区域信息和区域信息在图像上的空间分布情况来进行场景分类,因此相比其他只使用图像整体信息的方法,提高了场景分类的准确性。

Claims (2)

1.一种基于区域潜在语义特征的自然场景图像分类方法,其特征在于包括以下步骤:
第一步,建立自然场景图像分类代表集,方法是:
1.1、根据使用需要定义N个自然场景图像类别,类别编号为1~N,N为自然数;
1.2、对每个自然场景图像类别随机选择50-200幅图像作为该类别的图像分类代表;
1.3、将所有N类的自然场景图像分类代表作为自然场景图像分类代表集;
第二步,对自然场景图像分类代表集中的图像进行采样点SIFT特征即尺度不变特征提取,生成通用视觉词汇表,方法是:
2.1、对于自然场景图像分类代表集中的每幅图像采用网格采样方法进行网格采样,得到每幅图像的网格采样点SP,方法是:对输入图像Ig按M×M像素大小的网格进行采样,其中M为2的整数次幂;
2.2、对每幅图像的每一个网格采样点SP,采用SIFT特征提取方法提取SIFT特征:在采样点SP周围P×P像素大小的区域上计算梯度方向直方图得到SIFT特征,该SIFT特征是一个128维向量,P为自然数,取值范围为8-20;
2.3、使用K均值聚类算法对自然场景图像分类代表集上的所有网格采样点的SIFT特征进行聚类,每个聚类中心的取值对应一个视觉词汇,保存这K个聚类中心的取值和其对应的视觉词汇编号即构成通用视觉词汇表,K为自然数,取值为5001-1000;
第三步,对自然场景图像分类代表集中的每幅图像进行视觉词汇映射、空间金字塔分块以提取每个金字塔分块区域的BOW即词袋特征描述,并在自然场景图像分类代表集中所有图像分块的集合上应用PLSA分析方法生成图像区域潜在语义模型即潜在语义出现时的视觉词汇出现的后验概率,具体包括以下步骤:
3.1、对自然场景图像分类代表集中的每幅图像采用视觉词汇映射方法将采样点的SIFT特征映射到对应的视觉词汇:计算图像Ig中每个网格采样点的SIFT特征与通用视觉词汇表中的每个视觉词汇所对应特征值之间的欧式距离,找出欧式距离最小的视觉词汇的编号来表示网格采样点,将相应采样点的SIFT特征映射到对应的视觉词汇;
3.2、对自然场景图像分类代表集中的每幅图像采用空间金字塔分块方法进行L层空间金字塔分块:给定任意图像Ig和分层数L,分别在L个层次上对图像进行均匀分块,其中第l层的图像分块是对图像进行2l-1×2l-1的均匀分块,对一幅图像进行L层空间金字塔分块一共得到Q=(4L-1)/3个大小和空间位置各不相同的图像区域,1≤L≤4,1≤l≤L;
3.3、对每个图像分块区域分别采用BOW描述生成方法来生成构建分块的词袋描述,即对任意自然场景代表图像Ig上的一个图像分块区域和Ig上所有的网格采样点及其对应的视觉词汇构建出该分块区域的BOW描述,具体方法是:
3.3.1根据图像Ig上的所有网格采样点和分块区域大小,找出所有包含在分块区域中的网格采样点;
3.3.2根据图像分块区域中包含的网格采样点及其对应的视觉词汇,统计视觉词汇表中每个视觉词汇在图像区域中出现的次数;
3.3.2用向量[f1,...,fk,...,fK]表示图像区域的BOW描述,fk表示视觉词汇表中第k个视觉词汇在图像区域中出现的次数,1≤k≤K,K为通用视觉词汇表的大小;
3.4、对自然场景图像分类代表集中所有图像的分块区域所对应的分块BOW描述集合进行PLSA即概率潜在语义分析,生成区域潜在语义模型:
首先使用下式来表示“文档-词”的条件概率
P ( r i , v k ) = P ( r i ) Σ s = 1 S P ( v k | z s ) P ( z s | r i ) - - - ( 1 )
P(vk|zs)为第s个区域潜在语义zs出现时的通用视觉词汇表中第k个视觉词汇vk的后验概率,它描述了vk对zs的贡献度,所有的P(vk|zs)值构成区域潜在语义模型,P(zs|ri)表示第i个图像区域ri中包含zs的后验概率,它描述了ri中具有zs的概率,P(ri)是图像区域ri出现的概率,S为图像所有区域包含的潜在语义的数目,S取20-80;
然后根据极大似然估计原则,通过概率潜在语义分析,求取如下对数似然函数的极大值来计算P(vk|zs)以生成区域潜在语义模型:
Σ i I Σ k K n ( r i , v k ) log P ( r i , v k ) - - - ( 2 )
n(ri,vk)表示vk在ri中出现的次数;
最后,采用期望最大EM算法对P(vk|zs)进行极大似然估计,EM算法交替于E步和M步直至收敛:
3.4.1、在E步,利用当前估计的参数值来计算区域ri中包含vk时潜在语义zs出现的后验概率P(zs|ri,vk):
P ( z s | r i , v k ) = P ( z s ) P ( z s | r i ) P ( v k | z s ) Σ c = 1 S P ( z c ) P ( z c | r i ) P ( v k | z c ) - - - ( 3 )
P(zs)为潜在语义zs出现的概率;
3.4.2、在M步,利用期望值P(zs|ri,vk)来最大化当前的参数估计:
P ( v k | z s ) = Σ i I n ( r i , v k ) P ( z s | r i , v k ) Σ i I Σ m K n ( r i , v m ) P ( z s | r i , v m ) - - - ( 4 )
P ( z s | r i ) = Σ k K n ( r i , v k ) P ( z s | r i , v k ) Σ k K Σ c S n ( r i , v k ) P ( z c | r i , v k ) - - - ( 5 )
p ( z s ) = Σ i I Σ k K n ( r i , v k ) P ( z s | r i , v k ) Σ i I Σ k K n ( r i , v k ) - - - ( 6 )
在分块BOW描述集合上循环E步和M步,迭代公式(3)(4)(5)(6)直到收敛,收敛条件为迭代次数大于300或者连续两次迭代得到的P(zs|ri,vk)差值小于0.001,得到所有P(vk|zs);
第四步,对任意一幅图像提取图像区域潜在语义特征,方法是:
4.1、采用网格采样方法对图像进行网格采样,然后采用SIFT特征提取方法提取出每个采样点的SIFT特征;
4.2、对于该图像采用视觉词汇映射、空间金字塔分块和BOW描述生成方法来生成每个金字塔分块区域的BOW描述;
4.3、对于图像的所有图像分块区域,利用第三步得到的图像分块区域潜在语义模型P(vk|zs),用EM算法迭代公式(3)(5)(6)直至收敛,得到每个图像分块区域ri具有潜在语义zs的概率P(zs|ri);
4.4、构建图像区域潜在语义特征对于每一个分块区域ri得到一个S维的特征向量[P(z1|ri),...,P(zS|ri)],将图像所有分块区域的S维特征向量连接起来就构成了图像的区域潜在语义特征,其形式为[P(z1|r1),...;P(zS|r1),...P(z1|rQ),...P(zS|rQ)];
第五步,将自然场景图像分类代表集中每幅图像的区域潜在语义特征和该图像对应的类别编号作为代表数据,运用支持向量机SVM算法生成自然场景分类模型;
第六步,根据自然场景分类模型对图像的区域潜在语义特征进行分类,方法是:将任意图像的区域潜在语义特征提交给自然场景分类模型,在模型中比较该区域潜在语义特征与模型中各个类别特征的距离,距离最小的类别就是最终的自然场景图像类别。
2.如权利要求1所述的基于区域潜在语义特征的自然场景图像分类方法,其特征在于所述M取8或16,P取16,K取800。
CN2008100315773A 2008-06-25 2008-06-25 一种基于区域潜在语义特征的自然场景图像分类方法 Expired - Fee Related CN101315663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100315773A CN101315663B (zh) 2008-06-25 2008-06-25 一种基于区域潜在语义特征的自然场景图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100315773A CN101315663B (zh) 2008-06-25 2008-06-25 一种基于区域潜在语义特征的自然场景图像分类方法

Publications (2)

Publication Number Publication Date
CN101315663A CN101315663A (zh) 2008-12-03
CN101315663B true CN101315663B (zh) 2010-06-09

Family

ID=40106670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100315773A Expired - Fee Related CN101315663B (zh) 2008-06-25 2008-06-25 一种基于区域潜在语义特征的自然场景图像分类方法

Country Status (1)

Country Link
CN (1) CN101315663B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963995A (zh) * 2010-10-25 2011-02-02 哈尔滨工程大学 基于特征场景的图像标注方法
CN105913377A (zh) * 2016-03-24 2016-08-31 南京大学 一种保留图片相关性信息的图片拼接方法

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877064B (zh) * 2009-04-30 2014-10-15 索尼株式会社 图像分类方法及图像分类装置
CN102034116B (zh) * 2010-05-07 2013-05-01 大连交通大学 基于互补特征和类描述的商品图像分类方法
CN101853398B (zh) * 2010-05-11 2012-07-04 浙江大学 基于空间约束特征选择及其组合的中国剪纸识别方法
EP2569721A4 (en) * 2010-05-14 2013-11-27 Datalogic Adc Inc SYSTEMS AND METHODS FOR OBJECT DETECTION USING A LARGE DATABASE
CN102004921A (zh) * 2010-11-24 2011-04-06 上海电机学院 基于图像特征分析的目标辨识方法
CN102054178B (zh) * 2011-01-20 2016-08-17 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN102073748B (zh) * 2011-03-08 2012-07-25 武汉大学 一种基于视觉关键词的遥感影像语义检索方法
CN102737243B (zh) 2011-03-31 2015-06-17 富士通株式会社 获取多幅图像的描述信息的方法及装置与图像匹配方法
CN102122358B (zh) * 2011-03-31 2014-03-26 中国科学院自动化研究所 基于提升稀疏约束双线性模型的图像分类方法
CN102184186A (zh) * 2011-04-12 2011-09-14 宋金龙 基于多特征自适应融合的图像检索方法
CN102364497B (zh) * 2011-05-06 2013-06-05 北京师范大学 一种应用于电子导盲***的图像语义提取方法
CN102194133B (zh) * 2011-07-05 2013-07-31 北京航空航天大学 基于数据聚类的适应性图像sift特征匹配方法
CN102306298B (zh) * 2011-07-19 2012-12-12 北京航空航天大学 一种基于Wiki的图像分类体系动态演化方法
CN102368334A (zh) * 2011-09-07 2012-03-07 常州蓝城信息科技有限公司 基于老龄用户多方式隐式语义分析处理方法
CN103065150A (zh) * 2011-10-24 2013-04-24 康佳集团股份有限公司 基于智能移动终端的场景识别方法
CN102509111B (zh) * 2011-11-02 2014-08-27 大连理工大学 基于局部特征多级聚类及图像-类距离计算的商品图像自动分类算法
CN102509121A (zh) * 2011-11-11 2012-06-20 东南大学 一种基于类别分布的自然场景分类排序方法
CN102609731B (zh) * 2012-01-11 2015-04-08 江西理工大学 一种结合不同大小视觉词汇本的图像分类方法
CN102622607B (zh) * 2012-02-24 2013-09-25 河海大学 一种基于多特征融合的遥感图像分类方法
CN102819566A (zh) * 2012-07-17 2012-12-12 杭州淘淘搜科技有限公司 一种商品图像跨类目检索方法
CN103065157A (zh) * 2012-12-24 2013-04-24 南京邮电大学 一种基于激活扩散理论的图像标注方法
CN103176961B (zh) * 2013-03-05 2017-02-08 哈尔滨工程大学 一种基于潜在语义分析的迁移学习方法
CN103177264B (zh) * 2013-03-14 2016-09-14 中国科学院自动化研究所 基于视觉词典全局拓扑表达的图像分类方法
CN103279738B (zh) * 2013-05-09 2017-01-25 上海交通大学 车标自动识别方法及***
CN103390046A (zh) * 2013-07-20 2013-11-13 西安电子科技大学 潜在狄利克雷模型的多尺度字典自然场景图像分类方法
WO2015042891A1 (zh) * 2013-09-27 2015-04-02 华为技术有限公司 图像语义分割的方法和装置
CN103499584B (zh) * 2013-10-16 2016-02-17 北京航空航天大学 铁路货车手制动机链条丢失故障的自动检测方法
CN103646234B (zh) * 2013-11-15 2017-08-25 天津天地伟业数码科技有限公司 基于lgbph特征的人脸识别方法
CN103699523B (zh) * 2013-12-16 2016-06-29 深圳先进技术研究院 产品分类方法和装置
CN103810504B (zh) * 2014-01-14 2017-03-22 三星电子(中国)研发中心 一种图像处理方法和装置
CN103942573A (zh) * 2014-02-18 2014-07-23 西安电子科技大学 一种基于空间关系的潜在狄利克雷模型自然场景图像分类方法
CN103839074B (zh) * 2014-02-24 2017-02-08 西安电子科技大学 一种基于素描线段信息和空间金字塔匹配的图像分类方法
CN103927372B (zh) * 2014-04-24 2017-09-29 厦门美图之家科技有限公司 一种基于用户语义的图像处理方法
CN105791638A (zh) * 2014-12-22 2016-07-20 盐城工学院 最优分辨率配置下湿地生态生境场景溯源方法及装置
CN105893573B (zh) * 2016-03-31 2019-07-23 天津大学 一种基于地点的多模态媒体数据主题提取模型
CN106547893A (zh) * 2016-11-03 2017-03-29 福建中金在线信息科技有限公司 一种图片分类管理***及图片分类管理方法
CN106777090A (zh) * 2016-12-14 2017-05-31 大连交通大学 基于视觉词汇表与多特征匹配的Skyline的医学大数据检索方法
CN106777094A (zh) * 2016-12-14 2017-05-31 大连大学 基于视觉词汇表与多特征匹配的Skyline的医学大数据检索***
CN107038456A (zh) * 2017-03-23 2017-08-11 北京工业大学 一种基于l1范数的概率线性判别分析的图像分类方法
CN106991676B (zh) * 2017-04-06 2019-09-24 哈尔滨理工大学 一种局部相关的超像素融合方法
CN107122801B (zh) * 2017-05-02 2020-03-03 北京小米移动软件有限公司 图像分类的方法和装置
CN107301426B (zh) * 2017-06-14 2020-06-30 大连海事大学 一种鞋底花纹图像的多标签聚类方法
CN108021890B (zh) * 2017-12-05 2020-03-10 武汉大学 一种基于plsa和bow的高分遥感影像港口检测方法
CN108108427A (zh) * 2017-12-18 2018-06-01 辽宁师范大学 基于混合统计建模的纹理图像检索方法
CN110276449B (zh) * 2019-06-24 2021-06-04 深圳前海微众银行股份有限公司 一种基于无监督学习的数据处理方法及装置
CN110796098B (zh) * 2019-10-31 2021-07-27 广州市网星信息技术有限公司 内容审核模型的训练及审核方法、装置、设备和存储介质
CN111324145B (zh) * 2020-02-28 2022-08-16 厦门理工学院 一种无人机自主着陆方法、装置、设备及存储介质
CN111353442A (zh) * 2020-03-03 2020-06-30 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质
CN113590903B (zh) * 2021-09-27 2022-01-25 广东电网有限责任公司 一种情报数据的管理方法及装置
CN114694015B (zh) * 2022-06-02 2022-08-30 深圳市万物云科技有限公司 基于通用框架的多任务联邦学习场景识别方法及相关组件
CN117876878A (zh) * 2024-01-28 2024-04-12 宜昌黑鹿屿森科技有限公司 高分遥感图像人工构建筑场景智能分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
CN101034433A (zh) * 2007-01-12 2007-09-12 郑文明 人脸表情图像的分类及语义评判量化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920820A (zh) * 2006-09-14 2007-02-28 浙江大学 基于标注重要性次序的图像语义自动标注方法
CN101034433A (zh) * 2007-01-12 2007-09-12 郑文明 人脸表情图像的分类及语义评判量化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王惠锋,孙正兴.基于内容的图象检索中的语义处理方法.中国图象图形学报6 10.2001,6(10),全文.
王惠锋,孙正兴.基于内容的图象检索中的语义处理方法.中国图象图形学报6 10.2001,6(10),全文. *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963995A (zh) * 2010-10-25 2011-02-02 哈尔滨工程大学 基于特征场景的图像标注方法
CN101963995B (zh) * 2010-10-25 2012-02-01 哈尔滨工程大学 基于特征场景的图像标注方法
CN105913377A (zh) * 2016-03-24 2016-08-31 南京大学 一种保留图片相关性信息的图片拼接方法
CN105913377B (zh) * 2016-03-24 2018-10-16 南京大学 一种保留图片相关性信息的图片拼接方法

Also Published As

Publication number Publication date
CN101315663A (zh) 2008-12-03

Similar Documents

Publication Publication Date Title
CN101315663B (zh) 一种基于区域潜在语义特征的自然场景图像分类方法
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN110781967A (zh) 一种基于可微分二值化的实时文本检测方法
CN105528575B (zh) 基于上下文推理的天空检测方法
CN112132197A (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN109670405A (zh) 一种基于深度学习的复杂背景行人检测方法
CN109766950A (zh) 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN103390046A (zh) 潜在狄利克雷模型的多尺度字典自然场景图像分类方法
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
CN102663001A (zh) 基于支持向量机的博客作者兴趣与性格自动识别方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN113223042A (zh) 一种遥感影像深度学习样本智能采集方法及设备
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及***
CN107832753B (zh) 一种基于四值权重与多重分类的人脸特征提取方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN113761359A (zh) 数据包推荐方法、装置、电子设备和存储介质
CN102521402B (zh) 文本过滤***及方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN110222636B (zh) 基于背景抑制的行人属性识别方法
CN115984400A (zh) 基于手绘草图的图像自动生成方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100609

Termination date: 20110625