基于相关反馈和Bag-of-Features的图像检索***及方法
技术领域
本发明涉及计算机领域,具体涉及一种基于相关反馈和Bag-of-Features的图像检索方法。
背景技术
随着信息科技的发展,各个领域各种图像越来越多,如何从大量图像数据中快速而准确地检索出相关图像逐渐成为人们的关注热点。近些年,在工业应用界和学术研究界,大规模图像检索日益受到广泛重视,不断提出各种图像检索的方法,包括基于文本的图像检索、基于分类的图像检索等等。
基于文本的图像检索沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像,一般以关键词来查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像。另外,图像所在页面的主题、图像的文件名称、与图像密切环绕的文字内容、图像链接地址等都被用作为图像分析的一句,根据这些文本分析结果推断其中图像的特征。
基于分类的图像检索是一种利用图像分类进行检索的技术。该技术需要对数据库中的图像进行明确的分类,并为每个类别选取出最具代表性的一些图像。用户输入一张查询图像时,***将该图像与数据库中每个类别的代表图像进行相似度量,从而确定该查询图像所属的类别,然后将该类别的所有图像作为检索结果返回给用户。
基于文本的图像检索方法虽然方便快捷,根据关键字就可以快速查询到所需图像,但是该检索方法完全脱离了图像的可视化内容,仅依靠与其关联的关键字,需要预先为所有图像进行文本标识,并且标识的准确性直接影响检索的准确性。而基于分类的图像检索方法依赖于数据库中图像的分类,目前并没有准确有效地分类各种图像。这些传统图像检索方法的弊端日益突出,人们亟待更新更有效地方法,关于图像检索方法的研究继续前行。
由于传统的图像检索方法存在各种弊端,已逐渐不能满足人们的需求。人们提出了一种不同的解决方案:基于内容的图像检索方法。基于内容的图像检索是使用图像的可视特征对图像进行检索,它提取图像的低层特征,包括颜色、形状、纹理等,然后将查询图像的低层特征与数据库中的特征进行比较,找出与查询特征相似的图像返回给用户。
基于内容的图像检索方法虽然是脱离了图像文本标注,而对图像的可视化内容进行检索,但是该方法只是提取图像的颜色、形状、纹理等低层特征,无法表示图像的高层语义内容,因此检索结果往往差强人意。
发明内容
本发明提供了一种基于相关反馈和Bag-of-Features的图像检索方法,采用Bag-of-Features方式,将每一张图像看作是一些局部特征的集合,并挑选出图像库中的关键特征,然后基于关键特征集合将每一张图像表示成一个向量,这样通过向量的比较来实现图像检索的目的,这种方式简洁有效。同时,为了兼顾图像的高层语义,结合相关反馈的方法,让用户参与检索的过程,用户对每次检索结果进行正相关和负相关的标示,***根据用户的反馈重新调整检索参数,以此迭代,最终得到用户满意的检索结果。
相应的,本发明实施例提供了一种基于相关反馈和Bag-of-Features的图像检索***,包括:
特征提取模块,用于对图像进行预处理,提取出每张图像的局部特征;
特征词典生成模块,用于从整个图像数据库中找出关键性特征,并组成一个词典集合;
频率特征向量生成模块,用于为每张图像构建一个特征向量;
特征加权模块,用于为词典中每个关键特征生成权重,然后用该权重乘以频率特征向量中对应的分量,为每张图像构建出带权特征向量;
相似性度量模块,用于计算两张图像之间的相似性;
相关反馈模块,用于让用户参与到检索过程,在用户输入查询条件后,检索***返回查询结果,然后用户对查询结果进行筛选,认为有用的就标识成正相关,无用的标识成负相关,***根据用户的反馈,重新调整查询条件进行检索,以此循环,直到得到用户满意的结果。
相应的,本发明实施例还提供了一种基于相关反馈和Bag-of-Features的图像检索方法,包括:
步骤一、对每张图像进行特征提取,找出局部特征,并将其用SIFT算子表示;
步骤二、将所有图像的局部特征集合在一起,采用K-means聚类的方式,生成指定数量的关键特征,组成特征词典;
步骤三、对每张图像,依次将其每个局部特征分配给最近邻的关键特征,表示关键特征的频数,这样基于特征词典,可以为每张图像生成一个频率特征向量;
步骤四、统计出每个关键特征出现的图像数,即在多少张图像中出现过,然后除以图像总数,得到关键特征的IDF值,作为关键特征的权重;
步骤五、对每张图像,将其特征向量中的每个分量乘以对应关键特征的权重,得到带权特征向量;
步骤六、算查询图像的向量与数据中图像向量的相似性,并按相似程度从高到低的顺序排序输出;
步骤七、用户检查检索结果,如果满足要求,则结束;否则进入步骤八;
步骤八、用户对检索结果不满意,则对检索结果进行正相关和负相关的标注,然后重新输入给检索***;
步骤九、***根据用户的反馈,重新调整检索条件,进入步骤六。
本发明具有如下有益效果,本发明是将Bag-of-Features和相关反馈两种方式完美地结合在一起,提高了图像检索的效率和准确性。首先采用Bag-of-Features方式,将图像表示成特征的集合,进而表示成一个特征向量,这种量化的方式使得图像的表示和相似性计算变得方便简捷。同时,相关反馈的方式也让用户充分参与到检索过程,避免了图像高层语义的丢失。Bag-of-Features和相关反馈两种方式的结合,大大简化了图像的表示和相似性比较,同时也兼顾了图像的低层可视化特征和高层语义内容,使得图像检索更加简单、更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于相关反馈和Bag-of-Features的图像检索***结构示意图;
图2是本发明实施例中的基于相关反馈和Bag-of-Features的图像检索方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种基于相关反馈和Bag-of-Features的图像检索***及方法,采用Bag-of-Features方式,将每一张图像看作是一些局部特征的集合,并挑选出图像库中的关键特征,然后基于关键特征集合将每一张图像表示成一个向量,这样通过向量的比较来实现图像检索的目的,这种方式简洁有效。同时,为了兼顾图像的高层语义,结合相关反馈的方法,让用户参与检索的过程,用户对每次检索结果进行正相关和负相关的标示,***根据用户的反馈重新调整检索参数,以此迭代,最终得到用户满意的检索结果。
图1示出了本发明实施例中的基于相关反馈和Bag-of-Features的图像检索***,其主要包括特征提取模块、特征词典生成模块、频率特征向量生成模块、特征加权模块、相似性度量模块、相关反馈模块等。
特征提取模块是对图像进行预处理,提取出每张图像的局部特征,这样每张图像就可以表示成局部特征的集合,无需考虑局部特征的位置关系。同时,也需要将每个局部特征进行量化表示,采用SIFT算子来提取局部特征并表示成128维的向量。
特征词典生成模块负责从整个图像数据库中找出关键性特征,并组成一个词典集合。因为每张图像有很多局部特征,这样整个数据库中所有局部特征的数量非常庞大,因此需要采用K-means聚类的方式,找出具有代表性的特征,由这些关键特征组成一个特征词单。
频率特征向量生成模块是为每张图像构建一个特征向量。基于特征词典可以为每张图像生成一个特征向量,向量的每个分量表示对应关键特征的频数。因为词典中的关键特征是通过聚类而来,因此在每张图像中,不可能完全找到关键特征,我们将图像中的局部特征分配给距离最近的关键特征,表示该关键特征出现一次。通过频率特征向量生成模块,每张图像都用维数相同的向量进行表示。
特征加权模块是为词典中每个关键特征生成权重,然后用该权重乘以频率特征向量中对应的分量,为每张图像构建出带权特征向量。词典中的每个关键特征在图像库中的重要性不同,可以采用IDF算法,计算出每个关键特征的IDF值,将其作为关键特征的权值。然后计算出每张图像的带权特征向量。
相似性度量模块是计算两张图像之间的相似性。数据库中的图像都已经用维数相同的向量量化表示,因此通过计算向量之间的距离来度量对应图像之间的相似性,按相似程度从高到低的顺序进行排序。
相关反馈模块是让用户参与到检索过程。用户输入查询条件后,检索***返回查询结果,然后用户对查询结果进行筛选,认为有用的就标识成正相关,无用的标识成负相关,***根据用户的反馈,重新调整查询条件进行检索,以此循环,直到得到用户满意的结果。
图2示出了本发明实施例中的一种基于相关反馈和Bag-of-Features的图像检索方法流程图,具体步骤如下:
第1步,对每张图像进行特征提取,找出局部特征,并将其用SIFT算子表示。
第2步,将所有图像的局部特征集合在一起,采用K-means聚类的方式,生成指定数量的关键特征,组成特征词典。
第3步,对每张图像,依次将其每个局部特征分配给最近邻的关键特征,表示关键特征的频数。这样基于特征词典,可以为每张图像生成一个频率特征向量。
第4步,结合第3步,统计出每个关键特征出现的图像数,即在多少张图像中出现过,然后除以图像总数,得到关键特征的IDF值,作为关键特征的权重。
第5步,对每张图像,将其特征向量中的每个分量乘以对应关键特征的权重,得到带权特征向量。
第6步,计算查询图像的向量与数据中图像向量的相似性,并按相似程度从高到低的顺序排序输出。
第7步,用户检查检索结果,如果满足要求,则结束;否则进入第8步。
第8步,用户对检索结果不满意,则对检索结果进行正相关和负相关的标注,然后重新输入给检索***。
第9步,***根据用户的反馈,重新调整检索条件,进入第6步。
综上,本发明是将Bag-of-Features和相关反馈两种方式完美地结合在一起,提高了图像检索的效率和准确性。首先采用Bag-of-Features方式,将图像表示成特征的集合,进而表示成一个特征向量,这种量化的方式使得图像的表示和相似性计算变得方便简捷。同时,相关反馈的方式也让用户充分参与到检索过程,避免了图像高层语义的丢失。Bag-of-Features和相关反馈两种方式的结合,大大简化了图像的表示和相似性比较,同时也兼顾了图像的低层可视化特征和高层语义内容,使得图像检索更加简单、更加准确。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上对本发明实施例所提供的基于相关反馈方式和Bag-of-Features的图像检索***及方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。