CN102542014B

CN102542014B - 基于内容的图像检索反馈方法

Info

Publication number: CN102542014B
Application number: CN 201110423978
Authority: CN
Inventors: 金海�; 郑然�; 章勤; 郭明瑞; 朱磊; 周挺
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2013-09-18
Anticipated expiration: 2031-12-16
Also published as: CN102542014A

Abstract

本发明涉及一种基于内容图像检索反馈方法，包括：从图像库中选择训练样本，并利用支持向量机对训练样本进行训练，以得到特征分类模型，根据特征分类模型将图像划分到视觉类别中，根据特征分类模型确定用户提交的图像的视觉类别，在视觉类别中检索与用户提交的图像相似的图像，并返回检索结果，在检索结果中选择反馈图像，根据反馈图像与用户提交的图像的相关性将其分别标注为正、负反馈图像，并将标注结果反馈给检索***，根据反馈图像的文本关键字、类别标签以及映射表判断用户提交的图像的准确类别，在准确类别中检索与用户提交的图像相似的图像，并返回二次检索结果。本发明可快速准确定位用户提交的图像的所属类别，并提高了二次检索精度。

Description

基于内容的图像检索反馈方法

技术领域

本发明属于图像检索与识别领域，更具体地说，本发明涉及一种基于内容的图像检索反馈方法。

背景技术

传统的基于内容的图像检索技术的检索精度通常不是很理想，相关反馈技术能够在一定程度上弥补这样的缺点。人们做了许多相关反馈方面的研究工作，也取得了不少成绩。比较典型的有Rui等提出的查询点移动方法，该方法仿照文本检索中的Rachio公式对用户提交的图像的特征向量进行修改，使得其朝着用户期望的方向移动。修改后的特征向量是用户提交的图像的原特征向量、正反馈图像的特征向量以及负反馈图像的特征向量的加权和，使其偏向正反馈图像的特征向量，偏离负反馈图像的特征向量，从而在二次检索时朝着用户期望的结果方向移动。近年来，机器学习方法逐渐成为相关反馈方法的主流，其思想是将相关反馈看做一个带监督的分类问题：将正负反馈样本作为机器学习的正负训练样本，训练一个分类器，并以此作为新的相似性度量函数对图像库中所有图像与用户提交的图像之间进行相似性计算，排序后输出检索结果。

然而，现有的图像检索反馈方法存在以下问题：由于语义鸿沟的存在，传统的改变用户提交的图像特征的方法对二次检索的结果精度提升作用不大；反馈的作用只是针对当次检索，在下次提交相同的图像进行检索时精度依然很低；机器学习的反馈方法在检索时引入了机器学习，实时性难以保证，同时由于样本数量较少，训练效果不明显，对检索精度提升作用不大。

发明内容

本发明的目的在于提供一种基于内容的图像检索反馈方法，该方法在检索***中引入了支持向量机(SVM)对图像进行分类，得到类别标签，并根据反馈图像的类别标签、文本关键字、以及文本关键字与反馈图像类别标签的映射关系，进行图像检索的相关反馈，弥补了初次检索结果精度偏低的缺点，提升了二次检索的精度，同时在多次反馈中提升***检索的精度，自动修改训练样本，缩减人力成本。

本发明是通过以下技术方案实现的：

一种基于内容的图像检索反馈方法，包括以下步骤：

(1)获取图像库中的所有图像，定义图像的视觉类别，并确定视觉类别的数量，每个视觉类别由一个类别标签表示；

(2)提取图像的文本关键字，并建立从文本关键字到类别标签的映射表；

(3)从图像库中选择训练样本，并利用支持向量机对训练样本进行训练，以得到特征分类模型；

(4)根据特征分类模型将图像划分到视觉类别中；

(5)根据特征分类模型确定用户提交的图像的视觉类别，在视觉类别中检索与用户提交的图像相似的图像，并返回检索结果；

(6)在检索结果中选择反馈图像，根据反馈图像与用户提交的图像的相关性将其分别标注为正、负反馈图像，并将标注结果反馈给检索***；

(7)检索***根据反馈图像的文本关键字、类别标签以及映射表判断用户提交的图像的准确类别；

(8)根据准确类别修正反馈图像中分类错误的类别标签、训练样本中有误的反馈图像以及用户提交的图像；

(9)在准确类别中检索与用户提交的图像相似的图像，并返回二次检索结果；

(10)判断二次检索结果是否满足检索要求；

(11)若二次检索结果不满足检索要求，则返回步骤(6)，若二次检索结果满足检索要求，则进入步骤(12)；

(12)判断训练样本的修正数量是否达到训练样本中的图像总数的10％，若达到，则进入步骤(13)，否则过程结束；

(13)按修正的训练样本重新训练特征分类模型，对图像库中的图像分类，并更新其分类标签。

步骤(2)包括以下子步骤：提取图像库中的图像的网页文本，分析网页文本，剔除其中所含的超文本标记语言标签，并提取其正文文本，利用中科院计算所的汉语词法分析***对正文文本进行分词，并剔除无关词语，得到图像的文本关键字，将文本关键字根据其语义划分到视觉类别中，建立文本关键字到视觉类别标签的映射表。

步骤(7)包括以下子步骤：根据映射表获得正反馈图像的文本关键字对应的类别标签，统计类别标签中不同类别标签的数量，并获得类别标签数量最多的类别标签，若数量最多的类别标签种类唯一，则判断该类别标签作为用户提交的图像的准确类别。

步骤(7)还包括以下子步骤：若数量最多的类别标签种类不唯一，则根据映射表获得负反馈图像的文本关键字对应的类别标签，统计类别标签中不同类别标签的数量，并根据数量由多到少将类别标签排序，并存放到负反馈类别列表中，从数量最多的类别标签中顺次剔除在负反馈类别列表中出现的类别标签，直到数量最多的类别标签种类唯一，并判断该类别标签作为用户提交的图像的准确类别。

步骤(8)包括以下子步骤：若正反馈图像的类别标签与用户提交的图像的准确类别标签不一致，则将正反馈图像的类别修正为用户提交的图像的准确类别，并将正反馈图像添加到准确类别的训练样本中，若负反馈图像的类别标签与用户提交的图像的准确类别标签一致，且准确类别的训练样本中包含负反馈图像，则从准确类别的训练样本中删除负反馈图像，若用户提交的图像的视觉类别与用户提交的图像的准确类别不一致，则将用户提交的图像添加到准确类别的训练样本中。

本发明具有以下的优点和有益效果：

(1)由于引入了文本关键字与图像类别标签的映射关系，利用文本关键字进行反馈，反馈检索的精度将比单纯修改用户提交的图像的底层特征的反馈方法精度提升很多；

(2)在反馈过程中，图像库中的图像的类别有一个自修正的过程，每一次反馈不仅提升了当次检索结果的精度，而且修正了图像库中的分类错误的图像类别，提升了下次检索的精度。随着用户使用次数的增加，检索精度将会越来越高；

(3)反馈过程中主要是利用文本关键字与图像类别标签的映射关系进行简单的计算，判定用户提交的图像的类别，计算量小，实时性高，比基于机器学习的反馈方法速度快很多；

(4)反馈过程中对图像库的训练样本进行自修正，提升了下次训练的精度，同时缩减了挑选样本的人力成本。

附图说明

图1为本发明基于内容的图像检索反馈方法的流程图。

图2为本发明方法中步骤(2)的细化流程图。

图3为本发明方法中步骤(7)的细化流程图。

具体实施方式

首先对本发明中的技术术语进行解释和说明：

视觉类别：在视觉上具有某种意义上相似性的图像的集合定义为一个视觉类别。

类别标签：每一个视觉类别用一个唯一的数字标号表示，该数字标号定义为该视觉类别的类别标签。类别标签是视觉类别的一个别名，主要用于简化视觉类别的表示。

文本关键字：本***图像库中的图像的来源为网络，网络上的图像都有一定的网页文本说明，文本关键字定义为网页文本中最能表征图像语义的那些词语。

训练样本：机器学习理论中的分类算法支持向量机需要一个事先学习的过程，该学习过程需要人工标记过视觉类别的一定数量的样本，将该样本定义为训练样本。

特征分类模型：利用支持向量机根据图像底层特征对训练样本进行训练后得到的分类模型，该模型用来对所有图像进行分类。

反馈图像：用户对检索结果中部分图像标注后反馈给检索***的图像定义为反馈图像。

如图1所示，本发明基于内容的图像检索反馈方法包括以下步骤：

(2)提取图像的文本关键字，并建立从文本关键字到类别标签的映射表，具体包括以下子步骤(见图2)：

(21)提取图像库中的图像的网页文本；

(22)分析网页文本，剔除其中所含的超文本标记语言标签，并提取其正文文本；

(23)利用中科院计算所的汉语词法分析***对正文文本进行分词，并剔除无关词语，得到图像的文本关键字；

(24)将文本关键字根据其语义划分到视觉类别中；

(25)建立文本关键字到视觉类别标签的映射表。

(4)根据特征分类模型将图像划分到视觉类别中；

(7)检索***根据反馈图像的文本关键字、类别标签以及映射表判断用户提交的图像的准确类别，具体包括以下子步骤(见图3)：

(71)根据映射表获得正反馈图像的文本关键字对应的类别标签；

(72)统计类别标签中不同类别标签的数量，并获得类别标签数量最多的类别标签；

(73)若数量最多的类别标签种类唯一，进入步骤(77)，否则进入步骤(74)；

(74)若数量最多的类别标签种类不唯一，则根据映射表获得负反馈图像的文本关键字对应的类别标签；

(75)统计类别标签中不同类别标签的数量，并根据数量由多到少将类别标签排序，并存放到负反馈类别列表中；

(76)从数量最多的类别标签中顺次剔除在负反馈类别列表中出现的类别标签，直到数量最多的类别标签种类唯一；

(77)判断数量最多的类别标签作为用户提交的图像的准确类别。

(8)根据准确类别修正反馈图像中分类错误的类别标签、训练样本中有误的反馈图像以及用户提交的图像。具体包括以下子步骤：

(81)若正反馈图像的类别标签与用户提交的图像的准确类别标签不一致，则将正反馈图像的类别修正为用户提交的图像的准确类别，并将正反馈图像添加到准确类别的训练样本中；

(82)若负反馈图像的类别标签与用户提交的图像的准确类别标签一致，且准确类别的训练样本中包含负反馈图像，则从准确类别的训练样本中删除负反馈图像；

(83)若用户提交的图像的视觉类别与用户提交的图像的准确类别不一致，则将用户提交的图像添加到准确类别的训练样本中。

(10)判断二次检索结果是否满足检索要求；

值得说明的是，本反馈方案建立在对用户充分信任的基础之上，即用户的每个反馈图像标注都准确无误。实际中用户可能会由于疏忽大意等原因对反馈图像标识错误，为了防止这种情况对图像库中的图像信息的错误修改，可以暂缓修改反馈图像的类别标签以及训练样本，给它们加上一个统计数，在用户多次反馈(比如3次)同样的信息后，确认该反馈准确无误，然后修正对反馈图像的类别标签以及训练样本标签。

Claims

1.一种基于内容的图像检索反馈方法，其特征在于，包括以下步骤：

(1)获取图像库中的所有图像，定义所述图像的视觉类别，并确定所述视觉类别的数量，每个视觉类别由一个类别标签表示；

(2)提取所述图像的文本关键字，并建立从所述文本关键字到所述类别标签的映射表；

(3)从所述图像库中选择训练样本，并利用支持向量机对所述训练样本进行训练，以得到特征分类模型；

(4)根据所述特征分类模型将所述图像划分到所述视觉类别中；

(5)根据所述特征分类模型确定用户提交的图像的视觉类别，在所述视觉类别中检索与所述用户提交的图像相似的图像，并返回检索结果；

(6)在所述检索结果中选择反馈图像，根据所述反馈图像与所述用户提交的图像的相关性将其分别标注为正、负反馈图像，并将标注结果反馈给检索***；

(7)所述检索***根据所述反馈图像的文本关键字、类别标签以及所述映射表判断所述用户提交的图像的准确类别；所述步骤（7）包括以下子步骤：

根据所述映射表获得所述正反馈图像的文本关键字对应的类别标签；

统计所述类别标签中不同类别标签的数量，并获得所述类别标签数量最多的类别标签；

若所述数量最多的类别标签种类唯一，则判断该类别标签作为所述用户提交的图像的准确类别；

若所述数量最多的类别标签种类不唯一，则根据所述映射表获得所述负反馈图像的文本关键字对应的类别标签；

统计所述类别标签中不同类别标签的数量，并根据数量由多到少将所述类别标签排序，并存放到负反馈类别列表中；

从数量最多的类别标签中顺次剔除在负反馈类别列表中出现的类别标签，直到所述数量最多的类别标签种类唯一，并判断该类别标签作为所述用户提交的图像的准确类别；

(8)根据所述准确类别修正所述反馈图像中分类错误的类别标签、所述训练样本中有误的反馈图像以及所述用户提交的图像；所述步骤（8）包括以下子步骤：

若所述正反馈图像的类别标签与所述用户提交的图像的准确类别标签不一致，则将所述正反馈图像的类别修正为所述用户提交的图像的准确类别，并将所述正反馈图像添加到所述用户提交的图像的准确类别对应的训练样本中；

若所述负反馈图像的类别标签与所述用户提交的图像的准确类别标签一致，且准确类别的训练样本中包含所述负反馈图像，则从所述准确类别的训练样本中删除所述负反馈图像；

若所述用户提交的图像的视觉类别与所述用户提交的图像的准确类别不一致，则将所述用户提交的图像添加到所述准确类别的训练样本中；

(9)在所述准确类别中检索与所述用户提交的图像相似的图像，并返回二次检索结果；

(10)判断所述二次检索结果是否满足检索要求；

(11)若所述二次检索结果不满足检索要求，则返回步骤（6），若所述二次检索结果满足检索要求，则进入步骤（12）；

(12)判断所述训练样本的修正数量是否达到所述训练样本中的图像总数的10%，若达到，则进入步骤（13），否则过程结束；

(13)按修正的所述训练样本重新训练所述特征分类模型，对所述图像库中的图像分类，并更新其分类标签。