CN106202256A

CN106202256A - 基于语义传播及混合多示例学习的Web图像检索方法

Info

Publication number: CN106202256A
Application number: CN201610498952.XA
Authority: CN
Inventors: 孟繁杰; 宋苗; 单大龙; 石瑞霞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-12-07
Anticipated expiration: 2036-06-29
Also published as: CN106202256B

Abstract

本发明属于图像处理技术领域，具体提供了一种基于语义传播及混合多示例学习的Web图像检索方法，将图像的视觉特征与文本信息结合起来进行Web图像检索，首先将图像表示为BoW模型，然后对图像分别根据视觉相似度和文本相似度进行聚类，并通过文本类中的通用视觉词汇将图像所具有的语义特征传播到图像的视觉特征向量中；在相关反馈阶段，引入混合多示例学习算法，解决实际检索过程中的小样本问题。该检索方法与传统CBIR框架相比，以跨模态方式利用互联网图像的文本信息将图像的语义特征传播给视觉特征，并且在基于多示例学习的相关反馈中引入半监督学习应对小样本问题，能够有效缩减语义鸿沟，并提升Web图像检索性能。

Description

基于语义传播及混合多示例学习的Web图像检索方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于语义传播及混合多示例学习的Web图像检索方法。

背景技术

网络环境下，图像一般是嵌入在Web网页中发布的，具有丰富的文本信息，如标签(tag)、文件名、网址信息和图像上下文等。对于Web图像检索，基于文本信息的TBIR(Text-based Image Retrieval)和基于图像视觉特征的CBlR(Content-based Image Retrieval)有着各自的优势和不足。TBIR一定程度回避了对复杂可视化元素的识别难题，充分利用了Web网页上下文和超文本结构信息，并且符合人们熟悉的检索习惯，实现简单，但是因为仍旧局限于文本检索范围下，通过受控词汇来描述图像，因此容易出现主题歧义、标注不一等问题。CBIR则恰好相反，它主要利用对直观形象的特征元素的分析来检索图像，具有一定的客观性，如每幅图像的颜色直方图是确定的，但是CBIR存在语义鸿沟问题，单纯依据图像视觉特征检索很可能会将视觉特征相似但语义不同的图像检索出来，也有可能会将视觉特征不同但语义相同的图像检索不出来。

为了能够充分利用Web图像所包含的信息，一些研究者开始研究在Web图像检索中同时利用Web图像的视觉特征和图像所在网页的文本信息。Woodruff等人在基于关键字检索的基础之上，利用缩略图帮助用户定位其感兴趣的网页。Xue等人采用与Woodruff等人类似的策略，使用网页的文本片段(text snippet)和图像片段(image snippet)帮助用户在检索结果中快速定位其感兴趣的网页。但是，Woodruff等人和Xue等人仅仅使用Web图像内容将检索结果更好地展示给用户，并没有将它运用在图像检索过程中。Wang等人尝试将图像视觉特征和文本信息分别当作两种不同的对象，然后在它们之间建立起各种关联，再通过使用互信息将二者融合在一起实现Web图像检索，但是这种方式并没有充分利用Web图像内容的高层语义特征。Chen等人通过文本信息对应向量之间夹角的余弦计算文本信息间的相似性，而计算视觉特征之间的相似性时通过计算它们对应向量之间的欧几里德距离，然后使用线性方式将上述的两个度量组合起来，并且设置二者权重相同，即认为文本信息和视觉特征在Web图像检索中的重要程度一样。Srihari等人采用了类似的策略将基于文本信息查询的模型和基于图像视觉特征查询的模型线性的组合起来。以上这些研究还只是停留在信息利用层面，并没有实现这两种信息的真正融合。

Silva等人的研究结果表明，在Web图像检索中同时使用包括视觉和文本在内的多种信息有助于改进Web图像检索。Kuo等人提出了一种针对大规模图像检索的非监督辅助视觉词汇发现方法。该方法通过基于图的非监督学习，将视觉聚类图和文本聚类图对照起来，并将文本聚类图中图像之间的关系传播到视觉聚类图中。该方法将在线的匹配过程转变为离线的聚类过程，并且实现了图像视觉特征与文本信息的有机结合。但是，该方法在关系传播过程中会产生非常庞大且复杂的关系网络，运算复杂；而且，传播过程会产生大量的辅助视觉词汇，从而降低图像检索的精度。

发明内容

本发明的目的是克服上述现有技术中存在的问题，为进一步提升Web图像检索性能，提出一种基于语义传播及混合多示例学习的Web图像检索方法。

本发明的技术方案是：基于语义传播及混合多示例学习的Web图像检索方法，包括如下步骤：

步骤1：将图像表示为BoW模型：

BoW模型采用经典的k-means方法对图像的特征进行聚类，其目标是将n个特征(x₁,…,x_n)映射到k个视觉词汇(ω₁,…,ω_k)上，其中每一个视觉词汇就是一个聚类中心，每一个特征被映射到距离它最近的一个词汇上；如式(1)所示，BoW模型其算法通过使每一个类的类内方差达到最小，实现将这n个特征映射到k个类别(S₁,…,S_k)中：

\arg \min_{S} Σ_{i = 1}^{k} Σ_{j = 1}^{n} | | x_{j} - ω_{i} | |^{2} - - - (1)

步骤2：在非监督学习框架下借助文本信息将图像的语义特征传播给图像的视觉特征，具体包括如下步骤：

步骤2.1：相似度计算

采用余弦相似度来度量两幅图像的文本信息相似度以及两幅图像的视觉特征向量相似度；

步骤2.2：图像聚类

采用近邻传播AP聚类算法对图像库图像根据视觉特征相似度和文本信息相似度分别进行聚类；

步骤2.3：语义特征传播

采用如下的策略将文本聚类图中反映出来的图像所具有的潜在语义特征传播到图像的视觉特征向量中：

在文本聚类图中，每一类图像之间具有相似的文本信息，从而具有相似的语义特征；对每个文本类，将该类中所有图像的视觉特征向量相加，统计出现频次最高的P个视觉词汇作为该文本类的通用视觉词汇；

对于图像I_i，若其在文本聚类图中属于第m类，在视觉聚类图中属于第n类，其视觉词汇直方图为x_i，第m个文本类的通用视觉词汇直方图为c_m，其中没有出现的视觉词汇的频次为0，经语义传播后I_i的视觉词汇直方图为x_new_i，则语义传播过程如下式所示：

x_{new}_{i} = \frac{s_v_{i k}}{s_v_{i k} + s_t_{{ik}^{'}}} x_{i} + \frac{s_t_{{ik}^{'}}}{s_v_{i k} + s_t_{{ik}^{'}}} c_{m} - - - (2)

其中，k和k'分别表示第n个视觉类的聚类中心和第m个文本类的聚类中心，s_v_ik和s_t_ik'分别表示图像I_i与其所在的视觉类聚类中心和文本类聚类中心的相似度；

步骤3：引入混合多示例学习算法，解决实际检索过程中的小样本问题，具体包括如下步骤：

步骤3.1：HMIL定义

将图像各兴趣点局块的局部视觉特征作为示例，则图像被看成是包含示例的包；设正包、负包和未标记包构成的集合为{B₁,···,B_p,B_p+1,···,B_p+q,B_p+q+1,···,B_p+q+r}，其中，p、q和r分别表示正包、负包和未标记包的数量；设所有示例构成的集合为：{b₁,···,b_u,b_u+1,···,b_u+v,b_u+v+1,···,b_u+v+w}，其中，u、v和w分别表示所有正包、负包和未标记包中示例的个数；根据多示例学习的定义，有标记数据即负包中的所有示例，半标记数据即正包中的所有示例，未标记数据即未标记包中的所有示例；包B_i的标记用Y_i表示，Y_i∈{1,-1}；示例b_i的标记用y_i表示，y_i∈{1,-1}；对于未标记数据，可以为其随机分配一个初始标记；

步骤3.2：HMIL求解

寻找一个超球B(c,R)，其中c表示球心，R表示半径，同时满足：(1)半径R尽可能小；(2)正包中至少有一个正示例被约束在超球内，负包中所有负示例都被约束在超球外；(3)对于未标记包，由于并不清楚其正负信息，故对其没有约束；每个包对应一个松弛项ξ_i，它求解如下优化问题：

其中，是核函数，I(i)＝{j|b_j∈B_i}为包B_i中示例的下标集合。

上述步骤1中，所述BoW模型的具体实施步骤如下：

2.1)兴趣点检测

(1)对图像I(x,y)，其中x表示图像像素的横坐标，y表示图像像素的纵坐标，按下式计算尺度空间L(x,y,σ)：

L(x,y,σ)＝G(x,y,σ)*I(x,y) (4)

其中，*表示卷积运算，G(x,y,σ)为可变尺度的高斯函数，σ为高斯函数的标准差，σ∈[2,8]，

(2)计算尺度空间高斯差值函数D(x,y,σ)：

\begin{matrix} D (x, y, σ) = (G (x, y, k σ) - G (x, y, σ)) * I (x, y) \\ = L (x, y, k σ) - L (x, y, σ) \end{matrix} - - - (5)

其中，k表示尺度空间中两个图像的尺度间隔；

(3)定义尺度空间的自相关矩阵A为：

A (x, y, δ_{i}, δ_{d}) = {δ_{d}}^{2} G (δ_{i}) * [\begin{matrix} f_{x}^{2} (x, δ_{d}) & f_{x} f_{y} (x, δ_{d}) \\ f_{x} f_{y} (x, δ_{d}) & f_{y}^{2} (x, δ_{d}) \end{matrix}] = [\begin{matrix} {\hat{f}}_{x}^{2} & \hat{f_{x} f_{y}} \\ \hat{f_{x} f_{y}} & {\hat{f}}_{y}^{2} \end{matrix}] - - - (6)

其中，δ_i表示积分尺度，δ_d微分尺度，f_x和f_y分别表示x和y方向上的导数，表示对f做高斯滤波；记A的两个特征值λ₁和λ₂为自相关函数的主曲率；

(4)不同尺度空间的兴趣点检测公式为：

C(x,y,δ_i,δ_d)＝det(A(x,y,δ_i,δ_d))-α·trace²(A(x,y,δ_i,δ_d))＝λ₁·λ₂-α·(λ₁+λ₂) (7)

其中，α为取值范围在0.04～0.06的常数，判断C的局部极大值坐标是否落在多尺度空间极值点δ×δ邻域内；若在邻域内则保留该极值点作为兴趣点，否则剔除；

(5)将发生重叠的兴趣点进行合并，具体做法是：对兴趣点按照测度值进行由大到小排序，然后依次计算兴趣点对之间的距离，如果距离小于阈值2δ(由于我们选择的邻域大小为δ×δ)，则合并它们，即把测度值小的兴趣点去掉；经过上述处理之后，便确定最终的兴趣点集合；

2.2)特征向量生成

对每个兴趣点统计该兴趣点δ×δ邻域内像素的HSV空间颜色直方图作为该兴趣点对应的特征向量；图像中所有兴趣点的特征向量组成该图像的特征向量；

2.3)k均值聚类

对训练集中所有图像的全部特征向量进行k-means聚类，生成描述图像的视觉词典；这样，每一幅图像可以用若干视觉词汇表示，之后分别统计视觉词典中每一个视觉词汇在该图像中出现的个数，最终将图像表示为一个k维(k为视觉词典的大小)的视觉词汇直方图；k-means聚类具体步骤如下：

(1)初始化，随机指定k个聚类中心(ω₁,…,ω_k)；

(2)分配x_i，对所有特征向量x_i找到与它距离最近的聚类中心，并将其分配到该类；

(3)修正聚类中心，将每一类的均值作为新的聚类中心；

(4)计算方差

J = Σ_{i = 1}^{k} Σ_{j = 1}^{n} | | x_{j} - ω_{i} | |^{2} - - - (8)

其中，n表示训练集中所有图像的全部特征向量的个数；

(5)收敛判断，如果J收敛，则返回(ω₁,…,ω_k)，算法终止；否则返回(2)。

上述步骤2.1中，所述余弦相似度是通过找到两个v维向量之间的夹角来计算向量之间的相似度，其过程如下：

首先定义一个被索引为{1,2,…,v}的单词表；每个文档d∈D用一个v维的tf-idf向量d＝(tfidf₁,tfidf₂,…,tfidf_v)来表示，其中tfidf_i是单词表中第i个单词的tf-idf值；这样，两个文档d_p和d_q之间的余弦相似度被定义为：

{Sim}_{\cos i n e} (d_{p}, d_{q}) = \frac{d_{p} \cdot d_{q}}{| | d_{p} | | | | d_{q} | |} - - - (9)

其中，d_p表示文档d_p的特征向量；而单词表中所有单词的idf值都是基于文档集合D得到的；

同样，采用上述余弦相似度度量方法计算两幅图像的视觉特征向量x_p和x_q之间的相似度。

上述步骤2.2中，采用AP聚类算法对图像库图像根据视觉特征相似度和文本信息相似度分别进行聚类；AP聚类算法根据N个数据点之间的相似度进行聚类，这些相似度组成N×N的相似度矩阵S；AP聚类算法将所有的数据点都作为潜在的聚类中心，称之为exemplar；两个数据点的相似度采用距离的负数表示；相似度矩阵S中主对角线上的值s(k,k)表示的是某个点和自身的相似度，称为偏向参数p，但这里不直接用0来表示；聚类的数量受到偏向参数p的影响，如果认为每个数据点都有可能作为聚类中心，那么p就应取相同的值；如果取输入的相似度的均值作为p的值，得到聚类数量是中等的；如果取最小值，将得到类数较少的聚类；AP聚类算法中传递两种类型的消息，即r类型的消息和a类型的消息；r(i,k)表示从点i发送到候选聚类中心k的数值消息，反映k点是否适合作为i点的聚类中心；a(i,k)表示点i选择点k作为其聚类中心的适合程度，它通过候选聚类中心k发送到i的数值消息，反映i点是否选择k作为其聚类中心；AP聚类算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的exemplar，同时将其余的数据点分配到相应的类别中，其计算迭代更新如下：

\begin{matrix} r (i, k) = (1 - λ) ρ (i, k) + λ r (i, k) \\ a (i, k) = (1 - λ) α (i, k) + λ α (i, k) \end{matrix} - - - (10)

其中，λ为阻尼因子，引入λ是避免数值震荡；ρ(i,k)和α(i,k)分别为传播r类型的消息和传播a类型的消息，分别由下式计算：

ρ (i, k) = \{\begin{matrix} s (i, k) - \max_{k^{'} &NotEqual; k} {a (i, k^{'}) + s (i, k^{'})} & (i &NotEqual; k) \\ s (i, k) - \max_{k^{'} &NotEqual; k} {s (i, k^{'})} & (i = k) \end{matrix} - - - (11)

α (i, k) = \{\begin{matrix} \min {0, r (i, k) + \underset{k^{'} &NotEqual; i, k}{Σ} \max {0, r (k^{'}, k)}} & (i &NotEqual; k) \\ \underset{k^{'} &NotEqual; i}{Σ} \max {0, r (k^{'}, k)} & (i = k) \end{matrix} - - - (12)

数据点i的exemplar最终被定义为：

argmax{r(i,k)+a(i,k)k＝1,2,···,N} (13)。

上述步骤2.3中，采用如下的策略将文本聚类图中反映出来的图像所具有的潜在语义特征传播到图像的视觉特征向量中：

x_{new}_{i} = \frac{s_v_{i k}}{s_v_{i k} + s_t_{{ik}^{'}}} x_{i} + \frac{s_t_{{ik}^{'}}}{s_v_{i k} + s_t_{{ik}^{'}}} c_{m} - - - (2)

其中，k和k'分别表示第n个视觉类的聚类中心和第m个文本类的聚类中心，s_v_ik和s_t_ik'分别表示图像I_i与其所在的视觉类聚类中心和文本类聚类中心的相似度。

上述步骤3.1中，引入混合多示例学习HMIL算法解决实际检索过程中的小样本问题；所述混合多示例学习定义如下：

将图像各兴趣点局块的局部视觉特征作为示例，则图像被看成是包含示例的包；设正包、负包和未标记包构成的集合为{B₁,···,B_p,B_p+1,···,B_p+q,B_p+q+1,···,B_p+q+r}，其中，p、q和r分别表示正包、负包和未标记包的数量；设所有示例构成的集合为：{b₁,···,b_u,b_u+1,···,b_u+v,b_u+v+1,···,b_u+v+w}，其中，u、v和w分别表示所有正包、负包和未标记包中示例的个数；根据多示例学习的定义，有标记数据即负包中的所有示例(全部都为负示例)，半标记数据即正包中的所有示例，未标记数据即未标记包中的所有示例；其中正包中的示例不保证都是正的；包B_i的标记用Y_i表示，Y_i∈{1,-1}；示例b_i的标记用y_i表示，y_i∈{1,-1}；对于未标记数据，可以为其随机分配一个初始标记；则需要找到一个示例级别的分类函数f，可以把未标记的每个示例分成类别-1或1，从而包级别的分类可根据f来确定。

上述步骤3.2中，通过迭代求解一系列二次凸规划问题来实现所述HMIL求解，具体包括如下步骤：

(1)初始化：构建初始训练集

其中，

{\overset{&OverBar;}{b}}_{p + q + i} = \underset{j &Element; I (p + q + i)}{Σ} b_{j} / | I (p + q + i) |, i = 1, 2, ..., r;

(2)训练：对训练集进行如下训练：

(3)更新：用对正包中的示例进行计算，记其中，对负包和未标记包中的示例仍按照(1)中的方式进行选择，然后组建更新后的训练集合

(4)判断：如果训练集合更新前后没有变化，则转到步骤(5)，否则返回步骤(2)；

(5)结束：输出此时的解c、R，得到优化的分类函数

根据分类函数f，将前一轮检索结果中的负包图像剔除，实现对图像库图像的重新排序输出；在此基础上，可重复进行多轮反馈，以优化检索结果。

本发明的有益效果：本发明方法的主要优点在于：(1)采用非监督学习方法，通过文本类中的通用视觉词汇将图像所具有的潜在语义特征传播到图像的视觉特征向量中。该方法与其他语义特征提取方法相比，能够大大降低语义特征提取复杂度，可直接用于互联网大规模图像检索。(2)提出在多示例学习框架下引入半监督学习的混合多示例学习方法，解决实际检索中的小样本问题。该方法不同于传统监督学习视角下的多示例学习，也有别于多示例半监督学习方法。与前者相比，混合多示例学习能够借助图像库中大量的未标记图像来帮助提高学习器的分类性能；与后者相比，混合多示例学习是在多示例学习框架下解决半监督学习的优化问题，它能够对包中示例获得更优的学习结果。

以下将结合附图对本发明做进一步详细说明。

附图说明

图1是基于语义传播及混合多示例学习的Web图像检索框架；

图2是BoW模型的基本思想示图；

图3是图像语义特征传播流程图；

图4是AP算法聚类示意图；

图4(a)是20个数据点间的相似度矩阵S示例图；

图4(b)是p＝median(S)，λ＝0.9时，AP聚类结果，20个数据点被分成了4类；

图5是不同p值AP算法聚类结果；

图5(a)是p＝median(S)/2时AP算法聚类结果；图5(b)是p＝median(S)时AP算法聚类结果；图5(c)是p＝median(S)×2时AP算法聚类结果；

图6是通用视觉词汇示例；

图7是语义特征传播示意图；

图8是基于语义传播及混合多示例学习的图像检索结果示例；

图9是Web图像检索方法测试实验结果；

图10是表2给出的图像库中的示例图像。

具体实施方式

本发明提供了一种基于语义传播及混合多示例学习的Web图像检索方法，通过利用Web图像丰富的文本信息来缩小基于内容的Web图像检索中的语义鸿沟；一般来说，在一个互联网图像库中，每张图像都同时对应视觉特征与文本信息。但是，很多情况下，CBIR***中用户提交的查询图像是没有附加的文本信息的。因此，基于内容的图像检索只能在视觉特征空间中进行。为此，将文本所反映的图像的语义特征传播给图像的视觉特征向量。本发明方法框架如图1所示。

基于语义传播及混合多示例学习的图像检索问题可以描述如下：把从互联网上获取的数万张图像及其相应的文本信息当做图像检索数据库M，图像对应的视觉特征集为X＝{x₁,x₂,…,x_N}，对应的文本信息集为D＝{d₁,d₂,…,d_N}，其中N为数据库图像数量。因此，一幅图像I_i∈M可以表示成一个视觉—文本特征对：I_i＝(x_i,d_i)，需要通过文本信息d_i将图像I_i的语义特征反映到它的视觉特征中。给定一张查询图像I_q＝(x_q,φ)，基于数据库M的视觉词典为其生成视觉特征向量x_q，然后将查询图像的视觉特征向量x_q与数据库中每幅图像的视觉特征向量进行相似度计算，并根据相似度排序输出检索结果。在相关反馈阶段，由用户在检索结果中标记一定数量的正例图像和负例图像，***利用有限的标记样本和更多的无标记样本进行混合多示例学习优化检索结果。

本发明内容具体包括如下步骤：

1、BoW模型

由于提取出的图像视觉特征向量往往存在于高维空间，无论是计算还是存储都有很大困难，而且高维特征也常常面临稀疏问题和噪声问题。为解决上述问题，Li借鉴文本处理的思想，提出了BoW模型，并采用SIFT描述子和BoW模型实现场景图像的分类。BoW模型已经发展为目前最流行也是极具发展前途的大规模图像匹配方法，该方法将高维特征向量映射到低维空间中，并进行简洁的编码，这个简洁的码字称为“视觉词汇”。这个处理过程通常可以通过降维或编码技术来实现，这样产生的视觉词汇便于存储、索引和计算。在Li之后，许多研究者在图像检索过程中采用BoW模型表示图像特征，其基本思路如下：首先提取训练集屮的每一幅图像的局部感兴趣特征(如SIFT)，然后利用K-means聚类，将上述检测到的全部SIFT关键点通过相似性度量的方式聚集成数量较大的一些簇；其中每个簇被看作一个视觉词汇，该视觉词汇可用于表示该簇内部的所有SIFT关键点共同具有的某种局部模式，因此可以用一个包含全部视觉词汇的词典来描述特征空间中的全体局部模式；基于上述视觉词典，每一个从原始图像中检测出来的SIFT关键点都可以被映射为该视觉词典中的一个视觉词汇，因此数据集中的每幅图像都可以表示为“一袋视觉词汇”，如图2所示。

BoW模型采用经典的k-means方法对图像的特征进行聚类。它的目标是将n个特征(x₁,…,x_n)映射到k个视觉词汇(ω₁,…,ω_k)上，其中每一个词汇就是一个聚类中心，每一个特征被映射到距离它最近的一个词汇上。算法通过使每一个类的类内方差达到最小如式(1)所示，实现将这n个特征映射到k个类别(S₁,…,S_k)中：

\arg \min_{S} Σ_{i = 1}^{k} Σ_{j = 1}^{n} | | x_{j} - ω_{i} | |^{2} - - - (1)

具体计算步骤如下：

(1)初始化，随机指定k个聚类中心(ω₁,…,ω_k)；

(3)修正聚类中心，将每一类的均值作为新的聚类中心；

(4)计算方差

J = Σ_{i = 1}^{k} Σ_{j = 1}^{n} | | x_{j} - ω_{i} | |^{2} - - - (8)

其中，n表示训练集中所有图像的全部特征向量的个数。

通过研究发现，BoW模型存在以下两个主要问题：(1)视角变化、环境光照、遮挡等外界干扰，会严重影响视觉特征的聚类；(2)我们不能证明视觉空间邻近的特征其语义空间的距离也同样邻近，即需要更合理的词汇映射。为解决问题(1)，应考虑对图像提取具有稳定不变性的局部特征。采用尺度不变兴趣点检测方法检测兴趣点，然后对每个兴趣点统计该兴趣点δ×δ邻域内像素的HSV空间颜色直方图。通过对所有图像的全部特征向量进行k-means聚类后，将每一幅图像用若干视觉词汇表示，之后分别统计视觉词典中每一个视觉词汇在该图像中出现的个数，最终将图像表示为一个k维(k为视觉词典的大小)的视觉词汇直方图。为解决问题(2)，研究者提出将一些附加信息如视觉约束条件等信息引入视觉词汇的生成过程，或从特征相邻图像中选择有用特征来丰富对图像的特征描述，但是这些方法通常需要额外的人工学习过程，或需要相当复杂的计算，不适于大规模图像检索。为此，考虑在非监督学习框架下，为视觉词汇的映射过程注入语义特征。

2、语义特征传播

由于文本是图像语义描述的一种有效手段，而互联网图像往往具有标签(tag)、文件名等文本信息，因此，在非监督学习框架下借助文本信息将图像的语义特征传播给图像的视觉特征，其流程如图3所示。

2.1相似度计算

采用余弦相似度来度量两个文本之间的相似度。余弦相似度通过找到两个v维向量之间的夹角来计算向量之间的相似度，它被广泛应用于文本挖掘和信息检索领域中对不同文档的比较。

首先定义一个被索引为{1,2,…,v}的单词表。每个文档d∈D用一个v维的termfrequency×inverse document frequency(tf-idf)向量：d＝(tfidf₁,tfidf₂,…,tfidf_v)来表示，其中tfidf_i是单词表中第i个单词的tf-idf值。这样，两个文档d_p和d_q之间的余弦相似度被定义为：

{Sim}_{\cos i n e} (d_{p}, d_{q}) = \frac{d_{p} \cdot d_{q}}{| | d_{p} | | | | d_{q} | |} - - - (9)

其中，d_p表示文档d_p的特征向量。而单词表中所有单词的inverse documentfrequency(idf)值都是基于文档集合D得到的。

由于在BoW模型中，图像被表示成“一袋视觉词汇”，因此同样采用上述余弦相似度度量方法计算两幅图像的视觉特征向量x_p和x_q之间的相似度。

2.2图像聚类

采用在Science杂志上提出来的近邻传播(affinity propagation，AP)聚类算法对图像库图像根据视觉特征相似度和文本信息相似度分别进行聚类。

AP聚类算法根据N个数据点之间的相似度进行聚类，这些相似度组成N×N的相似度矩阵S。AP算法不需要事先指定聚类数目，相反它将所有的数据点都作为潜在的聚类中心，称之为exemplar。两个数据点的相似度采用距离的负数表示。相似度矩阵S中主对角线上的值s(k,k)表示的是某个点和自身的相似度，一般称为偏向参数p(preference)，但是这里不直接用0来表示。聚类的数量受到偏向参数p的影响，如果认为每个数据点都有可能作为聚类中心，那么p就应取相同的值。如果取输入的相似度的均值作为p的值，得到聚类数量是中等的。如果取最小值，将得到类数较少的聚类。AP算法中传递两种类型的消息，r(responsibility)和a(availability)。r(i,k)表示从点i发送到候选聚类中心k的数值消息，反映k点是否适合作为i点的聚类中心。a(i,k)表示点i选择点k作为其聚类中心的适合程度，它通过候选聚类中心k发送到i的数值消息，反映i点是否选择k作为其聚类中心。r(i,k)与a(i,k)越强，则k点作为聚类中心的可能性就越大，并且i点隶属于以k点为聚类中心的聚类可能性也越大。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的exemplar，同时将其余的数据点分配到相应的类别中。计算迭代更新如下：

\begin{matrix} r (i, k) = (1 - λ) ρ (i, k) + λ r (i, k) \\ a (i, k) = (1 - λ) α (i, k) + λ α (i, k) \end{matrix} - - - (10)

其中，λ为阻尼因子，引入λ是避免数值震荡；ρ(i,k)和α(i,k)分别为传播responsibility和传播availability，分别由下式计算：

ρ (i, k) = \{\begin{matrix} s (i, k) - \max_{k^{'} &NotEqual; k} {a (i, k^{'}) + s (i, k^{'})} & (i &NotEqual; k) \\ s (i, k) - \max_{k^{'} &NotEqual; k} {s (i, k^{'})} & (i = k) \end{matrix} - - - (11)

α (i, k) = \{\begin{matrix} \min {0, r (i, k) + \underset{k^{'} &NotEqual; i, k}{Σ} \max {0, r (k^{'}, k)}} & (i &NotEqual; k) \\ \underset{k^{'} &NotEqual; i}{Σ} \max {0, r (k^{'}, k)} & (i = k) \end{matrix} - - - (12)

数据点i的exemplar最终被定义为：

argmax{r(i,k)+a(i,k)k＝1,2,···,N} (13)

图4给出了AP算法聚类示意图，其中4(a)是一个随机生成的20个数据点之间的相似度矩阵S(两个数据点间的相似度被表示成距离的负数形式)，4(b)是根据4(a)所示的相似度矩阵S通过AP聚类的结果。

图5给出了随机生成的50个数据点在不同p值时AP算法聚类结果，结果比较见表1。

表1不同p值得到的聚类数目比较

由图5和表1可见，p值大小对AP算法聚类结果影响非常明显。图像的聚类将直接影响图像检索性能。如果分类过度，将造成检索查全率降低，而如果分类不足，又会造成检索查准率下降。为此，使用前面所用到的Corel图像库中的1000幅图像作为实验图像库，将每一幅图像分别表示为BoW模型，并将p值分别设为median(S)/2，median(S)，以及median(S)×2分别进行图像聚类实验。因为这1000幅图像已经被划分成10个类，因此可以直接作为评判分类性能的标准。通过实验，发现p＝median(S)获得了最好的分类效果。

2.3语义特征传播

为了克服BoW模型的缺陷，采用下面的策略将文本聚类图中反映出来的图像所具有的潜在语义特征传播到图像的视觉特征向量中。

在文本聚类图中，每一类图像之间具有相似的文本信息，从而具有相似的语义特征。对每个文本类，将该类中所有图像的视觉特征向量相加，统计出现频次最高的P个视觉词汇作为该文本类的通用视觉词汇。这些通用视觉词汇是文本相关图像中具有普遍性和代表性的视觉词汇，因此它们具有反映该类图像语义特征的能力。

图6给出了通用视觉词汇示例，图中x_i和x_j分别表示图像i和图像j的视觉词汇直方图，通用视觉词汇将x_i和x_j中普遍存在、更具代表性的视觉词汇保留了下来。

对于图像I_i，若其在文本聚类图中属于第m类，在视觉聚类图中属于第n类，其视觉词汇直方图为x_i，第m个文本类的通用视觉词汇直方图(没有出现的视觉词汇的频次为0)为c_m，经语义传播后I_i的视觉词汇直方图为x_new_i，则语义传播过程如下式所示：

x_{new}_{i} = \frac{s_v_{i k}}{s_v_{i k} + s_t_{{ik}^{'}}} x_{i} + \frac{s_t_{{ik}^{'}}}{s_v_{i k} + s_t_{{ik}^{'}}} c_{m} - - - (2)

图7给出了语义特征传播示意图。如图所示，图像1在文本聚类图中位于第1个类中，因此将第1个文本类的通用视觉词汇直方图c₁加权后添加到图像1的视觉词汇直方图中，类似地，与图像1位于同一个视觉类的图像7恰好和图像1同样位于第1个文本类中，因此将第1个文本类的通用视觉词汇直方图c₁加权后也添加到图像7的视觉词汇直方图中，而与图像1、7位于同一个视觉类的图像3、4、9，由于它们在文本聚类图中没有和图像1、7位于同一个文本类中，因此它们的视觉词汇直方图将添加其他文本类的通用视觉词汇直方图。由此可见，通过上述传播过程，位于同一个视觉类且又位于同一个文本类的图像，它们会包含更多相似的视觉词汇从而变得更加相似；相反，位于同一个视觉类却位于不同文本类的图像，它们会包含更多不相同的视觉词汇从而减少相似性。因此，这种传播过程使图像的视觉特征一定程度地蕴含了其语义特征，因而可以提高图像检索的查准率与查全率。

3、混合多示例学习

相关和不相关图像之间自然地存在相关性和不相关性，可通过相关反馈利用图像间的关系进一步缩减语义鸿沟。多示例学习方法可以更好地解决图像检索歧义性问题,从而有助于缩小CBIR的语义鸿沟。然而目前，MIL算法在CBIR中的应用，大多数都是有监督地利用有标记的训练图像(包)，较少注意利用大量的未标记图像。实际检索中，一方面，CBIR***中有标记的图像往往是在与用户的交互过程中由用户标注的，在有标记图像数量非常有限的前提下获得好的检索结果非常重要；另一方面，图像库里存在大量的未标记图像。半监督学习是近年来模式识别和机器学习领域研究的一个重点问题，是监督学习与非监督学习相结合的一种学习方法。它主要考虑如何利用少量的标记样本和大量的未标记样本进行训练和分类的问题。因此，通过引入半监督学习来解决图像检索中MIL方法遇到的实际问题，这种学习方法称为混合多示例学习(Hybrid multiple-instance learning，HMIL)。

3.1HMIL定义

将图像各兴趣点局块的局部视觉特征作为示例，则图像被看成是包含示例的包。设正包、负包和未标记包构成的集合为{B₁,···,B_p,B_p+1,···,B_p+q,B_p+q+1,···,B_p+q+r}，其中，p、q和r分别表示正包、负包和未标记包的数量；设所有示例构成的集合为：{b₁,···,b_u,b_u+1,···,b_u+v,b_u+v+1,···,b_u+v+w}，其中，u、v和w分别表示所有正包、负包和未标记包中示例的个数。根据多示例学习的定义，有标记数据即负包中的所有示例(全部都为负示例)，半标记数据即正包中的所有示例，未标记数据即未标记包中的所有示例。注意正包中的示例不能保证都是正的。包B_i的标记用Y_i表示，Y_i∈{1,-1}；示例b_i的标记用y_i表示，y_i∈{1,-1}。对于未标记数据，可以为其随机分配一个初始标记。需要找到一个示例级别的分类函数f，可以把未标记的每个示例分成类别-1或1，从而包级别的分类可根据f来确定。

3.2HMIL求解

寻找一个超球B(c,R)，其中c表示球心，R表示半径，满足：(1)半径R尽可能小；(2)正包中至少有一个正示例被约束在超球内，负包中所有负示例都被约束在超球外；(3)对于未标记包，由于并不清楚其正负信息，故对其没有约束。每个包对应一个松弛项ξ_i，它求解如下优化问题：

通过迭代求解一系列二次凸规划问题来实现上述优化问题：

(1)初始化：构建初始训练集

其中，

{\overset{&OverBar;}{b}}_{p + q + i} = \underset{j &Element; I (p + q + i)}{Σ} b_{j} / | I (p + q + i) |, i = 1, 2, ..., r .

(2)训练：对训练集进行如下训练：

(4)判断：如果训练集合更新前后没有变化，则转到步骤(5)，否则返回步骤(2)。

(5)结束：输出此时的解c、R，得到优化的分类函数

根据分类函数f，可将前一轮检索结果中的负包图像剔除，实现对图像库图像的重新排序输出。在此基础上，可重复进行多轮反馈，以优化检索结果。

本发明的实验结果与分析

实验的平台为，软件环境：MS-Windows 7下运行Matlab R2010a；硬件环境：Corei5-3470CPU，3.20GHz，8.0G内存。

从Flickr网站(http://www.flickr.com/)抓取了大约1.2万幅图像，作为实验图像库。Flickr网站是雅虎旗下图片分享网站，它允许使用者分享他们的私人照片，也可作为网络图片的存放空间，并且能够给照片标上标签。这些图像具有丰富的文本信息，比如图像标题和摄影作者对图像的描述等。表2给出了图像库中的几个示例图像及其文本描述。图10是表2给出的图像库中的示例图像。如表2所示，如果仅提取图像的低层视觉特征，那么很难将不同光照，不同拍摄角度，不同拍摄范围的同类图像全都检索出来。

表2图像库中的示例图像及其文本描述

从图像库中随机选取了50幅图像作为查询图像，这些图像分别属于以下7类：Colosseum，Eiffel Twer，Golden Gate Bridge，Tower de Pisa，Starbucks logo，TowerBridge，和Arc de Triomphe。

首先为实验图像库所有图像生成BoW模型，用k-means方法生成2000个视觉词汇库。在混合多示例学习阶段，用户从检索结果中标记5幅正例图像和5幅反例图像反馈给***，***对用户提交的10幅标记图像和排序最靠前的50幅未标记图像进行混合多示例学习并优化检索结果。图8给出了对其中一幅查询图像用本发明方法在进行一次混合多示例学习后的检索结果。返回30幅图像，全部检索正确。由此可见，本发明提出的基于语义传播及混合多示例学习的方法可以获得令人满意的检索效果。

更进一步地，可采用准确率(Precision)和回想率(Recall)作为评价准则，验证本发明方法的检索性能。实验中，比较了三种方法：(1)基于BoW模型表示视觉特征的图像检索方法(简称为Visual)，(2)基于语义传播的图像检索方法(简称Visual+Text)，(3)基于语义传播及混合多示例学***的制约，语义鸿沟问题使基于内容的图像检索实际效果比较差。于此对应的是，通过引入文本信息之后，图像检索效果有了很大的提高，这是因为文本信息将语义特征传递给了图像的视觉特征；而在引入混合多示例学习方法之后，图像检索性能又有了更进一步地提升。

综上，本发明为缩减CBIR的语义鸿沟，将图像的视觉特征与文本信息结合起来进行Web图像检索。首先将图像表示为BoW模型，然后对图像分别根据视觉相似度和文本相似度进行聚类，并通过文本类中的通用视觉词汇将图像所具有的语义特征传播到图像的视觉特征向量中；在相关反馈阶段，引入混合多示例学习算法，解决实际检索过程中的小样本问题。该检索方法与传统CBIR框架相比，以跨模态方式利用互联网图像的文本信息将图像的语义特征传播给视觉特征，并且在基于多示例学习的相关反馈中引入半监督学习应对小样本问题，能够有效缩减语义鸿沟，并提升Web图像检索性能。

为了实现对大规模图像库的实时检索，未来将考虑利用MapReduce分布式计算模型对图像低层视觉特征之间的相似度和文本信息之间的相似度分别进行计算，以解决大数据量的并行计算问题。另外，考虑到兴趣点局部图像块相对于用户感兴趣物体来说往往太小，一般情况下感兴趣物体上都会存在多处这样的图像块，因此未来将结合图像包中“正”示例的比例以及所有“正”示例与目标特征的距离来定义新的相似度，实现对图像库图像的重新排序输出。

本发明的优点：(1)采用非监督学习方法，通过文本类中的通用视觉词汇将图像所具有的潜在语义特征传播到图像的视觉特征向量中。该方法与其他语义特征提取方法相比，能够大大降低语义特征提取复杂度，可直接用于互联网大规模图像检索。(2)提出在多示例学习框架下引入半监督学习的混合多示例学习方法，解决实际检索中的小样本问题。该方法不同于传统监督学习视角下的多示例学习，也有别于多示例半监督学习方法。与前者相比，混合多示例学习能够借助图像库中大量的未标记图像来帮助提高学习器的分类性能；与后者相比，混合多示例学习是在多示例学习框架下解决半监督学习的优化问题，它能够对包中示例获得更优的学习结果。

以上例举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

Claims

1.基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，包括如下步骤：

步骤1：将图像表示为BoW模型：

\arg \min_{S} Σ_{i = 1}^{k} Σ_{j = 1}^{n} | | x_{j} - ω_{i} | |^{2} - - - (1)

步骤2.1：相似度计算

步骤2.2：图像聚类

步骤2.3：语义特征传播

x_{new}_{i} = \frac{s_v_{i k}}{s_v_{i k} + s_t_{{ik}^{'}}} x_{i} + \frac{s_t_{{ik}^{'}}}{s_v_{i k} + s_t_{{ik}^{'}}} c_{m} - - - (2)

步骤3.1：HMIL定义

将图像各兴趣点局块的局部视觉特征作为示例，则图像被看成是包含示例的包；设正包、负包和未标记包构成的集合为{B₁,…,B_p,B_p+1,…,B_p+q,B_p+q+1,…,B_p+q+r}，其中，p、q和r分别表示正包、负包和未标记包的数量；设所有示例构成的集合为：{b₁,…,b_u,b_u+1,…,b_u+v,b_u+v+1,…,b_u+v+w}，其中，u、v和w分别表示所有正包、负包和未标记包中示例的个数；根据多示例学习的定义，有标记数据即负包中的所有示例，半标记数据即正包中的所有示例，未标记数据即未标记包中的所有示例；包B_i的标记用Y_i表示，Y_i∈{1,-1}；示例b_i的标记用y_i表示，y_i∈{1,-1}；对于未标记数据，可以为其随机分配一个初始标记；

步骤3.2：HMIL求解

2.如权利要求1所述的基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，在步骤1中，所述BoW模型的具体实施步骤如下：

2.1)兴趣点检测

L(x,y,σ)＝G(x,y,σ)*I(x,y) (4)

(2)计算尺度空间高斯差值函数D(x,y,σ)：

\begin{matrix} D (x, y, σ) = (G (x, y, k σ) - G (x, y, σ)) * I (x, y) \\ = L (x, y, k σ) - L (x, y, σ) \end{matrix} - - - (5)

其中，k表示尺度空间中两个图像的尺度间隔；

(3)定义尺度空间的自相关矩阵A为：

A (x, y, δ_{i}, δ_{d}) = {δ_{d}}^{2} G (δ_{i}) * [\begin{matrix} f_{x}^{2} (x, δ_{d}) & f_{x} f_{y} (x, δ_{d}) \\ f_{x} f_{y} (x, δ_{d}) & f_{y}^{2} (x, δ_{d}) \end{matrix}] = [\begin{matrix} {\hat{f}}_{x}^{2} & \hat{f_{x} f_{y}} \\ \hat{f_{x} f_{y}} & {\hat{f}}_{y}^{2} \end{matrix}] - - - (6)

(4)不同尺度空间的兴趣点检测公式为：

C(x,y,δ_i,δ_d)＝det(A(x,y,δ_i,δ_d))-α·trace²(A(x,y,δ_i,δ_d))＝λ₁·λ₂-α·(λ₁+λ₂)

(7)

(5)将发生重叠的兴趣点进行合并，具体做法是：对兴趣点按照测度值进行由大到小排序，然后依次计算兴趣点对之间的距离，如果距离小于阈值2δ，则合并它们，即把测度值小的兴趣点去掉；经过上述处理之后，便确定最终的兴趣点集合；

2.2)特征向量生成

2.3)k均值聚类

对训练集中所有图像的全部特征向量进行k-means聚类，生成描述图像的视觉词典；这样，每一幅图像可以用若干视觉词汇表示，之后分别统计视觉词典中每一个视觉词汇在该图像中出现的个数，最终将图像表示为一个k维的视觉词汇直方图；k-means聚类具体步骤如下：

(1)初始化，随机指定k个聚类中心(ω₁,…,ω_k)；

(3)修正聚类中心，将每一类的均值作为新的聚类中心；

(4)计算方差

J = Σ_{i = 1}^{k} Σ_{j = 1}^{n} | | x_{j} - ω_{i} | |^{2} - - - (8)

其中，n表示训练集中所有图像的全部特征向量的个数。

3.如权利要求1所述的基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，在步骤2.1中，所述余弦相似度是通过找到两个v维向量之间的夹角来计算向量之间的相似度，其过程如下：

{Sim}_{\cos i n e} (d_{p}, d_{q}) = \frac{d_{p} \cdot d_{q}}{| | d_{p} | | | | d_{q} | |} - - - (9)

4.如权利要求1所述的基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，在步骤2.2中，采用AP聚类算法对图像库图像根据视觉特征相似度和文本信息相似度分别进行聚类；AP聚类算法根据N个数据点之间的相似度进行聚类，这些相似度组成N×N的相似度矩阵S；AP聚类算法将所有的数据点都作为潜在的聚类中心，称之为exemplar；两个数据点的相似度采用距离的负数表示；相似度矩阵S中主对角线上的值s(k,k)表示的是某个点和自身的相似度，称为偏向参数p，但这里不直接用0来表示；聚类的数量受到偏向参数p的影响，如果认为每个数据点都有可能作为聚类中心，那么p就应取相同的值；如果取输入的相似度的均值作为p的值，得到聚类数量是中等的；如果取最小值，将得到类数较少的聚类；AP聚类算法中传递两种类型的消息，即r类型的消息和a类型的消息；r(i,k)表示从点i发送到候选聚类中心k的数值消息，反映k点是否适合作为i点的聚类中心；a(i,k)表示点i选择点k作为其聚类中心的适合程度，它通过候选聚类中心k发送到i的数值消息，反映i点是否选择k作为其聚类中心；AP聚类算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的exemplar，同时将其余的数据点分配到相应的类别中，其计算迭代更新如下：

\begin{matrix} r (i, k) = (1 - λ) ρ (i, k) + λ r (i, k) \\ a (i, k) = (1 - λ) α (i, k) + λ a (i, k) \end{matrix} - - - (10)

ρ (i, k) = \{\begin{matrix} s (i, k) - \max_{k^{'} &NotEqual; k} {a (i, k^{'}) + s (i, k^{'})} & (i &NotEqual; k) \\ s (i, k) - \max_{k^{'} &NotEqual; k} {s (i, k^{'})} & (i = k) \end{matrix} - - - (11)

α (i, k) = \{\begin{matrix} \min {0, r (i, k) + \underset{k^{'} &NotEqual; i, k}{Σ} \max {0, r (k^{'}, k)}} & (i &NotEqual; k) \\ \underset{k^{'} &NotEqual; i}{Σ} \max {0, r (k^{'}, k)} & (i = k) \end{matrix} - - - (12)

数据点i的exemplar最终被定义为：

argmax{r(i,k)+a(i,k) k＝1,2,…,N} (13)。

5.如权利要求1所述的基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，步骤2.3中，采用如下的策略将文本聚类图中反映出来的图像所具有的潜在语义特征传播到图像的视觉特征向量中：

x_{new}_{i} = \frac{s_v_{i k}}{s_v_{i k} + s_t_{{ik}^{'}}} x_{i} + \frac{s_t_{{ik}^{'}}}{s_v_{i k} + s_t_{{ik}^{'}}} c_{m} - - - (2)

6.如权利要求1所述的基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，步骤3.1中，引入混合多示例学习HMIL算法解决实际检索过程中的小样本问题；所述混合多示例学习定义如下：

将图像各兴趣点局块的局部视觉特征作为示例，则图像被看成是包含示例的包；设正包、负包和未标记包构成的集合为{B₁,…,B_p,B_p+1,…,B_p+q,B_p+q+1,…,B_p+q+r}，其中，p、q和r分别表示正包、负包和未标记包的数量；设所有示例构成的集合为：{b₁,…,b_u,b_u+1,…,b_u+v,b_u+v+1,…,b_u+v+w}，其中，u、v和w分别表示所有正包、负包和未标记包中示例的个数；根据多示例学习的定义，有标记数据即负包中的所有示例，半标记数据即正包中的所有示例，未标记数据即未标记包中的所有示例；其中正包中的示例不保证都是正的；包B_i的标记用Y_i表示，Y_i∈{1,-1}；示例b_i的标记用y_i表示，y_i∈{1,-1}；对于未标记数据，可以为其随机分配一个初始标记；则需要找到一个示例级别的分类函数f，可以把未标记的每个示例分成类别-1或1，从而包级别的分类可根据f来确定。

7.如权利要求1所述的基于语义传播及混合多示例学习的Web图像检索方法，其特征在于，步骤3.2中，通过迭代求解一系列二次凸规划问题来实现所述HMIL求解，具体包括如下步骤：

(1)初始化：构建初始训练集

其中，

{\overset{&OverBar;}{b}}_{p + q + i} = \underset{j &Element; I (p + q + i)}{Σ} b_{j} / | I (p + q + i) |, i = 1, 2, ..., r;

(2)训练：对训练集进行如下训练：

(5)结束：输出此时的解c、R，得到优化的分类函数