CN103064941B

CN103064941B - 图像检索方法和装置

Info

Publication number: CN103064941B
Application number: CN201210572371.8A
Authority: CN
Inventors: 陈世峰; 曹琛
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2016-12-28
Anticipated expiration: 2032-12-25
Also published as: CN103064941A

Abstract

本发明提供一种图像检索方法和装置。所述方法包括：获取检索关键字，并根据所述检索关键字从数据库中筛选得到图像集合；根据图像特征建立所述图像集合的第一谱图模型，得到所述图像集合中的两两图像之间的相似关系；根据所述相似关系建立半监督学习模型；根据所述半监督学习模型对所述图像集合进行去噪，得到去噪图像集合；返回所述去噪图像集合作为所述检索关键字所对应的检索结果。上述图像检索方法和装置，通过建立图像集合的谱图模型，建立半监督学习模型，根据半监督学习模型对图像集合进行去噪，返回去噪后的图像集合作为检索关键字所对应的检索结果，在对检索到的图像集合进行全局去噪，提高了图像检索的精确度。

Description

图像检索方法和装置

技术领域

本发明涉及图像检索技术，特别是涉及一种图像检索方法和装置。

背景技术

基于关键词的图像检索技术是当前主流的图像检索技术，然而由于错误标签的存在以及检索关键词语言的模糊性，通过基于关键词的图像检索技术检索得到图像通常不够准确。

发明内容

基于此，有必要针对现有图像检索技术的检索结果不够准确的问题，提供一种能够提高检索精度的图像检索方法和装置。

一种图像检索方法，包括如下步骤：

获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合；

根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系；

根据相似关系建立半监督学习模型；

根据半监督学习模型对图像集合进行去噪，得到去噪图像集合；

返回去噪图像集合作为检索关键字所对应的检索结果。

一种图像检索装置，包括：

获取模块，用于获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合；

建模模块，用于根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系；

学习模块，用于根据相似关系建立半监督学习模型；

去噪模块，用于根据半监督学习模型对图像集合进行去噪，得到去噪图像集合；

发送模块，用于返回去噪图像集合作为检索关键字所对应的检索结果。

上述图像检索方法和装置，通过获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合，根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系，根据相似关系建立半监督学习模型，根据半监督学习模型对图像集合进行去噪，得到去噪图像集合，返回去噪图像集合作为检索关键字所对应的检索结果，通过在对检索到的图像集合进行全局去噪，提高了图像检索的精确度。

附图说明

图1为一个实施例中图像检索方法流程示意图；

图2为一个实施例中图像检索装置结构示意图；

图3为在另一个实施例中图像检索方法的流程示意图。

具体实施方式

下面结合具体的实施例及附图对图像检索方法和装置的技术方案进行详细的描述，以使其更加清楚。

如图1所示，在一个实施例中，一种图像检索方法，包括如下步骤：

S110，获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合。

本实施例中，获取用户在搜索引擎中输入的用于检索图像的字词作为关键字，根据该关键字从图像数据库中或者其他包含有图的数据库中筛选图像，可以是根据对图像的描述、图像名称、图像所在网页的内容等基于文本的检索技术。

S130，根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系。

本实施例中，先获取图像集合中的获取图像特征值，如图像的RGB值(红绿蓝三个颜色的强度值)、亮度值、色调、饱和度或者图层数等图像特征。根据该图像特征值建立图像的特征向量，该特征向量是多维向量，每一维通过一种图像特征值表示。根据特征向量将图像集合通过第一节点集合χ＝{x₁,…,x_n}表示，其中x_n是一个多维向量，每个x_n代表一张图像，x_n的一个维度表示一个特征值，将图像通过节点集合中的一个向量表示，便于后续计算。

根据第一节点集合建立关系矩阵W，当i≠j时，w_ij＝exp(-||x_i-x_j||²/σ²)，当i＝j时，w_ij＝0，通过关系矩阵W表示各图像之间的相似度关系。进一步的，对关系矩阵W做归一化处理，将图像之间的相似度关系通过0与1之间的数据表示，得第一归一化边矩阵S＝D^-1/2WD^-1/2，其中D是对角元素为的对角矩阵，即该对角元素为w_ij所在列的所有元素的和。归一化边矩阵是基于两两节点之间的相互关系建立的，可用于发掘节点集合的内部结构。

S150，根据相似关系建立半监督学习模型。

本实施例中，先获取第一节点集合中前p个节点，将p个节点标定为正样本，例如，对于n个节点的集合χ＝{x₁,…,x_p,x_p+1,…,x_n}，其前p个节点被标定为正样本，p可为预设值，也可通过谱聚类算法对节点结合进行计算得到。定义查询向量y，y是一个多维向量，对于已标定节点，y＝y_i＝1(i≤p)，对于未标定节点，y＝y_u＝0(p+1≤u≤n)，y_i或者y_u是多维向量y中的一个维度的值。定义预测标签向量f，其中f_i(1≤i≤n)表示节点x_i预测标签，f是多维向量。

进一步的，根据定义的y和f建立预测标签向量f的能量函数

E (f) = Σ_{i, j = 1}^{n} w_{i j} {(\frac{f_{i}}{\sqrt{d_{i i}}} - \frac{f_{j}}{\sqrt{d_{j j}}})}^{2} + μ Σ_{i = 1}^{n} {(f_{i} - y_{i})}^{2},

其中μ是平衡因子，可以是预设值，是平滑风险项，若x_i和x_j有较大的w_ij，则保持f_i和f_j更接近；是经验风险项，保持f与原始的标定y相比变化不大。

最后，根据该能量函数E(f)对f求微分可得E(f)的全局最小解f＝(1-α)(I-αS)^-1y，也就是得到的半监督学习模型，其中α＝1/(1+μ)，I是单位矩阵，S＝D^-1/2WD^-1/2，其中D是对角元素为的对角矩阵。

将检索得到的图像集合中排在前p位的图像作为正样本，设置其标签为1，将图像集合中其他图像的标签设置为0，将设置好标签的图像集合组成二进制向量y，通过半监督学习模型计算，可以求得重新排序分数f。对f种的每以维数值从大到小排序，可得节点序列，可以对图像集合进行重新排序，排在前列的节点和正样本中的节点排列顺序比较接近。

S170，根据半监督学习模型对图像集合进行去噪，得到去噪图像集合。

在一个实施例中，上述步骤S170具体包括以下步骤：

根据半监督学习模型获取单节点预测的标签，得到标签矩阵F^*＝(I-αS)^-1[y¹.…,yⁱ,…,yⁿ]＝(I-αS)^-1其中，是基于单节点标定的查询向量y^j而对x_i的预测标签；

根据标签矩阵进行谱聚类分析，得到多个类团；

根据所签矩阵及类团定义所述节点的主导分数为

根据不等式判断噪声类团，其中表示对类团c中的数据取平均，表示对k个类团取平均，β是预设值；

去除噪声类团所对应的噪声图像集合，得到去噪图像集合。

本实施例中，半监督模型中的节点通常会形成主要的类团，而噪声图像对应的节点会稀释类团的密度，可以将位于同一几何形状内的节点当作同一个类团，而噪声则是离散的异常值。具体可以通过学习一个映射g(·)将原始空间扭曲到新的空间使得所有的异常值能形成一个新的类团，且所有的类团相互分开，这样便于将噪声去除。

根据半监督学习模型获取单节点预测的标签，得到标签矩阵F^*＝(I-αS)^-1[y¹.…,yⁱ,…,yⁿ]＝(I-αS)^-1其中，是基于单节点标定的查询向量y^j而对x_i的预测标签，如果x_i和x_j属于同一类团，的值应较大，且和在各维度k＝1,…,n的值较相近，而异常节点在几乎所有维度的值应该较小。

定义映射g:χ→Rⁿ,然后基于χ^*＝g(χ)建立谱图，得到归一化边矩阵S^*和归一化图拉普拉斯L^*＝I-S^*，令为L^*的特征值和特征向量对，且λ_i≤…≤λ_n。L^*是块状对角矩阵，同一类团之间的元素拥有较大的绝对值。L^*较小的部分特征值对应的特征向量保持着同样的块状结构，令其组成U_k＝[v₁,v₂,…,v_k]，其中k是χ^*中类团的数量，可由L^*的从小到大排列的特征值中第k个与第k+1个出现最大间隔值所决定。然后用K均值法将聚成k类，其中包括由离散的噪声节点形成的类。如果对F^*每行求和，噪声对应的行其和较小。

根据标签矩阵及类团定义x_i的主导分数为同时用c∈{1,…,k}表示类团的标号。则可以根据不等式判断噪声类团，其中表示对类团c中的数据取平均，表示对k个类团取平均，β是阈值因子，可以是预设值，去除噪声类团所对应的噪声图像集合后，即得到去噪图像集合。

S190，返回去噪图像集合作为检索关键字所对应的检索结果。

本实施例中，将去噪后的图像集合返回给搜索引擎，作为检索关键字所对应的检索结果，即完成图像的检索。

上述图像检索方法，通过获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合，根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系，根据相似关系建立半监督学习模型，根据半监督学习模型对图像集合进行去噪，得到去噪图像集合，返回去噪图像集合作为检索关键字所对应的检索结果，通过在对检索到的图像集合进行全局去噪，提高了图像检索的精确度。

在一个实施例中，上述步骤S190具体包括以下步骤：

对去噪图像集合建立第二谱图模型，得到去噪图像集合所对应的第二节点集合χ'以及基于χ'的第二归一化边矩阵S'；

根据谱图模型建立最大化函数

y_{p}^{*} = \arg \max (\frac{y_{p}^{T} M^{p \times p} y_{p}}{{(Σ_{i = 1}^{n} {(y_{p})}_{i})}^{2}}) - γ \frac{1}{{(Σ_{i = 1}^{n} {(y_{p})}_{i})}^{2}}),

其中，M＝(I-αS')^-1，m_ii＝0，γ是预设值，M^p×p是M的前p行p列；

通过迭代方法解最大化函数得到正样本；

通过正样本训练半监督学习模型，以对去噪图像集合进行重新排序，得到重排序图像集合；

返回重排序图像集合作为检索关键字的检索结果。

本实施例中，如图2所述，在去噪图像集合的基础上，建立谱图模型，进行谱聚类分析，获取主导类，以得到正样本，用于训练半监督学习模型然后对去噪图像集合进行排序，得到最终检索结果。与关键字由于与在内容上与关键字相关的图像在排在前列图像中的比例通常高于在整个图像集中的比例，所以基于排在前列的图像集建立谱图，选择主导类。主导类，即谱聚类中节点多且密度高的类团。

具体的，令χ'为去噪图像集合，S'为基于χ'的归一化边矩阵。

建立矩阵M＝(I-αS')^-1及m_ii＝0。由于正样本在图像集合中排在前列的图像中更可能占有较大比例以形成主导类团，这里仅考虑M的前p维，p可以预设值。

定义p×1的查询向量y_p表示排在前p幅图像的标定信息。为了使y_p的标定信息准确，建立最大化函数

y_{p}^{*} = \arg \max (\frac{y_{p}^{T} M^{p \times p} y_{p}}{{(Σ_{i = 1}^{n} {(y_{p})}_{i})}^{2}}) - γ \frac{1}{{(Σ_{i = 1}^{n} {(y_{p})}_{i})}^{2}}),

其中γ是平衡因子，M^p×p是M的前p行p列，是密度项，衡量由y_p中标定数据形成的块状结构的密度，是尺度项，保证主导类团具有较大的尺寸，是要求的净化后的标定查询向量。

对于上述最大化函数，采用迭代方法来求解。首先，在所有维度初始化y_p＝1，对于每次迭代，将某一维的值从1变成0，使得增幅最大。当无法通过此方式增大时，迭代停止。剩余的1所对应的项表示对应的图像为正样本。在标定好正样本后，通过将半监督学习模型应用在标定有正样本的去噪图像集合上，即可去噪图像集合的图像进行重新排序处理。最后将重新排序的结果作为检索关键字的检索结果返回接，即得提高检索精确度的检索结果。

如图3所示，在一个实施例中，一种图像检索装置，包括获取模块110、建模模块130、学习模块150、去噪模块170和发送模块190。

获取模块110，用于获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合。

本实施例中，获取模块110获取用户在搜索引擎中输入的用于检索图像的字词作为关键字，根据该关键字从图像数据库中或者其他包含有图的数据库中筛选图像，可以是根据对图像的描述、图像名称、图像所在网页的内容等基于文本的检索技术。

建模模块130，用于根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系。

学习模块150，用于根据相似关系建立半监督学习模型。

进一步的，根据定义的y和f建立预测标签向量f的能量函数

E (f) = Σ_{i, j = 1}^{n} w_{i j} {(\frac{f_{i}}{\sqrt{d_{i i}}} - \frac{f_{j}}{\sqrt{d_{j j}}})}^{2} + μ Σ_{i = 1}^{n} {(f_{i} - y_{i})}^{2},

去噪模块170，用于根据半监督学习模型对图像集合进行去噪，得到去噪图像集合。

在一个实施例中，上述去噪模块170还用于根据半监督学***均，表示对k个类团取平均，β是预设值，去除所述噪声类团所对应的噪声图像集合，得到去噪图像集合。

发送模块190，用于返回去噪图像集合作为检索关键字所对应的检索结果。

上述图像排序装置，通过获取检索关键字，并根据检索关键字从数据库中筛选得到图像集合，根据图像特征建立图像集合的第一谱图模型，得到图像集合中的两两图像之间的相似关系，根据相似关系建立半监督学习模型，根据半监督学习模型对图像集合进行去噪，得到去噪图像集合，返回去噪图像集合作为检索关键字所对应的检索结果，通过在对检索到的图像集合进行全局去噪，提高了图像检索的精确度。

在一个实施例中，上述发送模块190还用于对去噪图像集合建立第二谱图模型，得到去噪图像集合所对应的第二节点集合χ'以及基于χ'的第二归一化边矩阵S'，根据谱图模型建立最大化函数其中，M＝(I-αS')^-1，m_ii＝0，γ是预设值，M^p×p是M的前p行p列，通过迭代方法解最大化函数得到正样本，通过正样本训练半监督学习模型，以对去噪图像集合进行重新排序，得到重排序图像集合，返回重排序图像集合作为检索关键字的检索结果。

本实施例中，在去噪图像集合的基础上，建立谱图模型，进行谱聚类分析，获取主导类，以得到正样本，用于训练半监督学习模型然后对去噪图像集合进行排序，得到最终检索结果。与关键字由于与在内容上与关键字相关的图像在排在前列图像中的比例通常高于在整个图像集中的比例，所以基于排在前列的图像集建立谱图，选择主导类。主导类，即谱聚类中节点多且密度高的类团。

y_{p}^{*} = \arg \max (\frac{y_{p}^{T} M^{p \times p} y_{p}}{{(Σ_{i = 1}^{n} {(y_{p})}_{i})}^{2}}) - γ \frac{1}{{(Σ_{i = 1}^{n} {(y_{p})}_{i})}^{2}}),

对于上述最大化函数，采用迭代方法来求解，首先，在所有维度初始化y_p＝1，对于每次迭代，将某一维的值从1变成0，使得增幅最大。当无法通过此方式增大时，迭代停止。剩余的1所对应的项表示对应的图像为正样本。在标定好正样本后，通过将半监督学习模型应用在标定有正样本的去噪图像集合上，即可去噪图像集合的图像进行重新排序处理。最后将重新排序的结果作为检索关键字的检索结果返回接，即得提高检索精确度的检索结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像检索方法，包括如下步骤：

S110、获取检索关键字，并根据所述检索关键字从数据库中筛选得到图像集合；

S130、根据图像特征建立所述图像集合的第一谱图模型，得到所述图像集合中的两两图像之间的相似关系，其中该步骤包括以下过程：

获取图像特征值，建立图像的特征向量，

根据所述特征向量将所述图像集合通过第一节点集合表示，

根据所述第一节点集合建立关系矩阵，通过关系矩阵表示各图像之间的相似度关系，

对所述关系矩阵做归一化处理，将图像之间的相似度关系通过0与1之间的数据表示，得到第一归一化边矩阵；

S150、根据所述相似关系建立半监督学习模型，其中该步骤包括：

获取第一节点集合中前p个节点，将p个节点标定为正样本，定义查询向量y，其中对于已标定节点，y＝y_i＝1(1≤i≤p)，对于未标定节点，y＝y_u＝0(p+1≤u≤n)，定义预测标签向量f，其中f_i(1≤i≤n)表示节点x_i预测标签，f是多维向量；

根据定义的y和f建立预测标签向量f的能量函数，根据该能量函数对f求微分可得的能量函数的全局最小解，获得所述半监督学习模型；

S170、根据所述半监督学习模型对所述图像集合进行去噪，得到去噪图像集合，其中该步骤包括：

根据半监督学习模型获取单节点预测的标签，得到标签矩阵，

根据标签矩阵进行谱聚类分析，得到多个类团，

根据标签矩阵及类团定义所述节点的主导分数是基于单节点标定的查询向量y^j而对节点x_i的预测标签；

去除噪声类团所对应的噪声图像集合，得到去噪图像集合；

S190、返回所述去噪图像集合作为所述检索关键字所对应的检索结果，其中该步骤包括：

对所述去噪图像集合建立第二谱图模型，得到所述去噪图像集合所对应的第二节点集合以及基于第二节点集合的第二归一化边矩阵；

根据所述第二谱图模型建立最大化函数；

通过迭代方法解所述最大化函数得到正样本；

通过所述正样本训练所述半监督学习模型，以对所述去噪图像集合进行重新排序，得到重排序图像集合；

返回所述重排序图像集合作为所述检索关键字的检索结果。

2.根据权利要求1所述的图像检索方法，其特征在于，所述根据图像特征建立所述图像集合的第一谱图模型，得到所述图像集合中的两两图像之间的相似关系的步骤中，

根据所述特征向量将所述图像集合通过第一节点集合χ＝{x₁,…,x_n}表示，其中x_n是一个多维向量，x_n的一个维度表示一个特征值；

根据所述第一节点集合建立的关系矩阵W表示为，当i≠j时，w_ij＝exp(-||x_i-x_j||²/σ²)；当i＝j时，w_ij＝0；

对所述关系矩阵W做归一化处理得的第一归一化边矩阵表示为S＝D^-1/2WD^-1/2，其中D是对角元素为的对角矩阵。

3.根据权利要求2所述的图像检索方法，其特征在于，所述根据所述相似关系建立半监督学习模型的步骤中，

建立所述预测标签向量f的能量函数表示为：

其中μ是平衡因子；

根据所述能量函数对f求微分可得半监督学习模型表示为：

f＝(1-α)(I-αS)^-1y，其中α＝1/(1+μ)，I是单位矩阵。

4.根据权利要求3所述的图像检索方法，其特征在于，所述根据所述半监督学习模型对所述图像集合进行去噪，得到去噪图像集合的步骤中，

根据所述半监督学习模型获取单节点预测的标签，得到的标签矩阵表示为：

F^*＝(I-αS)^-1[y¹.…,yⁱ,…,yⁿ]＝(I-αS)^-1其中，是基于单节点标定的查询向量y^j而对x_i的预测标签。

5.根据权利要求4所述的图像检索方法，其特征在于，所述返回所述去噪图像集合作为所述检索关键字所对应的检索结果的步骤中，

根据所述第二谱图模型建立的最大化函数表示为：

其中，M＝(I-αS')^-1，m_ii＝0，γ是预设值，M^p×p是M的前p行p列，S'表示为基于所述去噪图像集合所对应的第二节点集合χ'的第二归一化边矩阵。

6.一种图像检索装置，包括：

获取模块，用于获取检索关键字，并根据所述检索关键字从数据库中筛选得到图像集合；

建模模块，用于根据图像特征建立所述图像集合的第一谱图模型，得到所述图像集合中的两两图像之间的相似关系，其中包括：

获取图像特征值，建立图像的特征向量，

根据所述特征向量将所述图像集合通过第一节点集合表示，

学习模块，用于根据所述相似关系建立半监督学习模型，其中包括：

去噪模块，用于根据所述半监督学习模型对所述图像集合进行去噪，得到去噪图像集合，其中包括：

根据标签矩阵进行谱聚类分析，得到多个类团，

去除噪声类团所对应的噪声图像集合，得到去噪图像集合；

发送模块，用于返回所述去噪图像集合作为所述检索关键字所对应的检索结果，其中包括：

根据所述第二谱图模型建立最大化函数；

通过迭代方法解所述最大化函数得到正样本；

返回所述重排序图像集合作为所述检索关键字的检索结果。

7.根据权利要求6所述的图像检索装置，其特征在于，所述建模模块还用于根据所述特征向量将所述图像集合通过第一节点集合χ＝{x₁,…,x_n}表示，其中x_n是一个多维向量，x_n的一个维度表示一个特征值，根据所述第一节点集合建立的关系矩阵W表示为，当i≠j时，w_ij＝exp(-||x_i-x_j||²/σ²)；当i＝j时，w_ij＝0，对所述关系矩阵W做归一化处理得的第一归一化边矩阵表示为：S＝D^-1/2WD^-1/2，其中D是对角元素为的对角矩阵。

8.根据权利要求7所述的图像检索装置，其特征在于，所述根据所述学习模块还用于建立所述预测标签向量f的能量函数表示为：

其中μ是平衡因子；

根据所述能量函数对f求微分可得半监督学习模型表示为：

f＝(1-α)(I-αS)^-1y，其中α＝1/(1+μ)，I是单位矩阵。

9.根据权利要求8所述的图像检索装置，其特征在于，所述根据所述去噪模块还用于根据所述半监督学习模型获取单节点预测的标签，得到的标签矩阵表示为：

F^*＝(I-αS)^-1[y¹.…,yⁱ,…,yⁿ]＝(I-αS)^-1，其中，是基于单节点标定的查询向量y^j而对x_i的预测标签。

10.根据权利要求9所述的图像检索装置，其特征在于，所述发送模块还用于根据所述第二谱图模型建立的最大化函数表示为：

其中，M＝(I-αS')^-1，m_ii＝0，γ是预设值，M^p×p是M的前p行p列，通过迭代方法解所述最大化函数得到正样本，通过所述正样本训练所述半监督学习模型，以对所述去噪图像集合进行重新排序，得到重排序图像集合，返回所述重排序图像集合作为所述检索关键字的检索结果，S'表示为基于所述去噪图像集合所对应的第二节点集合χ'的第二归一化边矩阵。