CN102385592A

CN102385592A - 图像概念的检测方法和装置

Info

Publication number: CN102385592A
Application number: CN201010271693XA
Authority: CN
Inventors: 冯明; 梁笃国; 张艳霞; 曹宁; 邓涛
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2010-09-03
Filing date: 2010-09-03
Publication date: 2012-03-21
Anticipated expiration: 2030-09-03
Also published as: CN102385592B

Abstract

本发明公开了一种图像概念的检测方法和装置。其中，该方法包括获取待测数据和多个概念的训练数据的局部特征；根据不同的量化策略聚集出不同长度的单词表，并分别统计待测数据和多个概念的训练数据的局部特征的直方图；训练二元支持向量机分类器，并计算出每个概念的训练数据的局部特征的检测平均准确率以及训练出每个概念的分类模型；通过交叉验证选取每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器；将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到每个概念最终的概念检测分类器中以确定每个概念在待测数据中出现的概率。

Description

图像概念的检测方法和装置

技术领域

本发明涉及多媒体信息检测技术领域，更具体地，涉及一种图像概念的检测方法和装置。

背景技术

近年来随着网络上的视频、图像资源的飞速增加，产生了海量的数字图像资源，如何帮助用户从如此丰富的网络资源中快速地搜索到有效的资源便成为了近期众多研究单位研究的热点问题。对于图像信息的有效检索方法则是解决这个问题的关键技术之一。从20世纪90年代初开始，基于内容的图像检索(Content-based Image Retrieval，CBIR)技术逐渐被人们所重视。基于内容的图像检索技术利用图像的颜色、形状、纹理和区域等低层特征信息对图像进行描述作为图像的索引，计算查询图像和目标图像的相似距离，按相似度匹配进行检索，返回图像库中内容描述最满足要求的一组图像。

然而，由于图像视觉低层特征的相似性并不完全等同于人们主观判断图像的相似性，所以，用户在进行图像检索时通常会提出概念性的检索要求，并从主观上判断返回图像是否满足自己的需要。因此，为了实现更贴近用户理解能力的自然查询方式，研究基于语义的图像检索技术已成为当今图像检索领域的发展方向。概念检测技术便是基于语义的图像检索技术的关键环节，概念检测技术的发展可以在很大程度上提高基于语义的图像检索效果。

概念检测技术作为一种典型的模式识别技术，特征提取是概念检测技术中极为重要的环节。因为高层语义信息无法直接从图像的视觉特征中得到，所以特征提取环节提取出的有效特征会直接影响分类器，乃至整个模式识别过程的性能。最希望提取的是那些具有明显区分意义、容易提取且对噪声不敏感的特征集。

近年来，国内外有很多研究单位对特征提取技术做了大量的研究，可以大致将图像特征分为全局特征和局部特征。全局特征是从原始的像素值中提取的许多关于颜色、纹理、形状和区域的特征，全局特征可以表示出图像的大部分的基本特征，不过全局特征也有很大的局限性，例如，颜色特征在很大程度上受到图像亮度和色度的影响，同样的内容不同色度、亮度的图像在颜色特征上区别很大；纹理、形状等特征对于平移、旋转和尺度有变化的图像识别效果很差。这些问题都体现了全局特征的局限性。

为了解决这些问题，David G.Lowe在2004年总结了现有的基于不变量技术的特征检测方法，并正式提出了一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征尺度不变特征变换算子(Scale-Invariant Feature Transform，SIFT)。近些年来，有很多研究机构在如何利用SIFT算子进行概念检测方面做了大量的研究，由LiFei-fei提出的词袋模型(Bag of words)对于SIFT特征的处理，在概念识别技术上体现了很好的效果，得到了十分广泛的应用。

但是，上述方法在词袋模型的单词表的选择上过于单一，所有概念均采用相同长度的单词表，导致对概念的检测效率较低，并且对计算机的计算能力有很高的要求。

发明内容

本发明要解决的一个技术问题是提供一种图像概念的检测方法，能够在保证图像概念检测效果的情况下提高检测效率。

本发明提供了一种图像概念的检测方法，包括利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图，其中，直方图为局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为多个概念在第i个量化策略下的单词表，单词表B_i包含与多个概念相对应的多个子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；将每个概念的训练数据的局部特征分为训练集和校验集，利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用校验集在二元支持向量机分类器上计算出与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；对计算出的与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器；将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。

根据本发明方法的一个实施例，在根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表的步骤之前，该方法还包括为多个概念添加一个背景类。

根据本发明方法的另一实施例，20≤K≤200。

根据本发明方法的又一实施例，该方法还包括根据取样策略选取包含标注信息的每个概念的训练数据。

根据本发明方法的再一实施例，取样策略为其中，N_i为采样前的第i个概念的正样本数量，n_i为采样后的第i个概念的训练数据的数量，a_i为介于0和1之间的取样策略参数。

本发明的图像概念检测方法经交叉验证自适应地选择对于每个概念最佳的子单词表，对于局部特征较少的概念采用较短的单词表，既获得了较好的检测效果又提高了检测效率，对于局部特征丰富的概念选择足够长的单词表以保证检测的效果。本发明针对不同的概念分别选择不同长度的单词表，在保证检测效果的同时提高了检测的效率。

本发明要解决的另一技术问题是提供一种图像概念的检测装置，能够在保证图像概念检测效果的情况下提高检测效率。

本发明提供了一种图像概念的检测装置，包括局部特征提取模块，用于利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；聚类模块，与局部特征提取模块相连，用于根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图，其中，直方图为局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为多个概念在第i个量化策略下的单词表，单词表B_i包含与多个概念相对应的多个子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；分类模型训练模块，分别与局部特征提取模块和聚类模块相连，用于将每个概念的训练数据的局部特征分为训练集和校验集，利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用校验集在二元支持向量机分类器上计算出与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；交叉验证模块，与聚类模块和分类模型训练模块相连，用于对计算出的与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器；概念检测模块，与聚类模块和交叉验证模块相连，用于将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。

根据本发明装置的一个实施例，该装置还包括类添加模块，与聚类模块相连，用于为多个概念添加一个背景类。

根据本发明装置的另一实施例，20≤K≤200。

根据本发明装置的又一实施例，该装置还包括取样模块，与局部特征提取模块相连，用于根据取样策略选取包含标注信息的每个概念的训练数据。

根据本发明装置的再一实施例，取样策略为其中，N_i为采样前的第i个概念的正样本数量，n_i为采样后的第i个概念的训练数据的数量，a_i为介于0和1之间的取样策略参数。

本发明的图像概念检测装置经交叉验证自适应地选择对于每个概念最佳的子单词表，对于局部特征较少的概念采用较短的单词表，既获得了较好的检测效果又提高了检测效率，对于局部特征丰富的概念选择足够长的单词表以保证检测的效果。本发明针对不同的概念分别选择不同长度的单词表，在保证检测效果的同时提高了检测的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分。在附图中：

图1是本发明方法的第一实施例的流程示意图。

图2是本发明方法的第二实施例的流程示意图。

图3是本发明方法的第三实施例的流程示意图。

图4是本发明装置的第一实施例的结构示意图。

图5是本发明装置的第二实施例的结构示意图。

图6是本发明装置的第三实施例的结构示意图。

图7是本发明装置的第四实施例的结构示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明，但并不构成对本发明的不当限定。

本发明的目的是提出一种基于最佳子单词表的词袋模型的概念检测方法和装置，其能够克服现有技术中概念检测效率较低的缺陷。本发明针对每个概念，经交叉验证选择合适长度的单词表(即，最佳子单词表)，利用每个概念的最佳子单词表通过二元支持向量机学习出分类模型，将多个概念的分类模型合并为最佳概念检测分类器，并利用最佳概念检测分类器对待检测图像进行概念的检测。本发明在性能上优于传统的词袋模型，并取得了较好的实验效果。

图1是本发明方法的第一实施例的流程示意图。

如图1所示，该实施例可以包括以下步骤：

S102，利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；

例如，对于每幅图像(即，待测数据和训练数据)，首先在高斯差分尺度空间的三个相邻尺度之间找到局部极值点，该点是本尺度空间和相邻尺度空间中临近的26个点中的极值点，再通过拟合三维二次函数以精确确定局部极值点的位置和尺度，接下来利用确定的局部极值点相邻像素的梯度方向分布特性为每个局部极值点制定方向参数，使算子具备旋转不变性，可以将表示图像中特定信息的局部极值点被称为兴趣点，最后以每个兴趣点为中心8×8的窗口提取128维的特征向量，其中，每幅图像中的这些兴趣点为含有方向性信息的局部极值点的一个子集；

S104，根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图，其中，直方图为局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为多个概念在第i个量化策略下的单词表，单词表B_i包含多个与概念相对应的子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；

举例说明，每个概念的所有训练图像(即，每个概念的训练数据)经SIFT算法处理得到的局部特征(即，基于兴趣点的特征向量)都利用K均值聚类的方法，根据量化策略的不同(即，在聚类时取不同的K值)，聚集出不等数量的类，可以将每个类看作单词表里的一个单词，不等数量的类，即，每个单词表的长度不同，然后将所有概念的不同长度的单词表合并到一起，构成词袋模型，即，构建了多个不同长度的单词表，记为{B₁，B₂，...，B_i，...，B_N}，此处量化策略的不同是指K的取值不同，K为整数，通常，K＞1，优选地，20≤K≤200，例如，当K等于20时，可以利用K均值聚类法计算出子单词表长度为20的M个概念的单词表B₁，当K等于30时，可以利用K均值聚类法计算出子单词表长度为30的M个概念的单词表B2，依此类推，当K等于200时，可以利用K均值聚类法计算出子单词表长度为200的M个概念的单词表BN，将M个概念的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}；然后根据词袋模型{B₁，B₂，...，B_i，...，B_N}统计图像集中(包括待测图像和训练图像)所有的图像所提取出来的SIFT局部特征，得到每幅图像关于每个单词表中的每个子单词表的直方图(即，每幅图像的局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}中的每个单词表B_i中的各个“子单词表”中出现的次数)，换句话说，这个直方图代表被统计图像中代表着各个概念的这些特征点在每个子单词表中出现的频率，这个直方图可以作为每张图像的特征向量输入到概念检测分类器里进行分类；

S106，将每个概念的训练数据的局部特征分为训练集和校验集，利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用校验集在二元支持向量机分类器上计算出与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；

例如，可以选择二元支持向量机为基本分类器，通过机器学***面上最佳化训练集中样本间边界的算法(即，支持向量机将向量映射到一个更高维的空间里，在这个空间里建立一个最大间隔超平面，在分开数据的超平面的两边建有两个互相平行的超平面，从而实现数据分类的一种学习算法)；

具体地，可以将训练图像库(即，训练数据)经SIFT算法处理后的兴趣点集合分为训练集和校验集两部分，选取单词表B₁(假设，单词表B₁包括M个子单词表B₁₁，B₁₂，..，B_1M)，根据包含概念C₁的标注信息的所有图像和该图像的SIFT局部特征在单词表B₁的各子单词表中统计出的直方图信息在训练集上训练二元支持向量机分类器，调整二元支持向量机分类器的参数，并在校验集上进行测试，调整核函数的相关参数(一般采用径向基函数(Radial Basis Function，RBF)核，其中，参数C和δ是利用校验集数据通过交叉验证得到最好的参数选择)，以确定单词表B₁中与概念C₁相对应的子单词表为最佳状态的二元支持向量机分类器的参数，即，二元支持向量机分类器在校验集上的测试性能最佳，亦在校验集上计算出的概念检测平均准确率最高，训练得到与单词表B₁中的子单词表B₁₁相对应的概念C₁的分类模型，采用同样的方法，可以分别训练得到与单词表B₁的子单词表B₁₂，..，B_1M相对应的其他概念(C₂，..，C_M)的分类模型，改变单词表，重复上述步骤，以新单词表B_i下统计的直方图作为特征向量进行训练，得到与单词表B_i的子单词表B_i1，B_i2，..，B_iM相对应的概念(C₁，C₂，..，C_M)的分类模型以及与单词表B_i中的子单词表B_i1，B_i2，..，B_iM相对应的每个概念的训练数据的局部特征的检测平均准确率；

S108，对计算出的与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器，可选地，还可以将多个概念各自的最佳子单词表合并为最佳词袋模型；

例如，通过S106的步骤可以获得一张不同概念在不同子单词表下的性能表(例如，检测平均准确率表)，通过交叉验证(即，互相比较与同一概念不同子单词表相对应的多个检测平均准确率)在这张表中选取性能最好的子单词表作为每个概念的最佳子单词表，并将利用每个概念的最佳子单词表通过二元支持向量机学习出的分类模型作为每个概念最终的概念检测分类器，将M个概念最终的概念检测分类器合并为最佳概念检测分类器，用于检测待测图像所包含的概念；

S110，将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率；

例如，将待检测图像集的SIFT局部特征在S108中选定的最佳子单词表上的统计直方图输入到最佳概念检测分类器中，最佳概念检测分类器输出关于M个概念(即，{C₁，C₂，...，C_M})的所有待检测图像的检测结果，最佳概念检测分类器检测出的判决结果可以显示为概率判决，即，输出一个0～1之间的小数，表示“存在”该概念的置信度。

该实施例结合图像处理技术和模式识别技术实现对图像的语义概念检测，其可以为不同的概念选择最合适的单词表长度，形成自适应单词表长度的最佳词袋模型。同时，该实施例对每个概念分别进行聚类，再通过合并得到单词表，使计算机可以进行并行计算以提高检测效率。另外，该实施例在进行基于语义的图像检索时，其性能好于采用原始词汇表的词袋模型，能够显著提高图像的检索性能。

图2是本发明方法的第二实施例的流程示意图。

如图2所示，该实施例可以包括以下步骤：

S202，利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；

S204，为多个概念添加一个背景类，即，为所有需要检测的概念(例如，M个概念)外加一个背景类，背景类的加入可以为词袋模型提供很多背景信息，一方面可以将被检测数据的背景信息提出，以更精确地检测出待检测数据中的概念，另一方面还可以将不包含任何概念的纯背景信息归到背景类中，以防止将纯背景信息错误地归到某个概念所对应的类中，从而可以显著地提高待检测概念的检测平均准确率；

S206，根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念(此处的概念不仅包含待检测的概念还包含所添加的背景类)的不同长度的单词表，将多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图，其中，直方图为局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为多个概念在第i个量化策略下的单词表，单词表B_i包含与多个概念相对应的多个子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；

S208，将每个概念的训练数据的局部特征分为训练集和校验集，利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用校验集在二元支持向量机分类器上计算出与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；

S210，对计算出的与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器；

S212，将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。

图3是本发明方法的第三实施例的流程示意图。

如图3所示，该实施例可以包括以下步骤：

S302，根据取样策略选取包含标注信息的每个概念的训练数据，其中，取样策略可以为

其中，N_i为采样前的第i个概念的正样本数量，n_i为采样后的第i个概念的训练数据(即，正样本)的数量，a_i为介于0和1之间的取样策略参数；

举例说明，利用取样策略对于已经经过人工标注(即，标注每张图片或视频中的图像是否包含某个/某些概念)的M个概念中的每个概念的训练数据进行选取，将选取出的M个概念(可以表示为{C₁，C₂，...，C_M})的训练数据表示为{T₁，T₂，...，T_M)，其中，选取T₁、T₂、...、T_M等训练数据的取样策略为

如果某个概念的正样本(即，该样本中包含某个概念)数量小于等于100，由于其正样本数量较少，为了使训练数据包含足够多的信息，对所有的正样本数据进行训练；如果某个概念的正样本数量多于100个，则选定一个取样策略参数a_i(通常，该取样策略参数a_i可以介于0和1之间)，从多于100个的正样本中采样出n_i＝a_i×(N_i-100)个正样本进行训练，举例说明，如果“夜晚”这个概念有252个正样本，采用a_i＝0.5的取样策略参数，则对于夜晚这个概念来说有76个正样本参与了训练；

S304，利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；

S306，根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图，其中，直方图为局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为多个概念在第i个量化策略下的单词表，单词表B_i包含与多个概念相对应的多个子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；

S308，将每个概念的训练数据的局部特征分为训练集和校验集，利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用校验集在二元支持向量机分类器上计算出与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；

S310，对计算出的与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器；

S312，将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。

该实施例中的正样本取样策略，在保证正样本蕴含信息的同时，简化了训练数据，提高了概念的检测效率。

在上述实施例中，优选地，20≤K≤200，当K的取值小于20的时候，所构建的单词表一般不能充分地表示出该概念的特征信息，从而会使得检测效果大幅下降；而当K的取值大于200的时候，所构建的单词表信息相对冗余，大大增加了计算机的运算负担，而且在效果上没有显著的提升。

本发明方法的第四实施例可以包括以下步骤：

步骤一，对于已经经过语义人工标注之后的训练数据，应用取样策略进行选取，用N_i表示采样前的第i个概念所拥有的正样本总量，用n_i表示所抽取的应用于训练的正样本的数量，取样策略参数a_i通常介于0和1之间，取样策略为

步骤二，所有待测图像和训练图像利用SIFT算法获取其局部特征，例如，SIFT算法可以采用二维高斯线性变换核

(其中，σ代表了高斯正态分布的方差)来建立尺度空间，对于一幅灰度的二维图像，在不同的尺度下的尺度空间表示可由图像与高斯核卷积得到：L(x，y，σ)＝G(x，y，σ)*I(x，y)，其中(x，y)代表图像的像素位置，I(x，y)代表该像素图像的灰度值，σ称为尺度空间因子，L代表了图像的尺度空间；

在尺度空间建立完毕后，为了能够找到稳定的极值点，可以采用高斯差分的方法来检测那些在局部位置的极值点，即，采用两个相邻的尺度中的图像相减：D(x，y，σ)＝L(x，y，kσ)-L(x，y，σ)，(对于每幅图像，可以在高斯差分尺度空间的三个相邻尺度之间找到局部极值点)，之后通过拟和三维二次函数以精确确定局部极值点的位置和尺度，接下来利用确定的局部极值点相邻像素的梯度方向分布特性为每个局部极值点制定方向参数，使算子具备旋转不变性；

最后以每个兴趣点为中心8×8的窗口，再在每个4×4的小块上计算8个方向的梯度直方图，计算在每个方向上的累加值，得到每个兴趣点的128维特征向量；

步骤三，基于大量实验，在所有需要检测的概念外加一个背景类以有效提高概念检测的效果，用M来表示总共需要检测概念的个数，外加一个背景类，共有M+1个概念，每个概念都利用K均值聚类的方法，选用不同的量化策略(即，分别选取不同的K值，通常，K＞1，优选地，20≤K≤200)，聚集出{c₁，c₂，...，c_N}个不同数量的类(即，K的取值分别为c₁、c₂、...、c_N)，可以将每个类看作单词表里的一个单词，然后将这M个概念的多个不同长度的单词表合并到一起构成词袋模型，即，构建了长度为{(M+1)c₁，(M+1}c₂，...，(M+1)c_N}的单词表，记为(B₁，B₂，...，B_i，...，B_N}，然后根据词袋模型{B₁，B₂，...，B_i，...，B_N}统计图像集中所有的图像各自所提取出来的SIFT局部特征，得到每幅图像关于每个单词表B_i中的每个子单词表的直方图，这个直方图可以作为每张图像的特征向量输入到概念检测分类器里进行分类；

步骤四，可以选择二元支持向量机为基本分类器，通过机器学***面上最佳化训练集中样本间边界的算法，具体地，可以将训练图像库经SIFT算法处理后的兴趣点集合分为训练集和校验集两部分，每一部分中的图像都包含对于概念C_i的标注信息和该图像的SIFT局部特征在单词表B_i的各子单词表中统计出的直方图信息，基于上述信息在训练集上训练二元支持向量机分类器，调整二元支持向量机分类器的参数，并在校验集上进行测试，以确定单词表B_i中与概念C_i相对应的子单词表为最佳状态的二元支持向量机分类器的参数，即，分类器在校验集上的测试性能最佳，亦概念检测平均准确率最高，得到与单词表B_i中子单词表相对应的概念C_i的分类模型，以及与单词表B_i中子单词表相对应的概念C_i的训练数据的局部特征的检测平均准确率，同理，得到与单词表B_i中其他子单词表相对应的各概念的分类模型，以及与单词表B_i中其他子单词表相对应的各概念的训练数据的局部特征的检测平均准确率；

步骤五，利用不同的单词表，重复步骤四，以新单词表下统计的直方图作为特征向量进行训练，得到新校验集上的各概念的检测平均准确率和与新单词表中每个子单词表相对应的所有概念的分类模型，同样的步骤，得到所有不同长度的单词表对于不同概念的检测效果表P_mn(m代表单词表的总数，n代表概念的总数)，其中，表P_mn中的元素为p_ij(i表示为不同长度单词表的序号，j表示为概念的序号)，其表示的意思是第j种概念，在长度为(M+1)c_i的单词表B_i下的概念检测平均准确率，之后可以将P_ij转化成行向量(α₀，α₁，...，α_n)^T，取每个行向量的最大范数||α_i||_∞，即，挑选出对于概念c_j有最高检测平均准确率的最佳子单词表，以及将利用该最佳子单词表通过二元支持向量机学习出的分类模型作为概念c_j最终的概念检测分类器，将M个概念最终的概念检测分类器合并为最佳概念检测分类器；

步骤六，将待检测图像集的SIFT局部特征在步骤五中选定的最佳子单词表上的统计直方图输入最佳概念检测分类器，最佳概念检测分类器输出关于M个概念(即，{C₁，C₂，...，C_M})的所有待检测图像的检测结果，最佳概念检测分类器检测出的判决结果可以显示为概率判决，即输出一个0～1之间的小数，表示“存在”该概念的置信度，如果置信度超过0.5，则判定为待测图像存在该概念。

在上述实施例中，采用的图像数据库是TRECVID2008的视频数据的关键帧。TRECVID是美国国家标准局(NIST)举办的视频检索领域的权威比赛。例如，选取“飞行中的飞机”、“公交车”、“夜晚”等三个语义概念进行检测。将整个图像数据库分为两部分：训练图像集和待检测图像集，其中，整个图像数据库中的每张图像都经过人工标注，选取“飞行中的飞机”正样本42张，负样本(即，该样本中不含“飞行中的飞机”这个概念)200张；选取“公交车”正样本46张，负样本200张；选取“夜晚”正样本242张，负样本500张，所有概念一共有10680张图像。实验采用检测平均准确率(Average Precision)来评估采用最佳子单词表的词袋模型进行概念检测的总体性能。检测平均准确率是一种能准确反映检索性能的评价指标，它被广泛用于信息检索领域。

采用了基于高斯差分尺度空间寻找兴趣点的SIFT描述子，对于以下这三个概念的所有训练数据和测试数据提取局部特征。之后通过支持向量机的分类结果，选择了对于这三个概念适合的单词表长度：对于“飞行中的飞机”这个概念采用50个单词长度的单词表；对于“公共汽车”这个概念采用100个单词长度的单词表；对于“夜晚”这个概念采用20个单词长度的单词表。

下述表1显示了在待检测图像集上，本发明方法与TRECVID2008年平均准确率最高的哥伦比亚大学在这三个试验概念上的比较，以及与只采用全局特征得到的概念检测结果的对比。

表1

从表1可以看出，采用局部特征与采用全局特征相比，例如，颜色和纹理特征等在概念检测上有较大的提高。同时采用适当长度的单词表，适当的正样本的取样策略可以有效地提高采用局部特征进行概念检测的效果。

上述实施例对传统的词袋模型进行了改进，传统的词袋模型是选定一个固定长度的单词表用于图像的概念检测，然而不同的语义信息，即，不同的概念，最佳的单词表长度可以是不一样的。所谓单词表中的单词就是通过K均值聚类算法得到的相似局部特征的集合。对于有些概念(又可以理解为语义概念)，简单的几十个单词就可以完全表达这个概念中的特点，如果选取长度过长的单词表，不仅增加了计算机的负担，降低了检测效率，而且还夹杂了很多对于该概念的干扰信息，反而降低了检测效果。例如，对于“夜晚”这种场景类概念，含有的局部特征较少，采用较短的单词表***部特征信息既提高了检测效率又增强了检测效果；对于“公共汽车”这种物体类概念，由于含有丰富的局部特征信息，采用短的单词表无法完全涵盖概念中的全部信息，因此可以利用较长的单词表，即，局部特征信息丰富的单词表以有效地对这类概念进行检测。

与现有技术相比，本发明经交叉验证自适应地选择每个概念的最佳单词表长度，对于局部特征少的概念，采用较短的单词表，既获得了较好的检测效果又提高了检测效率；对于局部特征丰富的概念，依然选用足够长的单词表长度，以保证检测的效果。

图4是本发明装置的第一实施例的结构示意图。

如图4所示，该实施例的装置包括：

局部特征提取模块11，用于利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；

例如，对于每幅图像(即，待测数据和训练数据)，局部特征提取模块11首先在高斯差分尺度空间的三个相邻尺度之间找到局部极值点，该点是本尺度空间和相邻尺度空间中临近的26个点中的极值点，再通过拟合三维二次函数以精确确定局部极值点的位置和尺度，接下来利用确定的局部极值点相邻像素的梯度方向分布特性为每个局部极值点制定方向参数，使算子具备旋转不变性，可以将表示图像中特定信息的局部极值点被称为兴趣点，最后以每个兴趣点为中心8×8的窗口提取128维的特征向量，其中，每幅图像中的这些兴趣点为含有方向性信息的局部极值点的一个子集；

聚类模块12，与局部特征提取模块11相连，用于根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图，其中，直方图为局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N)的各单词表B_i的每个子单词表中出现的次数，单词表B_i为多个概念在第i个量化策略下的单词表，单词表B_i包含多个与概念相对应的子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；

举例说明，每个概念的所有训练图像(即，每个概念的训练数据)经SIFT算法处理得到的局部特征(即，基于兴趣点的特征向量)都利用K均值聚类的方法，根据量化策略的不同(即，在聚类时取不同的K值)，聚集出不等数量的类，可以将每个类看作单词表里的一个单词，不等数量的类，即，每个单词表的长度不同，然后将所有概念的不同长度的单词表合并到一起，构成词袋模型，即构建了多个不同长度的单词表，记为{B₁，B₂，...，B_i，...，B_N}，此处量化策略的不同是指K的取值不同，K为整数，通常，K＞1，优选地，20≤K≤200，例如，当K等于20时，可以利用K均值聚类法计算出子单词表长度为20的M个概念的单词表B₁，当K等于30时，可以利用K均值聚类法计算出子单词表长度为30的M个概念的单词表B₂，依此类推，当K等于200时，可以利用K均值聚类法计算出子单词表长度为200的M个概念的单词表B_N，将M个概念的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}；然后根据词袋模型{B₁，B₂，...，B_i，...，B_N}统计图像集中(包括待测图像和训练图像)所有的图像所提取出来的SIFT局部特征，得到每幅图像关于每个单词表中的每个子单词表的直方图(即，每幅图像的局部特征在词袋模型{B₁，B₂，...，B_i，...，B_N}中的每个单词表B_i中的各个“子单词表”中出现的次数)，换句话说，这个直方图代表被统计图像中代表着各个概念的这些特征点在每个子单词表中出现的频率，这个直方图可以作为每张图像的特征向量输入到概念检测分类器里进行分类；

分类模型训练模块13，分别与局部特征提取模块11和聚类模块12相连，用于将每个概念的训练数据的局部特征分为训练集和校验集，利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用校验集在二元支持向量机分类器上计算出与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；

交叉验证模块14，与聚类模块12和分类模型训练模块13相连，用于对计算出的与词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器，可选地，还可以将多个概念各自的最佳子单词表合并为最佳词袋模型；

例如，通过上述分类模型训练模块13可以获得一张不同概念在不同子单词表下的性能表(例如，检测平均准确率表)，通过交叉验证(即，互相比较与同一概念不同子单词表相对应的多个检测平均准确率)在这张表中选取性能最好的子单词表作为每个概念的最佳子单词表，并将利用每个概念的最佳子单词表通过二元支持向量机学习出的分类模型作为每个概念最终的概念检测分类器，将M个概念最终的概念检测分类器合并为最佳概念检测分类器，用于检测待测图像所包含的概念；

概念检测模块15，与聚类模块12和交叉验证模块14相连，用于将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率；

图5是本发明装置的第二实施例的结构示意图。

如图5所示，与图4中的实施例相比，该实施例的装置还可以包括：

类添加模块21，与聚类模块12相连，用于为多个概念添加一个背景类，即，为所有需要检测的概念(例如，M个概念)外加一个背景类，背景类的加入可以为词袋模型提供很多背景信息，一方面可以将被检测数据的背景信息提出，以更精确地检测出待检测数据中的概念，另一方面还可以将不包含任何概念的纯背景信息归到背景类中，以防止将纯背景信息错误地归到某个概念所对应的类中，从而可以显著地提高待检测概念的检测平均准确率。

图6是本发明装置的第三实施例的结构示意图。

如图6所示，与图4中的实施例相比，该实施例的装置还可以包括：

取样模块31，与局部特征提取模块11相连，用于根据取样策略选取包含标注信息的每个概念的训练数据。其中，取样策略为

其中，N_i为采样前的第i个概念的正样本数量，n_i为采样后的第i个概念的训练数据的数量，a_i为介于0和1之间的取样策略参数；

举例说明，利用取样策略对于已经经过人工标注(即，标注每张图片或视频中的图像是否包含某个/某些概念)的M个概念中的每个概念的训练数据进行选取，将选取出的M个概念(可以表示为{C₁，C₂，...，C_M})的训练数据表示为{T₁，T₂，...，T_M}，其中，选取T₁、T₂、...、T_M等训练数据的取样策略为

如果某个概念的正样本(即，该样本中包含某个概念)数量小于等于100，由于其正样本数量较少，为了使训练数据包含足够多的信息，对所有的正样本数据进行训练；如果某个概念的正样本数量多于100个，则选定一个取样策略参数a_i(通常，该取样策略参数a_i可以介于0和1之间)，从多于100个的正样本中采样出n_i＝a_i(N_i-100)个正样本进行训练，举例说明，如果“夜晚”这个概念有252个正样本，采用a_i＝0.5的取样策略参数，则对于夜晚这个概念来说有76个正样本参与了训练。

图7是本发明装置的第四实施例的结构示意图。

如图7所示，与图6中的实施例相比，该实施例的装置还包括：

类添加模块21，与聚类模块12相连，用于为多个概念添加一个背景类，即，为所有需要检测的概念(例如，M个概念)外加一个背景类，背景类的加入可以为词袋模型提供很多背景信息，一方面可以将被检测数据的背景信息提出，以更精确地检测出待检测数据中的概念，另一方面还可以将不包含任何概念的纯背景信息归到背景类中，以防止将纯背景信息错误地归到某个概念所对应的类中，从而可以显著提高待检测概念的检测平均准确率。

在上述实施例中，20≤K≤200，当K的取值小于20的时候，所构建的单词表一般不能充分地表示出该概念的特征信息，从而会使得检测效果大幅下降；而当K的取值大于200的时候，所构建的单词表信息相对冗余，大大增加了计算机的运算负担，而且在效果上没有显著的提升。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像概念的检测方法，其特征在于，所述方法包括：

利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；

根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将所述多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计所述待测数据的局部特征的直方图和所述多个概念的训练数据的局部特征的直方图，其中，所述直方图为局部特征在所述词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为所述多个概念在第i个量化策略下的单词表，所述单词表B_i包含多个与概念相对应的子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，所述每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；

将每个概念的训练数据的局部特征分为训练集和校验集，利用所述训练集、所述校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用所述校验集在所述二元支持向量机分类器上计算出与所述词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；

对计算出的与所述词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在所述词袋模型{B₁，B₂，...，B_i，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将所述多个概念各自最终的概念检测分类器合并为最佳概念检测分类器；

将所述待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到所述最佳概念检测分类器中以确定每个概念在所述待测数据中出现的概率。

2.根据权利要求1所述的方法，其特征在于，在所述根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表的步骤之前，所述方法还包括：

为所述多个概念添加一个背景类。

3.根据权利要求1所述的方法，其特征在于，20≤K≤200。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据取样策略选取包含标注信息的每个概念的训练数据。

5.根据权利要求4所述的方法，其特征在于，所述取样策略为

其中，N_i为采样前的第i个概念的正样本数量，n_i为采样后的第i个概念的训练数据的数量，a_i为介于0和1之间的取样策略参数。

6.一种图像概念的检测装置，其特征在于，所述装置包括：

局部特征提取模块，用于利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征；

聚类模块，与所述局部特征提取模块相连，用于根据不同的量化策略，利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表，将所述多个概念各自的不同长度的单词表合并为词袋模型{B₁，B₂，...，B_i，...，B_N}，并分别统计所述待测数据的局部特征的直方图和所述多个概念的训练数据的局部特征的直方图，其中，所述直方图为局部特征在所述词袋模型{B₁，B₂，...，B_i，...，B_N}的各单词表B_i的每个子单词表中出现的次数，单词表B_i为所述多个概念在第i个量化策略下的单词表，所述单词表B_i包含多个与概念相对应的子单词表，每个子单词表为每个概念在第i个量化策略下的单词表，所述每个子单词表的长度由量化策略决定，量化策略由K值决定，1≤i≤N，N≥2，K＞1；

分类模型训练模块，分别与所述局部特征提取模块和所述聚类模块相连，用于将每个概念的训练数据的局部特征分为训练集和校验集，利用所述训练集、所述校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器，并利用所述校验集在所述二元支持向量机分类器上计算出与所述词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表B_i中的每个子单词表相对应的每个概念的分类模型；

交叉验证模块，与所述聚类模块和所述分类模型训练模块相连，用于对计算出的与所述词袋模型{B₁，B₂，...，B_i，...，B_N}的每个单词表B_i中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证，以在所述词袋模型{B₁，B₂，...，B₁，...，B_N}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表，并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器，将所述多个概念各自最终的概念检测分类器合并为最佳概念检测分类器；

概念检测模块，与所述聚类模块和所述交叉验证模块相连，用于将所述待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到所述最佳概念检测分类器中以确定每个概念在所述待测数据中出现的概率。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

类添加模块，与所述聚类模块相连，用于为所述多个概念添加一个背景类。

8.根据权利要求6所述的装置，其特征在于，20≤K≤200。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

取样模块，与所述局部特征提取模块相连，用于根据取样策略选取包含标注信息的每个概念的训练数据。

10.根据权利要求9所述的装置，其特征在于，所述取样策略为