CN102385592A - 图像概念的检测方法和装置 - Google Patents

图像概念的检测方法和装置 Download PDF

Info

Publication number
CN102385592A
CN102385592A CN201010271693XA CN201010271693A CN102385592A CN 102385592 A CN102385592 A CN 102385592A CN 201010271693X A CN201010271693X A CN 201010271693XA CN 201010271693 A CN201010271693 A CN 201010271693A CN 102385592 A CN102385592 A CN 102385592A
Authority
CN
China
Prior art keywords
notion
word list
local feature
sub
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010271693XA
Other languages
English (en)
Other versions
CN102385592B (zh
Inventor
冯明
梁笃国
张艳霞
曹宁
邓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201010271693.XA priority Critical patent/CN102385592B/zh
Publication of CN102385592A publication Critical patent/CN102385592A/zh
Application granted granted Critical
Publication of CN102385592B publication Critical patent/CN102385592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种图像概念的检测方法和装置。其中,该方法包括获取待测数据和多个概念的训练数据的局部特征;根据不同的量化策略聚集出不同长度的单词表,并分别统计待测数据和多个概念的训练数据的局部特征的直方图;训练二元支持向量机分类器,并计算出每个概念的训练数据的局部特征的检测平均准确率以及训练出每个概念的分类模型;通过交叉验证选取每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器;将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到每个概念最终的概念检测分类器中以确定每个概念在待测数据中出现的概率。

Description

图像概念的检测方法和装置
技术领域
本发明涉及多媒体信息检测技术领域,更具体地,涉及一种图像概念的检测方法和装置。
背景技术
近年来随着网络上的视频、图像资源的飞速增加,产生了海量的数字图像资源,如何帮助用户从如此丰富的网络资源中快速地搜索到有效的资源便成为了近期众多研究单位研究的热点问题。对于图像信息的有效检索方法则是解决这个问题的关键技术之一。从20世纪90年代初开始,基于内容的图像检索(Content-based Image Retrieval,CBIR)技术逐渐被人们所重视。基于内容的图像检索技术利用图像的颜色、形状、纹理和区域等低层特征信息对图像进行描述作为图像的索引,计算查询图像和目标图像的相似距离,按相似度匹配进行检索,返回图像库中内容描述最满足要求的一组图像。
然而,由于图像视觉低层特征的相似性并不完全等同于人们主观判断图像的相似性,所以,用户在进行图像检索时通常会提出概念性的检索要求,并从主观上判断返回图像是否满足自己的需要。因此,为了实现更贴近用户理解能力的自然查询方式,研究基于语义的图像检索技术已成为当今图像检索领域的发展方向。概念检测技术便是基于语义的图像检索技术的关键环节,概念检测技术的发展可以在很大程度上提高基于语义的图像检索效果。
概念检测技术作为一种典型的模式识别技术,特征提取是概念检测技术中极为重要的环节。因为高层语义信息无法直接从图像的视觉特征中得到,所以特征提取环节提取出的有效特征会直接影响分类器,乃至整个模式识别过程的性能。最希望提取的是那些具有明显区分意义、容易提取且对噪声不敏感的特征集。
近年来,国内外有很多研究单位对特征提取技术做了大量的研究,可以大致将图像特征分为全局特征和局部特征。全局特征是从原始的像素值中提取的许多关于颜色、纹理、形状和区域的特征,全局特征可以表示出图像的大部分的基本特征,不过全局特征也有很大的局限性,例如,颜色特征在很大程度上受到图像亮度和色度的影响,同样的内容不同色度、亮度的图像在颜色特征上区别很大;纹理、形状等特征对于平移、旋转和尺度有变化的图像识别效果很差。这些问题都体现了全局特征的局限性。
为了解决这些问题,David G.Lowe在2004年总结了现有的基于不变量技术的特征检测方法,并正式提出了一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征尺度不变特征变换算子(Scale-Invariant Feature Transform,SIFT)。近些年来,有很多研究机构在如何利用SIFT算子进行概念检测方面做了大量的研究,由LiFei-fei提出的词袋模型(Bag of words)对于SIFT特征的处理,在概念识别技术上体现了很好的效果,得到了十分广泛的应用。
但是,上述方法在词袋模型的单词表的选择上过于单一,所有概念均采用相同长度的单词表,导致对概念的检测效率较低,并且对计算机的计算能力有很高的要求。
发明内容
本发明要解决的一个技术问题是提供一种图像概念的检测方法,能够在保证图像概念检测效果的情况下提高检测效率。
本发明提供了一种图像概念的检测方法,包括利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图,其中,直方图为局部特征在词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为多个概念在第i个量化策略下的单词表,单词表Bi包含与多个概念相对应的多个子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;将每个概念的训练数据的局部特征分为训练集和校验集,利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用校验集在二元支持向量机分类器上计算出与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;对计算出的与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器;将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。
根据本发明方法的一个实施例,在根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表的步骤之前,该方法还包括为多个概念添加一个背景类。
根据本发明方法的另一实施例,20≤K≤200。
根据本发明方法的又一实施例,该方法还包括根据取样策略选取包含标注信息的每个概念的训练数据。
根据本发明方法的再一实施例,取样策略为其中,Ni为采样前的第i个概念的正样本数量,ni为采样后的第i个概念的训练数据的数量,ai为介于0和1之间的取样策略参数。
本发明的图像概念检测方法经交叉验证自适应地选择对于每个概念最佳的子单词表,对于局部特征较少的概念采用较短的单词表,既获得了较好的检测效果又提高了检测效率,对于局部特征丰富的概念选择足够长的单词表以保证检测的效果。本发明针对不同的概念分别选择不同长度的单词表,在保证检测效果的同时提高了检测的效率。
本发明要解决的另一技术问题是提供一种图像概念的检测装置,能够在保证图像概念检测效果的情况下提高检测效率。
本发明提供了一种图像概念的检测装置,包括局部特征提取模块,用于利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;聚类模块,与局部特征提取模块相连,用于根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图,其中,直方图为局部特征在词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为多个概念在第i个量化策略下的单词表,单词表Bi包含与多个概念相对应的多个子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;分类模型训练模块,分别与局部特征提取模块和聚类模块相连,用于将每个概念的训练数据的局部特征分为训练集和校验集,利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用校验集在二元支持向量机分类器上计算出与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;交叉验证模块,与聚类模块和分类模型训练模块相连,用于对计算出的与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器;概念检测模块,与聚类模块和交叉验证模块相连,用于将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。
根据本发明装置的一个实施例,该装置还包括类添加模块,与聚类模块相连,用于为多个概念添加一个背景类。
根据本发明装置的另一实施例,20≤K≤200。
根据本发明装置的又一实施例,该装置还包括取样模块,与局部特征提取模块相连,用于根据取样策略选取包含标注信息的每个概念的训练数据。
根据本发明装置的再一实施例,取样策略为其中,Ni为采样前的第i个概念的正样本数量,ni为采样后的第i个概念的训练数据的数量,ai为介于0和1之间的取样策略参数。
本发明的图像概念检测装置经交叉验证自适应地选择对于每个概念最佳的子单词表,对于局部特征较少的概念采用较短的单词表,既获得了较好的检测效果又提高了检测效率,对于局部特征丰富的概念选择足够长的单词表以保证检测的效果。本发明针对不同的概念分别选择不同长度的单词表,在保证检测效果的同时提高了检测的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附图中:
图1是本发明方法的第一实施例的流程示意图。
图2是本发明方法的第二实施例的流程示意图。
图3是本发明方法的第三实施例的流程示意图。
图4是本发明装置的第一实施例的结构示意图。
图5是本发明装置的第二实施例的结构示意图。
图6是本发明装置的第三实施例的结构示意图。
图7是本发明装置的第四实施例的结构示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。
本发明的目的是提出一种基于最佳子单词表的词袋模型的概念检测方法和装置,其能够克服现有技术中概念检测效率较低的缺陷。本发明针对每个概念,经交叉验证选择合适长度的单词表(即,最佳子单词表),利用每个概念的最佳子单词表通过二元支持向量机学习出分类模型,将多个概念的分类模型合并为最佳概念检测分类器,并利用最佳概念检测分类器对待检测图像进行概念的检测。本发明在性能上优于传统的词袋模型,并取得了较好的实验效果。
图1是本发明方法的第一实施例的流程示意图。
如图1所示,该实施例可以包括以下步骤:
S102,利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;
例如,对于每幅图像(即,待测数据和训练数据),首先在高斯差分尺度空间的三个相邻尺度之间找到局部极值点,该点是本尺度空间和相邻尺度空间中临近的26个点中的极值点,再通过拟合三维二次函数以精确确定局部极值点的位置和尺度,接下来利用确定的局部极值点相邻像素的梯度方向分布特性为每个局部极值点制定方向参数,使算子具备旋转不变性,可以将表示图像中特定信息的局部极值点被称为兴趣点,最后以每个兴趣点为中心8×8的窗口提取128维的特征向量,其中,每幅图像中的这些兴趣点为含有方向性信息的局部极值点的一个子集;
S104,根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图,其中,直方图为局部特征在词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为多个概念在第i个量化策略下的单词表,单词表Bi包含多个与概念相对应的子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;
举例说明,每个概念的所有训练图像(即,每个概念的训练数据)经SIFT算法处理得到的局部特征(即,基于兴趣点的特征向量)都利用K均值聚类的方法,根据量化策略的不同(即,在聚类时取不同的K值),聚集出不等数量的类,可以将每个类看作单词表里的一个单词,不等数量的类,即,每个单词表的长度不同,然后将所有概念的不同长度的单词表合并到一起,构成词袋模型,即,构建了多个不同长度的单词表,记为{B1,B2,...,Bi,...,BN},此处量化策略的不同是指K的取值不同,K为整数,通常,K>1,优选地,20≤K≤200,例如,当K等于20时,可以利用K均值聚类法计算出子单词表长度为20的M个概念的单词表B1,当K等于30时,可以利用K均值聚类法计算出子单词表长度为30的M个概念的单词表B2,依此类推,当K等于200时,可以利用K均值聚类法计算出子单词表长度为200的M个概念的单词表BN,将M个概念的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN};然后根据词袋模型{B1,B2,...,Bi,...,BN}统计图像集中(包括待测图像和训练图像)所有的图像所提取出来的SIFT局部特征,得到每幅图像关于每个单词表中的每个子单词表的直方图(即,每幅图像的局部特征在词袋模型{B1,B2,...,Bi,...,BN}中的每个单词表Bi中的各个“子单词表”中出现的次数),换句话说,这个直方图代表被统计图像中代表着各个概念的这些特征点在每个子单词表中出现的频率,这个直方图可以作为每张图像的特征向量输入到概念检测分类器里进行分类;
S106,将每个概念的训练数据的局部特征分为训练集和校验集,利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用校验集在二元支持向量机分类器上计算出与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;
例如,可以选择二元支持向量机为基本分类器,通过机器学***面上最佳化训练集中样本间边界的算法(即,支持向量机将向量映射到一个更高维的空间里,在这个空间里建立一个最大间隔超平面,在分开数据的超平面的两边建有两个互相平行的超平面,从而实现数据分类的一种学习算法);
具体地,可以将训练图像库(即,训练数据)经SIFT算法处理后的兴趣点集合分为训练集和校验集两部分,选取单词表B1(假设,单词表B1包括M个子单词表B11,B12,..,B1M),根据包含概念C1的标注信息的所有图像和该图像的SIFT局部特征在单词表B1的各子单词表中统计出的直方图信息在训练集上训练二元支持向量机分类器,调整二元支持向量机分类器的参数,并在校验集上进行测试,调整核函数的相关参数(一般采用径向基函数(Radial Basis Function,RBF)核,其中,参数C和δ是利用校验集数据通过交叉验证得到最好的参数选择),以确定单词表B1中与概念C1相对应的子单词表为最佳状态的二元支持向量机分类器的参数,即,二元支持向量机分类器在校验集上的测试性能最佳,亦在校验集上计算出的概念检测平均准确率最高,训练得到与单词表B1中的子单词表B11相对应的概念C1的分类模型,采用同样的方法,可以分别训练得到与单词表B1的子单词表B12,..,B1M相对应的其他概念(C2,..,CM)的分类模型,改变单词表,重复上述步骤,以新单词表Bi下统计的直方图作为特征向量进行训练,得到与单词表Bi的子单词表Bi1,Bi2,..,BiM相对应的概念(C1,C2,..,CM)的分类模型以及与单词表Bi中的子单词表Bi1,Bi2,..,BiM相对应的每个概念的训练数据的局部特征的检测平均准确率;
S108,对计算出的与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器,可选地,还可以将多个概念各自的最佳子单词表合并为最佳词袋模型;
例如,通过S106的步骤可以获得一张不同概念在不同子单词表下的性能表(例如,检测平均准确率表),通过交叉验证(即,互相比较与同一概念不同子单词表相对应的多个检测平均准确率)在这张表中选取性能最好的子单词表作为每个概念的最佳子单词表,并将利用每个概念的最佳子单词表通过二元支持向量机学习出的分类模型作为每个概念最终的概念检测分类器,将M个概念最终的概念检测分类器合并为最佳概念检测分类器,用于检测待测图像所包含的概念;
S110,将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率;
例如,将待检测图像集的SIFT局部特征在S108中选定的最佳子单词表上的统计直方图输入到最佳概念检测分类器中,最佳概念检测分类器输出关于M个概念(即,{C1,C2,...,CM})的所有待检测图像的检测结果,最佳概念检测分类器检测出的判决结果可以显示为概率判决,即,输出一个0~1之间的小数,表示“存在”该概念的置信度。
该实施例结合图像处理技术和模式识别技术实现对图像的语义概念检测,其可以为不同的概念选择最合适的单词表长度,形成自适应单词表长度的最佳词袋模型。同时,该实施例对每个概念分别进行聚类,再通过合并得到单词表,使计算机可以进行并行计算以提高检测效率。另外,该实施例在进行基于语义的图像检索时,其性能好于采用原始词汇表的词袋模型,能够显著提高图像的检索性能。
图2是本发明方法的第二实施例的流程示意图。
如图2所示,该实施例可以包括以下步骤:
S202,利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;
S204,为多个概念添加一个背景类,即,为所有需要检测的概念(例如,M个概念)外加一个背景类,背景类的加入可以为词袋模型提供很多背景信息,一方面可以将被检测数据的背景信息提出,以更精确地检测出待检测数据中的概念,另一方面还可以将不包含任何概念的纯背景信息归到背景类中,以防止将纯背景信息错误地归到某个概念所对应的类中,从而可以显著地提高待检测概念的检测平均准确率;
S206,根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念(此处的概念不仅包含待检测的概念还包含所添加的背景类)的不同长度的单词表,将多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图,其中,直方图为局部特征在词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为多个概念在第i个量化策略下的单词表,单词表Bi包含与多个概念相对应的多个子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;
S208,将每个概念的训练数据的局部特征分为训练集和校验集,利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用校验集在二元支持向量机分类器上计算出与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;
S210,对计算出的与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器;
S212,将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。
图3是本发明方法的第三实施例的流程示意图。
如图3所示,该实施例可以包括以下步骤:
S302,根据取样策略选取包含标注信息的每个概念的训练数据,其中,取样策略可以为
Figure BSA00000255742900111
其中,Ni为采样前的第i个概念的正样本数量,ni为采样后的第i个概念的训练数据(即,正样本)的数量,ai为介于0和1之间的取样策略参数;
举例说明,利用取样策略对于已经经过人工标注(即,标注每张图片或视频中的图像是否包含某个/某些概念)的M个概念中的每个概念的训练数据进行选取,将选取出的M个概念(可以表示为{C1,C2,...,CM})的训练数据表示为{T1,T2,...,TM),其中,选取T1、T2、...、TM等训练数据的取样策略为
如果某个概念的正样本(即,该样本中包含某个概念)数量小于等于100,由于其正样本数量较少,为了使训练数据包含足够多的信息,对所有的正样本数据进行训练;如果某个概念的正样本数量多于100个,则选定一个取样策略参数ai(通常,该取样策略参数ai可以介于0和1之间),从多于100个的正样本中采样出ni=ai×(Ni-100)个正样本进行训练,举例说明,如果“夜晚”这个概念有252个正样本,采用ai=0.5的取样策略参数,则对于夜晚这个概念来说有76个正样本参与了训练;
S304,利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;
S306,根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图,其中,直方图为局部特征在词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为多个概念在第i个量化策略下的单词表,单词表Bi包含与多个概念相对应的多个子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;
S308,将每个概念的训练数据的局部特征分为训练集和校验集,利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用校验集在二元支持向量机分类器上计算出与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;
S310,对计算出的与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器;
S312,将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率。
该实施例中的正样本取样策略,在保证正样本蕴含信息的同时,简化了训练数据,提高了概念的检测效率。
在上述实施例中,优选地,20≤K≤200,当K的取值小于20的时候,所构建的单词表一般不能充分地表示出该概念的特征信息,从而会使得检测效果大幅下降;而当K的取值大于200的时候,所构建的单词表信息相对冗余,大大增加了计算机的运算负担,而且在效果上没有显著的提升。
本发明方法的第四实施例可以包括以下步骤:
步骤一,对于已经经过语义人工标注之后的训练数据,应用取样策略进行选取,用Ni表示采样前的第i个概念所拥有的正样本总量,用ni表示所抽取的应用于训练的正样本的数量,取样策略参数ai通常介于0和1之间,取样策略为
Figure BSA00000255742900131
步骤二,所有待测图像和训练图像利用SIFT算法获取其局部特征,例如,SIFT算法可以采用二维高斯线性变换核
Figure BSA00000255742900132
(其中,σ代表了高斯正态分布的方差)来建立尺度空间,对于一幅灰度的二维图像,在不同的尺度下的尺度空间表示可由图像与高斯核卷积得到:L(x,y,σ)=G(x,y,σ)*I(x,y),其中(x,y)代表图像的像素位置,I(x,y)代表该像素图像的灰度值,σ称为尺度空间因子,L代表了图像的尺度空间;
在尺度空间建立完毕后,为了能够找到稳定的极值点,可以采用高斯差分的方法来检测那些在局部位置的极值点,即,采用两个相邻的尺度中的图像相减:D(x,y,σ)=L(x,y,kσ)-L(x,y,σ),(对于每幅图像,可以在高斯差分尺度空间的三个相邻尺度之间找到局部极值点),之后通过拟和三维二次函数以精确确定局部极值点的位置和尺度,接下来利用确定的局部极值点相邻像素的梯度方向分布特性为每个局部极值点制定方向参数,使算子具备旋转不变性;
最后以每个兴趣点为中心8×8的窗口,再在每个4×4的小块上计算8个方向的梯度直方图,计算在每个方向上的累加值,得到每个兴趣点的128维特征向量;
步骤三,基于大量实验,在所有需要检测的概念外加一个背景类以有效提高概念检测的效果,用M来表示总共需要检测概念的个数,外加一个背景类,共有M+1个概念,每个概念都利用K均值聚类的方法,选用不同的量化策略(即,分别选取不同的K值,通常,K>1,优选地,20≤K≤200),聚集出{c1,c2,...,cN}个不同数量的类(即,K的取值分别为c1、c2、...、cN),可以将每个类看作单词表里的一个单词,然后将这M个概念的多个不同长度的单词表合并到一起构成词袋模型,即,构建了长度为{(M+1)c1,(M+1}c2,...,(M+1)cN}的单词表,记为(B1,B2,...,Bi,...,BN},然后根据词袋模型{B1,B2,...,Bi,...,BN}统计图像集中所有的图像各自所提取出来的SIFT局部特征,得到每幅图像关于每个单词表Bi中的每个子单词表的直方图,这个直方图可以作为每张图像的特征向量输入到概念检测分类器里进行分类;
步骤四,可以选择二元支持向量机为基本分类器,通过机器学***面上最佳化训练集中样本间边界的算法,具体地,可以将训练图像库经SIFT算法处理后的兴趣点集合分为训练集和校验集两部分,每一部分中的图像都包含对于概念Ci的标注信息和该图像的SIFT局部特征在单词表Bi的各子单词表中统计出的直方图信息,基于上述信息在训练集上训练二元支持向量机分类器,调整二元支持向量机分类器的参数,并在校验集上进行测试,以确定单词表Bi中与概念Ci相对应的子单词表为最佳状态的二元支持向量机分类器的参数,即,分类器在校验集上的测试性能最佳,亦概念检测平均准确率最高,得到与单词表Bi中子单词表相对应的概念Ci的分类模型,以及与单词表Bi中子单词表相对应的概念Ci的训练数据的局部特征的检测平均准确率,同理,得到与单词表Bi中其他子单词表相对应的各概念的分类模型,以及与单词表Bi中其他子单词表相对应的各概念的训练数据的局部特征的检测平均准确率;
步骤五,利用不同的单词表,重复步骤四,以新单词表下统计的直方图作为特征向量进行训练,得到新校验集上的各概念的检测平均准确率和与新单词表中每个子单词表相对应的所有概念的分类模型,同样的步骤,得到所有不同长度的单词表对于不同概念的检测效果表Pmn(m代表单词表的总数,n代表概念的总数),其中,表Pmn中的元素为pij(i表示为不同长度单词表的序号,j表示为概念的序号),其表示的意思是第j种概念,在长度为(M+1)ci的单词表Bi下的概念检测平均准确率,之后可以将Pij转化成行向量(α0,α1,...,αn)T,取每个行向量的最大范数||αi||,即,挑选出对于概念cj有最高检测平均准确率的最佳子单词表,以及将利用该最佳子单词表通过二元支持向量机学习出的分类模型作为概念cj最终的概念检测分类器,将M个概念最终的概念检测分类器合并为最佳概念检测分类器;
步骤六,将待检测图像集的SIFT局部特征在步骤五中选定的最佳子单词表上的统计直方图输入最佳概念检测分类器,最佳概念检测分类器输出关于M个概念(即,{C1,C2,...,CM})的所有待检测图像的检测结果,最佳概念检测分类器检测出的判决结果可以显示为概率判决,即输出一个0~1之间的小数,表示“存在”该概念的置信度,如果置信度超过0.5,则判定为待测图像存在该概念。
在上述实施例中,采用的图像数据库是TRECVID2008的视频数据的关键帧。TRECVID是美国国家标准局(NIST)举办的视频检索领域的权威比赛。例如,选取“飞行中的飞机”、“公交车”、“夜晚”等三个语义概念进行检测。将整个图像数据库分为两部分:训练图像集和待检测图像集,其中,整个图像数据库中的每张图像都经过人工标注,选取“飞行中的飞机”正样本42张,负样本(即,该样本中不含“飞行中的飞机”这个概念)200张;选取“公交车”正样本46张,负样本200张;选取“夜晚”正样本242张,负样本500张,所有概念一共有10680张图像。实验采用检测平均准确率(Average Precision)来评估采用最佳子单词表的词袋模型进行概念检测的总体性能。检测平均准确率是一种能准确反映检索性能的评价指标,它被广泛用于信息检索领域。
采用了基于高斯差分尺度空间寻找兴趣点的SIFT描述子,对于以下这三个概念的所有训练数据和测试数据提取局部特征。之后通过支持向量机的分类结果,选择了对于这三个概念适合的单词表长度:对于“飞行中的飞机”这个概念采用50个单词长度的单词表;对于“公共汽车”这个概念采用100个单词长度的单词表;对于“夜晚”这个概念采用20个单词长度的单词表。
下述表1显示了在待检测图像集上,本发明方法与TRECVID2008年平均准确率最高的哥伦比亚大学在这三个试验概念上的比较,以及与只采用全局特征得到的概念检测结果的对比。
Figure BSA00000255742900161
表1
从表1可以看出,采用局部特征与采用全局特征相比,例如,颜色和纹理特征等在概念检测上有较大的提高。同时采用适当长度的单词表,适当的正样本的取样策略可以有效地提高采用局部特征进行概念检测的效果。
上述实施例对传统的词袋模型进行了改进,传统的词袋模型是选定一个固定长度的单词表用于图像的概念检测,然而不同的语义信息,即,不同的概念,最佳的单词表长度可以是不一样的。所谓单词表中的单词就是通过K均值聚类算法得到的相似局部特征的集合。对于有些概念(又可以理解为语义概念),简单的几十个单词就可以完全表达这个概念中的特点,如果选取长度过长的单词表,不仅增加了计算机的负担,降低了检测效率,而且还夹杂了很多对于该概念的干扰信息,反而降低了检测效果。例如,对于“夜晚”这种场景类概念,含有的局部特征较少,采用较短的单词表***部特征信息既提高了检测效率又增强了检测效果;对于“公共汽车”这种物体类概念,由于含有丰富的局部特征信息,采用短的单词表无法完全涵盖概念中的全部信息,因此可以利用较长的单词表,即,局部特征信息丰富的单词表以有效地对这类概念进行检测。
与现有技术相比,本发明经交叉验证自适应地选择每个概念的最佳单词表长度,对于局部特征少的概念,采用较短的单词表,既获得了较好的检测效果又提高了检测效率;对于局部特征丰富的概念,依然选用足够长的单词表长度,以保证检测的效果。
图4是本发明装置的第一实施例的结构示意图。
如图4所示,该实施例的装置包括:
局部特征提取模块11,用于利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;
例如,对于每幅图像(即,待测数据和训练数据),局部特征提取模块11首先在高斯差分尺度空间的三个相邻尺度之间找到局部极值点,该点是本尺度空间和相邻尺度空间中临近的26个点中的极值点,再通过拟合三维二次函数以精确确定局部极值点的位置和尺度,接下来利用确定的局部极值点相邻像素的梯度方向分布特性为每个局部极值点制定方向参数,使算子具备旋转不变性,可以将表示图像中特定信息的局部极值点被称为兴趣点,最后以每个兴趣点为中心8×8的窗口提取128维的特征向量,其中,每幅图像中的这些兴趣点为含有方向性信息的局部极值点的一个子集;
聚类模块12,与局部特征提取模块11相连,用于根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计待测数据的局部特征的直方图和多个概念的训练数据的局部特征的直方图,其中,直方图为局部特征在词袋模型{B1,B2,...,Bi,...,BN)的各单词表Bi的每个子单词表中出现的次数,单词表Bi为多个概念在第i个量化策略下的单词表,单词表Bi包含多个与概念相对应的子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;
举例说明,每个概念的所有训练图像(即,每个概念的训练数据)经SIFT算法处理得到的局部特征(即,基于兴趣点的特征向量)都利用K均值聚类的方法,根据量化策略的不同(即,在聚类时取不同的K值),聚集出不等数量的类,可以将每个类看作单词表里的一个单词,不等数量的类,即,每个单词表的长度不同,然后将所有概念的不同长度的单词表合并到一起,构成词袋模型,即构建了多个不同长度的单词表,记为{B1,B2,...,Bi,...,BN},此处量化策略的不同是指K的取值不同,K为整数,通常,K>1,优选地,20≤K≤200,例如,当K等于20时,可以利用K均值聚类法计算出子单词表长度为20的M个概念的单词表B1,当K等于30时,可以利用K均值聚类法计算出子单词表长度为30的M个概念的单词表B2,依此类推,当K等于200时,可以利用K均值聚类法计算出子单词表长度为200的M个概念的单词表BN,将M个概念的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN};然后根据词袋模型{B1,B2,...,Bi,...,BN}统计图像集中(包括待测图像和训练图像)所有的图像所提取出来的SIFT局部特征,得到每幅图像关于每个单词表中的每个子单词表的直方图(即,每幅图像的局部特征在词袋模型{B1,B2,...,Bi,...,BN}中的每个单词表Bi中的各个“子单词表”中出现的次数),换句话说,这个直方图代表被统计图像中代表着各个概念的这些特征点在每个子单词表中出现的频率,这个直方图可以作为每张图像的特征向量输入到概念检测分类器里进行分类;
分类模型训练模块13,分别与局部特征提取模块11和聚类模块12相连,用于将每个概念的训练数据的局部特征分为训练集和校验集,利用训练集、校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用校验集在二元支持向量机分类器上计算出与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;
例如,可以选择二元支持向量机为基本分类器,通过机器学***面上最佳化训练集中样本间边界的算法(即,支持向量机将向量映射到一个更高维的空间里,在这个空间里建立一个最大间隔超平面,在分开数据的超平面的两边建有两个互相平行的超平面,从而实现数据分类的一种学习算法);
具体地,可以将训练图像库(即,训练数据)经SIFT算法处理后的兴趣点集合分为训练集和校验集两部分,选取单词表B1(假设,单词表B1包括M个子单词表B11,B12,..,B1M),根据包含概念C1的标注信息的所有图像和该图像的SIFT局部特征在单词表B1的各子单词表中统计出的直方图信息在训练集上训练二元支持向量机分类器,调整二元支持向量机分类器的参数,并在校验集上进行测试,调整核函数的相关参数(一般采用径向基函数(Radial Basis Function,RBF)核,其中,参数C和δ是利用校验集数据通过交叉验证得到最好的参数选择),以确定单词表B1中与概念C1相对应的子单词表为最佳状态的二元支持向量机分类器的参数,即,二元支持向量机分类器在校验集上的测试性能最佳,亦在校验集上计算出的概念检测平均准确率最高,训练得到与单词表B1中的子单词表B11相对应的概念C1的分类模型,采用同样的方法,可以分别训练得到与单词表B1的子单词表B12,..,B1M相对应的其他概念(C2,..,CM)的分类模型,改变单词表,重复上述步骤,以新单词表Bi下统计的直方图作为特征向量进行训练,得到与单词表Bi的子单词表Bi1,Bi2,..,BiM相对应的概念(C1,C2,..,CM)的分类模型以及与单词表Bi中的子单词表Bi1,Bi2,..,BiM相对应的每个概念的训练数据的局部特征的检测平均准确率;
交叉验证模块14,与聚类模块12和分类模型训练模块13相连,用于对计算出的与词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将多个概念各自最终的概念检测分类器合并为最佳概念检测分类器,可选地,还可以将多个概念各自的最佳子单词表合并为最佳词袋模型;
例如,通过上述分类模型训练模块13可以获得一张不同概念在不同子单词表下的性能表(例如,检测平均准确率表),通过交叉验证(即,互相比较与同一概念不同子单词表相对应的多个检测平均准确率)在这张表中选取性能最好的子单词表作为每个概念的最佳子单词表,并将利用每个概念的最佳子单词表通过二元支持向量机学习出的分类模型作为每个概念最终的概念检测分类器,将M个概念最终的概念检测分类器合并为最佳概念检测分类器,用于检测待测图像所包含的概念;
概念检测模块15,与聚类模块12和交叉验证模块14相连,用于将待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到最佳概念检测分类器中以确定每个概念在待测数据中出现的概率;
例如,将待检测图像集的SIFT局部特征在S108中选定的最佳子单词表上的统计直方图输入到最佳概念检测分类器中,最佳概念检测分类器输出关于M个概念(即,{C1,C2,...,CM})的所有待检测图像的检测结果,最佳概念检测分类器检测出的判决结果可以显示为概率判决,即,输出一个0~1之间的小数,表示“存在”该概念的置信度。
该实施例结合图像处理技术和模式识别技术实现对图像的语义概念检测,其可以为不同的概念选择最合适的单词表长度,形成自适应单词表长度的最佳词袋模型。同时,该实施例对每个概念分别进行聚类,再通过合并得到单词表,使计算机可以进行并行计算以提高检测效率。另外,该实施例在进行基于语义的图像检索时,其性能好于采用原始词汇表的词袋模型,能够显著提高图像的检索性能。
图5是本发明装置的第二实施例的结构示意图。
如图5所示,与图4中的实施例相比,该实施例的装置还可以包括:
类添加模块21,与聚类模块12相连,用于为多个概念添加一个背景类,即,为所有需要检测的概念(例如,M个概念)外加一个背景类,背景类的加入可以为词袋模型提供很多背景信息,一方面可以将被检测数据的背景信息提出,以更精确地检测出待检测数据中的概念,另一方面还可以将不包含任何概念的纯背景信息归到背景类中,以防止将纯背景信息错误地归到某个概念所对应的类中,从而可以显著地提高待检测概念的检测平均准确率。
图6是本发明装置的第三实施例的结构示意图。
如图6所示,与图4中的实施例相比,该实施例的装置还可以包括:
取样模块31,与局部特征提取模块11相连,用于根据取样策略选取包含标注信息的每个概念的训练数据。其中,取样策略为
Figure BSA00000255742900211
其中,Ni为采样前的第i个概念的正样本数量,ni为采样后的第i个概念的训练数据的数量,ai为介于0和1之间的取样策略参数;
举例说明,利用取样策略对于已经经过人工标注(即,标注每张图片或视频中的图像是否包含某个/某些概念)的M个概念中的每个概念的训练数据进行选取,将选取出的M个概念(可以表示为{C1,C2,...,CM})的训练数据表示为{T1,T2,...,TM},其中,选取T1、T2、...、TM等训练数据的取样策略为
Figure BSA00000255742900212
如果某个概念的正样本(即,该样本中包含某个概念)数量小于等于100,由于其正样本数量较少,为了使训练数据包含足够多的信息,对所有的正样本数据进行训练;如果某个概念的正样本数量多于100个,则选定一个取样策略参数ai(通常,该取样策略参数ai可以介于0和1之间),从多于100个的正样本中采样出ni=ai(Ni-100)个正样本进行训练,举例说明,如果“夜晚”这个概念有252个正样本,采用ai=0.5的取样策略参数,则对于夜晚这个概念来说有76个正样本参与了训练。
该实施例中的正样本取样策略,在保证正样本蕴含信息的同时,简化了训练数据,提高了概念的检测效率。
图7是本发明装置的第四实施例的结构示意图。
如图7所示,与图6中的实施例相比,该实施例的装置还包括:
类添加模块21,与聚类模块12相连,用于为多个概念添加一个背景类,即,为所有需要检测的概念(例如,M个概念)外加一个背景类,背景类的加入可以为词袋模型提供很多背景信息,一方面可以将被检测数据的背景信息提出,以更精确地检测出待检测数据中的概念,另一方面还可以将不包含任何概念的纯背景信息归到背景类中,以防止将纯背景信息错误地归到某个概念所对应的类中,从而可以显著提高待检测概念的检测平均准确率。
在上述实施例中,20≤K≤200,当K的取值小于20的时候,所构建的单词表一般不能充分地表示出该概念的特征信息,从而会使得检测效果大幅下降;而当K的取值大于200的时候,所构建的单词表信息相对冗余,大大增加了计算机的运算负担,而且在效果上没有显著的提升。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种图像概念的检测方法,其特征在于,所述方法包括:
利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;
根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将所述多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计所述待测数据的局部特征的直方图和所述多个概念的训练数据的局部特征的直方图,其中,所述直方图为局部特征在所述词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为所述多个概念在第i个量化策略下的单词表,所述单词表Bi包含多个与概念相对应的子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,所述每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;
将每个概念的训练数据的局部特征分为训练集和校验集,利用所述训练集、所述校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用所述校验集在所述二元支持向量机分类器上计算出与所述词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;
对计算出的与所述词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在所述词袋模型{B1,B2,...,Bi,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将所述多个概念各自最终的概念检测分类器合并为最佳概念检测分类器;
将所述待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到所述最佳概念检测分类器中以确定每个概念在所述待测数据中出现的概率。
2.根据权利要求1所述的方法,其特征在于,在所述根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表的步骤之前,所述方法还包括:
为所述多个概念添加一个背景类。
3.根据权利要求1所述的方法,其特征在于,20≤K≤200。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据取样策略选取包含标注信息的每个概念的训练数据。
5.根据权利要求4所述的方法,其特征在于,所述取样策略为
Figure FSA00000255742800021
其中,Ni为采样前的第i个概念的正样本数量,ni为采样后的第i个概念的训练数据的数量,ai为介于0和1之间的取样策略参数。
6.一种图像概念的检测装置,其特征在于,所述装置包括:
局部特征提取模块,用于利用SIFT算法分别获取待测数据的局部特征和多个概念的训练数据的局部特征;
聚类模块,与所述局部特征提取模块相连,用于根据不同的量化策略,利用K均值聚类法和每个概念的训练数据的局部特征聚集出关于每个概念的不同长度的单词表,将所述多个概念各自的不同长度的单词表合并为词袋模型{B1,B2,...,Bi,...,BN},并分别统计所述待测数据的局部特征的直方图和所述多个概念的训练数据的局部特征的直方图,其中,所述直方图为局部特征在所述词袋模型{B1,B2,...,Bi,...,BN}的各单词表Bi的每个子单词表中出现的次数,单词表Bi为所述多个概念在第i个量化策略下的单词表,所述单词表Bi包含多个与概念相对应的子单词表,每个子单词表为每个概念在第i个量化策略下的单词表,所述每个子单词表的长度由量化策略决定,量化策略由K值决定,1≤i≤N,N≥2,K>1;
分类模型训练模块,分别与所述局部特征提取模块和所述聚类模块相连,用于将每个概念的训练数据的局部特征分为训练集和校验集,利用所述训练集、所述校验集、每个概念的训练数据的概念标注信息以及每个概念的训练数据的局部特征的直方图训练二元支持向量机分类器,并利用所述校验集在所述二元支持向量机分类器上计算出与所述词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率以及训练出与每个单词表Bi中的每个子单词表相对应的每个概念的分类模型;
交叉验证模块,与所述聚类模块和所述分类模型训练模块相连,用于对计算出的与所述词袋模型{B1,B2,...,Bi,...,BN}的每个单词表Bi中的每个子单词表相对应的每个概念的训练数据的局部特征的检测平均准确率进行交叉验证,以在所述词袋模型{B1,B2,...,B1,...,BN}中选取出与每个概念的最大检测平均准确率相对应的子单词表作为每个概念的最佳子单词表,并将训练出的与每个概念的最佳子单词表相对应的分类模型作为每个概念最终的概念检测分类器,将所述多个概念各自最终的概念检测分类器合并为最佳概念检测分类器;
概念检测模块,与所述聚类模块和所述交叉验证模块相连,用于将所述待测数据的局部特征在每个概念的最佳子单词表上统计出的直方图输入到所述最佳概念检测分类器中以确定每个概念在所述待测数据中出现的概率。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
类添加模块,与所述聚类模块相连,用于为所述多个概念添加一个背景类。
8.根据权利要求6所述的装置,其特征在于,20≤K≤200。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
取样模块,与所述局部特征提取模块相连,用于根据取样策略选取包含标注信息的每个概念的训练数据。
10.根据权利要求9所述的装置,其特征在于,所述取样策略为
Figure FSA00000255742800031
其中,Ni为采样前的第i个概念的正样本数量,ni为采样后的第i个概念的训练数据的数量,ai为介于0和1之间的取样策略参数。
CN201010271693.XA 2010-09-03 2010-09-03 图像概念的检测方法和装置 Active CN102385592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010271693.XA CN102385592B (zh) 2010-09-03 2010-09-03 图像概念的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010271693.XA CN102385592B (zh) 2010-09-03 2010-09-03 图像概念的检测方法和装置

Publications (2)

Publication Number Publication Date
CN102385592A true CN102385592A (zh) 2012-03-21
CN102385592B CN102385592B (zh) 2014-07-09

Family

ID=45825012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010271693.XA Active CN102385592B (zh) 2010-09-03 2010-09-03 图像概念的检测方法和装置

Country Status (1)

Country Link
CN (1) CN102385592B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104299010A (zh) * 2014-09-23 2015-01-21 深圳大学 一种基于词袋模型的图像描述方法及***
CN104657427A (zh) * 2015-01-23 2015-05-27 华东师范大学 一种基于优化视觉词袋信息量权重的图像概念检测方法
CN104657742A (zh) * 2015-01-23 2015-05-27 华东师范大学 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核
CN105825178A (zh) * 2016-03-14 2016-08-03 民政部国家减灾中心 基于遥感图像的功能区划分方法以及设备
CN106650778A (zh) * 2016-10-14 2017-05-10 北京邮电大学 一种词袋模型优化和图像识别的方法及装置
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN110516737A (zh) * 2019-08-26 2019-11-29 南京人工智能高等研究院有限公司 用于生成图像识别模型的方法和装置
CN111460971A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111753881A (zh) * 2020-05-28 2020-10-09 浙江工业大学 一种基于概念敏感性量化识别对抗攻击的防御方法
CN113222018A (zh) * 2021-05-13 2021-08-06 郑州大学 一种图像分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398846A (zh) * 2008-10-23 2009-04-01 上海交通大学 基于局部颜色空间特征的图像语义概念检测的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398846A (zh) * 2008-10-23 2009-04-01 上海交通大学 基于局部颜色空间特征的图像语义概念检测的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANA P. B. LOPES等: "A BAG-OF-FEATURES APPROACH BASED ON HUE-SIFT DESCRIPTOR FOR NUDE DETECTION", 《17TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO 2009)》 *
田甜等: "一种基于PLSA 和词袋模型的图像分类新方法", 《咸阳师范学院学报》 *
黄鉴欣等: "基于词袋的图像分类中的分类器比较研究", 《PATTERN RECOGNITION, 2009. CCPR 2009. CHINESE CONFERENCE ON 》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104299010B (zh) * 2014-09-23 2017-11-10 深圳大学 一种基于词袋模型的图像描述方法及***
CN104299010A (zh) * 2014-09-23 2015-01-21 深圳大学 一种基于词袋模型的图像描述方法及***
CN104657427A (zh) * 2015-01-23 2015-05-27 华东师范大学 一种基于优化视觉词袋信息量权重的图像概念检测方法
CN104657742A (zh) * 2015-01-23 2015-05-27 华东师范大学 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核
CN105825178A (zh) * 2016-03-14 2016-08-03 民政部国家减灾中心 基于遥感图像的功能区划分方法以及设备
CN106650778A (zh) * 2016-10-14 2017-05-10 北京邮电大学 一种词袋模型优化和图像识别的方法及装置
CN106650778B (zh) * 2016-10-14 2019-08-06 北京邮电大学 一种词袋模型优化和图像识别的方法及装置
CN109726726B (zh) * 2017-10-27 2023-06-20 北京邮电大学 视频中的事件检测方法及装置
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN110516737A (zh) * 2019-08-26 2019-11-29 南京人工智能高等研究院有限公司 用于生成图像识别模型的方法和装置
CN110516737B (zh) * 2019-08-26 2023-05-26 南京人工智能高等研究院有限公司 用于生成图像识别模型的方法和装置
CN111460971A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111460971B (zh) * 2020-03-27 2023-09-12 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111753881A (zh) * 2020-05-28 2020-10-09 浙江工业大学 一种基于概念敏感性量化识别对抗攻击的防御方法
CN111753881B (zh) * 2020-05-28 2024-03-29 浙江工业大学 一种基于概念敏感性量化识别对抗攻击的防御方法
CN113222018A (zh) * 2021-05-13 2021-08-06 郑州大学 一种图像分类方法

Also Published As

Publication number Publication date
CN102385592B (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN102385592B (zh) 图像概念的检测方法和装置
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
CN105574550A (zh) 一种车辆识别方法及装置
CN109711422A (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN105809205B (zh) 一种高光谱图像的分类方法及其***
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN103810274A (zh) 基于WordNet语义相似度的多特征图像标签排序方法
CN111046910A (zh) 图像分类、关系网络模型训练、图像标注方法及装置
CN109117885A (zh) 一种基于深度学习的邮票识别方法
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN108073940B (zh) 一种非结构化环境中的3d目标实例物体检测的方法
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN110866931B (zh) 图像分割模型训练方法及基于分类的强化图像分割方法
Unar et al. New strategy for CBIR by combining low‐level visual features with a colour descriptor
Nie et al. Hyperspectral image classification based on multiscale spectral–spatial deformable network
CN111553361B (zh) 一种病理切片标签识别方法
Xu et al. Robust seed localization and growing with deep convolutional features for scene text detection
Ji et al. Research on indoor scene classification mechanism based on multiple descriptors fusion
Wang et al. Balanced-RetinaNet: solving the imbalanced problems in object detection
CN110647844A (zh) 一种儿童用物品拍摄识别方法
CN117152142B (zh) 一种轴承缺陷检测模型构建方法及***
Wang et al. Wheat ear detection using anchor-free ObjectBox model with attention mechanism
Guyomard et al. Contextual detection of drawn symbols in old maps

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant