CN105844299B - 一种基于词袋模型的图像分类方法 - Google Patents

一种基于词袋模型的图像分类方法 Download PDF

Info

Publication number
CN105844299B
CN105844299B CN201610171326.XA CN201610171326A CN105844299B CN 105844299 B CN105844299 B CN 105844299B CN 201610171326 A CN201610171326 A CN 201610171326A CN 105844299 B CN105844299 B CN 105844299B
Authority
CN
China
Prior art keywords
image
svm
model
histogram
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610171326.XA
Other languages
English (en)
Other versions
CN105844299A (zh
Inventor
桂江生
张青
包晓安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sci Tech University ZSTU
Original Assignee
Zhejiang Sci Tech University ZSTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sci Tech University ZSTU filed Critical Zhejiang Sci Tech University ZSTU
Priority to CN201610171326.XA priority Critical patent/CN105844299B/zh
Publication of CN105844299A publication Critical patent/CN105844299A/zh
Application granted granted Critical
Publication of CN105844299B publication Critical patent/CN105844299B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于词袋模型的图像分类方法,所述图像分类方法根据预先训练好的SVM模型,对待分类图像进行特征提取,得到所提取的特征点,对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型,根据图像特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量,最后将待分类图像的直方图向量输入到训练好的SVM模型,完成图像的分类。本发明采用了全新的核函数训练SVM模型,本发明方法降低了计算难度,而且保留了局部特征间的空间信息,提高了图像分类的精度,减少了分类时间。

Description

一种基于词袋模型的图像分类方法
技术领域
本发明属于图像分类领域,尤其涉及一种基于词袋模型的图像分类方法。
背景技术
随着计算机与互联网技术以及数字图像获取技术的快速发展,图像信息的获取、使用、交换和传输变得越来越方便,每时每刻都有海量的数字图像出现在互联网以及人们周边。依靠人工对图像进行分类、组织和管理非常的耗时耗力,而且工作单调枯燥。为了及时完成数字图像的组织和管理,将人力从单调枯燥的人工图像管理工作中解放出来,我们希望能够通过计算机对图像中的目标内容进行自动地描述,并根据这些描述将图像数据快速、规范、自动的进行组织、归类和管理。因此使用计算机对大规模的数字图像进行快速有效的分类和管理,对人类生活和社会发展具有重大的作用和意义。使用计算机自动地对图像进行分类和管理在图像检索、视频检索、遥感图像应用、医学图像应用、机器人领域、旅游导航等领域有着广阔的应用前景。
图像分类技术的基本思想是根据图像中包含的内容,用计算机把图像划分到其所属的特定的语义类别中。这种技术能够在一定程度上对图像内容进行自动理解,将数字图像转化为人们所能理解的形式,是实现图像语义内容自动提取的重要途径。早期的图像分类主要依赖于文本特征,使用的是基于文本的图像分类模式。图像标注需要人为地辨识并为其选定关键字,而不同的人对其所要检索的图像内容有不同的理解,即使是同一个人也可能因为检索目的不同而对相同的内容标注不同的关键字。随着计算机技术和数字化图像技术的发展,图像库的规模越来越大,人工标注的方式无法满足快速产生的内容标注的要求,完全依靠人工对图像进行分类己不可能,人们开始逐渐将研究的重点转移到基于图像内容分析的自动分类研究上。
基于内容的图像分类技术不需要进行任何人工标注的语义信息,而是直接对图像所包含的信息进行处理和分析,利用图像底层视觉特征来进行图像分类。这种分类技术首先对图像进行特征提取,将不易受随机因素干扰的信息作为该图像的特征提取出来,即使用图像本身的颜色、形状、纹理等图像基本视觉特征描述图像,建立视觉特征与图像类别之间的关联来实现图像的自动分类。
词袋模型源于自然语言处理和信息检索,这种模型将文本看作是无序的单词集合,根据文本中单词的统计信息完成对文本的分类。与文本相似,图像可以被视为一些与位置无关的局部特征的集合,这些局部特征的地位就类似于文本中的单词,这里叫作“视觉单词”,视觉单词的集合叫作“视觉词典”。图像的灰度、梯度等低级特征通过视觉单词形成了终极语义表示。2004年起,词袋模型被广泛的应用到了图像的目标分类和场景识别中。早期应用到图像中的词袋模型大多用于文本分类,近年来,对词袋模型的研究方向从底层的特征提取和描述开始转向于对视觉词典的建立和优化以及对分类方法的研究,进一步提高了算法的分类性能和计算效率。
发明内容
本发明的目的是提供一种基于词袋模型的图像分类方法,以提高图像分类的精度,降低计算复杂度,减少分类时间。
为了实现上述目的,本发明技术方案如下:
一种基于词袋模型的图像分类方法,所述图像分类方法包括:
对待分类图像进行特征提取,得到所提取的特征点;
对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型;
根据图像特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量;
将待分类图像的直方图向量输入到训练好的SVM模型,完成图像的分类。
其中,所述SVM模型的训练过程,包括:
对训练样本图像进行特征提取,得到所提取的特征点;
对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型;
根据特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量;
采用训练样本的直方图向量训练SVM模型。
进一步地,所述对图像进行特征提取,得到所提取的特征点,包括:
检测图像的尺度空间的极值点;
过滤极值点得到特征点;
确定每个特征点的方向参数;
生成特征点描述子,完成特征点的提取。
进一步地,所述根据特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量,包括:
利用空间金字塔模型生成图像每个特征类型的直方图;
为特征类型的直方图添加权重;
计算图像特征类型的权重直方图;
根据图像每个特征类型的权重直方图,形成图像的直方图向量。
进一步地,所述采用训练样本的直方图向量训练SVM模型,包括:
构建SVM训练核函数KSVM(xi,xj);
选择惩罚因子,根据构建的SVM训练核函数求解以下最优化问题得到最优解α*
选择α*的一个小于C的正分量结合SVM训练核函数求解b*
根据SVM训练核函数以及b*构建SVM模型的决策函数,完成SVM模型的训练,所述决策函数为:
其中xi是训练样本的第i个样本的特征向量直方图,yi∈{1,-1},i=1,2,...,l是与xi对应的样本标记,同样的xj是训练样本的第j个样本的特征向量直方图,yj∈{1,-1},j=1,2,...,l是与xj对应的样本标记,l表示训练样本的总数,sgn(·)为符号函数,为样本对应的拉格朗日乘子,b*表示分类阈值,z为待分类图像的直方图向量。
所述SVM训练核函数KSVM(xi,xj)为:
其中,a是参数,W表示直方图向量的维度,是双伽马函数,I=[1,1,..,1]T表示全1列向量,维度为W×1,β=[β12,...,βW]T表示狄利克雷概率分布模型参数;
其中 表示对β求梯度,为直方图向量的狄利克雷概率分布模型,x表示直方图向量,diag(.)表示对角矩阵,是一个三角伽马函数,Q表示全1向量,维度为W×W,T表示转置。
进一步地,所述构建SVM训练核函数KSVM(xi,xj),包括:
将直方图向量x输入到狄利克雷概率分布模型中:
其中x表示直方图向量,W表示直方图向量的维度,β=[β12,...,βW]T表示狄利克雷概率分布模型参数,表示伽马函数;
当狄利克雷概率分布模型的ln似然函数获得最大值时,相应的模型参数使得模型最合理,根据以下公式求得模型参数β=[β12,...,βW]T
将β代入到狄利克雷概率分布模型中并计算狄利克雷概率分布模型的ln似然函数的梯度,将一个可变长度的直方图向量x变换成一个固定长度的向量H(x):
表示对β求梯度,其中是双伽马函数,I表示全1向量;
对H(x)进行白化变换得到白化向量Ψ(x):
Ψ(x)=G-1/2H(x)
其中表示H(x)的协方差矩阵,diag(.)表示对角矩阵,是一个三角伽马函数,I表示全1向量,T表示转置;
从而构建SVM训练核函数KSVM(xi,xj)为:
其中xi与xj表示直方图向量;
使用参数a将ln(x)优化为ln(x+a),构建的SVM核函数为:
进一步地,所述将待分类图像的直方图向量输入到训练好的SVM模型,完成图像的分类,包括:
将待分类图像的直方图向量z输入到SVM模型的决策函数,当f(z)>0表示z为正样本,f(z)<0表示z为负样本,f(z)=0不做判断。
本发明提出了一种基于词袋模型的图像分类方法,在处理分类的SVM分类器核函数的选择上,结合了空间金字塔和狄利克雷概率分布的优点提出了新的核函数SPPD,SPPD核函数不仅与原始特征保持了同样的维度,降低了计算难度,而且保留了局部特征间的空间信息,提高了图像分类的精度,减少了分类时间。
附图说明
图1为本发明SVM模型的训练过程流程图;
图2为本发明实施例利用空间金字塔模型生成图像每个特征类型的直方图示意图;
图3为本发明基于词袋模型的图像分类方法流程图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
本实施例采用支持向量机SVM(Support Vector Machine)模型来进行图像分类,首先需要采用训练样本训练学习得到SVM模型,然后采用学习得到的SVM模型对待分类的图像进行分类。
本实施例本实施例采用VOC2007数据集作为训练样本,来进行SVM模型训练。完成SVM模型的训练过程如图1所示,包括步骤:
S01:对训练样本图像进行特征提取,得到所提取的特征点。
图像的特征提取,可以通过兴趣点检测、密集采样或随机采集,结合图割区域、显著区域等方式获得图像的局部特征,例如SIFT或Dense-SIFT描述子。本实施例对训练样本图像进行特征提取的具体步骤如下:
1):检测训练样本图像的尺度空间的极值点。
为了分析训练样本图像中各个局部特征的尺度,训练样本图像要通过一系列平滑操作得到图像的尺度空间。这里图像的尺度空间定义为L(x,y,σ),它是由一个可变尺度的二维高斯函数G(x,y,σ)和图像I(x,y)卷积得到的,公式如下:L(x,y,σ)=G(x,y,δ)*I(x,y)
这里*是指在x,y上的卷积操作,σ是尺度空间因子,且有:
为了有效地检测尺度空间稳定的特征点的位置,常使用由DoG(Difference ofGaussian)函数和图像做卷积而得到的尺度空间D(x,y,δ)进行极值检测。D(x,y,δ)可以通过对两个相邻高斯尺度的图像相减获得。
D(x,y,σ)=(G(x,y,kσ)-G(x,y,δ))*I(x,y)=L(x,y,kσ)-L(x,y,δ)
这里,k是常数,δ表示两相邻尺度空间的倍数。在进行局部极值点检测时,以像素点为单位,将每个像素点与和它相同尺度且相邻的8个像素点以及相邻像素点对应位置的9个点比较,因为相邻尺度有两个,因此是9*2=18个点。这样,每一个采样点与9*2+8=26个点进行比较,只有该点的值比其对应的26个点的值都大或者都小的时候,该点才会被选择为极值点。
2):过滤极值点得到特征点。
上面通过比较一个像素和它邻域的点确定了极值点,由于在金字塔中存在降采样的图像,所以接下来要确定这个候选特征点的位置,尺度等信息。首先在某极值点对D(x,y,σ)进行泰勒展开:
其中X=(x,y,σ)T是到该极值点的偏移量。对上式求导并令倒数等于0,得到精确的位置
在已经检测到的极值点中,要去除低对比度的点和不稳定的边缘响应点。为了去除低对比度的点,首先需要把公式②代入公式①,得到极值点处的极值:
在任一方向上的偏移大于0.5时,认为这个极值离其他的采样点更近,这个点需要删除。假设图像的灰度范围是0到1.0之间,当极值时,这样的点已受到噪声的干扰,也要删除。
现在我们需要去除不稳定的边缘响应点,一个相对平坦的DoG函数在横跨边缘的时候会有较大的主曲率,在垂直的方向有较小的主曲率,主曲率可以通过Hessian矩阵计算出:
H的特征值与D的主曲率成正比,可以避免计算其具体的特征值,因为特征值的比例才是我们所关心的。这里令α为较大的特征值,β为较小的特征值,有
Tr(H)=Dxx+Dxy=α+β
Det(H)=DxxDxy-Dxy 2=αβ
令r=α/β,有
我们给定r=10。对于主曲率比值大于10的极值点被删除。
在去除低对比度的点和不稳定的边缘响应点后,剩下的极值点作为提取的特征点。
3)确定每个特征点的方向参数。
为了实现图像的旋转不变性,需要根据检测到的特征点的图像局部结构确定一个方向基准。本方法使用图像梯度的方法来求取图像局部结构的基准方向。
这里m(x,y)和θ(x,y)分别为特征点3×1.5σ半径的区域内的图像梯度的梯度值和方向,σ是特征点的尺度值。
4)生成特征点描述子,完成特征点的提取。
为了保证特征矢量具有旋转不变性,以特征点为中心,将特征点邻域内的梯度的位置和方向旋转一个角度θ。
为了增强计算过程中的鲁棒性,以特征点为中心取16*16的邻域作为采样窗口,每个小格代表特征点邻域所在尺度空间的一个像素,箭头代表该像素的梯度方向,箭头长度代表梯度的大小。将采样点和特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图,最后获得4*4*8的128维特征向量,该特征向量通常称为SIFT描述子。
S02:对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型。
本步骤是在整个训练集上提取局部特征后,实用某种聚类算法将局部特征进行聚类,每个聚类中心可以看作是视觉词典中的一个视觉单词,所有视觉单词形成一个视觉词典。视觉单词相当于文本检索中的词,视觉单词由聚类中心对应特征形成的码字来表示。
本实施例采用K-均值方法来进行聚类,本实施例中特征类型相当于词袋模型中的视觉单词。具体步骤如下:
1)对提取出的n个特征点的数据集,选取M个初始聚类中心μj,j=1,2,3,...,M;
2)计算每个特征点与聚类中心的距离D(xi,μj),i=1,2,3,...,n,j=1,2,3,...M,如果满足D(xi,μj)=min{D(xi,μj),j=1,2,3,...,n},则xi∈Sj;其中Sj(j=1,2,3,...,M)表示中心点为μj的第j个聚类类别。xi表示属于类别Sj的数据点。本步的目的是通过计算每个待分类的特征与聚类中心的距离,将n个数据集根据距离最小原则分到M个聚类中心的类别中。
3)计算误差平方和准则函数Jc并将每个簇的质心作为新的聚类中心。
4)重复计算S02和S03,直到Jc的值不变或者迭代次数达到设定的次数为止,例如150次为止。
5)通过前四个步骤,将所有特征点聚类成了M个特征类型μ1,...,μK∈RD
然后从所有特征类型中选出距离特征点xi最近的前5个特征类型
6)将特征点编码为其所属的特征类型。
本发明采用KCB编码方法,将特征点xi编码成如下形式:
其中σ为参数,本实施例σ=0.0001。
编码的目的是在特征类型空间中,寻找与特征点xi最近的前5个特征类型并进行加权,然后用这些加权特征类型来重新表述特征点。
S03:根据特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量。
具体步骤如下:
1)利用空间金字塔模型生成图像每个特征类型的直方图。
将图像从像素空间上分为L层,随着层数的增加,图像被分割成一些越来越精细的子区域(在本发明中,取L=3,分辨率分别为1*1,2*2,4*4)。在每个特征类型上,通过计算特征点落入每个子区域的数目来形成直方图hij,然后所有子区域的直方图被连接成一个大的特征向量hm
hm=[h1N(1),h21,...,h2N(2),h31,...,hij,...,hLN(L)]
对任何一个特征类型而言,N(i)表示第i层子区域的总数。hij表示第i层第j个子区域。hij的维度为d×1。hm表示图像的第m个特征类型的直方图。
如图2所示,假设图像中有三种特征类型,图2中表示为黑色圆点、菱形框和加号。对于黑色圆点而言,在第一层上有11个黑色圆点落入到子区域中,然后就在这个子区间上形成直方图,直方图的高度为11,如图2中最左边图像下的黑色直条所示,同样的对于菱形框和加号对应的特征类型的直方图,分别为白色直条和灰色直条。在第二层和第三层上的特征类型的直方图分别如图2中间和右边的图形所示,这里不再赘述。
2)为特征类型的直方图添加权重。
为hm的每个直方图添加如下的权重:
ωm=[ω1121,...,“2N(2)31,...,ωij,...,ωLN(L)]T
ωm表示图像的第m个特征类型的权重。ωm的维度为N×1。权重可以通过以下公式获得:
其中j=1,2,...,N(i)。ωij表示第i层第j个子区域的权重。
3)计算图像特征类型的权重直方图。
第m个特征类型的权重直方图拥有如下的形式:Fm=hmωm。因为我们有M个特征类型,所以我们可以得到M个特征类型的直方图集合以及所对应的权重集合:
h={h1,h2,...,hm,...,hM}
ω={ω12,...,ωm,...,ωM}
进一步,我们得到M个特征类型的权重直方图:
F={F1,F2,...,Fm,...,FM}
4)根据图像每个特征类型的权重直方图,形成图像的直方图向量。
对于L层M个特征类型的图像而言,最终的直方图向量z的维度为dM×1。图像的直方图向量Z为:
S04:采用训练样本的直方图向量训练SVM模型。
具体包括如下步骤:
01)、构建SVM训练核函数。
本发明提出一种新的核函数,SPPD核函数,它与原始特征保持了同样的维度,降低了SVM模型的计算复杂度。本实施例通过如下方法得到SVM核函数:
将直方图向量x输入到狄利克雷概率分布模型中,得到直方图向量的狄利克雷概率分布模型:
其中x表示直方图向量,W表示直方图向量的维度,β=[β12,...,βW]T表示狄利克雷概率分布模型参数,表示伽马函数。
根据概率论与数理统计的相关理论,当狄利克雷概率分布模型的ln似然函数获得最大值时,相应的模型参数可以使得模型最合理,根据以下公式求得模型参数β=[β12,...,βW]T
将β代入到狄利克雷概率分布模型中并计算狄利克雷概率分布模型的ln似然函数的梯度,将一个可变长度的直方图向量x变换成一个固定长度的向量H(x)。
表示对β求梯度,其中是双伽马函数,I=[1,1,..,1]T表示全1列向量,维度为W×1。
白化变换是一种去相关的变换,它可以消除维度间的相关性,减小数据的冗余,对H(x)进行白化变换得到白化向量Ψ(x)。
Ψ(x)=G-1/2H(x)
其中表示H(x)的协方差矩阵,diag(.)表示对角矩阵,是一个三角伽马函数,Q表示全1向量,维度为W×W,T表示转置。
本实施例将SPPD核函数定义为:
其中xi与xj表示直方图向量。
当x=0时ln(x)→-∞,将导致一些子区域直方图为0。因此使用参数a将ln(x)优化为ln(x+a),在本实施例中设置a=0.001,即构建的SVM核函数为:
02)、选择惩罚因子,构造并求解以下最优化问题,得到最优解
惩罚因子C表示对分类错误的样本的重视程度,C值越大表示出现分类错误的样本越少,该值一般在1.6与7.8之间,根据SPPD核函数以及惩罚因子C,构造并求解以下最优化问题,得到最优解
其中xi是训练样本的第i个样本的特征向量直方图,yi∈{1,-1},i=1,2,...,l是与xi对应的样本标记。同样的xj是训练样本的第j个样本的特征向量直方图,yj∈{1,-1},j=1,2,...,l是与xj对应的样本标记,l表示训练样本的总数。
03)、选择α*的一个小于C的正分量结合SPPD核函数求解b*
04)、根据SPPD核函数以及b*构建SVM模型的决策函数,完成SVM模型的训练。
其中sgn(·)为符号函数,为样本对应的拉格朗日乘子,b*表示分类阈值,xi是训练样本的第i个样本,yi∈{1,-1},i=1,2,...,l是与xi对应的样本标记,z为待分类图像的直方图向量。
在训练完成SVM模型后,采用训练得到的SVM模型对待分类的图像进行分类,如图3所示,具体包括步骤:
F01、对待分类图像进行特征提取,得到所提取的特征点;
F02、对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型;
F03、根据特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量;
F04、将待分类图像的直方图向量输入到训练好的SVM模型,完成图像的分类。
其中步骤F01、F02、F03与SVM模型训练中的步骤S01、S02、S03相同,这里不再赘述。从而通过步骤F01、F02、F03得到待分类图像的直方图向量z。最后将直方图向量z输入到SVM模型中,完成图像的分类。
即将待分类图像的直方图向量z输入到SVM模型的决策函数,当f(z)>0表示z为正样本,f(z)<0表示z为负样本,f(z)=0不做判断。
在VOC2007数据集上进行实验的结果如表1所示,给出六种方法(SPPD,Homker,JS+PQ,SIKMA,MKL,Linear)在每一类别的分类精度值,并且对每一类别中分类精度最高的数值进行加粗表示,最后通过mAP(mean average precisions)值来衡量每种方法的分类精度。
从表1中可以清楚的看到,五种方法的mAP值均在基本线性核的mAP值之上,在VOC2007数据集中,使用SPPD核的方法的mAP值比其他方法的mAP值要好,获得了20个类别中的19个类别的分类最佳效果。具体地说,在VOC2007数据集的Motorbike类别中,SPPD核的mAP值比JS+PQ核的mAP值高0.3194,比SIKMA核的mAP值高0.2311,比MKL方法的mAP值高0.2105,比Homker核的mAP值高0.1885。
表1
根据PASCAL VOC2007的官方申明,准确率/查全率(precision/recall)曲线提供了比ROC曲线更加直观以及更加敏感的评估性能。采用准确率/查全率曲线分析不同方法的分类表现。在实验中,希望查询到的相关图像越多越好即准确率越高越好。同样的,希望查询到的图像越多越好即查全率越高越好。但是实际应用中,它们是相互制约的。以查全率为横坐标,准确率为纵坐标绘制查全率/准确率曲线。如果一种分类方法所绘制出的PR曲线最靠近右上角(即查全率与准确率最高)时,则该分类方法是所有方法中分类效果最好的。为了获得真实、令人信服的结果,本实施例每个实验重复运行5次,通过比较6种方法在数据集VOC2007上的PR曲线,可得本实施例的SPPD核优于其他核。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种基于词袋模型的图像分类方法,其特征在于,所述图像分类方法包括:
对待分类图像进行特征提取,得到所提取的特征点;
对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型;
根据图像特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量;
将待分类图像的直方图向量输入到训练好的SVM模型,完成图像的分类;
所述SVM模型的训练过程,包括:
对训练样本图像进行特征提取,得到所提取的特征点;
对特征点进行聚类得到特征类型,并将特征点表述为其所属的特征类型;
根据特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量;
采用训练样本的直方图向量训练SVM模型;
所述采用训练样本的直方图向量训练SVM模型,其中训练SVM模型时的SVM训练核函数KSVM(xi,xj)为:
其中,a是参数,W表示直方图向量的维度,是双伽马函数,I=[1,1,..,1]T表示全1列向量,维度为W×1,β=[β12,...,βW]Τ表示狄利克雷概率分布模型参数;
其中 表示对β求梯度,为直方图向量的狄利克雷概率分布模型,x表示直方图向量,diag(.)表示对角矩阵,是一个三角伽马函数,Q表示全1向量,维度为W×W,T表示转置。
2.根据权利要求1所述的图像分类方法,其特征在于,所述对图像进行特征提取,得到所提取的特征点,包括:
检测图像的尺度空间的极值点;
过滤极值点得到特征点;
确定每个特征点的方向参数;
生成特征点描述子,完成特征点的提取。
3.根据权利要求1所述的图像分类方法,其特征在于,所述根据特征点所属的特征类型,利用空间金字塔模型形成图像的直方图向量,包括:
利用空间金字塔模型生成图像每个特征类型的直方图;
为特征类型的直方图添加权重;
计算图像特征类型的权重直方图;
根据图像每个特征类型的权重直方图,形成图像的直方图向量。
4.根据权利要求1所述的图像分类方法,其特征在于,所述采用训练样本的直方图向量训练SVM模型,包括:
构建SVM训练核函数KSVM(xi,xj);
选择惩罚因子,根据构建的SVM训练核函数求解以下最优化问题得到最优解α*
0≤αi≤C,i=1,2,...,l
选择α*的一个小于C的正分量结合SVM训练核函数求解b*
根据SVM训练核函数以及b*构建SVM模型的决策函数,完成SVM模型的训练,所述决策函数为:
其中xi是训练样本的第i个样本的特征向量直方图,yi∈{1,-1},i=1,2,...,l是与xi对应的样本标记,同样的xj是训练样本的第j个样本的特征向量直方图,yj∈{1,-1},j=1,2,...,l是与xj对应的样本标记,l表示训练样本的总数,sgn(·)为符号函数,为样本对应的拉格朗日乘子,b*表示分类阈值,z为待分类图像的直方图向量,C为惩罚因子,l表示训练样本的总数。
5.根据权利要求4所述的图像分类方法,其特征在于,所述构建SVM训练核函数KSVM(xi,xj),包括:
将直方图向量x输入到狄利克雷概率分布模型中:
其中x表示直方图向量,W表示直方图向量的维度,β=[β12,...,βW]Τ表示狄利克雷概率分布模型参数,表示伽马函数;
当狄利克雷概率分布模型的ln似然函数获得最大值时,相应的模型参数使得模型最合理,根据以下公式求得模型参数β=[β12,...,βW]Τ
将β代入到狄利克雷概率分布模型中并计算狄利克雷概率分布模型的ln似然函数的梯度,将一个可变长度的直方图向量x变换成一个固定长度的向量H(x):
表示对β求梯度,其中是双伽马函数,I=[1,1,..,1]T表示全1列向量,维度为W×1;
对H(x)进行白化变换得到白化向量Ψ(x):
Ψ(x)=G-1/2H(x)
其中表示H(x)的协方差矩阵,diag(.)表示对角矩阵,是一个三角伽马函数,Q表示全1向量,维度为W×W,T表示转置;
从而构建SVM训练核函数KSVM(xi,xj)为:
其中xi与xj表示直方图向量;
使用参数a将ln(x)优化为ln(x+a),构建的SVM核函数为:
6.根据权利要求4所述的图像分类方法,其特征在于,所述将待分类图像的直方图向量输入到训练好的SVM模型,完成图像的分类,包括:
将待分类图像的直方图向量z输入到SVM模型的决策函数,当f(z)>0表示z为正样本,f(z)<0表示z为负样本,f(z)=0不做判断。
CN201610171326.XA 2016-03-23 2016-03-23 一种基于词袋模型的图像分类方法 Expired - Fee Related CN105844299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610171326.XA CN105844299B (zh) 2016-03-23 2016-03-23 一种基于词袋模型的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610171326.XA CN105844299B (zh) 2016-03-23 2016-03-23 一种基于词袋模型的图像分类方法

Publications (2)

Publication Number Publication Date
CN105844299A CN105844299A (zh) 2016-08-10
CN105844299B true CN105844299B (zh) 2019-04-23

Family

ID=56584378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610171326.XA Expired - Fee Related CN105844299B (zh) 2016-03-23 2016-03-23 一种基于词袋模型的图像分类方法

Country Status (1)

Country Link
CN (1) CN105844299B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777050B (zh) * 2016-12-09 2019-09-06 大连海事大学 一种基于词袋模型且兼顾语义相关性的鞋印花纹表达方法及***
CN107633065B (zh) * 2017-09-21 2020-06-02 天津大学 一种基于手绘草图的识别方法
CN111373393B (zh) * 2017-11-24 2022-05-31 华为技术有限公司 图像检索方法和装置以及图像库的生成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法
CN103366175A (zh) * 2013-07-14 2013-10-23 西安电子科技大学 基于潜在狄利克雷分配的自然图像分类方法
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query
CN103366175A (zh) * 2013-07-14 2013-10-23 西安电子科技大学 基于潜在狄利克雷分配的自然图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dirichlet-based Histogram Feature Transform for Image Classification;Takumi Kobayashi 等;《Computer Vision and Pattern Recognition》;20140925;第3278-3285页 *
一种基于词袋模型的图像优化分类方法;赵春晖 等;《电子与信息学报》;20120915;第34卷(第9期);第2064-2070页,第2065页第2节,第2066页第3.1节 *
基于BoW模型的图像分类方法研究;王莹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315(第3期);I138-1563,正文第9-13页第2.2节,第20-21页 *
赵春晖 等.一种基于词袋模型的图像优化分类方法.《电子与信息学报》.2012,第34卷(第9期),第2064-2070页,第2065页第2节,第2066页第3.1节. *

Also Published As

Publication number Publication date
CN105844299A (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN107480620B (zh) 基于异构特征融合的遥感图像自动目标识别方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN106126585B (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
CN104778242A (zh) 基于图像动态分割的手绘草图图像检索方法及***
CN109740686A (zh) 一种基于区域池化和特征融合的深度学习图像多标记分类方法
Zhang et al. Road recognition from remote sensing imagery using incremental learning
CN104850822B (zh) 基于多特征融合的简单背景下的叶片识别方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN108734200B (zh) 基于bing特征的人体目标视觉检测方法和装置
CN106909895B (zh) 一种基于随机投影多核学习的手势识别方法
CN109886161A (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN109299305A (zh) 一种基于多特征融合的空间图像检索***及检索方法
CN109213886B (zh) 基于图像分割和模糊模式识别的图像检索方法及***
CN105844299B (zh) 一种基于词袋模型的图像分类方法
Li et al. Airplane detection using convolutional neural networks in a coarse-to-fine manner
CN113032613A (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
Wei et al. Food image classification and image retrieval based on visual features and machine learning
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN110991554A (zh) 一种基于改进pca的深度网络图像分类方法
CN109902690A (zh) 图像识别技术
Zheng et al. Superpixel-based image recognition for food images
CN111401434A (zh) 一种基于无监督特征学习的图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190423

Termination date: 20200323

CF01 Termination of patent right due to non-payment of annual fee