CN103605984A

CN103605984A - 基于超图学习的室内场景分类方法

Info

Publication number: CN103605984A
Application number: CN201310566625.XA
Authority: CN
Inventors: 俞俊; 王超杰
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2014-02-26
Anticipated expiration: 2033-11-14
Also published as: CN103605984B

Abstract

基于超图学习的室内场景分类方法，涉及室内场景分类。使用近百个目标检测子从图像中抽取出目标，根据形成的目标描述符组成的超级描述符作为图像的特征描述符；使用K近邻方法对图像描述符构建超图，计算出其拉普拉斯矩阵，构建半监督学习框架；构建一个线性回归模型，并将该线性回归模型加入到半监督学习框架内；依据所构建的半监督学习框架，并结合所提取的图像的特征描述符，对部分图像描述符进行标注，使得该半监督学习框能够自动迭代地预测出未标注图像的标签，从而完成图像分类，同时，线性回归模型在自动迭代过程中被初始化；依据线性回归模型，并结合所提取的图像的特征描述符，可对新加入的数据直接进行图像分类，而无须再次构建超图。

Description

基于超图学习的室内场景分类方法

技术领域

本发明涉及室内场景分类，尤其是涉及一种基于超图学习的室内场景分类方法。

背景技术

目前，室内场景分类一般采用低层次的特征描述符，主要包括色彩、纹理、形状等信息。这些低层次的特征描述符对室外场景分类有较好的效果，然而由于室内场景复杂的物体种类和重叠，因而在室内场景分类效果上表现一般。随着相关技术的发展，有一些改进的图像特征描述符被引进用来改进图像的分类效果，如金字塔匹配因子（[1]S.Lazebnik,C.Schmid,andJ.Ponce,“Beyond bags of features:Spatial pyramid matching for recognizing natural scenecategories,”in Proc.IEEE Int.Conf.Computer Vision and Pattern Recognition,2006,vol.2,pp.2169–2178）、全局描述子（[2]C.Siagian and L.Itti,“Rapid biologically-inspired sceneclassification using features shared with visual attention,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.29,no.2,pp.300–312,Feb.2007）等等，然而这些改进的图像特征描述由于没有解决室内场景图像的核心问题，并不能大幅度地提高室内场景的分类效果。采用高层次的包含图像语义的特征描述符，由于保存了图像大量的语义，能够识别出室内场景中多种物体，对提高室内场景图像分类效果有着重要作用。

在用高层次图像描述符中，早期的研究提出了采用一系列的图像语义属性来描述图像信息，这些描述图像的方法在图像获取以及图像分类领域取得不错的效果。斯坦福大学实验室也提出一个新的做超级描述符（[3]L.Li,H.Su,E.Xing and F.Li,“Object Bank:A High-LevelImage Representation for Scene Classification and Semantic Feature Sparsification,”Proceedingsof the Neural Information Processing Systems(NIPS),2010）来描述图像，这种图像描述符在描述具有复杂物体的类的图像，尤其是室内图像上具有较好的描述效果。然而这些图像分类仍然采用常用的全监督方法来进行分类，不能够综合考虑到所有数据的全局属性信息和局部数据信息之间的关系，所以在图像分类效果上表现非常一般。

发明内容

本发明的目的在于提供一种基于超图学习的室内场景分类方法。

本发明包括以下步骤：

(1)使用近百个目标检测子从图像中抽取出目标，再根据形成的目标描述符组成的一个超级描述符，作为图像的特征描述符；

(2)使用K近邻方法对所有生成的图像描述符构建超图，并基于生成的超图计算出其拉普拉斯矩阵，进而构建半监督学习框架；

(3)构建一个线性回归模型，并将该线性回归模型加入到半监督学习框架内；

(4)依据步骤(3)中所构建的半监督学习框架，并结合步骤(1)所提取的图像的特征描述符，对部分图像描述符进行标注，使得该半监督学习框能够自动迭代地预测出未标注图像的标签，从而完成图像分类，同时，步骤(3)中的线性回归模型在自动迭代过程中被初始化；

(5)依据步骤(3)中的线性回归模型，并结合步骤(1)所提取的图像的特征描述符，可以对新加入的数据直接进行图像分类，而无须再次构建超图。

在步骤(2)中，所述构建半监督学习框架的具体方法可为：

首先计算出提取的图像的特征描述符两两之间的欧氏距离，并以此得到相关矩阵H：

H (&upsi;, e) = \{\begin{matrix} 1, & if&upsi; &Element; e \\ 0, & if&upsi; &NotElement; e \end{matrix}

其中υ表示超图的结点，e表示超图的边；

进而可以计算超图中每条边的权重w(e)、每个节点的度数d(υ)和每条超边的度数δ(e)，同时可使用w(e)、d(υ)和δ(e)作为对角元素构造其相关的对角矩阵W、D_υ和D_e，根据这三个对角矩阵及相关矩阵，可以计算得到中间结果Θ为：

使用单位矩阵I减去Θ则可得：

L＝I-Θ

计算结果L即表示该超图的拉普拉斯矩阵；基于该拉普拉斯矩阵可以构建出半监督学习框架的正则化项：

Ω(f)=f^TLf

其中f表示需要预测图像的标签向量，f^T表示向量f的转置向量；进而构造出半监督框架，其公式如下：

\arg \underset{F}{\min tr} F^{T} LF + λtr [{(F - Y)}^{T} (F - Y)]

其中Y表示对图像进行标注的矩阵，tr表示计算矩阵的迹，λ参数是一个非负的数，控制着模型复杂度和经验损失函数之间的平衡；通过计算该公式，可以得到全部数据的预测标签F。

在步骤(3)中，所述线性回归模型，其作用是对新加入的数据，能够使用该线性回归模型直接进行图像分类，而无须再次构建超图；线性回归模型公式如下：

g(x)=Q^Tx+θ

其中Q为线性回归模型的一次项参数，θ为常数项参数；将该线性回归模型嵌入到半监督学习框架内，则新的框架为：

\arg \min_{F, Q} tr F^{T} LF + λtr [{(F - Y)}^{T} (F - Y)]

+ α {| | XQ - F | |}_{F}^{2} + γ {| | Q | |}_{F}^{2}

其中，X表示每个图像的特征描述符，α和γ作为非负的正则参数，控制着模型的复杂度和经验损失函数之间的平衡；

根据上述公式的凸属性，可以分别计算各个参数的偏导数而求得F的最优解，首先用J表示该半监督学习框架，设F和Q的偏导数等于0得到：

\frac{&PartialD; J}{&PartialD; F} = 2 FL + 2 λ (F - Y) + 2 α (F - XQ)

&DoubleRightArrow; [L + (λ + α) I] F = Y + αXQ

\frac{&PartialD; J}{&PartialD; Q} = 2 α X^{T} (XQ - F) + 2 γQ

&DoubleRightArrow; (α X^{T} X + γI) Q = α X^{T} F

将第二个等式求得的Q代入到第一等式中，可以求得F的结果为：

F=(K-αXM)^-1Y

其中，中间结果K表示L+(λ+α)I，中间结果M表示(αX^TX+γI)^-1αX^T，此时将求得F代入求Q的偏导公式等式中可以得到Q为：

Q=(αX^TX+γI)^-1αX^TF=MF

得到Q即为线性回归模型的参数，当有新数据进入时，无须将新数据构建超图，可以直接根据公式g(x)=Q^Tx+θ来求得新数据的标签信息。

本发明使用原始图像数据构建一个超图，并使用半监督学习框架来预测未标注图像的标签，由于超图本身保存了比普通图更丰富的信息，而半监督学习框架不但考虑了全局数据的属性信息，同时也考虑到了标注数据和未标注数据之间的局部信息，因而本发明在室内场景分类方面取得较好的效果。

本发明具有的有益效果是：使用包含语义信息的图像描述符和半监督的学习框架来对室内场景进行分类，能有效的提供室内场景分类的精度。同时训练出的线性回归模型，能够加速新数据标签的预测。本发明为机器人路径选择以及室内监控领域提供了新的技术方法，有效提高了使用室内场景领域技术的效率。

附图说明

图1是本发明实施例的流程图。

图2是本发明与其他分类方法的分类效果比较示意图。在图2中，横坐标为训练数据的标注比例（%），纵坐标为分类准确率（%）；曲线a表示本发明超图学习方法，曲线b表示普通图方法，曲线c表示k近邻方法，曲线d表示拉普拉斯支持向量机，曲线e表示渐进直推式支持向量机，曲线f表示普通支持向量机。

图3是本发明使用的线性回归模型预测图像标签结果示意图。在图3中，横坐标为训练数据的标注比例（%），纵坐标为分类准确率（%）；曲线a表示10%训练数据生成的参数Q，曲线b表示20%训练数据生成的参数Q，曲线c表示30%训练数据生成的参数Q，曲线d表示40%训练数据生成的参数Q，曲线e表示50%训练数据生成的参数Q。

具体实施方式

本发明提出的基于超图学习的室内场景分类方法，根据图1介绍本发明的具体技术方案和实施步骤：

步骤一：使用近百个目标检测子从图像中抽取出目标，再根据形成的目标描述符组成的一个超级描述符，作为图像的特征描述符；

步骤二：使用K近邻方法对所有生成的图像描述符构建超图，并基于生成的超图计算出其拉普拉斯矩阵，进而构建出半监督学习框架；

步骤三：构建一个线性回归模型，并将该线性回归模型加入到半监督学习框架内；

步骤四：依据步骤三中所构建的半监督学习框架，并结合步骤一所提取的图像的特征描述符，对部分图像描述符进行标注，使得该半监督学习框能够自动迭代地预测出未标注图像的标签，从而完成图像分类。同时，步骤三中的线性回归的模型在自动迭代过程中被初始化；

步骤五：依据步骤三中的线性回归的模型，并结合步骤一所提取的图像的特征描述符，可以对新加入的数据直接进行图像分类，而无须再次构建超图。

关于步骤二中提到的构建半监督学习框架的具体方法，首先根据提取出的图像的特征描述符构建超图，并计算其相关矩阵H：

H (&upsi;, e) = \{\begin{matrix} 1, & if&upsi; &Element; e \\ 0, & if&upsi; &NotElement; e \end{matrix}

其中υ表示超图的结点，e表示超图的边。进而可以计算超图中每条边的权重w(e)，每个节点的度数d(υ)和每条超边的度数δ(e)，同时可使用w(e)，d(υ)和δ(e)作为对角元素构造其相关的对角矩阵W，D_υ和D_e，根据这三个对角矩阵及相关矩阵，可以计算得到中间结果Θ为：

使用单位矩阵I减去Θ则可得：

L＝I-Θ

计算结果L即表示该超图的拉普拉斯矩阵。基于该拉普拉斯矩阵可以构建出半监督学习框架的正则化项：

Ω(f)=f^TLf

其中f表示需要预测图像的标签向量，f^T表示向量f的转置向量。进而构造出半监督框架，其公式如下：

\arg \min_{F} tr F^{T} LF + λtr [{(F - Y)}^{T} (F - Y)]

其中Y表示对图像进行标注的矩阵，tr表示计算矩阵的迹，λ参数是一个非负的数，控制着模型复杂度和经验损失函数之间的平衡。通过计算该公式，可以得到全部数据的预测标签F。

步骤三中提到的线性回归的模型，其作用是对新加入的数据，能够使用该线性回归模型直接进行图像分类，而无须再次构建超图。该线性回归的模型公式如下：

g(x)=Q^Tx+θ

其中Q为线性回归模型的一次项参数，θ为常数项参数。将这个线性模型嵌入到半监督学习框架内，则新的框架为：

\arg \min_{F, Q} tr F^{T} LF + λtr [{(F - Y)}^{T} (F - Y)]

+ α {| | XQ - F | |}_{F}^{2} + γ {| | Q | |}_{F}^{2}

其中，X表示每个图像的特征描述符，α和γ作为非负的正则参数控制着模型的复杂度和经验损失函数之间的平衡。

\frac{&PartialD; J}{&PartialD; F} = 2 FL + 2 λ (F - Y) + 2 α (F - XQ)

&DoubleRightArrow; [L + (λ + α) I] F = Y + αXQ

\frac{&PartialD; J}{&PartialD; Q} = 2 α X^{T} (XQ - F) + 2 γQ

&DoubleRightArrow; (α X^{T} X + γI) Q = α X^{T} F

F=(K-αXM)^-1Y

Q=(αX^TX+γI)^-1αX^TF=MF

Claims

1.基于超图学习的室内场景分类方法，其特征在于包括以下步骤：

2.如权利要求1所述基于超图学习的室内场景分类方法，其特征在于在步骤(2)中，所述构建半监督学习框架的具体方法为：

H (&upsi;, e) = \{\begin{matrix} 1, & if&upsi; &Element; e \\ 0, & if&upsi; &NotElement; e \end{matrix}

其中υ表示超图的结点，e表示超图的边；

使用单位矩阵I减去Θ则可得：

L＝I-Θ

Ω(f)=f^TLf

\arg \min_{F} tr F^{T} LF + λtr [{(F - Y)}^{T} (F - Y)]

3.如权利要求1所述基于超图学习的室内场景分类方法，其特征在于在步骤(3)中，所述线性回归模型，其作用是对新加入的数据，能够使用该线性回归模型直接进行图像分类，而无须再次构建超图；线性回归模型公式如下：

g(x)=Q^Tx+θ

\arg \min_{F, Q} tr F^{T} LF + λtr [{(F - Y)}^{T} (F - Y)]

+ α {| | XQ - F | |}_{F}^{2} + γ {| | Q | |}_{F}^{2}

\frac{&PartialD; J}{&PartialD; F} = 2 FL + 2 λ (F - Y) + 2 α (F - XQ)

&DoubleRightArrow; [L + (λ + α) I] F = Y + αXQ

\frac{&PartialD; J}{&PartialD; Q} = 2 α X^{T} (XQ - F) + 2 γQ

&DoubleRightArrow; (α X^{T} X + γI) Q = α X^{T} F

F=(K-αXM)^-1Y

Q=(αX^TX+γI)^-1αX^TF=MF