CN103605984A - 基于超图学习的室内场景分类方法 - Google Patents
基于超图学习的室内场景分类方法 Download PDFInfo
- Publication number
- CN103605984A CN103605984A CN201310566625.XA CN201310566625A CN103605984A CN 103605984 A CN103605984 A CN 103605984A CN 201310566625 A CN201310566625 A CN 201310566625A CN 103605984 A CN103605984 A CN 103605984A
- Authority
- CN
- China
- Prior art keywords
- image
- hypergraph
- semi
- linear regression
- regression model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于超图学习的室内场景分类方法,涉及室内场景分类。使用近百个目标检测子从图像中抽取出目标,根据形成的目标描述符组成的超级描述符作为图像的特征描述符;使用K近邻方法对图像描述符构建超图,计算出其拉普拉斯矩阵,构建半监督学习框架;构建一个线性回归模型,并将该线性回归模型加入到半监督学习框架内;依据所构建的半监督学习框架,并结合所提取的图像的特征描述符,对部分图像描述符进行标注,使得该半监督学习框能够自动迭代地预测出未标注图像的标签,从而完成图像分类,同时,线性回归模型在自动迭代过程中被初始化;依据线性回归模型,并结合所提取的图像的特征描述符,可对新加入的数据直接进行图像分类,而无须再次构建超图。
Description
技术领域
本发明涉及室内场景分类,尤其是涉及一种基于超图学习的室内场景分类方法。
背景技术
目前,室内场景分类一般采用低层次的特征描述符,主要包括色彩、纹理、形状等信息。这些低层次的特征描述符对室外场景分类有较好的效果,然而由于室内场景复杂的物体种类和重叠,因而在室内场景分类效果上表现一般。随着相关技术的发展,有一些改进的图像特征描述符被引进用来改进图像的分类效果,如金字塔匹配因子([1]S.Lazebnik,C.Schmid,andJ.Ponce,“Beyond bags of features:Spatial pyramid matching for recognizing natural scenecategories,”in Proc.IEEE Int.Conf.Computer Vision and Pattern Recognition,2006,vol.2,pp.2169–2178)、全局描述子([2]C.Siagian and L.Itti,“Rapid biologically-inspired sceneclassification using features shared with visual attention,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.29,no.2,pp.300–312,Feb.2007)等等,然而这些改进的图像特征描述由于没有解决室内场景图像的核心问题,并不能大幅度地提高室内场景的分类效果。采用高层次的包含图像语义的特征描述符,由于保存了图像大量的语义,能够识别出室内场景中多种物体,对提高室内场景图像分类效果有着重要作用。
在用高层次图像描述符中,早期的研究提出了采用一系列的图像语义属性来描述图像信息,这些描述图像的方法在图像获取以及图像分类领域取得不错的效果。斯坦福大学实验室也提出一个新的做超级描述符([3]L.Li,H.Su,E.Xing and F.Li,“Object Bank:A High-LevelImage Representation for Scene Classification and Semantic Feature Sparsification,”Proceedingsof the Neural Information Processing Systems(NIPS),2010)来描述图像,这种图像描述符在描述具有复杂物体的类的图像,尤其是室内图像上具有较好的描述效果。然而这些图像分类仍然采用常用的全监督方法来进行分类,不能够综合考虑到所有数据的全局属性信息和局部数据信息之间的关系,所以在图像分类效果上表现非常一般。
发明内容
本发明的目的在于提供一种基于超图学习的室内场景分类方法。
本发明包括以下步骤:
(1)使用近百个目标检测子从图像中抽取出目标,再根据形成的目标描述符组成的一个超级描述符,作为图像的特征描述符;
(2)使用K近邻方法对所有生成的图像描述符构建超图,并基于生成的超图计算出其拉普拉斯矩阵,进而构建半监督学习框架;
(3)构建一个线性回归模型,并将该线性回归模型加入到半监督学习框架内;
(4)依据步骤(3)中所构建的半监督学习框架,并结合步骤(1)所提取的图像的特征描述符,对部分图像描述符进行标注,使得该半监督学习框能够自动迭代地预测出未标注图像的标签,从而完成图像分类,同时,步骤(3)中的线性回归模型在自动迭代过程中被初始化;
(5)依据步骤(3)中的线性回归模型,并结合步骤(1)所提取的图像的特征描述符,可以对新加入的数据直接进行图像分类,而无须再次构建超图。
在步骤(2)中,所述构建半监督学习框架的具体方法可为:
首先计算出提取的图像的特征描述符两两之间的欧氏距离,并以此得到相关矩阵H:
其中υ表示超图的结点,e表示超图的边;
进而可以计算超图中每条边的权重w(e)、每个节点的度数d(υ)和每条超边的度数δ(e),同时可使用w(e)、d(υ)和δ(e)作为对角元素构造其相关的对角矩阵W、Dυ和De,根据这三个对角矩阵及相关矩阵,可以计算得到中间结果Θ为:
使用单位矩阵I减去Θ则可得:
L=I-Θ
计算结果L即表示该超图的拉普拉斯矩阵;基于该拉普拉斯矩阵可以构建出半监督学习框架的正则化项:
Ω(f)=fTLf
其中f表示需要预测图像的标签向量,fT表示向量f的转置向量;进而构造出半监督框架,其公式如下:
其中Y表示对图像进行标注的矩阵,tr表示计算矩阵的迹,λ参数是一个非负的数,控制着模型复杂度和经验损失函数之间的平衡;通过计算该公式,可以得到全部数据的预测标签F。
在步骤(3)中,所述线性回归模型,其作用是对新加入的数据,能够使用该线性回归模型直接进行图像分类,而无须再次构建超图;线性回归模型公式如下:
g(x)=QTx+θ
其中Q为线性回归模型的一次项参数,θ为常数项参数;将该线性回归模型嵌入到半监督学习框架内,则新的框架为:
其中,X表示每个图像的特征描述符,α和γ作为非负的正则参数,控制着模型的复杂度和经验损失函数之间的平衡;
根据上述公式的凸属性,可以分别计算各个参数的偏导数而求得F的最优解,首先用J表示该半监督学习框架,设F和Q的偏导数等于0得到:
将第二个等式求得的Q代入到第一等式中,可以求得F的结果为:
F=(K-αXM)-1Y
其中,中间结果K表示L+(λ+α)I,中间结果M表示(αXTX+γI)-1αXT,此时将求得F代入求Q的偏导公式等式中可以得到Q为:
Q=(αXTX+γI)-1αXTF=MF
得到Q即为线性回归模型的参数,当有新数据进入时,无须将新数据构建超图,可以直接根据公式g(x)=QTx+θ来求得新数据的标签信息。
本发明使用原始图像数据构建一个超图,并使用半监督学习框架来预测未标注图像的标签,由于超图本身保存了比普通图更丰富的信息,而半监督学习框架不但考虑了全局数据的属性信息,同时也考虑到了标注数据和未标注数据之间的局部信息,因而本发明在室内场景分类方面取得较好的效果。
本发明具有的有益效果是:使用包含语义信息的图像描述符和半监督的学习框架来对室内场景进行分类,能有效的提供室内场景分类的精度。同时训练出的线性回归模型,能够加速新数据标签的预测。本发明为机器人路径选择以及室内监控领域提供了新的技术方法,有效提高了使用室内场景领域技术的效率。
附图说明
图1是本发明实施例的流程图。
图2是本发明与其他分类方法的分类效果比较示意图。在图2中,横坐标为训练数据的标注比例(%),纵坐标为分类准确率(%);曲线a表示本发明超图学习方法,曲线b表示普通图方法,曲线c表示k近邻方法,曲线d表示拉普拉斯支持向量机,曲线e表示渐进直推式支持向量机,曲线f表示普通支持向量机。
图3是本发明使用的线性回归模型预测图像标签结果示意图。在图3中,横坐标为训练数据的标注比例(%),纵坐标为分类准确率(%);曲线a表示10%训练数据生成的参数Q,曲线b表示20%训练数据生成的参数Q,曲线c表示30%训练数据生成的参数Q,曲线d表示40%训练数据生成的参数Q,曲线e表示50%训练数据生成的参数Q。
具体实施方式
本发明提出的基于超图学习的室内场景分类方法,根据图1介绍本发明的具体技术方案和实施步骤:
步骤一:使用近百个目标检测子从图像中抽取出目标,再根据形成的目标描述符组成的一个超级描述符,作为图像的特征描述符;
步骤二:使用K近邻方法对所有生成的图像描述符构建超图,并基于生成的超图计算出其拉普拉斯矩阵,进而构建出半监督学习框架;
步骤三:构建一个线性回归模型,并将该线性回归模型加入到半监督学习框架内;
步骤四:依据步骤三中所构建的半监督学习框架,并结合步骤一所提取的图像的特征描述符,对部分图像描述符进行标注,使得该半监督学习框能够自动迭代地预测出未标注图像的标签,从而完成图像分类。同时,步骤三中的线性回归的模型在自动迭代过程中被初始化;
步骤五:依据步骤三中的线性回归的模型,并结合步骤一所提取的图像的特征描述符,可以对新加入的数据直接进行图像分类,而无须再次构建超图。
关于步骤二中提到的构建半监督学习框架的具体方法,首先根据提取出的图像的特征描述符构建超图,并计算其相关矩阵H:
其中υ表示超图的结点,e表示超图的边。进而可以计算超图中每条边的权重w(e),每个节点的度数d(υ)和每条超边的度数δ(e),同时可使用w(e),d(υ)和δ(e)作为对角元素构造其相关的对角矩阵W,Dυ和De,根据这三个对角矩阵及相关矩阵,可以计算得到中间结果Θ为:
使用单位矩阵I减去Θ则可得:
L=I-Θ
计算结果L即表示该超图的拉普拉斯矩阵。基于该拉普拉斯矩阵可以构建出半监督学习框架的正则化项:
Ω(f)=fTLf
其中f表示需要预测图像的标签向量,fT表示向量f的转置向量。进而构造出半监督框架,其公式如下:
其中Y表示对图像进行标注的矩阵,tr表示计算矩阵的迹,λ参数是一个非负的数,控制着模型复杂度和经验损失函数之间的平衡。通过计算该公式,可以得到全部数据的预测标签F。
步骤三中提到的线性回归的模型,其作用是对新加入的数据,能够使用该线性回归模型直接进行图像分类,而无须再次构建超图。该线性回归的模型公式如下:
g(x)=QTx+θ
其中Q为线性回归模型的一次项参数,θ为常数项参数。将这个线性模型嵌入到半监督学习框架内,则新的框架为:
其中,X表示每个图像的特征描述符,α和γ作为非负的正则参数控制着模型的复杂度和经验损失函数之间的平衡。
根据上述公式的凸属性,可以分别计算各个参数的偏导数而求得F的最优解,首先用J表示该半监督学习框架,设F和Q的偏导数等于0得到:
将第二个等式求得的Q代入到第一等式中,可以求得F的结果为:
F=(K-αXM)-1Y
其中,中间结果K表示L+(λ+α)I,中间结果M表示(αXTX+γI)-1αXT,此时将求得F代入求Q的偏导公式等式中可以得到Q为:
Q=(αXTX+γI)-1αXTF=MF
得到Q即为线性回归模型的参数,当有新数据进入时,无须将新数据构建超图,可以直接根据公式g(x)=QTx+θ来求得新数据的标签信息。
Claims (3)
1.基于超图学习的室内场景分类方法,其特征在于包括以下步骤:
(1)使用近百个目标检测子从图像中抽取出目标,再根据形成的目标描述符组成的一个超级描述符,作为图像的特征描述符;
(2)使用K近邻方法对所有生成的图像描述符构建超图,并基于生成的超图计算出其拉普拉斯矩阵,进而构建半监督学习框架;
(3)构建一个线性回归模型,并将该线性回归模型加入到半监督学习框架内;
(4)依据步骤(3)中所构建的半监督学习框架,并结合步骤(1)所提取的图像的特征描述符,对部分图像描述符进行标注,使得该半监督学习框能够自动迭代地预测出未标注图像的标签,从而完成图像分类,同时,步骤(3)中的线性回归模型在自动迭代过程中被初始化;
(5)依据步骤(3)中的线性回归模型,并结合步骤(1)所提取的图像的特征描述符,可以对新加入的数据直接进行图像分类,而无须再次构建超图。
2.如权利要求1所述基于超图学习的室内场景分类方法,其特征在于在步骤(2)中,所述构建半监督学习框架的具体方法为:
首先计算出提取的图像的特征描述符两两之间的欧氏距离,并以此得到相关矩阵H:
其中υ表示超图的结点,e表示超图的边;
进而可以计算超图中每条边的权重w(e)、每个节点的度数d(υ)和每条超边的度数δ(e),同时可使用w(e)、d(υ)和δ(e)作为对角元素构造其相关的对角矩阵W、Dυ和De,根据这三个对角矩阵及相关矩阵,可以计算得到中间结果Θ为:
使用单位矩阵I减去Θ则可得:
L=I-Θ
计算结果L即表示该超图的拉普拉斯矩阵;基于该拉普拉斯矩阵可以构建出半监督学习框架的正则化项:
Ω(f)=fTLf
其中f表示需要预测图像的标签向量,fT表示向量f的转置向量;进而构造出半监督框架,其公式如下:
其中Y表示对图像进行标注的矩阵,tr表示计算矩阵的迹,λ参数是一个非负的数,控制着模型复杂度和经验损失函数之间的平衡;通过计算该公式,可以得到全部数据的预测标签F。
3.如权利要求1所述基于超图学习的室内场景分类方法,其特征在于在步骤(3)中,所述线性回归模型,其作用是对新加入的数据,能够使用该线性回归模型直接进行图像分类,而无须再次构建超图;线性回归模型公式如下:
g(x)=QTx+θ
其中Q为线性回归模型的一次项参数,θ为常数项参数;将该线性回归模型嵌入到半监督学习框架内,则新的框架为:
其中,X表示每个图像的特征描述符,α和γ作为非负的正则参数,控制着模型的复杂度和经验损失函数之间的平衡;
根据上述公式的凸属性,可以分别计算各个参数的偏导数而求得F的最优解,首先用J表示该半监督学习框架,设F和Q的偏导数等于0得到:
将第二个等式求得的Q代入到第一等式中,可以求得F的结果为:
F=(K-αXM)-1Y
其中,中间结果K表示L+(λ+α)I,中间结果M表示(αXTX+γI)-1αXT,此时将求得F代入求Q的偏导公式等式中可以得到Q为:
Q=(αXTX+γI)-1αXTF=MF
得到Q即为线性回归模型的参数,当有新数据进入时,无须将新数据构建超图,可以直接根据公式g(x)=QTx+θ来求得新数据的标签信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310566625.XA CN103605984B (zh) | 2013-11-14 | 2013-11-14 | 基于超图学习的室内场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310566625.XA CN103605984B (zh) | 2013-11-14 | 2013-11-14 | 基于超图学习的室内场景分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103605984A true CN103605984A (zh) | 2014-02-26 |
CN103605984B CN103605984B (zh) | 2016-08-24 |
Family
ID=50124204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310566625.XA Active CN103605984B (zh) | 2013-11-14 | 2013-11-14 | 基于超图学习的室内场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103605984B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426923A (zh) * | 2015-12-14 | 2016-03-23 | 北京科技大学 | 一种半监督分类方法及*** |
CN107423547A (zh) * | 2017-04-19 | 2017-12-01 | 江南大学 | 基于半监督超限学习机的增量式定位算法 |
CN109300549A (zh) * | 2018-10-09 | 2019-02-01 | 天津科技大学 | 基于疾病加权和食品类别约束的食品-疾病关联预测方法 |
CN109492691A (zh) * | 2018-11-07 | 2019-03-19 | 南京信息工程大学 | 一种超图卷积网络模型及其半监督分类方法 |
CN110097112A (zh) * | 2019-04-26 | 2019-08-06 | 大连理工大学 | 一种基于重构图的图学习模型 |
CN110097080A (zh) * | 2019-03-29 | 2019-08-06 | 广州思德医疗科技有限公司 | 一种分类标签的构建方法及装置 |
CN110363236A (zh) * | 2019-06-29 | 2019-10-22 | 河南大学 | 空谱联合超图嵌入的高光谱图像极限学习机聚类方法 |
CN111259184A (zh) * | 2020-02-27 | 2020-06-09 | 厦门大学 | 一种面向新零售的图像自动标注***及方法 |
CN111307798A (zh) * | 2018-12-11 | 2020-06-19 | 成都智叟智能科技有限公司 | 采用多种采集技术的物品查验方法 |
CN113963322A (zh) * | 2021-10-29 | 2022-01-21 | 北京百度网讯科技有限公司 | 一种检测模型训练方法、装置及电子设备 |
CN114463602A (zh) * | 2022-04-12 | 2022-05-10 | 北京云恒科技研究院有限公司 | 一种基于大数据的目标识别的数据处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6598043B1 (en) * | 1999-10-04 | 2003-07-22 | Jarg Corporation | Classification of information sources using graph structures |
CN103020120A (zh) * | 2012-11-16 | 2013-04-03 | 南京理工大学 | 一种基于超图的图像混合摘要生成方法 |
-
2013
- 2013-11-14 CN CN201310566625.XA patent/CN103605984B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6598043B1 (en) * | 1999-10-04 | 2003-07-22 | Jarg Corporation | Classification of information sources using graph structures |
CN103020120A (zh) * | 2012-11-16 | 2013-04-03 | 南京理工大学 | 一种基于超图的图像混合摘要生成方法 |
Non-Patent Citations (1)
Title |
---|
贾志洋等: "基于核方法的半监督超图顶点分类算法分析", 《云南师范大学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426923A (zh) * | 2015-12-14 | 2016-03-23 | 北京科技大学 | 一种半监督分类方法及*** |
CN107423547A (zh) * | 2017-04-19 | 2017-12-01 | 江南大学 | 基于半监督超限学习机的增量式定位算法 |
CN109300549A (zh) * | 2018-10-09 | 2019-02-01 | 天津科技大学 | 基于疾病加权和食品类别约束的食品-疾病关联预测方法 |
CN109492691A (zh) * | 2018-11-07 | 2019-03-19 | 南京信息工程大学 | 一种超图卷积网络模型及其半监督分类方法 |
CN111307798A (zh) * | 2018-12-11 | 2020-06-19 | 成都智叟智能科技有限公司 | 采用多种采集技术的物品查验方法 |
CN110097080B (zh) * | 2019-03-29 | 2021-04-13 | 广州思德医疗科技有限公司 | 一种分类标签的构建方法及装置 |
CN110097080A (zh) * | 2019-03-29 | 2019-08-06 | 广州思德医疗科技有限公司 | 一种分类标签的构建方法及装置 |
CN110097112B (zh) * | 2019-04-26 | 2021-03-26 | 大连理工大学 | 一种基于重构图的图学习模型 |
CN110097112A (zh) * | 2019-04-26 | 2019-08-06 | 大连理工大学 | 一种基于重构图的图学习模型 |
CN110363236A (zh) * | 2019-06-29 | 2019-10-22 | 河南大学 | 空谱联合超图嵌入的高光谱图像极限学习机聚类方法 |
CN111259184A (zh) * | 2020-02-27 | 2020-06-09 | 厦门大学 | 一种面向新零售的图像自动标注***及方法 |
CN111259184B (zh) * | 2020-02-27 | 2022-03-08 | 厦门大学 | 一种面向新零售的图像自动标注***及方法 |
CN113963322A (zh) * | 2021-10-29 | 2022-01-21 | 北京百度网讯科技有限公司 | 一种检测模型训练方法、装置及电子设备 |
CN113963322B (zh) * | 2021-10-29 | 2023-08-25 | 北京百度网讯科技有限公司 | 一种检测模型训练方法、装置及电子设备 |
CN114463602A (zh) * | 2022-04-12 | 2022-05-10 | 北京云恒科技研究院有限公司 | 一种基于大数据的目标识别的数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103605984B (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103605984A (zh) | 基于超图学习的室内场景分类方法 | |
Bazzani et al. | Self-taught object localization with deep networks | |
Wang et al. | Fusing multi-scale context-aware information representation for automatic in-field pest detection and recognition | |
Li et al. | Building-a-nets: Robust building extraction from high-resolution remote sensing images with adversarial networks | |
Wang et al. | Actionness estimation using hybrid fully convolutional networks | |
CN106469299B (zh) | 一种车辆搜索方法及装置 | |
Costea et al. | Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization | |
Li et al. | Foveanet: Perspective-aware urban scene parsing | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
Yoshihashi et al. | Differentiating objects by motion: Joint detection and tracking of small flying objects | |
CN107301376B (zh) | 一种基于深度学习多层刺激的行人检测方法 | |
CN107506786A (zh) | 一种基于深度学习的属性分类识别方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
CN111368660A (zh) | 一种单阶段半监督图像人体目标检测方法 | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及*** | |
CN109146925A (zh) | 一种动态场景下显著性目标检测方法 | |
Li et al. | MVF-CNN: Fusion of multilevel features for large-scale point cloud classification | |
CN107948586A (zh) | 基于视频拼接的跨区域运动目标检测方法和装置 | |
Wu et al. | A method for identifying grape stems using keypoints | |
Zheng et al. | Feature enhancement for multi-scale object detection | |
Cao et al. | A new region proposal network for far-infrared pedestrian detection | |
Liu et al. | Progressive context-dependent inference for object detection in remote sensing imagery | |
Sultani et al. | Automatic action annotation in weakly labeled videos | |
CN103065302B (zh) | 一种基于离群数据挖掘的图像显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |