CN110659608A

CN110659608A - 基于多特征融合的场景分类方法

Info

Publication number: CN110659608A
Application number: CN201910901697.2A
Authority: CN
Inventors: 轩靖奇; 蔡春花; 王峰
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-07

Abstract

本发明针对场景识别领域图像的单一特征判别性能和泛化能力缺陷，对于场景分类的特征融合方法进行了研究。首先提取场景图像GIST特征、HOG特征、SIFT特征以及PLBP特征，并且对于SIFT特征进行VLAD方式进行特征编码；然后利用串行融合方法对提取的特征进行不同方式的分析和融合；最后输入到多线性SVM对场景图像进行分类并通过大量实验对于最终识别的平均准确率和分类速度进行评估。实验结果表明，本发明提出的方法，能够利用不同特征的优势实现彼此的特征信息互补，在特征提取耗时和分类耗时不大的情况下达到较好的分类性能。

Description

基于多特征融合的场景分类方法

技术领域

本发明属于场景识别领域，具体涉及到一种基于多特征融合的场景分类方法。

背景技术

场景识别的目标是通过提取和分析场景中的特征，获取场景的信息，从而对图像所属的场景进行识别。作为计算机视觉的一个重要研究方向，在很多领域如图像视频检索、安控***、机器人智能视觉***、智能交通等都得到了的应用。由于同类场景图像之间在背景、尺度、视角、光照等方面具有较大的差异性，不同类别场景图像之间也会存在相近性，因此给场景图像分类和识别带来较大的困难。

场景识别是计算机视觉领域中的一个重要而困难的研究课题。2010年之前主要是利用低层特征实现分类识别，主要包括纹理、形状和颜色等。但是，这种简单的全局特征还不足以描述整幅图像的特征，在复杂环境下其分类性能不佳。为了克服这个问题，随后一些学者从底层特征的局部出发，对局部区域的颜色和纹理进行处理。David Lowe在2004年IJCV会议提出了一种基于尺度空间的、具有图像缩放、旋转和仿射变换不变性的图像局部特征描述算子SIFT。2005年，Dalal等人在CVPR会议上提出了梯度方向直方图(HOG)特征，一种通过统计图像局部区域的梯度方向信息作为图像的特征。Olivia和Torralba采用并改进了一种能反映图像自然程度和开放程度等场景信息的全局特征Gist，但Gist特征在对复杂的室内场景进行分类时效果不太明显。Philbin提出了基于SIFT特征的BOW模型，将提取的特征表述成多个视觉词汇的组合，构成字典，通过分析计算样本中视觉词汇出现的频率来对样本进行分类。BOVW模型比较简易，能够有效降低样本的特征维数，但是该模型没有考虑特征点的空间位置信息。针对这一缺点，Lazebnik等人于2006年提出了空间金字塔匹配模型(spatial pyramid matching，SPM)，对样本空间进行不同等级的划分，充分考虑了特征的空间位置信息，很大程度地提升了BOVW模型的性能。

由于场景图像的复杂性，单一特征很难描述图像中的所有信息。如何寻求一种通过兼顾各个特征的优势，挖掘更丰富的信息，以期达到优于单一特征的分类效果成为一个热门方向。

发明内容

本发明旨在提供一种用于实现场景分类的多特征融合方法的方法。提出了基于SIFT局部描述子的VLAD特征、GIST特征、PLBP特征、HOG特征的融合方式。通过对局部特征进一步地编码，以挖掘这些局部特征之间的相关信息，增强可判别能力，提高分类速度；同时，考虑融合图像的HOG特征来提取边缘和梯度特征以很好的抓住局部形状的特点；融合GIST特征以提高图像全局描述能力；融合PLBP以提高纹理特征空间信息表达不足的问题。进而运用基于RBF核函数的支持向量机实现特征融合之后的场景图像分类。

为解决上述技术问题，本发明提供了如下的技术方案，依次包括如下步骤：

(1)场景图像预处理

在实验的预处理阶段，对场景图像进行灰度转换等处理。进行Gist特征提取时，将图像尺寸调整为256*256，提取其他特征时将图像尺寸调整为300*300。

(2)特征提取

提取场景图像的SIFT特征、GIST特征、PLBP特征、HOG特征。然后运用VLAD算法对局部特征进一步地编码，以挖掘这些局部特征之间的相关信息，增强可判别能力，提高分类速度；同时，考虑提取图像的HOG特征来获得边缘和梯度特征以很好的抓住局部形状的特点；提取GIST特征以提高图像全局描述能力；提取PLBP以提高纹理特征空间信息表达不足的问题。步骤(2)的特征在于：

1).GIST特征：将图像划分成4×4的网格，每一块用4个尺度8个方向的Gabor滤波器组处理后取平均值，得到此图像块的32维向量组，将整个图像的所有图像块的Gist特征向量级联起来，则可以得到整幅图像的Gist特征，维数为4×4×32＝512维。

2).HOG特征：HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征，本质是借助图像梯度的统计信息表示图像特征。首先将灰度化后的图像归一化，再计算各像素点的梯度，多个像素组成一个cell，在cell单元中统计梯度直方图，再将多个相邻的cell单元组成块block，block中的梯度直方图由各cell单元直方图串联归一化而成，这些block的直方图就构成了图像块的特征，将多个block特征串联组合就可以得到图像的HOG特征。本发明将图像分割为50×50的cells并计算每一个cells的40-bins梯度直方图，设置相邻的2×2的cell构成一个block。于是若图像尺寸为300×300，则垂直方向有6个cell，水平方向有6个cell，将相邻的2×2个cell组合为一个block，则垂直方向有5个block，水平方向有5个block，因此最后求得的HOG特征向量为5×5×40×2×2＝4000维。

3).SIFT(VLAD)特征：首先提取场景图像的SIFT特征，利用k-means得到包含k个中心的码本，然后每个局部特征被指派给离它最近的中心点，最后将这些局部特征与其指派的中心点之间的残差累和作为最终的图像表示。即对于每幅图像中的特征找到最近的码本聚类中心，随后所有特征与聚类中心的差值做累加，得到一个k*d的VLAD矩阵，其中k是聚类中心个数，d是特征维数(如sift是128维),随后将该矩阵扩展为一个(k*d)维的向量，并对其L2归一化，所得到的向量即为VLAD(本发明设置K的取值为78，D为128)。VLAD的优点在于可有效减少计算量，是一个兼顾精度与效率的算法。

4).PLBP特征：PLBP特征经由每个层级金字塔的LBP直方图串联获得，并统一对每个串联的字图像LBP特征向量进行归一化，进而得到反映图像总体的像素信息。首先，对于图像进行边缘检测以及金字塔分割，将图像分为4层，第一层是整个图像，第二层把整个图像分为4个子区域，第三层和第四层是把前面分割的子区域进一步划分为4个更小的Block小区域。接着，计算每个子区域的LBP特征，将图像子区域量化成K个分块。最后级联所有LBP特征向量，得到图像的PLBP特征向量。本发明区间设置为40，分为4层空间，故最终提取特征的维度为(1+4+16+64)×40＝3400。

(3)特征融合

假设在A、B、C三个特征空间中存在三个特征向量、β和γ，其中α∈A，β∈B，γ∈C，则对于串行融合就有若α,β,γ分别表示m，n和q维特征向量，则的维度为m+n+q。k,l,j是对应特征向量的权重系数。本发明采用串行融合方法，权重系数设为1，则最终融合的维度为(m+n+q+…)。首先提取SIFT特征，之后运用VLAD算法进行特征编码生成编码后的特征，本发明主要采用VLAD特征编码方式，同时提取场景图像的PLBP、GIST以及HOG特征，生成每张图片对应的特征矩阵文件以备融合之用,之后按照随机生成的10组训练集和测试集文件载入特征矩阵，运用Numpy库实现串行融合，然后实施步骤(4)。

(4)归一化处理

提取特征后为了消除特征之间的量纲、极端值或者噪点数据以及取值范围差异等可能造成的影响、提高模型的收敛速度，对于步骤(3)采用标准差标准化方法进行处理，处理后特征数据均值为0，标准差为1。

(5)利用基于RBF核函数的支持向量机对场景图像进行分类。

模型评价参数为平均分类准确率、召回率，特征提取耗时以及分类耗时。平均分类准确率越高，特征提取耗时以及分类耗时越小，表明所建模型的预测能力越强。通过对平均预测准确率进行比较(附图1)，可以发现基于单个特征的场景分类识别效果较差，而采用特征融合的方法(表2-4)都能达到一个相对较好的识别效果，其中，SIFT(VLAD)、GIST、HOG和PLBP特征串行融合的方式的场景识别***可以获得87.27％的识别准确率。

附图说明

如附图所示，图1为单个特征在OT数据集上分类准确率，图2为SIFT(VLAD)、GIST、HOG、PLBP特征融合方式在OT数据集上的混淆矩阵，图3为SIFT(VLAD)、GIST、HOG、PLBP特征融合方式在FP数据集上的混淆矩阵，图4为SIFT(VLAD)、GIST、HOG、PLBP特征融合方式在LSP数据集上的混淆矩阵。

具体实施方式

为了验证我们所提出的模型的性能，我们在Scene-8(OT-8)，Scene-13(FP)和Scene-15(LSP)三个数据集上进行实验。此数据集中每个类别有200-400幅图片构成，平均尺寸为300×250像素。数据集的构成如表1所示。

表1实验数据集

本发明的实验采用多次实验取平均的策略。对于每个场景分别随机选取100张图像作为训练集，其余作为测试集。对每个数据集进行10次重复实验，取平均值为最终实验结果。

从表中可以看出，SIFT(VLAD)、GIST、HOG和PLBP特征串行融合的方式在OT数据集和LSP数据集上分别取得了87.27％，83.50％和79.30％的分类准确率，在三个数据集上从特征提取到分类分别平均耗时1.1393s、1.3651s和1.4529s。

通过实验还可以发现随着数据集规模的增大，识别的性能呈现下降趋势在FP数据集上由于分类数目增加，且加入了室内场景，分类准确率相比OT数据集有所下降。而在LSP数据集中增加了更为复杂的商店和工业场景，其分类准确率进一步有所下降。

表2 OT数据集中不同融合方式对应的性能指标

表3 FP数据集中不同融合方式对应的性能指标

表4 LSP数据集中不同融合方式对应的性能指标

表2-4中取得最佳分类正确率的方法在三个数据集上对应的混淆矩阵分别如附图2-4所示，从图中可以看出，在OT数据集上highway识别准确率达到了98％，insidecity和Opencountry类别准确率则均达到了92％，最差的coast达到了78％的分类效果；在FT数据集上Opencountry的达到96％，新加入的bedroom类别达到了97％了，kitchen类别识别准确率达到95％，相对的street类别则下降较为明显，只有61％的准确率；在LSP数据集上bedroom达到96％，mountain达到了95％，新加入的store和industrial分类分别达到了79％和94％的准确率。

Claims

1.本发明公布了一种基于多特征融合的场景分类方法，主要用于场景图像的准确预测，包括以下步骤：

(1)场景图像预处理

主要完成对于场景图像的尺寸、灰度转化等预处理操作；

(2)特征提取

提取场景图像的SIFT特征、GIST特征、PLBP特征、HOG特征，然后运用VLAD算法对局部特征进一步地编码，以挖掘这些局部特征之间的相关信息，增强可判别能力，提高分类速度；同时，考虑提取图像的HOG特征来获得边缘和梯度特征以很好的抓住局部形状的特点；提取GIST特征以提高图像全局描述能力；提取PLBP特征以提高纹理特征空间信息表达不足的问题；

(3)特征融合

保存步骤(2)中提取的场景图像特征以备融合之用,之后按照随机生成的10组训练集和测试集文件载入特征矩阵，最后设置特征融合权值系数为1，并实现串行融合，对于步骤(3)其特征在于：假设在A、B、C三个特征空间中存在三个特征向量、β和γ，其中α∈A，β∈B，γ∈C，则对于串行融合就有

若α,β,γ分别表示m，n和q维特征向量，则

的维度为m+n+q，其中k,l,j是对应特征向量的权重系数，本发明采用串行融合方法，权重系数设为1，则最终融合的维度为(m+n+q+…)；

(4)归一化处理

提取特征后为了消除特征之间的量纲、极端值或者噪点数据以及取值范围差异等可能造成的影响、提高模型的收敛速度，对于步骤(3)采用标准差标准化方法进行处理，处理后特征数据均值为0，标准差为1；

(5)利用基于RBF核函数的支持向量机对场景图像进行分类；

步骤(4)处理后的特征按照规则生成训练集和测试集，并输入到基于RBF核函数的支持向量机，生成每个分类对应的混淆矩阵和分类结果，每个批次对应的准确率，召回率，特征提取时间、分类及特征融合时间以及所有批次的平均准确率等性能指标。