CN103366181A

CN103366181A - 多特征视觉码本融合的场景识别方法和装置

Info

Publication number: CN103366181A
Application number: CN2013102689531A
Authority: CN
Inventors: 覃剑钊; 阎镜予
Original assignee: China Security and Surveillance Technology PRC Inc
Current assignee: China Security and Surveillance Technology PRC Inc
Priority date: 2013-06-28
Filing date: 2013-06-28
Publication date: 2013-10-23

Abstract

本发明提供了一种多特征视觉码本融合的场景识别方法和装置,属于图像处理和模式识别技术。该方法通过局部分类器对场景图像局部区域进行多特征融合，得到场景图像局部区域的多特征视觉码本表达；根据预先训练得到的全局融合参数和分类参数对多特征视觉码本表达进行全局融合和分类。该方法与使用单一特征估计概率，生成单一特征的视觉码本表达或多个特征的单一视觉码本表达再进行全局特征融合相比，能取得更准确的自动场景分类结果。

Description

多特征视觉码本融合的场景识别方法和装置

技术领域

本发明涉及视频图像处理与模式识别技术，尤其涉及一种多特征视觉码本融合的场景识别方法和装置。

背景技术

基于图像的场景识别技术可以将摄像头或摄像机采集到的图像数据自动的识别成不同的场景类别，例如：沙滩，森林，高速公路，街道，办公室，卧室等。该技术可应用于智能汽车，智能机器人自动导航领域，同时基于图像的场景识别可以为其他计算机视觉任务，例如：物体识别，物体发现，行为分类，图像检索，视频监控提供必要的先验信息。

近年来，基于局部特征的方法被广泛应用于基于图像的场景识别。该类方法对遮挡，光照变化及轻微的几何形变不敏感，与基于全局特征的方法相比，具有较强的鲁棒性。基于全局特征的方法，把场景图像当成一个整体，特征从整幅图像中提取，例如：整幅图像的颜色直方图或整幅图像的纹理特征，然后使用分类器对这些从整幅图像提取的特征进行训练和分类。而基于局部特征的方法，从场景图像的局部区域提取特征，然后根据预先训练好的视觉分量或视觉主题，把一幅场景图像描述为这些视觉分量或视觉主题的概率分布或集合。为了进一步提高场景识别或物体识别***的性能，多种基于全局的多特征融合方法（例如：多核学习，线性增强）被提出用于融合场景图像的多个不同特征的视觉码本表达。这些基于全局的特征融合方法，首先分别针对各种单一特征生成相应的单一特征视觉码本表达，然后使用多核学习或线性增强等方法训练融合参数和分类参数用于场景识别。但是这种基于全局的特征融合方法，无法纠正图像的单一特征视觉码本表达中的错误，这些错误会传递至全局特征融合中。

发明内容

有鉴于此，本发明要解决的技术问题是提供一种多特征视觉码本融合的场景识别方法和装置,以在场景图像局部进行多特征融合，从而纠正单一特征视觉码本表达中的错误，得到更准确的单一特征视觉码本表达进行全局融合，提高场景识别的准确性。

本发明解决上述技术问题所采用的技术方案如下：

根据本发明的一个方面，提供的一种多特征视觉码本融合的场景识别方法包括：

通过局部分类器对场景图像局部区域进行多特征融合，得到场景图像局部区域的多特征视觉码本表达；

根据预先训练得到的全局融合参数和分类参数对多特征视觉码本表达进行全局融合和分类。

优选地，通过局部分类器对图像局部区域进行多特征融合，得到图像局部区域的多特征视觉码本表达具体包括：

从场景图像均匀的获取多种尺度下相互重叠的局部图像；

从各个局部图像中提取多种特征；

通过预先训练得到的多特征视觉码本对场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达。

优选地，通过预先训练得到的多特征视觉码本对场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达具体包括：

对局部区域中每种特征，先使用简单分类器选取候选视觉单词，然后使用复杂分类器计算局部区域特征属于候选视觉单词的概率；

根据每种特征的概率生成局部特征融合后的多特征视觉码本表达。

优选地，根据预先训练得到的全局融合参数和分类参数对多特征视觉码本表达进行全局融合和分类包括：

计算场景图像属于不同场景类别的后验概率，选出最大的后验概率所对应的场景类别作为分类结果；或者

计算场景图像在分界面的一侧作为分类结果。

优选地，多种特征包括：梯度方向直方图特征、结构局部二值模式特征、颜色特征或结构颜色特征。

优选地，该方法之前还包括训练样本图像得到局部分类器的多特征视觉码本的步骤，具体包括：

根据人工进行类别标定的样本图像生成训练数据集；

从训练数据集中的样本图像均匀的获取多种尺度下互相重叠的局部样本图像；

从各个局部样本图像中提取多种特征；

对属于不同场景类别的各种局部样本图像特征分别进行聚类，生成一系列视觉单词；

将不同特征的视觉单词放入不同的集合中生成各个特征所对应的视觉码本。

优选地，将不同特征的视觉单词放入不同的集合中生成各个特征所对应的视觉码本之后，还包括得到全局融合参数和分类参数步骤，具体为：

对训练集中样本图像的局部区域进行特征融合，生成样本图像在不同特征视觉码本上的表达；

训练全局的多特征融合，并存储全局融合参数和分类参数。

优选地，训练全局的多特征融合，并存储全局融合参数和分类参数具体包括：将多特征视觉码本的特征向量串联后，使用分类器计算融合参数和分类参数；

或分别计算各个视觉码本特征向量的核矩阵，通过多核学习计算各个核矩阵的加权参数与分类参数；

或分别对各个视觉码本特征向量训练独立的分类器，学习各个分类器的加权参数。

根据本发明的另一个方面，提供的一种多特征视觉码本融合的场景识别装置包括：

局部融合模块，用于通过局部分类器对场景图像局部区域进行多特征融合，得到场景图像局部区域的多特征视觉码本表达；

全局融合模块，用于根据预先训练得到的全局融合参数和分类参数对多特征视觉码本表达进行全局融合和分类。

优选地，局部融合模块包括：

局部图像获取单元，用于从场景图像均匀的获取多种尺度下相互重叠的局部图像；

特征提取单元，用于从各个局部图像中提取多种特征；

视觉码本表达生成单元，用于通过预先训练得到的多特征视觉码本对场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达。

优选地，视觉码本表达生成单元包括：

概率计算子单元，用于对局部区域中每种特征，先使用简单分类器选取候选视觉单词，然后使用复杂分类器计算局部区域特征属于候选视觉单词的概率；

视觉码本表达计算子单元，用于根据每种特征的概率生成局部特征融合后的多特征视觉码本表达。

优选地，该装置还包括训练模块，训练模块用于学习人工进行类别标定的样本图像，通过对样本图像进行局部融合得到多特征视觉码本，通过对样本图像进行全局融合得到全局融合参数和分类参数。

本发明实施例的方法和装置，通过在图像局部区域提取多特征，并训练局部区域的分类器估计局部图像属于候选视觉单词的概率,生成多个特征视觉码本表达再进行全局融合判决，与使用单一特征估计概率，生成单一特征的视觉码本表达或多个特征的单一视觉码本表达再进行全局特征融合相比，能纠正由于特征信息量不足而引起的错误，从而生成更准确的视觉码本表达，这些更准确的多特征视觉码本表达再次经过全局特征融合判决，提高了最终场景识别的准确度。

附图说明

图1为本发明实施例提供的一种多特征视觉码本融合的场景识别方法流程图；

图2为本发明优选实施例提供的一种局部区域多特征融合的方法流程图；

图3为本发明优选实施例提供的一种获取多尺度下局部图像划分示例；

图4为本发明实施例提供的一种训练多特征码本的方法流程图；

图5为本发明优选实施例提供的另一种局部多特征融合的方法流程图；

图6为本发明实施例提供的一种多特征视觉码本融合的场景识别装置模块结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供的一种多特征视觉码本融合的场景识别方法包括：

S102、通过局部分类器对场景图像局部区域进行多特征融合，得到场景图像局部区域的多特征视觉码本表达；

请参阅图2，本步骤可进一步包括：

S1021、从场景图像均匀的获取多种尺度下相互重叠的局部图像；

具体地，请参阅图3给出的一种多尺度下局部图像划分的示例。在第一级尺度上，整个图像作为一个整体提取特征；在第二级尺度上，局部图像的长宽为整个图像长宽的一半，邻近的两个局部图像之间有一半重叠；在第三级尺度上，局部图像的长宽为第二级局部图像的一半；以此类推。此处只列举了一种获取多尺度局部图像的方法，在技术资源充足的情况下，可以在更细的尺度差上提取局部图像以得到更好的性能。

S1022、从各个局部图像中提取多种特征；

具体地，上述多种特征包括但不限于HOG（梯度方向直方图）特征、结构LBP（局部二值模式）特征、颜色特征或结构颜色特征。

其中，HOG特征的提取过程主要包括：首先把局部图像分成若干等份，接着在各等份中计算各图像点的梯度方向和强度，然后计算各等份的梯度方向直方图，最后把各个等份的梯度直方图串联起来得到HOG特征。

其中，结构LBP特征的特征提取过程主要包括：首先把局部图像分成若干等份，接着从各等份中提取LBP特征（即比较每个图像点与邻域各点的大小关系，生成二进制表达，然后对该区域的点的二进制表达统计直方图），最后把各个等份的LBP特征串联得到结构LBP特征。

其中，结构颜色特征的提取过程主要包括：首先把局部图像分成若干等份，然后在各个等份中提取颜色直方图，最后串联起来得到结构颜色特征。

S1023、根据预先训练得到的多特征视觉码本对场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达。

优选地，本步骤进一步包括：对局部区域中每种特征，先使用简单分类器（如：欧式距离分类器，卡氏距离分类器，巴氏距离分类器）选取候选视觉单词，然后使用复杂分类器（如支持向量机分类器）计算局部区域特征属于候选视觉单词的概率；根据每种特征的概率生成局部特征融合后的多特征视觉码本表达。详细步骤参见后面的图5及其说明。

S104、根据预先训练得到的全局融合参数和分类参数对多特征视觉码本表达进行全局融合和分类。

其中,如果使用基于统计模型的分类器，可通过计算待识别样本特征属于不同场景类别的后验概率，选出最大的后验概率所对应的场景类别作为分类结果。基于分界面的分类器，通过计算待识别样本特征在分界面的哪一侧决定分类结果。

本发明实施例的方法，通过在生成多特征视觉码本表达的过程中，在局部图像区域提取多特征，并训练局部分类器估计局部图像属于候选视觉单词的概率。与使用单一特征估计概率相比，这样的局部多特征融合方法可以纠正由于单一特征信息量不足而引起的错误，从而生成更为准确的视觉码本表达。这些更准确的多特征码本表达生成后，会再次经过全局的特征融合，得到最终识别结果。与使用单一的视觉码本表达方法，或生成多个特征的单一视觉码本表达后再进行全局融合相比，采用本发明的方法将会得到更高的识别准确度。

如图4所示为本发明实施例提供的一种训练多特征码本的方法流程图，包括：

S402、根据人工进行类别标定的样本图像生成训练数据集；

具体地来说，采集的样本图像包括但不限于通过人工拍摄或通过在互联网上搜索下载的多张场景图像。一般来说每类场景的训练样本大约需要200～300个；对于一些视角和内容变化大室内场景，需要更多的训练样本。并人工对这些训练进行类别标定，生成训练数据集。

S404、从训练数据集中的样本图像均匀的获取多种尺度下互相重叠的局部样本图像。

本步骤与上述S1021雷同，这里不再重述。

S406、从各个局部样本图像中提取多种特征；

S408、对属于不同场景类别的各种局部特征分别进行聚类，生成一系列视觉单词；

具体来说，聚类中心点即为各个视觉单词的特征表达；其中,聚类包括但不限于K-Means方法聚类、分层聚类,模糊K-means聚类和模拟退火算法聚类等。

其中，K-Means是一种常用的聚类方法，通过设定聚类数目K，随机生成K个聚类中心后，通过迭代更新聚类中心和对应的特征向量，把特征向量分成K个聚类。使用其他方法不再详细描述。

S410、将不同特征的视觉单词放入不同的集合中生成各个特征所对应的视觉码本；

举例来说，假设有N种场景类别和M中特征，那么将会得到N X M个视觉码本。

S412、对训练集中样本图像的局部区域进行特征融合，生成样本图像在不同特征视觉码本上的表达。

S414、学习全局的多特征融合，并存储全局融合参数和分类参数。

具体地，本步骤可以通过以下几种方式来实现：

（1）将各个不同特征码本表达串联起来得到训练集中所有图像的特征向量，然后根据标定后的样本类别训练分类器，同时得到全局融合参数和分类参数。

其中，分类器的具体训练方法已在S507中介绍。

（2）根据不同特征的视觉码本表达得到不同特征在训练集中的核矩阵，再通过多核学习得到各个核矩阵的线性加和参数和分类参数。

其中，多核学习，通过最小化训练样本的错误率与最小化结构风险（一般指最大化训练样本与分界面的间距），求到各个核矩阵的线性加权系数（融合参数）和分类参数。

（3）分别对各个视觉码本特征向量训练独立的分类器，然后学习各个分类器的加权参数。其中，这些加权参数可以通过最小化训练样本的错误率得到。

本实施例的典型应用如在智能车辆导航，可以根据上面的的训练方法，使用车载摄像头采集不同地点(如：街道1，街道2，高速公路1，高速公路2)的场景图像并人工标定后进行训练。在具体导航过程中，车载摄像头不断收集所经过地点的图片，这些图片经过下面描述的识别方法就可以知道当前车辆所行驶的地点。

如图5所示为本发明优选实施例提供的另一种局部多特征融合的方法流程图，包括：

S501、从图像各个局部区域中提取某种单一特征；

S502、通过简单分类器（例如：欧式距离，卡氏距离，巴氏距离等）从该特征类型一致的视觉码本中初选出多个候选视觉单词；当还需要提取其他特征时执行步骤S503，否则执行步骤S505；

具体地，计算该特征与该特征类型一致的视觉码本中视觉单词的距离（欧式距离或卡式距离、或巴氏距），找出最小距离以及对应的视觉单词，并计算其他视觉单词与局部区域特征的距离（欧式距离、或卡式距离或巴氏距距离）和最小距离的比率，从中选出比率小于一定阈值的视觉单词与最小距离的视觉单词组成候选视觉单词集合。其中，欧式距离为两向量各元素间差值的平方和开平方根。

S503、从图像局部区域中提取其他类型的特征；

S504、串联图像局部区域的特征向量，当不同特征特征向量中的元素取值范围不同时一般需进行归一化处理后执行步骤S508，否则直接执行步骤S508；

其中归一化指把特征向量的每个元素的取值范围变换到0～1之间。

S505、获取聚类中形成候选视觉单词的局部区域的多特征向量；

具体地，根据候选视觉单词，找出聚类过程中形成该视觉单词的局部图像区域，接着从这些局部图像中提取多种特征。特征提取方法前面已讲述。

S506，串联各个局部区域的多特征向量，当不同特征特征向量中的元素取值范围不同时则进行归一化处理；

每个候选视觉单词都可以得到一组特征向量。

S507，训练用于局部融合的局部分类器；

具体地，在不同的局部区域分别训练分类器来解决局部图像区域的特征融合问题。不同的候选视觉单词所对应的局部图像区域的特征向量作为不同类型的训练样本训练分类器（我们称该分类器为局部分类器）。

其中，分类器通过学习不同类别的特征向量统计模型，或学习不同类别特征向量之间分界面完成分类任务。可选用支持向量机（但不限于）通过学习不同类别之间特征向量（或向量的线性（非线性）映射）的分界面，该分界面在最小化训练误差的同时最小化结构风险。

S508、采用局部分类器估计该局部区域属于不同候选单词的概率；

具体的，根据S504得到的特征向量，用S507得到的局部分类器估计该局部图像区域属于不同候选视觉单词的概率。

其中对于基于特征向量的分类器来说，属于不同候选视觉单词的概率可以通过计算其后验概率得出。对于基于支持向量机的分类器，可以通过计算特征与分界面的距离估计概率。

S509、根据候选单词的概率生成特征视觉码本表达；

具体地，根据各个局部图像区域属于不同候选视觉单词的概率生成某种特征的视觉码本表达。其中视觉码本表达指一个特征向量，特征向量的每个元素记录了对于的视觉单词的出现概率。

首先，根据这种特征的视觉单词数目N_w，生成一个N_w维的特征向量，对该向量的各个元素置0。然后根据S508，对场景图像的各个局部区域，计算候选视觉单词的概率，如果该概率大于该候选视觉单词所对应的特征向量元素，则将该特征向量元素的值更新。

对不同种类的特征重复S501～S509生成局部特征融合后针对不同特征的视觉码本表达。

如图6所示为本发明实施例提供的一种多特征视觉码本融合的场景识别装置模块结构图，该装置包括：训练模块10、局部融合模块20和全局融合模块30，其中：

训练模块10，用于学习人工进行类别标定的样本图像，通过对样本图像进行局部融合得到多特征视觉码本，通过对样本图像进行全局融合得到全局融合参数和分类参数。

具体来说，训练模块10用于训练模块用于根据人工进行类别标定的样本图像生成训练数据集；从训练数据集中的样本图像均匀的获取多种尺度下互相重叠的局部样本图像；从各个局部样本图像中提取多种特征；对属于不同场景类别的各种局部样本图像特征分别进行聚类，生成一系列视觉单词；将不同特征的视觉单词放入不同的集合中生成各个特征所对应的视觉码本，训练模块还用于：对训练集中样本图像的局部区域进行特征融合，生成样本图像在不同特征视觉码本上的表达；训练全局的多特征融合，并存储全局融合参数和分类参数。

局部融合模块20，用于通过局部分类器对场景图像局部区域进行多特征融合，得到场景图像局部区域的多特征视觉码本表达；

进一步地，局部融合模块20包括：

局部图像获取单元201，用于从场景图像均匀的获取多种尺度下相互重叠的局部图像；

特征提取单元202，用于从各个局部图像中提取多种特征；

视觉码本表达生成单元203，用于通过预先训练得到的多特征视觉码本对场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达。

更进一步地，视觉码本表达生成单元203包括：

概率计算子单元2031，用于对局部区域中每种特征，先使用简单分类器选取候选视觉单词，然后使用复杂分类器计算局部区域特征属于候选视觉单词的概率；

视觉码本表达计算子单元2032，用于根据每种特征的概率生成局部特征融合后的多特征视觉码本表达。

全局融合模块30，用于根据预先训练得到的全局融合参数和分类参数对多特征视觉码本表达进行全局融合和分类。

需要说明的是，前面的多特征视觉码本融合的场景识别方法的技术方案都可以通过本实施例的装置来实现，这里不再重述。

本发明实施例的方法和装置，通过在图像局部区域提取多特征，并训练局部区域的分类器估计局部图像属于候选视觉单词的概率,生成多个特征视觉码本表达再进行全局融合判决，与使用单一特征估计概率，生成单一的视觉码本表达或多个特征的单一视觉码本表达再进行全局特征融合相比，能纠正由于特征信息量不足而引起的错误，从而生成更准确的视觉码本表达，这些更准确的多特征视觉码本表达再次经过全局特征融合判决，提高了最终场景识别的准确度。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种多特征视觉码本融合的场景识别方法，其特征在于，该方法包括：

根据预先训练得到的全局融合参数和分类参数对所述多特征视觉码本表达进行全局融合和分类。

2.根据权利要求1所述的场景识别方法，其特征在于，所述通过局部分类器对图像局部区域进行多特征融合，得到图像局部区域的多特征视觉码本表达包括：

从所述场景图像均匀的获取多种尺度下相互重叠的局部图像；

从各个局部图像中提取多种特征；

通过预先训练得到的多特征视觉码本对所述场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达。

3.根据权利要求2所述的场景识别方法，其特征在于，通过预先训练得到的多特征视觉码本对所述场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达包括：

对所述局部区域中每种特征，先使用简单分类器选取候选视觉单词，然后使用复杂分类器计算局部区域特征属于候选视觉单词的概率；

根据所述每种特征的概率生成局部特征融合后的多特征视觉码本表达。

4.根据权利要求1所述的场景识别方法，其特征在于，根据预先训练得到的全局融合参数和分类参数对所述多特征视觉码本表达进行全局融合和分类包括：

计算场景图像在分界面的一侧作为分类结果。

5.根据权利要求2所述的场景识别方法，其特征在于，所述多种特征包括：梯度方向直方图特征、结构局部二值模式特征、颜色特征或结构颜色特征。

6.根据权利要求1-5任意一项所述的场景识别方法，其特征在于，所述方法之前还包括训练样本图像得到局部分类器的多特征视觉码本的步骤，具体包括：

根据人工进行类别标定的样本图像生成训练数据集；

从所述训练数据集中的样本图像均匀的获取多种尺度下互相重叠的局部样本图像；

从各个局部样本图像中提取多种特征；

7.根据权利要求6所述的场景识别方法，其特征在于，所述将不同特征的视觉单词放入不同的集合中生成各个特征所对应的视觉码本之后，还包括得到全局融合参数和分类参数步骤，具体为：

训练全局的多特征融合，并存储全局融合参数和分类参数。

8.根据权利要求7所述的场景识别方法，其特征在于，所述训练全局的多特征融合，并存储全局融合参数和分类参数包括：

将多特征视觉码本的特征向量串联后，使用分类器计算融合参数和分类参数；

9.一种多特征视觉码本融合的场景识别装置，其特征在于，该装置包括：

全局融合模块，用于根据预先训练得到的全局融合参数和分类参数对所述多特征视觉码本表达进行全局融合和分类。

10.根据权利要求9所述的场景识别装置，其特征在于，所述局部融合模块包括：

局部图像获取单元，用于从所述场景图像均匀的获取多种尺度下相互重叠的局部图像；

特征提取单元，用于从各个局部图像中提取多种特征；

视觉码本表达生成单元，用于通过预先训练得到的多特征视觉码本对所述场景图像的局部图像进行特征融合，生成场景图像在各种不同特征下的视觉码本表达。

11.根据权利要求10所述的场景识别装置，其特征在于，所述视觉码本表达生成单元包括：

概率计算子单元，用于对所述局部区域中每种特征，先使用简单分类器选取候选视觉单词，然后使用复杂分类器计算局部区域特征属于候选视觉单词的概率；

视觉码本表达计算子单元，用于根据所述每种特征的概率生成局部特征融合后的多特征视觉码本表达。

12.根据权利要求9-11任意一项所述的场景识别装置，其特征在于，所述装置还包括训练模块，所述训练模块用于学习人工进行类别标定的样本图像，通过对样本图像进行局部融合得到多特征视觉码本，通过对样本图像进行全局融合得到全局融合参数和分类参数。