CN104036021A

CN104036021A - 混合生成式和判别式学习模型的图像语义标注方法

Info

Publication number: CN104036021A
Application number: CN201410295467.3A
Authority: CN
Inventors: 李志欣; 张灿龙; 吴璟莉; 王金艳
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2014-06-26
Filing date: 2014-06-26
Publication date: 2014-09-10

Abstract

本发明公开一种混合生成式和判别式学习模型的图像语义标注方法，在生成式学习阶段，采用连续PLSA对图像进行生成式建模，并得到相应的模型参数和每幅图像的主题分布；再将这个主题分布作为每幅图像的中间表示向量。在判别式学习阶段，使用构造集群分类器链对图像的中间表示向量进行判别式学习，在建立分类器链的同时也集成了标注关键词之间的上下文信息。在标注阶段，给定一幅未知图像，通过自动提取视觉特征和连续PLSA的参数估计算法可获得其主题向量的表示；再使用训练好的集群分类器链对这个主题向量进行分类；最后，将置信度最高的若干语义关键词作为图像的语义标注。本发明的标注和检索性能优于当前大多数典型的图像自动标注方法。

Description

混合生成式和判别式学习模型的图像语义标注方法

技术领域

本发明涉及图像检索领域，具体涉及一种混合生成式和判别式学习模型的图像语义标注方法。

背景技术

根据所使用机器学习方法的特点，现有的图像自动标注方法大致可分为基于生成式模型(generative model)的标注方法和基于判别式模型(discriminative model)的标注方法。

基于生成式模型的标注方法的特点是：先学习图像特征和关键词的联合概率，然后通过贝叶斯公式计算给定图像特征时各个关键词的后验概率，并依据后验概率进行图像标注。这类方法具有可扩展的训练过程，对训练图像集人工标注的质量要求较低。

基于判别式模型的标注方法的特点是：假设图形特征到关键词之间的映射是某种参数化的函数，直接在训练数据上学习此函数的参数，并获得各个语义概念的分类器。这类方法将各个语义概念视为独立的类别，一般来说能取得较高的标注精度，但是不便于利用领域相关的先验知识。

基于生成式模型的方法和基于判别式模型的方法的概率图模型分别如图1中(a)和(b)所示，二者相比较主要有以下几点不同：(1)基于判别式模型的方法将图像看作训练数据，各个语义概念看作类别，目的在于将图像分类到各个语义类别中，而基于生成式模型的方法将图像和文本都视为训练数据，其目的是学习图像与文本之间的关联；(2)基于判别式模型的方法为每个语义概念训练一个分类器，基于生成式模型的方法只学习一个关联模型并将该模型应用于所有的语义概念；(3)独立性假设不同。基于判别式模型的方法假设各个语义类别之间是相互独立的，而基于生成式模型的方法假设在给定隐藏变量的条件下，视觉元素和文本元素是条件独立的。

综上所述，生成式模型和判别式模型各有其优势和缺陷。

发明内容

本发明针对图像检索中存在的“语义鸿沟”问题及生成式模型和判别式模型的缺陷，提供一种混合生成式和判别式学习模型的图像语义标注方法，其在连续概率潜在语义分析和多标记学习的基础上提出混合生成式和判别式学习的图像自动标注模型HGDM(hybrid generative/discriminative model)，并进一步实现了基于关键词的图像语义检索。

为解决上述问题，本发明是通过以下技术方案实现的：

混合生成式和判别式学习模型的图像语义标注方法，包括如下步骤：

(1)对训练图像进行训练的过程，即

(1.1)采用连续概率潜在语义分析(PLSA)方法建模训练图像的视觉特征，得到给定主题z_k下的高斯分布参数μ_k和Σ_k，以及每幅训练图像的主题向量P(z_k/d_i)；

(1.2)利用每幅训练图像的主题向量P(z_k/d_i)和原始语义标注，采用多标记学习方法构造分类器链；

(2)对测试图像进行标注的过程，即

(2.1)利用步骤(1.1)得到的高斯分布参数μ_k和Σ_k，以及测试图像的视觉特征，采用期望最大化(Expectation Maximization，EM)方法计算每幅测试图像的主题向量P(z_k/d_new)；

(2.2)利用步骤(1.2)得到的分类器链，对该主题向量P(z_k/d_new)进行测试图像的语义分类；

(2.3)将置信度最高的X个语义类别作为该测试图像的语义标注；其中参数X为人为预设值。

步骤(1.2)即分类器链的构造过程，即分类器链的训练过程具体为：按照指定的标记顺序，每次循环学习关联一个语义关键词标记的二值分类器，且每次循环都要加上已学习的二值分类器对应的语义关键词标记信息，由此构造一个二值分类器链；其中该二值分类器链上的每一个二值分类器C_j负责与语义关键词标记l_j相关的学习和预测。上述j＝1，2，……/L/，/L/是语义关键词的个数。

步骤(2.2)即语义分类过程，即分类器链的分类过程具体为：将分类器训练过程中构造的二值分类器链，从二值分类器C₁开始，不断地向后传播，其中二值分类器C₁确定语义关键词标记l₁的分类结果Pr(l₁|x)；再将这个分类结果Pr(l₁|x)以二值的方式加入到测试图像的主题向量中，以此类推，后续的二值分类器C_j则确定标记l_j的分类结果Pr(l_j|x,l₁,l₂,…,l_j-1)，x为训练图像的主题向量。上述j＝1，2，……/L/，/L/是语义关键词的个数。

步骤(1.1)和(2.1)中，还进一步包括对训练图像和测试图像进行视觉特征提取的过程，即

首先，将每幅图像划分为(m×n)个规则方块；

然后，为每个方块提取一个(a+b)维的特征向量，这个(a+b)维的特征向量包含a维的颜色特征和b维的纹理特征；其中颜色特征是在量化颜色和街区距离上计算出的颜色自相关图，而纹理特征是在尺度和方向上计算的伽柏(Gabor)能量系数；

最后，每幅图像的视觉特征即为(m×n)个(a+b)维的视觉特征向量的集合；

其中参数m、n、a和b均为人为预设值。

与现有技术相比，本发明在学习过程中集成了生成式模型和判别式模型，对于输入图像视觉特征的学习采用生成式模型，而对于图像的语义学习过程采用判别式模型，因而具有以下几个特点：

(1)在生成式学习阶段，采用连续PLSA直接建模图像视觉特征，不需要进行视觉特征的量化过程，因而不会丢失重要的视觉信息。

(2)连续PLSA将图像从特征集合的表示变换为一个K维的主题向量表示，也可以视为一个降维的过程。而这个主题向量的表示也集成了图像视觉内容的隐含语义信息，对于图像的语义检索具有重大意义。

(3)基于多标记学习方法构建分类器，在对图像进行分类的同时集成了图像标注关键词之间的关联。能够很好的解决弱标注问题，对训练集规模具有可扩展性。

(4)采用判别式模型集群分类器链进行图像的语义分类，其中每个二值分类器都基于支持向量机(SVM)构建，所以运行效率和分类精度都较高。

附图说明

图1为两类图像自动标注方法的概率图模型表示：(a)为基于判别式模型的方法；(b)为基于生成式模型的方法。

图2为混合生成式与判别式模型的图像自动标注框架。

具体实施方式

一种混合生成式和判别式模型的图像自动标注方法。在生成式学习阶段，采用连续PLSA对图像进行生成式建模，能够充分利用训练集的先验知识，并可得到相应的模型参数和每幅图像的主题分布；再将这个主题分布作为每幅图像的中间表示向量，那么图像自动标注的问题就转化为一个基于多标记学习的分类问题，以获取比生成式模型更高的标注精度。在判别式学习阶段，使用构造集群分类器链的方法对图像的中间表示向量进行判别式学习，在建立分类器链的同时也集成了标注关键词之间的上下文信息，这样在对图像进行分类的同时也考虑了图像标注之间的关联，因而能够取得更高的标注精度和更好的检索效果。在标注阶段，给定一幅未知图像，通过自动提取视觉特征和连续PLSA的参数估计算法可获得其主题向量的表示；再使用训练好的集群分类器链对这个主题向量进行分类；最后，将置信度最高的若干语义关键词作为图像的语义标注。

混合生成式和判别式模型(HGDM)的学习和标注的框架如图2所示。

对于训练图像的训练过程分为两步：首先，利用连续PLSA建模训练图像的视觉特征，得到给定主题z_k下的高斯分布参数μ_k和Σ_k，以及每幅训练图像的主题分布表示P(z_k/d_i)，这是一个生成式的学习过程。这里得到的高斯分布参数μ_k和Σ_k是连续PLSA的参数，由连续PLSA的独立性假设这些参数对于训练集之外的图像仍然有效，而主题分布表示P(z_k/d_i)只对应于每幅训练图像本身的性质，不能给测试图像带来先验信息。但是，可以利用这个表示将每幅训练图像表示为一个K维的主题向量(K是潜在主题个数)，这些向量构成的空间是一个单形(simplex)。然后，利用每幅训练图像的主题向量表示以及它们的原始标注构造分类器，每个类对应于文本词汇表中的语义类别，这是一个判别式的学习过程。因为此时每幅图像都由一个主题向量表示，但却对应于多个关键词标注，与多标记学习的情形一致，故而采用了多标记学习的方法构造多类分类器，同时也集成了关键词之间的关联信息。

对于测试图像的标注过程也分为类似的两步：(1)首先，利用训练阶段得到的模型参数μ_k和Σ_k以及测试图像的视觉特征，使用期望最大化(Expectation Maximization，EM)算法计算每幅测试图像的主题向量P(z_k/d_new)。(2)然后，利用训练得到的分类器对该主题向量分类，并将所得的若干置信度最高的语义类别作为该测试图像的语义标注。

本发明的视觉特征提取方法首先将数据集中的每幅图像划分为规则方块(方块大小由验证集确定为16×16)，然后为每个方块提取一个36维的特征向量，包含24维的颜色特征和12维的纹理特征，颜色特征是在8个量化颜色和3个街区距离上计算的颜色自相关图，纹理特征是在3个尺度和4个方向上计算的Gabor能量系数。于是，每个方块可表示为一个36维的特征向量，而每幅图像就可表示为一个“特征袋”，也就是若干个36维的视觉特征向量的集合，从而为进一步使用主题模型进行建模提供了一致的接口。

在生成式学习阶段,连续PLSA的主题个数设置很重要，因为主题个数决定了图像的中间表示的维数。这个数目过大则会降低***的效率，过小则会丢失图像信息。由于连续PLSA的拟合比较费时，本发明选取了五个主题个数(分别为90、120、150、180与210)进行实验，实验结果表明，当主题个数为180时，***性能比使用其他主题个数时好，所以最终确定使用的主题个数为180。

在判别式学习阶段，HGDM采用多标记学习方法中的集群分类器链的方法进行多标记分类，其中每个二值分类器都使用支持向量机(SVM)实现。这个方法能够考虑多标记之间的相互关联且具有可接受的计算复杂度。

分类器链(classifier chain,CC)与二值相关(binary relevance,BR)方法一样，包含|L|个二值分类器，每个分类器处理一个标记的二值相关问题。但是与BR方法不同的是，这些二值分类器都通过一个链连接起来，其中每个结点的特征空间都与前面结点的类标记有关。

分类器链的训练过程如表1所示，这里训练样本表示为(x,S)；其中S是训练图像标注的几个语义关键词集合，L是所有语义关键词集合；S中的元素可以用二值向量即语义关键词标记l_j(l₁,l₂,…,l_/L/)表示，x是主题向量。算法中，按照指定的标记顺序，每次循环学习关联一个标记的二值分类器，更重要的是，每次循环特征空间都要加上已学习的二值分类器对应的标记信息，因而特征信息不断地得到增强，最后，可以构造一个二值分类器链，该二值分类器链上的每一个分类器C_j负责与标记l_j相关的学习和预测，即一个二值分类器负责一个语义关键词。j＝1,2,……|L|。

分类器链的分类过程如表2所示，从二值分类器C₁开始，再不断地向后传播。二值分类器C₁确定标记l₁的分类结果Pr(l₁|x)，然后将这个结果以二值的方式加入测试样本的特征，后续的分类器则确定标记l_j的分类结果Pr(l_j|x,l₁,l₂,…,l_j-1)。

使用链的方法可以在分类器间传递标记信息，同时考虑标记之间的关联信息，因而能克服BR方法中的标记独立问题。而且，分类器链仍然保持BR方法的优势，包括存储需求低和运行效率高等。

虽然对于每个示例平均要增加|L|/2维的特征数据量，但由于在实践中|L|一般是一个有限的值，因而由这个原因引起的计算复杂度问题几乎可以忽略不计。分类器链的计算复杂度与BR方法非常接近，取决于标记的个数与基本的二值分类器的复杂度。BR方法的复杂度是O(|L|×f(|X|,|D|))，其中f(|X|,|D|)是基本的二值分类器的复杂度。分类器链的复杂度则为O(|L|×f(|X|+|L|,|D|))，也就是多了|L|维附加的特征值。而HGDM采用SVM作为基本的二值分类器，所以分类器链的复杂度可以简化为O(|L|×|X|×|D|+|L|×|L|×|D|)。可以看到，只要|L|<|X|，第一项就会起主要作用。这样分类器链的计算复杂度则为O(|L|×|X|×|D|)，与BR方法的计算复杂度相同。而只有当|L|>|X|时，分类器链的计算复杂度才会高于BR方法。

此外，虽然链式的过程意味着分类器链不能够并行化，但它能够串行化，也就是在任何时候内存中只需要保留一个二值分类器，对比别的方法这是一个明显的优势。

分类器链的顺序显然会影响它的精度。虽然有一些启发式算法来确定链的顺序，但我们还是采用集群式框架来解决这个问题。采用集群式方法能够提高整体精度、避免过拟合，也能够实现并行化。在这里所说的集群是指多标记方法的集群，也就是分类器链的集群。

集群分类器链训练m个分类器链C₁,C₂,…,C_m，其中每个分类器链都由一个随机的链顺序和训练集的一个随机子集训练得到。因此每一个模型C_k都是互不相同的而且能够给出不同的多标记分类结果。将这些分类结果按照标记作求和计算，那么每一个标记都会得到若干投票。使用一个阈值选择票数最高的标记可以构成一个多标记集合，并以此作为最终的分类结果。

设第k个单独的模型的预测结果为向量y_k＝(l₁,l₂,…,l_/L/)∈{0,1}^|L|。对所有模型求和可得向量W＝(λ₁,λ₂,…,|L|)∈R^|L|，这里。因此每一个j∈W都代表了对标记l_j∈L投票的结果。对向量W作归一化得到W^norm，就能够得到每个标记在[0,1]上的一个分布。做完阈值的判定之后，可以根据这个分布作一个排序。与别的图像自动标注模型类似，HGDM取前5个置信度最高的关键词标记作为图像的语义标注。

在Corel5k图像数据库中，本方法构造一个包含90个分类器链的集群，每个分类器链随机的选取一个包含500幅图像的子集进行训练。而在数据集IAPR-TC12和MIRFLICKR25000上进行实验时，使用150个分类器链的集群，每个分类器链随机的选取一个包含1000幅图像的子集进行训练。此外，分类器链中的各个结点所代表的二值分类器使用LIBSVM软件包实现，选用RBF核函数K(x,x')＝exp(-γ||x-x'||2)，相应的参数通过网格搜索法确定为：(C,γ)＝(27,21)，其中C为误差惩罚因子，γ为核函数参数。

通过合理地设计学习框架，混合生成式和判别式学习模型的图像语义标注方法有效地结合了生成式和判别式模型的学习方法并继承了它们各自的优势，获得了更好的性能。实验结果表明，混合生成式和判别式学习模型的图像语义标注方法既具备生成式模型能够充分利用训练数据的优点，也能像判别式模型一样能够获取更高的分类精度，其标注和检索性能优于当前大多数典型的图像自动标注方法。

Claims

1.混合生成式和判别式学习模型的图像语义标注方法，其特征是，包括如下步骤：

(1)对训练图像进行训练的过程，即

(1.1)采用连续概率潜在语义分析方法建模训练图像的视觉特征，得到给定主题z_k下的高斯分布参数μ_k和Σ_k，以及每幅训练图像的主题向量P(z_k/d_i)；

(2)对测试图像进行标注的过程，即

2.根据权利要求1所述的混合生成式和判别式学习模型的图像语义标注方法，其特征是，步骤(1.2)具体为：按照指定的标记顺序，每次循环学习关联一个语义关键词标记的二值分类器，且每次循环都要加上已学习的二值分类器对应的语义关键词标记信息，由此构造一个二值分类器链；其中该二值分类器链上的每一个二值分类器C_j负责与语义关键词标记l_j相关的学习和预测；上述j＝1，2，……/L/，/L/是语义关键词的个数。

3.根据权利要求2所述的混合生成式和判别式学习模型的图像语义标注方法，其特征是，步骤(2.2)具体为：将步骤(1.2)构造的二值分类器链，从二值分类器C₁开始，不断地向后传播，其中二值分类器C₁确定语义关键词标记l₁的分类结果Pr(l₁|x)；再将这个分类结果Pr(l₁|x)以二值的方式加入到测试图像的主题向量中，以此类推，后续的二值分类器C_j则确定标记l_j的分类结果Pr(l_j|x,l₁,l₂,…,l_j-1)，x为训练图像的主题向量；上述j＝1，2，……/L/，/L/是语义关键词的个数。

4.根据权利要求1～3中任意一项所述的混合生成式和判别式学习模型的图像语义标注方法，其特征是，步骤(1.1)和(2.1)中，还进一步包括对训练图像和测试图像进行视觉特征提取的过程，即

首先，将每幅图像划分为(m×n)个规则方块；

其中参数m、n、a和b均为人为预设值。

5.根据权利要求4所述的混合生成式和判别式学习模型的图像语义标注方法，其特征是，参数m和n均设为16，参数a设为24，参数b设为12；即每幅图像均划分为16×16个规则方块，每个方块提取一个36维的特征向量，这个36维的特征向量包含24维的颜色特征和12维的纹理特征。

6.根据权利要求1所述的混合生成式和判别式学习模型的图像语义标注方法，其特征是，步骤(1.1)中，在连续概率潜在语义分析时，所设置的主题个数为180个。

7.根据权利要求1所述的混合生成式和判别式学习模型的图像语义标注方法，其特征是，步骤(2.3)中，参数X设为5，即将置信度最高的5个语义类别作为该测试图像的语义标注。