CN102693316B

CN102693316B - 基于线性泛化回归模型的跨媒体检索方法

Info

Publication number: CN102693316B
Application number: CN201210171539.4A
Authority: CN
Inventors: 谭铁牛; 王亮; 陈永明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-05-29
Filing date: 2012-05-29
Publication date: 2014-03-26
Anticipated expiration: 2032-05-29
Also published as: CN102693316A

Abstract

本发明公开了一种基于线性泛化回归模型的跨媒体检索方法。该方法首先提取不同模态对象的语义特征，再利用线性泛化回归模型建立各个模态特征之间的回归关系，实现不同模态特征的相互转换，接着利用多类Logistic回归算法估计转换后模态对象的后验概率分布，最后利用距离度量的方法来计算测试样本和数据库样本之间的距离，从而输出检索得到的最相似的前N个数据库中的样本。本发明在跨越不同模态的语义鸿沟时，可以最大限度地防止不同模态媒体在转换时有效信息的泄露，从而保证不同模态信息传递的有效性，进一步提高跨媒体搜索的鲁棒性和准确性，具有良好的运用前景和可观的市场价值。

Description

基于线性泛化回归模型的跨媒体检索方法

技术领域

本发明涉及模式识别领域，特别涉及一种基于线性泛化回归模型的跨媒体检索方法。

背景技术

人类如今生活在信息大***时代，人类可以通过互联网搜索引擎如谷歌(http://www.***.com)、百度(http://www.***.com)等搜寻自己想要的文章、图片、音乐和电影等。然而，目前互联网用户主要还是通过关键字搜索得到所需要的信息，这个限制主要是归结于搜索引擎无法理解异构模态媒体之间的相互关系，从而限制了搜索引擎的发展。众所周知，互联网搜索引擎具有巨大的市场价值，如何增强搜索引擎的性能，以吸引更多的用户和客户，将是下一代搜索引擎发展的关键和生存之道。

跨媒体搜索引擎研究得到了国际学术界的重视，我国近年来也开始重点关注该项技术的发展，设立973计划和国家支撑计划对该领域的相关技术进行研发。目前国际上提出的一些方法虽然可以被用于建立不同模态之间的关系，但是仍然存在很多的不合理和不足之处，如信息传递的泄漏问题和信息传递的不均衡问题。其中一种主流方法是基于关联子空间恒等同构的方法。基于关联子空间的典型方法如典型相关分析(CanonicalCorrelation Analysis，CCA)，它通过对偶综合变量之间的相关性联合降维的方法，将不同模态的数据降到相同维数的关联子空间，这种方法在压缩模态的同时不可避免地造成了原始模态信息的泄漏，从而丢掉了原始模态特征描述中的一些细节信息；另外，该方法在模态转换时在恒等子空间直接进行信息交互，并没有考虑子空间映射的合理关系，只是运用了子空间映射的特殊情况。后续工作还提出了一些与CAA组合的方法来建立CCA投影子空间映射之间的关系，这些组合方法的明显不足之处在于，在运用CCA方法时就已经产生了信息的泄漏；此外这些方法并不能从理论上给出有效的子空间关联性的解释，因此无法估计需要运用多少次组合的方法，也无法估计组合方法产生的冗余性。

利用基于线性泛化回归模型的跨媒体检索方法可以有效和合理改进之前方法存在的问题，其基本思想是利用最小二乘的原理在模态关联投影子空间建立回归关系，然后映射到原始空间建立回归关系，从理论上解释了模态直接转换的关系。在子空间建立回归关系在一定程度上可以消除不同模态变量交叉噪声的干扰，在原始空间建立回归关系可以保留一些细节信息的传递，从而提高不同模态之间信息的转换有效性和鲁棒性，进而保证了下一步分类器的分类精度和最终的识别效果。该方法的提出有效地实现了不同模态媒体之间的语义鸿沟的跨越，进而使得搜索引擎返回的结果更加准确和更趋于人性化，在商业用途上，它可以满足更广大互联网用户不同的喜好和需求，进而吸引更多的互联网用户和客户，因此具有良好的运用前景和可观的市场价值。

发明内容

为了解决现有跨媒体搜索引擎技术存在的问题，特别是为了解决现阶段不同多媒体模态信息传递的有效性问题，本发明提供一种基于线性泛化回归模型的跨媒体检索方法，该方法包括以下步骤：

步骤1，搜集不同模态的样本，建立跨模态检索数据库，并提取数据库中不同模态样本的特征向量；

步骤2，利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵；

步骤3，估计数据库中各个样本的特征向量属于某一个类别的后验概率；

步骤4，用户输入待检索对象，并根据待检索对象的类型进行相应的特征提取；

步骤5，使用所述关联矩阵对提取到的待检索对象的特征进行特征转换；

步骤6，计算待检索对象转换后的特征与数据库中对应类别的样本对象的特征之间的相似度；

步骤7，根据所述步骤6计算得到的相似度对数据库中对应类别的样本对象进行排序，并返回其中最相似的几个样本对象作为跨媒体检索结果。

与传统方法相比较，本发明利用最小二乘的原理在模态关联投影子空间建立回归关系，然后映射到原始空间建立回归关系，从理论上解释了模态直接转换的关系，在子空间建立回归关系在一定程度上可以消除不同模态变量交叉噪声的干扰，在原始空间建立回归关系可以保留一些细节信息的传递，从而提高不同媒体模态之间转换的有效性和鲁棒性，进而保证分类器的分类精度和最终的识别效果。该方法有效地跨越了不同模态媒体之间的语义鸿沟，进而使得跨媒体搜索引擎返回的结果更加准确。

附图说明

图1是本发明方法的流程图；

图2是本发明方法的实现示意图；

图3是根据本发明的从文本到图像的跨媒体检索效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图对本发明进一步详细说明。

本发明通过线性泛化回归模型来学习不同模态对象之间的语义关系，获得不同模态对象特征之间进行转换的关联矩阵，从而建立不同模态对象之间的转换途径，然后利用获得的关联矩阵对待检索对象进行转换，再用相似性度量的方法来寻找数据库中与转换后的待检索对象最为相似的样本对象，最终实现跨媒体检索的目的。

图1是本发明方法的流程图，图2是本发明方法的实现示意图，如图1和图2所示，本发明所提出的一种基于线性泛化回归模型的跨媒体检索方法包括以下几个步骤：

步骤1，搜集不同模态的样本，建立跨模态检索数据库，并提取数据库中不同模态样本的特征向量。

所述不同模态的样本之间为一一对应，比如可以是一一对应的图像和文本，本发明中以图像和文本这两种模态对象为例来描述所述跨媒体检索方法。本发明中，分别使用尺度不变特征变换(Scale-Invariant FeatureTransform，SIFT)算法和隐狄雷克雷分布(Latent Dirichlet Allocation，LDA)算法对图像和文本进行特征的提取。具体地，SIFT算法首先找到图像样本中以某关键点为中心的局部区域，然后对该区域进行梯度滤波，得到梯度响应，最后统计各方向的梯度信息作为该图像样本的特征向量。LDA算法是一个包含词、主题和文档三层结构的概率混合模型，LDA算法将每个文档表示为一个主题混合，其中每个主题是固定词表上的一个多项式分布。LDA算法假设词由一个主题混合产生，同时每个主题是在固定词表上的一个多项式分布，这些主题被集合中的文档所共享，每个文档从狄雷克雷分布中抽样产生一个特定的主题作为特征向量。

步骤2，利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵。

本发明利用线性泛化回归模型来估计图像的SIFT特征向量X和文本的LDA特征向量Y之间的关联矩阵，从而建立两种模态对象之间的语义关系。所述线性泛化回归模型为利用最小二乘的原理在模态关联投影子空间建立回归关系，然后再映射到原始模态空间建立回归关系，其用公式可表示为：

Y＝XB+E (1)

其中，B为本发明建立模态关联的回归系数矩阵，即两个不同模态之间的关联矩阵，E为残差矩阵。

如果数据库中含有多个模态对象，则需要估计两两模态对象之间的关联矩阵。

步骤3，估计数据库中各个样本的特征向量属于某一个类别的后验概率。

每个样本的特征向量中的数据属于多个类别中的一个，多个样本的特征向量中的数据有可能属于共同的某一类。因此，本发明首先采用多类Logistic回归算法来估计数据库中各个样本的特征向量属于某一个类别i的后验概率，以用于后续的相似度计算：

p (i | x; w) = \frac{\exp (w_{i}^{T} x)}{Σ_{j} \exp (w_{j}^{T} x)} - - - (2)

其中，i表示类别，x是特征向量，w是特征向量x的权重，即数据库模型的回归参数，可以通过最大似然估计(Maximum Likelihood Estimation)法学习得到。

步骤4，用户输入待检索对象，并根据待检索对象的类型进行相应的特征提取。

如果待检索对象是图像则使用尺度不变特征变换(SIFT)算法提取其SIFT特征，如果待检索对象是文本则使用隐狄雷克雷分布(LDA)算法提取其LDA特征。

步骤5，使用所述关联矩阵对提取到的待检索对象的特征进行特征转换。

首先，由于提取的待检索对象的特征与数据库样本特征之间存在语义鸿沟，无法直接跨越，因此需要将这些提取到的特征使用所述关联矩阵B来进行特征转换：

如果已经提取到用户输入的图像的特征数据

将图像特征数据

乘以所述关联矩阵B，即得到与该图像对应的文本的特征数据

即：

\hat{Y} = \hat{X} B - - - (3)

如果数据库中含有多个模态对象，则根据相应的关联矩阵对待检索对象特征进行转换。

然后，利用所述多类Logistic回归算法，估计转换后的待检索对象特征属于某一个类别的后验概率。

步骤6，计算待检索对象转换后的特征与数据库中对应类别的样本对象的特征之间的相似度。所述相似度使用相关系数来表征，其计算公式为：

ρ_{corr} = \frac{π^{T} π^{'}}{| | π | | | | π^{'} | |} = \frac{Σ_{i} π_{i} {\times π}_{i}^{'}}{\sqrt{Σ_{j} π_{j}^{2}} \sqrt{Σ_{j} π_{j}^{' 2}}} - - - (4)

其中，ρ_corr为相关系数，π和π′表示两个待比较对象特征的后验概率。

在返回跨媒体检索结果时，可以根据用户设定的参数返回在数据库中检索到的最相似的前N个样本对象。

假设数据库中有2866个包含相同语义信息的图像和文本多媒体文档，这些文档被随机划分为2173个样本的训练集和693个样本的测试集。整个检索过程可分为学习和检索两个阶段，其中学习阶段的具体步骤为：

1)提取128维的图像SIFT特征和10维的LDA文本语义特征；

2)将提取得到的图像和文本特征输入到线性泛化回归模型中，利用线性泛化回归模型计算不同模态特征之间的回归关系，即计算出关联矩阵B；

3)将提取到的图像和文本特征输入多类Logistic回归器中进行训练，生成数据库模型的回归参数w和对应的后验概率分布。

检索阶段的具体步骤为：

1)用户提交需要检索的图像或文本实例；

2)提取实例图像的SIFT特征或实例文本的LDA特征；

3)把实例图像特征乘以关联矩阵B，实现文本与图像特征之间的转换；

4)将转换得到的图像或文本特征输入到训练过程生成的多类Logistic回归分类模型中进行测试，估计用户提交的图像或文本实例的后验概率分布；

5)将最大后验概率对应的类别作为待测样本，即用户提交的图像或文本实例的类别；

6)度量待测样本和对应类别数据库样本之间的相似性，其中，相似性指标用相关系数来度量；

7)根据相关性的大小对数据库中的样本，即媒体对象进行排序，根据用户设定的参数返回在数据库中检索到的最相似的前6个媒体对象。

图3是用户通过提交一段***(http://www.wikipedia.org/)上的描述地理内容的文本，让跨媒体搜索引擎查询返回得到的最相似的前6幅图像和对应的后验概率分布直方图。检索过程如下：用户首先提交需要检索的文本片断，接着提取文本的LDA特征，利用线性泛化回归模型将文本LDA特征转换为图像的SIFT特征，然后利用多分类Logistic回归的方法估计待测图像在模型中的后验概率，计算查询图像后验概率与该类数据后验概率之间的相关系数，并进行排序，最后显示前6个最大相关系数所对应的图像。从图3可以看出待检索文本对应的描述性图像与检索出的图像具有很大的相似性。

从上面的例子可以看出，基于线性泛化回归模型方法用于跨模态检索比传统方法更加简单，并且它从理论上更加合理地解释和有效地建立了不同模态之间的映射关系，从而保证不同模态之间信息转换的有效性和鲁棒性。该方法的提出有效地跨越了不同模态媒体之间的语义鸿沟，与传统的跨媒体检索方法比较，本发明表现出更广泛的运用前景和更大的市场价值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于线性泛化回归模型的跨媒体检索方法，其特征在于，该方法包括以下步骤：

步骤2，利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵，所述线性泛化回归模型表示为：

Y=XB+E，

其中，X和Y分别代表两个不同模态的特征向量，B为X和Y之间的关联矩阵，E为残差矩阵；

步骤3，估计数据库中各个样本的特征向量属于某一个类别的后验概率，所述步骤3中，采用多类Logistic回归算法来估计数据库中各个样本的特征向量属于某一个类别i的后验概率：

p (i | x; w) = \frac{\exp (w_{i}^{T} x)}{Σ_{j} \exp (w_{j}^{T} x)},

其中，i表示类别，x是特征向量，w是特征向量x的权重，通过最大似然估计法学习得到；

步骤6，计算待检索对象转换后的特征与数据库中对应类别的样本对象的特征之间的相似度，所述相似度使用相关系数来表征：

ρ_{corr} = \frac{π^{T} π^{'}}{| | π | | | | π^{'} | |} = \frac{Σ_{i} π_{i} \times π_{i}^{'}}{\sqrt{Σ_{j} π_{j}^{2}} \sqrt{Σ_{j} π_{j}^{' 2}}},

其中，ρ_corr为相关系数，π和π′表示两个待比较对象特征的后验概率；

2.根据权利要求1所述的方法，其特征在于，所述步骤1中，所述不同模态的样本之间为一一对应。

3.根据权利要求1所述的方法，其特征在于，分别使用尺度不变特征变换算法和隐狄雷克雷分布算法对图像和文本进行特征的提取。

4.根据权利要求1所述的方法，其特征在于，所述步骤5中，使用所述关联矩阵对提取到的待检索对象的特征进行特征转换表示为：

\hat{Y} = \hat{X} B,

其中，

为待检索对象的特征，B为关联矩阵，

为转换后得到的特征。

5.根据权利要求1所述的方法，其特征在于，若数据库中含有多个模态对象，则根据相应的关联矩阵对待检索对象特征进行转换。

6.根据权利要求1所述的方法，其特征在于，所述步骤5中进一步包括，利用多类Logistic回归算法估计转换后的待检索对象特征属于某一个类别的后验概率。

7.根据权利要求1所述的方法，其特征在于，所述步骤7中返回的检索结果的数量由用户根据需要自行设定。