CN104077408A

CN104077408A - 大规模跨媒体数据分布式半监督内容识别分类方法及装置

Info

Publication number: CN104077408A
Application number: CN201410331890.4A
Authority: CN
Inventors: 赵学义; 张晨逸; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2014-10-01
Anticipated expiration: 2034-07-11
Also published as: CN104077408B

Abstract

本发明公开了一种大规模跨媒体数据分布式半监督内容识别分类方法及装置，其根据不同模态特征之间数据的内在联系，既利用有便签的数据又考虑无标签的数据，挖掘出其间共存的信息，通过二值化约束来加速计算，并通过多分类的回归模型，调整基于共存信息的回归系数，使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失，我们在共存信息上施加软约束条件，通过多次迭代逐步使数据趋向于二值化。相比于现有的快速学习分类技术，本发明提出的分类方法在准确率，效率和处理的数据规模上都有了很大的提高。

Description

大规模跨媒体数据分布式半监督内容识别分类方法及装置

技术领域

本发明属于分布式计算和分类技术领域，特别涉及一种基于学习跨媒体数据域子空间的分布式半监督内容识别的快速分类方法及装置。

背景技术

在目前的网络时代，数据集的增长速度越来越快，已经进入了大规模数据处理时代。传统的数据挖掘处理方法通常有比较高的计算复杂度，导致其只能在数据量小的数据集上计算。不仅数据量急剧增大，数据的类型也越来越丰富，比如文本数据，图像数据，音频数据，视频数据等等。而且往往一个数据样本就会同时存在这种多类型数据特征的形式。比如一个特定的新闻事件，在互联网上会有一个网页来进行报道，其中会有文字上对这个新闻事件的描述，会有现场的图片以及视频，还会有一些现场声音或者评论员声音的内容。这样就是一个跨媒体数据样本，这样的数据虽然描述的同一件事情，但其特征结构却往往是十分复杂的。这样一种大规模跨媒体数据广泛存在于现实生活中，已经和当今的时代密不可分。但是这种跨媒体数据却存在着处理速度和处理难度上的双重困难，是一个十分有意义也十分有挑战性的任务。传统的处理方法或者只关注小数据样本，或者标签只有两个类别，或者只有单一类型的数据特征的分类问题，不能解决多类型特征多类别标签的大规模跨媒体数据分类问题。

在大规模网络数据中，大部分数据都是无标签的原始数据。也就是说我们能利用的数据基本都没有标准的类别信息，有标签的数据相比于无标签的数据是非常少的。这是因为网络数据基本都是用户在网上的行为产生的，这些行为都是杂乱无章的。即使有一部分数据是有关联的，但是这种关联关系往往也无法形成一个确定的标签信息。对于这样的数据，采用聚类分析的方法是可以自动的学习出来标签结果。但是这样得到的标签结果是依赖聚类模型的，而且得到的标签也不是很准确的。简单的采用聚类结果作为标签是不明智的，也容易得到不准确的分类结果。因此，给网络上的数据加上标签基本都要专业的人手工添加。这样的代价是十分高的，也是十分慢的，因为网络数据样本基本都是数以百万计的。所以目前的网络数据面临着只有少部分有标签的数据和大量无标签的数据的分类问题。基于这样的数据形式，设计一种半监督分类方法显得更加实用。半监督的方法能够在利用有标签数据做分类的同时，考虑无标签数据中存在的样本内在的结构信息，最大限度的利用数据样本的内在属性信息，得到更好的分类结果。

在现有的文献里，很多处理跨媒体的数据处理方法都是基于有标签数据的，或者只是同时利用少量无标签的数据。这些方法只能在小量样本的数据集上使用，一旦数据量变得很大，处理方法就变得十分耗时，无法在实际应用场景下使用。因此，提出一种高效的跨媒体数据的分布式半监督内容识别的分类方法变得十分重要。

发明内容

本发明提供了一种大规模跨媒体数据分布式半监督内容识别分类方法，此分类技术可应用于跨媒体数据内容识别领域。在训练数据中既有一些有标签数据和大量无标签数据的多种类型多分类任务下，我们利用快速非监督分类方法得到所需的分类器，在分类性能上可以达到满意的效果。

为实现上述目的，本发明的技术方案为：

一种大规模跨媒体数据分布式半监督内容识别分类方法，包括如下步骤：

S10：对分类样本的各种类型数据的特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据；

S20：对步骤S10中输入的数值型数据以及相应的标签信息，建立数学模型；

S30：对S20中建立的数学模型，推导各个变量的更新公式，以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示；

S40：利用S30中得到的分类器系数和一致性特征空间映射向量，对尚未分类的测试数据进行分类。

进一步的，步骤S20包括：

S201：将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。

S202：将输入的联合数据矩阵映射成一致性特征表示，并将标签信息矩阵加入到模型中联合优化，最后得到一个跨媒体数据的半监督内容识别模型；

S203：对空间变换映射矩阵施加二值化的正则项约束，以降低不同空间映射的计算复杂度

S204：对分类系数变量施加L2范数约束，以提高***的鲁棒性。

S205：将步骤S202得到的分类模型和步骤S203,S204中得到的各个正则项整合起来，得到统一的数学模型。

进一步的，步骤S30包括：

S301：在保持其他变量不变的前提下，更新各类型特征空间的映射向量；

S302：根据S301得到的各类型特征空间的映射向量，更新数据在一致性特征空间中新的特征表示；

S303：根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示，更新分类器系数；

进一步的，步骤S40包括：

S401：对尚未分类的测试数据计算各类型特征空间的映射向量；

S402：综合多特征空间下的表示向量，得到一致性特征空间下的特征表示；

S403：根据分类器系数，得到尚未分类的测试数据的分类标签。

本发明的另一目的还在于提供一种大规模跨媒体数据分布式半监督内容识别分类装置，包括：

数据预处理模块：对分类样本的各种类型特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据；

建模模块：根据转化后的数值型数据以及相应的标签信息，建立数学模型；结合跨媒体数据的分布式半监督内容识别模型、空间映射加速约束及提高模型鲁棒性约束，建立统一的数学模型并输出；

参数迭代更新模块：根据建模模块输出的数学模型，推导各个变量的更新公式，以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示；

跨媒体数据分类模块：利用参数迭代更新模块中得到的分类器系数和一致性特征空间映射向量，对尚未分类的测试数据进行分类。

进一步的，所述建模模块包括：

将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。

将输入的联合数据矩阵映射成一致性特征表示，并将标签信息矩阵加入到模型中联合优化，最后得到一个跨媒体数据的半监督内容识别模型；

对空间变换映射矩阵施加二值化的正则项约束，以降低不同空间映射的计算复杂度

对分类系数变量施加L2范数约束，以提高***的鲁棒性。

将得到的分类模型和各个正则项整合起来，得到统一的数学模型。

进一步的，所述跨媒体数据分类模块包括：

对尚未分类的测试数据计算各类型特征空间的映射向量；

综合多特征空间下的表示向量，得到一致性特征空间下的特征表示；

根据分类器系数，得到尚未分类的测试数据的分类标签。

本发明构思及优点：根据不同模态特征之间数据的内在联系，既利用有便签的数据又考虑无标签的数据，挖掘出其间共存的信息，通过二值化约束来加速计算，并通过多分类的回归模型，调整基于共存信息的回归系数，使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失，我们在共存信息上施加软约束条件，通过多次迭代逐步使数据趋向于二值化。我们设计了基于MapReduce的分布式***的并行计算方法，利用多台机器同时计算方法之间不相关的数据内容，使计算速度大幅提升。相比于现有的快速学习分类技术，本发明提出的分类方法在准确率，效率和处理的数据规模上都有了很大的提高。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明.

参考图1所示的本发明实施例的大规模跨媒体数据的半监督内容识别的分类方法的流程图，其包括以下步骤：

S10：对分类样本的各种类型特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据；

S20：对步骤S10中输入的数值型数据以及相应的标签信息，建立数学模型。具体包括步骤S201至S205：

S201：将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。模型输入包括：

N_p种类型的特征数据上标(p)表示第p种类型的特征数据，其中A^(p)表示第p种类型的数据矩阵，表示矩阵的第i列。假设所有样本的数目是m，并且第p种类型特征数据的特征空间维度是n_p，则第p种类型特征数据的矩阵表示表示m×n_p维的实数域空间。对于文本数据，其TF-IDF特征被用作输入的数值化数据；对于图像数据，其SIFT特征或者颜色直方图特征被用作输入的数值化数据。

标签矩阵上标T表示向量或者矩阵的转置，其中y_i表示第i个数据的标签向量。

由于原始的跨媒体数据的维度一般都很高，直接在原始数据上做回归模型是无法实现的。通常需要将原始特征映射到低维空间内，得到数据的低维表示，然后再加入到训练模型中。考虑到不同类型特征之间会共享一致的关系信息，同时也会有一些不同的隐藏信息。于是我们把不同类型的数据映射到同意空间内，这样我们不仅找到了不同类型特征之间的一致表达，同时在得到这种一致表达的过程中也综合了不同类型数据间的互相作用。因此，我们将不同类型的特征A^(p)映射到由映射矩阵张成的空间里，得到一致性特征空间下的特征表示W，然后训练模型得到回归系数β。

一方面，此模型挖掘出了不同类型数据之间共享的数据信息，得到了一个相比于原始数据更简洁更明确的特征表达。另一方面，通过得到多特征的一致表达，降低了回归模型的计算复杂度，加快了计算速度，这在当前的大数据分类应用下是十分有意义的。

再者，由于当前的网络数据大部分都是无标签的数据，真正有标签的数据往往是很少的，这样把无标签的数据加入到训练模型中是十分有必要的。在我们的分类模型中，我们将有标签数据和无标签数据同时放到一个大矩阵中。不失一般性，假设前N_l个样本是有标签的，之后的N_u个样本是无标签的。基于此假设，W的前N_l行对应的就是有标签数据的在一致性特征空间下的特征表示。同时，我们需要一个选择矩阵S，来使W矩阵和Y矩阵能够匹配。选择矩阵的具体形式为其中e_i表示只有第i个元素为1，其他元素全为0的单位列向量。

基于上述分析，跨媒体数据的半监督内容识别模型建立为：

\min_{W, β, H^{(p)}} {| | Y - S_{1}^{N_{l}} Wβ | |}_{F}^{2} + \underset{p}{Σ} c_{p} {| | A^{(p)} - W H^{(p)} | |}_{F}^{2} + Ω (β, {H^{(p)}}),

其中F表示矩阵的Frobenius范数，Ω(β,{H^(p)})为施加在分类模型参数的正则化约束。是不同类型特征空间的映射矩阵,W∈R^m×k是不同类型特征数据的一致表达，β是一致性表达空间下的分类器系数，c_p是赋予不同类型特征数据的权重系数。

S203：对空间变换映射矩阵施加二值化的正则项约束，以降低不同空间映射的计算复杂度。

在大数据处理问题中，W和H^(p)也都是大规模矩阵，通过二值化处理，可以极大的减少内存空间占用并极大地减少计算复杂度。因为W是一致性特征表示，其要和分类器系数一起计算来预测回归模型的标签。直接在W上施加这么强的约束是不合适的，这样往往会导致模型预测不准确，也就是使回归模型欠拟合。另一方面，由于对一个新的测试样本要对其计算空间映射的新变量，这个过程H^(p)要参与计算。对H^(p)施加二值化约束还能使对新样本的预测过程的计算速度加快很多。因此，我们最终是在空间映射矩阵H^(p)加了二值化约束。

对于不同类型的特征空间映射矩阵H，我们施加了一个二值化约束。从而使得矩阵里的元素只能是0或者1，加快了计算速度。但是一个很强的二值化约束会导致模型的求解困难。为了兼顾模型求解复杂度和计算速度，我们采取了一种软二值化约束条件。具体的，是最小化H^(p)和(H^(p)-1)的乘积。在数学上的表示就是

\min_{H^{(p)}} \underset{p}{Σ} λ^{(p)} {| | {(H^{(p)})}^{2} - H^{(p)} | |}_{F}^{2},

其中λ^(p)是拉格朗日乘子。通过最小化此范数，可以使H^(p)的取值趋向于0和1。从而间接地达到二值化的目的。

S204：对分类系数变量施加L2范数约束，以提高***的鲁棒性。

由于我们是将不同类型特征的数据统一映射到一个一致性表达的空间上去，这样的一致性表达往往是不唯一的，如果接下来不对分类器系数加以约束，得到的系数将会不稳定，可能会出现极大的值和极小的值。为了防止这种情况的出现，模型中对分类器系数加了L2约束。

综合S203和S204，得到正则化约束函数为：

Ω (β, {H^{(p)}}) = μ {| | β | |}_{F}^{2} + \underset{p}{Σ} λ^{(p)} {| | {(H^{(p)})}^{2} - H^{(p)} | |}_{F}^{2},

其中μ是拉格朗日乘子。

\min_{W, β, H^{(p)}} {| | Y - S_{1}^{N_{l}} Wβ | |}_{F}^{2} + \underset{p}{Σ} c_{p} {| | A^{(p)} {WH}^{(p)} | |}_{F}^{2} + μ {| | β | |}_{F}^{2} + \underset{p}{Σ} λ^{(p)} {| | {(H^{(p)})}^{2} - H^{(p)} | |}_{F}^{2}

S30：对S20中建立的数学模型，推导各个变量的更新公式，以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示，具体包括步骤S301至S303：

H_{tj}^{(p)} = \frac{{[c_{p} W^{T} A + 3 λ {(H^{(p)})}^{2}]}_{tj} H_{tj}^{(p)}}{{[c_{p} W^{T} {WH}^{(p)} + 3 λ {(H^{(p)})}^{3} + {λH}^{(p)}]}_{tj}}

W_{it} = \frac{{[{(S_{1}^{N_{l}})}^{T} Y β^{T} + \underset{p}{Σ} c_{p} A^{(p)} {(H^{(p)})}^{T}]}_{it} W_{it}}{{[{(S_{1}^{N_{l}})}^{T} S_{1}^{N_{l}} W {ββ}^{T} \underset{p}{Σ} c_{p} {WH}^{(p) {(H^{(p)})}^{T}}]}_{it}}

β_{tq} = \frac{{[W^{T} {(S_{1}^{N_{l}})}^{T} Y]}_{tq} β_{tq}}{{[(μI + W^{T} {(S_{1}^{N_{l}})}^{T} S_{1}^{N_{l}} W) β]}_{tq}}

上述参数更新方法是交替迭代进行的，每一步迭代计算都包含S301到S303的三种参数的计算。反复迭代计算，直到模型收敛。

S40：利用S30中得到的分类器系数和一致性特征空间映射向量，对尚未分类的测试数据进行分类，具体包括步骤S401至S403：

对于一个新输入样本的第p类型特征x^p，首先计算其对应的特征空间映射下的低维表示向量：每种类型特征都如此计算，得到了多个特征下的低维表示。

由于对于一个尚未分类的测试数据，不同特征下的低维表示向量往往是不相同的，而我们想要得到的是一个不同空间下的一致表达。因此，基于不同空间下的表示向量，计算得到这些向量的期望估计，进而得到一致性特征空间下的特征表示。因为模型中引入了不同特征空间的权重因子c_p，这个期望值x_H是一个加权平均化，即：

x_{H} = \frac{1}{Σ_{p} c_{p}} \underset{p}{Σ} c_{p} x_{H}^{(p)} .

在得到了一致性特征空间下的表示之后，进一步的计算新样本的分类标签i。具体地，根据以下公式计算分类标签：i＝argmax_i(x_Hβ)_i。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大规模跨媒体数据分布式半监督内容识别分类方法，包括如下步骤：

S20：对步骤S10中输入的转化后的数值型数据以及相应的标签信息，建立数学模型；

2.根据权利要求1所述的分类方法，步骤S20包括：

S201：将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入，将有标签数据和无标签数据联合建立成一个数据矩阵；

S203：对空间变换映射矩阵施加二值化的正则项约束，以降低不同空间映射的计算复杂度；

S204：对分类系数变量施加L2范数约束，以提高***的鲁棒性；

S205：将步骤S202得到的分类模型和步骤S203、S204中得到的各个正则项整合起来，得到统一的数学模型。

3.根据权利要求1中所述的分类方法，步骤S30包括：

S303：根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示，更新分类器系数。

4.根据权利要求1或2或3中所述的分类方法，步骤S40包括：

5.一种大规模跨媒体数据的分布式半监督内容识别的分类装置，包括：

6.根据权利要求5所述的分类装置，所述建模模块包括：

对分类系数变量施加L2范数约束，以提高***的鲁棒性。

7.根据权利要求5或6所述的分类装置，所述跨媒体数据分类模块包括：

对尚未分类的测试数据计算各类型特征空间的映射向量；

根据分类器系数，得到尚未分类的测试数据的分类标签。