CN106227836B

CN106227836B - 基于图像与文字的无监督联合视觉概念学习***及方法

Info

Publication number: CN106227836B
Application number: CN201610595620.3A
Authority: CN
Inventors: 熊红凯; 倪赛杰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-07-26
Filing date: 2016-07-26
Publication date: 2020-07-14
Anticipated expiration: 2036-07-26
Also published as: CN106227836A

Abstract

本发明公开一种基于图像与文字的无监督联合视觉概念学习***及方法，包括：文字解析模块，基数示例学习模块和多任务聚类模块，其中：所述文字解析模块利用社交媒体对图像的附加句子描述提取相应的名词作为视觉概念及其基数词作为下一模块的附加约束信息；所述基数示例学习模块利用基数引导的多示例学习方法来训练每个视觉概念的分类器；所述多任务聚类模块处理概念间的多样性，即将指代相似物体的名词聚集为一个大类作为视觉概念。本发明利用无监督的自动学习可以有效解决大规模数据下人工标定的实现繁复问题。

Description

基于图像与文字的无监督联合视觉概念学习***及方法

技术领域

本发明涉及一种计算机视觉领域的视觉概念方法，具体是一种基于图像与文字的无监督联合视觉概念学习***及方法。

背景技术

在计算机视觉领域，传统的图像分类与目标检测方法或多或少地依赖于人工标注，如图像级别的或图像示例级别的标签。近年来随着计算机技术的发展与大数据的出现，大规模的视觉概念学习成为一个新兴研究热点，而人工标注百万甚至千万级别的数据决非易事，因此利用无监督学习来进行大规模的视觉概念学习正是时下需求。

由于单从图片本身来学***台的图片与相关文字描述进行联合视觉概念学习。

Chen等人在2013年的《IEEE International Conference on Computer Vision》(IEEE ICCV)会议上发表的“Neil:Extracting visual knowledge from web data”一文中提出了一种基于搜索引擎的视觉概念学习方法，它先对每一个概念搜集一部分图片，然后迭代地挖掘图片中各示例的常识关系(如位置关系等)，再用搜索得到的结果不断精细化视觉概念的检测器。然而这种基于搜索引擎的方法需要手工设置视觉概念的种类，由于数量庞大在实际应用中并不可行；并且搜索得到的图像比自然图像要简单得多，也就不能学习到各物体的多样性。

Socher等人在2013年的《NIPS Deep Learning Workshop》会议上发表“Groundedcompositional semantics for finding and describing images with sentences”一文中提出了一种基于社交网络资源的视觉概念学习方法。这种方法利用Flickr网站上的用户上传的图片及带噪声的图片标签来训练概念检测器。这种方法没有利用人工输入的标签，但是没有考虑到概念之间的相似性(如“ship”与“sailboat”都属于“boat”)，这会造成视觉概念的冗余，不能得到鲁棒的物体检测与分类器。

发明内容

本发明针对现有技术中的缺陷，提供了一种基于图像与文字的无监督联合视觉概念学习***及方法，利用无监督的自动学习可以有效解决大规模数据下人工标定的实现繁复问题。

根据本发明的第一目的，提供一种基于图像与文字的无监督联合视觉概念学习方法，包括：

文字解析步骤：对于给定的句子描述利用文字解析工具提取相应的名词，对句中的每个词进行词性标注并提取出单数和复数名词作为基数示例学习模块的标签；除了名词本身，还提取名词对应基数即数量作为基数示例学习的附加约束信息；

基数示例学习步骤：首先提取句子描述所对应图像中的显著区域，再利用文字解析步骤中提取到的基数信息引导多示例学习的分类器训练每个视觉概念，即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性，得到视觉概念分类器；该步骤训练所得的每个视觉概念分类器将作为文字解析步骤的输入；

多任务聚类步骤：将基数示例学习步骤训练得到的视觉概念分类器利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性，以获得更加紧致和鲁棒的视觉概念。

优选地，所述文字解析步骤中：对名词基数的提取分为“准确”和“大致”两种，“准确”的基数由名次前面的数量修饰词决定，而“大致”的复数名词基数定义为“2”，因为至少有两个物体对应图中。

优选地，所述基数示例学习步骤，是针对图像区域块级别做处理而不是整幅图像级别，因为一幅自然图像往往包含多个物体。

优选地，所述基数示例学***均；最终分类误差函数为所有“正包”与“负包”分类误差之和。

更优选地，所述基数示例学习步骤，相比于一个包只提取一个正例的方法，能够提取图像中的更多示例，获得泛化性能更强的分类器。

更优选地，所述基数示例学习步骤，其中分类误差函数利用随即梯度下降法来训练直至网络收敛。

优选地，所述多任务聚类步骤，其目标函数由聚类误差和正则化误差两项组成。

更优选地，所述正则化误差为：衡量权重量级的惩罚函数与衡量类内与类间相似度的正则函数。

根据本发明的第二目的，提供一种基于图像与文字的无监督联合视觉概念学习***，包括：文字解析模块、基数示例学习模块和多任务聚类模块，

所述文字解析模块，对于给定的句子描述利用文字解析工具提取相应的名词，对句中的每个词进行词性标注并提取出单数和复数名词作为基数示例学习模块的标签；除了名词本身，还提取名词对应基数即数量作为基数示例学习模块的附加约束信息；

所述基数示例学习模块，首先提取句子描述所对应图像中的显著区域，再利用上一模块中提取到的基数信息引导多示例学习的分类器训练每个视觉概念，即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性，得到视觉概念分类器；该模块训练所得的每个视觉概念分类器将作为下一模块的输入；

所述多任务聚类模块，将基数示例学习模块训练得到的视觉概念分类器利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性，以获得更加紧致和鲁棒的视觉概念。

优选地，所述文字解析模块，除了单数和复数名词本身可以作为视觉概念的标签，还提取名词对应基数作为下一模块的附加约束信息。

优选地，所述文字解析模块名词基数的提取分为“准确”和“大致”两种，“准确”的基数由名次前面的数量修饰词决定，而“大致”的复数名词基数(如“some”)我们定义为“2”因为至少有两个物体对应图中，名词基数的提取能为下一模块提供信息，增进场景理解。

所述基数示例学习模块，首先提取每幅图像中的显著区域，再利用基数信息引导多示例学习的分类器训练每个视觉概念，即对每幅图像提取基数相应数量的物体个数，相较于常规多示例学习的一个包只提取一个正例，本***能提取场景描述所对应数量的正例提高视觉概念学习的分类准确性。

优选地，所述基数示例学习模块针对图像区域块级别做处理而不是整幅图像级别，因为一幅自然图像往往包含多个物体(如“蓝天”，“沙滩”和“游客”)，若用传统图像分类的方法将整幅图像作为输入，则会导致很差的目标检测结果。

优选地，所述基数示例学习模块利用多示例学习训练上一模块提取到的每个视觉概念的分类器。多示例学习这一模块与传统分类器训练的不同之处在于，每个正包中所含示例并不均为正例，而是至少含有一个；而负包中所含均为负例。

优选地，对所述基数示例学***均。

优选地，所述基数示例学习模块相比于一个包只提取一个正例的方法，能够提取图像中的更多示例，获得泛化性能更强的分类器，从而增进场景理解与目标检测的能力

优选地，所述基数示例学习模块的误差函数利用随机梯度下降法来训练直至网络收敛。

所述多任务聚类模块，处理概念间的多样性，比如“girl”和“policeman”均指代“people”，因此为了获得更加鲁棒的分类器，利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念。

优选地，由于提取名词的多样性，比如“girl”和“policeman”均指代“people”，因此为了获得更加鲁棒的分类器，利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念。

优选地，所述多任务聚类模块的目标函数由聚类误差和正则化误差两项组成。

与现有技术相比，本发明具有如下的有益效果：

现有大规模数据下人工标定的实现繁复：现有基于搜索引擎的方法需要手工设置视觉概念的种类，且搜索得到的图像过于简单，不具有多样性；现有非基于引擎搜索的方法没有考虑概念之间的相似性会造成视觉概念的冗余，不能得到鲁棒的物体检测与分类器。

本发明针对上述问题，采用上述无监督视觉概念学习的技术方案，利用自然语言处理与显著区域提取，提出一个基数导向的多示例学习方法，训练每个视觉概念的分类器。同时，提出多任务聚类的方法将指代相似的名词聚集到一类以获得更加鲁棒的视觉概念分类。最终能很好的解决现有大规模数据下人工标定的实现繁复的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中方法流程图；

图2为本发明一实施例中***的结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明针对大规模数据下人工标定的实现繁复问题，提出了一种基于图像与文字的无监督联合视觉概念学习方法：

多任务聚类步骤：利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性，以获得更加紧致和鲁棒的视觉概念。

上述各步骤具体实现的技术参见以下***实施例对应模块的描述。

如图2所示，为对应于上述方法，实现上述方法的基于图像与文字的无监督联合视觉概念学习方法的结构框图，所述***包括：文字解析模块，基数示例学习模块和多任务聚类模块，其中：

所述多任务聚类模块，利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性，以获得更加紧致和鲁棒的视觉概念。

本实施例中，所述的文字解析模块名词基数的提取分为“准确”和“大致”两种，“准确”的基数由名次前面的数量修饰词决定，而“大致”的复数名词基数(如“some”)定义为“2”因为至少有两个物体对应图中。

因此，每幅图中的基数向量表示可表示为N＝{n₁，n₂，...，n_K}，如果列表中的第k个名词在该图中没有提到，则n_k＝0，否则n_k等于该名词提取到的基数。

本实施例中，所述的基数示例学习模块利用多示例学习训练每个视觉概念的分类器。将第k个分类器在显著区域块x上获得的分数定义为:

Γ是将原始d维特征映射至由所有分类器共享的h维的h×d矩阵，w_k是第k个视觉概念分类器的权重，x是该区域块的特征表示。

本实施例中，对所述基数示例学***均。因此，每幅图片X的分类分数为：

其中

是满足

的“主要示例”，

是第n_i个区域块的分数，n_k是该包中所含有的该类别的示例基数。

本实施例中，所述的基数示例学习模块相比于一个包只提取一个正例的方法，能够提取图像中的更多示例，获得泛化性能更强的分类器。

本实施例中，所述的基数示例学习模块的误差函数利用随即梯度下降法来训练直至网络收敛。

本实施例中，由于提取名词的多样性，比如“airplane”和“helicopter”均指代“plane”，因此为了获得更加鲁棒的分类器，利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念。注意到映射后的区域块特征x′_i＝Γx，因此该区域块的分数g_k(x)＝w^TΓx＝w^Tx′_i，其中w是各视觉概念分类器的权重，Γ是将原始d维特征映射至由所有分类器共享的h维的h×d矩阵，其中w和Γ的取值由训练得到x是该区域块的特征表示。

本实施例中，所述多任务聚类模块的目标函数由聚类误差和正则化误差两项组成：

其中，聚类误差

为平均分类误差：

M是该类示例总数量，K是所有类别数量，w_k是第k个视觉概念分类器的权重，且W＝[w₁，...，w_k，...w_K]，x是该区域块的特征表示。

正则化误差Ω(W，V)为：衡量权重量级的惩罚函数与衡量类内与类间相似度的正则函数：

Ω(W，V)＝Ω_mag(W)+αΩ_inter(W，V)+βΩ_intra(W，V) (5)

Ω_mag是权重W的幅度惩罚项，Ω_inter与Ω_intra分别对类内和类间的权重作正则；α与β分别是是正则化系数；V＝A(A^TA)^-1A^T，A∈{0，1}^K×T是视觉概念的聚类标签分配，若第k个视觉概念属于第t个聚类类别，则A(k，t)＝1，其中K与T分别是视觉概念种类数目与聚类类别数量。

对于上述非凸优化问题，采用凸函数松弛法，以优化一组半正定凸集矩阵获得参数W与V。

实施效果

依据上述步骤，采用发明内容中的上述***和上述步骤进行实施，实验所用数据来源于数据集MicroSoft CoCo的共计12万个样例，每个样例包含有一幅图片和五句语句描述。选取其中的四个大类用作实验，即：people,vehicle,airplane和monitor，因此，用训练集中的10873张图片来训练，验证集中的2568张图片来测试。本发明的特征为由卷积神经网计算得到的4096维向量。实施例***分别比较了强监督、若监督和无监督三种方法，用于目标检测的应用。其中强监督分别比较了DPM和R-CNN两种方法，弱监督比较了PR方法，无监督比较了PBM方法，在四类物体上所获得的平均准确率分别为0.349,0.506.0.268和0.218，本发明所提出方法的平均准确率为0.454，平均准确率明显提高。

实验表明，本发明提出的基于图像与文字的无监督联合视觉概念学习***在目标检测的问题中具有很好的效果。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于图像与文字的无监督联合视觉概念学习方法，其特征在于包括：

基数示例学习步骤：首先提取句子描述所对应图像中的显著区域，再利用文字解析步骤中提取到的基数信息引导多示例学习的分类器训练每个视觉概念，即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性，得到视觉概念分类器；该步骤训练所得的每个视觉概念分类器将作为多任务聚类步骤的输入；

2.根据权利要求1所述的基于图像与文字的无监督联合视觉概念学习方法，其特征是，所述文字解析步骤中：对名词基数的提取分为“准确”和“大致”两种，“准确”的基数由名次前面的数量修饰词决定，而“大致”的复数名词基数定义为“2”，因为至少有两个物体对应图中。

3.根据权利要求1所述的基于图像与文字的无监督联合视觉概念学习方法，其特征是，所述基数示例学习步骤，是针对图像区域块级别做处理而不是整幅图像级别，因为一幅自然图像往往包含多个物体。

4.根据权利要求1所述的基于图像与文字的无监督联合视觉概念学***均；最终分类误差函数为所有“正包”与“负包”分类误差之和。

5.根据权利要求4所述的基于图像与文字的无监督联合视觉概念学习方法，其特征是，所述基数示例学习步骤，相比于一个包只提取一个正例的方法，能够提取图像中的更多示例，获得泛化性能更强的分类器。

6.根据权利要求5所述的基于图像与文字的无监督联合视觉概念学习方法，其特征是，所述基数示例学习步骤，其中分类误差函数利用随机梯度下降法来训练直至网络收敛。

7.根据权利要求1-6任一项所述的基于图像与文字的无监督联合视觉概念学习方法，其特征是，所述多任务聚类步骤，其目标函数由聚类误差和正则化误差两项组成。

8.根据权利要求7所述的基于图像与文字的无监督联合视觉概念学习方法，其特征是，所述正则化误差为：衡量权重量级的惩罚函数与衡量类内与类间相似度的正则函数。

9.一种用于实现权利要求1-8任一项所述方法的基于图像与文字的无监督联合视觉概念学习***，其特征在于，包括：文字解析模块，基数示例学习模块和多任务聚类模块，其中：