CN107480688A

CN107480688A - 基于零样本学习的细粒度图像识别方法

Info

Publication number: CN107480688A
Application number: CN201710470805.6A
Authority: CN
Inventors: 魏杰; 武继刚; 孟敏; 王勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2017-12-15
Anticipated expiration: 2037-06-20
Also published as: CN107480688B

Abstract

本发明公开了一种基于零样本学习的图像识别方法，包括：给定测试的图像集trainX和语义集trainY；初始化降维矩阵B和D，使得trainX＝B*Zx、trainY＝D*Zy，其中B，D是根据字典学习得到的初始结果，通过奇异值分解将特征矩阵分解为一个方阵，并选择前若干维作为字典B和D的初始化，Zx和Zy分别为降维后的低维空间中的图像特征和语义信息；初始化映射关系矩阵W；通过线性回归，使用随机梯度下降法调整W矩阵使得Zx＝W*Zy；计算测试集的分类正确精度；根据分类结果差值来改进降维矩阵B和D，然后重复前述步骤，直至精度等于或高于目标精度后，输出结果。

Description

基于零样本学习的细粒度图像识别方法

技术领域

本发明涉及图像识别领域，具体涉及一种基于零样本学习的细粒度图像识别方法。

背景技术

随着各种电子设备在各个领域的普及，图像识别技术在人们的生活中已经变得无处不在，为了在越来越多的场景利用这一技术，对其识别的精准度也要求越来越高。然而，随着近几年大数据和大规模数据量学习的兴起，传统的图像识别技术逐渐无法满足新的图像识别需求，例如需要识别之前从未见过的类型的图像，这个问题在当前的海量数据中尤为突出，因此在大规模学习的背景下提高不可见类的识别精度具有重要的意义。为了提高在未见过类型的识别率，人们提出了双线性模型，通过非图像的辅助信息资源建立从可见类到不可见类的联系。在训练过程中，将图像的类别标签替换为具有语义信息的嵌入向量，并将图像特征和语义特征映射到同一低维潜层空间，通过支持向量机分类器来完成图像的分类工作。这种方法减少了训练好的分类器对原数据的过度依赖，实现了分类器的泛化性，完成了知识的迁移过程，最终提高了传统算法的识别精度。

然而对这类问题，现有的识别技术只简单的考虑到了不可见类的识别方法问题，并没有考虑到需要识别的图像样本的自身的特点属性。在现实环境中，通常会遇到细粒度的训练样本，即每个类别之间的相关性很高，在视觉上也有极高的相似性，通过神经网络提取出图像的特征后，如果直接使用支持向量机直接将样本进行分类，由于样本特征在高维空间中高度重合，无法用之前的方法得到一个大间距分类器将样本很好的分类，最终导致大量的图像数据被分类器视为噪点并错误分类，严重影响对不可见类的图片的识别精度。因此选择合适的方法对数据进行预处理和合适的分类器对于提升不可见类的识别精度至关重要。

发明内容

为了在大规模数据环境中提升细粒度图像识别的精度，尤其是识别之前从未见过类别的图像中的物体，如何在较快的时间内识别并提高细粒度识别的精度引起了广泛的关注。本发明的目的在于克服现有技术的缺点与不足，提供一种针对在zero-shot环境下的细粒度图像识别的精度不高的问题。本发明提供一种有效的泛化能力强的图像识别方法，在部分数据类别不可见的情况下，提高在细粒度图像数据的识别精度。

本发明出于分类的有效性考虑可采用如下方式进行设计。首先，将图像和语义信息从实体中提出特征，得到了图像和语义信息在特征空间的表达，对两个特征空间分别进行字典学习映射到低维子空间，然后，通过线性回归的方式，学习得到图像和语义信息在低维子空间的映射关系的矩阵，将计算所得的误差反馈给字典学习过程，用来改进特征空间到低维子空间的映射关系，从而尽量减少映射到低维子空间这一过程中所损失的特征表达，使得低维空间能更好的表达高维空间的信息。

一种基于零样本学习的图像识别方法，其步骤包括：

S1、给定测试的图像集trainX和语义集trainY；

S2、初始化降维矩阵B和D，使得trainX＝B*Zx、trainY＝D*Zy，其中所述步骤S2中的初始化降维矩阵B，D是根据字典学习得到的初始结果，通过奇异值分解将特征矩阵分解为一个方阵，并选择前若干维作为字典B和D的初始化，Zx和Zy分别为降维后的低维空间中的图像特征和语义信息；

S3、初始化映射关系矩阵W；

S4、通过线性回归，使用随机梯度下降法调整W矩阵使得Zx＝W*Zy；

S5、计算测试集的分类正确精度；

S6、根据S5中的分类结果差值来改进降维矩阵B和D，然后重复S4和S5，若计算的精度小于目标精度，则跳转到S2但不需要重新初始化B和D，直至精度等于或高于目标精度后，输出结果。

进一步的，所述步骤S2选择类别个数作为字典的维度。

进一步的，所述步骤S3中的W初始化是通过随机化产生一个矩阵，矩阵的大小要能满足所述步骤S4中的等式。

进一步的，所述步骤S4中，选择线性回归作为学习映射关系W的方法，通过随机梯度下降的优化过程，最终使得目标函数达到一个局部最优解。

进一步的，所述步骤S5中的计算精度的方式是先计算每个类的识别精度，然后再加和计算平均每个类的精度，所述步骤S5中通过可见类别的计算误差来不断调整B、D字典。

进一步的，所述步骤S6是对整个算法的多次迭代，直至精度收敛到精度等于或高于目标精度后停止。

本发明相对于现有技术具有如下的优点及效果：

本发明公开了一种使用低维嵌入特征空间的方法来识别在细粒度环境下的图像。该方法通过字典学***均精度来测试识别模型的性能程度，最后将识别精度输出出来，将算法多次重复后，选择精度较高的模型作为实际应用模型。

本发明能够应用在在一个较大规模的图像识别过程中，尤其是在大数据背景下对于不可见类图像的识别，提高了传统算法的泛化能力，实现了算法从可见类到不可见类的迁移，从整体上提高对每个类别的识别精度。

附图说明

图1是一种基于零样本学习的细粒度图像识别方法模型图；

图2是一种基于零样本学习的细粒度图像识别***流程图；

图3是一种基于零样本学习的细粒度图像识别方法流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明基于零样本学习(zero-shot learning)中图像识别的问题，提出的一种高效的对不可见类的识别以及分类算法，具体实现步骤如下：

训练阶段，首先用户从实际的图像和语义文本中提取出特征向量，如图1所示，图像的特征提取使用现有的卷积神经网络，而语义的特征可以使用人工标记属性或词向量等工具从***语料库中提取。

具体的，从图像中提取特征向量，图像使用19层的深度神经网络框架vgg提取特征，同时获得类别的语义信息，语义信息分为两种，一种是有监督的人工标记属性，另一种是无监督的语义信息，例如词向量等从文本中提取的文本的数值化表达方式。

然后通过字典学习降维，并使用随机梯度下降算法对降维后的特征向量建立映射关系，经过多次迭代后，得到最终的低维特征映射矩阵。用字典学习的方法将图像嵌入到低维子空间中，若语义信息为有监督类型，同样需要使用字典学习将其降维处理，降维后的图像与语义都能够在子空间中更好的表达原数据的数据特征，并且减少了多余的信息对图像分类的干扰。

测试阶段，用户将不可见类别的图像特征和对应的文本信息输入，最终可得到测试图像的分类结果，并计算每个类别的平均识别精度，可以得到该算法的识别效果。在测试集中测试该训练好的模型在实际中的运行能力，即计算所有类的平均精度来测试识别模型的性能程度，最后将识别精度输出出来，将算法多次重复后，选择精度较高的模型作为实际应用模型。

具体的，图2是一种基于零样本学习的细粒度图像识别***流程图，图3是一种基于零样本学习的细粒度图像识别方法流程图，本发明提出一种基于零样本学习的图像识别方法，其步骤包括：

S1、给定测试的图像集trainX和语义集trainY；

S2、初始化降维矩阵B和D，使得trainX＝B*Zx、trainY＝D*Zy，其中所述步骤S2中的初始化降维矩阵B，D是根据字典学习得到的初始结果。具体方法是通过奇异值分解将特征矩阵分解为一个方阵，并选择前若干维作为字典B和D的初始化，通常选择类别个数作为字典的维度，S2中的Zx和Zy为降维后的低维空间中的图像特征和语义信息；

S3、初始化映射关系矩阵W；

S5、计算测试集的分类正确精度；

本发明采用matlab，python或其他编程语言对算法进行实现，并可以根据用户需求设计合理的调整算法的参数。

更进一步的，S3中的W初始化是通过随机化产生一个矩阵，矩阵的大小要能满足S4中的等式。

在S4中，选择线性回归作为学习映射关系W的方法，通过随机梯度下降的优化过程，最终使得目标函数达到一个局部最优解。

S5中的计算精度的方式是先计算每个类的识别精度，然后再加和计算平均每个类的精度。S5中通过可见类别的计算误差来不断调整B、D字典，使得低维空间的两个特征矩阵能更好的表达原高维空间的信息，并且减少了在降维过程中重要信息的损失。

S6是对整个算法的多次迭代，直至精度收敛到一定范围之内后停止。

本发明的具体实施方式中涉及的降维后的维度、线性回归的参数值以及图像和语义文本特征提取的方式可根据实际环境需求进行合理选择。本发明所属技术领域的技术人员可以对实现细节合理的改进，但不会超越本发明的保护范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于零样本学习的图像识别方法，其特征在于，其步骤包括：

S1、给定训练的图像集trainX和语义集trainY；

S3、初始化映射关系矩阵W；

S5、计算测试集的分类正确精度；

2.根据权利要求1所述的方法，其特征在于：所述步骤S2选择类别个数作为字典的维度。

3.根据权利要求1所述的方法，其特征在于：所述步骤S3中的W初始化是通过随机化产生一个矩阵，矩阵的大小要能满足所述步骤S4中的等式。

4.根据权利要求1所述的方法，其特征在于：所述步骤S4中，选择线性回归作为学习映射关系W的方法，通过随机梯度下降的优化过程，最终使得目标函数达到一个局部最优解。

5.根据权利要求1所述的方法，其特征在于：所述步骤S5中的计算精度的方式是先计算每个类的识别精度，然后再加和计算平均每个类的精度，所述步骤S5中通过可见类别的计算误差来不断调整B、D字典。

6.根据权利要求1所述的方法，其特征在于：所述步骤S6是对整个算法的多次迭代，直至精度收敛到精度等于或高于目标精度后停止。