CN107480688A - 基于零样本学习的细粒度图像识别方法 - Google Patents

基于零样本学习的细粒度图像识别方法 Download PDF

Info

Publication number
CN107480688A
CN107480688A CN201710470805.6A CN201710470805A CN107480688A CN 107480688 A CN107480688 A CN 107480688A CN 201710470805 A CN201710470805 A CN 201710470805A CN 107480688 A CN107480688 A CN 107480688A
Authority
CN
China
Prior art keywords
precision
image
matrix
dimensionality reduction
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710470805.6A
Other languages
English (en)
Other versions
CN107480688B (zh
Inventor
魏杰
武继刚
孟敏
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201710470805.6A priority Critical patent/CN107480688B/zh
Publication of CN107480688A publication Critical patent/CN107480688A/zh
Application granted granted Critical
Publication of CN107480688B publication Critical patent/CN107480688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于零样本学习的图像识别方法,包括:给定测试的图像集trainX和语义集trainY;初始化降维矩阵B和D,使得trainX=B*Zx、trainY=D*Zy,其中B,D是根据字典学习得到的初始结果,通过奇异值分解将特征矩阵分解为一个方阵,并选择前若干维作为字典B和D的初始化,Zx和Zy分别为降维后的低维空间中的图像特征和语义信息;初始化映射关系矩阵W;通过线性回归,使用随机梯度下降法调整W矩阵使得Zx=W*Zy;计算测试集的分类正确精度;根据分类结果差值来改进降维矩阵B和D,然后重复前述步骤,直至精度等于或高于目标精度后,输出结果。

Description

基于零样本学习的细粒度图像识别方法
技术领域
本发明涉及图像识别领域,具体涉及一种基于零样本学习的细粒度图像识别方法。
背景技术
随着各种电子设备在各个领域的普及,图像识别技术在人们的生活中已经变得无处不在,为了在越来越多的场景利用这一技术,对其识别的精准度也要求越来越高。然而,随着近几年大数据和大规模数据量学习的兴起,传统的图像识别技术逐渐无法满足新的图像识别需求,例如需要识别之前从未见过的类型的图像,这个问题在当前的海量数据中尤为突出,因此在大规模学习的背景下提高不可见类的识别精度具有重要的意义。为了提高在未见过类型的识别率,人们提出了双线性模型,通过非图像的辅助信息资源建立从可见类到不可见类的联系。在训练过程中,将图像的类别标签替换为具有语义信息的嵌入向量,并将图像特征和语义特征映射到同一低维潜层空间,通过支持向量机分类器来完成图像的分类工作。这种方法减少了训练好的分类器对原数据的过度依赖,实现了分类器的泛化性,完成了知识的迁移过程,最终提高了传统算法的识别精度。
然而对这类问题,现有的识别技术只简单的考虑到了不可见类的识别方法问题,并没有考虑到需要识别的图像样本的自身的特点属性。在现实环境中,通常会遇到细粒度的训练样本,即每个类别之间的相关性很高,在视觉上也有极高的相似性,通过神经网络提取出图像的特征后,如果直接使用支持向量机直接将样本进行分类,由于样本特征在高维空间中高度重合,无法用之前的方法得到一个大间距分类器将样本很好的分类,最终导致大量的图像数据被分类器视为噪点并错误分类,严重影响对不可见类的图片的识别精度。因此选择合适的方法对数据进行预处理和合适的分类器对于提升不可见类的识别精度至关重要。
发明内容
为了在大规模数据环境中提升细粒度图像识别的精度,尤其是识别之前从未见过类别的图像中的物体,如何在较快的时间内识别并提高细粒度识别的精度引起了广泛的关注。本发明的目的在于克服现有技术的缺点与不足,提供一种针对在zero-shot环境下的细粒度图像识别的精度不高的问题。本发明提供一种有效的泛化能力强的图像识别方法,在部分数据类别不可见的情况下,提高在细粒度图像数据的识别精度。
本发明出于分类的有效性考虑可采用如下方式进行设计。首先,将图像和语义信息从实体中提出特征,得到了图像和语义信息在特征空间的表达,对两个特征空间分别进行字典学习映射到低维子空间,然后,通过线性回归的方式,学习得到图像和语义信息在低维子空间的映射关系的矩阵,将计算所得的误差反馈给字典学习过程,用来改进特征空间到低维子空间的映射关系,从而尽量减少映射到低维子空间这一过程中所损失的特征表达,使得低维空间能更好的表达高维空间的信息。
一种基于零样本学习的图像识别方法,其步骤包括:
S1、给定测试的图像集trainX和语义集trainY;
S2、初始化降维矩阵B和D,使得trainX=B*Zx、trainY=D*Zy,其中所述步骤S2中的初始化降维矩阵B,D是根据字典学习得到的初始结果,通过奇异值分解将特征矩阵分解为一个方阵,并选择前若干维作为字典B和D的初始化,Zx和Zy分别为降维后的低维空间中的图像特征和语义信息;
S3、初始化映射关系矩阵W;
S4、通过线性回归,使用随机梯度下降法调整W矩阵使得Zx=W*Zy;
S5、计算测试集的分类正确精度;
S6、根据S5中的分类结果差值来改进降维矩阵B和D,然后重复S4和S5,若计算的精度小于目标精度,则跳转到S2但不需要重新初始化B和D,直至精度等于或高于目标精度后,输出结果。
进一步的,所述步骤S2选择类别个数作为字典的维度。
进一步的,所述步骤S3中的W初始化是通过随机化产生一个矩阵,矩阵的大小要能满足所述步骤S4中的等式。
进一步的,所述步骤S4中,选择线性回归作为学习映射关系W的方法,通过随机梯度下降的优化过程,最终使得目标函数达到一个局部最优解。
进一步的,所述步骤S5中的计算精度的方式是先计算每个类的识别精度,然后再加和计算平均每个类的精度,所述步骤S5中通过可见类别的计算误差来不断调整B、D字典。
进一步的,所述步骤S6是对整个算法的多次迭代,直至精度收敛到精度等于或高于目标精度后停止。
本发明相对于现有技术具有如下的优点及效果:
本发明公开了一种使用低维嵌入特征空间的方法来识别在细粒度环境下的图像。该方法通过字典学***均精度来测试识别模型的性能程度,最后将识别精度输出出来,将算法多次重复后,选择精度较高的模型作为实际应用模型。
本发明能够应用在在一个较大规模的图像识别过程中,尤其是在大数据背景下对于不可见类图像的识别,提高了传统算法的泛化能力,实现了算法从可见类到不可见类的迁移,从整体上提高对每个类别的识别精度。
附图说明
图1是一种基于零样本学习的细粒度图像识别方法模型图;
图2是一种基于零样本学习的细粒度图像识别***流程图;
图3是一种基于零样本学习的细粒度图像识别方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明基于零样本学习(zero-shot learning)中图像识别的问题,提出的一种高效的对不可见类的识别以及分类算法,具体实现步骤如下:
训练阶段,首先用户从实际的图像和语义文本中提取出特征向量,如图1所示,图像的特征提取使用现有的卷积神经网络,而语义的特征可以使用人工标记属性或词向量等工具从***语料库中提取。
具体的,从图像中提取特征向量,图像使用19层的深度神经网络框架vgg提取特征,同时获得类别的语义信息,语义信息分为两种,一种是有监督的人工标记属性,另一种是无监督的语义信息,例如词向量等从文本中提取的文本的数值化表达方式。
然后通过字典学习降维,并使用随机梯度下降算法对降维后的特征向量建立映射关系,经过多次迭代后,得到最终的低维特征映射矩阵。用字典学习的方法将图像嵌入到低维子空间中,若语义信息为有监督类型,同样需要使用字典学习将其降维处理,降维后的图像与语义都能够在子空间中更好的表达原数据的数据特征,并且减少了多余的信息对图像分类的干扰。
测试阶段,用户将不可见类别的图像特征和对应的文本信息输入,最终可得到测试图像的分类结果,并计算每个类别的平均识别精度,可以得到该算法的识别效果。在测试集中测试该训练好的模型在实际中的运行能力,即计算所有类的平均精度来测试识别模型的性能程度,最后将识别精度输出出来,将算法多次重复后,选择精度较高的模型作为实际应用模型。
具体的,图2是一种基于零样本学习的细粒度图像识别***流程图,图3是一种基于零样本学习的细粒度图像识别方法流程图,本发明提出一种基于零样本学习的图像识别方法,其步骤包括:
S1、给定测试的图像集trainX和语义集trainY;
S2、初始化降维矩阵B和D,使得trainX=B*Zx、trainY=D*Zy,其中所述步骤S2中的初始化降维矩阵B,D是根据字典学习得到的初始结果。具体方法是通过奇异值分解将特征矩阵分解为一个方阵,并选择前若干维作为字典B和D的初始化,通常选择类别个数作为字典的维度,S2中的Zx和Zy为降维后的低维空间中的图像特征和语义信息;
S3、初始化映射关系矩阵W;
S4、通过线性回归,使用随机梯度下降法调整W矩阵使得Zx=W*Zy;
S5、计算测试集的分类正确精度;
S6、根据S5中的分类结果差值来改进降维矩阵B和D,然后重复S4和S5,若计算的精度小于目标精度,则跳转到S2但不需要重新初始化B和D,直至精度等于或高于目标精度后,输出结果。
本发明采用matlab,python或其他编程语言对算法进行实现,并可以根据用户需求设计合理的调整算法的参数。
更进一步的,S3中的W初始化是通过随机化产生一个矩阵,矩阵的大小要能满足S4中的等式。
在S4中,选择线性回归作为学习映射关系W的方法,通过随机梯度下降的优化过程,最终使得目标函数达到一个局部最优解。
S5中的计算精度的方式是先计算每个类的识别精度,然后再加和计算平均每个类的精度。S5中通过可见类别的计算误差来不断调整B、D字典,使得低维空间的两个特征矩阵能更好的表达原高维空间的信息,并且减少了在降维过程中重要信息的损失。
S6是对整个算法的多次迭代,直至精度收敛到一定范围之内后停止。
本发明的具体实施方式中涉及的降维后的维度、线性回归的参数值以及图像和语义文本特征提取的方式可根据实际环境需求进行合理选择。本发明所属技术领域的技术人员可以对实现细节合理的改进,但不会超越本发明的保护范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于零样本学习的图像识别方法,其特征在于,其步骤包括:
S1、给定训练的图像集trainX和语义集trainY;
S2、初始化降维矩阵B和D,使得trainX=B*Zx、trainY=D*Zy,其中所述步骤S2中的初始化降维矩阵B,D是根据字典学习得到的初始结果,通过奇异值分解将特征矩阵分解为一个方阵,并选择前若干维作为字典B和D的初始化,Zx和Zy分别为降维后的低维空间中的图像特征和语义信息;
S3、初始化映射关系矩阵W;
S4、通过线性回归,使用随机梯度下降法调整W矩阵使得Zx=W*Zy;
S5、计算测试集的分类正确精度;
S6、根据S5中的分类结果差值来改进降维矩阵B和D,然后重复S4和S5,若计算的精度小于目标精度,则跳转到S2但不需要重新初始化B和D,直至精度等于或高于目标精度后,输出结果。
2.根据权利要求1所述的方法,其特征在于:所述步骤S2选择类别个数作为字典的维度。
3.根据权利要求1所述的方法,其特征在于:所述步骤S3中的W初始化是通过随机化产生一个矩阵,矩阵的大小要能满足所述步骤S4中的等式。
4.根据权利要求1所述的方法,其特征在于:所述步骤S4中,选择线性回归作为学习映射关系W的方法,通过随机梯度下降的优化过程,最终使得目标函数达到一个局部最优解。
5.根据权利要求1所述的方法,其特征在于:所述步骤S5中的计算精度的方式是先计算每个类的识别精度,然后再加和计算平均每个类的精度,所述步骤S5中通过可见类别的计算误差来不断调整B、D字典。
6.根据权利要求1所述的方法,其特征在于:所述步骤S6是对整个算法的多次迭代,直至精度收敛到精度等于或高于目标精度后停止。
CN201710470805.6A 2017-06-20 2017-06-20 基于零样本学习的细粒度图像识别方法 Active CN107480688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710470805.6A CN107480688B (zh) 2017-06-20 2017-06-20 基于零样本学习的细粒度图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710470805.6A CN107480688B (zh) 2017-06-20 2017-06-20 基于零样本学习的细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN107480688A true CN107480688A (zh) 2017-12-15
CN107480688B CN107480688B (zh) 2020-06-19

Family

ID=60594047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710470805.6A Active CN107480688B (zh) 2017-06-20 2017-06-20 基于零样本学习的细粒度图像识别方法

Country Status (1)

Country Link
CN (1) CN107480688B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537257A (zh) * 2018-03-26 2018-09-14 天津大学 基于判别性字典矩阵对的零样本分类方法
CN108798641A (zh) * 2018-06-19 2018-11-13 东北大学 一种基于子空间迁移学习的有杆泵抽油井故障诊断方法
CN109255098A (zh) * 2018-07-09 2019-01-22 广东工业大学 一种基于重构约束的矩阵分解哈希方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN110647897A (zh) * 2018-06-26 2020-01-03 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
CN110807472A (zh) * 2019-10-12 2020-02-18 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN111291193A (zh) * 2020-01-18 2020-06-16 杭州电子科技大学 一种知识图谱在零次学习上的运用方法
CN111435453A (zh) * 2019-01-14 2020-07-21 中国科学技术大学 细粒度图像零样本识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050482A (zh) * 2014-06-24 2014-09-17 哈尔滨工业大学 一种基于局部线性回归的流形学习泛化算法
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN106485271A (zh) * 2016-09-30 2017-03-08 天津大学 一种基于多模态字典学习的零样本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050482A (zh) * 2014-06-24 2014-09-17 哈尔滨工业大学 一种基于局部线性回归的流形学习泛化算法
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN106485271A (zh) * 2016-09-30 2017-03-08 天津大学 一种基于多模态字典学习的零样本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH H. LAMPERT ET AL: "Attribute-based classification for zero-shot visual object categorization", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
YONGQIN XIAN ET AL: "Latent Embeddings for Zero-Shot Classification", 《THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
ZIMING ZHANG ET AL: "Zero-shot learning via joint latent similarity embedding", 《THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
乔雪 等: "基于共享特征相对属性的零样本图像分类", 《HTTPKNS.CNKI.NETKCMSDETAIL11.4494.TN.20170413.1744.010.HTML》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537257A (zh) * 2018-03-26 2018-09-14 天津大学 基于判别性字典矩阵对的零样本分类方法
CN108537257B (zh) * 2018-03-26 2021-07-13 天津大学 基于判别性字典矩阵对的零样本图像分类方法
CN108798641B (zh) * 2018-06-19 2021-06-11 东北大学 一种基于子空间迁移学习的有杆泵抽油井故障诊断方法
CN108798641A (zh) * 2018-06-19 2018-11-13 东北大学 一种基于子空间迁移学习的有杆泵抽油井故障诊断方法
CN110647897A (zh) * 2018-06-26 2020-01-03 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
CN110647897B (zh) * 2018-06-26 2023-04-18 广东工业大学 一种基于多部分注意力机制的零样本图像分类识别方法
CN109255098A (zh) * 2018-07-09 2019-01-22 广东工业大学 一种基于重构约束的矩阵分解哈希方法
CN109255098B (zh) * 2018-07-09 2023-01-17 广东工业大学 一种基于重构约束的矩阵分解哈希方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109657697B (zh) * 2018-11-16 2023-01-06 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN111435453A (zh) * 2019-01-14 2020-07-21 中国科学技术大学 细粒度图像零样本识别方法
CN111435453B (zh) * 2019-01-14 2022-07-22 中国科学技术大学 细粒度图像零样本识别方法
CN110807472B (zh) * 2019-10-12 2022-08-12 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN110807472A (zh) * 2019-10-12 2020-02-18 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备及存储介质
CN111291193A (zh) * 2020-01-18 2020-06-16 杭州电子科技大学 一种知识图谱在零次学习上的运用方法

Also Published As

Publication number Publication date
CN107480688B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN107480688A (zh) 基于零样本学习的细粒度图像识别方法
Wang et al. Deepfont: Identify your font from an image
CN107368831B (zh) 一种自然场景图像中的英文文字和数字识别方法
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
US10055391B2 (en) Method and apparatus for forming a structured document from unstructured information
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及***
CN111506722A (zh) 基于深度学习技术的知识图谱问答方法、装置及设备
CN107656990A (zh) 一种基于字和词两个层面特征信息的文本分类方法
CN106446954A (zh) 一种基于深度学习的字符识别方法
CN108921123A (zh) 一种基于双重数据增强的人脸识别方法
CN107220220A (zh) 用于文本处理的电子设备和方法
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN105718873A (zh) 基于双目视觉的人流分析方法
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN114596566B (zh) 文本识别方法及相关装置
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN114118012A (zh) 一种基于CycleGAN的个性字体生成方法
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN113836866A (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN115392237A (zh) 情感分析模型训练方法、装置、设备及存储介质
CN107169450A (zh) 一种高分辨率遥感图像的场景分类方法及***
CN116958868A (zh) 用于确定文本和视频之间的相似度的方法和装置
CN111814917A (zh) 一种存在模糊态的字轮图像数字识别方法
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant