CN106485271A - 一种基于多模态字典学习的零样本分类方法 - Google Patents

一种基于多模态字典学习的零样本分类方法 Download PDF

Info

Publication number
CN106485271A
CN106485271A CN201610873020.9A CN201610873020A CN106485271A CN 106485271 A CN106485271 A CN 106485271A CN 201610873020 A CN201610873020 A CN 201610873020A CN 106485271 A CN106485271 A CN 106485271A
Authority
CN
China
Prior art keywords
matrix
dictionary
classification
sample
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610873020.9A
Other languages
English (en)
Other versions
CN106485271B (zh
Inventor
冀中
于云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610873020.9A priority Critical patent/CN106485271B/zh
Publication of CN106485271A publication Critical patent/CN106485271A/zh
Application granted granted Critical
Publication of CN106485271B publication Critical patent/CN106485271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多模态字典学习的零样本分类方法,包括:建立多模态字典学习模型;利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;利用学习到的字典矩阵D和兼容矩阵V实现零样本分类。本发明的一种基于多模态字典学习的零样本分类方法,利用训练样本学习一个类别共享的字典矩阵将样本嵌入到一个由字典原子张成的隐空间中,并利用样本在隐空间中嵌入向量,样本对应的类别语义向量以及类别之间的对应关系学习一种联合嵌入模型。

Description

一种基于多模态字典学习的零样本分类方法
技术领域
本发明涉及一种面向计算机视觉领域的零样本分类技术。特别是涉及一种将字典学习用于零样本分类的基于多模态字典学习的零样本分类方法。
背景技术
与传统的机器学习方法不同,人类具有推断未知类别的能力,如:从未见过“斑马”的人能根据“斑马”的描述信息“斑马是与马相似,身上有黑边相间条纹的动物”对斑马进行识别。受人类推断能力的启发,零样本分类的目标能够对训练阶段未出现过的类别进行分类和预测。因此解决零样本分类的关键问题有两点:一是寻找一种有效的类别描述信息对未见过的类别进行表征;二是挖掘视觉特征和类别描述信息之间的匹配关系。针对问题一:研究者们提出了不同的类别描述信息对类别进行表征,如属性特征,类别文本描述特征等。针对问题二:因为样本的视觉特征和类别的语义特征分布在不同模态空间中,因此零样本分类可以看作是多模态学习的一种具体应用,基于多模态学习的零样本分类的基本框架为:在训练阶段,利用训练样本学习视觉特征和类别语义特征之间的映射关系,将样本从视觉空间转移到类别语义空间或者将不同模态空间中的特征转移到一个公共空间中。在测试阶段利用学习到的映射关系将样本嵌入到类别语义空间或者是公共空间中,根据样本对应的嵌入向量和类别对应的嵌入语义向量之间的关系,利用最近邻分类器进行分类。
传统的零样本分类的性能很大程度上依赖类别语义信息的表征能力,而类别语义信息的获取过程与视觉样本的训练过程是独立的,因此获取的类别语义信息并不能保证充分地表征类别的语义。以斑马的语义表征“斑马是与马相似,身上有黑边相间条纹的动物”为例,类别的语义信息只是提供了基本的类别信息,并不能提供充分地判别信息;另一方面,类别语义信息是概括的类别表征,因此并不能充分地表征类内样本之间的变化,以“狮子”和“尾巴”为例,“尾巴”是标注“狮子”的属性之一,而“狮子”的训练样本中有的样本有“尾巴”,但有的“样本”没有尾巴,因此如何判定类别语义特征和样本之间的关系也是零样本分类需要解决的问题之一。
发明内容
本发明所要解决的技术问题是,提供一种能够实现不同模态的特征到类别空间之间转移的一种基于多模态字典学习的零样本分类方法。
本发明所采用的技术方案是:一种基于多模态字典学习的零样本分类方法,包括如下步骤:
1)建立多模态字典学习模型:
其中,表示来自M个类别的m个样本,D为字典矩阵,CS表示训练样本XS在隐空间中的表征,V为兼容矩阵,表示M个类别的类别语义矩阵,α,β表示权重系数,||·||F表示Frobenius范数;
2)利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;
3)利用学习到的字典矩阵D和兼容矩阵V实现零样本分类。
步骤2)所述的学习包括:
(1)首先固定字典矩阵D和兼容矩阵V,并对训练样本XS在隐空间中的表征CS进行优化,优化问题变为公式:
所述公式是一个最小二乘优化问题,因此得到CS的显示表达式:
(2)固定训练样本XS在隐空间中的表征CS,并对字典矩阵D及兼容矩阵V进行更新,通过对字典矩阵D及兼容矩阵V分别进行优化得到更新:
得到兼容矩阵V的显示表达式:
其中γ=β/α,I表示单位矩阵,
对字典矩阵D的优化引入变量R得到优化目标函数:
对字典矩阵D的优化目标函数通过交替方向乘子法进行优化;
(3)重复第(1)步~第(2)步直到收敛为止。
第(3)所述的收敛条件为:两次相邻迭代的变化之差小于设定的阈值。
步骤3)所述的零样本分类是采用如下公式进行:
其中,xt为测试样本,是所有的测试类别的类别语义特征。
本发明的一种基于多模态字典学习的零样本分类方法,利用训练样本学习一个类别共享的字典矩阵将样本嵌入到一个由字典原子张成的隐空间中,并利用样本在隐空间中嵌入向量,样本对应的类别语义向量以及类别之间的对应关系学习一种联合嵌入模型。其优势主要体现在:
(1)新颖性:提出了一种新的字典学习的框架用于解决零样本分类问题。通过训练样本学习一个字典矩阵将样本嵌入到由字典原子张成的子空间中,并学习一个联合嵌入模型实现了不同模态特征到类别之间的转移。
(2)多模态性。本发明提出的字典学习框架能将视觉模态的特征和类别语义模态的特征嵌入到一个更具有表征能力的隐空间中,并学习一个联合嵌入框架将样本在隐空间中的嵌入特征和类别在隐空间中的嵌入特征与类别标签结合起来,实现了不同模态特征到类别的转移。
(3)有效性:与传统的字典学习方法不同,本发明所提的算法不需要传统字典学习模型中的稀疏约束,将稀疏约束转换为一种线性描述,显著提高了训练效率,但同时能够保持利用字典学习得到的嵌入特征的表征能力。
(4)实用性:简单高效,是一种有效地多模态学习方法,可以应用在多模态检索,数据挖掘,零样本分类等相关领域。
附图说明
图1是基于多模态字典学习的零样本分类方法的流程图;
图2是多模态字典学习的算法。
具体实施方式
下面结合实施例和附图对本发明的一种基于多模态字典学习的零样本分类方法做出详细说明。
本发明的一种基于多模态字典学习的零样本分类方法,是针对零样本分类中利用类别语义特征表达能力差的问题提出的一种将字典学习用于零样本分类的基本框架,其主要思想是利用训练样本学习一个共享字典矩阵将样本从视觉空间映射到由字典原子张成的隐式空间中,每一个字典原子表示一种隐式的属性特征,样本的在隐空间中的嵌入特征对类内样本的变化更具有鲁邦性。并且利用训练样本在隐空间中的表征,样本对应的类别语义特征以及类别标签之间的对应关系学习一个联合嵌入框架将视觉模态和类别语义模态的信息转移到类别空间中。
如图1所示,本发明的一种基于多模态字典学习的零样本分类方法,包括如下步骤:
1)建立多模态字典学习模型:
其中,表示来自M个类别的m个样本,D为字典矩阵,CS表示训练样本XS在隐空间中的表征,V为兼容矩阵,表示M个类别的类别语义矩阵,α,β表示权重系数,||·||F表示Frobenius范数;
2)利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;利用学习到的字典矩阵D可以将样本嵌入到一个由字典原子张成的隐空间中,同时学习到兼容矩阵V可以将CS和AS联合嵌入到YS空间中。需要指出的是,公式(1)中对字典矩阵D和兼容矩阵V及训练样本XS在隐空间中的表征CS的优化问题是非凸的,但对单个参数的优化是凸优化问题,因此本发明提出了一种解决此问题的迭代优化方法。所述的学习如图2所示,包括:
(1)首先固定字典矩阵D和兼容矩阵V,并对训练样本XS在隐空间中的表征CS进行优化,优化问题变为公式:
所述公式是一个最小二乘优化问题,因此得到CS的显示表达式:
(2)固定训练样本XS在隐空间中的表征CS,并对字典矩阵D及兼容矩阵V进行更新,因为D和V是相互独立的,因此,通过对字典矩阵D及兼容矩阵V分别进行优化得到更新:
得到兼容矩阵V的显示表达式:
其中γ=β/α,I表示单位矩阵,
对字典矩阵D的优化引入变量R得到优化目标函数:
对字典矩阵D的优化目标函数通过交替方向乘子法(ADMM)进行优化;
(3)重复第(1)步~第(2)步直到收敛为止。
所述的收敛条件为:两次相邻迭代的变化之差小于设定的阈值,如0.01。
3)利用学习到的字典矩阵D和兼容矩阵V实现零样本分类,在测试阶段,利用学习到的兼容矩阵可以将类别语义特征嵌入到隐空间中,给定测试样本,利用学习到的字典矩阵将样本嵌入到隐空间中,根据样本在隐空间中的特征表征与测试类别在隐空间中的特征表征之间的关系,利用最近邻分类器实现零样本的分类。所述的零样本分类是采用如下公式进行:
其中,xt为测试样本,是所有的测试类别的类别语义特征。
图1描述了利用本发明提供的多模态字典学习方法用于实现零样本分类的流程图。在训练阶段,利用本发明提供的多模态字典学习方法学习一个字典矩阵D*将训练样本嵌入到一个由字典原子张成的隐空间中,并学习一个兼容矩阵V*将样本在隐空间中的嵌入特征CS和类别的语义特征利用兼容矩阵V*联合嵌入到类别空间中。在测试阶段,首先利用在训练阶段学习到的字典矩阵将测试样本xt嵌入到隐空间中,并利用兼容矩阵V*将所有的测试类别的类别语义特征嵌入到隐空间中,然后利用公式(7)对测试样本进行类别预测。

Claims (4)

1.一种基于多模态字典学习的零样本分类方法,其特征在于,包括如下步骤:
1)建立多模态字典学习模型:
{ D * , C S * , V * } = arg min D , C S , V | | X S - DC S | | F 2 + α | | C S T VA S - Y S | | F 2 + β | | VA S | | F 2 , s . t . | | d i | | 2 2 ≤ 1 - - - ( 1 )
其中,表示来自M个类别的m个样本,D为字典矩阵,CS表示训练样本XS在隐空间中的表征,V为兼容矩阵,表示M个类别的类别语义矩阵,α,β表示权重系数,||·||F表示Frobenius范数;
2)利用多模态字典学习模型学习字典矩阵D和兼容矩阵V;
3)利用学习到的字典矩阵D和兼容矩阵V实现零样本分类。
2.根据权利要求1所述的一种基于多模态字典学习的零样本分类方法,其特征在于,步骤2)所述的学习包括:
(1)首先固定字典矩阵D和兼容矩阵V,并对训练样本XS在隐空间中的表征CS进行优化,优化问题变为公式:
C S * = arg m i n C S | | X S - DC S | | F 2 + α | | C S T VA S - Y S | | F 2 . - - - ( 2 )
所述公式是一个最小二乘优化问题,因此得到CS的显示表达式:
C S * = ( D T D + αVA S A S T V T ) - 1 ( αVA S Y S T + D T X S ) . - - - ( 3 )
(2)固定训练样本XS在隐空间中的表征CS,并对字典矩阵D及兼容矩阵V进行更新,通过对字典矩阵D及兼容矩阵V分别进行优化得到更新:
V * = arg m i n V α | | C S T VA S - Y S | | F 2 + β | | VA S | | F 2 . - - - ( 4 )
得到兼容矩阵V的显示表达式:
V * = ( C S T C S + γ I ) - 1 C S Y S A S T ( A S A S T ) - 1 . - - - ( 5 )
其中γ=β/α,I表示单位矩阵,
对字典矩阵D的优化引入变量R得到优化目标函数:
D * = arg m i n D | | X S - DC S | | F 2 s . t . D = R , | | r i | | 2 2 ≤ 1. - - - ( 6 )
对字典矩阵D的优化目标函数通过交替方向乘子法进行优化;
(3)重复第(1)步~第(2)步直到收敛为止。
3.根据权利要求2所述的一种基于多模态字典学习的零样本分类方法,其特征在于,第(3)所述的收敛条件为:两次相邻迭代的变化之差小于设定的阈值。
4.根据权利要求1所述的一种基于多模态字典学习的零样本分类方法,其特征在于,步骤3)所述的零样本分类是采用如下公式进行:
c * = arg m a x c x t T D * V * a U c - - - ( 7 )
其中,xt为测试样本,是所有的测试类别的类别语义特征。
CN201610873020.9A 2016-09-30 2016-09-30 一种基于多模态字典学习的零样本分类方法 Active CN106485271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610873020.9A CN106485271B (zh) 2016-09-30 2016-09-30 一种基于多模态字典学习的零样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610873020.9A CN106485271B (zh) 2016-09-30 2016-09-30 一种基于多模态字典学习的零样本分类方法

Publications (2)

Publication Number Publication Date
CN106485271A true CN106485271A (zh) 2017-03-08
CN106485271B CN106485271B (zh) 2019-11-15

Family

ID=58268331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610873020.9A Active CN106485271B (zh) 2016-09-30 2016-09-30 一种基于多模态字典学习的零样本分类方法

Country Status (1)

Country Link
CN (1) CN106485271B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480688A (zh) * 2017-06-20 2017-12-15 广东工业大学 基于零样本学习的细粒度图像识别方法
CN107516109A (zh) * 2017-08-21 2017-12-26 天津大学 一种基于非线性语义嵌入的零样本分类方法
CN107633259A (zh) * 2017-08-21 2018-01-26 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
CN108537257A (zh) * 2018-03-26 2018-09-14 天津大学 基于判别性字典矩阵对的零样本分类方法
CN108921226A (zh) * 2018-07-11 2018-11-30 广东工业大学 一种基于低秩表示和流形正则化的零样本分类方法
CN109344887A (zh) * 2018-09-18 2019-02-15 山东大学 基于多模态字典学习的短视频分类方法、***及介质
CN111461025A (zh) * 2020-04-02 2020-07-28 同济大学 一种自主进化的零样本学习的信号识别方法
CN112418257A (zh) * 2019-08-22 2021-02-26 四川大学 一种有效的基于潜在视觉属性挖掘的零样本学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN105718940A (zh) * 2016-01-15 2016-06-29 天津大学 基于多组间因子分析的零样本图像分类方法
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473307A (zh) * 2013-09-10 2013-12-25 浙江大学 跨媒体稀疏哈希索引方法
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN105701514A (zh) * 2016-01-15 2016-06-22 天津大学 一种用于零样本分类的多模态典型相关分析的方法
CN105718940A (zh) * 2016-01-15 2016-06-29 天津大学 基于多组间因子分析的零样本图像分类方法
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BERNARDINO ROMERA-PAREDES 等: "An embarrassingly simple approach to zero-shot learning", 《PROCEEDINGS OF THE 32ND INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
ELYOR KODIROV 等: "Unsupervised Domain Adaptation for Zero-Shot Learning", 《ICCV 2015》 *
ZEYNEP AKATA 等: "Label-Embedding for Attribute-Based Classification", 《2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
ZHAO ZHANG 等: "Sparse Codes Auto-Extractor for Classification: A Joint Embedding and Dictionary Learning Framework for Representation", 《IEEE TRANSACTIONS ON SIGNAL PROCESSING》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480688A (zh) * 2017-06-20 2017-12-15 广东工业大学 基于零样本学习的细粒度图像识别方法
CN107480688B (zh) * 2017-06-20 2020-06-19 广东工业大学 基于零样本学习的细粒度图像识别方法
CN107633259B (zh) * 2017-08-21 2020-03-31 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN107516109A (zh) * 2017-08-21 2017-12-26 天津大学 一种基于非线性语义嵌入的零样本分类方法
CN107633259A (zh) * 2017-08-21 2018-01-26 天津大学 一种基于稀疏字典表示的跨模态学习方法
CN107516109B (zh) * 2017-08-21 2021-01-19 天津大学 一种基于非线性语义嵌入的零样本分类方法
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
CN108537257A (zh) * 2018-03-26 2018-09-14 天津大学 基于判别性字典矩阵对的零样本分类方法
CN108537257B (zh) * 2018-03-26 2021-07-13 天津大学 基于判别性字典矩阵对的零样本图像分类方法
CN108921226B (zh) * 2018-07-11 2020-05-19 广东工业大学 一种基于低秩表示和流形正则化的零样本图像分类方法
CN108921226A (zh) * 2018-07-11 2018-11-30 广东工业大学 一种基于低秩表示和流形正则化的零样本分类方法
CN109344887A (zh) * 2018-09-18 2019-02-15 山东大学 基于多模态字典学习的短视频分类方法、***及介质
CN112418257A (zh) * 2019-08-22 2021-02-26 四川大学 一种有效的基于潜在视觉属性挖掘的零样本学习方法
CN111461025A (zh) * 2020-04-02 2020-07-28 同济大学 一种自主进化的零样本学习的信号识别方法
CN111461025B (zh) * 2020-04-02 2022-07-05 同济大学 一种自主进化的零样本学习的信号识别方法

Also Published As

Publication number Publication date
CN106485271B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN106485271A (zh) 一种基于多模态字典学习的零样本分类方法
Colvert et al. Classifying vortex wakes using neural networks
CN108376267A (zh) 一种基于类别转移的零样本分类方法
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
Wallis et al. Graph distances using graph union
Raykar et al. Supervised learning from multiple experts: whom to trust when everyone lies a bit
CN107491788A (zh) 一种基于字典学习的零样本分类方法
CN106203483B (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN104200240A (zh) 一种基于内容自适应哈希编码的草图检索方法
CN107729312A (zh) 基于序列标注建模的多粒度分词方法及***
Rahmani et al. Solving economic dispatch problem using particle swarm optimization by an evolutionary technique for initializing particles
CN104156433A (zh) 一种基于语义映射空间构建的图像检索方法
CN105701504A (zh) 用于零样本学习的多模态流形嵌入方法
CN103678483A (zh) 基于自适应概率超图和半监督学习的视频语义分析方法
CN106485272A (zh) 基于流形约束的跨模态嵌入的零样本分类方法
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN105787521A (zh) 一种面向标签不平衡性的半监督众包标注数据整合方法
CN111598252B (zh) 基于深度学习的大学计算机基础知识解题方法
CN106056609A (zh) 基于dbnmi模型实现遥感影像自动标注的方法
Caraballo et al. Controllability for neutral stochastic functional integrodifferential equations with infinite delay
CN107590229A (zh) 一种构建学习资源多标签标注模型的方法
CN102542590B (zh) 基于监督主题模型的高分辨率sar影像标注方法
Awati Dirichlet series and analytical solutions of MHD viscous flow with suction/blowing
Yu et al. Graph based transductive learning for cartoon correspondence construction
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant