CN110472652B - 基于语义引导的少量样本分类方法 - Google Patents
基于语义引导的少量样本分类方法 Download PDFInfo
- Publication number
- CN110472652B CN110472652B CN201910582212.8A CN201910582212A CN110472652B CN 110472652 B CN110472652 B CN 110472652B CN 201910582212 A CN201910582212 A CN 201910582212A CN 110472652 B CN110472652 B CN 110472652B
- Authority
- CN
- China
- Prior art keywords
- category
- image
- representing
- semantic
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于语义引导的少量样本分类方法,使用卷积神经网络模块对所有样本图像分别进行特征提取,得到每张样本图像的特征向量;将属于同类别的样本图像的特征向量的均值作为该类别的类别原型来表示该类;通过全连接网络将所有类别原型映射到与对应类别的语义向量相同的维度,计算类别原型与语义向量的欧式距离,将欧式距离作为一个损失函数来引导类别原型和对应的语义向量对齐;将待识别的图像进行特征提取并将该图像映射到与语义相同的维度,与所有类别的类别原型映射到与对应的语义相同的维度得到的向量进行比较,对待识别的图像进行分类。本发明通过利用语义空间对视觉空间进行约束引导,使图像的特征空间具有一定的语义相关性,结构更加鲁棒。
Description
技术领域
本发明涉及一种样本分类方法。特别是涉及一种用于计算机视觉领域少量样本图像分类的基于语义引导的少量样本分类方法。
背景技术
图像识别是各种计算机视觉任务中最基本的也是最具价值的研究方向之一,是其他各种图像处理任务,如目标检测、语义分割等的基础,解决这一问题对整个计算机视觉领域的发展具有极其重要的意义。随着深度学习的发展,图像识别任务较之以往取得了突破性的进展。虽然现在的各种算法在图像识别任务中能取得较高的分类准确率,但这些方法需要成百上千万的数据来支持网络的训练,样本的获取以及标注成本极高,同时大多数深度网络需要在高性能GPU上用很长时间训练,消耗了大量的算力资源,训练好的网络模型参数比较大,这对于一些小型的嵌入式设备来说是不可接受的,虽然可以通过云计算等方法将算力消耗放在远程服务器上,但这种方法对于要求实时性和稳定性的应用来说也是巨大的挑战,在网络建设欠发达的地区其应用十分受限制。
针对深度神经网络目前存在的这些问题,学术界和工业界的研究重点从传统的深度学习专项通过少量训练样本训练一个收敛速度快、识别准确率高的网络成为受关注高的方向。
少样本图像识别任务在最近取得了很大的进展,但是这些方法研究的重点大多集中在如何找出一种度量方法,导致某些方法的相似性比较大。这些工作不注意塑造同类样本特征向量之间的相似性,导致分类的效果不能进一步提升。
发明内容
本发明所要解决的技术问题是,提供一种基于语义引导的少量样本分类方法。
本发明所采用的技术方案是:一种基于语义引导的少量样本分类方法,包括如下步骤:
1)使用卷积神经网络模块对所有样本图像分别进行特征提取,得到每张样本图像的特征向量;
2)将属于同类别的所有样本图像的特征向量的均值作为该类别的类别原型来表示该类;
3)通过全连接网络将所有类别原型映射到与对应类别的语义向量相同的维度,然后计算类别原型与语义向量的欧式距离,将所述的欧式距离作为一个损失函数来引导类别原型和对应的语义向量对齐;
4)将待识别的图像进行特征提取并将该图像映射到与语义相同的维度,与所有类别的类别原型映射到与对应的语义相同的维度得到的向量进行比较,对待识别的图像进行分类。
步骤1)中假设样本图像为x,用公式表示如下:
feax=f(x) (1)
其中,f表示特征提取器,feax表示样本图像x的特征向量。
步骤2)中
设定属于同类别的样本图像x有N张,则该类别原型用公式表示为:
其中,c表示类别,feacxi表示该类别的第i幅样本图像的特征向量,proc表示c类别的类别原型。
步骤3)用公式表示为:
fsc=g(proc) (3)
loss1=L1(fsc,sc) (4)
其中,fsc表示将类别原型映射到与对应的语义相同的维度得到的向量,c表示类别,g表示映射函数,proc表示c类别的类别原型,sc表示对应类别原型的语义,L1表示损失函数。
步骤4)用公式表示为:
simci-y=C(fsci,fsy) (5)
其中,fsci表示第i个类别原型映射到与对应的语义相同的维度得到的向量,fsy表示待测试图像y与应的语义向量对齐的特征向量,C表示度量函数,simci-y表示待测试图像y与第i个类别的相似程度,最终将待测试图像y分到相似度最高的类别里面。
本发明的基于语义引导的少量样本分类方法,通过利用语义空间对视觉空间进行约束引导,使图像的特征空间具有一定的语义相关性,结构更加鲁棒。其优势主要体现在:
(1)有效性:本发明在两个少样本识别任务的数据集miniImagenet和CUB上进行测试都取得了好的效果,超过现有方法的水平,说明本发明能够有效地对通过少量样本实现对未见图像的分类。
(2)新颖性:该发明首次提出了利用图像的语义特征对图像的视觉空间信息进行约束,让模型在训练过程中充分学习两者之间的内在关系。
(3)实用性:该发明能够有效减少图像分类任务所需要的训练样本的数量,精简的网络结构具有更低的硬件需求和更快的识别速度,使得图像识别的深度网络更适合在嵌入式等小型硬件中进行部署。
附图说明
图1是本发明基于语义引导的少量样本分类方法的示意图。
具体实施方式
下面结合实施例和附图对本发明的基于语义引导的少量样本分类方法做出详细说明。
如图1所示,本发明的基于语义引导的少量样本分类方法,包括如下步骤:
1)使用卷积神经网络模块对所有样本图像分别进行特征提取,得到每张样本图像的特征向量,此时的较低维的向量能比较好的包含该图像的主要信息。
假设样本图像为x,用公式表示如下:
feax=f(x) (1)
其中,f表示特征提取器,feax表示样本图像x的特征向量。
2)将属于同类别的所有样本图像的特征向量的均值作为该类别的类别原型来表示该类;
设定属于同类别的样本图像x有N张,则该类别原型用公式表示为:
其中,c表示类别,feacxi表示该类别的第i幅样本图像的特征向量,proc表示c类别的类别原型。
3)通过全连接网络将所有类别原型映射到与对应类别的语义向量相同的维度,然后计算类别原型与语义向量的欧式距离,将所述的欧式距离作为一个损失函数来引导类别原型和对应的语义向量对齐;
用公式表示为:
fsc=g(proc) (3)
loss1=L1(fsc,sc) (4)
其中,fsc表示将类别原型映射到与对应的语义相同的维度得到的向量,c表示类别,g表示映射函数,proc表示c类别的类别原型,sc表示对应类别原型的语义,L1表示损失函数。
4)将待识别的图像进行特征提取并将该图像映射到与语义相同的维度,与所有类别的类别原型映射到与对应的语义相同的维度得到的向量进行比较,对待识别的图像进行分类。
用公式表示为:
simci-y=C(fsci,fsy) (5)
其中,fsci表示第i个类别原型映射到与对应的语义相同的维度得到的向量,fsy表示待测试图像y与应的语义向量对齐的特征向量,C表示度量函数,simci-y表示待测试图像y与第i个类别的相似程度,最终将待测试图像y分到相似度最高的类别里面。
Claims (1)
1.基于语义引导的少量样本分类方法,其特征在于,包括如下步骤:
1)使用卷积神经网络模块对所有样本图像分别进行特征提取,得到每张样本图像的特征向量;
假设样本图像为x,则特征向量用公式表示如下:
feax=f(x) (1)
其中,f表示特征提取器,feax表示样本图像x的特征向量;
2)将属于同类别的所有样本图像的特征向量的均值作为该类别的类别原型来表示该类;
设定属于同类别的样本图像x有N张,则该类别原型用公式表示为:
其中,c表示类别,feacxi表示该类别的第i幅样本图像的特征向量,proc表示c类别的类别原型;
3)通过全连接网络将所有类别原型映射到与对应类别的语义向量相同的维度,然后计算类别原型与语义向量的欧式距离,将所述的欧式距离作为一个损失函数来引导类别原型和对应的语义向量对齐;用公式表示为:
fsc=g(proc) (3)
loss1=L1(fsc,sc) (4)
其中,fsc表示将类别原型映射到与对应的语义向量相同的维度得到的向量,c表示类别,g表示映射函数,proc表示c类别的类别原型,sc表示对应类别原型的语义向量,L1表示损失函数;
4)将待测试的图像进行特征提取并将该图像特征映射到与语义向量相同的维度,与所有类别的类别原型映射到与对应的语义向量相同的维度得到的向量进行比较,对待识别的图像进行分类;用公式表示为:
simci-y=C(fsci,fsy) (5)
其中,fsci表示第i个类别原型映射到与对应的语义向量相同的维度得到的向量,fsy表示待测试图像y与对应的语义向量对齐的特征向量,C表示度量函数,simci-y表示待测试图像y与第i个类别的相似程度,最终将待测试图像y分到相似度最高的类别里面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910582212.8A CN110472652B (zh) | 2019-06-30 | 2019-06-30 | 基于语义引导的少量样本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910582212.8A CN110472652B (zh) | 2019-06-30 | 2019-06-30 | 基于语义引导的少量样本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472652A CN110472652A (zh) | 2019-11-19 |
CN110472652B true CN110472652B (zh) | 2023-06-09 |
Family
ID=68507318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910582212.8A Active CN110472652B (zh) | 2019-06-30 | 2019-06-30 | 基于语义引导的少量样本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472652B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797893B (zh) * | 2020-05-26 | 2021-09-14 | 华为技术有限公司 | 一种神经网络的训练方法、图像分类***及相关设备 |
CN111783736A (zh) * | 2020-07-23 | 2020-10-16 | 上海高重信息科技有限公司 | 一种基于人体语义对齐的行人重识别方法、装置和*** |
CN111860674B (zh) * | 2020-07-28 | 2023-09-19 | 平安科技(深圳)有限公司 | 样本类别识别方法、装置、计算机设备及存储介质 |
CN113111718B (zh) * | 2021-03-16 | 2024-06-21 | 北京航科威视光电信息技术有限公司 | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 |
CN113111971A (zh) * | 2021-05-07 | 2021-07-13 | 浙江宇视科技有限公司 | 分类模型的智能处理方法、装置、电子设备及介质 |
CN113255701B (zh) * | 2021-06-24 | 2021-10-22 | 军事科学院***工程研究院网络信息研究所 | 一种基于绝对-相对学习架构的小样本学习方法和*** |
CN115795355B (zh) * | 2023-02-10 | 2023-09-12 | 中国科学院自动化研究所 | 一种分类模型训练方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485272A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 基于流形约束的跨模态嵌入的零样本分类方法 |
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN108846412A (zh) * | 2018-05-08 | 2018-11-20 | 复旦大学 | 一种泛化零样本学习的方法 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
-
2019
- 2019-06-30 CN CN201910582212.8A patent/CN110472652B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485272A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 基于流形约束的跨模态嵌入的零样本分类方法 |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN108376267A (zh) * | 2018-03-26 | 2018-08-07 | 天津大学 | 一种基于类别转移的零样本分类方法 |
CN108846412A (zh) * | 2018-05-08 | 2018-11-20 | 复旦大学 | 一种泛化零样本学习的方法 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
Non-Patent Citations (2)
Title |
---|
Learning to Compare: Relation Network for Few-Shot Learning;Flood Sung等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181231;全文 * |
Prototypical Networks for Few-shot Learning;Jake Snell等;《arXiv:1703.05175v2[cs.LG]》;20170619;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110472652A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472652B (zh) | 基于语义引导的少量样本分类方法 | |
Kumar et al. | [Retracted] Object‐Based Image Retrieval Using the U‐Net‐Based Neural Network | |
CN107944559B (zh) | 一种实体关系自动识别方法及*** | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN110188225B (zh) | 一种基于排序学习和多元损失的图像检索方法 | |
CN107066951B (zh) | 一种人脸自发表情的识别方法及*** | |
Julca-Aguilar et al. | Symbol detection in online handwritten graphics using faster R-CNN | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
Jiang | A review of the comparative studies on traditional and intelligent face recognition methods | |
Zhang et al. | 3D object retrieval with multi-feature collaboration and bipartite graph matching | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN112036511B (zh) | 基于注意力机制图卷积神经网络的图像检索方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN104504406A (zh) | 一种快速高效的近似重复图像匹配方法 | |
CN104778272B (zh) | 一种基于区域挖掘和空间编码的图像位置估计方法 | |
Sun et al. | Search by detection: Object-level feature for image retrieval | |
CN103279581A (zh) | 一种利用紧凑视频主题描述子进行视频检索的方法 | |
CN113723558A (zh) | 基于注意力机制的遥感图像小样本舰船检测方法 | |
Gao et al. | Efficient view-based 3-D object retrieval via hypergraph learning | |
CN105844299A (zh) | 一种基于词袋模型的图像分类方法 | |
Yin et al. | Video text localization based on Adaboost | |
Cheng et al. | Research on feasibility of convolution neural networks for rock thin sections image retrieval | |
Tong et al. | Robust facial expression recognition based on local tri-directional coding pattern | |
WO2021017736A1 (zh) | 一种图像分析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |