CN110443293B - 基于双判别生成对抗网络文本重构的零样本图像分类方法 - Google Patents
基于双判别生成对抗网络文本重构的零样本图像分类方法 Download PDFInfo
- Publication number
- CN110443293B CN110443293B CN201910675848.7A CN201910675848A CN110443293B CN 110443293 B CN110443293 B CN 110443293B CN 201910675848 A CN201910675848 A CN 201910675848A CN 110443293 B CN110443293 B CN 110443293B
- Authority
- CN
- China
- Prior art keywords
- text
- visual
- features
- image
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于双判别生成对抗网络文本重构的零样本图像分类方法:分别提取视觉特征和文本语义特征;构建图像与文本属性的联合匹配,得到双判别生成网络对抗文本重构模型;利用交叉熵度量合成视觉样本与训练图像视觉特征之间的相关度,将所述双判别生成网络对抗文本重构模型中的重构文本权重损失函数反向传播,即最小化合成视觉样本与训练图像视觉特征之间的重构文本权重损失函数;测试图像通过图像通道输入提取特征后,通过映射网络映射到公共空间;利用双判别生成网络对抗文本重构模型对样本图像进行分类。本发明能够有效对文本描述和其对应的图像进行最大程度匹配,发掘潜在信息,从而达到零样本分类的目的。
Description
技术领域
本发明涉及一种零样本图像分类方法。特别是涉及一种基于双判别生成对抗网络文本重构的零样本图像分类方法。
背景技术
近年来,得益于海量训练数据的支撑,计算机视觉的物体识别与分类算法取得了突破性的进展。但是也存在一个显著的问题,人工收集以及标注数据一直以来都是一项十分复杂繁琐的工作,因为在给定有限或者没有训练图像的情况下,现有的视觉识别模型很难准确预测出正确的结果,这也是一个亟待解决的问题。零样本分类就是其中一项具有重要理论和实际应用的技术,能够较好地解决以上问题。它是模拟人类推理认识新事物的过程,结合文本语义描述,例如:见过马的类别,通过文本语义描述—斑马是一种能够有黑白相间条纹的马,从而来推断出斑马的类别,达到识别并分类未见数据的目的。最后,该技术通过训练学习所得到的分类器能够较好地对未见类数据进行有效的区分,使得计算机具有通过先验知识进行有效迁移的能力。因此零样本图像分类技术对于如今海量数据的标注与识别有着非常重要的研究价值和现实意义。
发明内容
本发明所要解决的技术问题是,提供一种能够有效对文本描述和其对应的图像进行最大程度匹配,发掘潜在信息,从而达到零样本分类的基于双判别生成对抗网络文本重构的零样本图像分类方法。
本发明所采用的技术方案是:一种基于双判别生成对抗网络文本重构的零样本图像分类方法,包括如下步骤:
1)分别提取视觉特征和文本语义特征;
2)构建图像与文本属性的联合匹配,得到双判别生成网络对抗文本重构模型;
3)利用交叉熵度量合成视觉样本与训练图像视觉特征之间的相关度,将所述双判别生成网络对抗文本重构模型中的重构文本权重损失函数反向传播,即最小化合成视觉样本与训练图像视觉特征之间的重构文本权重损失函数;
4)测试图像通过图像通道输入提取特征后,通过映射网络映射到公共空间;
5)利用双判别生成网络对抗文本重构模型对样本图像进行分类。
步骤1)所述的提取视觉特征,将训练图像输入到VGGNet或GoolgeNet或ResNet,在ImageNet 1K上预训练后在最后一层池化层下输出2048维作为训练图像视觉特征;所述的提取文本语义特征,是采用word2vec提取文本特征。
步骤2)包括:将文本特征添加10维z~N(0,1)后,得到合成视觉样本,将训练图像视觉特征和合成视觉样本分别映射到公共视觉空间,形成第一类别原型点;将文本特征经过文本重构非线性网络得到关键文本特征,对关键文本特征添加批量随机噪声z~N(0,1)后,送入双判别生成对抗网络的生成器合成视觉样本更具有判别性的合成视觉特征,作为第二类别原型点;将合成视觉样本与训练图像视觉特征进行对抗学习,得到双判别生成网络对抗文本重构模型,该模型的损失函数为lossD2TGAN:
所述的将文本特征经过文本重构非线性网络得到关键文本特征,包括:将文本特征进行均值化,得到平均文本特征TM,将平均文本特征通过排序函数f(.)进行处理得到排序文本特征,将排序文本特征转置后与平均文本特征相乘后,再通过softmax激活函数得到局部关键文本特征H:
取权重参数为α=0.9的局部关键文本特征与取权重参数为1-α=0.1的平均文本特征相加后得到新文本特征t,
t=(αH+(1-α)TM T)T (3)
再通过L2正则标准归一化,最后得到关键文本特征TC:
所述的重构文本权重损失函数lcw表示为:
其中λcw表示交叉熵S的权重超参数;Dcw为文本重构网络的判别器;C为视觉特征类别的数量;xC是类别c的视觉特征;为C类的合成视觉样本的分布;X'C为C类的合成视觉样本;lmse为视觉特征与合成视觉样本的均方误差;
所述的分类损失函数lcls表示为:
其中,Gθ为生成器;T为文本特征;z为随机高斯噪声;x为训练图像的视觉特征;
所述的特征均值损失函数lE表示为:
步骤4)所述的测试图像通过图像通道输入提取特征,是将测试图像输入到VGGNet或GoolgeNet或ResNet,在ImageNet 1K上预训练后在最后一层池化层下输出2048维作为测试图像视觉特征。
步骤5)所述的利用双判别生成网络对抗文本重构模型对样本图像进行分类
将测试图像输入到利用双判别生成网络对抗文本重构模型中,计算测试图像分别与第一类别原型点及第二类别原型点之间的距离,根据所得到的距离,利用最近邻分类算法对测试图像进行分类,从而实现零样本分类。
本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法,让模型在训练过程中充分学习图像和文本两者之间的内在关系,并引入了交叉熵,将其作为最大熵权重损失函数来约束文本特征的权重分布使得双判别文本语义重构模型能够更好的学习到图像与文本描述之间的内在联系,能针对文本描述有效分类所对应的图像。其优势主要体现在:
本发明能够有效对文本描述和其对应的图像进行最大程度匹配,发掘潜在信息,从而达到零样本分类的目的,对其他深度学习领域,比如少样本和多标签任务有重要的积极作用。本发明能够实现从文本特征到视觉特征的跨模态映射,使得合成的视觉样本特征具有更好表征关键信息的能力。不仅重点突出了文本特征所描述的关键信息,而且能够提高合成样本的多样性以及训练网络的稳定性,深度挖掘文本和图像之间的关联信息,进而提升了合成的视觉特征与原图像的匹配程度,能够在一定程度上跨越语义鸿沟,实现零样本图像分类的任务。
附图说明
图1是本发明基于双判别生成对抗网络文本重构的零样本图像分类方法的流程图;
图2是本发明中文本重构非线性网络示意图。
具体实施方式
下面结合实施例和附图对本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法做出详细说明。
本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法,通过双判别器以及文本重构网络来深度挖掘潜在的文本关联语义信息,为增加与对应图像的匹配度,提高生成文本的多样性,凸显关键信息,给予不同文本不同的特征权重,使得合成样本更具有判别性。
如图1所示,本发明的基于双判别生成对抗网络文本重构的零样本图像分类方法,包括如下步骤:
1)分别提取视觉特征和文本语义特征;
所述的提取视觉特征,将训练图像输入到VGGNet或GoolgeNet或ResNet,在ImageNet1K上预训练后在最后一层池化层下输出2048维作为训练图像视觉特征;所述的提取文本语义特征,是采用word2vec提取文本特征。
2)构建图像与文本属性的联合匹配,得到双判别生成网络对抗文本重构模型;
包括:将文本特征添加10维z~N(0,1)后,得到合成视觉样本,将训练图像视觉特征和合成视觉样本分别映射到公共视觉空间,形成第一类别原型点;将文本特征经过文本重构非线性网络得到关键文本特征,对关键文本特征添加批量随机噪声z~N(0,1)后,送入双判别生成对抗网络的生成器合成视觉样本更具有判别性的合成视觉特征,作为第二类别原型点;将合成视觉样本与训练图像视觉特征进行对抗学习,得到双判别生成网络对抗文本重构模型,该模型的损失函数为lossD2TGAN:
所述的将文本特征经过文本重构非线性网络得到关键文本特征,包括:将文本特征进行均值化,得到平均文本特征TM,将平均文本特征通过排序函数f(.)进行处理得到排序文本特征,将排序文本特征转置后与平均文本特征相乘后,再通过softmax激活函数得到局部关键文本特征H:
取权重参数为α=0.9的局部关键文本特征与取权重参数为1-α=0.1的平均文本特征相加后得到新文本特征t,
t=(αH+(1-α)TM T)T (3)
再通过L2正则标准归一化,最后得到关键文本特征TC:
所述的重构文本权重损失函数lcw表示为:
其中λcw表示交叉熵S的权重超参数;Dcw为文本重构网络的判别器;C为视觉特征类别的数量;xC是类别c的视觉特征;为C类的合成视觉样本的分布;X'C为C类的合成视觉样本;lmse为视觉特征与合成视觉样本的均方误差;
所述的分类损失函数lcls表示为:
其中,Gθ为生成器;T为文本特征;z为随机高斯噪声;x为训练图像的视觉特征;
所述的特征均值损失函数lE表示为:
3)利用交叉熵度量合成视觉样本与训练图像视觉特征之间的相关度,将所述双判别生成网络对抗文本重构模型中的重构文本权重损失函数反向传播,即最小化合成视觉样本与训练图像视觉特征之间的重构文本权重损失函数;
4)测试图像通过图像通道输入提取特征后,通过映射网络映射到公共空间;
所述的测试图像通过图像通道输入提取特征,是将测试图像输入到VGGNet或GoolgeNet或ResNet,在ImageNet 1K上预训练后在最后一层池化层下输出2048维作为测试图像视觉特征。
5)利用双判别生成网络对抗文本重构模型对样本图像进行分类。
所述的利用双判别生成网络对抗文本重构模型对样本图像进行分类
将测试图像输入到利用双判别生成网络对抗文本重构模型中,计算测试图像分别与第一类别原型点及第二类别原型点之间的距离,根据所得到的距离,利用最近邻分类算法对测试图像进行分类,从而实现零样本分类。
Claims (5)
1.一种基于双判别生成对抗网络文本重构的零样本图像分类方法,其特征在于,包括如下步骤:
1)分别提取视觉特征和文本语义特征;
2)构建图像与文本属性的联合匹配,得到双判别生成网络对抗文本重构模型,包括:
将文本特征添加随机高斯噪声10维z~N(0,1)后,得到合成视觉样本,将训练图像视觉特征和合成视觉样本分别映射到公共视觉空间,形成第一类别原型点;将文本特征经过由文本重构的非线性网络得到关键文本特征,对关键文本特征添加批量随机高斯噪声z~N(0,1)后,送入双判别生成对抗网络的生成器合成视觉样本更具有判别性的合成视觉特征,作为第二类别原型点;将合成视觉样本与训练图像视觉特征进行对抗学习,得到双判别生成网络对抗文本重构模型,该模型的损失函数为lossD2TGAN:
3)利用交叉熵度量合成视觉样本与训练图像视觉特征之间的相关度,将所述双判别生成网络对抗文本重构模型中的重构文本权重损失函数反向传播,即最小化合成视觉样本与训练图像视觉特征之间的重构文本权重损失函数;
4)测试图像通过图像通道输入提取特征后,通过映射网络映射到公共空间;
5)利用双判别生成网络对抗文本重构模型对样本图像进行分类,包括:
将测试图像输入到双判别生成网络对抗文本重构模型中,计算测试图像分别与第一类别原型点及第二类别原型点之间的距离,根据所得到的距离,利用最近邻分类算法对测试图像进行分类,从而实现零样本分类。
2.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法,其特征在于,步骤1)所述的提取视觉特征,将训练图像输入到VGGNet或GoolgeNet或ResNet,在ImageNet 1K上预训练后在最后一层池化层下输出的2048维特征,作为训练图像的视觉特征;所述的提取文本语义特征,是采用word2vec提取文本特征。
3.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法,其特征在于,所述的将文本特征经过文本重构非线性网络得到关键文本特征,包括:将文本特征进行均值化,得到平均文本特征TM,将平均文本特征通过排序函数f(.)进行处理得到排序文本特征,将排序文本特征转置后与平均文本特征相乘后,再通过softmax激活函数得到局部关键文本特征H:
取权重参数为α=0.9的局部关键文本特征与取权重参数为1-α=0.1的平均文本特征相加后得到新文本特征t,
t=(αH+(1-α)TM T)T (3)
再通过L2正则标准归一化,最后得到关键文本特征TC:
5.根据权利要求1所述的基于双判别生成对抗网络文本重构的零样本图像分类方法,其特征在于,步骤4)所述的测试图像通过图像通道输入提取特征,是将测试图像输入到VGGNet或GoolgeNet或ResNet,在ImageNet 1K上预训练后在最后一层池化层下输出的2048维特征作为测试图像视觉特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675848.7A CN110443293B (zh) | 2019-07-25 | 2019-07-25 | 基于双判别生成对抗网络文本重构的零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675848.7A CN110443293B (zh) | 2019-07-25 | 2019-07-25 | 基于双判别生成对抗网络文本重构的零样本图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443293A CN110443293A (zh) | 2019-11-12 |
CN110443293B true CN110443293B (zh) | 2023-04-07 |
Family
ID=68431462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910675848.7A Active CN110443293B (zh) | 2019-07-25 | 2019-07-25 | 基于双判别生成对抗网络文本重构的零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443293B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062468B (zh) * | 2020-03-06 | 2023-06-20 | 图灵人工智能研究院(南京)有限公司 | 生成网络的训练方法和***、以及图像生成方法及设备 |
CN111476294B (zh) * | 2020-04-07 | 2022-03-22 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及*** |
CN111539184A (zh) * | 2020-04-29 | 2020-08-14 | 上海眼控科技股份有限公司 | 基于深度学习的文本数据制造方法、装置、终端及存储介质 |
CN111667547B (zh) * | 2020-06-09 | 2023-08-11 | 创新奇智(北京)科技有限公司 | Gan网络训练方法、服装图片生成方法、装置及电子设备 |
CN113191381B (zh) * | 2020-12-04 | 2022-10-11 | 云南大学 | 一种基于交叉知识的图像零次分类模型及其分类方法 |
CN113378904B (zh) * | 2021-06-01 | 2022-06-14 | 电子科技大学 | 一种基于对抗域自适应网络的图像分类方法 |
CN113642621B (zh) * | 2021-08-03 | 2024-06-28 | 南京邮电大学 | 基于生成对抗网络的零样本图像分类方法 |
CN113688799B (zh) * | 2021-09-30 | 2022-10-04 | 合肥工业大学 | 一种基于改进深度卷积生成对抗网络的人脸表情识别方法 |
CN114840852B (zh) * | 2022-05-10 | 2024-05-07 | 天津科技大学 | 一种基于双判别器生成对抗网络的硬件木马检测方法 |
CN114898156B (zh) * | 2022-05-21 | 2024-06-04 | 山东大学 | 基于跨模态语义表征学习和融合的图像分类方法及*** |
KR102622435B1 (ko) * | 2023-04-11 | 2024-01-08 | 고려대학교산학협력단 | 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치 및 방법 |
CN116208772A (zh) * | 2023-05-05 | 2023-06-02 | 浪潮电子信息产业股份有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830334A (zh) * | 2018-06-25 | 2018-11-16 | 江西师范大学 | 一种基于对抗式迁移学习的细粒度目标判别方法 |
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109299341A (zh) * | 2018-10-29 | 2019-02-01 | 山东师范大学 | 一种基于字典学习的对抗跨模态检索方法和*** |
CN109492662A (zh) * | 2018-09-27 | 2019-03-19 | 天津大学 | 一种基于对抗自编码器模型的零样本分类方法 |
CN109558890A (zh) * | 2018-09-30 | 2019-04-02 | 天津大学 | 基于自适应权重哈希循环对抗网络的零样本图像分类方法 |
CN109583474A (zh) * | 2018-11-01 | 2019-04-05 | 华中科技大学 | 一种用于工业大数据处理的训练样本生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10685284B2 (en) * | 2017-04-03 | 2020-06-16 | Royal Bank Of Canada | Systems and methods for malicious code detection |
-
2019
- 2019-07-25 CN CN201910675848.7A patent/CN110443293B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN108830334A (zh) * | 2018-06-25 | 2018-11-16 | 江西师范大学 | 一种基于对抗式迁移学习的细粒度目标判别方法 |
CN109492662A (zh) * | 2018-09-27 | 2019-03-19 | 天津大学 | 一种基于对抗自编码器模型的零样本分类方法 |
CN109558890A (zh) * | 2018-09-30 | 2019-04-02 | 天津大学 | 基于自适应权重哈希循环对抗网络的零样本图像分类方法 |
CN109299341A (zh) * | 2018-10-29 | 2019-02-01 | 山东师范大学 | 一种基于字典学习的对抗跨模态检索方法和*** |
CN109583474A (zh) * | 2018-11-01 | 2019-04-05 | 华中科技大学 | 一种用于工业大数据处理的训练样本生成方法 |
Non-Patent Citations (3)
Title |
---|
Dual discriminator generative adversarial nets;Tu Dinh Nguyen et al.;《Proceedings of the 31st International Conference on Neural Information Processing Systems》;20171204;第2667–2677页 * |
Link the Head to the "Beak": Zero Shot Learning from Noisy Text Description at Part Precision;Mohamed Elhoseiny et al.;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;第1-10页 * |
基于深度示例差异化的零样本多标签图像分类;冀中等;《计算机科学与探索》;20190131;第13卷(第1期);第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110443293A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443293B (zh) | 基于双判别生成对抗网络文本重构的零样本图像分类方法 | |
Mamalakis et al. | Neural network attribution methods for problems in geoscience: A novel synthetic benchmark dataset | |
Zhu et al. | Intelligent logging lithological interpretation with convolution neural networks | |
CN109492662B (zh) | 一种基于对抗自编码器模型的零样本图像分类方法 | |
CN107766933B (zh) | 一种解释卷积神经网络的可视化方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
Liu et al. | The research of virtual face based on Deep Convolutional Generative Adversarial Networks using TensorFlow | |
CN104966097A (zh) | 一种基于深度学习的复杂文字识别方法 | |
CN112434732A (zh) | 一种基于特征筛选的深度学习分类方法 | |
CN111968193A (zh) | 一种基于StackGAN网络的文本生成图像方法 | |
CN111783884B (zh) | 基于深度学习的无监督高光谱图像分类方法 | |
Pratama et al. | Face recognition for presence system by using residual networks-50 architecture | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
CN111461067A (zh) | 基于先验知识映射及修正的零样本遥感影像场景识别方法 | |
CN113222002B (zh) | 一种基于生成式鉴别性对比优化的零样本分类方法 | |
Zhu et al. | How to evaluate semantic communications for images with vitscore metric? | |
CN116704208B (zh) | 基于特征关系的局部可解释方法 | |
CN113628640A (zh) | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 | |
Garozzo et al. | Knowledge-based generative adversarial networks for scene understanding in Cultural Heritage | |
CN115482463A (zh) | 一种生成对抗网络矿区土地覆盖识别方法及*** | |
Wiling | Locust Genetic Image Processing Classification Model-Based Brain Tumor Classification in MRI Images for Early Diagnosis | |
Hu et al. | Computer Vision in Predicting Thermal Diffusivity of Subsurface Rocks | |
Sengottuvelan et al. | Object classification using substance based neural network | |
Bechberger et al. | Generalizing Psychological Similarity Spaces to Unseen Stimuli: Combining Multidimensional Scaling with Artificial Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |