CN110580500B - 一种面向人物交互的网络权重生成少样本图像分类方法 - Google Patents

一种面向人物交互的网络权重生成少样本图像分类方法 Download PDF

Info

Publication number
CN110580500B
CN110580500B CN201910770529.4A CN201910770529A CN110580500B CN 110580500 B CN110580500 B CN 110580500B CN 201910770529 A CN201910770529 A CN 201910770529A CN 110580500 B CN110580500 B CN 110580500B
Authority
CN
China
Prior art keywords
network
verb
noun
visual
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910770529.4A
Other languages
English (en)
Other versions
CN110580500A (zh
Inventor
冀中
安平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910770529.4A priority Critical patent/CN110580500B/zh
Publication of CN110580500A publication Critical patent/CN110580500A/zh
Application granted granted Critical
Publication of CN110580500B publication Critical patent/CN110580500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明的一种面向人物交互的网络权重生成少样本图像分类方法,考虑到人物交互图像数据集中的长尾问题,使用元学习框架,采用episodic训练策略,模拟了真实场景下少样本图像数据情况,减小图像数据分布差异,提高泛化能力,有效解决人物交互任务中图像分布不均的问题。引入标签的名词与动词的语义信息,生成任务级的特征提取网络功能参数对视觉特征进行加强。在训练过程中,不断地从获取不同的小样本任务,使用任务包含类别的语义与视觉融合信息将任务数据表示为一个任务特征,基于这个任务特征,通过参数生成器采样出一个针对当前这个任务的目标网络对应层的参数,关注到相关图像中人物的动作和物体区域,能够提高图像分类能力。

Description

一种面向人物交互的网络权重生成少样本图像分类方法
技术领域
本发明涉及一种图像分类方法。特别是涉及一种面向人物交互的网络权重生成少样本图像分类方法。
背景技术
深度学习是机器学习中的一个热点领域,具体任务如图像分类、目标检测等。深度学习技术是在大量数据和大规模训练的基础上,模拟或实现人类的学习行为,以获取新的知识或技能。这些数据的采集、标注需要耗费大量的人力成本。在现实中,随着更多应用场景的涌现,我们也将必然面临更多数据不足的问题,然而在标注数据比较少的情况下,神经网络通常容易过拟合,使深度学习的应用和效果都受到了限制。与之相反,人类具有从少量数据中学习的能力,例如给一个小朋友看过几张苹果的图片之后,他就可以很快学会“苹果”这个类别。
因此如何能够让机器像人类一样能够利用学习经验从小样本中进行有效学习,成为了一个重要的研究方向。由该情境提出的少样本学习(Few-shot learning),少样本学习目标是用已知类别训练一个分类模型,使它能够在只有少量数据的未知类别上具有很好的泛化性能。元学习(Meta Learning)也称为学会学习,其思想是利用已有的先验知识能够快速适应新的学习任务。元学习思想的提出为少样本学习提供了新的思路,基于元学习的少样本学习方法引起了广泛关注。
在元学习中,将图像类别分为元训练集(Meta Train Set)和元测试集(Meta TestSet),其类别互不重合。现有元学习的方法大致可分为两种:基于度量的方法和基于梯度的方法。
基于度量的方法旨在最小化类内距离,同时最大化类间距离,经典算法如匹配网络(Matching Network),关系网络(Relation Network)和原型网络(PrototypicalNetwork)。这类方法通常采用Episodic的训练策略,即将训练集分为支持集(Support Set)和查询集(Query Set),对每个类别抽取少量样本,形成一个子任务(episodes),用来模拟训练和测试的过程,再使用子任务来训练模型。
基于梯度的方法旨在训练一个模型仅通过微调可以更好的泛化到新的任务上,经典算法如模型无关的元学习(MAML)。
元学习通过对已有任务的学习,来提升对未见的新任务的分类准确率。通过对支持集和查询集的视觉特征进行匹配,完成分类。元学习在此框架下,学习一种视觉特征与视觉特征的匹配关系,以实现新任务的自动分类。
现在基于元学习的少样本训练主要存在以下问题:
1)目前,人物交互数据集中的存在长尾问题,即存在一些不常见的组合,分布在尾部的类别仅有少量样本,导致类别间的样本极度不均衡,使得训练出来的模型泛化能力差,容易过拟合。如何将头部样本多的类别的知识迁移到尾部样本少的类别,对人物交互任务提出了挑战。
2)现阶段元学***。
发明内容
本发明所要解决的技术问题是,提供一种能够提高图像分类能力的面向人物交互的网络权重生成少样本图像分类方法。
本发明所采用的技术方案是:一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,包括如下步骤:
1)将图像数据分为元训练集和元测试集;将元训练集和元测试集分别分为支持集和查询集,对支持集中的每个类别抽取设定量样本,形成一小样本任务;
2)设定支持集中含有w个图像类别,每个类别给出由s个四元组
Figure BDA00021734152200000223
定义的数据,其中,s是大于等于0的整数,xi∈Rp是第i个图像视觉特征,
Figure BDA0002173415220000021
是第i个图像视觉特征的类别标签,ni∈Rq是第i个图像视觉特征的类别中名词的文本语义特征,vi∈Rq是第i个图像视觉特征的类别中动词的文本语义特征;p和q分别是视觉和语义空间的维度;训练阶段与支持集相对应类别的查询集给出q个二元组
Figure BDA0002173415220000022
其中,q是大于0的整数,
Figure BDA0002173415220000023
是第j个图像视觉特征,
Figure BDA0002173415220000024
是第j个图像视觉特征的类别标签;
3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征,分别记为x1,x2,x3,x4,……,xw,每个类别包含s个样本;
4)依次将支持集的w个图像类别的视觉特征送到用于将支持集与查询集嵌入同一空间的视觉特征提取网络
Figure BDA0002173415220000025
中,得到元训练集的支持集特征向量
Figure BDA0002173415220000026
5)从元训练集的查询集随机取得查询集的视觉特征xQ,送到用于将支持集与查询集嵌入同一空间的图像视觉特征提取网络
Figure BDA0002173415220000027
中,得到元训练集的查询集特征向量
Figure BDA0002173415220000028
6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N={n1,n2,...,nw},V={v1,v2,...,vw},与支持集特征向量x~S共同送入语义元网络gΦ中,得到归一化后的名词区域卷积核权重
Figure BDA0002173415220000029
和归一化后的动词区域卷积核权重
Figure BDA00021734152200000210
7)将归一化后的名词区域卷积核权重
Figure BDA00021734152200000211
和归一化后的动词区域卷积核权重
Figure BDA00021734152200000212
输入目标网络Tθ,得到名词区域目标网络
Figure BDA00021734152200000213
和动词区域目标网络
Figure BDA00021734152200000214
再依次将支持集特征向量
Figure BDA00021734152200000215
与查询集特征向量
Figure BDA00021734152200000216
送入名词区域目标网络
Figure BDA00021734152200000217
和动词区域目标网络
Figure BDA00021734152200000218
得到名词融合目标特征
Figure BDA00021734152200000219
和动词融合目标特征
Figure BDA00021734152200000220
8)依次使用支持集的融合目标特征向量
Figure BDA00021734152200000221
和查询集的融合目标特征向量
Figure BDA00021734152200000222
计算得到查询集图片属于各个类别的概率;
9)在训练阶段,不断地从元训练集中获取不同的小样本任务,采用交叉熵损失和函数作为损失函数,通过反向传播,累积不同任务的损失来调整视觉特征提取网络
Figure BDA0002173415220000031
和语义元网络gΦ的参数,采用Adam优化算法对损失函数进行优化,直至损失函数趋于稳定;
10)在测试阶段,将元测试集的支持集与查询集的视觉特征输入训练好的视觉特征提取网络
Figure BDA0002173415220000032
中,将支持集名词语义信息和动词语义信息输入训练好的语义元网络gΦ中,得到特定区域的名词融合目标特征
Figure BDA0002173415220000033
和动词融合目标特征
Figure BDA0002173415220000034
再计算得到查询集图片属于各个类别的概率,将概率最大的那个类别,作为查询集图片所属的类别。
本发明的一种面向人物交互的网络权重生成少样本图像分类方法,考虑到人物交互图像数据集中的长尾问题,使用元学习框架,采用episodic训练策略,模拟了真实场景下少样本图像数据情况,减小图像数据分布差异,提高泛化能力,有效解决人物交互任务中图像分布不均的问题。引入标签的名词与动词的语义信息,生成任务级的特征提取网络功能参数对视觉特征进行加强。在训练过程中,不断地从获取不同的小样本任务,使用任务包含类别的语义与视觉融合信息将任务数据表示为一个任务特征,基于这个任务特征,通过参数生成器采样出一个针对当前这个任务的目标网络对应层的参数,关注到相关图像中人物的动作和物体区域,能够提高图像分类能力。
附图说明
图1为本发明一种面向人物交互的网络权重生成少样本图像分类方法的流程图;
图2为本发明中支持集的语义元网络的流程图;
图3为本发明中目标网络的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种面向人物交互的网络权重生成少样本图像分类方法做出详细说明。
如图1所示,本发明的一种面向人物交互的网络权重生成少样本图像分类方法,包括如下步骤:
1)将图像数据分为元训练集和元测试集;将元训练集和元测试集分别分为支持集和查询集,对支持集中的每个类别抽取设定量样本,形成一小样本任务;
2)设定支持集中含有w个图像类别,每个类别给出由s个四元组
Figure BDA0002173415220000035
定义的数据,其中,s是大于等于0的整数,(图1是以w=5,s=1为例)xi∈Rp是第i个图像视觉特征,
Figure BDA0002173415220000036
是第i个图像视觉特征的类别标签,ni∈Rq是第i个图像视觉特征的类别中名词的文本语义特征,vi∈Rq是第i个图像视觉特征的类别中动词的文本语义特征;p和q分别是视觉和语义空间的维度;训练阶段与支持集相对应类别的查询集给出q个二元组
Figure BDA0002173415220000037
其中,q是大于0的整数,
Figure BDA0002173415220000038
是第j个图像视觉特征,
Figure BDA0002173415220000039
是第j个图像视觉特征的类别标签;
3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征,分别记为x1,x2,x3,x4,……,xw,每个类别包含s个样本;
4)依次将支持集的w个图像类别的视觉特征送到用于将支持集与查询集嵌入同一空间的视觉特征提取网络
Figure BDA0002173415220000041
中,得到元训练集的支持集特征向量
Figure BDA0002173415220000042
5)从元训练集的查询集随机取得查询集的视觉特征xQ,送到用于将支持集与查询集嵌入同一空间的图像视觉特征提取网络
Figure BDA0002173415220000043
中,得到元训练集的查询集特征向量
Figure BDA0002173415220000044
6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N={n1,n2,...,nw},V={v1,v2,...,vw},与支持集特征向量
Figure BDA0002173415220000045
共同送入语义元网络gΦ中,得到归一化后的名词区域卷积核权重
Figure BDA0002173415220000046
和归一化后的动词区域卷积核权重
Figure BDA0002173415220000047
如图2所示,所述的语义元网络gΦ包括编码网络、语义融合网络和参数生成器,其中,
所述的编码网络是将w个图像类别的名词语义信息与动词语义信息与支持集特征向量
Figure BDA0002173415220000048
嵌入同一空间,分别使用语义编码器E1和视觉编码器E2,对名词语义信息与动词语义信息ni,vi及支持集特征向量
Figure BDA0002173415220000049
编码,得到:
Ln=E1(ni)                         (1)
Lv=E1(vi)                         (2)
Figure BDA00021734152200000410
其中,Ln为名词语义编码特征;Lv为动词语义编码特征;Ls为支持集视觉编码特征;E1(ni)和E1(vi)分别为使用名词语义信息ni和动词语义信息vi的语义编码器;
Figure BDA00021734152200000411
为支持集特征向量
Figure BDA00021734152200000412
视觉编码器;
所述的语义融合网络分为名词部分和动词部分,名词部分将支持集视觉编码特征Ls和名词语义编码特征Ln输入第一融合网络C1,动词部分将支持集视觉编码特征Ls和动词语义编码特征Lv输入第一融合网络C1,得到语义与视觉融合的任务特征:
Figure BDA00021734152200000413
Figure BDA00021734152200000414
其中,
Figure BDA00021734152200000415
为名词融合任务特征;
Figure BDA00021734152200000416
为动词融合任务特征;
所述的参数生成器G是分别对名词融合任务特征
Figure BDA00021734152200000417
和动词融合任务特征
Figure BDA00021734152200000418
进行采样,得到针对当前任务的目标网络对应层的权重:
Figure BDA00021734152200000419
Figure BDA00021734152200000420
其中,
Figure BDA00021734152200000421
为名词区域目标网络
Figure BDA00021734152200000422
的卷积核权重;
Figure BDA00021734152200000423
为动词区域目标网络
Figure BDA00021734152200000424
的卷积核权重;
同时,采用权重归一化的方法约束生成权重的尺度,对卷积核权重
Figure BDA00021734152200000425
进行用来稳定训练过程的L2范数归一化处理:
Figure BDA0002173415220000051
Figure BDA0002173415220000052
其中,
Figure BDA0002173415220000053
为归一化后的名词区域目标网络
Figure BDA0002173415220000054
的卷积核权重;
Figure BDA0002173415220000055
为归一化后的动词区域目标网络
Figure BDA0002173415220000056
的卷积核权重。
7)如图3所示,将归一化后的名词区域卷积核权重
Figure BDA0002173415220000057
和归一化后的动词区域卷积核权重
Figure BDA0002173415220000058
输入目标网络Tθ,所述的目标网络Tθ是两层卷积网络,得到名词区域目标网络
Figure BDA0002173415220000059
和动词区域目标网络
Figure BDA00021734152200000510
再依次将支持集特征向量
Figure BDA00021734152200000511
与查询集特征向量
Figure BDA00021734152200000512
送入名词区域目标网络
Figure BDA00021734152200000513
和动词区域目标网络
Figure BDA00021734152200000514
得到名词融合目标特征
Figure BDA00021734152200000515
和动词融合目标特征
Figure BDA00021734152200000516
包括:
将归一化后的名词区域卷积核权重
Figure BDA00021734152200000517
和归一化后的动词区域卷积核权重
Figure BDA00021734152200000518
输入目标网络Tθ,得到名词区域目标网络
Figure BDA00021734152200000519
和动词区域目标网络
Figure BDA00021734152200000520
并分别向名词区域目标网络
Figure BDA00021734152200000521
和动词区域目标网络
Figure BDA00021734152200000522
输入支持集特征向量
Figure BDA00021734152200000523
和查询集特征向量
Figure BDA00021734152200000524
得到名词区域的目标特征向量和动词区域的目标特征向量:
Figure BDA00021734152200000525
Figure BDA00021734152200000526
Figure BDA00021734152200000527
Figure BDA00021734152200000528
其中,
Figure BDA00021734152200000529
为查询集名词目标特征向量;
Figure BDA00021734152200000530
为查询集动词目标特征向量;
Figure BDA00021734152200000531
为支持集名词目标特征向量;
Figure BDA00021734152200000532
为支持集动词目标特征向量;
将查询集名词目标特征向量
Figure BDA00021734152200000533
查询集动词目标特征向量
Figure BDA00021734152200000534
支持集名词目标特征向量
Figure BDA00021734152200000535
和支持集动词目标特征向量
Figure BDA00021734152200000536
均输入到第二融合网络C2,得到支持集的融合目标特征向量
Figure BDA00021734152200000537
和查询集的融合目标特征向量
Figure BDA00021734152200000538
Figure BDA00021734152200000539
Figure BDA00021734152200000540
8)依次使用支持集的融合目标特征向量
Figure BDA00021734152200000541
和查询集的融合目标特征向量
Figure BDA00021734152200000542
计算得到查询集图片属于各个类别的概率;
9)在训练阶段,不断地从元训练集中获取不同的小样本任务,采用交叉熵损失和函数作为损失函数,通过反向传播,累积不同任务的损失来调整视觉特征提取网络
Figure BDA00021734152200000543
和语义元网络gΦ的参数,采用Adam优化算法对损失函数进行优化,直至损失函数趋于稳定;
10)在测试阶段,将元测试集的支持集与查询集的视觉特征输入训练好的视觉特征提取网络
Figure BDA0002173415220000061
中,将支持集名词语义信息和动词语义信息输入训练好的语义元网络gΦ中,得到特定区域的名词融合目标特征
Figure BDA0002173415220000062
和动词融合目标特征
Figure BDA0002173415220000063
再计算得到查询集图片属于各个类别的概率,将概率最大的那个类别,作为查询集图片所属的类别。
步骤8)和步骤10)是采用如下公式计算得到查询集图片属于各个类别的概率:
Figure BDA0002173415220000064
Figure BDA0002173415220000065
其中,cW为支持集第w个类的融合目标特征向量;s为每类样本数据的个数;Tθ为目标网络;
Figure BDA0002173415220000066
为视觉特征提取网络;xi是支持集第w个类第i个图像视觉特征;pφ(y=w|x)表示预测标签为w的概率,y是预测类别标签;d为距离度量函数;xj是查询集第j个图像视觉特征;cw'为支持集全部类别的融合目标特征向量。

Claims (4)

1.一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,包括如下步骤:
1)将图像数据分为元训练集和元测试集;将元训练集和元测试集分别分为支持集和查询集,对支持集中的每个类别抽取设定量样本,形成一小样本任务;
2)设定支持集中含有w个图像类别,每个类别给出由s个四元组
Figure FDA0003941367800000011
定义的数据,其中,s是大于等于0的整数,xi∈Rp是第i个图像视觉特征,
Figure FDA0003941367800000012
是第i个图像视觉特征的类别标签,ni∈Rq是第i个图像视觉特征的类别中名词的文本语义特征,vi∈Rq是第i个图像视觉特征的类别中动词的文本语义特征;p和q分别是视觉和语义空间的维度;训练阶段与支持集相对应类别的查询集给出q个二元组
Figure FDA0003941367800000013
其中,q是大于0的整数,
Figure FDA0003941367800000014
是第j个图像视觉特征,
Figure FDA0003941367800000015
是第j个图像视觉特征的类别标签;
3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征,分别记为x1,x2,x3,x4,……,xw,每个类别包含s个样本;
4)依次将支持集的w个图像类别的视觉特征送到用于将支持集与查询集嵌入同一空间的视觉特征提取网络
Figure FDA0003941367800000016
中,得到元训练集的支持集特征向量
Figure FDA0003941367800000017
5)从元训练集的查询集随机取得查询集的视觉特征xQ,送到用于将支持集与查询集嵌入同一空间的图像视觉特征提取网络
Figure FDA0003941367800000018
中,得到元训练集的查询集特征向量
Figure FDA0003941367800000019
6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N={n1,n2,...,nw},V={v1,v2,...,vw},与支持集特征向量
Figure FDA00039413678000000110
共同送入语义元网络gΦ中,得到归一化后的名词区域卷积核权重
Figure FDA00039413678000000111
和归一化后的动词区域卷积核权重
Figure FDA00039413678000000112
所述的语义元网络gΦ包括编码网络、语义融合网络和参数生成器,其中,
所述的编码网络是将w个图像类别的名词语义信息与动词语义信息与支持集特征向量
Figure FDA00039413678000000113
嵌入同一空间,分别使用语义编码器E1和视觉编码器E2,对名词语义信息与动词语义信息ni,vi及支持集特征向量
Figure FDA00039413678000000114
编码,得到:
Ln=E1(ni)                                  (1)
Lv=E1(vi)                                  (2)
Figure FDA00039413678000000115
其中,Ln为名词语义编码特征;Lv为动词语义编码特征;Ls为支持集视觉编码特征;E1(ni)和E1(vi)分别为使用名词语义信息ni和动词语义信息vi的语义编码器;
Figure FDA00039413678000000116
为支持集特征向量
Figure FDA00039413678000000117
视觉编码器;
所述的语义融合网络分为名词部分和动词部分,名词部分将支持集视觉编码特征Ls和名词语义编码特征Ln输入第一融合网络C1,动词部分将支持集视觉编码特征Ls和动词语义编码特征Lv输入第一融合网络C1,得到语义与视觉融合的任务特征:
Figure FDA0003941367800000021
Figure FDA0003941367800000022
其中,
Figure FDA0003941367800000023
为名词融合任务特征;
Figure FDA0003941367800000024
为动词融合任务特征;
所述的参数生成器G是分别对名词融合任务特征
Figure FDA0003941367800000025
和动词融合任务特征
Figure FDA0003941367800000026
进行采样,得到针对当前任务的目标网络对应层的权重:
Figure FDA0003941367800000027
Figure FDA0003941367800000028
其中,
Figure FDA0003941367800000029
为名词区域目标网络
Figure FDA00039413678000000210
的卷积核权重;
Figure FDA00039413678000000211
为动词区域目标网络
Figure FDA00039413678000000212
的卷积核权重;
同时,采用权重归一化的方法约束生成权重的尺度,对卷积核权重
Figure FDA00039413678000000213
进行用来稳定训练过程的L2范数归一化处理:
Figure FDA00039413678000000214
Figure FDA00039413678000000215
其中,
Figure FDA00039413678000000216
为归一化后的名词区域目标网络
Figure FDA00039413678000000217
的卷积核权重;
Figure FDA00039413678000000218
为归一化后的动词区域目标网络
Figure FDA00039413678000000219
的卷积核权重;
7)将归一化后的名词区域卷积核权重
Figure FDA00039413678000000220
和归一化后的动词区域卷积核权重
Figure FDA00039413678000000221
输入目标网络Tθ,得到名词区域目标网络
Figure FDA00039413678000000222
和动词区域目标网络
Figure FDA00039413678000000223
再依次将支持集特征向量
Figure FDA00039413678000000224
与查询集特征向量
Figure FDA00039413678000000225
送入名词区域目标网络
Figure FDA00039413678000000226
和动词区域目标网络
Figure FDA00039413678000000227
得到名词融合目标特征
Figure FDA00039413678000000228
和动词融合目标特征
Figure FDA00039413678000000229
8)依次使用支持集的融合目标特征向量
Figure FDA00039413678000000230
和查询集的融合目标特征向量
Figure FDA00039413678000000231
计算得到查询集图片属于各个类别的概率;
9)在训练阶段,不断地从元训练集中获取不同的小样本任务,采用交叉熵损失和函数作为损失函数,通过反向传播,累积不同任务的损失来调整视觉特征提取网络
Figure FDA00039413678000000232
和语义元网络gΦ的参数,采用Adam优化算法对损失函数进行优化,直至损失函数趋于稳定;
10)在测试阶段,将元测试集的支持集与查询集的视觉特征输入训练好的视觉特征提取网络
Figure FDA00039413678000000233
中,将支持集名词语义信息和动词语义信息输入训练好的语义元网络gΦ中,得到特定区域的名词融合目标特征
Figure FDA00039413678000000234
和动词融合目标特征
Figure FDA00039413678000000235
再计算得到查询集图片属于各个类别的概率,将概率最大的那个类别,作为查询集图片所属的类别。
2.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,步骤7)所述的目标网络Tθ是两层卷积网络。
3.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,步骤7)包括:将归一化后的名词区域卷积核权重
Figure FDA0003941367800000031
和归一化后的动词区域卷积核权重
Figure FDA0003941367800000032
输入目标网络Tθ,得到名词区域目标网络
Figure FDA0003941367800000033
和动词区域目标网络
Figure FDA0003941367800000034
并分别向名词区域目标网络
Figure FDA0003941367800000035
和动词区域目标网络
Figure FDA0003941367800000036
输入支持集特征向量
Figure FDA0003941367800000037
和查询集特征向量
Figure FDA0003941367800000038
得到名词区域的目标特征向量和动词区域的目标特征向量:
Figure FDA0003941367800000039
Figure FDA00039413678000000310
Figure FDA00039413678000000311
Figure FDA00039413678000000312
其中,
Figure FDA00039413678000000313
为查询集名词目标特征向量;
Figure FDA00039413678000000314
为查询集动词目标特征向量;
Figure FDA00039413678000000315
为支持集名词目标特征向量;
Figure FDA00039413678000000316
为支持集动词目标特征向量;
将查询集名词目标特征向量
Figure FDA00039413678000000317
查询集动词目标特征向量
Figure FDA00039413678000000318
支持集名词目标特征向量
Figure FDA00039413678000000319
和支持集动词目标特征向量
Figure FDA00039413678000000320
均输入到第二融合网络C2,得到支持集的融合目标特征向量
Figure FDA00039413678000000321
和查询集的融合目标特征向量
Figure FDA00039413678000000322
Figure FDA00039413678000000323
Figure FDA00039413678000000324
4.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法,其特征在于,步骤8)和步骤10)是采用如下公式计算得到查询集图片属于各个类别的概率:
Figure FDA00039413678000000325
Figure FDA00039413678000000326
其中,cW为支持集第w个类的融合目标特征向量;s为每类样本数据的个数;Tθ为目标网络;
Figure FDA00039413678000000327
为视觉特征提取网络;xi是支持集第w个类第i个图像视觉特征;pφ(y=w|x)表示预测标签为w的概率,y是预测类别标签;d为距离度量函数;xj是查询集第j个图像视觉特征;cw'为支持集全部类别的融合目标特征向量。
CN201910770529.4A 2019-08-20 2019-08-20 一种面向人物交互的网络权重生成少样本图像分类方法 Active CN110580500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910770529.4A CN110580500B (zh) 2019-08-20 2019-08-20 一种面向人物交互的网络权重生成少样本图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910770529.4A CN110580500B (zh) 2019-08-20 2019-08-20 一种面向人物交互的网络权重生成少样本图像分类方法

Publications (2)

Publication Number Publication Date
CN110580500A CN110580500A (zh) 2019-12-17
CN110580500B true CN110580500B (zh) 2023-04-18

Family

ID=68811202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910770529.4A Active CN110580500B (zh) 2019-08-20 2019-08-20 一种面向人物交互的网络权重生成少样本图像分类方法

Country Status (1)

Country Link
CN (1) CN110580500B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539448B (zh) * 2020-03-17 2023-04-07 广东省智能制造研究所 一种基于元学习的少样本图像分类方法
CN111503990B (zh) * 2020-04-10 2021-06-01 海信集团有限公司 一种冰箱及食材识别方法
CN111582337A (zh) * 2020-04-24 2020-08-25 东南大学 基于小样本细粒度图像分析的草莓畸形状态检测方法
CN111291841B (zh) * 2020-05-13 2020-08-21 腾讯科技(深圳)有限公司 图像识别模型训练方法、装置、计算机设备和存储介质
CN111738301B (zh) * 2020-05-28 2023-06-20 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN111882000A (zh) * 2020-08-04 2020-11-03 天津大学 一种应用于小样本细粒度学习的网络结构及方法
CN112613556B (zh) * 2020-09-01 2022-04-19 电子科技大学 基于元学习的少样本图像情感分类方法
CN112215280B (zh) * 2020-10-12 2022-03-15 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN112364870B (zh) * 2020-10-22 2021-10-15 中国科学院大学 一种基于特征和谐激活的小样本语义分割方法
CN112434721B (zh) * 2020-10-23 2023-09-01 特斯联科技集团有限公司 一种基于小样本学习的图像分类方法、***、存储介质及终端
CN112597278B (zh) * 2020-12-25 2024-06-14 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN112949730B (zh) * 2021-03-11 2024-04-09 无锡禹空间智能科技有限公司 少样本的目标检测方法、装置、存储介质及设备
CN112949740B (zh) * 2021-03-17 2022-11-25 重庆邮电大学 一种基于多级度量的小样本图像分类方法
CN113377990B (zh) * 2021-06-09 2022-06-14 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN113420642A (zh) * 2021-06-21 2021-09-21 西安电子科技大学 一种基于类别语义特征重加权的小样本目标检测方法及***
CN114005177B (zh) * 2021-10-29 2023-09-19 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN114092742B (zh) * 2021-11-19 2024-02-06 西安交通大学 一种基于多角度的小样本图像分类装置和方法
CN117095187B (zh) * 2023-10-16 2023-12-19 四川大学 元学习视觉语言理解与定位方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220506A (zh) * 2017-06-05 2017-09-29 东华大学 基于深度卷积神经网络的乳腺癌风险评估分析***
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
JP2019128804A (ja) * 2018-01-24 2019-08-01 株式会社日立製作所 特定システムおよび特定方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的***和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099305A1 (en) * 2017-11-14 2019-05-23 Magic Leap, Inc. Meta-learning for multi-task learning for neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220506A (zh) * 2017-06-05 2017-09-29 东华大学 基于深度卷积神经网络的乳腺癌风险评估分析***
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
JP2019128804A (ja) * 2018-01-24 2019-08-01 株式会社日立製作所 特定システムおよび特定方法
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的***和方法
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN110097094A (zh) * 2019-04-15 2019-08-06 天津大学 一种面向人物交互的多重语义融合少样本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning;Spyros Gidaris等;《arxiv.org》;20190603;全文 *
Meta-Transfer Learning for Few-Shot Learning;Qianru Sun等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20190615;全文 *
基于句式元学习的Twitter分类;闫雷鸣等;《北京大学学报(自然科学版)》;20190131;全文 *

Also Published As

Publication number Publication date
CN110580500A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN110580500B (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110569886B (zh) 一种双向通道注意力元学习的图像分类方法
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN106649542B (zh) 用于视觉问答的***和方法
CN110309514A (zh) 一种语义识别方法及装置
CN111737552A (zh) 训练信息抽取模型和获取知识图谱的方法、装置和设备
CN106973244A (zh) 使用弱监督为图像配字幕
CN113536922A (zh) 一种加权融合多种图像任务的视频行为识别方法
CN111241291A (zh) 利用对抗生成网络生成对抗样本的方法及装置
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及***
CN110070140B (zh) 基于多类别信息的用户相似性确定方法及装置
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN113657473A (zh) 一种基于迁移学习的Web服务分类方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Yang et al. Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant