CN112183580B - 一种基于动态知识路径学习的小样本分类方法 - Google Patents

一种基于动态知识路径学习的小样本分类方法 Download PDF

Info

Publication number
CN112183580B
CN112183580B CN202010927478.4A CN202010927478A CN112183580B CN 112183580 B CN112183580 B CN 112183580B CN 202010927478 A CN202010927478 A CN 202010927478A CN 112183580 B CN112183580 B CN 112183580B
Authority
CN
China
Prior art keywords
knowledge
path
small sample
instance
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010927478.4A
Other languages
English (en)
Other versions
CN112183580A (zh
Inventor
廖清
尹哲
柴合言
漆舒汉
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202010927478.4A priority Critical patent/CN112183580B/zh
Publication of CN112183580A publication Critical patent/CN112183580A/zh
Application granted granted Critical
Publication of CN112183580B publication Critical patent/CN112183580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于动态知识路径学习的小样本分类方法,包括如下步骤:基于知识图的知识挑选阶段,通过将辅助集组成知识图,用以小样本实例在知识图中寻找适合自己的学习路径;基于类别约束的动态路径生成阶段,小样本实例选择知识图中最相关的知识点组成路径,引入路径在类别级的约束,获得类别共性,通过计算路径损失来约束路径的好坏;基于路径的知识学习与分类阶段,顺序地将最相关的知识点所携带的信息提取出来增强目标实例的特征表达,查询集实例与支撑集中每一个小样本实例的特征表达进行相似度计算,使得目标实例分到相似度最高的类别上,然后使用交叉熵损失来衡量分类损失,通过分类损失和路径损失的加权求和建立小样本分类模型。

Description

一种基于动态知识路径学习的小样本分类方法
技术领域
本发明涉及一种基于动态知识路径学习的小样本分类方法,属于属于小样本分类技术领域。
背景技术
深度学习在各个领域已经取得了不错的成绩,但是目前的人工智能依赖于海量数据的训练,模型泛化能力不佳,在有限数据领域下的效果和快速拓展到新任务的能力都不尽人意。针对这个问题,小样本学习(Few Shot Learning,FSL)问题被提出。小样本学习能够帮助减轻收集大规模监督数据或人工标注的困难,使得人工智能在工业环境下使用更方便,比如ResNet在人工标注的ImageNet数据集上分类准确率已经超过人类,但是在另一方面人们可以识别30,000个类别,让机器来做的几乎是不可能完成的任务。相反,小样本学习可以帮助减少这些数据密集型应用的数据收集工作,例如图像分类、图像检索、目标追踪、手势识别、图像字幕和视觉问题解答、视频事件检测和语言建模等。因此,如果通过小样本学习的架构来解决这些问题能够大量减少计算资源和人工成本,并且这些模型和算法能够成功解决小样本学习问题,在数据充足的情况下能够达到更好的效果。其次在隐私、安全和医疗等领域,监督信息很难或者不可能获取,小样本学习在这类任务上获得了不少的研究。在医疗领域中,药物发现往往需要探索分子的性质来作为新药的依据,然而由于新分子可能存在毒性,低活性等原因,一般只有很少的生物记录和临床实验,从而导致研究进度缓慢。在推荐领域,冷启动问题一直困扰着人们,因为对于一个新的***没有足够用户支撑,导致很多基于用户物品矩阵分解的算法失效,但是通过小样本学习出针对这种样本稀少情况的模型成为了可能。
现有的小样本学习框架大致分为三个类别数据驱动、模型驱动和算法驱动。
(1)数据驱动:
数据驱动方法通过先验知识制造更多的数据从而减少估计误差。它又可以细分成两个小的方向,一个是利用一些变换来赋值训练集,另一种是从其他数据集中获取新的数据。前者一般是通过一些手工规则进行数据增强,或者使网络学习如何变换数据集,比如常见的对抗生成网络,如模拟数据分布的同时产生大量的有效样本。一些是通过学习到改变图片中无关的背景信息来增强图片,比如在目标识别任务中改变图片的阳光,修改图片的风景来做到增加样本的目的。而后者使用无监督数据来增强模型的表现力,或者通过加入相似的数据集使得网络学会如何生成好的最小化经验风险器,比如纳入无监督的数据集方法通常使用一个大的无标注数据集作为先验知识,关键点在于如何找到与训练集中相同标签的数据,以此加入到训练集中来增强数据,这样能够增加同类数据的变化使得模型有更好的泛化能力,这种技巧在半监督原型传播图网络中用到。而相似性的数据由于不是直接为目标任务所设计的,可能带来一些偏差和误导,由此在一种基于对抗生成网络的方法中有很多数据的数据集上生成不可区分的假数据,并且在生成的过程中考虑了这些数据集上的均值和方差,使得生成过程有更多可变性。
(2)算法驱动:
算法驱动考虑利用先验知识改变在假设空间的搜索策略,从而更好的找到最优解,大致可以分为三种:微调已经训练的参数、元学习器、学习如何搜索。第一种策略激发了保存训练好的模型参数的趋势,使得迁移学习在小样本学习领域也成为一个较热门的分支。这样一来学习如何适应到新的任务上成了新的目标。而后面两种策略均是属于元学习范畴,前者是在多个同分布的任务中通过元学习器学习到训练好的参数作为测试任务的初始化,后者直接将学习到的搜索步骤或者更新规则应用到新的任务中去。
(3)模型驱动:
该方法试图学习一个恰当的特征嵌入空间,在这个空间中具有相同标签的图片的特征嵌入会相似,而不同类别的图片的特征则恰恰相反,最后分类利用最近邻方法。孪生网络通过计算图片输入对的相似分数来进行分类,匹配网络使用注意力机制和记忆单元去比较测试样本和支撑集样本之间的相似性。原型网络利用小样本类别图片的嵌入均值作为类别的原型表达,通过寻找最近邻来返回预测的结果。也有方法通过基于半监督的三个聚类方法来改善原型网络或学习可迁移的深度度量。之后一些学者直接将支撑集和测试样本一起通过相似性构成一张图,通过图迭代后直接利用迭代后的结点特征进行分类,还有一些工作中采用了闭合形式的标签传播方式通过在关系图中使用元学习的方式学习如何将测试样本关联到支撑集标签上,直接得到测试集标签。也有采用两阶段学习的方法来增加先验知识,之后利用这些先验知识来帮助后续的小样本学习任务。
利用两阶段的训练方式,先在规模较大的数据集训练一个模型使得模型有提取特征的能力,第二阶段利用较大的数据集作为辅助提供一些额外先验知识,并利用小样本数据集再次训练使得模型能够适应样本少,新任务多的情况。它们的知识传播过程都是全局的,是由辅助集发散出来的,而没有考虑到知识的方向传播性。
现有的小样本学习框架认为各训练任务之间是相似的,然而实际上不相似的任务会带来负迁移污染整个模型,没有学习额外的知识导致很难从少量数据中提取出类别中心;没有考虑知识学习的方向传播性,没有利用好知识学习前后关系带来的好处。
发明内容
本发明提出一种基于动态知识路径学习的小样本分类方法,解决现有技术没有学习额外的知识导致很难从少量数据中提取出类别中心,而另一些利用了全局额外知识的技术没有考虑知识学习方向性带来的益处,往往缺乏解释性而且学习效果不佳的问题,具体技术方案如下:
一种基于动态知识路径学习的小样本分类方法,其特征在于:步骤如下:
基于知识图的知识挑选阶段,通过将辅助集组成知识图,小样本实例在知识图中寻找适合自己的学习路径;
基于类别约束的动态路径生成阶段,小样本实例选择知识图中最相关的知识点组成路径,引入路径在类别级的约束,获得类别共性,通过计算路径损失来约束路径的好坏;
基于路径的知识学习与分类阶段,顺序地将最相关的知识点所携带的信息提取出来增强目标实例的特征表达,查询集每一个实例与支撑集中每一个实例的特征表达两两进行相似度计算,使得目标实例分到相似度最高的类别上,然后使用交叉熵损失来衡量分类损失,通过分类损失和路径损失的加权求和建立小样本分类模型。
优选的,所述基于知识图的知识挑选阶段中,小样本实例在知识图中寻找适合自己的学习路径的具体方法为:
知识图的节点直接由辅助集类别原型组成,原型即知识点,而边利用各辅助类别之间的相似度,作为边的权重将各节点进行连接;知识图节点之间的相似度计算由公式(1)所示:
Figure GDA0002962751930000031
公式(1)中的p,q为辅助集类别知识点,s为相似度度量函数并将其定义为点积相似度;通过该函数可以得知识图中两两节点之间边的权重,从而确定出一个由辅助集B构成的知识图;
为每一个小样本实例都挑选一条专属的知识路径,设知识路径长度为T,在每个时刻都在辅助集B构成的知识图中选取一个知识点作为路径上的结点;对于其中一条路径i即第i个实例所挑选的路径,设定一个隐藏状态
Figure GDA0002962751930000041
用于计算选取知识点的概率,而在时刻t第i个实例的隐藏状态为
Figure GDA0002962751930000042
选取知识点后将被更新为
Figure GDA0002962751930000043
利用隐藏状态
Figure GDA0002962751930000044
与辅助集B中所有知识点进行注意力计算,通过注意力分布作为选取知识点j的概率
Figure GDA0002962751930000045
Figure GDA0002962751930000046
Figure GDA0002962751930000047
在公式(2)中,WT,Wh和Wv都是线性变换操作,可以将矩阵转换到合适的维度,|B|表示辅助图中知识点的数量,
Figure GDA0002962751930000048
表示辅助图中第j个知识点,
Figure GDA0002962751930000049
表示第i个实例在时刻t对第j个知识点的偏好程度;
在公式(3)中,
Figure GDA00029627519300000410
表示第i个实例在时刻t对第k个知识点的偏好程度,在此处特意提出来是为了通过加和得到对所有知识点的偏好程度,通过公式(3)转换为概率形式,从而得到选取知识点j的概率
Figure GDA00029627519300000411
通过公式(4)选取概率最大知识点作为路径的结点,则路径上的第t个结点,记为
Figure GDA00029627519300000412
即第i个实例在时刻t挑选的路径结点为
Figure GDA00029627519300000413
Figure GDA00029627519300000414
在计算t+1时刻的隐藏层状态时引入了平均知识点特征
Figure GDA00029627519300000415
来降低在搜索路径时偏离原问题的影响,最终通过循环神经网络更新隐藏层状态:
Figure GDA00029627519300000416
进一步的,所述基于类别约束的动态路径生成阶段中,路径的获取由小样本任务的实例从知识图中挑选最相关的知识点T次后得到,对于第i个实例所挑选的路径,记为路径di,而其中的第t个结点记为
Figure GDA00029627519300000417
因此对于第i个实例挑选的路径由
Figure GDA00029627519300000418
组成;
通过计算路径损失来约束路径的好坏,计算如下:
Figure GDA0002962751930000051
Figure GDA0002962751930000052
其中o,u,v均为索引,用来代表一个范围内的任意一个值;用|Q|,|S|来分别表示小样本任务中查询集下实例的个数和支撑集下实例的个数,yo,yv和yu均表示实例i,在i=o,v,u时的标签;
Figure GDA0002962751930000053
为实例i在1~t时刻对各知识点的平均注意程度。此时i=o,同理,当i=u或v时,被表示为
Figure GDA0002962751930000054
均表示某一个实例在1~t时刻对各知识点的平均注意程度;
Figure GDA0002962751930000055
用来表示知识点是否有在1~t时刻被挑选出来,且数值随着时间步的增加而增加,来增大对不符合需求的分布的惩罚。
进一步的,所述基于路径的知识学习与分类阶段中,通过隐藏层状态能够顺序地将最相关的知识点所携带的信息提取出来增强目标实例的特征表达,利用门控机制将路径上的结点和之前基于知识图的知识挑选阶段中通过循环神经网络更新的隐藏层状态作为输入更新对应的隐藏层状态:
Figure GDA0002962751930000056
Figure GDA0002962751930000057
Figure GDA0002962751930000058
Figure GDA0002962751930000059
其中,Wr,Wz
Figure GDA00029627519300000510
均表示线性变换操作,而
Figure GDA00029627519300000511
均为门控机制的中间状态,最终将隐藏状态从
Figure GDA00029627519300000512
更新为
Figure GDA00029627519300000513
σ为激活函数,用于增加门控机制的中间状态的非线性特征;
经过T个知识点信息的汇聚后,得到最终的隐藏层状态
Figure GDA00029627519300000514
结合基于知识图的知识挑选阶段的注意力分布,通过一个输出网络来得到该实例在新空间中的特征表达,用pi or qg分别来表示来自于查询集第i个实例或来自于支撑集第g个实例在新空间中的特征表达:
Figure GDA0002962751930000061
其中
Figure GDA0002962751930000062
Figure GDA0002962751930000063
Figure GDA0002962751930000064
均为一个集合用来表示每个时间步的情况,
Figure GDA0002962751930000065
Figure GDA0002962751930000066
表示每个时刻对各知识点的平均注意程度,而
Figure GDA0002962751930000067
Figure GDA0002962751930000068
表示各时刻的隐藏层状态;
查询集实例与支撑集中每一个小样本实例的特征表达进行相似度计算,使得目标实例分到相似度最高的类别上,计算公式如下:
Figure GDA0002962751930000069
Figure GDA00029627519300000610
其中
Figure GDA00029627519300000611
表示查询集中第g个实例对支撑集中第i个实例的相似性,同理可知
Figure GDA00029627519300000612
Pr(y=c|qg)表示属于类别c的概率;
Figure GDA00029627519300000613
为在公式中表示pi的转置,yk在此仍然表示支撑集中第k个实例的标签;
其中Ws是可学习的参数,用Prg表示查询集实例g对各类别的概率向量,
Figure GDA00029627519300000614
之后使用交叉熵损失来衡量分类损失,N表示支撑集所包含的类别数量:
Figure GDA00029627519300000615
通过分类损失和路径损失的加权求和建立小样本分类模型:
L=λL1+μL2+νL3#(16)
其中λ,μ和ν均为超参数,用来控制各损失函数的权重;利用小样本分类模型L能够指导模型寻找更为合理的知识路径并提高小样本分类的精度。
本发明能够模拟知识学习的顺序性和先前模型的不可解释性,将分类问题转换为知识挑选和顺序确定问题,规避不相似任务带来的影响。
附图说明
图1是本发明一种基于动态路径知识学习的小样本分类方法的工作流程图。
图2是本发明基于动态路径知识学习的工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对了当前小样本学习的基础方法只利用了静态知识的痛点,引入了方向性的概念,本发明中提出了基于动态知识路径学习的小样本分类方法,分为基于知识图的知识挑选,基于类别约束的动态路径生成和基于路径的知识学习三个阶段,分别考虑了知识被选取后组成学习路径再进行学习的过程,通过给每个小样本实例学习配套的知识,来获取类别的共性,减少样本间各自的差异带来的影响。
如图1所示,一种基于动态知识路径学习的小样本分类方法,步骤如下:
1.基于知识图的知识挑选阶段,通过将辅助集组成知识图,小样本实例在知识图中寻找适合自己的学习路径;具体方法为:
知识图的节点直接由辅助集类别原型组成,原型即知识点,而边利用各辅助类别之间的相似度,作为边的权重将各节点进行连接;知识图节点之间的相似度计算由公式(1)所示:
Figure GDA0002962751930000071
公式(1)中的p,q为辅助集类别知识点,s为相似度度量函数并将其定义为点积相似度;通过该函数可以得知识图中两两节点之间边的权重,从而确定出一个由辅助集B构成的知识图;
为每一个小样本实例都挑选一条专属的知识路径,设知识路径长度为T,在每个时刻都在辅助集B构成的知识图中选取一个知识点作为路径上的结点;对于其中一条路径i即第i个实例所挑选的路径,设定一个隐藏状态
Figure GDA0002962751930000072
用于计算选取知识点的概率,而在时刻t第i个实例的隐藏状态为
Figure GDA0002962751930000073
选取知识点后将被更新为
Figure GDA0002962751930000074
利用隐藏状态
Figure GDA0002962751930000075
与辅助集B中所有知识点进行注意力计算,通过注意力分布作为选取知识点j的概率
Figure GDA0002962751930000076
Figure GDA0002962751930000077
Figure GDA0002962751930000081
在公式(2)中,WT,Wh和Wv都是线性变换操作,可以将矩阵转换到合适的维度,|B|表示辅助图中知识点的数量,
Figure GDA0002962751930000082
表示辅助图中第j个知识点,
Figure GDA0002962751930000083
表示第i个实例在时刻t对第j个知识点的偏好程度;
在公式(3)中,
Figure GDA0002962751930000084
表示第i个实例在时刻t对第k个知识点的偏好程度,在此处特意提出来是为了通过加和得到对所有知识点的偏好程度,通过公式(3)转换为概率形式,从而得到选取知识点j的概率
Figure GDA0002962751930000085
通过公式(4)选取概率最大知识点作为路径的结点,则路径上的第t个结点,记为
Figure GDA0002962751930000086
即第i个实例在时刻t挑选的路径结点为
Figure GDA0002962751930000087
Figure GDA0002962751930000088
在计算t+1时刻的隐藏层状态时引入了平均知识点特征
Figure GDA0002962751930000089
来降低在搜索路径时偏离原问题的影响,最终通过循环神经网络更新隐藏层状态:
Figure GDA00029627519300000810
2.基于类别约束的动态路径生成阶段,小样本实例选择知识图中最相关的知识点组成路径,引入路径在类别级的约束,获得类别共性,通过计算路径损失来约束路径的好坏;路径的获取由小样本实例从知识图中挑选最相关的知识点T次后得到,对于第i个实例所挑选的路径,记为路径di,而其中的第t个结点记为
Figure GDA00029627519300000811
因此对于第i个实例挑选的路径由
Figure GDA00029627519300000812
组成;
通过计算路径损失来约束路径的好坏,计算如下:
Figure GDA00029627519300000813
Figure GDA00029627519300000814
其中o,u,v均为索引,用来代表一个范围内的任意一个值;用|Q|,|S|来分别表示小样本任务中查询集下实例的个数和支撑集下实例的个数,yo,yv和yu均表示实例i,在i=o,v,u时的标签;KL为Kullback-Leibler divergence的缩写;
Figure GDA0002962751930000091
为实例i在1~t时刻对各知识点的平均注意程度;此时i=o,同理,当i=u或v时,被表示为
Figure GDA0002962751930000092
均表示某一个实例在1~t时刻对各知识点的平均注意程度;
Figure GDA0002962751930000093
用来表示知识点是否有在1~t时刻被挑选出来,且数值随着时间步的增加而增加,来增大对不符合需求的分布的惩罚。
3.基于路径的知识学习与分类阶段,通过隐藏层状态能够顺序地将最相关的知识点所携带的信息提取出来增强目标实例的特征表达,利用门控机制将路径上的结点和之前基于知识图的知识挑选阶段中通过循环神经网络更新的隐藏层状态作为输入更新对应的隐藏层状态:
Figure GDA0002962751930000094
Figure GDA0002962751930000095
Figure GDA0002962751930000096
Figure GDA0002962751930000097
其中,Wr,Wz
Figure GDA0002962751930000098
均表示线性变换操作,而
Figure GDA0002962751930000099
均为门控机制的中间状态,最终将隐藏状态从
Figure GDA00029627519300000910
更新为
Figure GDA00029627519300000911
σ为激活函数,用于增加门控机制的中间状态的非线性特征;
经过T个知识点信息的汇聚后,得到最终的隐藏层状态
Figure GDA00029627519300000912
结合基于知识图的知识挑选阶段的注意力分布,通过一个输出网络来得到该实例在新空间中的特征表达,用pi or qg分别来表示来自于查询集第i个实例或来自于支撑集第g个实例在新空间中的特征表达:
Figure GDA00029627519300000913
其中
Figure GDA00029627519300000914
Figure GDA00029627519300000915
Figure GDA00029627519300000916
均为一个集合用来表示每个时间步的情况,
Figure GDA00029627519300000917
Figure GDA00029627519300000918
表示每个时刻对各知识点的平均注意程度,而
Figure GDA00029627519300000919
Figure GDA00029627519300000920
表示各时刻的隐藏层状态;
查询集实例与支撑集中每一个小样本实例的特征表达进行相似度计算,使得目标实例分到相似度最高的类别上,计算公式如下:
Figure GDA00029627519300000921
Figure GDA0002962751930000101
其中
Figure GDA0002962751930000102
表示查询集中第g个实例对支撑集中第i个实例的相似性,同理可知
Figure GDA0002962751930000103
Pr(y=c|qg)表示属于类别c的概率;
Figure GDA0002962751930000104
为在公式中表示pi的转置,yk在此仍然表示支撑集中第k个实例的标签;
其中Ws是可学习的参数,用Prg表示查询集实例g对各类别的概率向量,
Figure GDA0002962751930000105
之后使用交叉熵损失来衡量分类损失,N表示支撑集所包含的类别数量:
Figure GDA0002962751930000106
通过分类损失和路径损失的加权求和建立小样本分类模型:
L=λL1+μL2+νL3#(16)
其中λ,μ和v均为超参数,用来控制各损失函数的权重;利用小样本分类模型L能够指导模型寻找更为合理的知识路径并提高小样本分类的精度。
本发明提出了动态路径学习的小样本分类方法使得先验知识能够有序地在任务间传播,设计了针对路径生成的损失函数最大程度保证了路径生成的合理性。
如图2所示,基于本发明进行小样本学习的工作流程为:将辅助集通过彼此之间的相似性构成知识图,当输入小样本分类任务时,为每一个小样本任务的实例动态挑选专属的知识路径,然后根据该路径学习出最终的特征表达,在该特征表达的基础上进行特征分类,完成小样本分类的目的。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于动态知识路径学习的小样本分类方法,其特征在于:步骤如下:
基于知识图的知识挑选阶段,通过将辅助集组成知识图,小样本实例在知识图中寻找适合自己的学习路径;
基于类别约束的动态路径生成阶段,小样本实例选择知识图中最相关的知识点组成路径,引入路径在类别级的约束,获得类别共性,通过计算路径损失来约束路径的好坏;
基于路径的知识学习与分类阶段,顺序地将最相关的知识点所携带的信息提取出来增强目标实例的特征表达,查询集每一个实例与支撑集中每一个实例的特征表达两两进行相似度计算,使得目标实例分到相似度最高的类别上,然后使用交叉熵损失来衡量分类损失,通过分类损失和路径损失的加权求和建立小样本分类模型;
所述基于知识图的知识挑选阶段中,小样本实例在知识图中寻找适合自己的学习路径的具体方法为:
知识图的节点直接由辅助集类别原型组成,原型即知识点,而边利用各辅助类别之间的相似度,作为边的权重将各节点进行连接;知识图节点之间的相似度计算由公式(1)所示:
Figure FDA0003118750240000011
公式(1)中的p,q为辅助集类别知识点,s为相似度度量函数并将其定义为点积相似度;通过该函数可以得知识图中两两节点之间边的权重,从而确定出一个由辅助集B构成的知识图;
为每一个小样本实例都挑选一条专属的知识路径,设知识路径长度为T,在每个时刻都在辅助集B构成的知识图中选取一个知识点作为路径上的结点;对于其中一条路径i即第i个实例所挑选的路径,设定一个隐藏状态
Figure FDA0003118750240000012
用于计算选取知识点的概率,而在时刻t第i个实例的隐藏状态为
Figure FDA0003118750240000013
选取知识点后将被更新为
Figure FDA0003118750240000014
利用隐藏状态
Figure FDA0003118750240000015
与辅助集B中所有知识点进行注意力计算,通过注意力分布作为选取知识点j的概率
Figure FDA0003118750240000016
Figure FDA0003118750240000017
Figure FDA0003118750240000021
在公式(2)中,WT,Wh和Wv都是线性变换操作,可以将矩阵转换到合适的维度,|B|表示辅助图中知识点的数量,
Figure FDA0003118750240000022
表示辅助图中第j个知识点,
Figure FDA0003118750240000023
表示第i个实例在时刻t对第j个知识点的偏好程度;
在公式(3)中,
Figure FDA0003118750240000024
表示第i个实例在时刻t对第k个知识点的偏好程度,通过公式(3)转换为概率形式,从而得到选取知识点j的概率
Figure FDA0003118750240000025
通过公式(4)选取概率最大知识点作为路径的结点,则路径上的第t个结点,记为
Figure FDA0003118750240000026
即第i个实例在时刻t挑选的路径结点为
Figure FDA0003118750240000027
Figure FDA0003118750240000028
在计算t+1时刻的隐藏层状态时引入了平均知识点特征
Figure FDA0003118750240000029
来降低在搜索路径时偏离原问题的影响,最终通过循环神经网络更新隐藏层状态:
Figure FDA00031187502400000210
2.根据权利要求1所述的一种基于动态知识路径学习的小样本分类方法,其特征在于:所述基于类别约束的动态路径生成阶段中,路径的获取由小样本任务的实例从知识图中挑选最相关的知识点T次后得到,对于第i个实例所挑选的路径,记为路径di,而其中的第t个结点记为
Figure FDA00031187502400000211
因此对于第i个实例挑选的路径由
Figure FDA00031187502400000212
组成;
通过计算路径损失来约束路径的好坏,计算如下:
Figure FDA00031187502400000213
Figure FDA00031187502400000214
其中o,u,v均为索引,用来代表一个范围内的任意一个值;用|Q|,|S|来分别表示小样本任务中查询集下实例的个数和支撑集下实例的个数,yo,yv和yu均表示实例i,在i=o,v,u时的标签;
Figure FDA0003118750240000031
为实例i在1~t时刻对各知识点的平均注意程度;此时i=o,同理,当i=u或v时,被表示为
Figure FDA0003118750240000032
均表示某一个实例在1~t时刻对各知识点的平均注意程度;
Figure FDA0003118750240000033
用来表示知识点是否有在1~t时刻被挑选出来,且数值随着时间步的增加而增加,来增大对不符合需求的分布的惩罚。
3.根据权利要求2所述的一种基于动态知识路径学习的小样本分类方法,其特征在于:所述基于路径的知识学习与分类阶段中,通过隐藏层状态能够顺序地将最相关的知识点所携带的信息提取出来增强目标实例的特征表达,利用门控机制将路径上的结点和之前基于知识图的知识挑选阶段中通过循环神经网络更新的隐藏层状态作为输入更新对应的隐藏层状态:
Figure FDA0003118750240000034
Figure FDA0003118750240000035
Figure FDA0003118750240000036
Figure FDA0003118750240000037
其中,Wr,Wz
Figure FDA0003118750240000038
均表示线性变换操作,而
Figure FDA00031187502400000322
均为门控机制的中间状态,最终将隐藏状态从
Figure FDA00031187502400000310
更新为
Figure FDA00031187502400000311
σ为激活函数,用于增加门控机制的中间状态的非线性特征;
经过T个知识点信息的汇聚后,得到最终的隐藏层状态
Figure FDA00031187502400000312
结合基于知识图的知识挑选阶段的注意力分布,通过一个输出网络来得到该实例在新空间中的特征表达,用pi or qg分别来表示来自于查询集第i个实例或来自于支撑集第g个实例在新空间中的特征表达:
Figure FDA00031187502400000313
其中
Figure FDA00031187502400000314
Figure FDA00031187502400000315
Figure FDA00031187502400000316
均为一个集合用来表示每个时间步的情况,
Figure FDA00031187502400000317
Figure FDA00031187502400000318
表示每个时刻对各知识点的平均注意程度,而
Figure FDA00031187502400000319
Figure FDA00031187502400000320
表示各时刻的隐藏层状态;
查询集实例与支撑集中每一个小样本实例的特征表达进行相似度计算,使得目标实例分到相似度最高的类别上,计算公式如下:
Figure FDA00031187502400000321
Figure FDA0003118750240000041
其中
Figure FDA0003118750240000042
表示查询集中第g个实例对支撑集中第i个实例的相似性,同理可知
Figure FDA0003118750240000043
Pr(y=c|qg)表示属于类别c的概率;
Figure FDA0003118750240000044
为在公式中表示pi的转置,yk在此仍然表示支撑集中第k个实例的标签;
其中Ws是可学习的参数,用Prg表示查询集实例g对各类别的概率向量,
Figure FDA0003118750240000045
之后使用交叉熵损失来衡量分类损失,N表示支撑集所包含的类别数量:
Figure FDA0003118750240000046
通过分类损失和路径损失的加权求和建立小样本分类模型:
L=λL1+μL2+νL3 #(16)
其中λ,μ和v均为超参数,用来控制各损失函数的权重;利用小样本分类模型L能够指导模型寻找更为合理的知识路径并提高小样本分类的精度。
CN202010927478.4A 2020-09-07 2020-09-07 一种基于动态知识路径学习的小样本分类方法 Active CN112183580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010927478.4A CN112183580B (zh) 2020-09-07 2020-09-07 一种基于动态知识路径学习的小样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010927478.4A CN112183580B (zh) 2020-09-07 2020-09-07 一种基于动态知识路径学习的小样本分类方法

Publications (2)

Publication Number Publication Date
CN112183580A CN112183580A (zh) 2021-01-05
CN112183580B true CN112183580B (zh) 2021-08-10

Family

ID=73924858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010927478.4A Active CN112183580B (zh) 2020-09-07 2020-09-07 一种基于动态知识路径学习的小样本分类方法

Country Status (1)

Country Link
CN (1) CN112183580B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800196B (zh) * 2021-01-18 2024-03-01 南京明略科技有限公司 一种基于孪生网络的faq问答库匹配方法与***
CN115100532B (zh) * 2022-08-02 2023-04-07 北京卫星信息工程研究所 小样本遥感图像目标检测方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934261A (zh) * 2019-01-31 2019-06-25 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908650B (zh) * 2017-10-12 2019-11-05 浙江大学 基于海量数字图书的知识脉络自动构建方法
CN111222049B (zh) * 2020-01-08 2021-10-01 东北大学 语义增强的异构信息网络上Top-k相似度搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934261A (zh) * 2019-01-31 2019-06-25 中山大学 一种知识驱动参数传播模型及其少样本学习方法
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法

Also Published As

Publication number Publication date
CN112183580A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
Wu et al. Hyperparameter optimization for machine learning models based on Bayesian optimization
Li et al. 2-D stochastic configuration networks for image data analytics
Huang et al. Cost-effective training of deep cnns with active model adaptation
Yu et al. Unsupervised random forest indexing for fast action search
US20180341862A1 (en) Integrating a memory layer in a neural network for one-shot learning
Chu et al. Unsupervised temporal commonality discovery
Cong et al. Self-supervised online metric learning with low rank constraint for scene categorization
CN112183580B (zh) 一种基于动态知识路径学习的小样本分类方法
Gu et al. Local optimality of self-organising neuro-fuzzy inference systems
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
Liu et al. Boosting semi-supervised face recognition with noise robustness
Zhang et al. Second-and high-order graph matching for correspondence problems
CN110991500A (zh) 一种基于嵌套式集成深度支持向量机的小样本多分类方法
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
Kongsorot et al. An incremental kernel extreme learning machine for multi-label learning with emerging new labels
Ou et al. Improving person re-identification by multi-task learning
CN116680578A (zh) 一种基于跨模态模型的深度语义理解方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Xue et al. Fast and unsupervised neural architecture evolution for visual representation learning
Tian et al. Modeling cardinality in image hashing
CN113887353A (zh) 一种可见光-红外的行人重识别方法及***
CN117992805B (zh) 基于张量积图融合扩散的零样本跨模态检索方法、***
CN113033495B (zh) 一种基于k-means算法的弱监督行为识别方法
Shi Image Recognition of Skeletal Action for Online Physical Education Class based on Convolutional Neural Network
US11908193B2 (en) Obtaining custom artificial neural network architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518055 campus of Harbin Institute of technology, Shenzhen University Town, Taoyuan Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Harbin Institute of Technology,Shenzhen(Shenzhen Institute of science and technology innovation Harbin Institute of Technology)

Address before: 518055 campus of Harbin Institute of technology, Shenzhen University Town, Taoyuan Street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: HARBIN INSTITUTE OF TECHNOLOGY (SHENZHEN)

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant