CN109376763A - 基于多样本推理神经网络的样本分类方法、***及介质 - Google Patents

基于多样本推理神经网络的样本分类方法、***及介质 Download PDF

Info

Publication number
CN109376763A
CN109376763A CN201811068190.5A CN201811068190A CN109376763A CN 109376763 A CN109376763 A CN 109376763A CN 201811068190 A CN201811068190 A CN 201811068190A CN 109376763 A CN109376763 A CN 109376763A
Authority
CN
China
Prior art keywords
sample
msin
multisample
neural network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811068190.5A
Other languages
English (en)
Inventor
杨峰
梁道君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201811068190.5A priority Critical patent/CN109376763A/zh
Publication of CN109376763A publication Critical patent/CN109376763A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多样本推理神经网络的样本分类方法、***及介质,包括:步骤(1):建立多样本推理神经网络MSIN;步骤(2):将若干个不同样本域的训练样本作为输入值,输入到多样本推理神经网络MSIN中,对多样本推理神经网络MSIN进行指定轮数的训练;在每轮训练结束后,将验证样本输入到多样本推理神经网络MSIN进行测试,保存使得多样本推理神经网络MSIN整体损失函数值最小的多样本推理神经网络MSIN作为最终网络;步骤(3):将若干个不同样本域的测试样本作为多样本推理神经网络MSIN输入值,输入到训练好的多样本推理神经网络中,输出测试样本所对应的样本类别或测试样本所在的样本域。

Description

基于多样本推理神经网络的样本分类方法、***及介质
技术领域
本发明涉及基于多样本推理神经网络的样本分类方法、***及介质。
背景技术
人工智能在如今社会各行各业的应用方兴未艾,机器学习作为人工智能的最主要技术,决定着人工智能的应用前景和产品落地。近年来,以多层神经网络为基础的深度学习技术在计算机视觉和自然语言处理等领域起到了主导性的作用,使得这些领域有了突飞猛进的发展。然而,神经网络的性能和参数量是呈正相关的,即拥有高性能的网络往往拥有巨大的参数量。这些网络往往需要几十个乃至上百个高性能的GPU集群来进行训练,而使用训练好的神经网络进行推理时也往往需要高性能的GPU才能进行,这使得一般的PC机不能承载如此巨大的计算量,也很难使得神经网络在移动设备上部署。深度学习技术对计算的巨大需求使其很难部署到具体的产品中。因此,关于神经网络架构的研究从未停止,一方面,高性能的网络架构不仅要拥有较少的参数,同时也应该拥有较高的性能。另一方面,在保证网络拥有较好的泛化性能的前提下,应尽量减少网络参数。这是为了让网络拥有较少的计算量,以便于部署于低性能的设备上,特别是一些移动和嵌入式设备上。
关于神经网络架构的设计和探索已经有了很多工作,最早用卷积网络来做图像识别的工作来自LeNets,该工作只是应用在手写数字集上,并没有应用于大型而复杂的数据集上。直到2012年,AlexNet使用两个GPU在ImageNet上训练神经网络,标志着深度学习时代的到来。此后,对AlexNet的架构改进和在多个数据集上的泛化能力成了衡量网络性能好坏的标准。VGGNets证明了使用更小的卷积核和更深的层结构有利于网络取得更好的性能。GoogLeNets使用不同的卷积核在前后层之间建立多个连接,使得网络拥有更多样性的表示,进而取得更好的性能。ResNets使用旁支结构将前层信息不加改变的融合到后层中,解决了网络在训练过程中的梯度消失问题,使得网络架构可以被设计的很深,从而取得更好的性能。ResNets的成功也标志着拥有层间信息融合的网络架构可以取得更好的性能。DenseNets将所有的前层信息合并起来传递到后层,它使得网络的模块之间拥有更多的连接,层之间的信息融合方式更加复杂。WPNets和PWNets从整体和局部的视角提出了一种分组通道融合型卷积神经网络架构,它们结合了各种信息融合网络的特点,通过压缩、放大函数与分组卷积结合起来,形成了更多的层间连接,从而取得了更好的泛化性能。
一些工作尝试使用多个输入样本来训练神经网络。SamplePairing和Mixup将两个样本相加或插值,以取代原来的样本作为神经网络的输入。这有利于扩大样本域,以达到一种数据增强的目的,从而提高网络的泛化能力。Siamese Network将两个样本分别地输入卷积神经网络,以获取它们之间的相似度。类似地,一种分别使用三个样本输入网络被设计用来求取它们之间的类间差异性和类内相似性。与此不同的是,一种同时输入两张图片以求取两张图中的区块相似性的网络被提出,它的主要目的是学习一个通用的相似函数来衡量两张图片之间的相似性。这些网络通常被设计用来扩充样本域或衡量样本间的相似性,并不能预测样本所属的类别,更不能预测样本所对应的样本域。
发明内容
为了解决现有技术的不足,本发明提供了基于多样本推理神经网络的样本分类方法、***及介质,使神经网络在一次前向过程中能够同时对多个输入进行预测。多样本推理的神经网络架构(Multi-Sample Inference Network,简称MSIN)不仅可以在一次前向过程中同时预测多个输入样本,极大地重用网络参数,而且能够保证神经网络具有较好的泛化性能。同时对多个样本进行预测,不仅可以减少网络的推理时间,而且可以降低网络计算对硬件资源的消耗。
为了解决上述技术问题,本发明采用如下技术方案:
作为本发明的第一方面,提供了基于多样本推理神经网络的样本分类方法;
基于多样本推理神经网络的样本分类方法,包括:
步骤(1):建立多样本推理神经网络MSIN;
步骤(2):将若干个不同样本域的训练样本作为输入值,输入到多样本推理神经网络MSIN中,对多样本推理神经网络MSIN进行指定轮数的训练;
在每轮训练结束后,将验证样本输入到多样本推理神经网络MSIN进行测试,保存使得多样本推理神经网络MSIN整体损失函数值最小的多样本推理神经网络MSIN作为最终网络;
步骤(3):将若干个不同样本域的测试样本作为多样本推理神经网络MSIN输入值,输入到训练好的多样本推理神经网络中,输出测试样本所对应的样本类别或测试样本所在的样本域。
样本域是指样本所在的样本集合,不同的样本域有着不同的样本分布。
进一步的,所述多样本推理神经网络,包括:依次连接的初始层、共享层和最终层;
初始层:用来产生同样大小的特征图,以便在共享层进行共享,初始层包括卷积层和池化层,卷积层与池化层彼此连接,其中卷积层用于提取样本特征;池化层用于对特征图进行下采样;当样本来自不同的样本域时,每个样本域将对应一个独立的初始层,每一个初始层均采用不同步长的卷积层或池化层,使不同样本域的样本产生相同大小的特征图;
共享层:网络架构为VGGNets、ResNets或DenseNets,将初始层的特征图进行提取和抽象;
最终层:包括依次连接的卷积层和全连接层,卷积层与共享层连接,全连接层用于输出最终的类别概率。
进一步的,如果步骤(3)输出的是测试样本所对应的样本类别,则多样本推理神经网络的整体损失函数,是指:
单样本推理网络使用的是softmax线性输出层,损失函数使用的是交叉熵损失函数Llsoft,其形式为:
其中,x[y]代表输入样本x的第y个标签元素,y∈[1,Z],Z是样本类别总数,C是分类器,C(y)代表分类器的预测值,N是样本的总数;x[j]代表输入样本x的第j个标签元素。Ey~p(y)代表在y服从的分布下求期望。
直接对公式(1)进行改进,将其应用到MSIN上,并对每个样本域的损失进行加权平均,得到损失函数Lentro
其中,K是样本域的总数,也是分类器的总数;λ是第i个损失函数的重要程度;代表在yi服从的分布下求期望;Ci(yi)代表分类器对标签yi的预测值。
为了增加类间特征的差异性,MSIN的最大间隔损失函数Lmargin为:
其中,oi是分类器Ci的输出,M是最大间隔值,yi表示标签y的第i个元素;||yioi||1表示对标签yi和网络输出oi取内积后再求1范数。
为了确保各个样本域之间的差异,MSIN每个分类器添加正则化函数Lreg
其中,表示对分类器oi所服从的分布求期望;||oi-oj||2表示对oi与oj的距离求2范数;oj表示分类器的第j个输出;
对公式(2)-(4)进行加权平均,得到MSIN的整体损失函数Ltotal
Ltotal=β1Lentro2Lmargin3Lreg (5)
其中,β1、β2和β3表示对应的损失函数的权值。
进一步的,如果步骤(3)输出的是测试样本所在的样本域,则多样本推理神经网络的整体损失函数,是指:
与样本域对应的损失函数Ldomain
其中,
其中,Di为第i个样本域分类器,Md为最大间隔值,od为MSIN的某个分类器的输出,γ表示权重,表示在yi服从的分布下对其表达式求期望,yi表示标签y的第i个元素,||yioi||1表示对标签yi和网络输出oi取内积后再求1范数。
使用L-Softmax层来取代原来的全连接层softmax层,MSIN的基于softmax层的交叉熵损失函数Llsoft改为:
其中,Li代表使用L-Softmax的MSIN的最大间隔分类器;λi表示等式(7)中每个项的平衡因子;表示在yi服从的分布下求期望;Li(yi)表示Li分类器的对输出值;
得到对样本所在的样本域进行预测的MSIN的整体损失函数:
Ltotal=β1Llsoft2Lmargin3Lreg4Ldomain (8)。
进一步的,对样本域进行扩充的步骤为:
在MSIN的最终层添加与样本域相对应的分类器;采用异步训练的方式,即新样本域的样本和原来样本域的样本同时进行训练;所述异步训练是指:新旧样本按比例交替训练,称为MSIN-A,在训练过程中,根据设定增加的比例,逐轮增加新样本域中样本所占比例。
作为本发明的第二方面,提供了基于多样本推理神经网络的样本分类***;
基于多样本推理神经网络的样本分类***,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
多样本推理网络MSIN证明了神经网络可以在一次前向过程中同时预测来自不同样本域的多个样本,这在理论上也是值得探索和研究的工作。相比传统的单样本推理网络,MSIN在几乎不增加网络参数的情况下,对多个样本进行同时预测,这不仅能够保证其具有较高的精度,而且通过网络参数共享极大地减少了计算量。这就使得MSIN在同样任务下,可以加快推理速度,降低硬件资源的消耗。对于K个样本域,网络的计算量将减少K倍,这相当于将网络的推理速度加快了K倍。
利用基于样本域的最大间隔损失函数可以使MSIN预测出样本所在的样本域,这使得MSIN不仅可以对样本的类别进行预测,而且可以对样本所对应的样本域进行预测,以捕捉更精确的样本信息。
MSIN可以很好地解决样本的类别扩充问题。传统的单样本推理网络很难对样本的类别进行扩充,而MSIN只需要对其初始层和最终层进行简单的扩展,再采用MSIN的异步方式进行训练,就可以实现对样本类别的扩充。对样本类别进行扩充后的MSIN,不仅可以泛化到新的样本域,而且还能够保持对原有样本域的泛化能力。
在提高MSIN的预测精度方面,除了使用更多层或更多参数的网络外,还可以使用奇数个分类器对同一个样本域的不同样本通道进行独立预测,然后使用集成分类器投票的方式进行类别预测,不仅可以进一步提高样本类别的预测精度,而且能够使MSIN对于样本的各个通道有着更多样性的表示能力。
将不同的网络架构应用在MSIN的初始层、共享层或最终层,可以产生大量的MSIN变体网络,因为MSIN架构与具体的网络架构是独立的。例如,可以在初始层或最终层分别使用VGGNet、ResNet、DenseNet或PWNet,来增加网络对特征表示的多样性,以进一步提高网络的泛化性能或鲁棒性。在一些对网络的计算性能要求较高的领域,可以将原来的单样本推理网络替换成MSIN,以减少网络的计算时间,加快网络的推理速度。
总体而言,本发明的主要贡献有:
设计了一种新型的多样本推理神经网络(Multi-Sample Inference Network,简称MSIN),该网络可以在一次前向过程中同时预测多个样本及其对应的样本域。由于输入MSIN的网络可能并不来自同一样本域,每次输入的样本可能是所有可能的样本域的组合。所以,对样本所在的样本域进行预测,就可以更精确地对样本属性进行描述,而且有利于样本类别的预测。
MSIN极大地重用了网络参数,不仅可以减少神经网络的推理时间,而且能够降低网络计算对硬件资源的消耗。
MSIN可以很好地解决类别扩充问题。MSIN不仅可以很好地泛化到新的样本域,而且能够保证对原样本域的泛化性能。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1网络架构图;
图2(a)为MSIN网络架构示意图;
图2(b)为MSIN-I网络架构示意图;
图2(c)为MSIN-F网络架构示意图;
图3(a)为MSIN在MNIST(M)数据集上进行两样本预测的训练与测试过程;
图3(b)为MSIN在CIFAR10(C10)数据集上进行两样本预测的训练与测试过程;
图3(c)为MSIN在CIFAR100(C100)数据集上进行两样本预测的训练与测试过程;
图3(d)为MSIN在SVHN(S)数据集上进行两样本预测的训练与测试过程;
图4(a)为MSIN在MNIST(M)、Fashion-MNIST(F)、CIFAR10(C10)及CIFAR100(C100)数据集上进行3个样本预测的训练和测试过程;
图4(b)为MSIN在MNIST(M)、Fashion-MNIST(F)、CIFAR10(C10)及CIFAR100(C100)数据集上进行4个样本预测的训练和测试过程;
图5为MSIN在MNIST(M)、Fashion-MNIST(F)和CIFAR10(C10)、CIFAR100(C100)数据集上进行样本域预测的测试过程。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
作为本发明的第一个实施例,提供了基于多样本推理神经网络的样本分类方法;
基于多样本推理神经网络的样本分类方法,包括:
步骤(1):建立多样本推理神经网络MSIN;
步骤(2):将若干个不同样本域的训练样本作为输入值,输入到多样本推理神经网络MSIN中,对多样本推理神经网络MSIN进行指定轮数的训练;
在每轮训练结束后,将验证样本输入到多样本推理神经网络MSIN进行测试,保存使得多样本推理神经网络MSIN整体损失函数值最小的多样本推理神经网络MSIN作为最终网络;
步骤(3):将若干个不同样本域的测试样本作为多样本推理神经网络MSIN输入值,输入到训练好的多样本推理神经网络中,输出测试样本所对应的样本类别或测试样本所在的样本域。
样本域是指样本所在的样本集合,不同的样本域有着不同的样本分布。
进一步的,如图1所示,所述多样本推理神经网络,包括:依次连接的初始层、共享层和最终层;
初始层:用来产生同样大小的特征图,以便在共享层进行共享,初始层包括卷积层和池化层,卷积层与池化层彼此连接,其中卷积层用于提取样本特征;池化层用于对特征图进行下采样;当样本来自不同的样本域时,每个样本域将对应一个独立的初始层,每一个初始层均采用不同步长的卷积层或池化层,使不同样本域的样本产生相同大小的特征图;
共享层:网络架构为VGGNets、ResNets或DenseNets,将初始层的特征图进行提取和抽象;
最终层:包括依次连接的卷积层和全连接层,卷积层与共享层连接,全连接层用于输出最终的类别概率。
进一步的,如果步骤(3)输出的是测试样本所对应的样本类别,则多样本推理神经网络的整体损失函数,是指:
单样本推理网络使用的是softmax线性输出层,损失函数使用的是交叉熵损失函数Llsoft,其形式为:
其中,x[y]代表输入样本x的第y个标签元素,y∈[1,Z],Z是样本类别总数,C是分类器,C(y)代表分类器的预测值,N是样本的总数;x[j]代表输入样本x的第j个标签元素。Ey~p(y)代表在y服从的分布下求期望。
直接对公式(1)进行改进,将其应用到MSIN上,并对每个样本域的损失进行加权平均,得到损失函数Lentro
其中,K是样本域的总数,也是分类器的总数;λ是第i个损失函数的重要程度;代表在yi服从的分布下求期望;Ci(yi)代表分类器对标签yi的预测值。
为了增加类间特征的差异性,MSIN的最大间隔损失函数Lmargin为:
其中,oi是分类器Ci的输出,M是最大间隔值,yi表示标签y的第i个元素;||yioi||1表示对标签yi和网络输出oi取内积后再求1范数。
为了确保各个样本域之间的差异,MSIN每个分类器添加正则化函数Lreg
其中,表示对分类器oi所服从的分布求期望;||oi-oj||2表示对oi与oj的距离求2范数;oj表示分类器的第j个输出;
对公式(2)-(4)进行加权平均,得到MSIN的整体损失函数Ltotal
Ltotal=β1Lentro2Lmargin3Lreg (5)
其中,β1、β2和β3表示对应的损失函数的权值。
进一步的,如果步骤(3)输出的是测试样本所在的样本域,则多样本推理神经网络的整体损失函数,是指:
与样本域对应的损失函数Ldomain
其中,
其中,Di为第i个样本域分类器,Md为最大间隔值,od为MSIN的某个分类器的输出,γ表示权重,表示在yi服从的分布下对其表达式求期望,yi表示标签y的第i个元素,||yioi||1表示对标签yi和网络输出oi取内积后再求1范数。
使用L-Softmax层来取代原来的全连接层softmax层,MSIN的基于softmax层的交叉熵损失函数Llsoft改为:
其中,Li代表使用L-Softmax的MSIN的最大间隔分类器;λi表示等式(7)中每个项的平衡因子;表示在yi服从的分布下求期望;Li(yi)表示Li分类器的对输出值;
得到对样本所在的样本域进行预测的MSIN的整体损失函数:
Ltotal=β1Llsoft2Lmargin3Lreg4Ldomain (8)。
进一步的,对样本域进行扩充的步骤为:
在MSIN的最终层添加与样本域相对应的分类器;采用异步训练的方式,即新样本域的样本和原来样本域的样本同时进行训练;所述异步训练是指:新旧样本按比例交替训练,称为MSIN-A,在训练过程中,根据设定增加的比例,逐轮增加新样本域中样本所占比例。
作为本发明的第二个实施例,提供了基于多样本推理神经网络的样本分类***;
基于多样本推理神经网络的样本分类***,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三个实施例,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
各个网络的变体结构见图2(a)、图2(b)和图2(c)。
MSIN的性能
表1 MSIN在MNIST、CIFAR10(C10)、CIFAR100(C100)及SVHN数据集上进行两样本预测的测试精度。
MSIN分别在MNIST、Fashion-MNIST、CIFAR10、CIFAR100及SVHN数据集上验证了MSIN对多样本预测的性能。该实验选用公式(5)作为MSIN的整体损失函数。图3(a)-图3(d)为MSIN在MNIST、CIFAR10、CIFAR100及SVHN数据集上的两个样本的预测性能,可以发现MSIN可以很好地预测两个样本域的样本。表1是MSIN在各个数据集上进行两样本预测的精度,可以发现MSIN在多个样本域上的性能比在单个样本域上的性能相对高一些,但比在单样本推理网络上的性能稍微低一些,但总体差别不大。该实验表明在网络性能差别不大的情况下,MSIN能够很好地对多个样本进行预测,从而降低推理时间,加快推理速度。
图4(a)和图4(b)显示了MSIN同时对3或4个样本进行预测的训练和测试过程。该实验选用公式(8)作为MSIN的整体损失函数。可以发现,MSIN能够对两个以上的样本域的样本类别进行很好地预测。
图5显示了MSIN对MNIST、Fashion-MNIST和CIFAR10、CIFAR100数据集的样本域进行预测的训练过程。从图中可以看出,MSIN可以很好地对样本的样本域进行预测。在MNIST和Fashion-MNIST数据集上能够达到几乎100%,在CIFAR10和CIFAR100上能够达到92%。由于PWNets的网络参数相对较少,适当增加网络参数,可以进一步提升MSIN的各个分类器的性能。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.基于多样本推理神经网络的样本分类方法,其特征是,包括:
步骤(1):建立多样本推理神经网络MSIN;
步骤(2):将若干个不同样本域的训练样本作为输入值,输入到多样本推理神经网络MSIN中,对多样本推理神经网络MSIN进行指定轮数的训练;
在每轮训练结束后,将验证样本输入到多样本推理神经网络MSIN进行测试,保存使得多样本推理神经网络MSIN整体损失函数值最小的多样本推理神经网络MSIN作为最终网络;
步骤(3):将若干个不同样本域的测试样本作为多样本推理神经网络MSIN输入值,输入到训练好的多样本推理神经网络中,输出测试样本所对应的样本类别或测试样本所在的样本域。
2.如权利要求1所述的基于多样本推理神经网络的样本分类方法,其特征是,样本域是指样本所在的样本集合,不同的样本域有着不同的样本分布。
3.如权利要求1所述的基于多样本推理神经网络的样本分类方法,其特征是,所述多样本推理神经网络,包括:依次连接的初始层、共享层和最终层;
初始层:用来产生同样大小的特征图,以便在共享层进行共享,初始层包括卷积层和池化层,卷积层与池化层彼此连接,其中卷积层用于提取样本特征;池化层用于对特征图进行下采样;当样本来自不同的样本域时,每个样本域将对应一个独立的初始层,每一个初始层均采用不同步长的卷积层或池化层,使不同样本域的样本产生相同大小的特征图;
共享层:网络架构为VGGNets、ResNets或DenseNets,将初始层的特征图进行提取和抽象;
最终层:包括依次连接的卷积层和全连接层,卷积层与共享层连接,全连接层用于输出最终的类别概率。
4.如权利要求1所述的基于多样本推理神经网络的样本分类方法,其特征是,如果步骤(3)输出的是测试样本所对应的样本类别,则多样本推理神经网络的整体损失函数,是指:
单样本推理网络使用的是softmax线性输出层,损失函数使用的是交叉熵损失函数Llsoft,其形式为:
其中,x[y]代表输入样本x的第y个标签元素,y∈[1,Z],Z是样本类别总数,C是分类器,C(y)代表分类器的预测值,N是样本的总数;x[j]代表输入样本x的第j个标签元素;Ey~p(y)代表在y服从的分布下求期望;
直接对公式(1)进行改进,将其应用到MSIN上,并对每个样本域的损失进行加权平均,得到损失函数Lentro
其中,K是样本域的总数,也是分类器的总数;λ是第i个损失函数的重要程度;代表在yi服从的分布下求期望;Ci(yi)代表分类器对标签yi的预测值;
为了增加类间特征的差异性,MSIN的最大间隔损失函数Lmargin为:
其中,oi是分类器Ci的输出,M是最大间隔值,yi表示标签y的第i个元素;||yioi||1表示对标签yi和网络输出oi取内积后再求1范数;
为了确保各个样本域之间的差异,MSIN每个分类器添加正则化函数Lreg
其中,表示对分类器oi所服从的分布求期望;||oi-oj||2表示对oi与oj的距离求2范数;oj表示分类器的第j个输出;
对公式(2)-(4)进行加权平均,得到MSIN的整体损失函数Ltotal
Ltotal=β1Lentro2Lmargin3Lreg (5)
其中,β1、β2和β3表示对应的损失函数的权值。
5.如权利要求1所述的基于多样本推理神经网络的样本分类方法,其特征是,如果步骤(3)输出的是测试样本所在的样本域,则多样本推理神经网络的整体损失函数,是指:
与样本域对应的损失函数Ldomain
其中,
其中,Di为第i个样本域分类器,Md为最大间隔值,od为MSIN的某个分类器的输出,γ表示权重,表示在yi服从的分布下对其表达式求期望,yi表示标签y的第i个元素,||yioi||1表示对标签yi和网络输出oi取内积后再求1范数;
使用L-Softmax层来取代原来的全连接层softmax层,MSIN的基于softmax层的交叉熵损失函数Llsoft改为:
其中,Li代表使用L-Softmax的MSIN的最大间隔分类器;λi表示等式(7)中每个项的平衡因子;表示在yi服从的分布下求期望;Li(yi)表示Li分类器的对输出值;
得到对样本所在的样本域进行预测的MSIN的整体损失函数:
Ltotal=β1Llsoft2Lmargin3Lreg4Ldomain (8)。
6.如权利要求1所述的基于多样本推理神经网络的样本分类方法,其特征是,对样本域进行扩充的步骤为:
在MSIN的最终层添加与样本域相对应的分类器;采用异步训练的方式,即新样本域的样本和原来样本域的样本同时进行训练;所述异步训练是指:新旧样本按比例交替训练,称为MSIN-A,在训练过程中,根据设定增加的比例,逐轮增加新样本域中样本所占比例。
7.基于多样本推理神经网络的样本分类***,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-6任一项方法所述的步骤。
8.一种计算机可读存储介质,其特征是,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-6任一项方法所述的步骤。
CN201811068190.5A 2018-09-13 2018-09-13 基于多样本推理神经网络的样本分类方法、***及介质 Pending CN109376763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811068190.5A CN109376763A (zh) 2018-09-13 2018-09-13 基于多样本推理神经网络的样本分类方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811068190.5A CN109376763A (zh) 2018-09-13 2018-09-13 基于多样本推理神经网络的样本分类方法、***及介质

Publications (1)

Publication Number Publication Date
CN109376763A true CN109376763A (zh) 2019-02-22

Family

ID=65405544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811068190.5A Pending CN109376763A (zh) 2018-09-13 2018-09-13 基于多样本推理神经网络的样本分类方法、***及介质

Country Status (1)

Country Link
CN (1) CN109376763A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905880A (zh) * 2019-03-22 2019-06-18 苏州浪潮智能科技有限公司 一种网络划分方法、***及电子设备和存储介质
CN110135371A (zh) * 2019-05-20 2019-08-16 华南农业大学 一种基于Mixup算法的柑橘黄龙病识别方法及装置
CN112836820A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训方法、装置及***
CN113169989A (zh) * 2019-12-31 2021-07-23 华为技术有限公司 在神经网络推理中实现数据同步的装置和方法
CN114332500A (zh) * 2021-09-14 2022-04-12 腾讯科技(深圳)有限公司 图像处理模型训练方法、装置、计算机设备和存储介质
US11816565B2 (en) 2019-10-16 2023-11-14 Apple Inc. Semantic coherence analysis of deep neural networks

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109905880A (zh) * 2019-03-22 2019-06-18 苏州浪潮智能科技有限公司 一种网络划分方法、***及电子设备和存储介质
CN109905880B (zh) * 2019-03-22 2020-05-29 苏州浪潮智能科技有限公司 一种网络划分方法、***及电子设备和存储介质
CN110135371A (zh) * 2019-05-20 2019-08-16 华南农业大学 一种基于Mixup算法的柑橘黄龙病识别方法及装置
US11816565B2 (en) 2019-10-16 2023-11-14 Apple Inc. Semantic coherence analysis of deep neural networks
CN113169989A (zh) * 2019-12-31 2021-07-23 华为技术有限公司 在神经网络推理中实现数据同步的装置和方法
CN112836820A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训方法、装置及***
CN112836820B (zh) * 2021-01-31 2023-12-19 云知声智能科技股份有限公司 用于图像分类任务的深度卷积网络训练方法、装置及***
CN114332500A (zh) * 2021-09-14 2022-04-12 腾讯科技(深圳)有限公司 图像处理模型训练方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109376763A (zh) 基于多样本推理神经网络的样本分类方法、***及介质
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
Kannojia et al. Effects of varying resolution on performance of CNN based image classification: An experimental study
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN109871830A (zh) 基于三维深度残差网络的空谱融合高光谱图像分类方法
Jiang et al. Cascaded subpatch networks for effective CNNs
CN109767312A (zh) 一种信用评估模型训练、评估方法与装置
CN108596243A (zh) 基于分级注视图和条件随机场的眼动注视图预测方法
CN114332545B (zh) 一种基于低比特脉冲神经网络的图像数据分类方法和装置
CN110110372B (zh) 一种用户时序行为自动切分预测方法
CN109448703A (zh) 结合深度神经网络和主题模型的音频场景识别方法及***
CN107506792A (zh) 一种半监督的显著对象检测方法
Chen et al. Assessing the effects of convolutional neural network architectural factors on model performance for remote sensing image classification: An in-depth investigation
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及***
CN108664986A (zh) 基于lp范数正则化的多任务学习图像分类方法及***
CN105320963B (zh) 面向高分遥感图像的大尺度半监督特征选择方法
CN114330516A (zh) 基于多图引导神经网络模型的小样本徽景图像分类
CN110082822A (zh) 利用卷积神经网络进行地震检测的方法
CN107016359A (zh) 一种复杂环境下基于t分布的人脸快速识别方法
Chen et al. SA-SinGAN: self-attention for single-image generation adversarial networks
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
Wang et al. CWC-transformer: a visual transformer approach for compressed whole slide image classification
CN110197213A (zh) 基于神经网络的图像匹配方法、装置和设备
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN104573726B (zh) 基于四等分及各成分重构误差最优组合的人脸图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190222

RJ01 Rejection of invention patent application after publication