CN110263855A

CN110263855A - 一种利用共基胶囊投影进行图像分类的方法

Info

Publication number: CN110263855A
Application number: CN201910538745.6A
Authority: CN
Inventors: 邹文斌; 彭文韬; 向灿群; 徐晨
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-20
Anticipated expiration: 2039-06-20
Also published as: CN110263855B

Abstract

本发明属于图像分类技术领域，公开了一种利用共基胶囊投影进行图像分类的方法，包括下述步骤：(1)利用多层卷积网络提取输入图像的特征，获得特征图；(2)将特征图映射成一个一维的特征向量X；(3)对特征向量X进行特征变换，将特征向量X分为N组，并组合向量为特征矩阵；(4)将特征矩阵进行共基胶囊投影，投影到多个胶囊子空间，计算每个子空间投影后的向量模长和，根据模长和的大小进行图像分类预测。本发明利用共基胶囊投影思想将其特征投影到多个胶囊子空间，然后再进行图像分类任务的预测，经过实验发现该网络对大小规模的图像都能够适应，并且即使采用较小的数据集训练也能达到非常好的分类效果。

Description

一种利用共基胶囊投影进行图像分类的方法

技术领域

本发明属于图像分类技术领域，更具体地，涉及一种利用共基胶囊投影进行图像分类的方法。

背景技术

近年来，深度学习中的卷积神经网络已经广泛运用到各个领域，如计算机视觉、自然语言处理、大数据分析等领域，相关成果也远远超过人们的预想。尤其在计算机视觉领域，卷积神经网络(Convolutional Neural Networks，CNN)因其在目标识别、目标分类等任务中的优异表现，受到许多研究人员与工作者的青睐。

但是研究中发现卷积神经网络存在一个根本性的缺陷，当图像数据集非常接近的图像时，卷积神经网络的性能效果会非常好，但如果图像存在翻转、倾斜或任何其它等方向性问题时，卷积神经网络的表现就比较糟糕了。这是因为卷积神经网络无法考虑到底层对象之间的空间关系，在卷积神经网络中，上一层神经元传递给下一层神经元中的是个标量，标量只有大小而没有方向，所以不能表示出高层特征与低层特征之间的位姿关系。同时，卷积神经网络中的池化层虽然保证了特征在平移和旋转上的不变形，但同时也丢失了大量有价值的信息，降低了空间的分辨率，这就导致对于输入的微小变化，其输出几乎是不变的，因此卷积神经网络存在较大的局限性。

针对这一局限性，2017年年底Hinton发表了论文《Dynamic routing betweencapsules》，提出更加深刻的算法及胶囊网络架构。胶囊网络采用到神经胶囊单元，使得上一层神经胶囊输出到下一层神经胶囊中的是个向量，向量不仅有大小，还有方向属性，可以表示出特征的朝向，从而建立起空间上特征之间的对应关系，这极大地弥补了卷积神经网络存在的不足。相比于CNN特征的弱空间关联性，胶囊网络的矢量化特征则被认为能很好地表达特征之间的空间关联。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种利用共基胶囊投影进行图像分类的方法，旨在解决现有技术中采用的卷积神经网络丢失了大量有价值的信息导致分类不准确的问题。

本发明提供了一种利用共基胶囊投影进行图像分类的方法，包括下述步骤：

(1)利用多层卷积网络提取输入图像的特征，获得特征图；

(2)将所述特征图映射成一个一维的特征向量X；

(3)对所述特征向量X进行特征变换，将特征向量X分为N组，并组合向量为特征矩阵[x₁，x₂，……x_n]；

(4)将所述特征矩阵进行共基胶囊投影，投影到多个胶囊子空间，计算每个子空间投影后的向量模长和，根据模长和的大小进行图像分类预测。

由于目前做图像分类任务，大部分网络都采用卷积神经网络来提取图像特征，然后经过全连接层做分类预测。但卷积出来的特征是标量形式的，标量只有大小而没有方向，也就是说特征缺少空间信息。而本申请中的胶囊投影网络，以向量的形式来分类，经过将囊投影网络处理的特征是个矢量，不仅有大小，还有方向，能够一定程度保存空间信息，因此更有利于分类，能提高分类的精度。

其中，当需要做L个类别的预测时，胶囊子空间的数量为L。

更进一步地，对特征矩阵[_1,2,…,_d]中的每组向量采用同一组基进行投影。

本发明针对现有技术中胶囊网络参数量大，训练预测速度慢，难以推广到深层网络等缺陷，提出“共基”胶囊投影思想，利用共基胶囊投影思想，将其特征投影到多个胶囊子空间，然后再进行分类任务的预测，因此不易受多类别物体重叠的干扰，能够有效地处理存在重叠对象的拥挤场景；可以提高分类任务的准确性。

更进一步地，在步骤(3)中，特征向量X的向量维度为d，特征矩阵中每组向量维度为d/N，

更进一步地，在步骤(4)中，通过学习一组投影基矩阵W_l∈R^d/N×c，利用基矩阵将特征向量投影到每个类对应的胶囊子空间S中，获得投影后的每个胶囊子空间向量{v₁,v₂,…v_L}，维度为c。

其中，胶囊子空间搜索模型为：

式子表示基于子空间span(W_l)中找到一个最优的投影向量v_l，使得v_l与投影向量x的误差最小。

其中，为了找到一组合适的基W_l，采用如下约束：

v_l＝P_lx,P_l＝W_lW_l ⁺……(2)

其中，P_l为胶囊子空间S_l(S_l＝span(W_l))的投影矩阵，W_l ⁺是W_l的广义逆矩阵，当W_l列空间线性无关时，有W_l ⁺＝(W_l ^TW_l)^-1W_l ^T。

其中，投影后胶囊v_l长度通过如下公式进行计算：其中，Σ_l＝(W_l ^TW_l)^-1，可视为权值正则项。

其中，当获得在子空间中投影向量的长度‖v_l‖₂后，使用交叉熵损失来寻找每个类别的最优子空间：其中，v_y为输入向量x在正确类别子空间S_y中的投影向量。

其中，子空间中基的梯度采用如下公式计算：

其中，x^⊥＝x-V＝X-P_lx＝(I-P_l)x，子空间的基的更新受投影向量在子空间中正交分量的引导，当正交分量x^⊥为0时，基的梯度为0，此时的基W_l最优，能够保留原始输入x的所有信息。

现有技术中胶囊网络的参数量大、处理速度慢，难以推广到非常深的结构，其性能对于大规模图像表现不够好。本发明避免直接将特征层中的若干通道聚合成几个胶囊(目前的胶囊网络做法)。而是利用共基胶囊投影思想，将其特征投影到多个胶囊子空间，然后再进行分类任务的预测，经过实验发现该网络对大小规模的图像都能够适应，并且即使采用较小的数据集训练也能达到非常好的效果。而且利用特征向量分组然后再进行共基投影的方法，还降低了网络的复杂度，减小了网络的参数量，增快了网络训练和预测的速度。

附图说明

图1是本发明提供的一种利用共基胶囊投影进行图像分类的方法的实现流程图；

图2是本发明实施例提供的利用共基胶囊投影进行图像分类的方法的实现示意图；

图3是本发明实施例提供的一个胶囊空间的投影示意图；

图4是本发明实施例提供的正交分量引导梯度更新示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明针对现有胶囊网络的不足，参数量大、处理速度慢，难以推广到非常深的结构的缺陷，提出一种胶囊共基投影(Capsule Common-base Projection Network)网络。该网络能使得输入对象的详细的属性信息(位置、旋转、大小等等)在网络中得到保留，因此即使对发生平移、旋转、缩放的同一对象仍然可以正确的识别出来。而且，由于胶囊投影网络的矢量化特征呈强相关性，包含了所提取特征的姿态、形变等空间相关信息，因此不易受多类别物体重叠的干扰，能够有效地处理存在重叠对象的拥挤场景。

还可以将该网络推广到文本分类任务，对在多标签分类的任务上，胶囊网络的性能远远地超过了卷积神经网络(CNN)和长短期记忆网络(LSTM)；支付宝发现胶囊网络应用到投诉文本模型上的整体表现优于之前的网络(如LSTM，Bi-LSTM和CNN-rand等)。

此外，网络采用共基的思想，将特征向量分为若干组，并采用同一组基投影到多个子空间，因此不需要通过巨大的训练数据来学习如何在各种情况下有效识别目标对象。仅仅使用较少的数据量训练，就能得到良好的泛化能力。

在视觉重建方面，基于共基胶囊投影的网络即使在场景多遮挡情况下，也能准确重建出物体。

目前胶囊网络在实际场景但是它的发展仍处于初级阶段，但基于自身无与伦比的特点，未来胶囊网络在计算机视觉、自然语言处理等领域将会有着更广阔的应用前景。

对于图像分类任务，目前的深度学习方法是采用卷积层提取特征，将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量，然后接上若干个全连接层进行分类。比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。然而卷积神经网络提取的特征缺少空间上的关联性，本发明将图像卷积出来的特征不经过全连接网络，同时避免直接将特征层中的若干通道聚合成几个胶囊(目前的胶囊网络采取的做法)、而是利用共基胶囊投影思想，而是将其特征分为若干组向量然后进行共基胶囊投影，使得特征投影到多个胶囊子空间，然后再进行分类任务的预测。经过实验证明，该网络能够进一步提高分类任务的准确性。

同时，本发明的胶囊共基投影网络的分类准确率能超过其他的主流网络结构，这也为提高深度网络的性能指出了一条新思路。

图1和图2分别示出了本发明实施例提供的一种利用共基胶囊投影进行图像分类的方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，现结合附图详述如下：

本发明实施例提供的利用共基胶囊投影进行图像分类的方法包括下述步骤：

(1)利用多层卷积网络提取输入图像的特征，获得特征图(feature map)；

其中特征就是经过卷积神经网络的卷积层+池化层提取出来的特征图。在本发明实施例中，卷积神经网络基础构架有Vgg，GoogleNet，ResNet，DenseNet等等，具体用到的网络框架可以根据需要选取。

图像经过卷积神经网络被提取出来的特征图是一个四维的张量(B，C，W，H)，其中B是样本的批量大小，C是通道。W是图像的宽，H是图像的高。特征图拥有图像的细节特征信息，这些信息有助于做分类任务的预测。

采用CNN来提取特征，具有先天优越性，它用卷积层来提取图像丰富的语义特征，然后用池化层降低网络参数，最后用全连接层来解释特征。

在本发明实施例中，也可以采用其他的方法提取特征图，如传统的机器学习方法(决策树分类、随机森林分类、K近邻分类器、多层感知器MLP等)，还有RNN(循环神经网络)，但是深度学习做图像分类的方法常用CNN。

(2)将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量X；

图像经过卷积神经网络出来的特征图是一个四维的张量(B，C，W，H)，其中B是样本的批量大小，C是通道。W是图像的宽，H是图像的高。通常做分类任务会把这四维的张量，先展开拉长成一个一维的向量，然后经过全连接网络做分类预测。

(3)对特征向量X做特征变换，将特征向量X分为N组，然后组合向量为特征矩阵[x₁，x₂，……x_n]；

(4)将特征矩阵进行共基胶囊投影，投影到多个胶囊子空间，计算每个子空间投影后的向量模长和，根据模长和的大小进行图像分类预测。

把特征矩阵进行正交投影到多个胶囊子空间(如果做N个类别的预测，那么子空间数量就为N)。该投影的过程并没有信息的损失，而且胶囊子空间会包含更多新的特征信息，从而更有效地对网络结构进行训练。在投影的过程中，对特征矩阵中[x₁，x₂，……x_n]的每组向量采用同一组基进行投影，这样可以减少参数，从而降低网络的复杂度，加快网络训练和收敛的速度。

本发明中对于图像分类任务，利用共基胶囊投影网络不仅能增加预测的准确性，还能减少参数量，进而加快识别的速度。

在本发明实施例中，将特征矩阵进行正交投影到多个胶囊子空间(如果做L个类别的预测，那么子空间数量就为L)。该投影的过程中仅有非常小的一部分信息损失，而且胶囊子空间会包含更多新的特征信息，从而更有效地对网络结构进行训练。在投影的过程中，对于特征矩阵[x₁，x₂，……x_n]中的每组向量都采用同一组基进行投影，这样可以减少参数(体现在投影基矩阵的参数较少)，从而降低网络的复杂度，并加快网络训练和收敛的速度。由于胶囊网络保留了图像详细的空间信息，因此在定位、物体检测、语义分割或实例分割等各种计算机视觉领域都有其应用的前景。

这里的“基”指“基向量”，在任何空间中都能找到一组基向量来表达这个空间中的所有向量。本发明中通过网络来优化、减小这种损失，使得最终投影结果尽可能保持原有信息。

图3示出了本发明实施例提供的一个胶囊空间的投影示意图，图中N为4，表示将特征向量分为4组，然后进行共基胶囊投影。下面将进行具体的介绍。

在本发明实施例中，具体的投影过程如下：

X是特征图变换之后的特征向量，向量维度为d，将特征向量分成N组，构成特征矩阵{x₁,x₂,…x_n}，矩阵中的每组向量维度为d/N，d值是一个参数，通常为大于1的整数，想把特征分为多少组可以自行设定。

为了学习到每个类别的特征，最终网络将学习到一组胶囊子空间{S₁,S₂,…S_L}；其中，L为最终预定义的类别数量。通过学习一组投影基矩阵W_l∈R^d/N×c，利用基矩阵将特征向量投影到每个类对应的胶囊子空间S中，最终得到投影后的每个胶囊子空间向量{v₁,v₂,…v_L}，维度为c。为了学习差异性特征，通过约束优化使得胶囊子空间的正交基能最大化保留原始特征信息，投影子空间向量v_l的长度表示该类别出现的概率，方向表示该类别的属性。胶囊子空间搜索模型如下：

式子表示基于子空间span(W_l)中找到一个最优的投影向量v_l，使得v_l与投影向量x的误差最小，换言之，投影到子空间中的向量应尽量保存原始输入的信息。为了找到一组合适的基W_l满足上式，我们做如下约束：

v_l＝P_lx,P_l＝W_lW_l ⁺……(2)

式中P_l为胶囊子空间S_l(S_l＝span(W_l))的投影矩阵，W_l ⁺是W_l的广义逆矩阵。当W_l列空间线性无关时，有W_l ⁺＝(W_l ^TW_l)^-1W_l ^T。因此，投影后胶囊v_l长度可以直接通过下式计算：

式中Σ_l＝(W_l ^TW_l)^-1，可视为权值正则项。得到在子空间中投影向量的长度‖v_l‖₂后，使用交叉熵损失来寻找每个类别的最优子空间：

式中，v_y为输入向量x在正确类别子空间S_y中的投影向量。子空间中基的梯度计算如下：

如图4所示，x^⊥＝x-V＝x-P_lx＝(I-P_l)x，因此意味着子空间的基的更新受投影向量在子空间中正交分量的引导，当正交分量x^⊥为0时，基的梯度为0，此时的基W_l最优，能够保留原始输入x的所有信息。

图4示出了本发明实施例提供的正交分量引导梯度更新示意图；在寻找胶囊子空间中最优基时，基向量的更新受正交分量引导，正交分量趋于0时，网络学到最优基。对于每个子空间胶囊，得到最优基后，计算最优基投影后的向量模长和，其数字表示最终分类的概率。

本发明避免直接将特征层中的若干通道聚合成几个胶囊(目前的胶囊网络做法)。而是利用共基胶囊投影思想，将其特征投影到多个胶囊子空间，然后再进行分类任务的预测，经过实验发现该网络对大小规模的图像都能够适应，并且即使采用较小的数据集训练也能达到非常好的效果。而且利用特征向量分组然后再进行共基投影的方法，还降低了网络的复杂度，减小了网络的参数量，增快了网络训练和预测的速度。

表1：部分实验结果展示

表1是在CIFAR10和CIFAR100数据集上测试的实验结果展示，经实验分析，本发明的胶囊共基投影网络不仅提升了分类任务预测的精度，还降低了网络的参数量，提高了网络训练和预测的速度。

综上所述，对于图像分类任务，目前的深度学习方法是采用卷积层提取特征，将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量，然后接上若干个全连接层进行分类。比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。然而卷积神经网络提取的特征缺少空间上的关联性，本发明将图像卷积出来的特征不经过全连接网络，同时避免直接将特征层中的若干通道聚合成几个胶囊(目前的胶囊网络采取的做法)、而是利用共基胶囊投影思想，将其特征分为若干组向量然后进行共基胶囊投影，使得特征投影到多个胶囊子空间，然后再进行分类任务的预测。经过实验证明，该网络能够进一步提高分类任务的准确性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用共基胶囊投影进行图像分类的方法，其特征在于，包括下述步骤：

(1)利用多层卷积网络提取输入图像的特征，获得特征图；

(2)将所述特征图映射成一个一维的特征向量X；

(3)对所述特征向量X进行特征变换，将特征向量X分为N组，并组合向量为特征矩阵[x₁，x₂，......x_n]；

2.如权利要求1所述的方法，其特征在于，当需要做L个类别的预测时胶囊子空间的数量为L。

3.如权利要求1或2所述的方法，其特征在于，对特征矩阵[x₁，x₂，...，x_d]中的每组向量采用同一组基进行投影。

4.如权利要求1-3任一项所述的方法，其特征在于，在步骤(3)中，特征向量X的向量维度为d，特征矩阵中每组向量维度为d/N。

5.如权利要求1-4任一项所述的方法，其特征在于，在步骤(4)中，通过学习一组投影基矩阵W_l∈R^d/N×c，利用基矩阵将特征向量投影到每个类对应的胶囊子空间S中，获得投影后的每个胶囊子空间向量{v₁，v₂，...v_L}，维度为c。

6.如权利要求5所述的方法，其特征在于，在步骤(4)中，胶囊子空间搜索模型为：

7.如权利要求5或6所述的方法，其特征在于，在步骤(4)中，为了找到一组合适的基W_l，采用如下约束：

v_l＝P_lx，P_l＝W_lW_l ⁺......(2)

8.如权利要求5-7任一项所述的方法，其特征在于，在步骤(4)中，投影后胶囊v_l长度通过如下公式进行计算：

其中，∑_l＝(W_l ^TW_l)^-1，可视为权值正则项。

9.如权利要求5-8任一项所述的方法，其特征在于，在步骤(4)中，当获得在子空间中投影向量的长度||v_l||₂后，使用交叉熵损失来寻找每个类别的最优子空间：

其中，v_y为输入向量x在正确类别子空间S_y中的投影向量。

10.如权利要求5-9任一项所述的方法，其特征在于，在步骤(4)中，子空间中基的梯度采用如下公式计算：