CN111340129A

CN111340129A - 一种多角度估计3d结构深度网络图像高效分类方法

Info

Publication number: CN111340129A
Application number: CN202010155571.8A
Authority: CN
Inventors: 朱安
Original assignee: Nanjing Landi Information Technology Co ltd
Current assignee: Nanjing Landi Information Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-26

Abstract

本发明提出一种多角度估计3D结构深度网络图像高效分类方法，应用多角度估计3D结构深度网络，多角度估计3D结构深度网络包括相互连通的3D信息提取网络和图片分类网络，利用3D信息提取网络重构3D模型，将重构3D模型作为辅助信息添加入图片分类网络辅助图片分类。本发明所述的多角度估计3D结构深度网络图像高效分类方法具有实现了端到端的图像分类、所需的训练数据少、提高了学习效率和网络的泛化性、进一步提升了分类的正确率的优点。

Description

一种多角度估计3D结构深度网络图像高效分类方法

技术领域

本发明涉及3D应用和小样本学习领域，特别涉及一种多角度估计3D结构深度网络图像高效分类方法。

背景技术

随着互联网和多媒体技术的快速发展，图像数据呈现出爆发式的增长，如何对海量图像进行高效的分类和检索成了一项新的挑战。图像分类是图像检索、物体检测和识别等应用的基础，也是模式识别和机器学习中的研究热点。深度学习在图像处理领域被广泛使用，并且普遍取得优于传统方法的性能。

深度学习的提出已有几十年之久，但是一度发展缓慢。理由主要有三，其一数据量不足，深度学习的发展离不开大数据标注，离不开ImageNet、CIFAR等数据集的诞生；其二，GPU。深度学习的理论是上世纪八十年代提出的，然而经过了这么长时间才火起来，很大程度上受到了运算能力的影响，GPU高度并行的计算能力使得一些复杂网络的训练成为可能；其三，算法的改进，包括网络结构方面(网络变深、Dropout、BN)、数据集方面(数据增强)、激活函数(ReLU)等等。

直到2012年，Alex和他的团队在ImageNet大型图像识别竞赛中提出了AlexNet模型，将top-5的错误率由26％降到16.4％，从此，深度学***(人类的正确率也只有94.9％)。而在最后两届的ILSVRC比赛中，DenseNet和SENets再一次降低了错误率，正确率已经高达97.8％。

我们发现，这些深度学习网络都有一个共性，就是通过各种方式把同一类物体的大量图片作为输入，让模型学会分辨这种物体。目前深度学习的现状是，只要有足够的数据，合适的模型，基本都能够有较好的效果。但是，目前大部分类别我们没有数据积累，large-scale方法不完全适用。所以我们希望在学习了一定类别的大量数据后，对于新的类别，我们只需要少量的样本就能快速学习，由此对小样本学习(few-shot learning)的研究应运而生。

小样本学习研究主要分为如下两类：

第一类方法直接基于有监督学习的方法，这是指没有其他的数据源，不将其作为一个迁移学习的问题看待，只利用这些小样本，在现有信息上训练模型，然后做分类，例如KNN，以及非参数方法。

第二类方法是基于迁移学习的方法，是指有其他数据源时，利用这些辅助数据集去做迁移学习。

目前小样本学习已经有一定的效果，尤其是在Omniglot数据集上5-way 5-shot绝大部分现有模型都能达到超过90％的准确率。但是，因为小样本学习本身的训练输入的数据量较少，以现有的模型和技术而言很难在很多场景下达到足够高的识别准确率。因此我们基于图片的3D信息，发明了一种多角度估计3D结构深度网络图像高效分类方法针对图像分类问题建立小样本学习模型。

发明内容

本发明的目的提供一种多角度估计3D结构深度网络图像高效分类方法，解决上述现有技术问题中的一个或多个。

本发明提出一种多角度估计3D结构深度网络图像高效分类方法，应用多角度估计3D结构深度网络，多角度估计3D结构深度网络包括相互连通的3D信息提取网络和图片分类网络，利用3D信息提取网络重构3D模型，将重构3D模型作为辅助信息添加入图片分类网络辅助图片分类。

在某些实施方式中，图片分类网络的训练过程包括如下步骤：

获取基础图片数据集，和图片数据集对应的重构3D模型数据集，基础图片数据集中包括图片、标识以及类别，重构3D模型数据集中包括重构的3D模型和注释，注释中包括标识和类别；

将训练数据集读入图片分类网络，进行训练，生成分类模型，其中训练数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的重构的3D模型；

将测试数据集读入分类模型中，进行分类测试，测试数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片，测试数据集中的图片的类别与训练数据集中的图片的类别不同；

将需被分类的图片上传至分类模型中进行分类，即可得到需要被分类的图片对应的类别。

在某些实施方式中，3D信息提取的训练方法包括如下步骤：

获取与基础图片数据集对应的3D模型数据集，3D模型数据集中包括3D模型和注释；

选取从数据集合3D模型数据集中选取N个标签对应的3D模型数据集作为样本，设定多个不同的截图角度，把样本中的3D模型按照不同的截图角度截取图片，截取的图片与注释组合形成3D信息数据集；

将辅助训练数据集读入3D信息提取网络，进行训练，生成重构3D模型，其中辅助训练数据集中包括从3D信息数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的3D模型；

将辅助测试数据集读入3D信息提取网络中，进行重构3D模型测试，测试数据集中包括从3D信息数据集中抽取的不同类别的若干张图片、图片对应的标识，辅助测试数据集中的图片的类别与辅助训练数据集中的图片的类别不同；

将没有3D模型的某一事物的多张不同角度的照片上传至重构3D模型中进行3D模型构建形成能应用于图片分类网络的重构3D模型数据集。

在某些实施方式中，所述3D信息提取网络包括多条并行的孪生网络，孪生网络的共同标签为3D结构，3D结构指的是矢量3D模型。

在某些实施方式中，所述孪生网络的条数与设定的不同的截图角度的个数相等。

在某些实施方式中，所述重构3D模型的构建方法包括如下步骤：孪生网络将同一事物不同角度的图片卷积生成一个128D向量，再通过反卷积重构3D模型，并与3D模型数据集中对应的重构的3D模型做Euclidean Loss，重复上述步骤直至损失函数降到一个较为稳定的范围内得到用于分类的重构的3D模型。

在某些实施方式中，所述获取基础图片数据集对应的3D模型数据集遵循优先选择对称轴较多的3D模型的原则。

在某些实施方式中，基础图片数据集中的图片的尺寸与截取的图片的尺寸相同。

在某些实施方式中，所述图片分类网络使用AlexNet网络预训练权重作为初始权重。

本发明所述的一种多角度估计3D结构深度网络图像高效分类方法的优点为：

1)直接输入图片即可以输出分类结果，实现了端到端的图像分类，且与其他分类***相比达到同等的效果所需的训练数据少；

2)利用孪生网络重构3D模型，不仅提高了学习效率，还提高了训练出来的模型泛化性较好，而将重构的3D模型添加入图片分类网络中，增强了类与类之间的区分度，进一步提升了分类的正确率；

3)通过3D模型进行图片截取，能够有效的保证图片的质量，通过这种方式获得的图片具有数据增强的效果，使得3D信息提取网络更具有泛化能力，更好的适用于应用场景。

具体实施方式

本实施例提出一种多角度估计3D结构深度网络图像高效分类方法，其中应用到的多角度估计3D结构深度网络中包括3D信息提取网络和图片分类网络，其中图片分类网络基于AlexNet网络，并使用图片分类网络使用AlexNet网络预训练权重作为初始权重；

3D信息提取网络包括6条并行的孪生网络，孪生网络的共同标签为3D结构(3D结构指的是矢量3D模型)，

孪生网络将3D信息数据集中的图片卷积生成一个128D向量，再通过反卷积重构3D模型，并与3D模型数据集中对应的3D模型做Euclidean Loss；

孪生网络通过有监督的方式训练孪生网络来学习，然后重用网络所提取的特征进行，训练时，通过组合的方式构造不同的成对样本，输入孪生网络进行训练，在最上层通过样本对的距离判断他们是否属于同一个类，并产生对应的概率分布。在预测阶段，孪生网络处理测试样本和支撑集之间每一个样本对，最终预测结果为支撑集上概率最高的类别，比如说：

将桌子类别的3d信息(上下左右前后6张照片，分别为x1、x2、x3、x4、x5、x6)输入6个孪生网络(参数共享)，标签为y，y为3d模型，预测为y1，损失函数为Euclidean Loss＝sqrt((y_1-y1_1)^2+……+(y_i-y1_i)^2)，对应位置的点相减后平方相加。具体的重构3D模型的过程如下：

1、输入x1、x2、x3、x4、x5、x6、y，x1……x6分别进入6个共享参数的孪生网络；

2、孪生的6个网络结果通过卷积生成128d向量，通过卷积核完成该操作，卷积核为网络需要学的参数；

3、得到128d通过反卷积(反卷积操作及128d向量成卷积核生成指定大小(指定大小为输入3d模型及标签大小)，卷积核具体数据为学习参数)的到3d模型y1；

4、y和y1计算损失函数；

5、重复1-4不断更新损失函数(网络自动更新训练)，直到损失函数降到一个小且较为稳定的范围得到最终用于分类的3d模型y1。

3D信息提取网络的训练使用过程举例如下：

待分类：(例如转椅)x1，x2，x3，x4，x5五类物体(每类5张训练(有标记)，5张测试(无标记))；

已有数据：桌子、床、钢琴、书柜等多类物体和对应3d模型的集合y(全部数据，总测试集)；

注：一次训练包含多轮

训练过程包括如下步骤：

1、y中随机选出5类，每类随机选出5张图片组成本轮训练集s(本轮训练集即支撑集，每轮支撑集都会变)，再从这5类中未被选择的所有图片随机选择5张图片，组成本轮测试集c；

2、为每类图片生成3d信息信息数据集；

3、原始3d模型、3d数据输入3d信息提取网络生成3d模型，得到3d模型y1，y1和标记(模型对应的类别)组合训练集s1；

4、将s中的图片和标记，s1中3d模型和标记输入分类网络训练，得到训练好的分类网络模型y2；

5、将c中的图片输入分类网络，计算准确率，直到损失函数(准确率，与3d信息提取网络不是同个损失函数)稳定，得到分类网络；

6、重复1-5，直到5中准确率在不同轮中都有比较好的效果。

使用过程包括如下步骤：

1、拍摄x1-x5中5个类别的多个角度图片(与训练角度相同，包括上、下、左、右、前、后，且图片的尺寸与基础图片数据集中图片的尺寸相同)并输入训练好的3D信息提取网络中；

2、生成x1-x5的3D模型；

3、x1-x5对应的图片和3D模型作为训练集输入分类网络再次进行训练；

4、x1-x5测试集测试分类。

在进行执行多角度估计3D结构深度网络图像高效分类方法包括如下步骤：

步骤1、获取数据集，数据集中包括基础图片数据集、3D模型数据集以及3D信息数据集，具体的数据获取方法如下：

步骤1.1、手机目前在few-shot learning领域常用图片数据集，并进行分析筛选出合适的数据集，其中常用图片数据集中包括Omniglot和miniImagenet两个(Omniglot数据集包含来自50不同字母(语言)的1623个不同手写字符。每一个字符都是由20个不同的人通过亚马逊的Mechanical Turk在线绘制的miniImagenet包含100类，每类600张图片，包括鸟、狗、蛇、钢琴等)，选择常用数据集中的刚体类型、类似钢琴之类，去除字母、二维码，以及蛇、狗等形状变化较大且与(如猫)其他武器不易区分的软体类，作为合适的数据集，并下载形成基础图片数据集，基础图片数据集中包括图片、标识以及类别；

步骤1.2、下载ShapeNet数据集，并根据优先选择对称轴较多的3D模型的原则选择基础图片数据集对应的3D模型数据集，3D模型数据集中包括3D模型和注释，其中ShapeNet具有单个干净的3D模型和对齐注释，涵盖55个常见对象类别，约有51300个独特的3D模型；根据miniImagenet选出的合适的数据集选出对应模型，例如选***imagenet钢琴类，选择Shapenet中的钢琴模型，如果有多个钢琴模型，优先选择对称轴较多的模型，无阈值限定；如果无对应模型更新miniimagenet类；

步骤1.3、设置6个指定的角度，分别为左、右、前、后、上、下，按照指定的角度对3D模型进行截图，形成3D模型对应的6张图片，截取的图片的尺寸与基础图片数据集中的图片的尺寸相同，截取的图片与注释组合形成3D信息数据集；

步骤2、将数据集读入多角度估计3D结构深度网络，其中3D模型数据集和3D信息数据集读入3D信息提取网络，重构3D模型；

步骤3、将训练数据集读入图片分类网络，进行训练，生成分类模型，其中训练数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的重构的3D模型；

步骤4、将测试数据集读入分类模型中，进行分类测试，测试数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片，测试数据集中的图片的类别与训练数据集中的图片的类别不同；

步骤5、将需被分类的图片上传至分类模型中进行分类，即可得到需要被分类的图片对应的类别和标识。

在遇到新的物体(新的物体指的是数据集中不存在的物体)时，将新的物体的多角度的照片的尺寸调节至与基础图片数据集中的图片的尺寸相同，调整完成后输入多角度估计3D结构深度网络内，同时添加照片对应的类别和标识，照片、类别以及标识会被一起存入基础图片数据集中，同时将照片读入孪生网络内构成3D模型，类别和标识会组合形成注释与3D模型结合一起存入重构3D模型数据集中等待被图片分类网络应用。

以上所述仅是本发明的优选方式，应当指出，对于本领域普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干相似的变形和改进，这些也应视为本发明的保护范围之内。

Claims

1.一种多角度估计3D结构深度网络图像高效分类方法，其特征在于，应用多角度估计3D结构深度网络，多角度估计3D结构深度网络包括相互连通的3D信息提取网络和图片分类网络，利用3D信息提取网络重构3D模型，将重构3D模型作为辅助信息添加入图片分类网络辅助图片分类。

2.根据权利要求1所述的一种多角度估计3D结构深度网络图像高效分类方法，其特征在于，图片分类网络的训练过程包括如下步骤：

3.根据权利要求1所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，3D信息提取的训练方法包括如下步骤：

4.根据权利要求3所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，所述3D信息提取网络包括多条并行的孪生网络，孪生网络的共同标签为3D结构，3D结构指的是矢量3D模型。

5.根据权利要求4所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，所述孪生网络的条数与设定的不同的截图角度的个数相等。

6.根据权利要求4所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，所述重构3D模型的构建方法包括如下步骤：孪生网络将同一事物不同角度的图片卷积生成一个128D向量，再通过反卷积重构3D模型，并与3D模型数据集中对应的重构的3D模型做Euclidean Loss，重复上述步骤直至损失函数降到一个较为稳定的范围内得到用于分类的重构的3D模型。

7.根据权利要求2或3所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，所述获取基础图片数据集对应的3D模型数据集遵循优先选择对称轴较多的3D模型的原则。

8.根据权利要求3所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，基础图片数据集中的图片的尺寸与截取的图片的尺寸相同。

9.根据权利要求1或2所述的一种多角度估计3D结构深度网络图像高效分类方法，其中，所述图片分类网络使用AlexNet网络预训练权重作为初始权重。