CN111340129A - 一种多角度估计3d结构深度网络图像高效分类方法 - Google Patents

一种多角度估计3d结构深度网络图像高效分类方法 Download PDF

Info

Publication number
CN111340129A
CN111340129A CN202010155571.8A CN202010155571A CN111340129A CN 111340129 A CN111340129 A CN 111340129A CN 202010155571 A CN202010155571 A CN 202010155571A CN 111340129 A CN111340129 A CN 111340129A
Authority
CN
China
Prior art keywords
data set
model
pictures
network
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010155571.8A
Other languages
English (en)
Inventor
朱安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Landi Information Technology Co ltd
Original Assignee
Nanjing Landi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Landi Information Technology Co ltd filed Critical Nanjing Landi Information Technology Co ltd
Priority to CN202010155571.8A priority Critical patent/CN111340129A/zh
Publication of CN111340129A publication Critical patent/CN111340129A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种多角度估计3D结构深度网络图像高效分类方法,应用多角度估计3D结构深度网络,多角度估计3D结构深度网络包括相互连通的3D信息提取网络和图片分类网络,利用3D信息提取网络重构3D模型,将重构3D模型作为辅助信息添加入图片分类网络辅助图片分类。本发明所述的多角度估计3D结构深度网络图像高效分类方法具有实现了端到端的图像分类、所需的训练数据少、提高了学习效率和网络的泛化性、进一步提升了分类的正确率的优点。

Description

一种多角度估计3D结构深度网络图像高效分类方法
技术领域
本发明涉及3D应用和小样本学习领域,特别涉及一种多角度估计3D结构深度网络图像高效分类方法。
背景技术
随着互联网和多媒体技术的快速发展,图像数据呈现出爆发式的增长,如何对海量图像进行高效的分类和检索成了一项新的挑战。图像分类是图像检索、物体检测和识别等应用的基础,也是模式识别和机器学习中的研究热点。深度学习在图像处理领域被广泛使用,并且普遍取得优于传统方法的性能。
深度学习的提出已有几十年之久,但是一度发展缓慢。理由主要有三,其一数据量不足,深度学习的发展离不开大数据标注,离不开ImageNet、CIFAR等数据集的诞生;其二,GPU。深度学习的理论是上世纪八十年代提出的,然而经过了这么长时间才火起来,很大程度上受到了运算能力的影响,GPU高度并行的计算能力使得一些复杂网络的训练成为可能;其三,算法的改进,包括网络结构方面(网络变深、Dropout、BN)、数据集方面(数据增强)、激活函数(ReLU)等等。
直到2012年,Alex和他的团队在ImageNet大型图像识别竞赛中提出了AlexNet模型,将top-5的错误率由26%降到16.4%,从此,深度学***(人类的正确率也只有94.9%)。而在最后两届的ILSVRC比赛中,DenseNet和SENets再一次降低了错误率,正确率已经高达97.8%。
我们发现,这些深度学习网络都有一个共性,就是通过各种方式把同一类物体的大量图片作为输入,让模型学会分辨这种物体。目前深度学习的现状是,只要有足够的数据,合适的模型,基本都能够有较好的效果。但是,目前大部分类别我们没有数据积累,large-scale方法不完全适用。所以我们希望在学习了一定类别的大量数据后,对于新的类别,我们只需要少量的样本就能快速学习,由此对小样本学习(few-shot learning)的研究应运而生。
小样本学习研究主要分为如下两类:
第一类方法直接基于有监督学习的方法,这是指没有其他的数据源,不将其作为一个迁移学习的问题看待,只利用这些小样本,在现有信息上训练模型,然后做分类,例如KNN,以及非参数方法。
第二类方法是基于迁移学习的方法,是指有其他数据源时,利用这些辅助数据集去做迁移学习。
目前小样本学习已经有一定的效果,尤其是在Omniglot数据集上5-way 5-shot绝大部分现有模型都能达到超过90%的准确率。但是,因为小样本学习本身的训练输入的数据量较少,以现有的模型和技术而言很难在很多场景下达到足够高的识别准确率。因此我们基于图片的3D信息,发明了一种多角度估计3D结构深度网络图像高效分类方法针对图像分类问题建立小样本学习模型。
发明内容
本发明的目的提供一种多角度估计3D结构深度网络图像高效分类方法,解决上述现有技术问题中的一个或多个。
本发明提出一种多角度估计3D结构深度网络图像高效分类方法,应用多角度估计3D结构深度网络,多角度估计3D结构深度网络包括相互连通的3D信息提取网络和图片分类网络,利用3D信息提取网络重构3D模型,将重构3D模型作为辅助信息添加入图片分类网络辅助图片分类。
在某些实施方式中,图片分类网络的训练过程包括如下步骤:
获取基础图片数据集,和图片数据集对应的重构3D模型数据集,基础图片数据集中包括图片、标识以及类别,重构3D模型数据集中包括重构的3D模型和注释,注释中包括标识和类别;
将训练数据集读入图片分类网络,进行训练,生成分类模型,其中训练数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的重构的3D模型;
将测试数据集读入分类模型中,进行分类测试,测试数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片,测试数据集中的图片的类别与训练数据集中的图片的类别不同;
将需被分类的图片上传至分类模型中进行分类,即可得到需要被分类的图片对应的类别。
在某些实施方式中,3D信息提取的训练方法包括如下步骤:
获取与基础图片数据集对应的3D模型数据集,3D模型数据集中包括3D模型和注释;
选取从数据集合3D模型数据集中选取N个标签对应的3D模型数据集作为样本,设定多个不同的截图角度,把样本中的3D模型按照不同的截图角度截取图片,截取的图片与注释组合形成3D信息数据集;
将辅助训练数据集读入3D信息提取网络,进行训练,生成重构3D模型,其中辅助训练数据集中包括从3D信息数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的3D模型;
将辅助测试数据集读入3D信息提取网络中,进行重构3D模型测试,测试数据集中包括从3D信息数据集中抽取的不同类别的若干张图片、图片对应的标识,辅助测试数据集中的图片的类别与辅助训练数据集中的图片的类别不同;
将没有3D模型的某一事物的多张不同角度的照片上传至重构3D模型中进行3D模型构建形成能应用于图片分类网络的重构3D模型数据集。
在某些实施方式中,所述3D信息提取网络包括多条并行的孪生网络,孪生网络的共同标签为3D结构,3D结构指的是矢量3D模型。
在某些实施方式中,所述孪生网络的条数与设定的不同的截图角度的个数相等。
在某些实施方式中,所述重构3D模型的构建方法包括如下步骤:孪生网络将同一事物不同角度的图片卷积生成一个128D向量,再通过反卷积重构3D模型,并与3D模型数据集中对应的重构的3D模型做Euclidean Loss,重复上述步骤直至损失函数降到一个较为稳定的范围内得到用于分类的重构的3D模型。
在某些实施方式中,所述获取基础图片数据集对应的3D模型数据集遵循优先选择对称轴较多的3D模型的原则。
在某些实施方式中,基础图片数据集中的图片的尺寸与截取的图片的尺寸相同。
在某些实施方式中,所述图片分类网络使用AlexNet网络预训练权重作为初始权重。
本发明所述的一种多角度估计3D结构深度网络图像高效分类方法的优点为:
1)直接输入图片即可以输出分类结果,实现了端到端的图像分类,且与其他分类***相比达到同等的效果所需的训练数据少;
2)利用孪生网络重构3D模型,不仅提高了学习效率,还提高了训练出来的模型泛化性较好,而将重构的3D模型添加入图片分类网络中,增强了类与类之间的区分度,进一步提升了分类的正确率;
3)通过3D模型进行图片截取,能够有效的保证图片的质量,通过这种方式获得的图片具有数据增强的效果,使得3D信息提取网络更具有泛化能力,更好的适用于应用场景。
具体实施方式
本实施例提出一种多角度估计3D结构深度网络图像高效分类方法,其中应用到的多角度估计3D结构深度网络中包括3D信息提取网络和图片分类网络,其中图片分类网络基于AlexNet网络,并使用图片分类网络使用AlexNet网络预训练权重作为初始权重;
3D信息提取网络包括6条并行的孪生网络,孪生网络的共同标签为3D结构(3D结构指的是矢量3D模型),
孪生网络将3D信息数据集中的图片卷积生成一个128D向量,再通过反卷积重构3D模型,并与3D模型数据集中对应的3D模型做Euclidean Loss;
孪生网络通过有监督的方式训练孪生网络来学习,然后重用网络所提取的特征进行,训练时,通过组合的方式构造不同的成对样本,输入孪生网络进行训练,在最上层通过样本对的距离判断他们是否属于同一个类,并产生对应的概率分布。在预测阶段,孪生网络处理测试样本和支撑集之间每一个样本对,最终预测结果为支撑集上概率最高的类别,比如说:
将桌子类别的3d信息(上下左右前后6张照片,分别为x1、x2、x3、x4、x5、x6)输入6个孪生网络(参数共享),标签为y,y为3d模型,预测为y1,损失函数为Euclidean Loss=sqrt((y_1-y1_1)^2+……+(y_i-y1_i)^2),对应位置的点相减后平方相加。具体的重构3D模型的过程如下:
1、输入x1、x2、x3、x4、x5、x6、y,x1……x6分别进入6个共享参数的孪生网络;
2、孪生的6个网络结果通过卷积生成128d向量,通过卷积核完成该操作,卷积核为网络需要学的参数;
3、得到128d通过反卷积(反卷积操作及128d向量成卷积核生成指定大小(指定大小为输入3d模型及标签大小),卷积核具体数据为学习参数)的到3d模型y1;
4、y和y1计算损失函数;
5、重复1-4不断更新损失函数(网络自动更新训练),直到损失函数降到一个小且较为稳定的范围得到最终用于分类的3d模型y1。
3D信息提取网络的训练使用过程举例如下:
待分类:(例如转椅)x1,x2,x3,x4,x5五类物体(每类5张训练(有标记),5张测试(无标记));
已有数据:桌子、床、钢琴、书柜等多类物体和对应3d模型的集合y(全部数据,总测试集);
注:一次训练包含多轮
训练过程包括如下步骤:
1、y中随机选出5类,每类随机选出5张图片组成本轮训练集s(本轮训练集即支撑集,每轮支撑集都会变),再从这5类中未被选择的所有图片随机选择5张图片,组成本轮测试集c;
2、为每类图片生成3d信息信息数据集;
3、原始3d模型、3d数据输入3d信息提取网络生成3d模型,得到3d模型y1,y1和标记(模型对应的类别)组合训练集s1;
4、将s中的图片和标记,s1中3d模型和标记输入分类网络训练,得到训练好的分类网络模型y2;
5、将c中的图片输入分类网络,计算准确率,直到损失函数(准确率,与3d信息提取网络不是同个损失函数)稳定,得到分类网络;
6、重复1-5,直到5中准确率在不同轮中都有比较好的效果。
使用过程包括如下步骤:
1、拍摄x1-x5中5个类别的多个角度图片(与训练角度相同,包括上、下、左、右、前、后,且图片的尺寸与基础图片数据集中图片的尺寸相同)并输入训练好的3D信息提取网络中;
2、生成x1-x5的3D模型;
3、x1-x5对应的图片和3D模型作为训练集输入分类网络再次进行训练;
4、x1-x5测试集测试分类。
在进行执行多角度估计3D结构深度网络图像高效分类方法包括如下步骤:
步骤1、获取数据集,数据集中包括基础图片数据集、3D模型数据集以及3D信息数据集,具体的数据获取方法如下:
步骤1.1、手机目前在few-shot learning领域常用图片数据集,并进行分析筛选出合适的数据集,其中常用图片数据集中包括Omniglot和miniImagenet两个(Omniglot数据集包含来自50不同字母(语言)的1623个不同手写字符。每一个字符都是由20个不同的人通过亚马逊的Mechanical Turk在线绘制的miniImagenet包含100类,每类600张图片,包括鸟、狗、蛇、钢琴等),选择常用数据集中的刚体类型、类似钢琴之类,去除字母、二维码,以及蛇、狗等形状变化较大且与(如猫)其他武器不易区分的软体类,作为合适的数据集,并下载形成基础图片数据集,基础图片数据集中包括图片、标识以及类别;
步骤1.2、下载ShapeNet数据集,并根据优先选择对称轴较多的3D模型的原则选择基础图片数据集对应的3D模型数据集,3D模型数据集中包括3D模型和注释,其中ShapeNet具有单个干净的3D模型和对齐注释,涵盖55个常见对象类别,约有51300个独特的3D模型;根据miniImagenet选出的合适的数据集选出对应模型,例如选***imagenet钢琴类,选择Shapenet中的钢琴模型,如果有多个钢琴模型,优先选择对称轴较多的模型,无阈值限定;如果无对应模型更新miniimagenet类;
步骤1.3、设置6个指定的角度,分别为左、右、前、后、上、下,按照指定的角度对3D模型进行截图,形成3D模型对应的6张图片,截取的图片的尺寸与基础图片数据集中的图片的尺寸相同,截取的图片与注释组合形成3D信息数据集;
步骤2、将数据集读入多角度估计3D结构深度网络,其中3D模型数据集和3D信息数据集读入3D信息提取网络,重构3D模型;
步骤3、将训练数据集读入图片分类网络,进行训练,生成分类模型,其中训练数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的重构的3D模型;
步骤4、将测试数据集读入分类模型中,进行分类测试,测试数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片,测试数据集中的图片的类别与训练数据集中的图片的类别不同;
步骤5、将需被分类的图片上传至分类模型中进行分类,即可得到需要被分类的图片对应的类别和标识。
在遇到新的物体(新的物体指的是数据集中不存在的物体)时,将新的物体的多角度的照片的尺寸调节至与基础图片数据集中的图片的尺寸相同,调整完成后输入多角度估计3D结构深度网络内,同时添加照片对应的类别和标识,照片、类别以及标识会被一起存入基础图片数据集中,同时将照片读入孪生网络内构成3D模型,类别和标识会组合形成注释与3D模型结合一起存入重构3D模型数据集中等待被图片分类网络应用。
以上所述仅是本发明的优选方式,应当指出,对于本领域普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干相似的变形和改进,这些也应视为本发明的保护范围之内。

Claims (9)

1.一种多角度估计3D结构深度网络图像高效分类方法,其特征在于,应用多角度估计3D结构深度网络,多角度估计3D结构深度网络包括相互连通的3D信息提取网络和图片分类网络,利用3D信息提取网络重构3D模型,将重构3D模型作为辅助信息添加入图片分类网络辅助图片分类。
2.根据权利要求1所述的一种多角度估计3D结构深度网络图像高效分类方法,其特征在于,图片分类网络的训练过程包括如下步骤:
获取基础图片数据集,和图片数据集对应的重构3D模型数据集,基础图片数据集中包括图片、标识以及类别,重构3D模型数据集中包括重构的3D模型和注释,注释中包括标识和类别;
将训练数据集读入图片分类网络,进行训练,生成分类模型,其中训练数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的重构的3D模型;
将测试数据集读入分类模型中,进行分类测试,测试数据集中包括从基础图片数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片,测试数据集中的图片的类别与训练数据集中的图片的类别不同;
将需被分类的图片上传至分类模型中进行分类,即可得到需要被分类的图片对应的类别。
3.根据权利要求1所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,3D信息提取的训练方法包括如下步骤:
获取与基础图片数据集对应的3D模型数据集,3D模型数据集中包括3D模型和注释;
选取从数据集合3D模型数据集中选取N个标签对应的3D模型数据集作为样本,设定多个不同的截图角度,把样本中的3D模型按照不同的截图角度截取图片,截取的图片与注释组合形成3D信息数据集;
将辅助训练数据集读入3D信息提取网络,进行训练,生成重构3D模型,其中辅助训练数据集中包括从3D信息数据集中抽取的不同类别的若干张图片、图片对应的标识、以及图片对应的3D模型;
将辅助测试数据集读入3D信息提取网络中,进行重构3D模型测试,测试数据集中包括从3D信息数据集中抽取的不同类别的若干张图片、图片对应的标识,辅助测试数据集中的图片的类别与辅助训练数据集中的图片的类别不同;
将没有3D模型的某一事物的多张不同角度的照片上传至重构3D模型中进行3D模型构建形成能应用于图片分类网络的重构3D模型数据集。
4.根据权利要求3所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,所述3D信息提取网络包括多条并行的孪生网络,孪生网络的共同标签为3D结构,3D结构指的是矢量3D模型。
5.根据权利要求4所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,所述孪生网络的条数与设定的不同的截图角度的个数相等。
6.根据权利要求4所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,所述重构3D模型的构建方法包括如下步骤:孪生网络将同一事物不同角度的图片卷积生成一个128D向量,再通过反卷积重构3D模型,并与3D模型数据集中对应的重构的3D模型做Euclidean Loss,重复上述步骤直至损失函数降到一个较为稳定的范围内得到用于分类的重构的3D模型。
7.根据权利要求2或3所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,所述获取基础图片数据集对应的3D模型数据集遵循优先选择对称轴较多的3D模型的原则。
8.根据权利要求3所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,基础图片数据集中的图片的尺寸与截取的图片的尺寸相同。
9.根据权利要求1或2所述的一种多角度估计3D结构深度网络图像高效分类方法,其中,所述图片分类网络使用AlexNet网络预训练权重作为初始权重。
CN202010155571.8A 2020-03-09 2020-03-09 一种多角度估计3d结构深度网络图像高效分类方法 Pending CN111340129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010155571.8A CN111340129A (zh) 2020-03-09 2020-03-09 一种多角度估计3d结构深度网络图像高效分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010155571.8A CN111340129A (zh) 2020-03-09 2020-03-09 一种多角度估计3d结构深度网络图像高效分类方法

Publications (1)

Publication Number Publication Date
CN111340129A true CN111340129A (zh) 2020-06-26

Family

ID=71186267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010155571.8A Pending CN111340129A (zh) 2020-03-09 2020-03-09 一种多角度估计3d结构深度网络图像高效分类方法

Country Status (1)

Country Link
CN (1) CN111340129A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503630A (zh) * 2019-07-19 2019-11-26 江苏师范大学 一种基于三维深度学习模型的脑出血分类、定位与预测方法
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法
CN110633634A (zh) * 2019-08-08 2019-12-31 福建中医药大学 一种关于中医体质的脸型分类方法、***和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503630A (zh) * 2019-07-19 2019-11-26 江苏师范大学 一种基于三维深度学习模型的脑出血分类、定位与预测方法
CN110633634A (zh) * 2019-08-08 2019-12-31 福建中医药大学 一种关于中医体质的脸型分类方法、***和计算机可读存储介质
CN110533712A (zh) * 2019-08-26 2019-12-03 北京工业大学 一种基于卷积神经网络的双目立体匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EDUARD RAMON ET AL.: "Multi-View 3D Face Reconstruction in theWild Using Siamese Networks", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOP (ICCVW)》, pages 3096 - 3100 *
T. Y. SATHEESHA ET AL.: "Melanoma Is Skin Deep: A 3D Reconstruction Technique for Computerized Dermoscopic Skin Lesion Classification", 《IEEE JOURNAL OF TRANSLATIONAL ENGINEERING IN HEALTH AND MEDICINE》, vol. 5, pages 1 - 17, XP011640080, DOI: 10.1109/JTEHM.2017.2648797 *

Similar Documents

Publication Publication Date Title
Hu et al. Dense relation distillation with context-aware aggregation for few-shot object detection
Chen et al. Diffusiondet: Diffusion model for object detection
Li et al. Factorizable net: an efficient subgraph-based framework for scene graph generation
Tu et al. Edge-guided non-local fully convolutional network for salient object detection
Denton et al. Semi-supervised learning with context-conditional generative adversarial networks
US10679044B2 (en) Human action data set generation in a machine learning system
Li et al. Cross-modal attentional context learning for RGB-D object detection
Moreira et al. Image provenance analysis at scale
Liu et al. Learning human pose models from synthesized data for robust RGB-D action recognition
Wang et al. Weakly supervised person re-id: Differentiable graphical learning and a new benchmark
Hao et al. Attention in attention: Modeling context correlation for efficient video classification
WO2019137185A1 (zh) 一种图片筛选方法及装置、存储介质、计算机设备
Douze et al. The 2021 image similarity dataset and challenge
Dey et al. Learning cross-modal deep embeddings for multi-object image retrieval using text and sketch
Hua et al. SHREC’17: RGB-D to CAD retrieval with ObjectNN dataset
Perveen et al. [Retracted] Multidimensional Attention‐Based CNN Model for Identifying Apple Leaf Disease
US20240193790A1 (en) Data processing method and apparatus, electronic device, storage medium, and program product
CN105913423B (zh) 一种基于超像素的确定性模型拟合方法
CN109409381A (zh) 基于人工智能的家具顶视图的分类方法及***
Li et al. FSRM-STS: Cross-dataset pedestrian retrieval based on a four-stage retrieval model with Selection–Translation–Selection
CN111340129A (zh) 一种多角度估计3d结构深度网络图像高效分类方法
Le et al. TextANIMAR: text-based 3D animal fine-grained retrieval
Lu et al. Deep convolutional neural networks with transfer learning for neonatal pain expression recognition
Zhang et al. Hierarchical features fusion for image aesthetics assessment
Wang et al. Generative model with coordinate metric learning for object recognition based on 3D models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination