CN111898683B - 基于深度学习的图像分类方法、装置及计算机设备 - Google Patents

基于深度学习的图像分类方法、装置及计算机设备 Download PDF

Info

Publication number
CN111898683B
CN111898683B CN202010761098.8A CN202010761098A CN111898683B CN 111898683 B CN111898683 B CN 111898683B CN 202010761098 A CN202010761098 A CN 202010761098A CN 111898683 B CN111898683 B CN 111898683B
Authority
CN
China
Prior art keywords
training
network
super
convolution layer
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010761098.8A
Other languages
English (en)
Other versions
CN111898683A (zh
Inventor
沈赞
庄伯金
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010761098.8A priority Critical patent/CN111898683B/zh
Priority to PCT/CN2020/122131 priority patent/WO2021151318A1/zh
Publication of CN111898683A publication Critical patent/CN111898683A/zh
Application granted granted Critical
Publication of CN111898683B publication Critical patent/CN111898683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于深度学习的图像分类方法、装置及计算机设备,涉及人工智能技术领域。其中方法包括:首先基于MobileNet网络,配置神经架构的搜索空间信息;再根据搜索空间信息构建超网,以及配置超网的每一卷积层对应的弹簧结构,其中,弹簧结构用于超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层;然后利用第一图片训练集对超网进行训练,以确定适合图像分类的目标神经架构;最后利用第二图片训练集对目标神经架构的模型进行训练,并使用训练达标的模型,对待分类图片进行图像分类。本申请可提高图像分类的精确性。此外,本申请还涉及区块链技术,模型训练数据可存储于区块链中,以保证数据私密和安全性。

Description

基于深度学习的图像分类方法、装置及计算机设备
技术领域
本申请涉及人工智能技术领域,尤其是涉及到一种基于深度学习的图像分类方法、装置及计算机设备。
背景技术
图像分类可采用深度学习方法进行智能化的分类,其中深度学习方法在机器学习领域取得了很大的成功,涌现了许多经典的有效的网络结构。然而这些网络结构的设计依赖于领域专家们丰富的经验,并且需要花费大量的时间和精力进行设计和实验。因此,神经架构搜索方法成为了近几年的热门研究领域,通过定义搜索空间,采用强化学习、进化算法等方法自动搜索最优的网络结构。这些方法非常耗时且需要占用大量的GPU资源。
因此为了解决上述问题,目前提出了采用权重共享的One-Shot方法,通过构建一个包含所有操作选项的有向无环图即超网,仅通过一次训练,在训练好的超网上采样由不同的操作项组成的单条路径构成的网络,评估在测试集上的准确率,进而挑选出最优的神经架构。
然而,本发明创造的发明人在研究中发现,由于卷积神经网络中前一层的输出与后一层的输入在通道数上需要保持一致,而超网无法定义通道数维度上的搜索,而是事先人为定义了每一层网络的通道数量,这样得到的结果会影响准确性,导致得到的神经架构并不是合适的架构,进而以此神经架构的模型进行图像分类时,会影响图像分类的精确性。
发明内容
有鉴于此,本申请提供了一种基于深度学习的图像分类方法、装置及计算机设备,主要目的在于改善目前现有技术中会影响图像分类精确性的技术问题。
根据本申请的一个方面,提供了一种基于深度学习的图像分类方法,该方法包括:
基于MobileNet网络,配置神经架构的搜索空间信息;
根据所述搜索空间信息构建超网,以及配置所述超网的每一卷积层对应的弹簧结构,其中,所述弹簧结构用于所述超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层;
利用第一图片训练集对所述超网进行训练,以确定适合图像分类的目标神经架构;
利用第二图片训练集对所述目标神经架构的模型进行训练,并使用训练达标的所述模型,对待分类图片进行图像分类。
根据本申请的另一个方面,提供了一种基于深度学习的图像分类装置,该装置包括:
配置模块,用于基于MobileNet网络,配置神经架构的搜索空间信息;
构建模块,用于根据所述搜索空间信息构建超网,以及配置所述超网的每一卷积层对应的弹簧结构,其中,所述弹簧结构用于所述超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层;
训练模块,用于利用第一图片训练集对所述超网进行训练,以确定适合图像分类的目标神经架构;
所述训练模块,还用于利用第二图片训练集对所述目标神经架构的模型进行训练;
分类模块,用于使用训练达标的所述模型,对待分类图片进行图像分类。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于深度学习的图像分类方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于深度学习的图像分类方法。
借由上述技术方案,本申请提供的一种基于深度学习的图像分类方法、装置及计算机设备。与目前现有技术中One-Shot框架下超网模式无法搜索网络层通道数,只能事先人为定义了每一层网络的通道数量的方式相比,本申请可首先基于MobileNet网络,配置神经架构的搜索空间信息,再根据搜索空间信息构建超网,以及配置超网的每一卷积层对应的弹簧结构,其中,该弹簧结构可用于超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层,这样就保证了下一卷积层的输入通道数一直是固定的,进而保证卷积网络中前一卷积层的输出与后一卷积层的输入在通道数上保持一致,从而避免由前一卷积层输出通道数的不同造成后一卷积层输入通道数不一致导致无法训练超网。后续可利用这种方式训练得到的超网,精确确定适合图像分类的最优神经架构,从而使用训练达标的具有该最优神经架构的模型精确进行图像分类,提高了图像分类的精确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于深度学习的图像分类方法的流程示意图;
图2示出了本申请实施例提供的另一种基于深度学习的图像分类方法的流程示意图;
图3示出了本申请实施例提供的一种基于深度学习的图像分类装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对改善目前现有技术中One-Shot框架下超网模式无法搜索网络层通道数,只能事先人为定义了每一层网络的通道数量的方式,会影响图像分类精确性的技术问题,本实施例提供了一种基于深度学习的图像分类方法,如图1所示,该方法包括:
101、基于MobileNet网络,配置神经架构的搜索空间信息。
搜索空间信息可包含最优神经架构的搜索空间范围参数,其中搜索空间范围参数具体可包含卷积核的个数,步长以及大小,卷积层的个数,神经元个数,是否使用跳跃连接以及激活函数种类等范围值。根据不同的搜索空间范围参数,可构建不同的神经架构,后续可基于这些不同的神经架构进行适合图像分类的最优神经架构的搜索。
本实施例方案具体沿用了One-Shot方法的思想,神经架构的搜索空间基于为移动端设备设计的MobileNet网络(针对手机等嵌入式设备提出的一种轻量级的深层神经网络)。选用MobileNet网络的好处是其模型参数量少运算速度快,可以减小服务器端延时,增加检测的每秒查询率(Query Per Second,QPS)。另一方面由于MobileNet的保存模型非常小,可以很方便的部署在移动端侧(如手机端、平板电脑的客户端侧等),也就是可以在移动端进行离线的图片检测。如内置在APP应用中,在用户上传图片之前就对其进行检测和拦截(非法图片拦截),进一步减少服务器压力,可以无限的增加检测能力。
对于本实施例的执行主体可为基于深度学习的图像分类装置或设备,可部署在客户端或者服务端等,可提高图像分类的精确性。
102、根据神经架构的搜索空间信息构建超网,以及配置超网的每一卷积层对应的弹簧结构。
根据神经架构的搜索空间信息,构建一个包含所有操作选项的有向无环图,即超网。后续可在训练好的超网上采样由不同的操作组成的单条路径构成的网络,评估在测试集上的准确率,进而挑选出最优的神经架构。
由于卷积神经网络中前一层的输出与后一层的输入在通道数上需要保持一致,而超网无法定义通道数维度上的搜索,而是事先人为定义了每一层网络的通道数量,这样得到的结果会影响准确性,因此,为了解决超网模式无法搜索网络层通道数的问题,本实施例引入新的弹簧结构(springblock),可以轻易地适应不同通道数的选择,同时避免网络的稳定性被破坏。该弹簧结构可用于超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层。这样就保证了下一卷积层的输入通道数一直是固定的,进而保证卷积网络中前一卷积层的输出与后一卷积层的输入在通道数上保持一致,从而避免由前一卷积层输出通道数的不同造成后一卷积层输入通道数不一致导致无法训练超网。
103、利用第一图片训练集对超网进行训练,以确定适合图像分类的目标神经架构。
在具体的图像分类的应用场景中,预先创建第一图片训练集,用于训练超网以找到最优的神经架构,即目标神经架构,进而找到适合图像分类的深度学习模型结构,该第一图片训练集中包含不同的图片特征(如图片中图案、色彩、线条形状等图片内容特征),以及与这些图片特征分别对应的图片标签(如女生、小清新、汽车、动物、动画、广告等标签)。利用创建得到的第一图片训练集对构建的超网进行训练,由于每层已配置对应的弹簧结构信息,所以可避免由于前一层通道数的不同而造成输入通道数不一致导致无法训练的情况发生。
104、利用第二图片训练集对目标神经架构的模型进行训练,并使用训练达标的模型,对待分类图片进行图像分类。
其中,第二图片训练集与第一图片训练集相比可包含更多的样本特征以及样本特征对应的标签数据。第一图片训练集可从第二图片训练集中进行部分获取得到。第一图片训练集的目的是为了让超网找到适合图片分类的最优神经架构模型,而第二图片训练集用于对该最优神经架构模型进行模型训练,使其达到准确率大于一定阈值的分类模型,用于对待分类图片进行图像分类,以确定该待分类图片对应的分类结果,如女生、小清新、汽车、动物、动画、广告等分类结果。该具有最优神经架构的模型可选用MobileNet模型,如MobileNetV2、MobileNetV3模型等。在具有最优神经架构的MobileNet模型训练完成,并且测试达标后,可作为图像分类的分类模型使用。
例如,训练完成的MobileNetV3模型可部署在智能手机侧,在智能手机中需要上传用户图片时,首先由本地提取用户图片的图片特征,然后输入到MobileNetV3模型中,找到与其最相似的样本特征所对应的图片标签,并根据图片标签输出分类结果,智能手机的客户端根据分类结果确定是否向服务器上传该用户图片。如果分类结果为“女生”、“小清新”、“卡通”、“广告”等,那么可首先在本地拒绝用户上传该图片的请求,提示其换另一张合法的图片上传。通过这种方式可减轻服务器对用户上传图片进行识别分类的压力,可实现非法图片在本地的第一时间被拦截。
需要说明的是,本实施例方案只是示例性的通过图像分类应用场景进行描述,除此之外,本实施例方法还可应用到其他领域,如利用深度学习模型分类的各个技术领域等。
通过本实施例中的基于深度学习的图像分类方法。与目前现有技术中One-Shot框架下超网模式无法搜索网络层通道数,只能事先人为定义了每一层网络的通道数量的方式相比,本实施例可首先基于MobileNet网络,配置神经架构的搜索空间信息,再根据搜索空间信息构建超网,以及配置超网的每一卷积层对应的弹簧结构,其中,该弹簧结构可用于超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层,这样就保证了下一卷积层的输入通道数一直是固定的,进而保证卷积网络中前一卷积层的输出与后一卷积层的输入在通道数上保持一致,从而避免由前一卷积层输出通道数的不同造成后一卷积层输入通道数不一致导致无法训练超网。后续可利用这种方式训练得到的超网,精确确定适合图像分类的最优神经架构,从而使用训练达标的具有该最优神经架构的模型精确进行图像分类,提高了图像分类的精确性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于深度学习的图像分类方法,如图2所示,该方法包括:
201、设置MobileNet网络中的卷积层数。
202、根据设置后的MobileNet网络,定义神经架构搜索空间的维度信息和搜索空间大小信息。
其中,维度信息至少包含每一卷积层的卷积核大小、扩张系数、通道数。
例如,基于One-Shot框架,搜索空间基于为移动端设备设计的MobileNetV2网络,共19层,每一卷积层可选的操作项可定义为一个反向残差结构(inverted residualblocks)。搜索空间的维度包含卷积核大小k:3×3、5×5、7×7,扩张系数t:3、6以及通道数c(每一卷积层三个选项),搜索空间的大小是3^6×6^19。
203、根据神经架构的搜索空间信息构建超网,以及配置超网的每一卷积层对应的弹簧结构。
例如,根据步骤202中示例的搜索空间参数,构建得到超网的部分结构如下表1所示:
表1
可选的,弹簧结构可以是基于反向残差结构对超网的每一卷积层进行改造得到的,该弹簧结构的中间深度卷积层用于深层特征提取,所述中间深度卷积层(depth-wiseconvolution)的前后各有1×1卷积层;其中中间深度卷积层的前1×1卷积层用于扩大输入特征多样性,中间深度卷积层的后1×1卷积层用于将提取的深层特征恢复到固定的通道数上并输出给下一卷积层,固定的通道数为所属卷积层结构可选的最大通道数。由此可见,该结构中最后一层线性1×1卷积层实际上能将输出通道数变换到任意通道数。利用这一点,将同一层不同操作项对应的通道数在通过最后一层1×1卷积层时,都固定到相同大小的通道数上并进行输出,这样就保证了后一层反向残差结构的输入通道数一直是固定的(即保证了卷积神经网络中前一层的输出与后一层的输入在通道数上需要保持一致),从而避免由于前一层通道数的不同而造成输入通道数不一致导致无法训练的情况发生。同时,为了确保原有的特征信息不因固定的通道数小于原本的通道数而损失,变换后固定的通道数采用该层结构可选的最大通道数。
204、在利用第一图片训练集对超网进行训练时,将超网的训练过程按照预设时间间隔分为多个子训练过程。
为了保证第一图片训练集中数据的安全性与私密性,可选的,第一图片训练集可保存在区块链中;相应的,利用第一图片训练集对超网进行训练,具体包括:从区块链中获取第一图片训练集,对超网进行训练。例如,可从区块链的目标节点中获得该第一图片训练集数据,然后对超网进行训练。需要说明的是,本实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在超网训练的过程中,为了缓解超大搜索空间带来的权重耦合以及模型平均效应,本方案将超网的训练分为两个阶段。第一阶段保持正常的训练,每次随机采样超网的一条路径进行权重更新;第二阶段在第一阶段训练的模型基础上逐步地收缩搜索空间。具体可执行步骤205所示的过程。
205、每次执行子训练过程时,基于上一子训练过程得到的超网,随机采样超网的一条路径进行权重更新,并基于路径权重更新后的超网继续进行训练,以便收缩所述超网对应的搜索空间。
可选的,步骤205具体可包括:随机从上一子训练过程训练得到的超网中采样预设个数的模型;再利用图片测试集,对采样的模型进行测试,该图片测试集可以是根据第一图片训练集确定得到的;按照测试准确率,将采样的模型进行排序;统计每一卷积层中各个操作项位于排名前预设比例的模型的第一数量,以及位于排名后预定比例的模型的第二数量;然后根据第一数量与所述第二数量之间的差值,在每一卷积层中,保留前第一预置数量的差值大于0的操作项,并删除未保留的其余操作项;在每一卷积层中删除未保留的其余操作项后,执行本次子训练过程;在超网训练后的每一卷积层中剩余的操作项的数量小于或等于预定个数阈值时,确定训练得到收缩搜索空间后的超网。
例如,第一步、在训练超网时,将每层的可选操作项由18个减少为9个,采取的方法是随机地从当前训练的超网中采样18×200个模型,在图片测试集(如可从第一图片训练集中划分得到)上测试准确率,然后按照准确率将模型排序,统计每一层中各个操作项位于排名前三分之一模型数量与后三分之一模型数量的差值,根据这个差值排序各个操作项的优劣,保留前9个差值大于零的操作项,然后在剩下的搜索空间上接着训练一段时间。
第二步和第三步、采用相同的做法,在上一步训练的基础上,将可选的操作项减少到5个和3个,最终每一层的可选操作项不会多于3个,通过这种做法使得只有那些持续保持优秀性能的操作项才不会在逐步的收缩过程中被淘汰。最终的搜索空间远小于初始的搜索空间,收缩到一个合适的大小,从而大大缓解模型之间由权重共享导致的耦合和平均效应,使各个模型更容易区分性能差异并且保持排名的相关性。并且在训练效率方面也会得到提升。
206、在收缩搜索空间后的超网中,搜索适合图像分类的目标神经架构。
通过上述步骤205中的进化算法,在收缩搜索空间后的超网中搜索最优结构(适用于图像分类的最优神经架构),因为搜索阶段模型权重都由超网中继承而不需要重新训练,因此大大加速了搜索时间。
207、利用第二图片训练集对目标神经架构的模型进行训练。
同样的,为了保证第二图片训练集中数据的安全性与私密性,可选的,第二图片训练集也可保存在区块链中,相应的,步骤207具体可包括:从区块链中获取第二图片训练集,对目标神经架构的模型进行训练。
在模型训练时,由于本实施例在搜索目标神经架构时增加了弹簧结构,因此为了避免该弹簧结构对模型训练效果的影响,可选的,步骤207具体可包括:在对目标神经架构的模型从头开始独立训练时,所有采用最大通道数输出的弹簧结构调整为当前每一卷积层选取的操作项原本的通道数大小,以便恢复成标准的反向残差结构;然后利用第二图片训练集对恢复成标准的反向残差结构的目标神经架构的模型进行训练。
例如,在本实施例方案中,当搜索到的目标神经架构的网络模型从头开始独立训练时,所有采用最大通道数输出的弹簧结构调整为当前每层选取的操作原本的通道数大小,从而恢复成标准的反向残差结构,然后再进行模型训练。实验证明引入弹簧结构并不会破坏网络原本的优劣性,不影响其性能排序。
208、使用训练达标的模型,对待分类图片进行图像分类。
例如,本实施例方案在新的搜索空间上搜索到两个网络结构:BS-NAS-A,BS-NAS-B,分别在公开的大规模ImageNet分类数据集上取得了75.9%和76.3%的top-1准确率,在移动端模型中达到了世界先进水平。
本实施例方法突破了One-Shot框架下无法搜索网络层通道数的限制,通过引入新的spring block弹簧结构,可以轻易地适应不同通道数的选择,同时避免网络的稳定性被破坏。此外,提出了一个新的逐步收缩搜索空间的训练策略,通过对每一层操作的性能表现进行排序,逐步剔除那些表现不良好的操作,将搜索空间收缩到一个适当的尺寸。这样的做法能有效缓解不差别权重共享导致的优劣模型平均效应,维护优劣模型之间的排名相关性,从而更有利于最优模型的搜索。
进一步的,作为图1和图2所示方法的具体实现,本实施例提供了一种基于深度学习的图像分类装置,如图3所示,该装置包括:配置模块31、构建模块32、训练模块33、分类模块34。
配置模块31,用于基于MobileNet网络,配置神经架构的搜索空间信息;
构建模块32,用于根据所述搜索空间信息构建超网,以及配置所述超网的每一卷积层对应的弹簧结构,其中,所述弹簧结构用于所述超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层;
训练模块33,用于利用第一图片训练集对所述超网进行训练,以确定适合图像分类的目标神经架构;
所述训练模块33,还用于利用第二图片训练集对所述目标神经架构的模型进行训练;
分类模块34,用于使用训练达标的所述模型,对待分类图片进行图像分类。
在具体的应用场景中,可选的,所述弹簧结构是基于反向残差结构对所述超网的每一卷积层进行改造得到的,所述弹簧结构的中间深度卷积层用于深层特征提取,所述中间深度卷积层的前后各有1×1卷积层;其中所述中间深度卷积层的前1×1卷积层用于扩大输入特征多样性,所述中间深度卷积层的后1×1卷积层用于将提取的深层特征恢复到固定的通道数上并输出给下一卷积层,所述固定的通道数为所属卷积层结构可选的最大通道数。
在具体的应用场景中,训练模块33,具体用于在对所述目标神经架构的模型从头开始独立训练时,所有采用最大通道数输出的弹簧结构调整为当前每一卷积层选取的操作项原本的通道数大小,以便恢复成标准的反向残差结构;利用第二图片训练集对恢复成标准的反向残差结构的所述目标神经架构的模型进行训练。
在具体的应用场景中,训练模块33,具体还用于将所述超网的训练过程按照预设时间间隔分为多个子训练过程;每次执行子训练过程时,基于上一子训练过程得到的超网,随机采样超网的一条路径进行权重更新,并基于路径权重更新后的超网继续进行训练,以便收缩所述超网对应的搜索空间;在收缩搜索空间后的所述超网中,搜索所述目标神经架构。
在具体的应用场景中,训练模块33,具体还用于随机从上一子训练过程训练得到的超网中采样预设个数的模型;利用图片测试集,对采样的模型进行测试,所述图片测试集是根据所述第一图片训练集确定得到的;按照测试准确率,将采样的模型进行排序;统计每一卷积层中各个操作项位于排名前预设比例的模型的第一数量,以及位于排名后预定比例的模型的第二数量;根据所述第一数量与所述第二数量之间的差值,在每一卷积层中,保留前第一预置数量所述差值大于0的操作项,并删除未保留的其余操作项;在每一卷积层中删除未保留的其余操作项后,执行本次子训练过程;在超网训练后的每一卷积层中剩余的操作项的数量小于或等于预定个数阈值时,确定训练得到收缩搜索空间后的所述超网。
在具体的应用场景中,配置模块31,具体用于设置MobileNet网络中的卷积层数;根据设置后的所述MobileNet网络,定义搜索空间的维度信息和搜索空间大小信息,其中所述维度信息至少包含每一卷积层的卷积核大小、扩张系数、通道数。
在具体的应用场景中,可选的,所述第一图片训练集和所述第二图片训练集保存在区块链中;
相应的,训练模块33,具体还用于从所述区块链中获取所述第一图片训练集,对所述超网进行训练;
相应的,训练模块33,具体还用于从所述区块链中获取所述第二图片训练集,对所述目标神经架构的模型进行训练。
需要说明的是,本实施例提供的一种基于深度学习的图像分类装置所涉及各功能单元的其它相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的基于深度学习的图像分类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,具体可以为个人计算机、笔记本电脑、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的基于深度学习的图像分类方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作***、网络通信模块。操作***是管理上述实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本实施例的技术方案,与目前现有技术中One-Shot框架下超网模式无法搜索网络层通道数,只能事先人为定义了每一层网络的通道数量的方式相比,本实施例可首先基于MobileNet网络,配置神经架构的搜索空间信息,再根据搜索空间信息构建超网,以及配置超网的每一卷积层对应的弹簧结构,其中,该弹簧结构可用于超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层,这样就保证了下一卷积层的输入通道数一直是固定的,进而保证卷积网络中前一卷积层的输出与后一卷积层的输入在通道数上保持一致,从而避免由前一卷积层输出通道数的不同造成后一卷积层输入通道数不一致导致无法训练超网。后续可利用这种方式训练得到的超网,精确确定适合图像分类的最优神经架构,从而使用训练达标的具有该最优神经架构的模型精确进行图像分类,提高了图像分类的精确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (8)

1.一种基于深度学习的图像分类方法,其特征在于,包括:
基于MobileNet网络,配置神经架构的搜索空间信息;
根据所述搜索空间信息构建超网,以及配置所述超网的每一卷积层对应的弹簧结构,其中,所述弹簧结构用于所述超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层;
利用第一图片训练集对所述超网进行训练,以确定适合图像分类的目标神经架构;
利用第二图片训练集对所述目标神经架构的模型进行训练,并使用训练达标的所述模型,对待分类图片进行图像分类;
所述利用第一图片训练集对所述超网进行训练,以确定适合图像分类的目标神经架构,包括:
将所述超网的训练过程按照预设时间间隔分为多个子训练过程;
每次执行子训练过程时,随机从上一子训练过程训练得到的超网中采样预设个数的模型;利用图片测试集,对采样的模型进行测试,所述图片测试集是根据所述第一图片训练集确定得到的;按照测试准确率,将采样的模型进行排序;统计每一卷积层中各个操作项位于排名前预设比例的模型的第一数量,以及位于排名后预定比例的模型的第二数量;根据所述第一数量与所述第二数量之间的差值,在每一卷积层中,保留前第一预置数量所述差值大于0的操作项,并删除未保留的其余操作项;在每一卷积层中删除未保留的其余操作项后,执行本次子训练过程;在超网训练后的每一卷积层中剩余的操作项的数量小于或等于预定个数阈值时,确定训练得到收缩搜索空间后的所述超网;
在收缩搜索空间后的所述超网中,搜索所述目标神经架构。
2.根据权利要求1所述的方法,其特征在于,所述弹簧结构是基于反向残差结构对所述超网的每一卷积层进行改造得到的,所述弹簧结构的中间深度卷积层用于深层特征提取,所述中间深度卷积层的前后各有1×1卷积层;
其中所述中间深度卷积层的前1×1卷积层用于扩大输入特征多样性,所述中间深度卷积层的后1×1卷积层用于将提取的深层特征恢复到固定的通道数上并输出给下一卷积层,所述固定的通道数为所属卷积层结构可选的最大通道数。
3.根据权利要求2所述的方法,其特征在于,所述利用第二图片训练集对所述目标神经架构的模型进行训练,具体包括:
在对所述目标神经架构的模型从头开始独立训练时,所有采用最大通道数输出的弹簧结构调整为当前每一卷积层选取的操作项原本的通道数大小,以便恢复成标准的反向残差结构;
利用第二图片训练集对恢复成标准的反向残差结构的所述目标神经架构的模型进行训练。
4.根据权利要求1所述的方法,其特征在于,所述基于MobileNet网络,配置神经架构的搜索空间信息,具体包括:
设置MobileNet网络中的卷积层数;
根据设置后的所述MobileNet网络,定义搜索空间的维度信息和搜索空间大小信息,其中所述维度信息包含每一卷积层的卷积核大小、扩张系数、通道数。
5.根据权利要求1所述的方法,其特征在于,所述第一图片训练集和所述第二图片训练集保存在区块链中;
所述利用第一图片训练集对所述超网进行训练,具体包括:
从所述区块链中获取所述第一图片训练集,对所述超网进行训练;
所述利用第二图片训练集对所述目标神经架构的模型进行训练,具体包括:
从所述区块链中获取所述第二图片训练集,对所述目标神经架构的模型进行训练。
6.一种基于深度学习的图像分类装置,其特征在于,包括:
配置模块,用于基于MobileNet网络,配置神经架构的搜索空间信息;
构建模块,用于根据所述搜索空间信息构建超网,以及配置所述超网的每一卷积层对应的弹簧结构,其中,所述弹簧结构用于所述超网训练时将同一卷积层不同操作项对应的通道数都固定到相同的通道数上输出给下一卷积层;
训练模块,用于利用第一图片训练集对所述超网进行训练,以确定适合图像分类的目标神经架构;
所述训练模块,还用于利用第二图片训练集对所述目标神经架构的模型进行训练;
分类模块,用于使用训练达标的所述模型,对待分类图片进行图像分类;
所述训练模块,还用于:将所述超网的训练过程按照预设时间间隔分为多个子训练过程;
每次执行子训练过程时,随机从上一子训练过程训练得到的超网中采样预设个数的模型;利用图片测试集,对采样的模型进行测试,所述图片测试集是根据所述第一图片训练集确定得到的;按照测试准确率,将采样的模型进行排序;统计每一卷积层中各个操作项位于排名前预设比例的模型的第一数量,以及位于排名后预定比例的模型的第二数量;根据所述第一数量与所述第二数量之间的差值,在每一卷积层中,保留前第一预置数量所述差值大于0的操作项,并删除未保留的其余操作项;在每一卷积层中删除未保留的其余操作项后,执行本次子训练过程;在超网训练后的每一卷积层中剩余的操作项的数量小于或等于预定个数阈值时,确定训练得到收缩搜索空间后的所述超网;
在收缩搜索空间后的所述超网中,搜索所述目标神经架构。
7.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5中任一项所述的基于深度学习的图像分类方法。
8.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5中任一项所述的基于深度学习的图像分类方法。
CN202010761098.8A 2020-07-31 2020-07-31 基于深度学习的图像分类方法、装置及计算机设备 Active CN111898683B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010761098.8A CN111898683B (zh) 2020-07-31 2020-07-31 基于深度学习的图像分类方法、装置及计算机设备
PCT/CN2020/122131 WO2021151318A1 (zh) 2020-07-31 2020-10-20 基于深度学习的图像分类方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010761098.8A CN111898683B (zh) 2020-07-31 2020-07-31 基于深度学习的图像分类方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111898683A CN111898683A (zh) 2020-11-06
CN111898683B true CN111898683B (zh) 2023-07-28

Family

ID=73184168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010761098.8A Active CN111898683B (zh) 2020-07-31 2020-07-31 基于深度学习的图像分类方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN111898683B (zh)
WO (1) WO2021151318A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734015B (zh) * 2021-01-14 2023-04-07 北京市商汤科技开发有限公司 网络生成方法及装置、电子设备和存储介质
CN113076938B (zh) * 2021-05-06 2023-07-25 广西师范大学 一种结合嵌入式硬件信息的深度学习目标检测方法
CN113780146B (zh) * 2021-09-06 2024-05-10 西安电子科技大学 基于轻量化神经架构搜索的高光谱图像分类方法及***
WO2023055689A1 (en) * 2021-09-29 2023-04-06 Subtle Medical, Inc. Systems and methods for noise-aware self-supervised enhancement of images using deep learning
CN114445674B (zh) * 2021-12-13 2024-06-21 上海悠络客电子科技股份有限公司 一种基于多尺度融合卷积的目标检测模型搜索方法
CN114266769B (zh) * 2022-03-01 2022-06-21 北京鹰瞳科技发展股份有限公司 一种基于神经网络模型进行眼部疾病识别的***及其方法
CN114936625B (zh) * 2022-04-24 2024-03-19 西北工业大学 一种基于神经网络架构搜索的水声通信调制方式识别方法
CN115170973B (zh) * 2022-09-05 2022-12-20 广州艾米生态人工智能农业有限公司 一种智能化稻田杂草识别方法、装置、设备及介质
CN115631388B (zh) * 2022-12-21 2023-03-17 第六镜科技(成都)有限公司 图像分类方法、装置、电子设备及存储介质
CN117173446A (zh) * 2023-06-26 2023-12-05 北京百度网讯科技有限公司 图像分类与训练方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740534A (zh) * 2018-12-29 2019-05-10 北京旷视科技有限公司 图像处理方法、装置及处理设备
CN110414570A (zh) * 2019-07-04 2019-11-05 北京迈格威科技有限公司 图像分类模型生成方法、装置、设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122104A1 (en) * 2017-10-19 2019-04-25 General Electric Company Building a binary neural network architecture
US10223611B1 (en) * 2018-03-08 2019-03-05 Capital One Services, Llc Object detection using image classification models
CN111819580A (zh) * 2018-05-29 2020-10-23 谷歌有限责任公司 用于密集图像预测任务的神经架构搜索

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740534A (zh) * 2018-12-29 2019-05-10 北京旷视科技有限公司 图像处理方法、装置及处理设备
CN110414570A (zh) * 2019-07-04 2019-11-05 北京迈格威科技有限公司 图像分类模型生成方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111898683A (zh) 2020-11-06
WO2021151318A1 (zh) 2021-08-05

Similar Documents

Publication Publication Date Title
CN111898683B (zh) 基于深度学习的图像分类方法、装置及计算机设备
CN111738357B (zh) 垃圾图片的识别方法、装置及设备
US20230297581A1 (en) Method and system for ranking search content
CN108833942A (zh) 视频封面选取方法、装置、计算机设备及存储介质
CN111400615B (zh) 一种资源推荐方法、装置、设备及存储介质
CN110046571B (zh) 用于识别年龄的方法和装置
CN107958247A (zh) 用于人脸图像识别的方法和装置
CN108536753A (zh) 重复信息的确定方法及相关装置
CN110210278A (zh) 一种视频目标检测方法、装置及存储介质
CN112132279A (zh) 卷积神经网络模型压缩方法、装置、设备及存储介质
CN112950640A (zh) 视频人像分割方法、装置、电子设备及存储介质
CN113869282A (zh) 人脸识别方法、超分模型训练方法及相关设备
CN114399028B (zh) 信息处理方法、图卷积神经网络训练方法及电子设备
CN106169961A (zh) 基于人工智能的神经网络的网络参数处理方法及装置
JP2022541832A (ja) 画像を検索するための方法及び装置
CN111405314A (zh) 一种信息处理方法、装置、设备及存储介质
Li et al. CNN model for screen content image quality assessment based on region difference
CN110135428A (zh) 图像分割处理方法和装置
CN113923378A (zh) 视频处理方法、装置、设备及存储介质
CN112990176A (zh) 书写质量评价方法、装置和电子设备
KR101720584B1 (ko) 썸네일 이미지 생성 방법, 서버 및 컴퓨터 프로그램
CN112084959A (zh) 一种人群图像处理方法及装置
CN116959059A (zh) 一种活体检测的方法、装置以及存储介质
CN109948072A (zh) 店铺搜索信息的处理方法、装置及设备
CN113905177A (zh) 视频生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant