CN112598062A - 一种图像识别方法和装置 - Google Patents

一种图像识别方法和装置 Download PDF

Info

Publication number
CN112598062A
CN112598062A CN202011553934.XA CN202011553934A CN112598062A CN 112598062 A CN112598062 A CN 112598062A CN 202011553934 A CN202011553934 A CN 202011553934A CN 112598062 A CN112598062 A CN 112598062A
Authority
CN
China
Prior art keywords
image
classification
network
result
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011553934.XA
Other languages
English (en)
Inventor
黄高
王语霖
吕康晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011553934.XA priority Critical patent/CN112598062A/zh
Publication of CN112598062A publication Critical patent/CN112598062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像识别方法和装置,该方法包括:获取待识别图像;从待识别图像中随机裁剪出具有预设图像大小的图像块;将图像块输入训练好的神经网络分类模型获取图像块的分类结果;根据分类结果确定分类置信度;根据分类置信度确定是否将当前分类结果作为最终图像识别结果;当不能将当前分类结果作为最终图像识别结果时,以迭代计算的形式根据特征图和定位策略网络重新获得下一个图像块,并根据下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为最终图像识别结果。该实施例方案在确保图像分类结果准确率的基础上达到了更好的神经网络加速效果,大大提高了***的运行效率。

Description

一种图像识别方法和装置
技术领域
本文涉及神经网络加速技术,尤指一种图像识别方法和装置。
背景技术
神经网络加速技术指的是利用网络剪枝、权重量化等方法,降低神经网络的计算开销和测试时延,对神经网络的运行过程进行加速,在神经网络模型的实际部署和应用中具有非常广泛的应用。近年来,随着人工智能技术的快速发展,深度卷积神经网络的规模变得越来越大,大规模的卷积神经网络能够处理更复杂的任务,但也带来了巨大的计算和存储资源消耗。对于手机、手环等计算资源有限的移动设备和可穿戴式设备而言,巨大的计算量意味着较高的功耗和运行时延,不利于神经网络在硬件上的部署,制约了神经网络的应用,而通过神经网络加速技术,神经网络模型能够更广泛地应用于各项场景中。
对于神经网络模型计算开销大的问题,自适应推理是一种有效的解决方案,这种方法可以自适应地区分简单样本和困难样本,对于易识别样本采用较少的算力,而对于难识别样本采用较多的算力进行推理,总体上起到节省模型计算资源消耗的效果。尽管一些现有的自适应推理网络技术已经被应用于神经网络加速,但是这些方法往往牺牲了较多的分类准确率,网络加速效果并不理想。
发明内容
本申请实施例提供了一种图像识别方法和装置,能够在确保图像分类结果准确率的基础上,达到更好的神经网络加速效果,大大提高***的运行效率。
本申请提供了一种图像识别方法,所述方法可以包括:
获取待识别图像;
从所述待识别图像中随机裁剪出具有预设图像大小的图像块;
将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果;所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中;
根据所述分类结果确定分类置信度;所述分类置信度是指所述图像块被分类到每种图像类型中的概率;
根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果;其中,当不能将当前分类结果作为最终图像识别结果时,以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。
在本申请的示例性实施例中,所述神经网络分类模型可以包括:特征提取网络和全连接层;
所述将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果可以包括:
将所述图像块输入预先建立并训练好的特征提取网络中,获取特征图,并将所述特征图输入预先建立并训练好的全连接层,获取所述图像块的分类结果。
在本申请的示例性实施例中,所述根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括:
当所述分类置信度大于或等于预设阈值时,确定将当前分类结果作为所述待识别图像的最终图像识别结果;
当所述分类置信度小于所述预设阈值时,确定不能将当前分类结果作为所述待识别图像的最终图像识别结果。
在本申请的示例性实施例中,所述以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括:
41、将上一次获取的特征图输入预先建立的定位策略网络,获取下一步需要裁剪的图像块位置归一化坐标;根据所述图像块位置归一化坐标剪裁下一个图像块;
42、将所述图像块输入预先建立并训练好的特征提取网络中,获取特征图,并将所述特征图输入预先建立并训练好的全连接层,获取所述图像块的分类结果;根据所述分类结果确定分类置信度;
43、根据所述分类置信度确定是否将当前分类结果作为最终图像识别结果;是,进入步骤44;否,返回步骤41;
44、输出当前分类结果。
在本申请的示例性实施例中,所述方法还可以包括:当迭代循环N次后获得的分类置信度仍小于所述预设阈值时,将第N次获得的分类结果作为所述最终图像识别结果;N为正整数,N为预设的迭代次数阈值。
在本申请的示例性实施例中,所述特征提取网络可以包括:多个按照 ResNet(残差神经网络)规则或DenseNet(紧密连接的神经网络)规则排列的函数层;和/或,
所述定位策略网络可以包括:多个卷积层和一个全连接层,所述卷积层和所述全连接层顺序排列。
在本申请的示例性实施例中,所述方法还可以包括:根据下述第一计算式对所述特征提取网络的参数Θg和所述全连接层的参数Θm进行训练:
Figure BDA0002858412400000031
其中,log[·]表示对数函数,
Figure BDA0002858412400000032
表示求得函数值最小时对应的Θg,Θm的值,g(xi,Θg)表示将任意的第i个图像xi输入参数为Θg的特征提取网络g(x,Θg)所得的特征图,
Figure BDA0002858412400000041
表示图像xi对应的分类结果 m(g(xi,Θg),Θm)中的第yi个元素,yi为图像xi中定义的类别标签;
Figure BDA0002858412400000042
表示最终得到的优化后参数;i为正整数。
在本申请的示例性实施例中,训练所述定位策略网络可以包括:
获取训练所需的图像数据组成训练集合
Figure BDA0002858412400000043
并对训练集
Figure BDA0002858412400000044
中的每幅图像标记对应的类别标签为yi
通过迭代计算的方式,根据所述训练集合
Figure BDA0002858412400000045
预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像xi的分类置信度序列 {si0,si1,...,si,N};
根据所述分类置信度序列{si0,si1,...,si,N}计算相邻两次迭代之间的置信度增量Δsi,t+1,其中,Δsi,t+1=si,t+1-si,t
根据所述置信度增量Δsi,t+1和预设的第二计算式对所述定位策略网络的参数
Figure BDA0002858412400000046
进行训练。
在本申请的示例性实施例中,所述通过迭代计算的方式,根据所述训练集合
Figure BDA0002858412400000047
预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像xi的分类置信度序列{si0,si1,...,si,N},可以包括:
81、从所述训练集合
Figure BDA0002858412400000048
中的图像xi中随机裁剪出具有预设图像大小的图像块
Figure BDA0002858412400000049
其中,i是指第i个图像,i为正整数;i≤x,x为训练集合
Figure BDA00028584124000000410
中的图像总数;j是指第j次迭代,j为整数;j≤N,N为预设的迭代次数阈值;
82、将所述图像块
Figure BDA00028584124000000411
输入预先建立并训练好的特征提取网络中,获取特征图fi,j,并将所述特征图fi,j输入预先建立并训练好的全连接层,获取图像块
Figure BDA00028584124000000412
的分类结果ci,j;根据所述分类结果ci,j确定分类置信度si,j
83、检测是否满足j=N。当j=N时,获取分类置信度序列{si0,si1,...,si,N};当j≠N时,进入步骤84;
84、将上一步获得的特征图fi,j输入定位策略网络p中,得到第j+1次迭代所需的图像块的位置归一化坐标;根据所述位置归一化坐标从原图像xi中裁剪得到第j次迭代待处理的图像块
Figure BDA00028584124000000413
采用所述图像块
Figure BDA00028584124000000414
更新所述图像块
Figure BDA0002858412400000051
并返回步骤83。
在本申请的示例性实施例中,所述第二计算式可以包括:
Figure BDA0002858412400000052
其中,Θp表示策略网络p的参数,
Figure BDA0002858412400000053
表示求得使函数值最小的Θp的值,E(·)表示数学期望运算,γ为预先定义的折现率参数,γ在0-1之间;t 为整数,t≤N,N为预设的迭代次数阈值;Δsit=sit-si(t-1)是指图像xi对应的分类置信度序列{si0,si1,...,si,N}中的第t个分类置信度和第t-1个分类置信度的差值,
Figure BDA0002858412400000054
表示最终得到的策略网络参数。
本申请实施例还提供了一种图像识别装置,可以包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任意一项所述的图像识别方法。
与相关技术相比,本申请实施例可以包括:获取待识别图像;从所述待识别图像中随机裁剪出具有预设图像大小的图像块;将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果;所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中;根据所述分类结果确定分类置信度;所述分类置信度是指所述图像块被分类到每种图像类型中的概率;根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果;其中,当不能将当前分类结果作为最终图像识别结果时,以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。通过该实施例方案,实现了在确保图像分类结果准确率的基础上,达到了更好的神经网络加速效果,大大提高了***的运行效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的图像识别方法流程图;
图2为本申请实施例的图像识别装置组成框图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请提供了一种图像识别方法,如图1所示,所述方法可以包括步骤 S101-S105:
S101、获取待识别图像;
S102、从所述待识别图像中随机裁剪出具有预设图像大小的图像块;
S103、将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果;所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中;
S104、根据所述分类结果确定分类置信度;所述分类置信度是指所述图像块被分类到每种图像类型中的概率;
S105、根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果;其中,当不能将当前分类结果作为最终图像识别结果时,以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。
在本申请的示例性实施例中,提出了一种基于视觉注意力机制的神经网络加速方法,可以首先将原始的待识别图像经过随机裁剪后输入神经网络(可以包括神经网络分类模型和定位策略网络)中提取图像特征,根据图像特征生成分类结果和分类置信度;根据分类置信度确定是否将当前分类结果作为最终图像识别结果,如果不能将当前分类结果作为最终图像识别结果,根据图像的特征图决定下一步裁剪图像的中心位置,迭代地生成分类结果及分类置信度,直至取得高置信度分类结果;最终,部署该神经网络用于图像自动识别。
在本申请的示例性实施例中,本申请实施例方案有效解决了基于深度学***台上神经网络的推理过程,大大提高***的运行效率。该方法相比于传统的自适应推理方法能取得更好的加速效果,同时并没有对神经网络的结构进行修改,适用性更广。
在本申请的示例性实施例中,所述神经网络分类模型可以包括:特征提取网络和全连接层;
所述将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果可以包括:
将所述图像块输入预先建立并训练好的特征提取网络中,获取特征图,并将所述特征图输入预先建立并训练好的全连接层,获取所述图像块的分类结果。
在本申请的示例性实施例中,所述以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括步骤A1-D1:
A1、将上一次获取的特征图输入预先建立的定位策略网络,获取下一步需要裁剪的图像块位置归一化坐标;根据所述图像块位置归一化坐标剪裁下一个图像块;
B1、将所述图像块输入预先建立并训练好的特征提取网络中,获取特征图,并将所述特征图输入预先建立并训练好的全连接层,获取所述图像块的分类结果;根据所述分类结果确定分类置信度;
C1、根据所述分类置信度确定是否将当前分类结果作为最终图像识别结果;是,进入步骤D1;否,返回步骤A1;
D1、输出当前分类结果。
在本申请的示例性实施例中,所述根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括:
当所述分类置信度大于或等于预设阈值时,确定将当前分类结果作为所述待识别图像的最终图像识别结果;
当所述分类置信度小于所述预设阈值时,确定不能将当前分类结果作为所述待识别图像的最终图像识别结果。
在本申请的示例性实施例中,基于以上实施例方案,详细图像自动识别方法可以包括:
1、对于每张测试图像x,随机裁剪出图像大小为H′×W′的图像块
Figure BDA0002858412400000091
通过特征提取网络g和全连接层m得到特征图
Figure BDA0002858412400000092
和分类结果
Figure BDA0002858412400000093
设分类置信度为s0=maxci0,当s0≥η时直接输出c0作为识别结果,其中η为预设阈值,取值在0-1之间。
2、当si<η时,其中i=0,1,...,N-1,通过定位策略网络p得到第i+1步处理的图像块位置并裁剪出图像块
Figure BDA0002858412400000094
通过特征提取网络g和全连接层m得到分类结果ci+1和分类置信度si+1。当si+1≥η时输出ci+1作为识别结果,反之重复步骤2。
在本申请的示例性实施例中,所述方法还可以包括:当迭代循环N次后获得的分类置信度仍小于所述预设阈值时,将第N次获得的分类结果作为所述最终图像识别结果;N为正整数,N为预设的迭代次数阈值。
在本申请的示例性实施例中,当第N次迭代获得的分类置信度sN<η时,输出cN作为识别结果。
在本申请的示例性实施例中,在通过上述实施例方案进行图像识别之前,可以预先构建并训练用于分类的神经网络(特征提取网络、全连接层和定位策略网络)。
在本申请的示例性实施例中,可以首先采集训练所需的图像数据作为训练集合
Figure BDA0002858412400000095
其中,训练集合
Figure BDA0002858412400000096
中的第i个图像数据记为xi,xi可以为一个 A×H×W的三维矩阵,每个元素代表图像的像素值,A表示图像的通道数,H 和W分别表示图像的高度和宽度;每个图像xi与一个类别标签yi相对应,yi为一个取值在1和K之间(假设共有K种分类类别,即K种分类识别结果)的整数,用于标明xi所属的类别,标签yi可以由人工标注给出。
在本申请的示例性实施例中,可以建立一个特征提取网络g和一个全连接层m。
在本申请的示例性实施例中,所述特征提取网络可以包括:多个按照ResNet(残差神经网络)规则或DenseNet(紧密连接神经网络)规则排列的函数层。该特征提取网络可以由多个函数层按照ResNet规则或DenseNet规则排列而成。可以设该特征提取网络的参数为Θg,用f=g(x,Θg)表示将图像x输入参数为Θg的神经网络所得的特征图f,为一个Af×Hf×Wf的三维矩阵,Af为特征图的通道数,Hf和Wf分别为特征图的高度和宽度。
在本申请的示例性实施例中,可以设全连接层的参数为Θm,用m(f,Θm)表示将特征图f输入参数为Θm的全连接层得到的输出c,c为K×1的向量,每个元素的取值在0和1之间,K为前述内容中定义的分类类别总数目。
在本申请的示例性实施例中,可以从训练集
Figure BDA0002858412400000101
中的图像xi(其维度可以为前面定义的A×H×W)中随机裁剪出图像大小为H′×W′的图像块
Figure BDA0002858412400000102
其中 H′<H,W′<W,即分别从区间[0,H-H′]和[0,W-W′]中生成随机整数hi0和wi0
在本申请的示例性实施例中,可以依据下述的剪裁计算式对原图像xi进行裁剪获取图像块
Figure BDA0002858412400000103
其大小为H′×W′,左上角横纵坐标分别为hij和wij,两者取值分别在区间[0,H-H′]和[0,W-W′]内。
在本申请的示例性实施例中,所述方法还可以包括:根据下述第一计算式对所述特征提取网络的参数Θg和所述全连接层的参数Θm进行训练:
Figure BDA0002858412400000104
其中,log[·]表示对数函数,
Figure BDA0002858412400000105
表示求得函数值最小时对应的Θg,Θm的值,g(xi,Θg)表示将任意的第i个图像xi输入参数为Θg的特征提取网络 g(x,Θg)所得的特征图,
Figure BDA0002858412400000106
表示图像xi对应的分类结果 m(g(xi,Θg),Θm)中的第yi个元素,yi为图像xi中定义的类别标签;
Figure BDA0002858412400000107
表示最终得到的优化后参数;i为正整数。
在本申请的示例性实施例中,可以将维度为A×H′×W′的三维矩阵,即图像块
Figure BDA0002858412400000111
输入定义的特征提取网络中,得到特征提取网络输出的特征图fi0,再将特征图fi0输入定义的全连接层中,得到全连接层输出的分类结果。并依据上述第一计算式对神经网络g的参数Θg和全连接层m的参数Θm进行训练,
在本申请的示例性实施例中,所述定位策略网络可以包括:多个卷积层和一个全连接层,所述卷积层和所述全连接层顺序排列。
在本申请的示例性实施例中,可以建立一个定位策略网络p,该定位策略网络p可以由多个卷积层和一个全连接层顺序排列而成,可以设定位策略网络 p的参数为Θp,定位策略网络p的输入为定义的特征提取网络得到的特征图f,特征图f的维度为Af×Hf×Wf,p的输出为下一步需要裁剪的图像块位置归一化坐标(h,w),为2×1的向量,向量中每个元素的取值在0和1之间,表示图像块左上角位置占全图的比例。
在本申请的示例性实施例中,训练所述定位策略网络可以包括步骤A2-D2:
A2、获取训练所需的图像数据组成训练集合
Figure BDA0002858412400000112
并对训练集
Figure BDA0002858412400000113
中的每幅图像xi标记对应的类别标签为yi
B2、通过迭代计算的方式,根据所述训练集合
Figure BDA0002858412400000114
预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像xi的分类置信度序列{si0,si1,…,si,N}。
在本申请的示例性实施例中,所述通过迭代计算的方式,根据所述训练集合
Figure BDA0002858412400000115
预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像xi的分类置信度序列{si0,si1,...,si,N},可以包括步骤A3-D3:
A3、从所述训练集合
Figure BDA0002858412400000116
中的图像xi中随机裁剪出具有预设图像大小的图像块
Figure BDA0002858412400000117
其中,i是指第i个图像,i为正整数;i≤x,x为训练集合
Figure BDA0002858412400000118
中的图像总数;j是指第j次迭代,j为整数;j≤N,N为预设的迭代次数阈值;
B3、将所述图像块
Figure BDA0002858412400000119
输入预先建立并训练好的特征提取网络中,获取特征图fi,j,并将所述特征图fi,j输入预先建立并训练好的全连接层,获取图像块
Figure BDA00028584124000001110
的分类结果ci,j;根据所述分类结果ci,j确定分类置信度si,j
C3、检测是否满足j=N。当j=N时,获取分类置信度序列{si0,si1,...,si,N};当j≠N时,进入步骤D3;
D3、将上一步获得的特征图fi,j输入定位策略网络p中,得到第j+1次迭代所需的图像块的位置归一化坐标;根据所述位置归一化坐标从原图像xi中裁剪得到第j次迭代待处理的图像块
Figure BDA0002858412400000121
采用所述图像块
Figure BDA0002858412400000122
更新所述图像块
Figure BDA0002858412400000123
并返回步骤C3。
C2、根据所述分类置信度序列{si0,si1,...,si,N}计算相邻两次迭代之间的置信度增量Δsi,t+1,其中,Δsi,t+1=si,t+1-si,t
D2、根据所述置信度增量Δsi,t+1和预设的第二计算式对所述定位策略网络的参数
Figure BDA0002858412400000124
进行训练。
在本申请的示例性实施例中,所述第二计算式可以包括:
Figure BDA0002858412400000125
其中,Θp表示策略网络p的参数,
Figure BDA0002858412400000126
表示求得使函数值最小的Θp的值,E(·)表示数学期望运算,γ为预先定义的折现率参数,γ在0-1之间;t 为整数,t≤N,N为预设的迭代次数阈值;Δsit=sit-si(t-1)是指图像xi对应的分类置信度序列{si0,si1,...,si,N}中的第t个分类置信度和第t-1个分类置信度的差值,
Figure BDA0002858412400000127
表示最终得到的策略网络参数。
在本申请的示例性实施例中,对于训练集
Figure BDA0002858412400000128
中的每幅图像xi,对应的类别标签为yi,重复步骤A3和B3,得到对应的特征图
Figure BDA0002858412400000129
和分类结果
Figure BDA00028584124000001210
设分类置信度为ci0中类别标签yi所对应的分量,即
Figure BDA00028584124000001211
在本申请的示例性实施例中,可以用fi,j-1表示上一步特征提取网络g得到的特征图,将特征图fi,j-1输入定位策略网络p中,得到第j步所需的图像块位置归一化坐标:(hij,wij)=p(fi,j-1,Θp)。可以根据上述归一化坐标(hij,wij)从原图像xi中裁剪得到第j步待处理图像块
Figure BDA00028584124000001212
Figure BDA00028584124000001213
的大小为H′×W′,左上角横纵坐标分别为hij和wij。可以将图像块
Figure BDA00028584124000001214
输入特征提取网络g和全连接层m,得到特征图及分类结果:
Figure BDA0002858412400000131
分类置信度为
Figure BDA0002858412400000132
在本申请的示例性实施例中,重复上一段的步骤N轮,N为预先指定的参数,一般可以取值为N=5,得到分类置信度序列{si0,si1,...,si,N}。
在本申请的示例性实施例中,相邻两步之间的置信度增量可以为Δsi,t+1=si,t+1-si,t;通过求解如下问题在训练集
Figure BDA0002858412400000133
上训练定位策略网络p:
Figure BDA0002858412400000134
其中,γ为一个预先定义的折现率参数,其大小在0-1之间,通过最小化上式即可得到最优定位策略网络参数
Figure BDA0002858412400000135
在本申请的示例性实施例中,至此,便获得了训练好的特征提取网络、全连接层和定位策略网络,基于这些训练好的神经网络,根据步骤S101-步骤 S105便可以实现图像的自动识别。
在本申请的示例性实施例中,本申请实施例方案至少包括以下优势:
1、本申请实施例方案有效解决了基于深度学***台上神经网络模型的推理过程,大大提高***的运行效率。此外,相比于其他自适应推理方法,本实施例方法不对神经网络的结构和参数进行修改,同时也能够与其他网络剪枝、知识蒸馏、权重量化方法兼容使用,具有高效易用的特点。
2、深度卷积神经网络巨大的计算资源消耗不利于网络模型在移动设备等实际***上部署。针对这一点,本申请实施例方案采用自适应推理的方法动态地决定处理每个输入图像的网络大小(即采用图像块),进而自适应地决定每个输入图像消耗的算力多少,实现了以更小的计算开销取得相同的准确率,极大地节省了在计算资源有限设备上深度卷积神经网络的部署成本。
3、其他用于神经网络加速的自适应推理方法往往直接对网络模型进行修改,如在网络中嵌入多级分类器实现自适应推理。本申请实施例引入一种基于视觉注意力机制的自适应推理方法,采用从原图中裁剪得到的更小尺寸的图像块作为输入,通过选取图像块数量的决定网络采用的算力多少实现自适应推理,而没有对神经网络的结构进行修改。本申请实施例也可以与其他神经网络压缩和加速方法兼容使用,如网络剪枝、知识蒸馏等,进一步提高网络模型的加速效果。
本申请实施例还提供了一种图像识别装置1,如图2所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现上述任意一项所述的图像识别方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;
从所述待识别图像中随机裁剪出具有预设图像大小的图像块;
将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果;所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中;
根据所述分类结果确定分类置信度;所述分类置信度是指所述图像块被分类到每种图像类型中的概率;
根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果;其中,当不能将当前分类结果作为最终图像识别结果时,以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。
2.根据权利要求1所述的图像识别方法,其特征在于,所述神经网络分类模型包括:特征提取网络和全连接层;
所述将所述图像块输入预先训练好的神经网络分类模型,获取所述图像块的分类结果包括:
将所述图像块输入预先建立并训练好的特征提取网络中,获取特征图,并将所述特征图输入预先建立并训练好的全连接层,获取所述图像块的分类结果。
3.根据权利要求1所述的图像识别方法,其特征在于,所述根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果包括:
当所述分类置信度大于或等于预设阈值时,确定将当前分类结果作为所述待识别图像的最终图像识别结果;
当所述分类置信度小于所述预设阈值时,确定不能将当前分类结果作为所述待识别图像的最终图像识别结果。
4.根据权利要求2所述的图像识别方法,其特征在于,所述以迭代计算的形式,根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块,并根据所述下一个图像块获取下一个分类置信度,直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果包括:
41、将上一次获取的特征图输入预先建立的定位策略网络,获取下一步需要裁剪的图像块位置归一化坐标;根据所述图像块位置归一化坐标剪裁下一个图像块;
42、将所述图像块输入预先建立并训练好的特征提取网络中,获取特征图,并将所述特征图输入预先建立并训练好的全连接层,获取所述图像块的分类结果;根据所述分类结果确定分类置信度;
43、根据所述分类置信度确定是否将当前分类结果作为最终图像识别结果;是,进入步骤44;否,返回步骤41;
44、输出当前分类结果。
5.根据权利要求2或4所述的图像识别方法,其特征在于,
所述特征提取网络包括:多个按照残差神经网络ResNet规则或紧密连接的神经网络DenseNet规则排列的函数层;和/或,
所述定位策略网络包括:多个卷积层和一个全连接层,所述卷积层和所述全连接层顺序排列。
6.根据权利要求5所述的图像识别方法,其特征在于,所述方法还包括:根据下述第一计算式对所述特征提取网络的参数Θg和所述全连接层的参数Θm进行训练:
Figure FDA0002858412390000021
其中,log[·]表示对数函数,表示求得函数值最小时对应的Θg、Θm的值,g(xi,Θg)表示将任意的第i个图像xi输入参数为Θg的特征提取网络g(x,Θg)所得的特征图,
Figure FDA0002858412390000031
表示图像xi对应的分类结果m(g(xi,Θg),Θm)中的第yi个元素,yi为图像xi中定义的类别标签;
Figure FDA0002858412390000032
表示最终得到的优化后参数;i为正整数。
7.根据权利要求5所述的图像识别方法,其特征在于,训练所述定位策略网络包括:
获取训练所需的图像数据组成训练集合
Figure FDA0002858412390000033
并对训练集
Figure FDA0002858412390000034
中的每幅图像xi标记对应的类别标签为yi
通过迭代计算的方式,根据所述训练集合
Figure FDA0002858412390000035
预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像xi的分类置信度序列{si0,si1,...,si,N};
根据所述分类置信度序列{si0,si1,...,si,N}计算相邻两次迭代之间的置信度增量Δsi,t+1,其中,Δsi,t+1=si,t+1-si,t
根据所述置信度增量Δsi,t+1和预设的第二计算式对所述定位策略网络的参数
Figure FDA0002858412390000036
进行训练。
8.根据权利要求7所述的图像识别方法,其特征在于,所述通过迭代计算的方式,根据所述训练集合
Figure FDA0002858412390000037
预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像xi的分类置信度序列{si0,si1,...,si,N},包括:
81、从所述训练集合
Figure FDA0002858412390000038
中的图像xi中随机裁剪出具有预设图像大小的图像块
Figure FDA0002858412390000039
其中,i是指第i个图像,i为正整数;i≤x,x为训练集合
Figure FDA00028584123900000310
中的图像总数;j是指第j次迭代,j为整数;j≤N,N为预设的迭代次数阈值;
82、将所述图像块
Figure FDA00028584123900000312
输入预先建立并训练好的特征提取网络中,获取特征图fi,j,并将所述特征图fi,j输入预先建立并训练好的全连接层,获取图像块
Figure FDA00028584123900000311
的分类结果ci,j;根据所述分类结果ci,j确定分类置信度si,j
83、检测是否满足j=N。当j=N时,获取分类置信度序列{si0,si1,...,si,N};当j≠N时,进入步骤84;
84、将上一步获得的特征图fi,j输入定位策略网络p中,得到第j+1次迭代所需的图像块的位置归一化坐标;根据所述位置归一化坐标从原图像xi中裁剪得到第j次迭代待处理的图像块
Figure FDA0002858412390000041
采用所述图像块
Figure FDA0002858412390000042
更新所述图像块
Figure FDA0002858412390000043
并返回步骤83。
9.根据权利要求7所述的图像识别方法,其特征在于,所述第二计算式包括:
Figure FDA0002858412390000044
其中,Θp表示策略网络p的参数,
Figure FDA0002858412390000045
表示求得使函数值最小的Θp的值,E(·)表示数学期望运算,γ为预先定义的折现率参数,γ在0-1之间;t为整数,t≤N,N为预设的迭代次数阈值;Δsit=sit-si(t-1)是指图像xi对应的分类置信度序列{si0,si1,...,si,N}中的第t个分类置信度和第t-1个分类置信度的差值,
Figure FDA0002858412390000046
表示最终得到的策略网络参数。
10.一种图像识别装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-9任意一项所述的图像识别方法。
CN202011553934.XA 2020-12-24 2020-12-24 一种图像识别方法和装置 Pending CN112598062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011553934.XA CN112598062A (zh) 2020-12-24 2020-12-24 一种图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011553934.XA CN112598062A (zh) 2020-12-24 2020-12-24 一种图像识别方法和装置

Publications (1)

Publication Number Publication Date
CN112598062A true CN112598062A (zh) 2021-04-02

Family

ID=75202581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011553934.XA Pending CN112598062A (zh) 2020-12-24 2020-12-24 一种图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN112598062A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095307A (zh) * 2021-06-09 2021-07-09 国网浙江省电力有限公司 一种财务凭证信息自动识别方法
CN115546672A (zh) * 2022-11-30 2022-12-30 广州天地林业有限公司 基于图像处理的森林图片处理方法及***
CN116758359A (zh) * 2023-08-16 2023-09-15 腾讯科技(深圳)有限公司 图像识别方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027605A (zh) * 2019-11-28 2020-04-17 北京影谱科技股份有限公司 基于深度学习的细粒度图像识别方法和装置
CN111460862A (zh) * 2019-01-21 2020-07-28 中科星图股份有限公司 基于神经网络的遥感图像地物提取方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460862A (zh) * 2019-01-21 2020-07-28 中科星图股份有限公司 基于神经网络的遥感图像地物提取方法及***
CN111027605A (zh) * 2019-11-28 2020-04-17 北京影谱科技股份有限公司 基于深度学习的细粒度图像识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YULIN WANG ET AL.: "Glance and Focus: a Dynamic Approach to Reducing", 《ARXIV》 *
刘栋等: "深度学习及其在图像物体分类与检测中的应用综述", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095307A (zh) * 2021-06-09 2021-07-09 国网浙江省电力有限公司 一种财务凭证信息自动识别方法
CN115546672A (zh) * 2022-11-30 2022-12-30 广州天地林业有限公司 基于图像处理的森林图片处理方法及***
CN115546672B (zh) * 2022-11-30 2023-03-24 广州天地林业有限公司 基于图像处理的森林图片处理方法及***
CN116758359A (zh) * 2023-08-16 2023-09-15 腾讯科技(深圳)有限公司 图像识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109711481B (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
CN110232394B (zh) 一种多尺度图像语义分割方法
CN106599900B (zh) 一种识别图像中的字符串的方法和装置
CN112598062A (zh) 一种图像识别方法和装置
WO2022006919A1 (zh) 基于激活定点拟合的卷积神经网络训练后量化方法及***
CN109086722B (zh) 混合车牌识别方法、装置、电子设备
CN109919183B (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
CN110874550A (zh) 数据处理方法、装置、设备和***
CN110782022A (zh) 一种面向可编程逻辑器件移动终端的小型神经网络的实现方法
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN110298394B (zh) 一种图像识别方法和相关装置
CN108875693A (zh) 一种图像处理方法、装置、电子设备及其存储介质
CN112464057A (zh) 一种网络数据分类方法、装置、设备及可读存储介质
CN114663685B (zh) 一种行人重识别模型训练的方法、装置和设备
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN111178039A (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
JP2015036939A (ja) 特徴抽出プログラム及び情報処理装置
CN111353534B (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN116863194A (zh) 一种足溃疡图像分类方法、***、设备及介质
CN114299304A (zh) 一种图像处理方法及相关设备
US11429771B2 (en) Hardware-implemented argmax layer
CN111126501B (zh) 一种图像识别方法、终端设备及存储介质
CN110163206B (zh) 车牌识别方法、***、存储介质和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210402