CN112598062A

CN112598062A - 一种图像识别方法和装置

Info

Publication number: CN112598062A
Application number: CN202011553934.XA
Authority: CN
Inventors: 黄高; 王语霖; 吕康晨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-02

Abstract

本申请实施例提供了一种图像识别方法和装置，该方法包括：获取待识别图像；从待识别图像中随机裁剪出具有预设图像大小的图像块；将图像块输入训练好的神经网络分类模型获取图像块的分类结果；根据分类结果确定分类置信度；根据分类置信度确定是否将当前分类结果作为最终图像识别结果；当不能将当前分类结果作为最终图像识别结果时，以迭代计算的形式根据特征图和定位策略网络重新获得下一个图像块，并根据下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为最终图像识别结果。该实施例方案在确保图像分类结果准确率的基础上达到了更好的神经网络加速效果，大大提高了***的运行效率。

Description

一种图像识别方法和装置

技术领域

本文涉及神经网络加速技术，尤指一种图像识别方法和装置。

背景技术

神经网络加速技术指的是利用网络剪枝、权重量化等方法，降低神经网络的计算开销和测试时延，对神经网络的运行过程进行加速，在神经网络模型的实际部署和应用中具有非常广泛的应用。近年来，随着人工智能技术的快速发展，深度卷积神经网络的规模变得越来越大，大规模的卷积神经网络能够处理更复杂的任务，但也带来了巨大的计算和存储资源消耗。对于手机、手环等计算资源有限的移动设备和可穿戴式设备而言，巨大的计算量意味着较高的功耗和运行时延，不利于神经网络在硬件上的部署，制约了神经网络的应用，而通过神经网络加速技术，神经网络模型能够更广泛地应用于各项场景中。

对于神经网络模型计算开销大的问题，自适应推理是一种有效的解决方案，这种方法可以自适应地区分简单样本和困难样本，对于易识别样本采用较少的算力，而对于难识别样本采用较多的算力进行推理，总体上起到节省模型计算资源消耗的效果。尽管一些现有的自适应推理网络技术已经被应用于神经网络加速，但是这些方法往往牺牲了较多的分类准确率，网络加速效果并不理想。

发明内容

本申请实施例提供了一种图像识别方法和装置，能够在确保图像分类结果准确率的基础上，达到更好的神经网络加速效果，大大提高***的运行效率。

本申请提供了一种图像识别方法，所述方法可以包括：

获取待识别图像；

从所述待识别图像中随机裁剪出具有预设图像大小的图像块；

将所述图像块输入预先训练好的神经网络分类模型，获取所述图像块的分类结果；所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中；

根据所述分类结果确定分类置信度；所述分类置信度是指所述图像块被分类到每种图像类型中的概率；

根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果；其中，当不能将当前分类结果作为最终图像识别结果时，以迭代计算的形式，根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块，并根据所述下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。

在本申请的示例性实施例中，所述神经网络分类模型可以包括：特征提取网络和全连接层；

所述将所述图像块输入预先训练好的神经网络分类模型，获取所述图像块的分类结果可以包括：

将所述图像块输入预先建立并训练好的特征提取网络中，获取特征图，并将所述特征图输入预先建立并训练好的全连接层，获取所述图像块的分类结果。

在本申请的示例性实施例中，所述根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括：

当所述分类置信度大于或等于预设阈值时，确定将当前分类结果作为所述待识别图像的最终图像识别结果；

当所述分类置信度小于所述预设阈值时，确定不能将当前分类结果作为所述待识别图像的最终图像识别结果。

在本申请的示例性实施例中，所述以迭代计算的形式，根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块，并根据所述下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括：

41、将上一次获取的特征图输入预先建立的定位策略网络，获取下一步需要裁剪的图像块位置归一化坐标；根据所述图像块位置归一化坐标剪裁下一个图像块；

42、将所述图像块输入预先建立并训练好的特征提取网络中，获取特征图，并将所述特征图输入预先建立并训练好的全连接层，获取所述图像块的分类结果；根据所述分类结果确定分类置信度；

43、根据所述分类置信度确定是否将当前分类结果作为最终图像识别结果；是，进入步骤44；否，返回步骤41；

44、输出当前分类结果。

在本申请的示例性实施例中，所述方法还可以包括：当迭代循环N次后获得的分类置信度仍小于所述预设阈值时，将第N次获得的分类结果作为所述最终图像识别结果；N为正整数，N为预设的迭代次数阈值。

在本申请的示例性实施例中，所述特征提取网络可以包括：多个按照 ResNet(残差神经网络)规则或DenseNet(紧密连接的神经网络)规则排列的函数层；和/或，

所述定位策略网络可以包括：多个卷积层和一个全连接层，所述卷积层和所述全连接层顺序排列。

在本申请的示例性实施例中，所述方法还可以包括：根据下述第一计算式对所述特征提取网络的参数Θ_g和所述全连接层的参数Θ_m进行训练：

其中，log[·]表示对数函数，

表示求得函数值最小时对应的Θ_g，Θ_m的值，g(x_i，Θ_g)表示将任意的第i个图像x_i输入参数为Θ_g的特征提取网络g(x，Θ_g)所得的特征图，

表示图像x_i对应的分类结果 m(g(x_i，Θ_g)，Θ_m)中的第y_i个元素，y_i为图像x_i中定义的类别标签；

表示最终得到的优化后参数；i为正整数。

在本申请的示例性实施例中，训练所述定位策略网络可以包括：

获取训练所需的图像数据组成训练集合

并对训练集

中的每幅图像标记对应的类别标签为y_i；

通过迭代计算的方式，根据所述训练集合

预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像x_i的分类置信度序列 {s_i0，s_i1，...，s_i，N}；

根据所述分类置信度序列{s_i0，s_i1，...，s_i，N}计算相邻两次迭代之间的置信度增量Δs_i，t+1，其中，Δs_i，t+1＝s_i，t+1-s_i，t；

根据所述置信度增量Δs_i，t+1和预设的第二计算式对所述定位策略网络的参数

进行训练。

在本申请的示例性实施例中，所述通过迭代计算的方式，根据所述训练集合

预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像x_i的分类置信度序列{s_i0，s_i1，...，s_i，N}，可以包括：

81、从所述训练集合

中的图像x_i中随机裁剪出具有预设图像大小的图像块

其中，i是指第i个图像，i为正整数；i≤x，x为训练集合

中的图像总数；j是指第j次迭代，j为整数；j≤N，N为预设的迭代次数阈值；

82、将所述图像块

输入预先建立并训练好的特征提取网络中，获取特征图f_i，j，并将所述特征图f_i，j输入预先建立并训练好的全连接层，获取图像块

的分类结果c_i，j；根据所述分类结果c_i，j确定分类置信度s_i，j；

83、检测是否满足j＝N。当j＝N时，获取分类置信度序列{s_i0，s_i1，...，s_i，N}；当j≠N时，进入步骤84；

84、将上一步获得的特征图f_i，j输入定位策略网络p中，得到第j+1次迭代所需的图像块的位置归一化坐标；根据所述位置归一化坐标从原图像x_i中裁剪得到第j次迭代待处理的图像块

采用所述图像块

更新所述图像块

并返回步骤83。

在本申请的示例性实施例中，所述第二计算式可以包括：

其中，Θ_p表示策略网络p的参数，

表示求得使函数值最小的Θ_p的值，E(·)表示数学期望运算，γ为预先定义的折现率参数，γ在0-1之间；t 为整数，t≤N，N为预设的迭代次数阈值；Δs_it＝s_it-s_i(t-1)是指图像x_i对应的分类置信度序列{s_i0，s_i1，...，s_i，N}中的第t个分类置信度和第t-1个分类置信度的差值，

表示最终得到的策略网络参数。

本申请实施例还提供了一种图像识别装置，可以包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现上述任意一项所述的图像识别方法。

与相关技术相比，本申请实施例可以包括：获取待识别图像；从所述待识别图像中随机裁剪出具有预设图像大小的图像块；将所述图像块输入预先训练好的神经网络分类模型，获取所述图像块的分类结果；所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中；根据所述分类结果确定分类置信度；所述分类置信度是指所述图像块被分类到每种图像类型中的概率；根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果；其中，当不能将当前分类结果作为最终图像识别结果时，以迭代计算的形式，根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块，并根据所述下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。通过该实施例方案，实现了在确保图像分类结果准确率的基础上，达到了更好的神经网络加速效果，大大提高了***的运行效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例的图像识别方法流程图；

图2为本申请实施例的图像识别装置组成框图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本申请提供了一种图像识别方法，如图1所示，所述方法可以包括步骤 S101-S105：

S101、获取待识别图像；

S102、从所述待识别图像中随机裁剪出具有预设图像大小的图像块；

S103、将所述图像块输入预先训练好的神经网络分类模型，获取所述图像块的分类结果；所述分类结果是指所述图像块被分类到预设的一种或多种图像类型中；

S104、根据所述分类结果确定分类置信度；所述分类置信度是指所述图像块被分类到每种图像类型中的概率；

S105、根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果；其中，当不能将当前分类结果作为最终图像识别结果时，以迭代计算的形式，根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块，并根据所述下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果。

在本申请的示例性实施例中，提出了一种基于视觉注意力机制的神经网络加速方法，可以首先将原始的待识别图像经过随机裁剪后输入神经网络(可以包括神经网络分类模型和定位策略网络)中提取图像特征，根据图像特征生成分类结果和分类置信度；根据分类置信度确定是否将当前分类结果作为最终图像识别结果，如果不能将当前分类结果作为最终图像识别结果，根据图像的特征图决定下一步裁剪图像的中心位置，迭代地生成分类结果及分类置信度，直至取得高置信度分类结果；最终，部署该神经网络用于图像自动识别。

在本申请的示例性实施例中，本申请实施例方案有效解决了基于深度学***台上神经网络的推理过程，大大提高***的运行效率。该方法相比于传统的自适应推理方法能取得更好的加速效果，同时并没有对神经网络的结构进行修改，适用性更广。

在本申请的示例性实施例中，所述以迭代计算的形式，根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块，并根据所述下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果可以包括步骤A1-D1：

A1、将上一次获取的特征图输入预先建立的定位策略网络，获取下一步需要裁剪的图像块位置归一化坐标；根据所述图像块位置归一化坐标剪裁下一个图像块；

B1、将所述图像块输入预先建立并训练好的特征提取网络中，获取特征图，并将所述特征图输入预先建立并训练好的全连接层，获取所述图像块的分类结果；根据所述分类结果确定分类置信度；

C1、根据所述分类置信度确定是否将当前分类结果作为最终图像识别结果；是，进入步骤D1；否，返回步骤A1；

D1、输出当前分类结果。

在本申请的示例性实施例中，基于以上实施例方案，详细图像自动识别方法可以包括：

1、对于每张测试图像x，随机裁剪出图像大小为H′×W′的图像块

通过特征提取网络g和全连接层m得到特征图

和分类结果

设分类置信度为s₀＝maxc_i0，当s₀≥η时直接输出c₀作为识别结果，其中η为预设阈值，取值在0-1之间。

2、当s_i＜η时，其中i＝0，1，...，N-1，通过定位策略网络p得到第i+1步处理的图像块位置并裁剪出图像块

通过特征提取网络g和全连接层m得到分类结果c_i+1和分类置信度s_i+1。当s_i+1≥η时输出c_i+1作为识别结果，反之重复步骤2。

在本申请的示例性实施例中，当第N次迭代获得的分类置信度s_N＜η时，输出c_N作为识别结果。

在本申请的示例性实施例中，在通过上述实施例方案进行图像识别之前，可以预先构建并训练用于分类的神经网络(特征提取网络、全连接层和定位策略网络)。

在本申请的示例性实施例中，可以首先采集训练所需的图像数据作为训练集合

其中，训练集合

中的第i个图像数据记为x_i，x_i可以为一个 A×H×W的三维矩阵，每个元素代表图像的像素值，A表示图像的通道数，H 和W分别表示图像的高度和宽度；每个图像x_i与一个类别标签y_i相对应，y_i为一个取值在1和K之间(假设共有K种分类类别，即K种分类识别结果)的整数，用于标明x_i所属的类别，标签y_i可以由人工标注给出。

在本申请的示例性实施例中，可以建立一个特征提取网络g和一个全连接层m。

在本申请的示例性实施例中，所述特征提取网络可以包括：多个按照ResNet(残差神经网络)规则或DenseNet(紧密连接神经网络)规则排列的函数层。该特征提取网络可以由多个函数层按照ResNet规则或DenseNet规则排列而成。可以设该特征提取网络的参数为Θ_g，用f＝g(x，Θ_g)表示将图像x输入参数为Θ_g的神经网络所得的特征图f，为一个A_f×H_f×W_f的三维矩阵，A_f为特征图的通道数，H_f和W_f分别为特征图的高度和宽度。

在本申请的示例性实施例中，可以设全连接层的参数为Θ_m，用m(f，Θ_m)表示将特征图f输入参数为Θ_m的全连接层得到的输出c，c为K×1的向量，每个元素的取值在0和1之间，K为前述内容中定义的分类类别总数目。

在本申请的示例性实施例中，可以从训练集

中的图像x_i(其维度可以为前面定义的A×H×W)中随机裁剪出图像大小为H′×W′的图像块

其中 H′＜H，W′＜W，即分别从区间[0，H-H′]和[0，W-W′]中生成随机整数h_i0和w_i0。

在本申请的示例性实施例中，可以依据下述的剪裁计算式对原图像x_i进行裁剪获取图像块

其大小为H′×W′，左上角横纵坐标分别为h_ij和w_ij，两者取值分别在区间[0，H-H′]和[0，W-W′]内。

其中，log[·]表示对数函数，

表示求得函数值最小时对应的Θ_g，Θ_m的值，g(x_i，Θ_g)表示将任意的第i个图像x_i输入参数为Θ_g的特征提取网络 g(x，Θ_g)所得的特征图，

表示最终得到的优化后参数；i为正整数。

在本申请的示例性实施例中，可以将维度为A×H′×W′的三维矩阵，即图像块

输入定义的特征提取网络中，得到特征提取网络输出的特征图f_i0，再将特征图f_i0输入定义的全连接层中，得到全连接层输出的分类结果。并依据上述第一计算式对神经网络g的参数Θ_g和全连接层m的参数Θ_m进行训练，

在本申请的示例性实施例中，所述定位策略网络可以包括：多个卷积层和一个全连接层，所述卷积层和所述全连接层顺序排列。

在本申请的示例性实施例中，可以建立一个定位策略网络p，该定位策略网络p可以由多个卷积层和一个全连接层顺序排列而成，可以设定位策略网络 p的参数为Θ_p，定位策略网络p的输入为定义的特征提取网络得到的特征图f，特征图f的维度为A_f×H_f×W_f，p的输出为下一步需要裁剪的图像块位置归一化坐标(h，w)，为2×1的向量,向量中每个元素的取值在0和1之间，表示图像块左上角位置占全图的比例。

在本申请的示例性实施例中，训练所述定位策略网络可以包括步骤A2-D2：

A2、获取训练所需的图像数据组成训练集合

并对训练集

中的每幅图像x_i标记对应的类别标签为y_i。

B2、通过迭代计算的方式，根据所述训练集合

预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像x_i的分类置信度序列{s_i0，s_i1，…，s_i，N}。

预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像x_i的分类置信度序列{s_i0，s_i1，...，s_i，N}，可以包括步骤A3-D3：

A3、从所述训练集合

中的图像x_i中随机裁剪出具有预设图像大小的图像块

其中，i是指第i个图像，i为正整数；i≤x，x为训练集合

B3、将所述图像块

C3、检测是否满足j＝N。当j＝N时，获取分类置信度序列{s_i0，s_i1，...，s_i，N}；当j≠N时，进入步骤D3；

D3、将上一步获得的特征图f_i，j输入定位策略网络p中，得到第j+1次迭代所需的图像块的位置归一化坐标；根据所述位置归一化坐标从原图像x_i中裁剪得到第j次迭代待处理的图像块

采用所述图像块

更新所述图像块

并返回步骤C3。

C2、根据所述分类置信度序列{s_i0，s_i1，...，s_i，N}计算相邻两次迭代之间的置信度增量Δs_i，t+1，其中，Δs_i，t+1＝s_i，t+1-s_i，t。

D2、根据所述置信度增量Δs_i，t+1和预设的第二计算式对所述定位策略网络的参数

进行训练。

在本申请的示例性实施例中，所述第二计算式可以包括：

其中，Θ_p表示策略网络p的参数，

表示最终得到的策略网络参数。

在本申请的示例性实施例中，对于训练集

中的每幅图像x_i，对应的类别标签为y_i，重复步骤A3和B3，得到对应的特征图

和分类结果

设分类置信度为c_i0中类别标签y_i所对应的分量，即

在本申请的示例性实施例中，可以用f_i，j-1表示上一步特征提取网络g得到的特征图，将特征图f_i，j-1输入定位策略网络p中，得到第j步所需的图像块位置归一化坐标：(h_ij，w_ij)＝p(f_i，j-1，Θ_p)。可以根据上述归一化坐标(h_ij，w_ij)从原图像x_i中裁剪得到第j步待处理图像块

的大小为H′×W′，左上角横纵坐标分别为h_ij和w_ij。可以将图像块

输入特征提取网络g和全连接层m，得到特征图及分类结果：

分类置信度为

在本申请的示例性实施例中，重复上一段的步骤N轮，N为预先指定的参数，一般可以取值为N＝5，得到分类置信度序列{s_i0，s_i1，...，s_i，N}。

在本申请的示例性实施例中，相邻两步之间的置信度增量可以为Δs_i，t+1＝s_i，t+1-s_i，t；通过求解如下问题在训练集

上训练定位策略网络p：

其中，γ为一个预先定义的折现率参数，其大小在0-1之间，通过最小化上式即可得到最优定位策略网络参数

在本申请的示例性实施例中，至此，便获得了训练好的特征提取网络、全连接层和定位策略网络，基于这些训练好的神经网络，根据步骤S101-步骤 S105便可以实现图像的自动识别。

在本申请的示例性实施例中，本申请实施例方案至少包括以下优势：

1、本申请实施例方案有效解决了基于深度学***台上神经网络模型的推理过程，大大提高***的运行效率。此外，相比于其他自适应推理方法，本实施例方法不对神经网络的结构和参数进行修改，同时也能够与其他网络剪枝、知识蒸馏、权重量化方法兼容使用，具有高效易用的特点。

2、深度卷积神经网络巨大的计算资源消耗不利于网络模型在移动设备等实际***上部署。针对这一点，本申请实施例方案采用自适应推理的方法动态地决定处理每个输入图像的网络大小(即采用图像块)，进而自适应地决定每个输入图像消耗的算力多少，实现了以更小的计算开销取得相同的准确率，极大地节省了在计算资源有限设备上深度卷积神经网络的部署成本。

3、其他用于神经网络加速的自适应推理方法往往直接对网络模型进行修改，如在网络中嵌入多级分类器实现自适应推理。本申请实施例引入一种基于视觉注意力机制的自适应推理方法，采用从原图中裁剪得到的更小尺寸的图像块作为输入，通过选取图像块数量的决定网络采用的算力多少实现自适应推理，而没有对神经网络的结构进行修改。本申请实施例也可以与其他神经网络压缩和加速方法兼容使用，如网络剪枝、知识蒸馏等，进一步提高网络模型的加速效果。

本申请实施例还提供了一种图像识别装置1，如图2所示，可以包括处理器11和计算机可读存储介质12，所述计算机可读存储介质12中存储有指令，当所述指令被所述处理器11执行时，实现上述任意一项所述的图像识别方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

2.根据权利要求1所述的图像识别方法，其特征在于，所述神经网络分类模型包括：特征提取网络和全连接层；

所述将所述图像块输入预先训练好的神经网络分类模型，获取所述图像块的分类结果包括：

3.根据权利要求1所述的图像识别方法，其特征在于，所述根据所述分类置信度确定是否将当前分类结果作为对应的待识别图像的最终图像识别结果包括：

4.根据权利要求2所述的图像识别方法，其特征在于，所述以迭代计算的形式，根据所述特征图和预先建立并训练好的定位策略网络重新获得下一个图像块，并根据所述下一个图像块获取下一个分类置信度，直至根据获得的分类置信度确定出将当前分类结果作为对应的待识别图像的最终图像识别结果包括：

44、输出当前分类结果。

5.根据权利要求2或4所述的图像识别方法，其特征在于，

所述特征提取网络包括：多个按照残差神经网络ResNet规则或紧密连接的神经网络DenseNet规则排列的函数层；和/或，

所述定位策略网络包括：多个卷积层和一个全连接层，所述卷积层和所述全连接层顺序排列。

6.根据权利要求5所述的图像识别方法，其特征在于，所述方法还包括：根据下述第一计算式对所述特征提取网络的参数Θ_g和所述全连接层的参数Θ_m进行训练：

其中，log[·]表示对数函数，表示求得函数值最小时对应的Θ_g、Θ_m的值，g(x_i，Θ_g)表示将任意的第i个图像x_i输入参数为Θ_g的特征提取网络g(x，Θ_g)所得的特征图，

表示图像x_i对应的分类结果m(g(x_i，Θ_g)，Θ_m)中的第y_i个元素，y_i为图像x_i中定义的类别标签；

表示最终得到的优化后参数；i为正整数。

7.根据权利要求5所述的图像识别方法，其特征在于，训练所述定位策略网络包括：

获取训练所需的图像数据组成训练集合

并对训练集

中的每幅图像x_i标记对应的类别标签为y_i；

通过迭代计算的方式，根据所述训练集合

预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像x_i的分类置信度序列{s_i0，s_i1，...，s_i，N}；

进行训练。

8.根据权利要求7所述的图像识别方法，其特征在于，所述通过迭代计算的方式，根据所述训练集合

预先建立并训练好的特征提取网络以及预先建立并训练好的全连接层获取图像x_i的分类置信度序列{s_i0，s_i1，...，s_i，N}，包括：

81、从所述训练集合

中的图像x_i中随机裁剪出具有预设图像大小的图像块

其中，i是指第i个图像，i为正整数；i≤x，x为训练集合

82、将所述图像块

采用所述图像块

更新所述图像块

并返回步骤83。

9.根据权利要求7所述的图像识别方法，其特征在于，所述第二计算式包括：

其中，Θ_p表示策略网络p的参数，

表示求得使函数值最小的Θ_p的值，E(·)表示数学期望运算，γ为预先定义的折现率参数，γ在0-1之间；t为整数，t≤N，N为预设的迭代次数阈值；Δs_it＝s_it-s_i(t-1)是指图像x_i对应的分类置信度序列{s_i0，s_i1，...，s_i，N}中的第t个分类置信度和第t-1个分类置信度的差值，

表示最终得到的策略网络参数。

10.一种图像识别装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1-9任意一项所述的图像识别方法。