CN111680698A

CN111680698A - 图像识别方法、装置及图像识别模型的训练方法、装置

Info

Publication number: CN111680698A
Application number: CN202010318743.9A
Authority: CN
Inventors: 康丽萍; 魏晓明
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-18

Abstract

本申请公开了一种图像识别方法、装置及图像识别模型的训练方法、装置，所述图像识别模型的训练方法包括：获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；基于各通道特征图的相关性确定多个注意力图；基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域；利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。通过本申请训练得到的图像识别模型具有较强的特征表达能力，能够对图像中的细粒度特征进行识别，并能达到较高的图像识别准确度，提升了图像细粒度识别性能。

Description

图像识别方法、装置及图像识别模型的训练方法、装置

技术领域

本申请涉及图像识别技术领域，具体涉及一种图像识别方法、装置及图像识别模型的训练方法、装置。

背景技术

传统的图像识别一般都是识别花、鸟、汽车等不同类别的物体，而细粒度图像识别也已经成为计算机视觉领域的一个重要研究课题，细粒度分类(Fine-Grained VisualCategorization，简称FGVC)是为了解决“类内分类”问题，即可以用于识别同一类物体下的不同子类，对相近的基础类别进行更细致的子类划分。

然而由于存在类间方差较小，而类内方差较大的问题，相比普通的图像分类方法，细粒度图像识别难度更大。细粒度图像识别在线上购物或消费等多个业务场景中均具有较大的应用价值，因此如何提升细粒度图像识别模型的特征表达能力，增强细粒度类别之间的区分性，是目前亟待解决的技术问题。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的图像识别方法、装置及图像识别模型的训练方法、装置。

依据本申请的第一方面，提供了一种图像识别模型的训练方法，包括：

获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；

基于各通道特征图的相关性确定多个注意力图；

基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域；

利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。

可选地，所述基于各通道特征图的相关性确定多个注意力图包括：

对各通道特征图分别进行全局池化处理，得到各通道特征图的全局特征；

基于各全局特征确定各通道特征图之间的相关性，根据所述相关性确定各通道特征图的激活权重；

根据所述激活权重对各通道特征图的权重进行重标定，根据重标定结果确定多个所述注意力图。

可选地，所述基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域包括：

将各注意力图映射至所述原始图像中，得到各注意力图的映射区域；

基于各注意力图的权重确定各映射区域的概率值；

根据各映射区域的概率值和映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的映射区域；

根据保留的映射区域确定所述显著性区域。

可选地，所述利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果包括：

根据所述显著性区域对所述原始图像进行裁剪，得到显著性图像；

将所述显著性图像输入所述分类网络，得到所述显著性图像的类别识别结果。

可选地，所述图像识别模型的训练方法还包括：

获取非显著性图像并将所述非显著性图像输入所述图像识别模型的分类网络，得到第二分类损失；

根据所述第二分类损失和所述第一分类损失对所述图像识别模型的参数进行优化。

可选地，所述获取非显著性图像包括：

根据各注意力图的权重，对各注意力图对应的各通道进行随机采样；

将随机采样得到的通道对应的注意力图映射至所述原始图像，得到采样图像；

按照预设像素阈值确定所述采样图像的掩模区域，并根据所述采样图像的掩模区域得到所述非显著性图像。

可选地，所述图像识别模型的训练方法还包括：

将所述原始图像对应的多通道特征图输入所述图像识别模型的分类网络，得到第三分类损失；

根据所述第一分类损失、所述第二分类损失和所述第二分类损失对所述图像识别模型的参数进行优化。

依据本申请的第二方面，提供了一种图像识别方法，包括：

获取待识别图像；

利用图像识别模型的卷积网络生成所述待识别图像的多通道特征图；

基于各通道特征图的相关性确定所述待识别图像的显著性区域；

利用所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果，其中所述图像识别模型基于如前任一项所述的图像识别模型的训练方法训练得到。

依据本申请的第三方面，提供了一种图像识别模型的训练装置，包括：

第一获取单元，用于获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；

第一确定单元，用于基于各通道特征图的相关性确定多个注意力图；

第二确定单元，用于基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域；

第一优化单元，用于利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。

依据本申请的第四方面，提供了一种图像识别装置，包括：

第二获取单元，用于获取待识别图像；

生成单元，用于利用图像识别模型的卷积网络生成所述待识别图像的多通道特征图；

第三确定单元，用于基于各通道特征图的相关性确定所述待识别图像的显著性区域；

分类单元，用于利用所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果，其中所述图像识别模型基于如前所述的图像识别模型的训练装置训练得到。

依据本申请的第五方面，提供了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一项所述的图像识别模型的训练方法，或者，执行如上述任一项所述的图像识别方法。

依据本申请的第六方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一项所述的图像识别模型的训练方法，或者，执行如上述任一项所述的图像识别方法。

由上述可知，本申请的技术方案，采用获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；基于各通道特征图的相关性确定多个注意力图；基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域的方式；利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。通过本申请训练得到的图像识别模型具有较强的特征表达能力，能够对图像中的细粒度特征进行识别，并能达到较高的图像识别准确度，提升了图像细粒度识别性能。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了现有技术中一种针对细粒度视觉分类任务的分类方法示意图；

图2示出了根据本申请一个实施例的图像识别模型的训练方法的流程示意图；

图3示出了根据本申请一个实施例的SENet的结构示意图；

图4示出了根据本申请一个实施例的图像识别模型的训练流程示意图；

图5示出了根据本申请一个实施例的图像识别方法的流程示意图；

图6示出了根据本申请一个实施例的图像识别模型的训练装置的结构示意图；

图7示出了根据本申请一个实施例的图像识别装置的结构示意图；

图8示出了根据本申请一个实施例的电子设备的结构示意图；

图9示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

现有技术中提出了一种针对细粒度视觉分类任务的分类方法，如图1所示，该方法采用基于弱监督数据增强网络(Weakly Supervised Data Augmentation Network，简称WS-DAN)的方法，结合注意力机制，使得网络可以在不需要额外标注信息的情况下聚焦到图像中那些“有话语权”的部分。具体地，该方法基于特征图(feature maps，维度为[h,w,channels])，获取注意力图(attention map)来表征图像中的显著性区域，并在注意力图的指导下通过显著性图像(attention crop)和非显著性图像(attention drop)对原始图像进行数据增强，提升图像特征表达能力。其中确定attention map及attention crop两个关键步骤如下：

(1)根据选定的区域数目N，在训练过程中固定选取前N个通道的特征图作为attention map，即[h,w,0:N]；

(2)依据一定的概率分布在N个通道的attention map中进行随机采样，选取其中某个通道的feature map进行attention crop区域的获取。

概率分布的确定方式如下：

part_weights＝tf.reduce_mean(tf.reduce_mean(attention_map,axis＝0),axis＝0)

part_weights＝tf.sqrt(part_weights)。

attention crop的获取如下，其中selected_index为依据part_weights选定的通道下标：

selected_index＝np.random.choice(np.arange(0,N),1,p＝part_weights)[0]

mask＝attention_map[:,:,selected_index]

threshold＝random.uniform(T1,T2)

itemindex＝np.where(mask>＝mask.max()*threshold)

ymin＝itemindex[0].min()/height-0.1

ymax＝itemindex[0].max()/height+0.1

xmin＝itemindex[1].min()/width-0.1

xmax＝itemindex[1].max()/width+0.1

bbox＝np.asarray([ymin,xmin,ymax,xmax],dtype＝np.float32)。

可以发现，现有技术中所采用的基于弱监督数据增强网络确定attention crop的过程至少存在以下两方面的问题：

(1)attention map选取的是固定的前N个通道，并没有考虑不同特征通道之间的相关性；

(2)attention crop的选择仅依据N个通道的平均响应大小为权重进行通道的随机采样，并没有充分利用N个通道的attention map之间的位置关系，选取最为合理的attention crop。

由于上述问题的存在，导致现有技术中的图像细粒度识别模型在识别准确度上仍有待提升。

基于此，本申请实施例提供了一种图像识别模型的训练方法，如图2所示，所述图像识别模型的训练方法包括如下的步骤S210至步骤S240：

步骤S210，获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图。

首先获取原始图像，将该原始图像输入图像识别模型的卷积网络中进行卷积等变换操作，进而得到原始图像对应的多通道特征图，这里的卷积网络可以采用InceptionV4网络(业界暂无中文译名)，InceptionV4是一种深度卷积神经网络，是本申请实施例中用于图像特征提取所采用的一个基本网络结构。当然本领域技术人员也可以根据实际需要采用其他类型的卷积神经网络如基于区域的卷积神经网络(Region-based ConvolutionalNeural Networks，简称R-CNN)等，在此不一一列举。

步骤S220，基于各通道特征图的相关性确定多个注意力图。

本申请实施例引入了注意力机制(attention)来作为图像细粒度识别的基础，注意力机制模仿了生物观察行为的内部过程，是一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务和图像处理任务领域。

如前所述，现有技术中的图像识别方法在确定注意力图(attention map)时并没有考虑不同特征通道之间的相关性，这会对最终得到的图像识别结果的准确度造成影响，而本申请实施例在得到原始图像对应的多通道特征图后，基于各通道特征图之间的相关性来确定注意力图，使选取到的注意力图更能捕捉到图像中的细粒度特征。

根据各通道特征图之间的相关性来确定注意力图具体可以采用挤压-激活网络(Squeeze-and-Excitation Networks，简称SENet)来实现，其核心思想是注意力主要分布在特征通道(channels)中，表现在图像上就是对不同的图像通道的关注程度不同，进而能够学习到更合理更精准的图像细粒度特征。

步骤S230，基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域。

注意力图反映的是图像中可能值得关注的区域，为了得到更为精准的图像显著性区域，在根据各通道之间的相关性确定了多个注意力图后，还可以对多个注意力图进行进一步筛选以确定图像中的显著性区域(attention crop)。

如前所述，现有技术中根据attention map确定attention crop的方式由于没有充分利用各通道的attention map之间的位置关系，选取最为合理的attention crop，导致最终得到的模型的识别效果仍有待提升，因此本申请实施例中对于attention crop采用非极大值抑制(Non Maximum Suppression，简称NMS)算法来确定，其原理就是抑制不是极大值的元素，可以理解为局部最大搜索，在图像识别领域主要用于删除高度冗余的矩形框。

步骤S240，利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。

在得到原始图像对应的显著性区域后，利用图像识别模型的分类网络对包含该显著性区域的图像进行分类，进而得到显著性区域图像的类别识别结果，对应的还会输出图像识别模型的分类损失，即模型预测的显著性区域的类别与显著性区域的真实类别之间的差异，通过分类损失值的反向传播实现对模型参数的不断优化。

通过上述训练过程得到的图像识别模型能够对图像进行细粒度的识别，进而可以得到更好的图像识别效果。

在本申请的一个实施例中，所述基于各通道特征图的相关性确定多个注意力图包括：对各通道特征图分别进行全局池化处理，得到各通道特征图的全局特征；基于各全局特征确定各通道特征图之间的相关性，根据所述相关性确定各通道特征图的激活权重；根据所述激活权重对各通道特征图的权重进行重标定，根据重标定结果确定多个所述注意力图。

本申请实施例中采用SENet来确定attention map，如图3所示，提供了一种SENet的结构示意图，SENet的核心思想即是通过学到的一组权值来衡量不同通道的重要性，相当于经过加入学习到的权值后，实现对原始特征图feature maps的一个重新标定，SENet主要由三部分构成，挤压Squeeze操作，激活Excitation操作和特征衡量Fscale操作。

首先是挤压Squeeze操作，顺着空间维度来进行特征压缩，将特征图U中每个二维的特征通道通过全局池化操作变成一个实数，这个实数某种程度上具全局的感受野，并且输出的维度(1x1xC)和输入的特征通道数(WxHxC)相匹配，它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野。

其次是激活Excitation操作，它是一个类似于循环神经网络中门的机制，通过参数来为每个特征通道生成权重，其中参数被学习用来表征特征通道间的相关性。具体地可以将上面产生的全局特征图1x1xC进行一系列非线性映射，比如采用全连接(fullyconnected layers，简称FC)+线性修正单元激活函数(Rectified Linear Units，简称RELU)+全连接的方式，最后利用一个sigmoid激活函数(一种神经网络的阈值函数)得到每个通道特征图的激活权重。

最后是特征衡量Fscale或者重标定Reweight操作，将上述得到的激活权重看做是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的特征图U上，在通道维度上完成对原始的各通道权重的重标定。

在完成对各通道特征图的权重的重标定后，可以选取权重较大的前N个通道对应的特征图作为attention map。上述通过自适应方式选取到的显著性更高的通道更能反映出图像的细粒度特征，有助于提升模型的整体识别效果。

在本申请的一个实施例中，所述基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域包括：将各注意力图映射至所述原始图像中，得到各注意力图的映射区域；基于各注意力图的权重确定各映射区域的概率值；根据各映射区域的概率值和映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的映射区域；根据保留的映射区域确定所述显著性区域。

具体实施时，可以先将注意力图attention map映射回原始图像上，对应的可以得到有多个矩形框标记的图像，之后进行NMS过程。具体地，根据每个注意力图的权重确定图像中各个矩形框的概率值，然后以最大概率值对应的矩形框为基准，分别计算其他矩形框与最大概率值对应的矩形框的交并比(Intersection-over-Union，简称IoU)并进行局部搜索，保留多个与局部概率极大值对应的矩形框，最后根据保留的矩形框对应的概率值大小确定显著性区域对应的图像。交并比(Intersection-over-Union，IoU)是目标检测中使用的一个概念，是计算产生的候选框与原标记框的交叠率，即它们的交集与并集的比值。

举例说明，假设上述选取的attention map有N＝6个通道，对应的平均响应大小顺序为：A<B<C<D<E<F，则1)先确定最大概率矩形框F(即指响应最大的矩形框)并作为保留下来的矩形框；2)从最大概率矩形框F开始，分别判断A～E与F的重叠度即两框的交并比IoU是否大于某个设定的阈值，假设B、D与F的重叠度超过阈值，那么B、D就不予保留；3)从剩下的矩形框A、C、E中，选择概率值最大的E，标记为要保留下来的矩形框，然后判断E与A、C的交并比，去掉交并比超过设定阈值的矩形框。以此类推，直到剩下的矩形框没有了，标记完所有要保留下来的矩形框，选取保留下来的矩形框中排序最靠前即响应最大的一个矩形框(当然也可以保留多个，可以根据实际参数控制输出矩形框的数量)作为attention crop。

在本申请的一个实施例中，所述利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果包括：根据所述显著性区域对所述原始图像进行裁剪，得到显著性图像；将所述显著性图像输入所述分类网络，得到所述显著性图像的类别识别结果。

与上述实施例不同的是，本领域技术人员也可以先将注意力图attention map进行NMS处理，之后再将处理后得到的显著性区域映射回原始图像，以得到显著性图像。

在这种情形下，利用NMS算法得到的显著性区域实质上是一种特征图，通过将该显著性区域映射回原始图像中，可以得到该显著性区域在原始图像中的位置。为了对图像中的显著性区域实现增强学习的目的，将原始图像中对应的显著性区域裁剪下来，通过尺寸变换的方式变换至和原图像相同大小的图像，进而得到显著性图像，之后将该显著性图像送入分类网络，得到该显著性图像的类别识别结果。

在本申请的一个实施例中，所述图像识别模型的训练方法还包括：获取非显著性图像并将所述非显著性图像输入所述图像识别模型的分类网络，得到第二分类损失；根据所述第二分类损失和所述第一分类损失对所述图像识别模型的参数进行优化。

具体实施时，本申请实施例中的图像识别模型除了对图像的显著性区域进行训练和学习，还可以对图像中的非显著性区域同时进行训练。非显著性区域是指图像中除了显著性区域以外的部分，为了避免模型学习到的特征过于聚焦，增强模型的泛化能力，将非显著性图像也同时送入图像识别模型的分类网络中进行训练，并根据训练得到的损失函数进一步优化模型参数。

在本申请的一个实施例中，所述获取非显著性图像包括：根据各注意力图的权重，对各注意力图对应的各通道进行随机采样；将随机采样得到的通道对应的注意力图映射至所述原始图像，得到采样图像；按照预设像素阈值确定所述采样图像的掩模区域，并根据所述采样图像的掩模区域得到所述非显著性图像。

具体实施时，非显著性区域可以通过如下方式来获取：1)在N个注意力图中随机采样一个通道作为后面数据增强的依据，随机选取的好处第一是可以增加鲁棒性，第二是可以关注到物体的多个部位，之后可以对采样的特征通道进行归一化处理以方便后续的操作；2)将随机采样得到的通道对应的注意力图映射回原始图像，得到采样图像；3)根据预设像素阈值确定掩模mask区域，将该mask区域与采样通道对应的采样图像进行点乘，得到原始图像对应的非显著性图像attention drop。本申请实施例中的掩模mask可以对图像上的显著性区域作屏蔽，使其不参与处理参数的计算，使模型能够关注到显著性区域以外的其他区域信息，增强模型的泛化能力。

在本申请的一个实施例中，所述图像识别模型的训练方法还包括：将所述原始图像对应的多通道特征图输入所述图像识别模型的分类网络，得到第三分类损失；根据所述第一分类损失、所述第二分类损失和所述第二分类损失对所述图像识别模型的参数进行优化。

具体实施时，本申请实施例中的图像识别模型除了对图像的显著性区域和非显著性区域进行训练和学习，还可以将原始图像对应的多通道特征图直接送入模型的分类网络中同时参与训练，根据对原始图像训练得到的损失函数，结合显著性区域图像和非显著性区域图像对应的损失函数，对模型的参数进行联合优化，以进一步增强模型的识别效果和泛化能力。

本申请实施例中的分类网络可以采用softmax分类网络，对应得到softmax loss(softmax损失)，softmax分类网络本质是一种归一化指数函数，其可以根据输入得到属于每个类别的概率。此外，在原始图像的训练过程中，为了使每次各个注意力图可以找到相同的物体部位，还可以引入中心损失函数(center loss)来作为联合优化的损失函数之一，通过加入特征图与部位中心的平方差之和(即center loss)作为惩罚项，可以让每个特征图固定到每个部位的中心，其中部位中心也是根据每次学习到的特征图来更新的。

如图4所示，本申请实施例还提供了一种图像识别模型的训练流程示意图。先获取原始图像，通过图像识别模型的卷积网络对原始图像进行特征提取，得到WxHxC的多通道特征图feature maps，将多通道特征图输入模型的SENet，对多通道特征图的权重进行重标定，根据重标定后的特征图的权重选取前N个作为注意力图attention map。之后将注意力图映射至原始图像中，得到多个带有矩形框标记的图像，利用非极大值抑制(NMS)算法对图像中的多个矩形框进行筛选，将筛选后得到矩形框在图像中的区域进行裁剪和尺寸变换，得到和原图一样大小的显著性图像，将该图像送入模型的分类网络中进行分类，得到对应的显著性图像的分类损失softmax loss。

另一方面，基于注意力图attention map还可以生成图像的掩模区域，根据该掩模区域及对应的通道图像生成非显著性图像，将该非显著图像作为分类网络的另一个输入，得到对应的非显著性图像的分类损失softmax loss。同时将上面得到的原始图像的多通道特征图也作为分类网络的输入，同时训练模型的参数，得到对应的原始图像分类损失softmax loss和中心损失center loss，最后基于各分支分类网络输出的损失函数联合优化模型的参数。

如图5所示，本申请实施例还提供了一种图像识别方法，所述图像识别方法包括如下的步骤S510至步骤S540：

步骤S510，获取待识别图像。

在进行对图像进行细粒度识别时，先获取待识别的图像，以作为后续图像识别模型的输入。

步骤S520，利用图像识别模型的卷积网络生成所述待识别图像的多通道特征图。

将上述获取到的待识别图像输入图像识别模型的卷积网络中进行卷积处理，进而得到该图像对应的多通道特征图。

步骤S530，基于各通道特征图的相关性确定所述待识别图像的显著性区域。

根据各通道特征图的相关性，利用图像识别模型中的SENet(Squeeze-and-Excitation Networks)对各通道特征图进行挤压-激活操作，得到多个注意力图，利用非极大值抑制算法将多个注意力图进行处理，得到待识别图像的显著性区域。

步骤S540，利用所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果，其中所述图像识别模型基于如前任一项所述的图像识别模型的训练方法训练得到。

将上述得到的显著性区域对应的图像输入到模型的分类网络中进行分类，进而得到待识别图像的类别识别结果，其中本申请实施例中的图像识别模型通过如下方式训练得到：

获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；基于各通道特征图的相关性确定多个注意力图；基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域；利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。

通过上述图像识别方法，考虑了特征通道之间的相关性和位置关系，使得模型输出的图像类别识别结果具有更高的准确度。

如图6所示，本申请实施例还提供了一种图像识别模型的训练装置600，所述装置600包括：第一获取单元610、第一确定单元620、第二确定单元630和第一优化单元640。

本申请实施例的第一获取单元610，用于获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图。

首先获取原始图像，将该原始图像输入图像识别模型的卷积网络中进行卷积等变换操作，进而得到原始图像对应的多通道特征图，这里的卷积网络可以采用InceptionV4网络，InceptionV4是一种深度卷积神经网络，是本申请实施例中用于图像特征提取所采用的一个基本网络结构。当然本领域技术人员也可以根据实际情况采用其他类型的卷积神经网络如基于区域的卷积神经网络(Region-based Convolutional Neural Networks，简称R-CNN)等，在此不一一列举。

本申请实施例的第一确定单元620，用于基于各通道特征图的相关性确定多个注意力图。

本申请实施例的第二确定单元630，用于基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域。

本申请实施例的第一优化单元640，用于利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。

在本申请的一个实施例中，所述第一确定单元620还用于：对各通道特征图分别进行全局池化处理，得到各通道特征图的全局特征；基于各全局特征确定各通道特征图之间的相关性，根据所述相关性确定各通道特征图的激活权重；根据所述激活权重对各通道特征图的权重进行重标定，根据重标定结果确定多个所述注意力图。

在本申请的一个实施例中，所述第二确定单元630还用于：将各注意力图映射至所述原始图像中，得到各注意力图的映射区域；基于各注意力图的权重确定各映射区域的概率值；根据各映射区域的概率值和映射区域间的交并比进行局部搜索，保留多个与局部概率极大值对应的映射区域；根据保留的映射区域确定所述显著性区域。

在本申请的一个实施例中，所述第一优化单元640还用于：根据所述显著性区域对所述原始图像进行裁剪，得到显著性图像；将所述显著性图像输入所述分类网络，得到所述显著性图像的类别识别结果。

在本申请的一个实施例中，所述装置还包括：第一输入单元，用于获取非显著性图像并将所述非显著性图像输入所述图像识别模型的分类网络，得到第二分类损失；第二优化单元，用于根据所述第二分类损失和所述第一分类损失对所述图像识别模型的参数进行优化。

在本申请的一个实施例中，所述第一输入单元还用于：根据各注意力图的权重，对各注意力图对应的各通道进行随机采样；将随机采样得到的通道对应的注意力图映射至所述原始图像，得到采样图像；按照预设像素阈值确定所述采样图像的掩模区域，并根据所述采样图像的掩模区域得到所述非显著性图像。

在本申请的一个实施例中，所述装置还包括：第二输入单元，将所述原始图像对应的多通道特征图输入所述图像识别模型的分类网络，得到第三分类损失；第三优化单元，用于根据所述第一分类损失、所述第二分类损失和所述第二分类损失对所述图像识别模型的参数进行优化。

如图7所示，本申请实施例还提供了一种图像识别装置700，所述装置700包括：第二获取单元710、生成单元720、第三确定单元730和分类单元740。

本申请实施例的第二获取单元710，用于获取待识别图像。

本申请实施例的生成单元720，用于利用图像识别模型的卷积网络生成所述待识别图像的多通道特征图。

本申请实施例的第三确定单元730，用于基于各通道特征图的相关性确定所述待识别图像的显著性区域。

本申请实施例的分类单元740，用于利用所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果，其中所述图像识别模型基于如前所述的图像识别模型的训练装置训练得到。

将上述得到的显著性区域对应的图像输入到模型的分类网络中进行分类，进而得到待识别图像的类别识别结果，其中本申请实施例中的图像识别模型通过如下训练装置训练得到：

第一获取单元，用于获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；第一确定单元，用于基于各通道特征图的相关性确定多个注意力图；第二确定单元，用于基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域；第一优化单元，用于利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。

需要说明的是，上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行，在此不再赘述。

综上所述，本申请的技术方案，采用获取原始图像，并利用图像识别模型的卷积网络提取所述原始图像的多通道特征图；基于各通道特征图的相关性确定多个注意力图；基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域的方式；利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果，根据所述类别识别结果确定第一分类损失，以根据所述第一分类损失对所述图像识别模型的参数进行优化。通过本申请训练得到的图像识别模型具有较强的特征表达能力，能够对图像中的细粒度特征进行识别，并能达到较高的图像识别准确度，提升了图像细粒度识别性能。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的图像识别模型的训练装置或者图像识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如，用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所示的计算机可读存储介质。图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的方法步骤的计算机可读程序代码831，可以被电子设备800的处理器810读取，当计算机可读程序代码831由电子设备800运行时，导致该电子设备800执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

基于各通道特征图的相关性确定多个注意力图；

2.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述基于各通道特征图的相关性确定多个注意力图包括：

3.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述基于多个所述注意力图，利用非极大抑制算法确定原始图像中的显著性区域包括：

基于各注意力图的权重确定各映射区域的概率值；

根据保留的映射区域确定所述显著性区域。

4.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述利用所述图像识别模型的分类网络得到所述显著性区域的类别识别结果包括：

5.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的图像识别模型的训练方法，其特征在于，所述获取非显著性图像包括：

7.根据权利要求5所述的图像识别模型的训练方法，其特征在于，所述方法还包括：

8.一种图像识别方法，其特征在于，包括：

获取待识别图像；

利用所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果，其中所述图像识别模型基于权利要求1至7任一项所述的图像识别模型的训练方法训练得到。

9.一种图像识别模型的训练装置，其特征在于，包括：

10.一种图像识别装置，其特征在于，包括：

第二获取单元，用于获取待识别图像；

分类单元，用于利用所述图像识别模型的分类网络对所述显著性区域进行分类，得到所述待识别图像的类别识别结果，其中所述图像识别模型基于权利要求9所述的图像识别模型的训练装置训练得到。

11.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至7中任一项所述的图像识别模型的训练方法，或者，执行如权利要求8中所述的图像识别方法。

12.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1至7中任一项所述的图像识别模型的训练方法，或者，执行如权利要求8中所述的图像识别方法。