CN109284749A

CN109284749A - 精细化图像识别

Info

Publication number: CN109284749A
Application number: CN201710592777.5A
Authority: CN
Inventors: 傅建龙; 梅涛
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2019-01-29
Also published as: US20200160124A1; EP3635629A1; WO2019018063A1; US11670071B2

Abstract

根据本公开的实现，提出了一种精细化图像识别的方案。在该方案中，利用第一学习网络的第一子网络提取图像的全局特征；利用第一学习网络的第二子网络、基于全局特征确定图像的第一关注区域，第一关注区域包括图像中对象的可辨识部分；利用第二学习网络的第一子网络提取第一关注区域的第一局部特征；以及至少部分基于第一局部特征确定图像中的对象的类别。通过该方案，实现了对于更精细尺度的图像区域的准确定位，从而可以获得基于精细尺度上的局部特征用于对象识别。

Description

精细化图像识别

背景技术

由计算机技术来识别图像的细化类别一直受到广泛关注。精细化图像识别的示例包括但不限于划分各种生物的具体类别、各种商品的品牌和型号、医学上的细胞类型等等。某些细化类别中的对象可能仅能够由领域专家分辨出他们之间的细微差距。例如，有些鸟类的整体特征相似，区别仅在于某个部位的颜色、纹路、型态等等。与一般类别的识别(例如仅区分鸟、花、汽车等整体差异较大的对象类别)相比，精细化图像识别需要定位出不同细化类别的对象中具有细微视觉差异的区域并且准确表征该区域的特征。精细化图像识别可以被应用在多种多样的场景中，例如专家级图像识别、丰富图像采集、医学诊断等等。

发明内容

根据本公开的实现，提出了一种用于精细化图像识别的方案。在该方案中，利用第一学习网络的第一子网络提取图像的全局特征；利用第一学习网络的第二子网络、基于全局特征确定图像的第一关注区域，第一关注区域包括图像中对象的可辨识部分；利用第二学习网络的第一子网络提取第一关注区域的第一局部特征；以及至少部分基于第一局部特征确定图像中的对象的类别。通过该方案，实现了对于更精细尺度的图像区域的准确定位，从而可以获得基于精细尺度上的局部特征用于对象识别。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的一些实现的用于图像识别的***的框图；

图3示出了根据本公开的另一些实现的用于图像识别的***的框图；

图4示出了根据本公开的一个实现的用于图像识别的过程的示意图；以及

图5示出了根据本公开一些实现的用于图像识别的学习网络的训练过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括图像识别模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。图像识别模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

计算设备100可以用于实施本公开的多种实现中的图像识别。因此，在下文中，计算设备100有时也被称为“图像处理设备100”。在执行图像识别时，计算设备100能够通过输入设备150接收图像170。计算设备100的处理单元110可以通过运行图像识别模块122来识别图像170中包含的对象的类别，并且通过输出设备160输出识别结果180。识别结果可以指示所识别的对象的类别。应当理解，图1以及后续将讨论的图2和图3中示出的图像170仅作为示例，在其他实现中，取决于实际需要，可以对任何输入图像执行图像识别。

在一些应用中，图像识别任务是要确定图像170中的对象的细化类别。例如，在图1的示例中，图像识别模块122的识别结果180可以是文字“这是一只红腹啄木鸟”，以指示图像170中包含的鸟的具体种类。这样的图像识别任务被称为精细化图像识别。与一般类别的图像识别(仅识别出“鸟”这样的一般类别)相比，在精细化图像识别中，一个类别的对象与另一个类别的对象之间的主要区别是对象的某个或某些部分的细微视觉差异决定，而不是整体特征的视觉差异。例如，对于不同种类的鸟，区别可能在于颈部、背部或尾部的羽毛的颜色和/或纹路、喙或爪的形状和/或颜色，等等。这样的可用于判断对象的具体类别的部分可以被称为对象的可辨识部分。

精细化图像识别的挑战在于定位特定细化类别的对象的可辨识部分并且准确表征该可辨识部分的特征。这个过程包括两个方面，即可辨识部分的定位和对这些部分的精细化特征的学习。随着图像处理技术的进步，已经发现图像识别的任务可以由各类模型、尤其是基于神经网络的模型来有效完成。已有的精细化图像识别引入了基于图像区域的神经网络识别架构。这主要包括两个步骤：首先，在非监督方法中从神经网络的卷积响应中分析出图像中一个或多个可能的对象区域，或在监督方法中通过已知的边界框或区域注释来确定图像中的特定区域；然后，从每个区域提取特征并且基于这些特征来识别对象的具体类别。

尽管已有的精细化图像识别能够在一些对象的精细化识别任务中获得较好的结果，但是进一步提升识别过程却面临各种限制。例如，由已有的非监督方法学习到的区域或者在监督方法中由人工限定或标注的区域对于图像分类而言并非最优。而且，由人工限定或标注特定区域用于特征提取还会带来效率的减低。进一步地，虽然神经网络的学习能力较强，但是从相似的细化类别中学习出较小区域的细微视觉差异(即精细化特征)仍然很困难。

发明人通过研究发现：可辨识部分的检测和精细化特征学习是相互关联并且可以彼此增强。也就是说，可辨识部分的准确定位可以提升对精细化特征的学习，而精细化特征又可以进一步帮助定位更准确的可辨识部分。有鉴于此，本公开的实现提出了一种全新的精细化图像识别的方案。在该方案中，构造递归的学习网络架构用于图像识别，而无需对图像的特定可辨识区域的已知边界框或注释。

具体地，所构造的学习网络架构包括处于堆叠结构的多个学习网络。每个学习网络处理不同尺度的图像输入，包括从全图像到精细化区域等多个尺度。堆叠结构中的一个学习网络用于提取图像的全局特征，并且基于全局特征确定图像的关注区域，该区域包括图像中对象的可辨识部分。堆叠结构中的另一学习网络用于提取上一个学习网络确定的关注区域的局部特征。基于局部特征可以确定图像中对象的类别。在本公开的实现的方案中，由于学习网络以递归的方式堆叠，不同学习网络可以从全图像逐渐聚焦到图像中更具有辨识度的关注区域并且提取出从粗略到精细的特征用于对象识别。因此，精细化特征的提取受益于对包含对象的可辨识部分的准确定位，进而可以用于提升对对象类别的准确识别。

以下通过具体示例来进一步描述本公开的各种实现。在本公开的实现，学习网络也可以被称为“神经网络”或“学习模型”。在下文中，术语“学习模型”、“学习网络”、“神经网络”、“模型”和“网络”可替换地使用。

***架构和工作原理

现在参照图2，其中示出了根据本公开的一些实现的用于图像识别的***的框图。该***可以被认为是基于神经网络的架构并且可以被实现在图1的计算设备100的图像识别模块122处。如图2所示，该***包括堆叠的多个学习网络210和220。学习网络可210和220以被实现为图像识别模块122中的一个或多个子功能模块。在本文中，为了便于区分，学习网络210也被称为第一学习网络，并且学习网络220也被称为第二学习网络。图像识别模块122被构造用于确定图像170中的对象的类别。不同学习网络210和220在不同尺度上执行操作，其中学习网络210关注图像170的全图像的尺度，而学习网络220关注比学习网络210的尺度更精细的尺度。学习网络220要处理的更小尺度的图像依赖于学习网络210的确定。以下将介绍堆叠的学习网络的具体结构以及其中的图像识别处理。

如图2所示，学习网络210包括子网络212，用于提取图像170的特征213。子网络212也可以被称为学习网络210的第一子网络或特征提取子网络。由于子网络212从全图像尺度执行特征提取，因此特征213也被称为全局特征。特征提取子网络212可以提取一个或多个全局特征213，并且每个全局特征213可以指示图像170的一部分特征信息，诸如图像170中的对象和/或背景的颜色、轮廓、边缘、线条等信息。在一些实现中，特征提取子网络212可以提取图像170的一个或多个特征图用于表征对应的全局特征213。

子网络212可以具有层级结构并且包含一个或多个层212-1至212-N，其中N是大于或等于1的整数。在子网络212的层级结构中，前一层的输出可以作为后一层的输入以用于进一步处理，并且第一层212-1的输入为图像170，最后一层212-N的输出是图像170的全局特征213。子网络212的每个层可以由一个或多个神经元构成。在一些实现中，可以采用在图像处理方面表现出色的卷积神经网络(CNN)的多个层来构成子网络212。在这些实现中，多个层212-1至212-N可以包括一个或多个卷积层，用于对输入执行卷积操作。多个层212-1至212-N还可以包括一个或多个用于执行非线性变换的激活层(由非线性激活函数组成，例如ReLU函数)和/或池化层。应当理解，子网络212的层数、神经元的数目和/或层的配置可以根据实际需要配置，只要能够达到特征提取的目的即可。

学习网络210还包括子网络214，用于为学习网络220确定图像170中更精确尺度的区域。该区域可以被确定为使得学习网络220关注图像170中能够有助于识别对象的类别的部分。因此，该区域可以被称为关注区域，并且该关注区域中包括图像170中对象的可辨识部分。子网络214可以被称为视觉关注基于区域的视觉关注子网络，因为该子网络214用于为其他子网络220确定图像170中更精细的区域，使得其他子网络仅关注于尺度较小的局部区域上的处理。

具体地，子网络214可以基于由特征提取子网络212提取的全局特征213来确定图像170的关注区域。在图2的示例中，该关注区域可以被确定为图像170中的区域201，其包括图像170中特定种类的鸟的上半身，因为通过该种类的鸟的后颈羽毛能够辨识出鸟的具体种类。在一些实现中，子网络214可以包括一个或多个层并且每个层包括一个或多个神经元。子网络214的第一层的输入是全局特征213，并且最后一层的输出是用于标识图像170中的关注区域201的位置参数215。子网络214对位置参数215的确定将在下文更详细描述。

学习网络210还包括区域提取部分219，用于基于子网络214的输出(例如位置参数215)，从图像170提取(或裁剪)出关注区域201。在一些实现中，区域提取部分219直接基于位置参数215，将图像170中的关注区域201作为下一学习网络220的输入。在另外一些实现中，由于在较小尺寸的图像区域中执行处理可能不太准确，区域提取部分219还可以放大关注区域201以获得经放大的关注区域(或图像)202作为学习网络220的输入。区域提取部分219可以将区域201放大为与图像170相同或相似的尺寸，或者任何其他尺寸。

学习网络220在从关注区域201的尺度上执行处理。具体地，学习网络220包括子网络222，用于提取从关注区域201放大的图像202的特征223。子网络222也可以被称为学习网络220的第二子网络或特征提取子网络。由于子网络222在比全图像尺度更精细的尺度上执行特征提取，因此所提取的特征223可以被称为局部特征或第一局部特征。特征提取子网络222可以提取一个或多个局部特征223，并且每个局部特征223可以指示图像202的一部分特征信息，诸如图像202中的部分对象和/或背景的局部颜色、轮廓、边缘、线条等信息。在一些实现中，特征提取子网络222可以提取图像202的一个或多个特征图用于表征对应的局部特征223。

在一些实现中，特征提取子网络222的结构可以被配置为与特征提取网络212的结构相同或类似。例如，特征提取子网络222也可以由CNN网络构成，包括一个或多个卷积层、激活层和/或池化层222-1至222-N用于提取特征图，其中N是大于或等于1的整数。应当理解，虽然示出特征提取子网络222包括与特征提取子网络212相同的层数N，但是在其他实现中，子网络222中的层数、层中的神经元数和/或层的配置可以与子网络212不同。

特征提取子网络222提取的局部特征223表征了包含图像170中对象的可辨识部分的精细化特征信息，因此可用于确定图像170中的对象的类别。在一些实现中，学习网络220包括子网络226，用于基于局部特征223确定图像170中的对象的类别。子网络226也可以被称为学习网络220的分类子网络。可以采用各种分类神经网络结构来配置子网络226。在一些实现中，子网络226可以包括一个或多个全连(fc)层227，用于处理局部特征223。在一些示例中，fc层227用于将局部特征223映射到特征向量，该特征向量包括与预定的一个或多个类别对应的元素。子网络226还包括一个多项逻辑斯特回归(也被称为“softmax”)层228，用于基于fc层227的输出确定图像170中的对象属于多个预定类别中的哪一个类别。softmax层228可以将fc层227的输出转换为与多个预定类别对应的相应概率，并且最大概率对应的类别是当前输入图像170的类别。每个概率可以由0至1的数值指示，或者由0或1指示。所识别的对象的类别可以作为图像识别模块122的输出(例如图1的输出180)。输出180可以以文字、图片、语音、视频等或者它们的结合的形式来指示所识别的对象的类别。

一般而言，图像识别模块122中的学习网络架构可以被构建和训练为确定输入图像是否属于的多个预定类别中的一个类别。在精细化图像识别的情况中，多个预定类别可以包括图像170中的对象所属的一般类别中的多个细化类别。例如，多个预定类别可以是某种生物的具体物种、某种商品的品牌和型号或者医学上的细胞分类(正常细胞和癌细胞)等。在一些实现中，多个预定类别还可以包括一个否定类别，用于指示当前输入图像中的对象不属于其他任何细化类别。在图2的示例中，图像识别模块122可以被训练为确定输入图像中的对象是否属于多种类别的鸟类中的一种。应当理解，根据需要，可以将图像识别模块122训练为识别细化类别下的多个更细化的类别。

在一些实现中，由于从全图像尺度提取的全局特征213可以表征图像170的全局特征信息，因而也可以被用于与局部特征223组合起来确定图像170中的对象的类别。在这些实现中，学习网络210可以包括分类子网络216，其中包括fc层217，用于对全局特征213进行综合处理。fc层217的输出与学习网络220的分类子网络226的fc层227的输出级联起来，并且被输入到另一个softmax层(未示出)，以用于确定图像170中的对象的类别。该softmax层也被称为全连融合层，具有softmax函数用于执行分类任务。在一些实现中，fc层217和227的输出可以被称为不同尺度的特征描述符，这些特征描述符在被输入到softmax层之前可以被单独地归一化。

可以看出，在图2中还示出了学习网络210的分类子网络216也包括softmax层218，从下文的讨论可以理解，该softmax层218被用于后续学习网络的训练过程，并且在基于组合特征的对象识别过程中可以被省略。

在图2的实现中，学习网络210提取的特征用于定位准确的关注区域，并且关注区域的准确定位可以提高在下一学习网络220中对关注区域的精细化特征的提取。因此，通过以彼此增强的方式同时准确检测可辨识部分和有效提取精细化特征，改进了图像的类别识别。

***架构的扩展

图2的示例描述了包括两个学习网络210和220的堆叠结构，用于在图像170的两个尺度上执行处理。在另外的实现中，图像识别模块122可以被构建为包括一个或多个附加学习网络，用于定位图像170中对象的更精细的可辨识部分，并且提取出更精细特征用于识别对象的类别。图3示出了在图2的***架构上的进一步扩展。在图3的示例中，除了学习网络210和220之外，图像识别模块122还包括学习网络330(也被称为第三学习网络)。此外，学习网络220还包括子网络324，用于为学习网络330确定更精细尺度的关注区域。子网络324也可以被称为学习网络220的第二子网络或视觉关注子网络。

子网络324的功能与子网络214类似，被配置为基于特征提取子网络222的局部特征223确定图像170的另一个关注区域。所确定的关注区域被用作下一学习网络230的处理基础。由于学习网络220的输入是图像170中的关注区域201或关注区域201的放大图像202，因此子网络214确定出的另一关注区域被包括在关注区域201或放大图像202中。该关注区域可以被确定为使得学习网络230关注图像170中能够有助于识别对象的类别的更小部分，因此可以包括图像170中对象的可辨识子部分。在图3的示例中，子网络324确定的关注区域可以是图像202中的区域303，其包括图像202中的鸟的上半身中的头部部分，因为通过该种类的鸟的后颈羽毛能够辨识出鸟的具体种类。

在一些实现中，子网络324的配置可以与学习网络210中的子网络214类似或相同。例如，子网络324可以包括一个或多个层并且每个层包括一个或多个神经元。子网络324的第一层的输入是局部特征223，并且最后一层的输出是用于标识图像202中的关注区域303的位置参数325。子网络324对位置参数325的确定将在下文更详细描述。

为了裁剪出图像202中的关注区域303，学习网络220还包括区域提取部分329，用于基于子网络324的输出(例如位置参数325)来从图像202提取关注区域303。在一些实现中，区域提取部分329直接将关注区域303提取为下一学习网络330的输入。在另外一些实现中，由于在较小尺寸的图像区域中执行处理可能不太准确，区域提取部分329还可以放大关注区域303以获得经放大的关注区域(或图像)304作为学习网络330的输入。区域提取部分329可以将区域303放大为与图像170或202相同或相似的尺寸，或者任何其他尺寸。

学习网络330在关注区域303的尺度上执行特征提取。具体地，学习网络330包括子网络332，用于提取图像304的特征333。子网络332也可以被称为学习网络330的第二子网络或特征提取子网络332。由于子网络332在比区域201更精细的尺度上执行特征提取，因此所提取的特征333可以被称为局部特征或第二局部特征。特征提取子网络332的特征提取方式可以与子网络212或222类似。由于所处理的图像的尺度更小，因而每个局部特征333可以指示图像170的对象和/或背景的更小部分的特征信息，诸如局部颜色、轮廓、边缘、线条等。特征提取子网络332的结构可以被配置为与特征提取网络212或222的结构相同、类似或完全不同。

由于特征提取子网络332提取的局部特征333表征了包含图像170中对象的可辨识部分的更精细化特征信息，因此可被用于确定图像170中的对象的类别。在一些实现中，学习网络330包括子网络336，用于基于局部特征333来确定图像170中的对象的类别。子网络336也可以被称为学习网络330的分类子网络，其结构可以与分类子网络216或226类似。如图3所示，子网络336可以包括一个或多个fc层337和一个softmax层338，用于基于局部特征333确定图像170中的对象属于多个预定类别中的哪一个类别。

在一些实现中，如上文关于图2讨论的，在包括三个堆叠的学习网络的图像识别模块122中，为了利用不同尺度的特征，局部特征333可以与全局特征213和/或局部特征223组合起来用于确定图像170中的对象的类别。基于不同尺度的组合特征进行分类识别的方式可以与关于图2描述的方式类似，在此不再赘述。

从下文的讨论可以理解，在图3的示例中，分类子网络216和226中的softmax层218和228以及在在多个尺度的特征结合情况中的softmax层338的图示被用于后续学习网络的训练过程，并且在基于组合特征的对象识别过程中可以被省略。

以上参照图3描述了多个不同尺度的学习网络的堆叠结构。在该结构中，上一层的学习网络可以提供准确的关注区域的定位，使得下一层的学习网络能够从准确定位的区域中有效提取精细化特征。此外，所提取的精细化特征又可以进一步定位更准确和精细的关注区域。因此，通过以彼此增强的方式递归地检测准确的可辨识区域和有效提取精细化特征，进一步改进了图像的类别识别。

虽然图3示出了三个尺度的学习网络的堆叠，在其他实现中，还可以以类似的方式堆叠更多的学习网络，从而使得另外的学习网络能够在更精细尺度的关注区域的基础上执行特征提取和对象分类。例如，如果要从更多细化类别中识别出图像中的对象的类别，多个细化类别的对象之间的差异由更微小区域的视觉差异决定，或者图像的原始尺寸较大(例如医学图像)，则可以构造具有更多学习网络的堆叠结构。

学习网络的训练

上文描述了在图2和图3的架构之下对图像执行类别识别。为了使得图2或图3的架构中的图像识别模块122能够完成图像识别的目标，在配置图2或图3的学习网络的结构之后，需要对学习网络进行训练，以使所配置的学习网络的各个子网络能够获得完成相应处理任务的能力。

一般而言，学习网络的各个层的处理是以预定函数处理输入以生成输出。因此，对于学习网络的训练过程就是利用训练数据不断更新或优化学习网络的各个层的函数中的相应参数。当参数的更新达到收敛目标时，学习网络的训练过程完成。收敛目标可以通过设定与要确定的参数相关的损失函数来确定。在图像识别的任务中，训练数据可以包括一个或多个图像(也被称为训练图像)。作为监督，训练图像中的对象的类别是已知的。因此，训练数据还包括指示训练图像中的对象的类别的信息。在训练过程中，每个图像可以被输入到已构建的学习网络结构中，并且可以通过后向传播等训练方法在一定程度上更新学习网络的参数。

在一些实现中，取决于期望能够区别哪些类别的对象，训练图像可以包括具有相应类别的对象的一个或多个图像。在精细化图像识别的示例中，多个类别可以包括对象的某个一般类别下的多个细化类别。例如，如果图2或图3的学习网络结构要被训练为能够识别多种鸟类，则训练图像可以包括不同鸟类的图像。

如以上关于图2和/或图3描述的，图像识别模块122中的学习网络的各个子网络要被训练为使相应子网络能够执行对应处理。在包括学习网络210和220的结构中，在学习网络210或220中要执行两个任务，即提取输入图像的特征(对于子网络212和222)和为下一层学习网络确定关注区域(对于子网络214和324)。在训练过程中，分别为这两个任务设置不同的监督。

对于特征提取的任务，为了使得提取的特征更准确表示输入图像，训练的监督与基于所提取的特征的分类有关。具体地，对于学习网络210，特征提取子网络212要被更新以增加基于从训练图像提取的全局特征确定出训练图像中的对象属于其正确类别的概率。对于学习网络220以及图3中的学习网络330，特征提取子网络222和332也分别要被更新以增加基于从相应的关注区域提取的局部特征确定出训练图像中的对象属于其正确类别的概率。特征提取子网络222和332提取局部区域的关注区域分别由上一层学习网络210和220的视觉关注子网络214和324确定。

在要训练图2或图3的图像识别模块122具备识别多种鸟类的示例中，特征提取子网络212、222或332的训练监督均是，在特征提取子网络的参数被更新之后，更新后的特征提取子网络提取出的全局特征或局部特征能够被用于更准确地确定出图像中的对象的类别。

在这种训练监督的条件下，在每个学习网络210、220或330中设置对应的分类子网络，即如图2和图3中示出的分类子网络216、226和336。这些分类子网络分别用于在训练过程中基于子网络212、222和332提取的特征来确定训练图像中的对象的类别。如上文提及的，分类子网络216、226和336可以被配置为具有各种分类神经网络结构。图2和图3中示出了分类子网络216、226和336的一种结构，其中分别包括fc层217、227和337和softmax层218、228和338。每个分类子网络的softmax层218、228或338输出当前输入图像中的对象属于多个类别中的哪一个类别的指示。例如，softmax层218、228或338的输出可以包括概率分布，包括与多个预定类别对应的相应概率。

对于关注区域确定的任务，为了使得为下一层学习网络定位更精确的关注区域，训练的监督与两层学习网络之间的概率提升有关。具体地，对于学习网络210和220，视觉关注子网络214要被更新为使得：与学习网络210确定出的训练图像中的对象属于其已知类别的概率(也称为“第一概率”)相比，学习网络220确定出的概率(也称为“第二概率”)更高。也就是说，视觉关注子网络214被逐步更新为能够检测出更准确的关注区域，从而确保下一层学习网络在该关注区域的基础上更准确地识别图像中的对象的类别。在图3的示例中，视觉关注子网络324也可以基于类似的训练监督来被更新。

为了更好地理解堆叠结构中的学习网络的训练，以下详细讨论各个学习网络中的各种处理的表示，进而构造用于训练的损失函数，并讨论基于损失函数的训练过程。

基于特征的处理

给定每个学习网络(包括学习网络210、220或者可能的230)的输入图像(例如图像170、202或204)X，将该图像X输入到学习网络的特征提取子网络(子网络212、222或者可能的332)，所提取的特征可以被表示为W_c*X(对应于全局特征或局部特征)，其中*表示特征提取子网络中的各个层的处理操作(包括卷积、池化和/或激活操作)，并且W_c表示特征提取子网络的总体参数。所提取的特征W_c*X可能被用于学习网络中确定分类结果和为下一层学习网络确定关注区域。

在确定分类结果的过程中，特征W_c*X被用于确定输入的训练图像中对象属于预定类别的相应概率。如果图像识别模块122要被训练为能够确定多个类别的对象，那么所提取的特征可以被用于生成概率分布(被表示为p)，该概率分布指示输入图像中的对象分别属于多个预定类别的相应概率，这可以被表示为：

p(X)＝f(W_c*X)， (1)

其中f(·)表示学习网络的分类子网络(子网络216、226或可能的336)中的处理操作，包括全连层将特征映射到与多个预定类别对应的元素的操作以及softmax层将特征向量转换为多个预定类别对应的概率的操作。

除了用于确定预定类别上的概率分布之外，在一些学习网络(例如210和220)中，所提取的特征W_c*X还被用于由视觉关注子网络为下一学习网络预测关注区域。在一些实现中，相应尺度上的关注区域定位可以被表示为对关注区域的位置参数的确定。例如，可以预先设置关注区域的形状为正方形，并且因此可以从所提取的特征确定用于标识出正方形关注区域的三个位置参数，该过程可以被表示如下：

[t_x，t_y，t_l]＝g(W_c*X)， (2)

其中t_x，t_y分别表示正方形关注区域的中心点在x轴和y轴方向的坐标，t_l表示正方形关注区域的边长，并且g(·)表示相应视觉关注子网络(子网络214或324)中对输入特征W_c*X的操作。坐标参数t_x，t_y是以从中标识出关注区域的图像为基础来标识坐标。

应当理解，以上公式(2)仅给出了关注区域的位置参数的一个示例。在其他情况中，视觉关注子网络可以被设计为基于特征确定出其他位置参数以用于标识特定形状的关注区域。例如，对于正方形或长方形关注区域，还可以用正方形的四个顶点的坐标作为位置参数；对于圆形关注区域，可以用圆形的圆心坐标和半径或直径作为位置参数。当然，还可以定义其他形状的关注区域并且将视觉关注子网络设计为根据输入特征确定出能够标识出相应关注区域的位置参数。下文中以正方形关注区域以及上述位置参数t_x，t_y和t_l为例进行讨论。

关注区域的定位和放大

在学习网络210和220中，相应的视觉关注子网络(子网络214和324)确定出的关注区域的位置参数可以用于从上一尺度的图像中裁剪出关注区域，以作为下一层学习网络的处理基础。以下将讨论如何基于位置参数来定位和放大关注区域。

在一些实现中，为了确保视觉关注子网络在训练过程中被更新或优化，可以基于从关注区域的位置参数有关的函数作为基于视觉关注子网络的区域掩码来裁剪关注区域。例如，该函数可以是二维矩形函数。该区域掩码可以选择出前向传播中最有意义的区域，并且由于连续函数的属性而在后向传播中被优化。

假设将每个学习网络(学习网络210或220)的输入图像的左上角作为像素坐标系中的原点，并且x轴和y轴分别被定义为关于原点从左到右和从上到下。要标识的关注区域的左上角点(被表示为“tl”)和右下角点(被表示为“br”)的坐标可以分别基于位置参数来确定为如下：

其中t_x(tl)和t_y(tl)分别表示关注区域的左上角点在x轴和y轴上的坐标值，并且t_x(br)和t_y(br)分别表示关注区域的右下角点在x轴和y轴上的坐标值。

基于以上公式(3)，从较大尺度的输入图像中裁剪出关注区域的操作可以被表示为输入图像与基于视觉关注子网络的区域掩码之间的逐元素相乘。在从学校网络210的输入图像X中裁剪出关注区域的情况中，关注区域的标识被表示为：

X^att＝X⊙M(t_x，t_y，t_l)， (4)

其中⊙表示逐像素相乘，X^att表示关注区域，并且M(·)标识基于关注区域的位置参数确定的区域掩码，其可以被表示为与关注区域的位置参数有关的函数。在一个示例中，M(·)的形式可以为如下：

其中h(·)是一个逻辑函数。在一个示例中，逻辑函数h(·)的形式可以是：

h(x)＝1/{1+exp^-kx}. (6)

理论上，如果索引k足够大，逻辑函数h(·)可以被认为是阶跃函数，并且二维矩形函数(即M(·))在二维平面的单个区域(x维度范围从t_x(tl)到t_x(br)，并且y维度范围从t_y(tl)到t_y(br))取值为1，而在沿着x和y维度的其他范围的取值为0。

以上公式(4)给出了在学习网络210中从原始输入图像X中标识出关注区域的操作。对于学习网络220，也可以以类似的方式从输入的第二尺度的图像中标识出相关的关注区域。

使用基于位置参数的函数、例如二维矩形函数来标识关注区域的优点在于。首先，矩形函数可以很好地近似于区域的裁剪操作，用于从图像中选择最有意义的区域。其次，基于位置参数的函数构造了关注区域与位置参数(即{t_x，t_y，t_l})之间的分析标识，这有利于在训练过程中在后向传播中优化这些位置参数。

尽管已经定位了关注区域，如以上提及的，有时可能难以从高度局域化的区域中提取有效特征表示。因此，关注区域可以被放大。在一些实现中，可以适应地放大一个或多个学习网络(学习网络210和/或220)确定出的关注区域。作为示例，可以使用双线性插值来放大关注区域。例如，可以通过线性映射，由关注区域X^att中最接近的四个输入来计算经放大的关注区域(被表示为“X^amp”)的一个像素点的值。在一个示例中，基于双线性插值的放大可以被表示为：

其中m＝[i/λ]+α，n＝[j/λ]+β，λ是上采样因子，其等于放大后的关注区域X^amp的尺度除以正方形关注区域的边长t_l。在公式(7)中，[·]和{·}分别是取整数部分和取分数部分。

应当理解，以上仅参照以正方形关注区域的中心点坐标和边长作为位置参数的示例来描述关注区域的定位和放大。在以其他位置参数来限定其他形状的关注区域的示例中，可以以类似或不同的方式来定位和放大各个学习网络210和220的视觉关注子网络214和324确定出的关注区域。

学习网络的损失函数

在包括堆叠的多个学习网络的图像识别模块122，如图2或3的示例，每个训练图像输入到学习网络210，并且通过特征提取子网络212和分类子网络216确定出在多个预定类别上的概率分布。由学习网络210的子网络214确定的关注区域可以被定位和放大以作为下一层学习网络220的输入，并且学习网络220的特征提取子网络222和分类子网络226也可以类似地确定出当前训练图像中的对象在多个预定类别上的概率分布。后续学习网络、例如学习网络230也可以类似地获得输入并且确定出概率分布的结果。

如图2和3所示，假设每个学习网络确定出的概率分布被表示为Y^(s)，其中s的范围可以被设置为从1到堆叠结果中的学习网络的总数(在图2的示例中是2，而在图3的示例中是3)，并且更下层的学习网络对应的s取值更大。在每个学习网络的概率分布Y^(s)中，包括相应的元素用于指示多个预定类别中的对应类别对应的概率。假设概率分布Y^(s)中的元素指示当前输入图像中的对象的正确类别t对应的概率。

如以上提及的，对于学习网络210、220以及可能的330，特征提取子网络的训练监督是不断增加基于提取出的特征确定输入的训练图像中的对象属于其正确类别的概率(即增加概率)，而对于视觉关注子网络的训练监督是使确定的关注区域能够使下一层学习网络确定出的概率比上一层学习网络的概率更高(即确保概率大于)。例如，在图2或图3的示例中，训练过程将使学习网络210、220以及可能的330输出的概率分布Y⁽¹⁾、Y⁽²⁾和Y⁽³⁾中训练图像(例如图像170)中对象的正确类别的概率，P_t ⁽¹⁾、P_t ⁽²⁾和P_t ⁽³⁾分别不断增加。此外，训练过程还使在学习网络210与220之间概率P_t ⁽²⁾比P_t ⁽¹⁾更高，并且使学习网络220与330之间概率P_t ⁽³⁾比P_t ⁽²⁾更高。

可以基于上述两种类型的训练监督构造用于学习网络的训练的损失函数。在一些实现中，在图3的结构中，对于给定的训练图像X，损失函数可以被定义为：

其中s指示相应的学习网络，Y^(s)和Y*分别表示由学习网络s确定出的概率分布和真实概率分布，和分别表示当前学习网络s确定出对象属于其正确类别的概率和下一层学习网络s+1确定出的概率。对于包含类别t的对象的图像X，在真实概率分布Y*中，与类别t对应的概率最高或者为1，而与其他类别对应的概率较小或者为0。L_cls表示分类损失函数，用于表示与特征提取有关的监督。L_rank表示排序损失函数，用于表示与关注区域的定位有关的监督，因为该监督要求下一层学习网络的概率确定比上一层更好。

分类损失函数L_cls用于确保每个学习网络在更新之后，基于提取的特征确定出的概率分布能够被优化，以使得输出的Y^(s)被优化为与真实概率分布Y*匹配。分类损失函数L_cls可以被用于优化每个学习网络的特征提取子网络和分类子网络(例如子网络212、222、332和216、226和336)的参数。排序损失函数L_rank用于确保在当前训练对象的正确类别t上的概率逐层提高。具体地，排序损失函数L_rank可以被表示为：

其中margin表示从学习网络s确定的概率到学习网络s+1确定的概率的提高程度。margin可以被预先设置为从0到1之间的固定值。根据公式(9)可知，排序损失函数L_rank可以确保排序损失函数L_rank可以被用于优化学习网络中的视觉关注子网络(子网络214和324)的参数。因此，通过排序损失函数L_rank的设计，可以使得子网络214和324被优化为参考所提取的特征来逐渐定位出更准确的关注区域。

用于学习网络的训练策略

在损失函数的基础上，可以采用各种训练手段来更新如图2或图3给出的学习网络的各个子网络的参数。初始地，学习网络的各个子网络中的参数可以被随机初始化。在另外一些实现中，可以获得预先训练的特征提取子网络和/或分类子网络作为学习网络210、220和/或330的初始特征提取子网络和/或分类子网络。预先训练的特征提取子网络和/或分类子网络是基于另外的训练数据(包括训练图像和指示训练图像中的对象的类别的信息)被训练。例如，可以将其他已训练的单独的分类神经网络作为学习网络210、220和/或330的初始特征提取子网络和/或分类子网络，因为分类神经网络通常都包括特征提取部分和确定分类结果的分类部分。

对于学习网络中的视觉关注子网络(子网络214和324)，也可以设置关注区域的初始位置参数，以使得下一层学习网络能够获得相应的图像区域用于处理。在关注区域为正方形形状的实现中，对于视觉关注子网络214，可以将关注区域的位置参数(被表示为t_x，t_y，t_l)中的边长(即参数t_l)初始化为原始图像的边长的一半或者其他百分比。关注区域的中心点的初始位置可以通过从相应的特征提取子网络子网络212输出的特征图中确定具有最高响应值的区域来定位。视觉关注子网络324的初始位置参数也可以类似的被确定。初始位置参数可以被用于预先训练相应的子网络214和324。具体地，在预先训练过程中，可以将由初始化的特征提取子网络确定的全局特征或局部特征变换到位置参数{t_x，t_y，t_l}来获得子网络214和324的初始参数。

在各个子网络的参数被初始化之后，可以基于损失函数来优化学习网络。由于特征提取子网络和分类子网络与视觉关注子网络遵循不同的训练监督，它们可以被交替地更新。具体地，在一个示例中，可以首先维持视觉关注子网络214(和324)的参数不变，基于损失函数L_cls来更新学习网络中的特征提取子网络212、222(和332)以及分类子网络216、226(以及336)。然后，在已更新的各个特征提取子网络和分类子网络的参数不变，基于损失函数L_rank更新视觉关注子网络214(和324)。在另外的示例中，可以在初始化之后首先在固定特征提取子网络和分类子网络的参数不变的情况下，更新视觉关注子网络；然后在固定经更新的视觉关注子网络的情况下更新特征提取子网络和分类子网络。这两个部分的更新过程可以是迭代的，直到损失函数L_cls和L_rank都不再改变。在每次迭代中，可以使用一个或多个训练图像来更新学习网络的相应子网络。

在一些实现中，在每个学习网络210或220中，视觉关注子网络214或324确定的位置参数t_l可以被约束为不小于某个尺寸(例如不小于上一层的输入图像的三分之一，或者不小于上一层确定的关注区域的位置参数t_l的三分之一)，以避免位置参数t_l被确定为过小。

在上述训练过程中，可以以相互增强的方式优化学习网络中对关注区域的定位和精细化分类。经过训练之后，各个学习网络的参数被确定，然后可以被用于识别输入图像中的对象的细化类别。在一些实现中，训练后的各个分类子网络216、226和/或336中的softmax层218、228和/或338可能不在操作过程中用于输出对象的类别对应的概率。如以上讨论的，每个学习网络210、220和/或330提取的特征在经过fc层217、227和/或337之后可以被级联起来用于确定分类结果。级联的特征可以被输入到另一个softmax层中，以便给出最后的结果。该softmax层的参数也可以经过训练被确定。

以上参照图2和图3的结构描述了学习网络的训练过程。如果更多的学习网络被类似地堆叠，也可以采用类似的训练过程来确定学习网络的参数，使得学习网络具备识别多个细化类别的能力。

示例过程

图4示出了根据本公开一些实现的用于图像识别的过程400的流程图。过程400可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的图像识别模块122处。在410，利用第一学习网络的第一子网络提取图像的全局特征。在420，利用第一学习网络的第二子网络、基于全局特征确定图像的第一关注区域。第一关注区域包括图像中对象的可辨识部分。在430，利用第二学习网络的第一子网络提取第一关注区域的第一局部特征。在440，至少部分基于第一局部特征确定图像中的对象的类别。

在一些实现中，至少部分基于第一局部特征确定图像中的对象的类别可以包括：利用第二学习网络的第二子网络、基于第一局部特征确定图像的第二关注区域。第二关注区域被包括在第一关注区域中并且包括图像中对象的可辨识子部分；利用第三学习网络提取第二关注区域的第二局部特征；以及至少部分基于第二局部特征确定图像中的对象的类别。

在一些实现中，至少部分基于第二局部特征确定图像中的对象的类别还可以包括：进一步基于全局特征和第一局部特征中的至少一个来确定图像中的对象的类别。

在一些实现中，利用第二学习网络的第一子网络提取第一关注区域的第一局部特征包括：放大第一关注区域；以及利用第二学习网络的第一子网络提取经放大的第一关注区域的第一局部特征。

在一些实现中，基于全局特征确定图像的第一关注区域可以包括：利用第一学习网络的第二子网络、基于全局特征确定指示第一关注区域在图像中的位置的位置参数；以及基于位置参数从图像确定第一关注区域。

在一些实现中，至少部分基于第一局部特征确定图像中的对象的类别包括：至少部分基于第一局部特征，从多个预定类别中确定图像中的对象的类别，多个预定类别包括对象所属的一般类别中的多个细化类别。

图5示出了根据本公开一些实现的用于图像识别的学习网络的训练过程500的流程图。过程500可以由计算设备100或者其他计算或服务设备来实现。在510，获得图像和指示图像中的对象的类别的信息。在520，通过更新用于提取图像的全局特征的第一学习网络的第一子网络，来增加基于全局特征确定出图像中的对象属于类别的第一概率。在530，通过更新用于提取图像的第一关注区域的第一局部特征的第二学习网络的第一子网络，来增加基于第一局部特征确定出图像中的对象属于类别的第二概率，第一关注区域包括图像中的对象的可辨识部分。在540，通过更新用于基于全局特征确定第一关注区域的第一学习网络的第二子网络，来使第二概率高于第一概率。

在一些实现中，过程500还可以包括：通过更新用于提取被包括在第一关注区域中的第二关注区域的第二局部特征的第三学习网络，来增加基于第二局部特征确定出图像中的对象属于类别的第三概率，第二关注区域包括图像中对象的可辨识子部分；以及通过更新用于基于第一局部特征确定第二关注区域的第二学习网络的第二子网络，来使第三概率高于第二概率。

在一些实现中，更新第一学习网络的第二子网络可以包括：在固定已更新的第一学习网络的第一子网络和第二学习网络的第一子网络的参数的情况下，更新第一学习网络的第二子网络。

在一些实现中，更新第一学习网络的第一子网络可以包括：基于另外的图像和指示另外的图像中的对象的类别的另外信息来初始化第一学习网络的第一子网络；以及更新经初始化的第一学习网络的第一子网络。

在一些实现中，更新第二学习网络的第一子网络可以包括：放大第一关注区域；以及更新第二学习网络的第一子网络以用于从经放大的第一关注区域提取第一局部特征。

在一些实现中，更新第一学习网络的第二子网络可以包括：更新第一学习网络的第二子网络以用于基于全局特征确定指示第一关注区域在图像中的位置的位置参数，位置参数用于从图像中标识第一关注区域。

在一些实现中，更新第一学习网络的第二子网络可以包括：初始化位置参数；基于经初始化的位置参数，初始化第一学习网络的第二子网络；以及更新经初始化的第一学习网络的第二子网络。

在一些实现中，图像中的对象的类别包括对象所属的一般类别中的多个细化类别之一。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种设备。该设备包括：处理单元；存储器，耦合至所述处理单元并且包含存储于其上的指令。所述指令在由所述处理单元执行时使所述设备执行动作，动作包括：利用第一学习网络的第一子网络提取图像的全局特征；利用第一学习网络的第二子网络、基于全局特征确定图像的第一关注区域，第一关注区域包括图像中对象的可辨识部分；利用第二学习网络的第一子网络提取第一关注区域的第一局部特征；以及至少部分基于第一局部特征确定图像中的对象的类别。

在一些实现中，至少部分基于第一局部特征确定图像中的对象的类别包括：利用第二学习网络的第二子网络、基于第一局部特征确定图像的第二关注区域。第二关注区域被包括在第一关注区域中并且包括图像中对象的可辨识子部分；利用第三学习网络提取第二关注区域的第二局部特征；以及至少部分基于第二局部特征确定图像中的对象的类别。

在一些实现中，至少部分基于第二局部特征确定图像中的对象的类别还包括：进一步基于全局特征和第一局部特征中的至少一个来确定图像中的对象的类别。

在一些实现中，基于全局特征确定图像的第一关注区域包括：利用第一学习网络的第二子网络、基于全局特征确定指示第一关注区域在图像中的位置的位置参数；以及基于位置参数从图像确定第一关注区域。

在另一方面，本公开提供了一种设备。该设备包括：处理单元；存储器，耦合至所述处理单元并且包含存储于其上的指令。所述指令在由所述处理单元执行时使所述设备执行动作，动作包括：获得图像和指示图像中的对象的类别的信息；通过更新用于提取图像的全局特征的第一学习网络的第一子网络，来增加基于全局特征确定出图像中的对象属于类别的第一概率；通过更新用于提取图像的第一关注区域的第一局部特征的第二学习网络的第一子网络，来增加基于第一局部特征确定出图像中的对象属于类别的第二概率，第一关注区域包括图像中的对象的可辨识部分；以及通过更新用于基于全局特征确定第一关注区域的第一学习网络的第二子网络，来使第二概率高于第一概率。

在一些实现中，动作还包括：通过更新用于提取被包括在第一关注区域中的第二关注区域的第二局部特征的第三学习网络，来增加基于第二局部特征确定出图像中的对象属于类别的第三概率，第二关注区域包括图像中对象的可辨识子部分；以及通过更新用于基于第一局部特征确定第二关注区域的第二学习网络的第二子网络，来使第三概率高于第二概率。

在一些实现中，更新第一学习网络的第二子网络包括：在固定已更新的第一学习网络的第一子网络和第二学习网络的第一子网络的参数的情况下，更新第一学习网络的第二子网络。

在一些实现中，更新第一学习网络的第一子网络包括：基于另外的图像和指示另外的图像中的对象的类别的另外信息来初始化第一学习网络的第一子网络；以及更新经初始化的第一学习网络的第一子网络。

在一些实现中，更新第二学习网络的第一子网络包括：放大第一关注区域；以及更新第二学习网络的第一子网络以用于从经放大的第一关注区域提取第一局部特征。

在一些实现中，更新第一学习网络的第二子网络包括：更新第一学习网络的第二子网络以用于基于全局特征确定指示第一关注区域在图像中的位置的位置参数，位置参数用于从图像中标识第一关注区域。

在一些实现中，更新第一学习网络的第二子网络包括：初始化位置参数；基于经初始化的位置参数，初始化第一学习网络的第二子网络；以及更新经初始化的第一学习网络的第二子网络。

在又一方面，本公开提供了一种由计算机实现的方法，包括：利用第一学习网络的第一子网络提取图像的全局特征；利用第一学习网络的第二子网络、基于全局特征确定图像的第一关注区域，第一关注区域包括图像中对象的可辨识部分；利用第二学习网络的第一子网络提取第一关注区域的第一局部特征；以及至少部分基于第一局部特征确定图像中的对象的类别。

在再一方面，本公开提供了一种由计算机实现的方法，包括：获得图像和指示图像中的对象的类别的信息；通过更新用于提取图像的全局特征的第一学习网络的第一子网络，来增加基于全局特征确定出图像中的对象属于类别的第一概率；通过更新用于提取图像的第一关注区域的第一局部特征的第二学习网络的第一子网络，来增加基于第一局部特征确定出图像中的对象属于类别的第二概率，第一关注区域包括图像中的对象的可辨识部分；以及通过更新用于基于全局特征确定第一关注区域的第一学习网络的第二子网络，来使第二概率高于第一概率。

在一些实现中，该方法还包括：通过更新用于提取被包括在第一关注区域中的第二关注区域的第二局部特征的第三学习网络，来增加基于第二局部特征确定出图像中的对象属于类别的第三概率，第二关注区域包括图像中对象的可辨识子部分；以及通过更新用于基于第一局部特征确定第二关注区域的第二学习网络的第二子网络，来使第三概率高于第二概率。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括计算机可执行指令，计算机可执行指令在由设备执行时使设备执行以上方面中的方法。

在又一方面，本公开提供了一种计算机可读介质，其上存储有计算机可执行指令，计算机可执行指令在由设备执行时使设备执行以上方面中的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种设备(100)，包括：

处理单元(110)；以及

存储器(120)，耦合至所述处理单元(110)并且包含存储于其上的指令，所述指令在由所述处理单元(110)执行时使所述设备(100)执行动作，所述动作包括：

利用第一学习网络(210)的第一子网络(212)提取图像(170)的全局特征(213)；

利用所述第一学习网络(210)的第二子网络(214)、基于所述全局特征(213)确定所述图像(170)的第一关注区域(201)，所述第一关注区域(201)包括所述图像(170)中对象的可辨识部分；

利用第二学习网络(220)的第一子网络(222)提取所述第一关注区域(201)的第一局部特征(223)；以及

至少部分基于所述第一局部特征(223)确定所述图像(170)中的所述对象的类别。

2.根据权利要求1所述的设备(100)，其中至少部分基于所述第一局部特征(223)确定所述图像(170)中的所述对象的类别包括：

利用所述第二学习网络(220)的第二子网络(324)、基于所述第一局部特征(223)确定所述图像(170)的第二关注区域(303)，所述第二关注区域(303)被包括在所述第一关注区域(201)中并且包括所述图像(170)中所述对象的可辨识子部分；

利用第三学习网络(330)提取所述第二关注区域(303)的第二局部特征(333)；以及

至少部分基于所述第二局部特征(333)确定所述图像(170)中的所述对象的所述类别。

3.根据权利要求2所述的设备(100)，其中至少部分基于所述第二局部特征(333)确定所述图像(170)中的所述对象的所述类别还包括：

进一步基于所述全局特征(213)和所述第一局部特征(223)中的至少一个来确定所述图像(170)中的所述对象的所述类别。

4.根据权利要求1所述的设备(100)，其中利用第二学习网络(220)的第一子网络(222)提取所述第一关注区域(201)的第一局部特征(223)包括：

放大所述第一关注区域(201)；以及

利用所述第二学习网络(220)的所述第一子网络提取经放大的所述第一关注区域(201)的所述第一局部特征(223)。

5.根据权利要求1所述的设备(100)，其中基于所述全局特征(213)确定所述图像(170)的所述第一关注区域(201)包括：

利用所述第一学习网络(210)的所述第二子网络(214)、基于所述全局特征(213)确定指示所述第一关注区域(201)在所述图像(170)中的位置的位置参数(215)；以及

基于所述位置参数(215)从所述图像(170)确定所述第一关注区域(201)。

6.根据权利要求1所述的设备(100)，其中至少部分基于所述第一局部特征(223)确定所述图像(170)中的所述对象的类别包括：

至少部分基于所述第一局部特征(223)，从多个预定类别中确定所述图像(170)中的所述对象的所述类别，所述多个预定类别包括所述对象所属的一般类别中的多个细化类别。

7.一种设备(100)，包括：

处理单元(110)；以及

获得图像和指示所述图像中的对象的类别的信息；

通过更新用于提取所述图像的全局特征的第一学习网络(210)的第一子网络(212)，来增加基于所述全局特征确定出所述图像中的所述对象属于所述类别的第一概率；

通过更新用于提取所述图像的第一关注区域的第一局部特征的第二学习网络(220)的第一子网络(222)，来增加基于所述第一局部特征确定出所述图像中的所述对象属于所述类别的第二概率，所述第一关注区域包括所述图像中的所述对象的可辨识部分；以及

通过更新用于基于所述全局特征确定所述第一关注区域的所述第一学习网络(210)的第二子网络(214)，来使所述第二概率高于所述第一概率。

8.根据权利要求7所述的设备(100)，其中所述动作进一步包括：

通过更新用于提取被包括在所述第一关注区域中的第二关注区域的第二局部特征的第三学习网络(330)，来增加基于所述第二局部特征确定出所述图像中的所述对象属于所述类别的第三概率，所述第二关注区域包括所述图像中所述对象的可辨识子部分；以及

通过更新用于基于所述第一局部特征确定所述第二关注区域的所述第二学习网络(220)的第二子网络(324)，来使所述第三概率高于所述第二概率。

9.根据权利要求7所述的设备(100)，其中更新所述第一学习网络(210)的所述第二子网络包括：

在固定已更新的所述第一学习网络(210)的所述第一子网络(212)和所述第二学习网络(220)的所述第一子网络(222)的参数的情况下，更新所述第一学习网络(210)的所述第二子网络(214)。

10.根据权利要求7所述的设备(100)，其中更新所述第一学习网络(210)的所述第一子网络(212)包括：

基于另外的图像和指示所述另外的图像中的对象的类别的另外信息来初始化所述第一学习网络(210)的所述第一子网络(212)；以及

更新经初始化的所述第一学习网络(210)的所述第一子网络(212)。

11.根据权利要求7所述的设备(100)，其中更新所述第二学习网络(220)的所述第一子网络(222)包括：

放大所述第一关注区域；以及

更新所述第二学习网络(220)的所述第一子网络(222)以用于从经放大的所述第一关注区域提取所述第一局部特征。

12.根据权利要求7所述的设备(100)，其中更新所述第一学习网络(210)的所述第二子网络包括：

更新所述第一学习网络(210)的所述第二子网络(214)以用于基于所述全局特征确定指示所述第一关注区域在所述图像中的位置的位置参数，所述位置参数用于从所述图像中标识所述第一关注区域。

13.根据权利要求12所述的设备(100)，其中更新所述第一学习网络(210)的所述第二子网络包括：

初始化所述位置参数；

基于经初始化的所述位置参数，初始化所述第一学习网络(210)的所述第二子网络(214)；以及

更新经初始化的所述第一学习网络(210)的所述第二子网络(214)。

14.根据权利要求7所述的设备(100)，其中所述图像中的对象的所述类别包括所述对象所属的一般类别中的多个细化类别之一。

15.一种由计算机实现的方法(400)，包括：

利用第一学习网络(210)的第一子网络(212)提取(410)图像(170)的全局特征(213)；

利用所述第一学习网络(210)的第二子网络(214)、基于所述全局特征(213)确定(420)所述图像(170)的第一关注区域(201)，所述第一关注区域(201)包括所述图像(170)中对象的可辨识部分；

利用第二学习网络(220)的第一子网络(222)提取(430)所述第一关注区域(201)的第一局部特征(223)；以及

至少部分基于所述第一局部特征(223)确定(440)所述图像(170)中的所述对象的类别。

16.根据权利要求15所述的方法(400)，其中至少部分基于所述第一局部特征(223)确定(440)所述图像(170)中的所述对象的类别包括：

17.根据权利要求16所述的方法(400)，其中至少部分基于所述第二局部特征(333)确定(440)所述图像(170)中的所述对象的所述类别还包括：

18.根据权利要求15所述的方法(400)，其中利用第二学习网络(220)的第一子网络(222)提取(430)所述第一关注区域(201)的第一局部特征(223)包括：

放大所述第一关注区域(201)；以及

19.根据权利要求15所述的方法(400)，其中基于所述全局特征(213)确定(420)所述图像(170)的所述第一关注区域(201)包括：

20.根据权利要求15所述的方法(400)，其中至少部分基于所述第一局部特征(223)确定(440)所述图像(170)中的所述对象的类别包括：