WO2019101021A1

WO2019101021A1 - 图像识别方法、装置及电子设备

Info

Publication number: WO2019101021A1
Application number: PCT/CN2018/116044
Authority: WO
Inventors: 李峰; 左小祥; 陈家君; 李昊沅; 曾维亿
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-11-23
Filing date: 2018-11-16
Publication date: 2019-05-31
Also published as: CN109829456A; CN109829456B

Abstract

一种图像识别方法、装置及电子设备。方法包括：采用图像检测模型检测目标图像中的目标候选区域（101）；当从目标图像中检测出目标候选区域时，提取目标候选区域（102）；采用图像识别模型基于目标候选区域进行图像识别，得到目标图像的识别结果（103）。上述方法先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

Description

图像识别方法、装置及电子设备

本申请要求于2017年11月23日提交的申请号为201711180320.X、发明名称为“图像识别方法、装置及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种图像识别方法、装置及电子设备。

背景技术

图像识别技术是指识别出图像所包括的物体的技术，是一种常见的图像处理的方式。

相关技术中，终端先采用样本集对卷积神经网络(Convolutional Neural Network，CNN)进行训练，得到图像识别模型，之后将待识别的图像输入上述训练好的图像识别模型，由图像识别模型对图像进行识别，并输出识别结果。

相关技术中，当待识别的物体在图像中所占的比例较小时，会出现识别错误或者无法识别的情况。

发明内容

本申请实施例提供了一种图像识别方法、装置及电子设备，可用以解决相关技术中所存在的当待识别的物体在图像中所占的比例较小时，会出现识别错误或者无法识别的情况的问题。所述技术方案如下：

一方面，本申请实施例提供了一种图像识别方法，应用于电子设备中，所述方法包括：

采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标对象的图像块；

当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域；

采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。

另一方面，本申请实施例提供了一种图像识别装置，应用于电子设备中，所述装置包括：

图像检测模块，用于采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标对象的图像块；

区域提取模块，用于当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域；

图像识别模块，用于采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。

可选地，所述图像检测模块，用于：

采用所述图像检测模型获取所述目标图像中的每一个像素属于所述目标对象的概率；

根据各个像素对应的概率确定所述目标候选区域，所述目标候选区域包括概率大于预设阈值的像素。

可选地，所述图像检测模块，用于：

根据各个像素对应的概率获取符合第一预设条件的图像块，将所述符合第一预设条件的图像块确定为目标图像块，其中，所述第一预设条件是指包含连续且大于预设数量的目标像素，所述目标像素是指概率大于预设阈值的像素；

将包含所述目标图像块且符合第二预设条件的矩形区域确定为所述目标候选区域，所述第二预设条件为所述目标图像块在所述矩形区域内的占比大于预设比例。

可选地，所述图像识别模块，用于：

采用所述图像识别模型对所述目标候选区域进行特征提取，得到所述目标候选区域的图像特征；

根据所述目标候选区域的图像特征，确定所述目标候选区域中的目标对象在多个识别结果中的第一概率分布；

将所述第一概率分布中的最大值所对应的识别结果，确定为所述目标图像的识别结果。

可选地，所述图像识别模块，用于：

对所述目标候选区域进行预处理，得到处理后的目标候选区域，所述处理后的目标候选区域的分辨率达到预设分辨率；

采用所述图像识别模型对所述处理后的目标候选区域进行特征提取，得到所述处理后的目标候选区域的图像特征；

根据所述处理后的目标候选区域的图像特征，确定所述目标候选区域中的目标对象在多个识别结果中的第二概率分布；

将所述第二概率分布中的最大值所对应的识别结果，确定为所述目标图像的识别结果。

可选地，所述图像检测模型包括输入层、卷积层、池化层、上卷积层、拼接层、归一层和输出层；所述输入层用于输入所述目标图像；所述卷积层用于将所述目标图像转化为特征图；所述池化层用于对所述卷积层输出的特征图进行池化处理，以减少所述特征图中的特征数量；所述上卷积层用于对所述卷积层输出的特征图执行上卷积操作；所述拼接层用于对经过所述池化层和所述上卷积层处理后的特征图进行拼接处理，得到拼接后的特征图；所述归一层，用于对所述拼接后的特征图进行归一处理，得到所述目标候选区域的位置信息；所述输出层，用于输出所述目标候选区域的位置信息。

可选地，所述图像识别模型包括输入层、卷积层、池化层、归一层和输出层；所述输入层用于输入所述目标候选区域；所述卷积层用于将所述目标候选区域转化为特征图；所述池化层用于对所述特征图进行池化处理，以减少所述特征图中的特征数量；所述归一层用于对经过所述卷积层和所述池化层处理后的特征图进行归一处理，得到所述识别结果；所述输出层用于输出所述识别结果。

可选地，所述装置还包括：

比例获取模块，用于获取所述目标候选区域占所述目标图像的比例；

所述图像识别模块，还用于若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。

可选地，所述装置还包括：

第一获取模块，用于获取第一训练样本集，所述第一训练样本集包含多张第一训练样本，每张所述第一训练样本被标记出包括所述目标的区域和/或不包括所述目标的区域；

第一训练模块，用于采用所述第一训练样本集对卷积神经网络CNN进行训练，得到所述图像检测模型。

可选地，所述装置还包括：

第二获取模块，用于获取第二训练样本集，所述第二训练样本集包含多张第二训练样本，每张所述第二训练样本对应有识别结果；

第二训练模块，用于采用所述第二训练样本集对卷积神经网络CNN进行训练，得到所述图像识别模型。

又一方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的图像识别方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的图像识别方法。

再一方面，本申请实施例提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述第一方面所述的图像识别方法。

本申请实施例提供的技术方案可以带来如下有益效果：

先通过图像检测模型初步检测出图像中可能包括目标对象的目标候选区域，并提取出目标候选区域，之后采用图像识别模型基于提取到的目标候选区域进行识别，得到识别结果，当目标对象在图像中所占的比例较小时，由于电子设备从图像中提取出了包含目标对象的目标候选区域，目标对象在目标候选区域所占的比例较大，此时通过图像识别模型对目标候选区域进行识别，可以避免相关技术中由于目标对象在图像中所占的比例较小时出现无法识别甚至识别错误的情况，提高图像识别的成功率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例示出的图像识别方法的流程图；

图2是图1所示实施例涉及的示意图；

图3是本申请一个示例性实施例示出的第一训练样本的示意图；

图4是本申请一个示例性实施例示出的检测过程的示意图；

图5是本申请一个示例性实施例示出的第二训练样本集的示意图；

图6是本申请一个示例性实施例示出的识别过程的示意图；

图7是本申请另一个示例性实施例示出的图像识别方法的流程图；

图8是本申请一个示例性实施例示出的图形识别的界面示意图；

图9是本申请一个示例性实施例示出的图形识别的界面示意图；

图10是本申请一个示例性实施例示出的图像识别装置的结构方框图；

图11是本申请另一个实施例示出的图像识别装置的结构方框图；

图12是本申请一个示例性实施例示出的电子设备的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

相关技术中，在通过相关模型进行图像识别时，该模型通常根据对一张图像中的感兴趣程度将该图像划分为多个区域，之后从感兴趣程度较高的区域中学习相关特征，进而根据学习到的特征来确定图像识别结果。当待识别物体在图像中所占的比例较小时，后续通过上述模型进行识别时，包含该待识别物体的区域被模型确定为感兴趣区域的概率较低，此时上述模型基于图像中除包含该待识别物体的区域之外的区域来进行图像识别，可能会出现识别错误或者无法识别的情况。

基于此，本申请实施例提供了一种图像识别方法、装置及电子设备。在本申请实施例中，先通过图像检测模型初步检测出图像中可能包括目标对象的目标候选区域，并提取出目标候选区域，之后采用图像识别模型基于提取到的目标候选区域进行识别，得到识别结果，当目标对象在图像中所占的比例较小时，由于电子设备从图像中提取出了包含目标对象的目标候选区域，目标对象在目标候选区域所占的比例较大，此时通过图像识别模型对目标候选区域进行识别，可以避免相关技术中由于目标对象在图像中所占的比例较小时出现无法识别甚至识别错误的情况，提高图像识别的成功率。

本申请实施例提供的方法，各步骤的执行主体可以是电子设备，该电子设备具有图像处理能力。可选地，该电子设备可以是诸如个人计算机、手机、平板电脑等终端，也可以是服务器。

请参考图1，其示出了本申请一个实施例示出的图像识别方法的流程图。该方法可以包括如下步骤：

步骤101，采用图像检测模型检测目标图像中的目标候选区域。

目标候选区域为包含目标对象的图像块。目标对象是指目标图像中的待识别物体，其可以是人脸、物体、手势等等，本申请实施例对此不作限定。目标图像是待检测的图像，其可以是图片，也可以是视频中的某一帧图像。

图像检测模型用于检测目标图像中是否包括目标对象。可选地，图像检测模型还用于检测目标对象在目标图像中的大致区域，也即目标候选区域。可选地，图像检测模型是对CNN进行训练得到的模型。对于图像检测模型的训练过程以及网络架构，将在下文实施例进行介绍。

可选地，步骤101可以包括如下几个子步骤：

步骤101a，采用图像检测模型获取目标图像中的每一个像素属于目标对象的概率；

图像检测模型能够对目标图像中的每一个像素进行特征提取，并将各个像素对应的特征提取结果与预设的图像特征进行匹配，上述特征提取结果与预设的图像特征之间的匹配程度可以用来衡量特征提取结果对应的像素属于目标对象的概率。特征提取结果与预设的图像特征之间的匹配程度越大，则该特征提取结果对应的像素属于目标对象的概率越大；特征提取结果与预设的图像特征之间的匹配程度越小，则该特征提取结果对应的像素属于目标对象的概率越小。其中，预设的图像特征可以是组成目标的像素对应的图像特征，其可以在训练出图像检测模型之后得到。

另外，获取目标图像的各个像素属于目标对象的概率之后，可以采用概率矩阵来表示上述概率。其中，概率矩阵所包括的概率与目标图像所包括的像素点一一对应。例如，概率矩阵第4行第3列的数值用于指示目标图像第4行第3列的像素点对应的概率。

步骤101b，根据各个像素对应的概率确定目标候选区域。

目标候选区域包括概率大于预设阈值的像素。预设阈值可以根据图像识别模型对目标占目标图像的比例要求实际确定。例如，图像识别模型要求目标占目标图像的比例较大时，则预设阈值也越大。示例性地，预设阈值为0.7。可选地，终端对概率矩阵进行二值化处理，将大于或等于预设阈值的概率设置为1，将不大于预设阈值的设置为0。通过上述方式，将大于或等于预设阈值的概率，以及小于预设阈值的概率进行区分。

可选地，确定目标候选区域可以采用如下方式：根据各个像素对应的概率获取符合第一预设条件的图像块，将符合第一预设条件的图像块确定为目标图像块，其中，第一预设条件是指包含连续且大于预设数量的目标像素，目标像素是指概率大于预设阈值的像素；将包含目标图像块且符合第二预设条件的矩形区域确定为目标候选区域，第二预设条件为目标图像块在矩形区域内的占比大于预设比例。预设数量、预设阈值和预设比例均可以根据实际需求设定，本申请实施例对此不作限定。

进一步地，第二预设条件还可以是目标图像块的占比达到最大，也即，矩形区域是包含目标图像块的最小矩形区域。通过上述方式，目标在目标候选区域的占比尽可能地大，后续采用图像识别模型识别时，能使识别效率得到提高，并且能提高识别的准确度。

结合参考图2，其示出了图1所示实施例涉及的示意图。图像检测模型11对输入的目标图像10进行检测之后，输出被标记有目标候选区域12的目标图像10。

步骤102，当从目标图像中检测出目标候选区域时，提取目标候选区域。

从目标图像中提取目标候选区域，也即从目标图像中截取目标候选区域。结合参考图2，终端从目标图像10中提取目标候选区域12。

当从目标图像中未检测到目标候选区域时，说明该目标图像中不包括目标对象，即可结束流程。

另外，当目标对象在目标图像中所占的比例较大时，终端可以直接对目标图像进行识别，而无需执行步骤102，也即无需从目标图像中提取目标候选区域，因此在步骤102之前，终端可以获取目标候选区域占目标图像的比例，若比例大于预设门限，则直接执行步骤103，若比例小于或等于预设门限，则执行步骤 102。其中，预设门限可以根据图像识别模型的识别精度实际确定。示例性地，预设门限为30％。通过上述方式，可以省去提取目标候选区域所需的时间，提升图像识别的效率。

步骤103，采用图像识别模型基于目标候选区域进行图像识别，得到目标图像的识别结果。

目标图像的识别结果是指目标图像中所包括的目标对象所属的分类。例如，图标图像为包括一手势的图像，该目标图像的识别结果是指该手势所属的分类。图像识别模型用于识别目标并对目标进行分类。可选地，图像识别模型也是对CNN进行训练得到的模型。对于图像识别模型的训练过程以及网络架构，将在下文实施例进行解释说明。

另外，终端获取目标候选区域之后，可以直接对目标候选区域进行识别，也可以在对目标候选区域进行预处理之后，再对处理后的目标候选区域进行识别。下面将分别对上述两种方式进行讲解。

在第一种可能的实施方式中，终端直接对目标候选区域进行识别，步骤103可以包括如下子步骤：

步骤103a，采用图像识别模型对目标候选区域进行特征提取，得到目标候选区域的图像特征；

步骤103b，根据目标候选区域的图像特征，确定目标候选区域中的目标对象在多个识别结果中的第一概率分布；

步骤103c，将第一概率分布中的最大值所对应的识别结果，确定为目标图像的识别结果。

目标对象在多个识别结果中的第一概率分布食指目标对象属于上述多个识别结果中的每个识别结果的概率。示例性，目标对象属于手势“Good”的概率为0.95，目标对象属于手势“Yeah”的概率为0.05，此时电子设备将手势“Good”确定为目标图像的识别结果。

在第二种可能的实施方式中，终端在对目标候选区域进行预处理之后，再对处理后的目标候选区域进行识别，此时步骤103可以包括如下子步骤：

步骤103d，对目标候选区域进行预处理，得到处理后的目标候选区域，处理后的目标候选区域的分辨率达到预设分辨率；

预设分辨率是图像识别模型对待识别图像的分辨率的要求。示例性地，预设分辨率为440*360。由于图像识别模型对待识别的分辨率存在要求，若分辨率不符合要求，则图像识别模型在识别过程中由于需要考虑到分辨率换算问题，该过程所需的计算量较多，耗时较长。在该示例中，在通过图像识别模型进行图像识别时，预先将待识别图像的分辨率转换至图像识别模型要求的分辨率，后续图像识别时可以减小工作量，并节省图像识别所需的时间，提升图像识别的效率。终端先获取目标候选区域的分辨率，之后对目标候选区域的分辨率进行分辨率提升处理，并使处理后的目标候选区域的分辨率达到预设分辨率。其中，分辨率提升处理所采用的算法可以是最近邻插值法算法、双线性插值算法、立方卷积插值算法等等，本申请实施例对此不作限定。

步骤103e，采用图像识别模型对处理后的目标候选区域进行特征提取，得到处理后的目标候选区域的图像特征；

步骤103f，根据处理后的目标候选区域的图像特征，确定目标候选区域中的目标对象在多个识别结果中的第二概率分布；

步骤103g，将第二概率分布中的最大值所对应的识别结果，确定为目标图像的识别结果。

步骤103e至步骤103f与步骤103a至103b相同，此处不再赘述。

结合参考图2，图像识别模型13对目标候选区域12进行识别，输出目标图像10的识别结果14，该识别结果14为图中所示的手势“Good”，也即竖起大拇指的手势。

综上所述，本申请实施例提供的方法，先通过图像检测模型初步检测出图像中可能包括目标对象的目标候选区域，并提取出目标候选区域，之后采用图像识别模型基于提取到的目标候选区域进行识别，得到识别结果，当目标对象在图像中所占的比例较小时，由于电子设备从图像中提取出了包含目标对象的目标候选区域，目标对象在目标候选区域所占的比例较大，此时通过图像识别模型对目标候选区域进行识别，可以避免相关技术中由于目标对象在图像中所占的比例较小时出现无法识别甚至识别错误的情况，提高图像识别的成功率。

另外，在本申请实施例中，由于级联网络中的每个子网络(也即图像检测模型与图像识别模型)是相互独立和解耦的，因此能够灵活复用或者替换每一个子网络，方便针对不同的用户提供不同优化偏好的模型组合。例如，有的用户对对准确率要求更高，则可以对图形识别模型进行优化，以期获得更准确的图像识别结果。

下面将对图像检测模型的训练过程以及网络架构进行讲解。

图像检测模型的训练过程如下：获取第一训练样本集，采用第一训练样本集对CNN进行训练，得到图像检测模型。

第一训练样本集包含多张第一训练样本。第一训练样本集所包括的第一训练样本的数量可以根据实际需求确定。每张第一训练样本被标记出包括目标对象的区域和/或不包括目标对象的区域。其中，对第一训练样本进行标记的过程可以人工完成。结合参考图3，其示出了本申请一个示例性实施例示出的第一训练样本20的示意图。其中，第一训练样本20中包括由黑线组成的轮廓21，轮廓21的内部是包括目标对象的区域，轮廓21的外部是不包括目标对象的区域。

需要说明的是，在不同的第一训练样本中，目标对象占第一训练样本的比例可以相同，也可以不同。示例性地，目标对象占第一训练样本A的比例为0.3，目标占第一训练样本B的比例为0.6。另外，第一训练样本所包括的目标对象的类型可以相同，也可以不同。示例性地，第一训练样本A所包括的目标对象为手势“Good”，第一训练样本B所包括的目标对象为手势“Yeah”。

另外，CNN可以是alexNet网络、VGG-16网络等等。另外。对CNN进行训练并得到图像检测模型所采用的算法可以是采用区域卷积神经网络(Regions with Convolutional Neural Network，RCNN)算法、快速区域卷积神经网络(faster RCNN)算法等等。本申请实施例对CNN，以及训练CNN的算法不作具体限定。

另外，在训练出图像检测模型之后，还可以采用第一测试样本集对图像检测模型进行测试。第一测试样本集包括多张第一测试样本，每张测试样本对应有测试结果。终端将第一测试样本输入图像检测模型后，检测图像检测模型输出的检测结果与该测试样本对应的测试结果是否相同，以实现检测图像检测模型是否训练至设定的精度。

图像检测模型的网络架构参见下文介绍。

图像检测模型包括输入层、卷积层、池化层、上卷积层、拼接层、归一层和输出层。本申请实施例对图像检测模型所包括的各层的数量不作限定，一般来说，图像检测模型的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对检测精度和效率的要求，设计适当层数的图像检测模型。

输入层用于输入目标图像。

卷积层用于将目标图像转化为特征图。在本申请实施例中，卷积层用于对目标图像、激活层的输出、池化层的输出、拼接层的输出执行卷积操作。卷积操作的作用是提取图像特征，并将输入数据映射到特征空间。每个卷积层用于执行一次或多次卷积操作。另外，各个卷积层的输入数据可以根据卷积层在图像检测模型中的位置确定，当卷积层位于图像检测模型中的第一层时，该卷积层的输入数据为目标图像；当卷积层位于激活层之后的一层时，该卷积层的输入数据为激活层的输出数据；当卷积层位于池化层之后的一层时，该卷积层的输入数据为池化层的输出数据；当卷积层位于拼接层之后的一层时，该卷积层的输入数据为拼接层的输出数据。

池化层用于对卷积层输出的特征图进行池化处理，以减少所述特征图中的特征数量。池化处理可以是最大值池化处理，也可以是均值池化处理。其中，最大值池化操作的作用是降低特征图的尺寸，增大下一层的感受野。感受野是图像检测模型每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。池化层的输入数据通常为卷积层的输出数据，池化层的输出数据通常为卷积层的输入数据。

上卷积层用于对卷积层输出的特征图进行上卷积操作。上卷积操作的作用是增大特征图的尺寸，将学习到的特征映射到更大的尺寸上。上卷积层的输入数据通常为激活层的输出数据，上卷积层的输出数据通常为拼接层的输入数据。

拼接层用于对经过池化层和上卷积层处理后的特征图进行拼接处理，得到拼接后的特征图。拼接操作的作用是将不同的特征图拼接起来，方便融合不同特征维度的信息，从而学习到更鲁棒的特征。拼接层的输入数据通常为池化层的输出数据和上卷积层的输出数据，拼接层的输出数据通常为卷积层的输入数据。

归一层用于对拼接后的特征图进行归一处理，得到目标候选区域的位置信息。归一处理的作用是得到拼接后的特征图中每个像素点属于目标对象的概率，并根据上述概率来确定目标候选区域的位置信息。

可选地，该图像检测模型还可以包括激活层。激活层可以位于池化层和/或上卷积层的前面，以及卷积层的后面，激活层用于对卷积层的输出执行激活操作，并输出被标记出目标候选区域的目标图像。由于卷积操作所得到的特征空间有限，因此可以通过激活操作对特征空间进行处理，以使得特征空间能表示的特征更多。激活层的输入数据通常都是卷积层的输出数据。激活层的输出数据可以根据激活层在图像检测模型中的位置确定，当激活层位于图像检测模型中的最后一层时，该激活层的输出数据为被标记出目标候选区域的目标图像。

下面将结合图像检测模型的网络架构，对图像检测模型的检测过程进行讲解。结合参考图4，其示出了本申请一个示例性实施例示出的检测过程的示意图(图中仅示出了卷积层、激活层、池化层、上卷积层与拼接层)。其中，①代表卷积操作，②代表激活操作，③代表最大值池化操作，④代表上卷卷积操作，⑤代表拼接操作；最左边的矩形框表示目标图像，最右边的矩形框表示被标记出目标候选区域的目标图像，其它的矩形框表示多通道特征图，矩形框的高度表示特征图的尺寸，特征图的尺寸越大，矩形框的高度就越高；矩形框的厚度表示特征图的通道数量，特征图的通道数量越多，矩形框的厚度就越厚。黑色的矩形框表示对激活层的输出数据的复制结果，与黑色的矩形框拼接的矩形框表示上卷积层的输出数据。

在本申请实施例中，以图像检测模型中的每层仅执行一次操作来进行解释说明。在图4中，图像检测模型共执行了15次卷积操作、15次激活操作、3次最大值池化操作、3次上卷积操作和3个拼接操作，也即，图像识别模型包括9个卷积层、9个激活层、3个池化层、3个上卷积层和3个拼接层。图像检测模型中的各个层按照图4中各个操作的执行顺序由左及右顺次连接，其中，拼接层的输入端与上卷积层和激活层均连接。第一个卷积层的输入数据是目标候选区域，之后每一层的输入数据是上一层的输出数据，拼接层的输入数据是激活层的输出数据和上卷积层的输出数据，最后一个激活层的输出数据是标记有目标候选区域的目标图像。

下面将对图像识别模型的训练过程进行讲解。图像识别模型的训练过程如下：获取第二训练样本集，采用第二训练样本集对卷积神经网络CNN进行训练，得到图像识别模型。

第二训练样本集包含多张第二训练样本。第一训练样本集所包括的第一训练样本的数量可以根据实际需求确定。第一训练样本越多时，图像检测模型的检测的精度越高；第一训练样本越低时，图像检测模型的精度越低。

每张第二训练样本对应有识别结果。第二训练样本对应的识别结果可以根据第二训练样本包括的目标对象的类型实际确定。另外，终端还可以根据各张训练样本的识别结果进行分类。结合参考图5，其示出了本申请一个实施例示出的第二训练样本集的示意图。第二训练样本集包括两个识别结果，分别为手势“Good”31和手势“Yeah”32，手势“Good”31对应有多张包含竖起大拇指的手势的第二训练样本311，手势“Good”32对应有多张包含竖起食指与中指的手势的第二训练样本321。

另外，CNN可以是alexNet网络、VGG-16网络等等。另外。对CNN进行训练并得到图像识别模型所采用的算法可以是采用faster RCNN算法、RCNN算法等等。本申请实施例对CNN，以及训练CNN的算法不作具体限定。

另外，在训练出图像识别模型之后，还可以采用第二测试样本集对图像识别模型进行测试。第二测试样本集包括多张第二测试样本，每张测试样本对应有识别结果。终端将第二测试样本输入图像识别模型后，检测图像是被模型输出的识别结果与该测试样本对应的识别结果是否相同，以实现检测图像识别模型是否训练至设定的精度。

图像识别模型的网络架构参见下文介绍。

可选地，图像识别模型包括输入层、卷积层、池化层和输出层，本申请实施例对图像识别模型所包括的各层的数量不作限定，一般来说，图像识别模型的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合对检测精度和效率的要求，设计适当层数的图像识别模型。

输入层用于输入目标候选区域。

卷积层用于将目标候选区域转化为特征图。在本申请实施例中，卷积层用于对目标候选区域、和池化层的输出执行卷积操作。卷积操作的作用是提取图像特征，并将输入数据映射到特征空间。每个卷积层用于执行一次或多次卷积操作。另外，各个卷积层的输入数据可以根据卷积层在图像识别模型中的位置确定，当卷积层位于图像识别模型中的第一层时，该卷积层的输入数据为目标候选区域或处理后的目标候选区域；当卷积层位于激活层之后的一层时，该卷积层的输入数据为激活层的输出数据；当卷积层位于池化层之后的一层时，该卷积层的输入数据为池化层的输出数据。

池化层用于对卷积层输出的特征图进行池化处理，以减少所述特征图中的特征数量。池化处理可以是最大值池化处理，也可以是均值池化处理。最大值池化操作的作用是降低特征图的尺寸，增大下一层的感受野。感受野是图像识别模型每一层输出的特征图上的像素点在原始图像上映射的区域大小。池化层的输入数据通常为激活层的输出数据，池化层的输出数据通常为卷积层的输入数据。

归一层用于对经过卷积层和池化层处理后的特征图进行归一处理，得到识别结果。在该实施例中，归一处理的作用是得目标对象属于多个识别结果的概率分布，并根据该概率分布来确定出识别结果。

可选地，该图像识别模型还可以包括激活层。激活层可以位于池化层之前，且位于激活层之后。激活层用于对卷积层的输出执行激活操作。由于卷积操作所得到的特征空间有限，因此可以通过激活操作对特征空间进行处理，以使得特征空间能表示的特征更多。激活层的输入数据通常都是卷积层的输出数据。激活层的输出数据可以根据激活层在图像识别模型中的位置确定，当激活层位于图像识别模型中的最后一层时，该激活层的输出数据为目标图像的识别结果。

下面将结合图像识别模型的网络架构，对图像识别模型的检测过程进行讲解。结合参考图6，其示出了本申请一个示例性实施例示出的检测过程的示意图(图中仅示出了卷积层、激活层、池化层)。其中，①代表卷积操作，②代表激活操作，③代表最大值池化操作；最左边的矩形框表示目标候选区域或者处理后的目标候选区域，最右边的矩形框表示被标记出目标图像的识别结果，其它的矩形框表示多通道特征图，矩形框的高度表示特征图的尺寸，特征图的尺寸越大，矩形框的高度就越高；矩形框的厚度表示特征图的通道数量，特征图的通道数量越多，矩形框的厚度就越厚。

在本申请实施例中，以图像识别模型中的每层仅执行一次操作来进行解释说明。在图6中，图像识别模型共执行了9次卷积操作、9次激活操作和3次最大值池化操作，也即，图像识别模型包括9个卷积层、9个激活层和3个池化层。图像识别模型中的各个层按照图6中各个操作的执行顺序由左及右顺次连接。第一个卷积层的输入数据是目标候选区域，之后每一层的输入数据是上一层的输出数据，最后一个激活层的输出数据是目标图像的识别结果。

请参考图7，其示出了本申请另一个实施例示出的图像识别方法的流程图。该方法可以包括如下步骤：

步骤401，获取第一训练样本集。

第一训练样本集包含多张第一训练样本，每张第一训练样本被标记出包括目标对象的区域和/或不包括目标对象的区域。

步骤402，采用第一训练样本集对CNN进行训练，得到图像检测模型。

步骤403，获取第二训练样本集。

第二训练样本集包含多张第二训练样本，每张第二训练样本对应有识别结果。

步骤404，采用第二训练样本集对CNN进行训练，得到图像识别模型。

本申请实施例对图像检测模型的训练过程，以及对图像识别过程的训练过程的先后顺序不作限定。也即，终端可以先执行步骤401和402，再执行步骤403和404；终端还可以先执行步骤403和404，再执行步骤401和402。

步骤405，采用图像检测模型检测目标图像中的目标候选区域。

目标候选区域为包含目标对象的图像块。

步骤406，获取目标候选区域占目标图像的比例。

若比例小于或等于预设门限，则执行步骤407；若比例大于预设门限，则执行步骤408。

步骤407，当从目标图像中检测出目标候选区域时，提取目标候选区域。

步骤408，采用图像识别模型对目标候选区域进行识别，得到目标图像的识别结果。

综上所述，本申请实施例提供的方法，先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

实际应用中，终端存在对用户进行身份验证的需求，例如，终端要求用户做出指定动作，比如摆出手势“Good”或者手势“Yeah”，终端通过摄像头采集图像，并对采集到的图像进行识别，得到识别结果，之后将该识别结果与所要求的指定动作进行比对，若一致，则说明身份验证成功，若不一致，则说明身份验证失败。

结合参考图8，其示出了本申请一个实施例提供的图像识别的界面示意图。在该图中，终端对电子设备采集到的图像进行识别，该图像的识别结果为为图中所示的手势“Good”，也即竖起大拇指的手势。

结合参考图9，其示出了本申请另一个实施例提供的图像识别的界面示意图。在该图中，终端对电子设备采集到的图像进行识别，该图像的识别结果为为图中所示的手势“Yeah”，也即竖起食指和中指的手势。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图10，其示出了本申请一个实施例提供的图像识别装置的框图。该装置应用于电子设备中，具有实现上述方法示例中的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：图像检测模块501、区域提取模块502和图像识别模块503。

图像检测模块501，用于采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标对象的图像块。

区域提取模块502，用于当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域。

图像识别模块503，用于采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。

在基于图10所示实施例提供的一个可选实施例中，所述图像检测模块501，用于：

在基于图10所示实施例提供的另一个可选实施例中，所述图像检测模块501，用于：

将包含所述目标图像块且符合第二预设条件的矩形区域确定为所述目标候选区域，所述第二预设条件为所述目标图像块在矩形区域内的占比大于预设比例。

在基于图10所示实施例提供的另一个可选实施例中，所述图像识别模块503，用于：

在基于图10所示实施例提供的另一个可选实施例中，所述图像检测模型包括输入层、卷积层、池化层、上卷积层、拼接层、归一层和输出层；所述输入层用于输入所述目标图像；所述卷积层用于将所述目标图像转化为特征图；所述池化层用于对所述卷积层输出的特征图进行池化处理，以减少所述特征图中的特征数量；所述上卷积层用于对所述卷积层输出的特征图执行上卷积操作；所述拼接层用于对经过所述池化层和所述上卷积层处理后的特征图进行拼接处理，得到拼接后的特征图；所述归一层，用于对所述拼接后的特征图进行归一处理，得到所述目标候选区域的位置信息；所述输出层，用于输出所述目标候选区域的位置信息。

在基于图10所示实施例提供的另一个可选实施例中，所述图像识别模型包括输入层、卷积层、池化层、归一层和输出层；所述输入层用于输入所述目标候选区域；所述卷积层用于将所述目标候选区域转化为特征图；所述池化层用于对所述特征图进行池化处理，以减少所述特征图中的特征数量；所述归一层用于对经过所述卷积层和所述池化层处理后的特征图进行归一处理，得到所述识别结果；所述输出层用于输出所述识别结果。

在基于图10所示实施例提供的另一个可选实施例中，请参考图11，所述装置还包括：比例获取模块504(图中未示出)。

比例获取模块504，用于获取所述目标候选区域占所述目标图像的比例。

所述图像识别模块503，还用于若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。

在基于图8所示实施例提供的另一个可选实施例中，请参考图9，所述装置还包括：第一获取模块505和第一训练模块506(图中未示出)。

第一获取模块505，用于获取第一训练样本集，所述第一训练样本集包含多张第一训练样本，每张所述第一训练样本被标记出包括所述目标的区域和/或不包括所述目标的区域。

第一训练模块506，用于采用所述第一训练样本集对卷积神经网络CNN进行训练，得到所述图像检测模型。

在基于图8所示实施例提供的另一个可选实施例中，请参考图11，所述装置还包括：第二获取模块507和第二训练模块508(图中未示出)。

第二获取模块507，用于获取第二训练样本集，所述第二训练样本集包含多张第二训练样本，每张所述第二训练样本对应有识别结果。

第二训练模块508，用于采用所述第二训练样本集对卷积神经网络CNN进行训练，得到所述图像识别模型。

综上所述，本申请实施例提供的装置，先通过图像检测模型初步检测出图像中可能包括目标的目标候选区域，之后采用图像识别模型基于检测出的目标候选区域进行识别，将上述两种模型结合，从而在目标在图像中所占的比例较小的情况下，也能准确地识别出图像中的目标，提高了图像识别的准确性。

图11示出了本申请一个示例性实施例提供的电子设备600的结构框图。该电子设备600可以是诸如智能手机、平板电脑、笔记本电脑或台式电脑之类的终端，也可以是服务器。在本申请实施例中，仅以电子设备600为终端为例进行说明。

通常，电子设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的图像识别方法。

在一些实施例中，电子设备600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置电子设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在电子设备600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在电子设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位电子设备600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件608可以是基于美国的GPS(Global Positioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以电子设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测电子设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对电子设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应 (比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在电子设备600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在电子设备600的侧边框时，可以检测用户对电子设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置电子设备600的正面、背面或侧面。当电子设备600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在电子设备600的前面板。接近传感器616用于采集用户与电子设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与电子设备600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对电子设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由终端的处理器加载并执行以实现上述方法实施例中的图像识别方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像识别方法，应用于电子设备中，所述方法包括：

采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标对象的图像块；

当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域；

采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。
根据权利要求1所述的方法，其中，所述采用图像检测模型检测目标图像中的目标候选区域，包括：

采用所述图像检测模型获取所述目标图像中的每一个像素属于所述目标对象的概率；

根据各个像素对应的概率确定所述目标候选区域，所述目标候选区域包括概率大于预设阈值的像素。
根据权利要求2所述的方法，其中，所述根据各个像素对应的概率确定所述目标候选区域，包括：

根据各个像素对应的概率获取符合第一预设条件的图像块，将所述符合第一预设条件的图像块确定为目标图像块，其中，所述第一预设条件是指包含连续且大于预设数量的目标像素，所述目标像素是指概率大于预设阈值的像素；

将包含所述目标图像块且符合第二预设条件的矩形区域确定为所述目标候选区域，所述第二预设条件为所述目标图像块在所述矩形区域内的占比大于预设比例。
根据权利要求1所述的方法，其中，所述采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果，包括：

采用所述图像识别模型对所述目标候选区域进行特征提取，得到所述目标候选区域的图像特征；

根据所述目标候选区域的图像特征，确定所述目标候选区域中的目标对象在多个识别结果中的第一概率分布；

将所述第一概率分布中的最大值所对应的识别结果，确定为所述目标图像的识别结果。
根据权利要求1所述的方法，其中，所述采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果，包括：

对所述目标候选区域进行预处理，得到处理后的目标候选区域，所述处理后的目标候选区域的分辨率达到预设分辨率；

采用所述图像识别模型对所述处理后的目标候选区域进行特征提取，得到所述处理后的目标候选区域的图像特征；

根据所述处理后的目标候选区域的图像特征，确定所述目标候选区域中的目标对象在多个识别结果中的第二概率分布；

将所述第二概率分布中的最大值所对应的识别结果，确定为所述目标图像的识别结果。
根据权利要求1所述的方法，其中，所述图像检测模型包括输入层、卷积层、池化层、上卷积层、拼接层、归一层和输出层；

所述输入层用于输入所述目标图像；

所述卷积层用于将所述目标图像转化为特征图；

所述池化层用于对所述卷积层输出的特征图进行池化处理，以减少所述特征图中的特征数量；

所述上卷积层用于对所述卷积层输出的特征图执行上卷积操作；

所述拼接层用于对经过所述池化层和所述上卷积层处理后的特征图进行拼接处理，得到拼接后的特征图；

所述归一层，用于对所述拼接后的特征图进行归一处理，得到所述目标候选区域的位置信息；

所述输出层，用于输出所述目标候选区域的位置信息。
根据权利要求1所述的方法，其中，所述图像识别模型包括输入层、卷积层、池化层、归一层和输出层；

所述输入层用于输入所述目标候选区域；

所述卷积层用于将所述目标候选区域转化为特征图；

所述池化层用于对所述特征图进行池化处理，以减少所述特征图中的特征数量；

所述归一层用于对经过所述卷积层和所述池化层处理后的特征图进行归一处理，得到所述识别结果；

所述输出层用于输出所述识别结果。
根据权利要求1至7任一项所述的方法，其中，所述提取所述目标候选区域之前，还包括：

获取所述目标候选区域占所述目标图像的比例；

若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。
一种图像识别装置，应用于电子设备中，所述装置包括：

图像检测模块，用于采用图像检测模型检测目标图像中的目标候选区域，所述目标候选区域为包含目标对象的图像块；

区域提取模块，用于当从所述目标图像中检测出所述目标候选区域时，提取所述目标候选区域；

图像识别模块，用于采用图像识别模型基于所述目标候选区域进行图像识别，得到所述目标图像的识别结果。
根据权利要求9所述的装置，其中，所述图像检测模块，用于：

采用所述图像检测模型获取所述目标图像中的每一个像素属于所述目标对象的概率；

根据各个像素对应的概率确定所述目标候选区域，所述目标候选区域包括概率大于预设阈值的像素。
根据权利要求10所述的装置，其中，所述图像检测模块，用于：

根据各个像素对应的概率获取符合第一预设条件的图像块，将所述符合第一预设条件的图像块确定为目标图像块，其中，所述第一预设条件是指包含连续且大于预设数量的目标像素，所述目标像素是指概率大于预设阈值的像素；

将包含所述目标图像块且符合第二预设条件的矩形区域确定为所述目标候选区域，所述第二预设条件为所述目标图像块在所述矩形区域内的占比大于预设比例。
根据权利要求9所述的装置，其中，所述图像识别模块，用于：

采用所述图像识别模型对所述目标候选区域进行特征提取，得到所述目标候选区域的图像特征；

根据所述目标候选区域的图像特征，确定所述目标候选区域中的目标对象在多个识别结果中的第一概率分布；

将所述第一概率分布中的最大值所对应的识别结果，确定为所述目标图像的识别结果。
根据权利要求9所述的装置，其中，所述图像识别模块，用于：

对所述目标候选区域进行预处理，得到处理后的目标候选区域，所述处理后的目标候选区域的分辨率达到预设分辨率；

采用所述图像识别模型对所述处理后的目标候选区域进行特征提取，得到所述处理后的目标候选区域的图像特征；

根据所述处理后的目标候选区域的图像特征，确定所述目标候选区域中的目标对象在多个识别结果中的第二概率分布；

将所述第二概率分布中的最大值所对应的识别结果，确定为所述目标图像的识别结果。
根据权利要求9所述的装置，其中，所述图像检测模型包括输入层、卷积层、池化层、上卷积层、拼接层、输出层；

所述输入层用于输入所述目标图像；

所述卷积层用于将所述目标图像转化为特征图；

所述池化层用于对所述卷积层输出的特征图进行池化处理，以减少所述特征图中的特征数量；

所述上卷积层用于对所述卷积层输出的特征图执行上卷积操作；

所述拼接层用于对经过所述池化层和所述上卷积层处理后的特征图进行拼接处理，得到拼接后的特征图；

所述归一层，用于对所述拼接后的特征图进行归一处理，得到所述目标候选区域的位置信息；

所述输出层，用于输出所述目标候选区域的位置信息。
根据权利要求9所述的装置，其中，所述图像识别模型包括输入层、卷积层、池化层、归一层和输出层；

所述输入层用于输入所述目标候选区域；

所述卷积层用于将所述目标候选区域转化为特征图；

所述池化层用于对所述特征图进行池化处理，以减少所述特征图中的特征数量；

所述归一层用于对经过所述卷积层和所述池化层处理后的特征图进行归一处理，得到所述识别结果；

所述输出层用于输出所述识别结果。
根据权利要求9至15任一项所述的装置，其中，所述装置还包括：

比例获取模块，用于获取所述目标候选区域占所述目标图像的比例；

所述图像识别模块，还用于若所述比例大于预设门限，则直接执行所述采用图像识别模型对所述目标候选区域进行识别，得到所述目标图像的识别结果的步骤。
一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的图像识别方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的图像识别方法。