CN110009052B

CN110009052B - 一种图像识别的方法、图像识别模型训练的方法及装置

Info

Publication number: CN110009052B
Application number: CN201910289986.1A
Authority: CN
Inventors: 王一同; 黄佳博; 季兴; 周正
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2022-11-18
Anticipated expiration: 2039-04-11
Also published as: CN110009052A

Abstract

本申请公开了一种图像识别的方法，包括：获取待识别图像；通过小规模图像识别模型获取待识别图像的第一图像特征，其中，小规模图像识别模型部署于终端设备；根据第一图像特征与N个第二图像特征，确定第一图像特征与第二图像特征之间的图像相似度，其中，第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征；根据图像相似度确定待识别图像的图像识别结果。本申请还公开了图像识别模型训练的方法以及装置。本申请利用大规模图像识别模型提取到高质量的图像特征，利用小规模图像识别模型能够进行高效计算，从而在保证运算效率的前提下提升小规模图像识别模型的识别准确率。

Description

一种图像识别的方法、图像识别模型训练的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种图像识别的方法、图像识别模型训练的方法及装置。

背景技术

人脸识别是计算机视觉领域中的一个重要的研究课题，并且在工业领域有广泛应用。随着移动设备的发展与普及，在终端设备上运行人脸识别算法的需求日益增强。然而，终端***有限的运算能力、存储空间以及对运算实时性的高要求，使得直接在其难以运行大规模神经网络模型成为不可能。

目前，针对终端设备设计的人脸识别方法，是通过对大规模人脸识别卷积神经网络(Convolutional Neural Networks，CNN)模型中的结构以及运算操作进行改进，在尽可能保持模型性能的前提下，减少模型中的参数数量。

运行在终端设备上的人脸识别方法大多是通过减少模型参数以提升模型运算速度。然而，由于小模型的模型参数有限，因此，能拟合的解的复杂度相对于大模型而言小许多，从而导致识别准确率下降。如果直接将大模型运用在终端***上，虽然能保证较高的识别性能，但对终端设备的计算能力要求极高，且在识别效率方面无法得到保证。

发明内容

本申请实施例提供了一种图像识别的方法、图像识别模型训练的方法及装置，利用大规模图像识别模型提取到高质量的图像特征，利用小规模图像识别模型能够进行高效计算，从而在保证运算效率的前提下提升小规模图像识别模型的识别准确率。

有鉴于此，本申请第一方面提供一种图像识别的方法，包括：

获取待识别图像；

通过小规模图像识别模型获取所述待识别图像的第一图像特征，其中，所述小规模图像识别模型部署于终端设备；

根据所述第一图像特征与N个第二图像特征，确定所述第一图像特征与所述第二图像特征之间的图像相似度，其中，所述第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量，所述N为大于或等于1的整数；

根据所述图像相似度确定所述待识别图像的图像识别结果。

本申请第二方面提供一种图像识别模型训练的方法，包括：

获取待训练图像集合，其中，所述待训练图像集合中包括至少一个待训练图像，每个待训练图像对应于一个身份标签；

通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征，其中；

通过待训练小规模图像识别模型获取所述每个待训练图像所对应的第二待训练图像特征，其中，每个第二待训练图像特征对应于一个类别权重向量，所述类别权重向量与所述身份标签具有一一对应的关系；

根据所述每个待训练图像所对应的所述第一待训练图像特征、所述第二待训练图像特征以及类别权重向量，对所述待训练小规模图像识别模型进行训练，得到小规模图像识别模型，其中，所述小规模图像识别模型部署于终端设备，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量。

本申请第三方面提供一种图像识别装置，包括：

获取模块，用于获取待识别图像；

所述获取模块，还用于通过小规模图像识别模型获取所述待识别图像的第一图像特征，其中，所述小规模图像识别模型部署于终端设备；

确定模块，用于根据所述获取模块获取的所述第一图像特征与N个第二图像特征，确定所述第一图像特征与所述第二图像特征之间的图像相似度，其中，所述第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量，所述N为大于或等于1的整数；

所述确定模块，还用于根据所述图像相似度确定所述待识别图像的图像识别结果。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述确定模块，具体用于若所述N等于1，则根据所述第一图像特征与所述第二图像特征计算得到所述图像相似度；

若所述图像相似度达到相似度阈值，则确定所述待识别图像与所述待匹配图像具有相同的身份标签。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述确定模块，具体用于若所述N大于1，则根据所述第一图像特征与每个第二图像特征，计算得到N个图像相似度；

从所述N个图像相似度中确定目标图像相似度所对应的待匹配图像，其中，所述目标图像相似度为所述N个图像相似度中的最大值；

确定所述待识别图像与所述目标图像相似度所对应的待匹配图像具有相同的身份标签。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述确定模块，具体用于采用如下方式计算所述图像相似度：

其中，所述S(I_p,I_g)表示所述待识别图像与所述待匹配图像的图像相似度，所述I_p表示所述待识别图像，所述I_g表示所述待匹配图像，所述F_S(I_p)表示所述第一图像特征，所述F_B(I_g)表示所述第二图像特征，所述||||表示特征的模长。

本申请第四方面提供一种图像识别模型训练装置，包括：

获取模块，用于获取待训练图像集合，其中，所述待训练图像集合中包括至少一个待训练图像，每个待训练图像对应于一个身份标签；

所述获取模块，还用于通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征；

所述获取模块，还用于通过待训练小规模图像识别模型获取所述每个待训练图像所对应的第二待训练图像特征，其中，每个第二待训练图像特征对应于一个类别权重向量，所述类别权重向量与所述身份标签具有一一对应的关系；

训练模块，用于根据所述获取模块获取的所述每个待训练图像所对应的所述第一待训练图像特征、所述第二待训练图像特征以及类别权重向量，对所述待训练小规模图像识别模型进行训练，得到小规模图像识别模型，其中，所述小规模图像识别模型部署于终端设备，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述获取模块，还用于通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征之前，通过待训练大规模图像识别模型获取每个待训练图像所对应的第三待训练图像特征，其中，每个第三待训练图像特征对应于一个类别权重向量；

所述训练模块，还用于根据所述获取模块获取的所述每个待训练图像所对应的第三待训练图像特征以及类别权重向量，采用分类损失函数对所述待训练大规模图像识别模型进行训练，得到所述大规模图像识别模型。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述训练模块，具体用于根据所述每个待训练图像所对应的所述第二待训练图像特征以及所述每个待训练图像所对应的类别权重向量，确定第一损失函数；

根据所述每个待训练图像所对应的所述第一待训练图像特征以及所述每个待训练图像所对应的所述第二待训练图像特征，确定第二损失函数；

根据所述第一损失函数以及所述第二损失函数，确定目标损失函数；

采用所述目标损失函数对所述待训练小规模图像识别模型进行训练，得到所述小规模图像识别模型。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

所述训练模块，具体用于采用如下方式确定所述第一损失函数：

s.t.||F_S(I)||＝1，||W||＝1；

其中，所述L_LCML表示所述第一损失函数，所述N表示所述待训练图像集合中的待训练图像的总数，所述i表示所述待训练图像集合中的第i个待训练图像，所述j表示所述待训练图像集合中的第j个待训练图像，所述e表示自然底数，所述cos(·)表示两向量夹角余弦值，所述s以及所述m表示所述第一损失函数的超参数，所述I_i表示所述第i个待训练图像，所述F_S(I_i)表示所述第i个待训练图像所对应的第二待训练图像特征，所述W_i表示所述第i个待训练图像所对应的类别权重向量，所述W_j表示所述第j个待训练图像所对应的类别权重向量，所述W表示类别权重向量，所述F_S(I)表示第二待训练图像特征，所述s.t.表示受限制于，所述||||表示特征的模长，所述F_S()表示通过所述待训练小规模图像识别模型提取特征。

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

所述训练模块，具体用于采用如下方式确定所述第二损失函数：

其中，所述L_L2表示所述第二损失函数，所述N表示所述待训练图像集合中的待训练图像的总数，所述i表示所述待训练图像集合中的第i个待训练图像，所述I_i表示所述第i个待训练图像，所述F_S(I_i)表示所述第i个待训练图像所对应的第二待训练图像特征，所述F_B(I_i)表示所述第i个待训练图像所对应的第一待训练图像特征，所述||||₂表示向量的L2范数，所述F_S()表示通过所述待训练小规模图像识别模型提取特征，所述F_B()表示通过所述大规模图像识别模型提取特征。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

所述训练模块，具体用于采用如下方式确定所述目标损失函数：

L＝λ₁L_LCML+λ₂L_L2；

其中，所述L表示所述目标损失函数，所述λ₁表示所述第一损失函数的权重参数，所述λ₂表示所述第二损失函数的权重参数，所述L_LCML表示所述第一损失函数，所述L_L2表示所述第二损失函数。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待识别图像；

根据所述图像相似度确定所述待识别图像的图像识别结果；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征；

根据所述每个待训练图像所对应的所述第一待训练图像特征、所述第二待训练图像特征以及类别权重向量，对所述待训练小规模图像识别模型进行训练，得到小规模图像识别模型，其中，所述小规模图像识别模型部署于终端设备，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种图像识别的方法，首先获取待识别图像，然后通过小规模图像识别模型获取待识别图像的第一图像特征，其中，小规模图像识别模型部署于终端设备，接下来根据第一图像特征与N个第二图像特征，确定第一图像特征与第二图像特征之间的图像相似度，其中，第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征，N为大于或等于1的整数，最后根据图像相似度确定待识别图像的图像识别结果。通过上述方式，在服务器中预先使用大规模图像识别模型提取到数据库中所有的图像特征，而在终端设备上使用小规模图像识别模型提取待识别图像的图像特征，利用大规模图像识别模型提取到高质量的图像特征，利用小规模图像识别模型能够进行高效计算，从而在保证运算效率的前提下提升小规模图像识别模型的识别准确率。

附图说明

图1为本申请实施例中图像识别***的一个架构示意图；

图2为本申请实施例中图像识别的方法一个实施例示意图；

图3为本申请实施例中图像比对的一个应用框架示意图；

图4为本申请实施例中图像检索的一个应用框架示意图；

图5为本申请实施例中图像识别模型训练的方法一个实施例示意图；

图6为本申请实施例中大规模图像识别模型的一个训练框架示意图；

图7为本申请实施例中小规模图像识别模型的一个训练框架示意图；

图8为本申请实施例中图像识别装置的一个实施例示意图；

图9为本申请实施例中图像识别模型训练装置的一个实施例示意图；

图10为本申请实施例中终端设备的一个结构示意图；

图11为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的图像识别的方法应用于人工智能领域，具体可以应用于人脸识别以及人脸验证，更具体地，可以应用于身份认证、刷脸支付、小区门禁以及人脸检测等场景。本申请所提供的图像识别的方法能够在终端设备上对人脸图像进行快速且精确地识别，并且能够快速且较为精确地识别待比对人脸照片的身份一致性，对表情、年龄和姿态等变化具有较强的鲁棒性。

本申请提出了一种基于非对称特征的图像识别方法。该方法在训练阶段使用大规模图像识别模型提取得到的图像特征作为标签指导小规模图像识别模型的训练，使得小规模图像识别模型能够学习到如何将输入图像映射到大规模图像识别模型所处的特征空间中。在应用阶段，首先使用大规模图像识别模型提取数据库图像(Gallery)的图像特征。其中，使用大规模图像识别模型提取图像特征的过程是离线的，也就是说大规模图像识别模型只需要对Gallery中的图像特征进行一次提取便可以多次使用，不需要在每次进行识别时都使用大模型进行特征提取，因此该操作对线上图像识别模型运用的效率并不会造成过大的影响。运用线上的图像识别模型时，在获取到待识别的人脸图像之后，使用训练好的小规模图像识别模型实时提取待识别的人脸特征，并用待识别的人脸特征与已提取得到的Gallery中图像特征进行匹配，以获取识别结果。由于在训练阶段小规模图像识别模型学习将图像映射到大规模图像识别模型所属的特征空间中。那么在应用阶段，便可以使用这种非对称的形式来匹配大规模图像识别模型与小规模图像识别模型的特征。

为了便于理解，本申请提出了一种图像识别的方法，该方法应用于图1所示的图像识别***，请参阅图1，图1为本申请实施例中图像识别***的一个架构示意图，如图所示，客户端获取一张人脸图像，然后将该人脸图像输入至预先训练好的小规模图像识别模型，其中，小规模图像识别模型部署在客户端本地，且具有较少的模型参数。通过小规模图像识别模型输入人脸图像的图像特征A。接下来直接获取大规模图像识别模型预先提取到的图像特征B，大规模图像识别模型是部署在服务器上的，具有较多的模型参数。客户端将图像特征A和图像特征B进行比对，从而得到识别结果。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

本申请提出的方法相对于对称地使用小规模图像识别模型进行图像识别的方法而言，在保证计算速度的前提下，提升了识别准确度。相对于对称地使用大规模图像识别模型进行图像识别的方法而言，在尽可能少牺牲识别性能的前提下，较大程度提升了模型计算速度，同时减小了模型的体积以降低模型对终端设备的计算内存的要求。

结合上述介绍，下面将对本申请中图像识别的方法进行介绍，请参阅图2，本申请实施例中图像识别的方法一个实施例包括：

101、获取待识别图像；

本实施例中，图像识别装置获取待识别图像，可以理解的是，图像识别装置部署在终端设备上，待识别图像可以是通过终端设备的摄像头实时拍摄后得到的图像，也可以是存储在终端设备本地的图像。其中，待识别图像具体可以是人脸图像，还可以是动物图像、植物图像或者建筑物图像，甚至可以是动态图像，本申请以人脸图像为例进行说明，然而这并不应理解为对本申请的限定。

102、通过小规模图像识别模型获取待识别图像的第一图像特征，其中，小规模图像识别模型部署于终端设备；

本实施例中，图像识别装置将待识别图像输入至小规模图像识别模型中，由该小规模图像识别模型输出相应的第一图像特征，其中，小规模图像识别模型部署于终端设备上，可以在离线的状态下提取图像特征。

可以理解的是，小规模图像识别模型可以是Mobile Net、Shuffle Net或者Squeeze Net中的一种，还可以是其他轻量级网络。其中，在Mobile Net系列中包括MobileNet V1、MobileNet V2以及移动端人脸网络(Mobile Facenet)。MobileNet V1引入了深度可分离卷积运算来减少传统卷积运算中的大规模参数。此外还引入了两个超参数以控制输入图像的分辨率以及模型宽度。MobileNet V2在V1的基础上引入了倒转残差(Inverted Residual)以及线性阻碍(Linear Bottlenecks)以缓解V1中存在的严重特征退化问题。而Mobile Facenet则对V2的网络结构进行了适当的修改使得模型更适用于人脸识别任务。

Shuffle Net是一种残差神经网络(Residual Neural Network，ResNet)的改进形式，通过组卷积(Group Convolution)和通道交换(Channel Shuffle)的方法大规模减少了ResNet的计算量。组卷积运算能够有效降低卷积运算的运算量，同时通道交换运算能够保证不同组间的信息交流。

Squeeze Net是一种轻量的卷积神经网络(Convolutional Neural Networks,CNN)模型，该Squeeze Net主要由Fire模块作为基础单元堆叠构建而成。fire module由一个挤压(Squeeze)层以及一个扩展(Expand)层组合而成。在模型设计中，大量使用1x1的卷积核代替3x3的卷积核，同时尽量减少3x3卷积核的输入通道数，以大量减少卷积运算的参数。此外，模型通过延迟下采样，使得低层神经层有更大的特征图，有利于提升模型准确度。

103、根据第一图像特征与N个第二图像特征，确定第一图像特征与第二图像特征之间的图像相似度，其中，第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征，大规模图像识别模型的模型参数数量大于小规模图像识别模型的模型参数数量，N为大于或等于1的整数；

本实施例中，图像识别装置在提取待识别图像的第一图像特征之后，可以将第一图像特征和N个第二图像特征进行匹配，N为大于或等于1的整数，因此，可以得到N个第一图像特征与第二图像特征之间的图像相似度。

需要说明的是，N个第二图像特征是由大规模图像识别模型从数据库图像(Gallery)中提取的所有图像特征，使用大规模图像识别模型的过程通常是离线的，也就是说，大规模图像识别模型只需要对Gallery中的图像特征进行一次特征提取便可以多次使用，而不需要在每次进行识别的时候都使用大规模图像识别模型进行特征提取，通常情况下，大规模图像识别模型部署在服务器上，在实际应用中，大规模图像识别模型也可以部署在终端设备上。因此，使用大规模图像识别模型提取特征的操作对线上图像识别的效率并不会造成过大影响。在线上应用小规模图像识别模型时，在获取到待识别图像之后，使用训练好的小规模图像识别模型实时地提取待识别图像的图像特征，并用其与已提取到的Gallery中图像所对应的特征进行匹配，由此得到两两图像之间的图像相似度。

其中，大规模图像识别模型的模型参数数量大于小规模图像识别模型的模型参数数量，也就是大规模图像识别模型的复杂度高于小规模图像识别模型的复杂度，因此，运行大规模图像识别模型需要占用更多的资源，而小规模图像识别模型运行起来更为轻便。

104、根据图像相似度确定待识别图像的图像识别结果。

本实施例中，图像识别装置根据两两图像之间的图像识别装置，确定待识别图像的图像识别结果。

由于在训练阶段小规模图像识别模型习将图像映射到大规模图像识别模型特征所属的特征空间中。那么在应用阶段，便可以使用这种非对称的形式来匹配大规模图像识别模型与小规模图像识别模型的特征。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的图像识别的方法第一个可选实施例中，根据第一图像特征与N个第二图像特征，确定第一图像特征与第二图像特征之间的图像相似度，可以包括：

若N等于1，则根据第一图像特征与第二图像特征计算得到图像相似度；

根据图像相似度确定待识别图像的图像识别结果，包括：

若图像相似度达到相似度阈值，则确定待识别图像与待匹配图像具有相同的身份标签。

本实施例中，将介绍一种确定图像识别结果的方法。在N等于1的情况下，也就是将两张图像的图像特征进行相似度比对，从而这两张图像是否属于同一个身份标签。

为了便于说明，以验证(verification)人脸图像为例进行介绍，请参阅图3，图3为本申请实施例中图像比对的一个应用框架示意图，如图所示，将待识别图像输入至小规模图像识别模型，由该小规模图像识别模型输出待识别图像所对应的图像特征A。而服务器预先通过大规模图像识别模型提取Gallery中图像的图像特征，其中，包括了待匹配图像的图像特征B，此时，将图像特征A和图像特征B进行比对，即经过特征之间的相似度计算之后得到图像相似度。若图像相似度达到相似度阈值，则确定待识别图像和待匹配图像是同一个身份，也就具有相同的身份标签，比如得到的图像识别结果为：待识别图像中的人物是“小明”。若图像相似度为达到相似度阈值，则表示待识别图像和待匹配图像不属于同一个身份，也就具有不同的身份标签，比如得到的图像识别结果为，待识别图像中的人物不是“小明”。

其次，本申请实施例中，提供了一种图像比对的方法，若N等于1，则根据第一图像特征与第二图像特征计算得到图像相似度，若图像相似度达到相似度阈值，则确定待识别图像与待匹配图像具有相同的身份标签。通过上述方式，在一些图像验证的场景中，可以预先采用大规模图像识别模型提取数据库中所有已知身份的人脸图像特征，在需要进行人脸验证的时候，使用小规模图像识别模型实时地计算，并得到相应的人脸图像特征，对待识别的人脸图像进行1比1的人脸验证，从而在使用非对称的特征进行人脸相似度计算，能够在保证算法效率的前提下提升算法的识别准确率。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的图像识别的方法第二个可选实施例中，根据第一图像特征与N个第二图像特征，确定第一图像特征与第二图像特征之间的图像相似度，可以包括：

若N大于1，则根据第一图像特征与每个第二图像特征，计算得到N个图像相似度；

根据图像相似度确定待识别图像的图像识别结果，包括：

从N个图像相似度中确定目标图像相似度所对应的待匹配图像，其中，目标图像相似度为N个图像相似度中的最大值；

确定待识别图像与目标图像相似度所对应的待匹配图像具有相同的身份标签。

本实施例中，本实施例中，将介绍另一种确定图像识别结果的方法。在N大于1的情况下，也就是将多张图像之间的图像特征进行相似度比对，从而确定待识别图像的身份标签。

为了便于说明，以识别(Identification)人脸图像为例进行介绍，请参阅图4，图4为本申请实施例中图像检索的一个应用框架示意图，如图所示，将待识别图像输入至小规模图像识别模型，由该小规模图像识别模型输出待识别图像所对应的图像特征A。而服务器预先通过大规模图像识别模型提取Gallery中所有图像的图像特征，比如提取图像1的图像特征B，提取图像2的图像特征B，以此类推，将每个图像的图像特征存储至图像特征数据库中。图像特征数据库包括N个图像特征，于是，需要将待识别图像的图像特征A分别与图像特征数据库中的每个图像特征进行匹配，假设N为100，那么可以得到100个图像相似度。从这100个图像相似度中选择最大值作为目标图像相似度，该目标图像相似度所对应的待识别图像与待匹配图像具有相同的身份标签，比如得到的图像识别结果为，待识别图像中的人物是“小红”。

其次，本申请实施例中，供了一种图像检索的方法，若N大于1，则根据第一图像特征与每个第二图像特征，计算得到N个图像相似度，然后从N个图像相似度中确定目标图像相似度所对应的待匹配图像，其中，目标图像相似度为N个图像相似度中的最大值，最后确定待识别图像与目标图像相似度所对应的待匹配图像具有相同的身份标签。通过上述方式，在一些图像检索的场景中，可以预先采用大规模图像识别模型提取数据库中所有已知身份的人脸图像特征，在需要进行人脸验证的时候，使用小规模图像识别模型实时地计算，并得到相应的人脸图像特征，对待识别的人脸图像进行1比多的人脸识别，从而在使用非对称的特征进行人脸相似度计算，能够在保证算法效率的前提下提升算法的识别准确率。

可选地，在上述图2对应的第一个实施例的基础上，本申请实施例提供的图像识别的方法第三个可选实施例中，根据第一图像特征与第二图像特征计算得到图像相似度，可以包括：

采用如下方式计算图像相似度：

其中，S(I_p,I_g)表示待识别图像与待匹配图像的图像相似度，I_p表示待识别图像，I_g表示待匹配图像，F_S(I_p)表示第一图像特征，F_B(I_g)表示第二图像特征，||||表示特征的模长。

本实施例中，介绍了一种图像相似度计算的方式。在应用阶段，已经训练好的大规模图像识别模型用于提取Gallery中所有图像的图像特征，已经训练好的小规模图像识别模型用于提取待识别图像的图像特征。对于给定的两个特征向量x₁和x₂，通过如下公式可以计算余弦相似度S：

其中，余弦相似度S越大，表示特征向量x₁和特征向量x₂来自同一个人的可能性越高，反之，则表示来自同一个人的可能性越低。

更具体地，以两张图像为例进行说明，I_p表示待识别图像，I_g表示待匹配图像，F_S()表示通过小规模图像识别模型提取特征，即F_S(I_p)表示第一图像特征，F_B()表示通过大规模图像识别模型提取特征，即F_B(I_g)表示第二图像特征，随后通过计算F_B(I_g)和F_S(I_p)的余弦相似度来衡量待识别图像与数据库中图像之间的人脸相似度，计算公式可表示为：

其中，S(I_p,I_g)表示待识别图像与待匹配图像的图像相似度，对于人脸验证或人脸比对而言，如果S(I_p,I_g)大于判定阈值(Threshold)，则判定为同身份，反之则判定为不同身份。对于人脸识别或人脸搜索而言，目标是查找N个图像中与待识别图像中最相似的结果，通过排序寻找相似度最大值来实现。在应用阶段采取这种基于非对称特征的相似度度量方法，可以在保持小规模图像识别模型高效运算速度的情况下，利用上大规模图像识别模型提取得到的高质量特征，从而提升人脸识别的准确率。

再次，本申请实施例中，提供了一种根据第一图像特征与第二图像特征计算得到图像相似度的方法。通过上述方式，能够准确地计算得到图像特征之间的图像相似度，从而为后续的识别提供可靠的依据，并且提升方案的可行性和可操作性。

基于上述介绍，下面将对本申请中图像识别模型训练的方法进行介绍，请参阅图5，本申请实施例中图像识别模型训练的方法一个实施例包括：

201、获取待训练图像集合，其中，待训练图像集合中包括至少一个待训练图像，每个待训练图像对应于一个身份标签；

本实施例中，将介绍如何训练得到小规模图像识别模型，图像识别模型训练装置部署于服务器中。由图像识别模型训练装置获取待训练图像集合，其中，该待训练图像集合具体可以是Gallery中的待训练图像，待训练图像具体可以是人脸图像，还可以是动物图像、植物图像或者建筑物图像，甚至可以是动态图像，本申请以人脸图像为例进行说明，然而这并不应理解为对本申请的限定。

对于待训练图像而言，每个待训练图像对应一个身份标签，比如，待训练图像1的身份标签为001，身份标签001表示的身份是“小明”，待训练图像2的身份标签为002，身份标签002表示的身份是“小红”，以此类推。

202、通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征，其中；

本实施例中，图像识别模型训练装置可以直接获取已经训练好的大规模图像识别模型，也可以采用待训练图像集合训练得到大规模图像识别模型。图像识别模型训练装置将待训练图像集合中的每个待训练图像输入至大规模图像识别模型中，由该大规模图像识别模型输出每个待训练图像所对应的第一待训练图像特征。

203、通过待训练小规模图像识别模型获取每个待训练图像所对应的第二待训练图像特征，其中，每个第二待训练图像特征对应于一个类别权重向量，类别权重向量与身份标签具有一一对应的关系；

本实施例中，图像识别模型训练装置使用训练好的大规模图像识别模型，对待训练小规模图像识别模型进行分类识别的训练。图像识别模型训练装置将待训练图像集合中的每个待训练图像输入至待训练小规模图像识别模型中，由该待训练小规模图像识别模型输出每个待训练图像所对应的第二待训练图像特征。其中，每个第二待训练图像特征对应于一个类别权重向量，即每个待训练图像具有一个身份标签所对应的类别权重向量，类别权重向量与身份标签具有一一对应的关系。

204、根据每个待训练图像所对应的第一待训练图像特征、第二待训练图像特征以及类别权重向量，对待训练小规模图像识别模型进行训练，得到小规模图像识别模型，其中，小规模图像识别模型部署于终端设备。

本实施例中，图像识别模型训练装置采用损失函数，对每个待训练图像所对应的第一待训练图像特征、第二待训练图像特征以及类别权重向量，对待训练小规模图像识别模型进行学习，其中，类别权重向量可以使得待训练小规模图像识别模型输出的第二待训练图像特征更加接近身份标签。具体可以认为是分类器权重。迭代求解损失函数，并根据损失函数计算梯度并更新待训练小规模图像识别模型，直到收敛，可得到小规模图像识别模型。

本申请实施例中，提供了一种图像识别模型训练的方法，首先获取待训练图像集合，然后通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征，并且通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征，最后根据每个待训练图像所对应的第一待训练图像特征、第二待训练图像特征以及类别权重向量，对待训练小规模图像识别模型进行训练，得到小规模图像识别模型。通过上述方式，设计出一种基于非对称特征的模型训练方法，在训练阶段使用大规模图像识别模型提取的图像特征作为标签，来参与指导并监督小规模图像识别模型的训练过程，使得小规模图像识别模型能够将输入图像映射到大规模图像识别模型所处的特征空间中。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供的图像识别模型训练的方法第一个可选实施例中，通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征之前，还可以包括：

通过待训练大规模图像识别模型获取每个待训练图像所对应的第三待训练图像特征，其中，每个第三待训练图像特征对应于一个类别权重向量；

根据每个待训练图像所对应的第三待训练图像特征以及类别权重向量，采用分类损失函数对待训练大规模图像识别模型进行训练，得到大规模图像识别模型。

本实施例中，介绍了一种训练得到大规模图像识别模型的方式。在训练大规模图像识别模型的过程中，需要利用大量的待训练图像及其对应的身份标签，对待训练大规模图像识别模型进行训练(比如1万个身份标签以及对应的1万个待训练图像)，训练的目的是使得每个图像通过大规模图像识别模型后，与真实身份标签的误差最小。

为了便于介绍，请参阅图6，图6为本申请实施例中大规模图像识别模型的一个训练框架示意图，如图所示，将待训练图像集合中的待训练图像输入至待训练大规模图像识别模型，由该待训练大规模图像识别模型输出相应图像特征，同时，根据图像特征得到预测的身份标签，采用分类损失函数对待训练图像的预测身份标签和待训练图像的真实身份标签进行学习，即采用分类损失函数计算预测身份标签和真实正标签的最小距离。当达到最小距离时，待训练大规模图像识别模型收敛，即得到大规模图像识别模型。

具体地，将每个待训练图像输入至待训练大规模图像识别模型，从而提取到对应的第三待训练图像特征，根据第三待训练图像特征得到相应的类别权重向量，即得到预测身份标签，然后采用分类损失函数计算待训练图像的预测身份标签和真实身份标签之间的距离，由此得到大规模图像识别模型。

可以理解的是，训练大规模图像识别模型所用的分类损失函数，与训练小规模图像识别模型所用的第一损失函数必须是同一类损失函数，可以理解的是，这类损失函数包含但不仅限于大余弦损耗(large margin cosine loss)损失函数、交叉熵损失函数(softmax loss)以及中心损失函数(center loss)等，此处不做限定。

其中，LCML损失函数一种新颖的用于分类的损失函数，其通过改进传统的softmax激活函数使得训练阶段损失函数仅仅依赖于特征与分类权重的余弦值，去除欧式空间L2范数(L2-Norm)的影响。同时在余弦损失函数的基础上引入了余弦边界间隔，增强分类的边界间隔，使得特征的类间差异更大，类内差异更小。

softmax loss是一种主要用于分类的激活函数，包括线性内积计算和指数形式的归一化计算，输入是特征向量，输出是归一化在[0,1]的函数值被视作后验概率(posteriorprobability)。结合在CNN中，用全连接层来表示其分类的内积操作。softmax的目标是使得特征对应的真实类别(ground truth)的后验概率最大。softmax的损失函数是交叉熵函数(cross entropy)，在以softmax定义分类目标的条件下，模型的优化过程是使得softmaxLoss最小。

可以理解的是，大规模图像识别模型可以是基于ResNet的CNN网络，CNN网络是由卷积层、全连接层以及池化层等构成的有向无环网络。网络通过对输入图像的多层卷积得到多层次的特征，这些特征经过线性组合及非线性映射，达到图像识别、理解以及分类等目的。网络通过前向传播能够得到模型输出(预测或者特征)，通过后向传播(梯度下降算法)更新模型的参数，以实现模型优化使得损失函数最小。常用的优化算法是随机梯度下降算法(Stochastic Gradient Descent，SGD)，即基于随机抽取的批样本(minibatch)来计算梯度误差，从而迭代优化模型。CNN模型中包含的参数规模一定程度上决定了模型的拟合能力以及计算效率。参数规模越大，拟合能力越强，而计算效率越低。为了便于说明，本申请将神经网络模型简单根据模型中参数数量多少划分为大规模图像识别模型(简称大模型)以及小规模图像识别模型(简称小模型)。常见的大规模图像识别模型包含但不仅限于ResNet以及视觉几何组网络(Visual Geometry Group Net，VGGNet)等，常见的小规模图像识别模型包含但不仅限于Mobile Net、Shuffle Net以及SqueezeNet。此外，大规模图像识别模型和小规模图像识别模型还可以是其他类型的CNN网络。

其次，本申请实施例中，提供了一种大规模图像识别模型的训练方法，在获取每个待训练图像所对应的第一待训练图像特征之前，还可以通过待训练大规模图像识别模型获取每个待训练图像所对应的第三待训练图像特征，其中，每个第三待训练图像特征对应于一个类别权重向量，然后根据每个待训练图像所对应的第三待训练图像特征以及类别权重向量，采用分类损失函数对待训练大规模图像识别模型进行训练，得到大规模图像识别模型。通过上述方式，能够使得每个待训练图像通过大规模图像识别模型之后，与对应的真实类标签之间的误差最小，经过迭代训练之后，令学习到的大规模图像识别模型具有极强的身份辨识力。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供的图像识别模型训练的方法第二个可选实施例中，根据每个待训练图像所对应的第一待训练图像特征、第二待训练图像特征以及类别权重向量，对待训练小规模图像识别模型进行训练，得到小规模图像识别模型，可以包括：

根据每个待训练图像所对应的第二待训练图像特征以及每个待训练图像所对应的类别权重向量，确定第一损失函数；

根据每个待训练图像所对应的第一待训练图像特征以及每个待训练图像所对应的第二待训练图像特征，确定第二损失函数；

根据第一损失函数以及第二损失函数，确定目标损失函数；

采用目标损失函数对待训练小规模图像识别模型进行训练，得到小规模图像识别模型。

本实施例中，介绍了小规模图像识别模型的训练方法。为了便于介绍，请参阅图7，图7为本申请实施例中小规模图像识别模型的一个训练框架示意图，如图所示，首先获取待训练图像集合，将待训练图像集合中的待训练图像输入至大规模图像识别模型之后，得到第一图像特征，将待训练图像集合中的待训练图像输入至小规模图像识别模型之后，得到第二图像特征。根据每个待训练图像所对应的第二待训练图像特征以及每个待训练图像所对应的类别权重向量，确定第一损失函数，即分类损失函数。同时，根据每个待训练图像所对应的第一待训练图像特征以及每个待训练图像所对应的第二待训练图像特征，确定第二损失函数，即L2损失函数。最后，结合第一损失函数以及第二损失函数，生成目标损失函数。采用目标损失函数对待训练小规模图像识别模型进行训练，得到小规模图像识别模型。

可以理解的是，小规模图像识别模型可以是Mobile Net、Shuffle Net或者Squeeze Net，还可以是其他轻量级网络，此处不做限定。

请参阅表1，表1为ResNet的一个结构示意表。

表1

残差网络更容易优化，并且能够通过增加相当的深度来提高准确率。请参阅表2，表2为Mobile Net的一个结构示意表。

表2

Mobile Net的基本单元是深度级可分离卷积(depthwise separableconvolution)，这种结构之前已经被使用在Inception模型中。深度级可分离卷积其实是一种可分解卷积操作(factorized convolutions)，其可以分解为两个更小的操作，即为深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)。深度卷积和标准卷积不同，对于标准卷积其卷积核是用在所有的输入通道上(input channels)，而深度卷积针对每个输入通道采用不同的卷积核，就是说一个卷积核对应一个输入通道，所以说深度卷积是深度级别的操作。而逐点卷积就是普通的卷积，只不过其采用1×1的卷积核。对于深度级可分离卷积而言，其首先是采用深度卷积对不同输入通道分别进行卷积，然后采用逐点卷积将上面的输出再进行结合，整体效果和一个标准卷积是近似的，但是会大大减少计算量和模型参数量。

其次，本申请实施例中，提供了一种小规模图像识别模型的训练方式，首先根据每个待训练图像所对应的第二待训练图像特征以及每个待训练图像所对应的类别权重向量，确定第一损失函数，然后根据每个待训练图像所对应的第一待训练图像特征以及每个待训练图像所对应的第二待训练图像特征，确定第二损失函数，再根据第一损失函数以及第二损失函数，确定目标损失函数，最后采用目标损失函数对待训练小规模图像识别模型进行训练，得到小规模图像识别模型。通过上述方式，使用训练好的大规模图像识别模型以及大量带身份标签的图像共同指导小规模图像识别模型进行分类识别训练。经过训练学习到的小规模图像识别模型具有较强的身份辨识力，同时与大规模图像识别模型学习得到的特征具有较强的可比性。

可选地，在上述图5对应的第二个实施例的基础上，本申请实施例提供的图像识别模型训练的方法第三个可选实施例中，根据每个待训练图像所对应的第二待训练图像特征以及每个待训练图像所对应的类别权重向量，确定第一损失函数，可以包括：

采用如下方式确定第一损失函数：

s.t.||F_S(I)||＝1，||W||＝1；

其中，L_LCML表示第一损失函数，N表示待训练图像集合中的待训练图像的总数，i表示待训练图像集合中的第i个待训练图像，j表示待训练图像集合中的第j个待训练图像，e表示自然底数，cos(·)表示两向量夹角余弦值，s以及m表示第一损失函数的超参数，I_i表示第i个待训练图像，F_S(I_i)表示第i个待训练图像所对应的第二待训练图像特征，W_i表示第i个待训练图像所对应的类别权重向量，W_j表示第j个待训练图像所对应的类别权重向量，W表示类别权重向量，F_S(I)表示第二待训练图像特征，s.t.表示受限制于，||||表示特征的模长，F_S()表示通过待训练小规模图像识别模型提取特征。

本实施例中，将介绍第一损失函数的确定方法。在训练大规模图像识别模型时采用的分类损失函数与第一损失函数一致，此处不对分类损失函数的内容进行赘述。在训练阶段，小规模图像识别模型的损失函数包括第一损失函数(LCML损失函数)以及最小化两个模型特征之间欧几里得距离的第二损失函数(L2损失函数)。其中LCML的损失函数可表示为：

即可采用如下方式进行计算：

其中，上述第一损失函数还具有如下要求：

即：s.t.||F_S(I)||＝1，||W||＝1；

再次，本申请实施例中，提供了一种第一损失函数的确定方法，即根据每个待训练图像所对应的第二待训练图像特征以及每个待训练图像所对应的类别权重向量，确定第一损失函数。通过上述方式，能够为方案的实现提供具体的依据，从而提升方案的可行性和可操作性。

可选地，在上述图5对应的第二个实施例的基础上，本申请实施例提供的图像识别模型训练的方法第四个可选实施例中，根据每个待训练图像所对应的第一待训练图像特征以及每个待训练图像所对应的第二待训练图像特征，确定第二损失函数，可以包括：

采用如下方式确定第二损失函数：

其中，L_L2表示第二损失函数，N表示待训练图像集合中的待训练图像的总数，i表示待训练图像集合中的第i个待训练图像，I_i表示第i个待训练图像，F_S(I_i)表示第i个待训练图像所对应的第二待训练图像特征，F_B(I_i)表示第i个待训练图像所对应的第一待训练图像特征，||||₂表示向量的L2范数，F_S()表示通过待训练小规模图像识别模型提取特征，F_B()表示通过大规模图像识别模型提取特征。

本实施例中，介绍了一种确定第二损失函数的方法，具体可以采用L2损失函数进行计算，在得到N个待训练图像的第一待训练图像特征以及第二待训练图像特征之后，即可得到如下第二损失函数：

其中，F_S(I_i)表示第i个待训练图像所对应的第二待训练图像特征，F_B(I_i)表示第i个待训练图像所对应的第一待训练图像特征，L_L2表示第二损失函数。

L2范数是一种度量距离欧氏距离的范数。在回归里面，被广泛的应用在解决机器学习里面的过拟问题合。

可以理解的是，本申请采用模型蒸馏(Model Distill)的方法进行模型训练，该模型蒸馏的方法是基于L2距离的对比损失(Contrastive Loss)函数，可以理解的是，该蒸馏方法可以为任何其他模型蒸馏方法，此处不做限定。

模型蒸馏是一类模型压缩策略的统称。CNN是由规模庞大的模型参数构成的，这些参数在训练阶段根据目标函数(Object Function)的指导进行更新，以对目标问题的有效解进行拟合。模型中参数规模越大，能拟合的解的复杂度则越高，在实际应用中的准确率也会得以提升。但参数规模的增加，同样会导致模型计算速度的下降，使得模型不适用于计算能力有限的终端***中。模型蒸馏通过在线下训练阶段用高性能低效率的大模型来指导小模型对目标任务的学习过程，使得小模型拥有与大模型尽量一致的识别性能，同时不丢失小模型的效率优势。

再次，本申请实施例中，提供了一种第二损失函数的确定方法，采用L2损失函数对大规模图像识别模型提取的图像特征和小规模图像识别模型提取的图像特征进行计算，最小化两个规模图像识别模型所提取的特征，从而使得小规模图像识别模型提取得到的图像特征与大规模图像识别模型提取的图像特征处于相同的特征空间中。

可选地，在上述图5对应的第二个至第四个实施例中任一项的基础上，本申请实施例提供的图像识别模型训练的方法第五个可选实施例中，根据第一损失函数以及第二损失函数，确定目标损失函数，可以包括：

采用如下方式确定目标损失函数：

L＝λ₁L_LCML+λ₂L_L2；

其中，L表示目标损失函数，λ₁表示第一损失函数的权重参数，λ₂表示第二损失函数的权重参数，L_LCML表示第一损失函数，L_L2表示第二损失函数。

本实施例中，提供了一种目标损失函数的确定方式，在确定第一损失函数和第二损失函数之后，联合第一损失函数和第二损失函数生成目标损失函数，为了能够控制两个损失函数之间的重要程度，还设置的权重参数，具体地，目标损失函数可以表示为：

L＝λ₁L_LCML+λ₂L_L2；

模型收敛有时候可能并不能达到最小值，比如L2损失函数和LCML损失函数此消彼长，因此，当两个损失函数在一定迭代周期内都不再有明显变化(比如下降或上升)时，就完成模型的收敛。

进一步地，本申请实施例中，提供了一种根据第一损失函数以及第二损失函数，确定目标损失函数的方法，通过控制损失函数的权重参数可以有效地指导小规模图像识别模型训练，从而提升方案的灵活性和可行性，同时可以使得该小规模图像识别模型提取得到的图像特征既具有较高的区分能力，又与大规模图像识别模型提取的图像特征处于相同的特征空间中。

下面对本申请中的图像识别装置进行详细描述，请参阅图8，图8为本申请实施例中图像识别装置一个实施例示意图，图像识别装置30包括：

获取模块301，用于获取待识别图像；

所述获取模块301，还用于通过小规模图像识别模型获取所述待识别图像的第一图像特征，其中，所述小规模图像识别模型部署于终端设备；

确定模块302，用于根据所述获取模块301获取的所述第一图像特征与N个第二图像特征，确定所述第一图像特征与所述第二图像特征之间的图像相似度，其中，所述第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量，所述N为大于或等于1的整数；

所述确定模块302，还用于根据所述图像相似度确定所述待识别图像的图像识别结果。

本实施例中，获取模块301获取待识别图像，所述获取模块301通过小规模图像识别模型获取所述待识别图像的第一图像特征，其中，所述小规模图像识别模型部署于终端设备，确定模块302根据所述获取模块301获取的所述第一图像特征与N个第二图像特征，确定所述第一图像特征与所述第二图像特征之间的图像相似度，其中，所述第二图像特征为待匹配图像通过大规模图像识别模型所获取到图像特征，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量，所述N为大于或等于1的整数，所述确定模块302根据所述图像相似度确定所述待识别图像的图像识别结果。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的图像识别装置30的另一实施例中，

所述确定模块302，具体用于若所述N等于1，则根据所述第一图像特征与所述第二图像特征计算得到所述图像相似度；

所述确定模块302，具体用于若所述N大于1，则根据所述第一图像特征与每个第二图像特征，计算得到N个图像相似度；

所述确定模块302，具体用于采用如下方式计算所述图像相似度：

下面对本申请中的图像识别模型训练装置进行详细描述，请参阅图9，图9为本申请实施例中图像识别模型训练装置一个实施例示意图，图像识别模型训练装置40包括：

获取模块401，用于获取待训练图像集合，其中，所述待训练图像集合中包括至少一个待训练图像，每个待训练图像对应于一个身份标签；

所述获取模块401，还用于通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征；

所述获取模块401，还用于通过待训练小规模图像识别模型获取所述每个待训练图像所对应的第二待训练图像特征，其中，每个第二待训练图像特征对应于一个类别权重向量，所述类别权重向量与所述身份标签具有一一对应的关系；

训练模块402，用于根据所述获取模块获取的所述每个待训练图像所对应的所述第一待训练图像特征、所述第二待训练图像特征以及类别权重向量，对所述待训练小规模图像识别模型进行训练，得到小规模图像识别模型，其中，所述小规模图像识别模型部署于终端设备，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量。

本实施例中，获取模块401获取待训练图像集合，其中，所述待训练图像集合中包括至少一个待训练图像，每个待训练图像对应于一个身份标签，所述获取模块401通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征，所述获取模块401通过待训练小规模图像识别模型获取所述每个待训练图像所对应的第二待训练图像特征，其中，每个第二待训练图像特征对应于一个类别权重向量，所述类别权重向量与所述身份标签具有一一对应的关系，训练模块402根据所述获取模块获取的所述每个待训练图像所对应的所述第一待训练图像特征、所述第二待训练图像特征以及类别权重向量，对所述待训练小规模图像识别模型进行训练，得到小规模图像识别模型，其中，所述小规模图像识别模型部署于终端设备，所述大规模图像识别模型的模型参数数量大于所述小规模图像识别模型的模型参数数量。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的图像识别模型训练装置40的另一实施例中，

所述获取模块401，还用于通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征之前，通过待训练大规模图像识别模型获取每个待训练图像所对应的第三待训练图像特征，其中，每个第三待训练图像特征对应于一个类别权重向量；

所述训练模块402，还用于根据所述获取模块401获取的所述每个待训练图像所对应的第三待训练图像特征以及类别权重向量，采用分类损失函数对所述待训练大规模图像识别模型进行训练，得到所述大规模图像识别模型。

所述训练模块402，具体用于根据所述每个待训练图像所对应的所述第二待训练图像特征以及所述每个待训练图像所对应的类别权重向量，确定第一损失函数；

所述训练模块402，具体用于采用如下方式确定所述第一损失函数：

s.t.||F_S(I)||＝1，||W||＝1；

所述训练模块402，具体用于采用如下方式确定所述第二损失函数：

所述训练模块402，具体用于采用如下方式确定所述目标损失函数：

L＝λ₁L_LCML+λ₂L_L2；

本申请实施例还提供了另一种图像识别装置，如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图10中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

获取待识别图像；

根据所述图像相似度确定所述待识别图像的图像识别结果。

可选地，处理器580具体用于执行如下步骤：

若所述N等于1，则根据所述第一图像特征与所述第二图像特征计算得到所述图像相似度；

可选地，处理器580具体用于执行如下步骤：

若所述N大于1，则根据所述第一图像特征与每个第二图像特征，计算得到N个图像相似度；

可选地，处理器580具体用于执行如下步骤：

采用如下方式计算所述图像相似度：

图11是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作***641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622还具有以下功能：

可选地，处理器580还用于执行如下步骤：

根据所述每个待训练图像所对应的第三待训练图像特征以及类别权重向量，采用分类损失函数对所述待训练大规模图像识别模型进行训练，得到所述大规模图像识别模型。

可选地，处理器580具体用于执行如下步骤：

根据所述每个待训练图像所对应的所述第二待训练图像特征以及所述每个待训练图像所对应的类别权重向量，确定第一损失函数；

可选地，处理器580具体用于执行如下步骤：

采用如下方式确定所述第一损失函数：

s.t.||F_S(I)||＝1，||W||＝1；

可选地，处理器580具体用于执行如下步骤：

采用如下方式确定所述第二损失函数：

可选地，处理器580具体用于执行如下步骤：

采用如下方式确定所述目标损失函数：

L＝λ₁L_LCML+λ₂L_L2；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别的方法，其特征在于，包括：

获取待识别图像；

根据所述图像相似度确定所述待识别图像的图像识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像特征与N个第二图像特征，确定所述第一图像特征与所述第二图像特征之间的图像相似度，包括：

所述根据所述图像相似度确定所述待识别图像的图像识别结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像特征与N个第二图像特征，确定所述第一图像特征与所述第二图像特征之间的图像相似度，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一图像特征与所述第二图像特征计算得到所述图像相似度，包括：

采用如下方式计算所述图像相似度：

其中，所述S(I_p,I_g)表示所述待识别图像与所述待匹配图像的图像相似度，所述I_p表示所述待识别图像，所述I_g表示所述待匹配图像，所述F_S(I_p)表示所述第一图像特征，所述F_B(I_g)表示所述第二图像特征，所述|| ||表示特征的模长。

5.根据权利要求1所述的方法，其特征在于，所述小规模图像识别模型的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征之前，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述每个待训练图像所对应的所述第一待训练图像特征、所述第二待训练图像特征以及类别权重向量，对所述待训练小规模图像识别模型进行训练，得到小规模图像识别模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述每个待训练图像所对应的所述第二待训练图像特征以及所述每个待训练图像所对应的类别权重向量，确定第一损失函数，包括：

采用如下方式确定所述第一损失函数：

s.t.||F_S(I)||＝1，||W||＝1；

其中，所述L_LCML表示所述第一损失函数，所述N表示所述待训练图像集合中的待训练图像的总数，所述i表示所述待训练图像集合中的第i个待训练图像，所述j表示所述待训练图像集合中的第j个待训练图像，所述e表示自然底数，所述cos(·)表示两向量夹角余弦值，所述s以及所述m表示所述第一损失函数的超参数，所述I_i表示所述第i个待训练图像，所述F_S(I_i)表示所述第i个待训练图像所对应的第二待训练图像特征，所述W_i表示所述第i个待训练图像所对应的类别权重向量，所述W_j表示所述第j个待训练图像所对应的类别权重向量，所述W表示类别权重向量，所述F_S(I)表示第二待训练图像特征，所述s.t.表示受限制于，所述|| ||表示特征的模长，所述F_S()表示通过所述待训练小规模图像识别模型提取特征。

9.根据权利要求7所述的方法，其特征在于，所述根据所述每个待训练图像所对应的所述第一待训练图像特征以及所述每个待训练图像所对应的所述第二待训练图像特征，确定第二损失函数，包括：

采用如下方式确定所述第二损失函数：

其中，所述L_L2表示所述第二损失函数，所述N表示所述待训练图像集合中的待训练图像的总数，所述i表示所述待训练图像集合中的第i个待训练图像，所述I_i表示所述第i个待训练图像，所述F_S(I_i)表示所述第i个待训练图像所对应的第二待训练图像特征，所述F_B(I_i)表示所述第i个待训练图像所对应的第一待训练图像特征，所述|| ||₂表示向量的L2范数，所述F_S()表示通过所述待训练小规模图像识别模型提取特征，所述F_B()表示通过所述大规模图像识别模型提取特征。

10.根据权利要求7至9中任一项所述的方法，其特征在于，所述根据所述第一损失函数以及所述第二损失函数，确定目标损失函数，包括：

采用如下方式确定所述目标损失函数：

L＝λ₁L_LCML+λ₂L_L2；

11.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；

12.一种图像识别模型训练装置，其特征在于，用于训练如权利要求11所述的图像识别装置中所使用的小规模图像识别模型，所述图像识别模型训练装置包括：

所述获取模块，还用于通过大规模图像识别模型获取每个待训练图像所对应的第一待训练图像特征，其中；

13.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待识别图像；

根据所述图像相似度确定所述待识别图像的图像识别结果；

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序，所述程序用于训练如权利要求13所述的终端设备中所使用的小规模图像识别模型；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至10中任一项所述的方法。