CN108875767A

CN108875767A - 图像识别的方法、装置、***及计算机存储介质

Info

Publication number: CN108875767A
Application number: CN201711286091.XA
Authority: CN
Inventors: 范星; 张轩
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-11-23

Abstract

本发明实施例提供了一种图像识别的方法、装置、***及计算机存储介质。该方法包括：将待识别图像分别输入至多个训练好的神经网络，得到所述待识别图像的多个特征向量；将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量；根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度；基于所述相似度，确定所述待识别图像的识别结果。由此可见，本发明实施例在图像识别的过程中，综合多个神经网络提取的特征向量用于图像识别，能够充分考虑多个神经网络各自的特点，从而使得图像识别的准确率更高。

Description

图像识别的方法、装置、***及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种图像识别的方法、装置、***及计算机存储介质。

背景技术

在诸如安防、医疗等场景中需要使用图像识别技术，如人脸识别。例如可以一个或多个相机的视频帧序列中，找到同一行人或车辆出现过的帧。这项技术对于寻找丢失人员，比如走丢的小孩、老人，以及打击犯罪，比如嫌疑人寻找等，都具有重要的意义，也是很多安防应用中必不可少的重要组成部分。

而在此过程中，图像识别的算法对于结果的准确性至关重要。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像识别的方法、装置、***及计算机存储介质，结合多个神经网络进行图像识别，准确性高。

根据本发明的一方面，提供了一种图像识别的方法，所述方法包括：

将待识别图像分别输入至多个训练好的神经网络，得到所述待识别图像的多个特征向量；

将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量；

根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度；

基于所述相似度，确定所述待识别图像的识别结果。

在本发明的一个实施例中，所述将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量，包括：将所述多个特征向量进行归一化处理；通过将所述归一化后的多个特征向量的对应元素取平均值或取最大值后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。

在本发明的一个实施例中，所述将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量，包括：将所述多个特征向量进行归一化处理；通过将所述归一化后的多个特征向量的对应元素加权求和后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。

在本发明的一个实施例中，所述将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量，包括：将所述多个特征向量进行归一化处理；将所述归一化后的多个特征向量乘以各自对应的权重，然后进行级联，从而得到所述第一特征向量。

在本发明的一个实施例中，所述多个特征向量中的第i个特征向量的权重等于：所述第i个特征向量对应的神经网络的识别准确率除以各个神经网络的识别准确率之和。

在本发明的一个实施例中，将所述多个特征向量进行归一化处理，包括：将每个特征向量除以各自的欧几里得范数，从而将所述每个特征向量进行归一化处理。

在本发明的一个实施例中，所述根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度，包括：

计算所述第一特征向量与所述已有图像的第二特征向量之间的距离，得到所述待识别图像与所述已有图像之间的相似度。

计算所述第一特征向量与所述已有图像的第二特征向量之间的第一距离；

分别计算所述多个特征向量中每个特征向量与使用同一个神经网络计算出的所述已有图像的对应特征向量之间的距离，得到与所述多个神经网络对应的多个第二距离；

计算所述第一距离与所述多个第二距离的加权和，得到所述待识别图像与所述已有图像之间的相似度。

在本发明的一个实施例中，将所述第一距离的权重表示为p，将所述多个第二距离中第j个第二距离的权重表示为p_j，且满足

其中，f_j表示所述第j个第二距离对应的神经网络的识别准确率，M表示所述多个第二距离的数量，0≤p＜1。

在本发明的一个实施例中，在所述将待识别图像分别输入至多个训练好的神经网络之前，还包括：通过训练得到多个神经网络，其中，所述多个神经网络具有不同的网络构造。

根据本发明的另一方面，提供了一种图像识别的装置，所述装置用于实现方面或各个实施例所述方法的步骤，所述装置包括：

特征提取模块，用于将待识别图像分别输入至多个训练好的神经网络，得到所述待识别图像的多个特征向量；

特征融合模块，用于将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量；

计算模块，用于根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度；

确定模块，用于基于所述相似度，确定所述待识别图像的识别结果。

根据本发明的又一方面，提供了一种图像识别的***，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的图像识别的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面及各个示例所述的图像识别的方法的步骤。

由此可见，本发明实施例在图像识别的过程中，综合多个神经网络提取的特征向量用于图像识别，能够充分考虑多个神经网络各自的特点，从而使得图像识别的准确率更高。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的图像识别的方法的一个示意性流程图；

图3是本发明实施例的图像识别的装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线***112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括中央处理单元(Central Processing Unit，CPU)1021和图形处理单元(Graphics Processing Unit，GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

图2是本发明实施例的图像识别的方法的一个示意性流程图。图2所示的方法包括：

S101，将待识别图像分别输入至多个训练好的神经网络，得到所述待识别图像的多个特征向量。

S102，将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量。

S103，根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度。

S104，基于所述相似度，确定所述待识别图像的识别结果。

示例性地，在S101之前，可以通过训练得到多个神经网络。这里的神经网络可以是一层或多层卷积神经网络(Convolutional Neural Network，CNN)。

卷积神经网络(CNN)是一种前馈神经网络，由若干卷积单元组成。其中，CNN的参数可以进行随机初始化，或者可以先前已经训练好的其他神经网络(也可以称为基础神经网络)进行初始化，如VGG、ReNet、ShuffleNet等。每个卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征。例如，第一层卷积层可能只能提取一些低级的特征，如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。具体地，在训练的过程中，可以通过卷积层提取局部特征，通过叠加多个卷积层提高感受野来提取区域特征和全局特征，通过激活函数引入非线性，通过池化层进行特征聚合。然后计算提取得到的特征用于目标任务，并估计误差，之后通过反向传播算法对模型参数进行优化。这样，通过一个不断迭代的训练过程，可以得到一个训练好的神经网络。可选地，S101中的多个神经网络也可以称为多个特征提取模型。

其中，多个神经网络可以具有不同的网络构造。例如，多个神经网络可以侧重不同的图像特征(即对不同的特征敏感)，可以为不同的神经网络设置不同的损失函数(如classification loss、triplet loss、quadrup loss等)，多个神经网络可以具有不同的输入数据的数据增广方式(随机缩放、随机裁剪、亮度调整、颜色调整、随机平移和翻转等)，等等。作为一例，本发明实施例可以假设多个神经网络的数量为M，例如M＝5。

经过该训练过程，每个神经网络均可以提取图像的特征向量，例如所提取的特征向量的维度为1×N或N×1。本发明实施例对N的值不作限定，例如，N＝512或1024等。

示例性地，可以将待识别图像分别输入至多个神经网络，得到多个输出，其中，多个输出表示待识别图像的多个特征向量。该多个特征向量与多个神经网络一一对应，每个特征向量的维度均相对，例如为1×N。可理解，该过程可以并行执行，以提供处理的效率。

可理解，多个神经网络训练时各自使用的数据集可以相同或不同，本发明对此不限定。

示例性地，S102可以包括：将所述多个特征向量进行归一化处理；并将所述归一化后的多个特征向量进行特征融合，且所述特征融合后的向量为所述待识别图像的第一特征向量。

作为一种实现方式，S102可以包括：将所述多个特征向量进行归一化处理；通过将所述归一化后的多个特征向量的对应元素取平均值或取最大值后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。可选地，多个特征向量的维度可以相等，例如均为N维向量，且第一特征向量的维度也是一样的，即第一特征向量为N维向量。

作为另一种实现方式，S102可以包括：将所述多个特征向量进行归一化处理；通过将所述归一化后的多个特征向量的对应元素加权求和后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。可选地，多个特征向量的维度可以相等，例如均为N维向量，且第一特征向量的维度也是一样的，即第一特征向量为N维向量。

作为再一种实现方式，S102可以包括：将所述多个特征向量进行归一化处理；将所述归一化后的多个特征向量乘以各自对应的权重，然后进行级联(concatenate)，从而得到所述第一特征向量。可选地，多个特征向量的维度可以相等，例如均为N维向量，则经级联的第一特征向量的维度为M×N维向量，其中，M表示多个特征向量的数量。

由于多个神经网络各自的差异或独立性，所得到的多个特征向量的元素的值所处的范围也有较大的差异，因此可以进行归一化处理以调整至相同的范围。可选地，可以将每个特征向量除以各自的欧几里得(Euclid)范数，从而将所述每个特征向量进行归一化处理。具体地，将特征向量的每个元素都除以其欧几里得范数，得到归一化后的特征向量。举例来说，对于特征向量A，表示为x_i ^T，i的取值为1至N，T表示转置。那么，将特征向量A归一化后的特征向量可以表示为其中||x||表示特征向量A的欧几里得范数。本发明实施例对欧几里得范数的形式不作限定，例如其可以为1-范数其可以为2-范数或者其可以为∞-范数、-∞-范数、p-范数等等。

作为一例，针对归一化后的特征向量，可以将对应元素取平均(elementwisemean)，从而得到第一特征向量。举例来说，假设归一化后的特征向量表示为B_j＝y_j ⁱ，j＝1,2,..,M；第一特征向量表示为C＝zⁱ；i＝1,2,...,N。则

作为另一例，针对归一化后的特征向量，可以将对应元素取最大值(elementwisemax)，从而得到第一特征向量。举例来说，假设归一化后的特征向量表示为B_j＝y_j ⁱ，j＝1,2,..,M；第一特征向量表示为C＝zⁱ；i＝1,2,...,N。则zⁱ＝m_jaxy_j ⁱ。

作为再一例，针对归一化后的特征向量，可以计算对应元素的加权和，从而得到第一特征向量。举例来说，假设归一化后的特征向量表示为B_j＝y_j ⁱ，j＝1,2,..,M；第一特征向量表示为C＝zⁱ；i＝1,2,...,N。则p_j表示与B_j对应的权重，且其中，各个权重可以是预先设定的，例如设定或者可以根据各自的神经网络的准确率来确定权重，所述多个特征向量中的第j个特征向量的权重等于：所述第j个特征向量对应的神经网络的识别准确率除以各个神经网络的识别准确率之和。假设M个神经网络的准确率分别为f_j，则可以设定对应的权重为或者也可以采用其他的方式来设置权重，本发明对此不限定。示例性地，通过加权求和方式确定第一特征向量的过程也可以称为注意力机制。

作为又一例，针对归一化后的特征向量，可以乘以各自对应的权重，然后进行级联(concatenate)，从而得到所述第一特征向量。

具体地，可以将归一化后的多个特征向量乘以各自的权重，得到多个权重特征向量；将该多个权重特征向量级联，从而得到第一特征向量。假设S101得到5个特征向量，每个特征向量均为512维向量，则级联后的特征向量(即第一特征向量)为2560维向量。可理解，该第一特征向量的前512个元素对应归一化后的多个特征向量中的第一个特征向量的512个元素乘以其权重。作为一例，第j个特征向量的权重等于：所述第j个特征向量对应的神经网络的识别准确率除以各个神经网络的识别准确率之和，关于该权重的确定方法如上所述，这里不再赘述。

这样，通过上述过程，可以将待识别图像输入多个神经网络得到多个特征向量，进而得到该待识别图像的第一特征向量。示例性地，可以类似地得到已有图像的第二特征向量，即可以将已有图像输入多个神经网络得到已有图像的多个特征向量，采用类似于S102的方法将已有图像的多个特征向量进行融合，从而得到该已有图像的第二特征向量，具体过程不再赘述。示例性地，可以将第一特征向量称为待识别图像的融合特征向量，将第二特征向量称为已有图像的融合特征向量。

进一步地，在S103中通过计算第一特征向量与第二特征向量之间的距离，便可以得到待识别图像与已有图像之间的相似度。假设第一特征向量表示为C，第二特征向量表示为D，则两者之间的距离可以为欧式距离|C-D|；或者也可以采用余弦距离、马氏距离等其他的方式计算距离，这里不再一一罗列。

或者，进一步地，在S103中，可以计算所述第一特征向量与所述已有图像的第二特征向量之间的第一距离；分别计算所述多个特征向量中每个特征向量与使用同一个神经网络计算出的所述已有图像的对应特征向量之间的距离，得到与所述多个神经网络对应的多个第二距离；计算所述第一距离与所述多个第二距离的加权和，得到所述待识别图像与所述已有图像之间的相似度。

其中，计算第一距离的过程可以如上述计算第一特征向量与第二特征向量之间的距离所示，这里不再赘述。

其中，计算多个第二距离可以包括：将所述已有图像分别输入至多个训练好的神经网络，得到所述已有图像的多个第三特征向量；计算所述多个特征向量中的每个特征向量与使用同一个神经网络得到的第三特征向量之间的距离，从而得到对应的多个第二距离。可选地，可以将第j个第二距离理解为使用第j个神经网络计算得到的待识别图像与已有图像之间的相似度，也就是说，多个第二距离与多个神经网络一一对应。

示例性地，计算多个第二距离的过程可以理解为：1、将待识别图像输入第一个神经网络，得到待识别图像的特征向量；将已有图像输入第一个神经网络，得到已有图像的特征向量；计算待识别图像的特征向量与已有图像的特征向量之间的距离。2、将待识别图像输入第二个神经网络，得到待识别图像的特征向量；将已有图像输入第二个神经网络，得到已有图像的特征向量；计算待识别图像的特征向量与已有图像的特征向量之间的距离。…M、将待识别图像输入第M个神经网络，得到待识别图像的特征向量；将已有图像输入第M个神经网络，得到已有图像的特征向量；计算待识别图像的特征向量与已有图像的特征向量之间的距离。这样，便可以得到M个距离，这M个距离是通过M个神经网络得到的待识别图像的特征向量与已有图像的特征向量之间的M个第二距离。可理解，该M个过程可以并行地执行，这样能够提高处理的效率。

进一步地，可以通过第一距离与多个第二距离的加权和，计算待识别图像与已有图像的特征向量之间的相似度。该过程也可以被称为距离融合。举例来说，假设第一距离表示为L，多个第二距离表示为L_j，j＝1,2,..,M，则待识别图像与已有图像之间的相似度可以为p表示与L对应的权重(0≤p＜1)，p_j表示与L_j对应的权重，且其中，本发明实施例对p的值不作限定，例如p可以等于0.5或0.8等。

示例性地，各个权重可以是预先设定的，例如可以设定p＝0.5,或者可以根据各自的神经网络的准确率来确定权重，其中f_j表示所述第j个第二距离对应的神经网络的准确率。作为一例，可以设定对应的权重为p＝0.5,或者也可以采用其他的方式来设置权重，本发明对此不限定。

由于在S102特征融合的基础上得到第一距离，并将第一距离与多个第二距离进行距离融合，则该实施例同时包括特征融合和距离融合，能够更加全面地综合考虑多个神经网络的差异性，使得到的相似度更加准确。可选地，若在进行距离融合的过程中，将第一距离的权重设置为1，则该实施例也可以理解为基于特征融合计算第一距离，而无需距离融合的过程。可选地，若在进行距离融合的过程中，将第一距离的权重设置为0，则该实施例也可以理解为将多个第二距离进行距离融合，而无需特征融合的过程，由于计算多个第二距离可以并行执行，这样能够极大节省计算时间，提高识别的效率。

可以基于S101-S103计算出待识别图像与多个已有图像之间的多个相似度。进一步在S104中，可以将多个相似度进行排序，确定最大相似度。获取与最大相似度对应的已有图像，从而得到该待识别图像的识别结果。举例来说，在进行行人识别过程中，可以确定与最大相似度对应的已有图像中的行人与待识别图像中的行人属于同一人的概率最大。

这样，可以通过图2所示的方法得到待识别图像与已有图像之间的相似度，对于集合中的多个已有图像，可以通过该方法得到待识别图像与各个已有图像之间的相似度，从而识别出该待识别图像中的对象(如行人等)。

图3是本发明实施例的图像识别的装置的一个示意性框图。图3所示的装置30包括：特征提取模块310、特征融合模块320、计算模块330和确定模块340。

特征提取模块310，用于将待识别图像分别输入至多个训练好的神经网络，得到所述待识别图像的多个特征向量；

特征融合模块320，用于将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量；

计算模块330，用于根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度；

确定模块340，用于基于所述相似度，确定所述待识别图像的识别结果。

示例性地，特征融合模块320可以具体用于将所述多个特征向量进行归一化处理；通过将所述归一化后的多个特征向量的对应元素取平均值或取最大值后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。

示例性地，特征融合模块320可以具体用于将所述多个特征向量进行归一化处理；通过将所述归一化后的多个特征向量的对应元素加权求和后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。

示例性地，特征融合模块320可以具体用于将所述多个特征向量进行归一化处理；将所述归一化后的多个特征向量乘以各自对应的权重，然后进行级联，从而得到所述第一特征向量。

其中，所述多个特征向量中的第j个特征向量的权重等于：所述第j个特征向量对应的神经网络的识别准确率除以各个神经网络的识别准确率之和。

其中，可以将每个特征向量除以各自的欧几里得范数，从而将所述每个特征向量进行归一化处理。

作为一种实现方式，计算模块320可以具体用于：计算所述第一特征向量与所述已有图像的第二特征向量之间的距离，得到所述待识别图像与所述已有图像之间的相似度。

作为一种实现方式，计算模块320可以具体用于：计算所述第一特征向量与所述已有图像的第二特征向量之间的第一距离；分别计算所述多个特征向量中每个特征向量与使用同一个神经网络计算出的所述已有图像的对应特征向量之间的距离，得到与所述多个神经网络对应的多个第二距离；计算所述第一距离与所述多个第二距离的加权和，得到所述待识别图像与所述已有图像之间的相似度。

示例性地，将所述第一距离的权重表示为p，将所述多个第二距离中第j个第二距离的权重表示为p_j，且满足

作为一种实现方式，装置30还可以包括训练模块，用于通过训练得到多个神经网络，其中，所述多个神经网络具有不同的网络构造。

图3所示的装置30能够实现前述图2所示的图像识别的方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了另一种图像识别的***，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2所示的图像识别的方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图3所示的装置30。该电子设备可以实现前述图2所示的图像识别的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2所示的图像识别的方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

本发明实施例提供了一种图像识别的方法、装置、***、电子设备及计算机存储介质，综合多个神经网络提取的特征向量用于图像识别，能够充分考虑多个神经网络各自的特点，将多个神经网络的预测优点进行综合，能够有效抑制噪声干扰，从而使得图像识别的准确率更高。具体地，能够用于行人识别、车辆检测等再识别问题，且能够保证得到更加精确的识别结果。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing，DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别的方法，其特征在于，所述方法包括：

基于所述相似度，确定所述待识别图像的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量，包括：

将所述多个特征向量进行归一化处理；

通过将所述归一化后的多个特征向量的对应元素取平均值或取最大值后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。

3.根据权利要求1所述的方法，其特征在于，所述将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量，包括：

将所述多个特征向量进行归一化处理；

通过将所述归一化后的多个特征向量的对应元素加权求和后作为所述第一特征向量的对应元素，从而得到所述第一特征向量。

4.根据权利要求1所述的方法，其特征在于，所述将所述多个特征向量进行融合，得到所述待识别图像的第一特征向量，包括：

将所述多个特征向量进行归一化处理；

将所述归一化后的多个特征向量乘以各自对应的权重，然后进行级联，从而得到所述第一特征向量。

5.根据权利要求3或4所述的方法，其特征在于，所述多个特征向量中的第j个特征向量的权重等于：所述第j个特征向量对应的神经网络的识别准确率除以各个神经网络的识别准确率之和。

6.根据权利要求2至4中任一项所述的方法，其特征在于，将所述多个特征向量进行归一化处理，包括：

将每个特征向量除以各自的欧几里得范数，从而将所述每个特征向量进行归一化处理。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度，包括：

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述第一特征向量，计算所述待识别图像与已有图像之间的相似度，包括：

9.根据权利要求8所述的方法，其特征在于，将所述第一距离的权重表示为p，将所述多个第二距离中第j个第二距离的权重表示为p_j，且满足

10.根据权利要求1所述的方法，其特征在于，在所述将待识别图像分别输入至多个训练好的神经网络之前，还包括：

通过训练得到多个神经网络，其中，所述多个神经网络具有不同的网络构造。

11.一种图像识别的装置，其特征在于，所述装置用于实现权利要求1至10中任一项所述方法的步骤，所述装置包括：

12.一种图像识别的***，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

13.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述方法的步骤。