CN115620122A

CN115620122A - 神经网络模型的训练方法、图像重识别方法及相关设备

Info

Publication number: CN115620122A
Application number: CN202110804394.6A
Authority: CN
Inventors: 楼燚航; 白涛; 闫冬升; 方光祥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-01-17

Abstract

一种神经网络模型的训练方法以及图像重识别方法，涉及人工智能AI技术领域，该方案中，神经网络模型在训练过程中使用编码网络和自注意力机制网络获取图像局部特征间的相关程度进行训练，使得训练好的模型就能得到更全面的特征表征。这样，该训练好的神经网络模型用于图像重识别的过程中对于被遮挡和非对齐的图像可以更准确的识别，极大的提高了重识别的准确率。

Description

神经网络模型的训练方法、图像重识别方法及相关设备

技术领域

本申请实施例涉及人工智能(artificial intelligence,AI)技术领域，尤其涉及一种神经网络模型的训练方法、图像重识别方法及相关设备。

背景技术

随着科学技术的发展，图像处理成为人们越来越关注的技术领域，而对图形进行处理最常见的方式为使用神经网络模型表示图像的特征。

例如在图像重识别中，为了查找特定的目标对象，可以使用神经网络模型获得目标对象的图像特征，在数据库中使用该图像特征进行查找，但是目标对象的姿态复杂多变，例如动物，为了提高查找的准确率，就需要神经网络模型对目标对象的局部特征进行学***特征切片获得更精细的目标对象的局部特征表示，并对每一个局部特征进行平均值池化，然后再施加1x1的卷积，选择出重要的局部特征进行表示。

上述的神经网络模型虽然考虑了局部特征，但是应用在复杂场景中的图像时，例如遮挡和非对齐的图像，由于没有考虑复杂图像中存在被遮挡和没有对齐的特殊局部特征，缺少相应的特征学习，最终使得上述神经网络模型应用在对复杂图像处理的方法中的表现仍然不佳。

发明内容

本申请实施例提供一种神经网络模型的训练方法、图像重识别方法及相关设备，用于获取被遮挡和非对齐的情况下图像的相关特征，从而提高图像识别的准确率。本申请实施例还提供了相应的计算机设备、计算机可读存储介质、芯片***及计算机程序产品。

本申请第一方面提供一种神经网络模型的训练方法，包括：

首先获取到多组训练样本，其中多组训练样本中的每组训练样本包括同一目标对象的多张图像，然后将多组训练样本输入第一神经网络模型，以对第一神经网络模型进行训练，其中第一神经网络模型包括卷积神经网络、编码网络和自注意力机制网络。

本申请中，卷积神经网络可以表示出每张图像的局部特征，编码网络可以在局部特征中添加位置信息，自注意力机制网络使用位置关系模型训练添加了位置信息的局部特征，其中位置关系模型用于描述归属于同一图像的不同局部特征之间的通用位置关系。

本申请中，经过该第一神经网络模型训练得到的第二神经网络模型可以用于图像重识别。

该第一方面，第一神经网络模型可以表示出每张图像的局部特征并添加位置信息，并基于位置关系模型进行局部特征的训练，因位置关系模型可以描述同一图像中不同局部特征之间的通用位置关系，即位置关系模型训练时可以学习到局部特征之间的位置关系，输出的特征隐含的表示出了同一图像中每个局部图像之间的位置关系和每个局部图像自身的特征，即使图像被遮挡或非对齐，训练好的第二神经网络模型仍然可以很好的识别出是否为同一个目标对象，大大提高识别准确率。

在第一方面的一种可能的实现方式中，卷积神经网络具体可以将多张图像中的每张图像划分为多张局部图像，并表示出多张局部图像中的每张局部图像的局部特征，得到多个局部特征；编码网络具体可以对多个局部特征中的每个局部特征进行位置编码，并将编码后得到的每个局部特征的位置信息与每个局部特征进行拼接，以得到带有位置信息的局部特征；自注意力机制网络具体基于多个带有位置信息的局部特征进行位置关系模型训练，其中多个带有位置信息的局部特征归属于同一图像，位置关系模型在经过多组训练样本中的图像的多次训练后得到目标位置关系模型，即第二神经网络模型中的目标位置关系模型。

该种可能的实现方式中，卷积神经网络具体可以对图像划分后做特征表示，编码网络可以在局部特征中拼接位置信息，自注意力机制网络可以使用位置关系模型训练得到目标位置关系模型，从而得到第二神经网络模型，提升了方案的可实现性。

在第一方面的一种可能的实现方式中，编码网络还可以于获取每个局部特征在对应图像中的横坐标位置和纵坐标位置。

该种可能的实现方式中，位置信息由第一函数与第二函数表示，第一函数为基于横坐标位置的正弦函数与基于纵坐标位置的正弦函数之和，第二函数为基于横坐标位置的余弦函数与基于纵坐标位置的余弦函数之和，将上述位置信息拼接至局部特征，使得第一神经网络模型能建模任意的相对距离，从而可以更好的学习到特征图中每个局部特征之间的位置关系。

在第一方面的一种可能的实现方式中，编码网络还可以将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征。

该种可能的实现方式中，带有位置信息和预设特征向量的局部特征用于自注意力机制网络训练位置关系模型，预设特征向量为随机初始化的可学习特征向量，将随机初始化的可学习特征向量拼接至局部特征的序列，关联了编码网络的输出特性，从而更好的学习到每个局部特征的自身特征和关联特征。

在第一方面的一种可能的实现方式中，自注意力机制网络基于多头自注意力机制建立。

该种可能的实现方式中，基于多头自注意力可以将关注不同位置的局部特征并对其进行更有效的联合，进行更有效的关联信息的挖掘。

本申请第二方面提供一种图像重识别方法，包括：

首先获取目标图像以及待筛选图像，其中目标图像中包括目标对象；然后基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像，最后输出待筛选图像中包含目标对象的图像。

本申请中，目标神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，自注意力机制网络中包括目标位置关系模型；其中，卷积神经网络可以表示出目标图像或待筛选图像中的任意一张待筛选图像的多个局部特征；编码网络可以在局部特征中添加位置信息；自注意力机制网络依据目标位置关系模型确定待筛选图像中局部特征的位置关系与目标对象中局部特征的位置关系符合度满足预设条件的图像，其中符合度满足预设条件的图像中包含目标对象的图像。

该第二方面，通过获取目标图像以及待筛选图像；基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像，即将训练好的，经过位置编码和自注意力机制关联的目标神经网络模型应用在图像重识别，可以基于目标对象的局部特征间的位置相关程度表示出目标对象，最后输出待筛选图像中包含目标对象的图像，大大提高识别准确率。

在第二方面的一种可能的实现方式中，卷积神经网络具体可以将目标图像或待筛选图像中的任意一张待筛选图像划分为多张局部图像，并表示出多张局部图像中的每张局部图像的局部特征，得到多个局部特征；编码网络具体可以对多个局部特征中的每个局部特征进行位置编码，并将编码后得到的每个局部特征的位置信息与每个局部特征进行拼接，以得到带有位置信息的局部特征。

本申请中，自注意力机制网络是基于多个带有位置信息的局部特征进行位置关系模型训练，其中多个带有位置信息的局部特征归属于同一图像，位置关系模型在经过多组训练样本中的图像的多次训练后得到目标位置关系模型，即第二神经网络模型中的目标位置关系模型，从而使得自注意力机制网络可以依据目标位置关系模型确定待筛选图像中局部特征的位置关系与目标对象中局部特征的位置关系符合度满足预设条件的图像。

该种可能的实现方式中，卷积神经网络具体可以对目标图像或待筛选图像划分后做特征表示，编码网络可以在局部特征中拼接位置信息，自注意力机制网络可以依据目标位置关系模型确定待筛选图像中局部特征的位置关系与目标对象中局部特征的位置关系符合度满足预设条件的图像，提升了方案的可实现性。

在第二方面的一种可能的实现方式中，编码网络还可以获取多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置。

在第二方面的一种可能的实现方式中，编码网络还可以将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征。

在第二方面的一种可能的实现方式中，自注意力机制网络基于多头自注意力机制建立。

在第二方面的一种可能的实现方式中，上述步骤：获取目标图像以及待筛选图像包括：接收输入的目标对象，以及接收用于确定待筛选图像的条件；根据用于确定待筛选图像的条件，从数据库中确定待筛选图像。

该种可能的实现方式中，可以基于特定的条件从数据库中确定待筛选图像，特定的条件可以为时间条件，数据库中可以是待筛选图像的视频数据，即用户可以在预设时间段中，从待筛选图像中找到包括目标对象的图像，提升了用户体验。

本申请第三方面，提供了一种计算机设备，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该计算机设备包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的模块或单元，如：获取单元和训练单元。

本申请第四方面，提供了一种计算机设备，用于执行上述第二方面或第二方面的任意可能的实现方式中的方法。具体地，该计算机设备包括用于执行上述第二方面或第二方面的任意可能的实现方式中的方法的模块或单元，如：获取单元、筛选单元和输出单元。

本申请第五方面提供一种计算机设备，该计算机设备包括处理器、内存和存储有计算机程序的计算机可读存储介质；处理器与计算机可读存储介质耦合，处理器上运行的计算机执行指令，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。可选地，该计算机设备还可以包括输入/输出(input/output，I/O)接口，该存储有计算机程序的计算机可读存储介质可以是存储器。

本申请第六方面提供一种计算机设备，该计算机设备包括处理器、内存和存储有计算机程序的计算机可读存储介质；处理器与计算机可读存储介质耦合，处理器上运行的计算机执行指令，当计算机执行指令被处理器执行时，处理器执行如上述第二方面或第二方面任意一种可能的实现方式的方法。可选地，该计算机设备还可以包括输入/输出(input/output，I/O)接口，该存储有计算机程序的计算机可读存储介质可以是存储器。

本申请第七方面提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。

本申请第八方面提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，处理器执行如上述第二方面或第二方面任意一种可能的实现方式的方法。

本申请第九方面提供一种存储一个或多个计算机执行指令的计算机程序产品，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。

本申请第十方面提供一种存储一个或多个计算机执行指令的计算机程序产品，当计算机执行指令被处理器执行时，处理器执行如上述第二方面或第二方面任意一种可能的实现方式的方法。

本申请第十一方面提供了一种芯片***，该芯片***包括至少一个处理器和接口，该接口用于接收数据和/或信号，至少一个处理器用于支持计算机设备实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中，芯片***还可以包括存储器，存储器，用于保存计算机设备必要的程序指令和数据。该芯片***，可以由芯片构成，也可以包含芯片和其他分立器件。

本申请第十二方面提供了一种芯片***，该芯片***包括至少一个处理器和接口，该接口用于接收数据和/或信号，至少一个处理器用于支持计算机设备实现上述第二方面或第二方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中，芯片***还可以包括存储器，存储器，用于保存计算机设备必要的程序指令和数据。该芯片***，可以由芯片构成，也可以包含芯片和其他分立器件。

附图说明

图1是一种人工智能主体框架示意图；

图2是本申请实施例提供的***架构的一示意图；

图3是卷积神经网络的一结构示意图；

图4是卷积神经网络的另一结构示意图；

图5A是本申请实施例提供的***架构的另一示意图；

图5B是本申请实施例提供的***架构的另一示意图；

图6是本申请实施例提供的神经网络模型的训练方法的实施例示意图；

图7是本申请实施例提供的第一神经网络模型的一结构示意图；

图8是本申请实施例提供的卷积神经网络的示意图；

图9是本申请实施例提供的第一神经网络模型的另一结构示意图；

图10是本申请实施例提供的自注意力机制网络的示意图；

图11是本申请实施例提供的图像重识别方法的一实施例示意图；

图12是本申请实施例提供的图像重识别方法的另一实施例示意图；

图13是本申请实施例提供的图像重识别方法的测试结果示意图；

图14是本申请实施例提供的计算机设备的一结构示意图；

图15是本申请实施例提供的计算机设备的另一结构示意图；

图16是本申请实施例提供的计算机设备的另一结构示意图；

图17是本申请实施例提供的计算机设备的另一结构示意图；

图18是本申请实施例提供的计算机设备的另一结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种神经网络模型的训练方法、图像重识别方法及相关设备，用于获取被遮挡和非对齐的情况下图像的相关特征，从而提高图像识别的准确率。本申请实施例还提供了相应的计算机设备、计算机可读存储介质、芯片***及计算机程序产品。以下分别进行详细说明。

人工智能(artificial intelligence,AI)是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

图1是一种人工智能主体框架示意图，该主体框架描述了人工智能***总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能***提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(中央处理器(centralprocessing unit，CPU)、神经网络处理器(network processing unit，NPU)、图形处理器(graphic processing unit GPU)、专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能***中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用***，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能***在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、智慧城市、智能终端、智能营销、智慧城市以及智能客服等。

无论是在人工智能的哪种应用中，都会涉及到神经网络模型，例如：深度神经网络(deep neural networks，DNN)模型或卷积神经网络(convolutional neuron network，CNN)模型。使用不同领域或业务场景的样本数据对初始神经网络模型进行训练，就可得到适用于该业务场景的目标神经网络模型。该样本数据可以是图像数据或经过视频数据处理得到的图像数据。例如：该神经网络模型用于图像重识别领域时，该样本数据可以为各种动物的图像数据，如：视频中的动物图像和数据库中预存好的动物图像等。该神经网络模型用于其他业务场景时，该样本数据则为相应业务场景的图像数据或经过视频数据处理得到的图像数据。该神经网络模型的训练过程可以在图2所示的***架构200中进行。

参阅图2，本申请实施例提供了一种***架构200。数据采集设备260用于采集用于神经网络模型训练的样本数据并存入数据库230，该样本数据可以参阅上一段对样本数据的介绍进行理解，此处不再重复描述。训练设备220基于数据库230中维护的样本数据生成目标神经网络模型/规则201。下面将更详细地描述训练设备220如何基于样本数据得到目标神经网络模型/规则201，目标神经网络模型/规则201例如能够指导自动驾驶车辆自动行驶或自动识别不安全因素等。

深度神经网络模型中的每一层的工作可以用数学表达式y＝a(W.x+b)来描述。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练深度神经网络模型的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络模型的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

“神经网络模型的预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objective function)。

训练设备220得到的目标神经网络模型/规则可以应用不同的***或设备中。在图2中，执行设备210配置有I/O接口212，与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。

执行设备210可以调用数据存储***250中的数据、代码等，也可以将数据、指令等存入数据存储***250中。

计算模块211使用目标神经网络模型/规则201对输入的数据进行处理，例如：在自动驾驶领域，该目标神经网络模型/规则201从交通场景的图像数据中识别出自动行驶过程中的障碍物等。

最后，I/O接口212将处理结果返回给客户设备240，提供给用户。

更深层地，训练设备220可以针对不同的目标，基于不同业务场景的样本数据生成相应的目标神经网络模型/规则201，以给用户提供更佳的结果。

值得注意的，图2仅是本申请实施例提供的一种***架构的示意图，图2中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图2中，数据存储***250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储***250置于执行设备210中。

该***架构200可以部署在服务器、虚拟机以及终端设备等计算机设备上。例如，终端设备可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端、增强现实(augmented reality，AR)终端、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。

卷积神经网络模型也可以简称为卷积神经网络，是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

如图3所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120，其中池化层为可选的，以及神经网络层130。

卷积层/池化层120：

卷积层：

如图3所示卷积层/池化层120可以包括如示例121-126层，在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层121为例，卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络模型100进行正确的预测。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图3中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。

神经网络层130：

在经过卷积层/池化层120的处理后，卷积神经网络模型100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络模型100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图3所示的131、132至13n)以及输出层140，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等。

在神经网络层130中的多层隐含层之后，也就是整个卷积神经网络模型100的最后层为输出层140。该输出层140具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络模型100的前向传播(如图3由110至140的传播为前向传播)完成，反向传播(如图3由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络模型100的损失及卷积神经网络模型100通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图3所示的卷积神经网络模型100仅作为一种卷积神经网络模型的示例，在具体的应用中，卷积神经网络模型还可以以其他网络模型的形式存在，例如，如图4所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层130进行处理。

上述图3和图4所示的基于卷积神经网络模型的算法可以在NPU芯片中实现。

由上述介绍可知，无论是深度神经网络模型还是卷积神经网络模型都包括权重。实际上，神经网络模型的训练过程就是通过多次迭代不断更新神经网络模型中权重的过程，在模型训练过程中，每次迭代都会使用样本数据计算本次迭代的损失函数，然后对损失函数进行一阶优化得到一阶梯度，然后在一阶梯度的基础上再进行进一步的附加优化，例如：在一阶梯度的基础上再进一步进行二阶优化，从而得到本次迭代的更新权重，然后使用本次迭代的更新权重进行模型更新，再在本次迭代更新了权重之后的模型基础上进行下一次迭代，直到完成神经网络模型的整个训练过程。

基于上述图1至图4所介绍的***架构以及神经网络模型，本申请实施例提供一种神经网络模型的训练方法，通过本申请训练得到的神经网络模型可以用于图像重识别，具体过程可以参阅图5A进行理解。

如图5A所示，在模型训练阶段，第一计算机设备可以获取多组训练样本，其中每组训练样本包括包含同一目标对象的多张图像，然后使用多组训练样本对第一神经网络模型进行训练，从而得到第二神经网络模型，模型训练阶段可以是离线进行的，也可以周期性的重新训练或更新该第一神经网络模型，得到更优的第二神经网络模型。

模型训练阶段训练得到的第二神经网络模型可以应用于图像重识别，该第二神经网络模型可以存储于第二计算机设备中。在图像重识别时，第二计算机设备可以获取用户通过客户端输入的目标图像以及待筛选图像，其中目标图像中包括有目标对象，待筛选图像可以存储在云服务器的数据库中，第二计算机设备可以从数据库实时获取待筛选图像。第二计算机设备获取到目标图像以及待筛选图像后，就可以使用第二神经网络模型从待筛选图像中筛选出包含目标对象的图像并输出。

上述图5A中的第一计算机设备或第二计算机设备可以是服务器、终端设备或虚拟机。

如图5B所示，图像重识别具体可以为行人重识别，第二计算机设备获取用户通过客户端输入的目标图像，其中目标图像包含目标对象，目标图像为行人图像，目标对象为该行人，待筛选图像存储在行人图像数据库中，行人图像数据库通过摄像机A、摄像机B、摄像机S等，即多个摄像机收集待筛选的行人图像，第二计算机设备从行人图像数据库中获取到待筛选图像后，使用第二神经网络模型从待筛选图像中筛选出包含目标对象的图像，即筛选出行人图像数据库中包含该行人的图像，并将包含目标对象的图像返回给用户。需要说明的是，该技术的使用如果涉及个人信息，应当在遵循适用的法律法规，包括个人信息保护相关法规的情况下，获取个人信息主体的授权同意，在必要范围内进行。

下面对模型训练的过程和图像重识别的过程分别进行介绍。

如图6所示，本申请实施例提供的神经网络模型的训练方法的一实施例包括：

601、获取多组训练样本。

其中，每组训练样本包括同一目标对象的多张图像，同一目标对象可以是同一个动物，也可以是同一个人，还可以是同一个车牌。

示例性的，训练样本包括3组，第一组训练样本包括动物A的1000张图像，即这1000张图像里都有动物A，第二组训练样本包括动物B的1000张图像，第三组训练样本包括动物C的1000张图像。

602、基于多组训练样本对第一神经网络模型进行训练，以得到用于图像重识别的第二神经网络模型。

其中，第一神经网络模型是预先构建好的，具体的，请参阅图7，第一神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，下面分别对卷积神经网络、编码网络和自注意力机制网络进行详细描述：

卷积神经网络用于表示出多张图像中的每张图像的多个局部特征，具体的，卷积神经网络具体将多张图像中的每张图像划分为多张局部图像，并表示出多张局部图像中的每张局部图像的局部特征，得到多个局部特征。其中，卷积神经网络可以使用任意的骨干网络，例如AlexNet、VGGNet、ResNet和DenseNet等，也可以使用任意的损失函数，具体的，请参阅图8，对于一张图像来说，卷积神经网络可以通过其骨干网络做卷积和全局平均池化获得该张图像对应的特征图，即获得一个三维的张量T∈R^c×h×w，其中c为特征图的通道数(channel)，h为特征图的高度(height)，w为特征图的宽度(width)，此时卷积神经网络还会将该特征图沿通道轴将张量进行划分，按照h×w的步长(stride)划分特征图，得到多个局部特征g_i∈R^1×1×c(i＝1,2,…,h×w)，局部特征g_i作为独立的局部特征表示第一神经网络模型中对于特定局部区域的响应。通过卷积神经网络对每张图像的特征图的划分，得到h×w×N个局部特征g所组成的局部特征序列，其中N是图像的数量。多张图像采用相同的处理方式，本申请实施例不再赘述。

编码网络用于在局部特征中添加位置信息，具体的，编码网络对多个局部特征中的每个局部特征进行位置编码，并将编码后得到的每个局部特征的位置信息与每个局部特征进行拼接，以得到带有位置信息的局部特征。

更具体的，对于一张图像来说，编码网络可以对一个局部特征g进行位置编码，得到该局部特征g在与该局部特征g对应的特征图中的位置信息PE，然后将局部特征g与位置信息PE进行拼接，得到带有位置信息的局部特征g₀＝PE+g。通过编码网络对每张图像的特征图的位置编码和拼接，得到h×w×N个局部特征g₀所组成的局部特征序列。多张图像采用相同的处理方式，本申请实施例不再赘述。

自注意力机制网络用于使用位置关系模型训练添加了位置信息的所述局部特征，其中位置关系模型用于描述归属于同一图像的不同局部特征之间的通用位置关系。具体的，自注意力机制网络基于多个带有位置信息的局部特征进行位置关系模型训练，其中多个带有位置信息的局部特征归属于同一图像，位置关系模型在经过多组训练样本中的图像的多次训练后得到目标位置关系模型，目标位置关系模型包含于第二神经网络模型。

更具体的，对于一张图像来说，自注意力机制网络中的位置关系模型可以描述同一图像的不同局部特征之间的通用位置关系，示例性的，对于同一图像的局部特征g₁以及局部特征g₂，位置关系模型会使局部特征g₁与对应的权重矩阵相乘生成查询向量q₁、键向量k₁和值向量v₁，使局部特征g₂与对应的权重矩阵相乘生成查询向量q₂、键向量k₂和值向量v₂，对于局部特征g₁，查询向量q₁与键向量k₁做点积后归一化得到分数1，分数1与值向量v₁相乘，查询向量q₁与键向量k₂做点积后归一化得到分数2，分数2与值向量v₂相乘，最后将分数1与值向量v₁相乘的结果加上分数2与值向量v₂相乘的结果，得到目标向量z₁，最后输入前馈神经网络中训练。需要说明的是，当还存在局部特征g₃、局部特征g₄等，目标向量z₁为分数1与值向量v₁相乘的结果，加上分数2与值向量v₂相乘的结果，加上分数3与值向量v₃相乘的结果，再加上分数4与值向量v₄相乘的结果，同样的，也会得到目标向量z₂、目标向量z₃和目标向量z₄。

目标向量z₁就表示了局部特征g₁与归属于同一图像的不同局部特征之间的通用位置关系。经过多次训练后，位置关系模型就可以得到目标位置关系模型，目标位置关系模型中对于输入的局部特征g₁，输出的目标向量z₁可以很好的表示出局部特征g₁自身的特征，以及局部特征g₁与其他局部特征的通用位置关系。

可选的，实际应用过程中上述计算过程以矩阵的形式完成，因此位置关系模型可以直接采用标准的注意力函数进行计算，具体为：

从而直接得到每个局部特征g的目标向量z。多张图像采用相同的处理方式，本申请实施例不再赘述。

可选的，在第一神经网络模型的自注意力机制网络中还可以设置全连接层和分类器。

基于上述对第一神经网络模型的描述，通过输入多组训练样本进行训练，通过不断迭代，使神经网络模型中的目标函数收敛得到第二神经网络模型，该过程可以参阅前述图1至图4部分的相应介绍进行理解，此处不再重复赘述。

本申请实施例中，第一神经网络模型可以表示出每张图像的局部特征并添加位置信息，并基于位置关系模型进行局部特征的训练，因位置关系模型可以描述同一图像中不同局部特征之间的通用位置关系，即位置关系模型训练时可以学习到局部特征之间的位置关系，输出的特征隐含的表示出了同一图像中每个局部图像之间的位置关系和每个局部图像自身的特征，即使图像被遮挡或非对齐，训练好的第二神经网络模型仍然可以很好的识别出是否为同一个目标对象，大大提高识别准确率。

在一种可能的实施例中，编码网络还用于获取多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，位置信息由第一函数与第二函数表示，第一函数为基于横坐标位置的正弦函数与基于纵坐标位置的正弦函数之和，第二函数为基于横坐标位置的余弦函数与基于纵坐标位置的余弦函数之和。具体的。对于一个局部特征g，使用预设公式对其进行位置编码，其中预设公式为：

其中，第一函数为PE_(pos,2i)，第二函数为PE_(pos,2i+1)，PE为每个局部特征的位置信息，pos_x为每个局部特征在对应的特征图中的横坐标位置，pos_y为每个局部特征在对应的特征图中的纵坐标位置，i∈[0,d/2]，d为特征图的维度，即通道数，k为经验值，可选的，经验值k＝10000。基于正弦函数和余弦函数的二维位置编码可以使得第一神经网络模型能建模任意的相对距离，比如PE_pos+k可以表示成一个PE_pos+k的线性函数，这表明位置PE+k的向量可以表示成位置PE和k的向量的线性变换，这提供了表达相对位置信息的可能性。因此编码网络将每个局部特征的位置信息PE和对应的局部特征g相加得到带有位置信息的局部特征g₀＝PE+g。

本申请实施例中提供的编码网络的位置编码方法，基于正弦函数和余弦函数的二维位置编码可以使得第一神经网络模型能建模任意的相对距离，从而可以更好的学习到特征图中每个局部特征之间的位置关系。

在一种可能的实施例中，编码网络还用于将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，带有位置信息和预设特征向量的局部特征用于自注意力机制网络训练位置关系模型，预设特征向量为随机初始化的可学习特征向量。

具体的，对于一张图像来说，编码网络中预设有随机初始化的可学习特征向量r，预设特征向量r中不包括任何信息，因此在训练过程中预设特征向量r可以从局部特征序列中嵌入需要学习的信息，因此编码网络将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征g₁＝cat(r,g₀)，通过编码网络对每张图像的特征图的拼接，得到h×w×N个局部特征g₁所组成的局部特征序列。多张图像采用相同的处理方式，本申请实施例不再赘述。

本申请实施例中，将随机初始化的可学习特征向量拼接至局部特征的序列，关联了编码网络的输出特性，从而更好的学习到图像对应的特征图中每个局部特征的自身特征和关联特征。

在一种可能的实施例中，自注意力机制网络可以被替换为全连接层，实现更简单的构建第一神经网络模型。

在一种可能的实施例中，自注意力机制网络基于多头自注意力机制建立，即将上述的位置关系模型建模过程进行多次得到多个目标向量，对于每一个局部特征g，将最后得到的多个目标向量z拼接后再映射为一个最终的目标向量，实际应用过程中可以具体表示为：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

本申请实施例中，基于多头自注意力可以将关注不同位置的局部特征并对其进行更有效的联合，进行更有效的关联信息的挖掘，例如位置信息。

示例性的，对于第一神经网络模型，卷积神经网络使用ResNet50作为基础网络结构，自注意力机制网络使用12层的Transformer模型，每一层Transformer模型中包含8个头(attention head)，输入模型的图像被放缩为256x128像素大小，使用随机梯度下降(SGD)优化器训练网络参数，动量设置为0.9，权重衰减为5×10^-4，学习率设置为0.01，经过40个时期(epoch)后学习率衰减到0.001，整个训练周期持续60个epoch。

请参阅图9，一张图像输入至第一神经网络模型后，经过卷积神经网络划分为多个局部特征g₁、g₂、g₃、g₄直到g_h×w，每个局部特征经过位置编码和预设特征向量的拼接输入至自注意力机制网络，经过编码器的H次自注意力编码后，经过Instance、批标准化(BatchNormalization)和Output Embedding，输出至头(head)，头包括全连接层(FC)和分类器(Classifier)。请参阅图10，编码器中的多头自注意力模块(Multi-Head LinearAttention)中，每个局部特征都和相应的权重矩阵相乘得到查询(Q)、键(K)和值(V)，经过线性转换(Linear)，即线性投影和映射(Projection)后在缩放的点乘注意力(scaled dot-product attention)模块中执行H次后拼接并线性投影得到最终的目标特征，目标特征学习了该局部特征和其他局部特征之间的相关程度，因局部特征编码了位置信息和可学习的预设特征向量，经过自注意力机制网络可以很好的表示出每个局部特征自身的特征和与其他局部特征的位置相关程度。

以上训练得到的第二神经网络模型，就可以使用该第二神经网络模型执行图像重识别方法，下面结合附图介绍图像重识别的过程。

如图11所示，本申请实施例提供的图像重识别方法的一实施例包括：

1101、获取目标图像以及待筛选图像。

目标图像中包括目标对象，目标对象可以为动物，例如动物A，还可以为某一个车牌，待筛选图像可以存储在云服务器的数据库中。

1102、基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像。

1103、输出待筛选图像中包含目标对象的图像。

目标神经网络模型可以为上述实施例中的第二神经网络模型，目标神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，自注意力机制网络中包括目标位置关系模型。

卷积神经网络用于表示出目标图像或待筛选图像中的任意一张待筛选图像的多个局部特征；编码网络用于在局部特征中添加位置信息；自注意力机制网络用于依据目标位置关系模型确定待筛选图像中局部特征的位置关系与目标对象中局部特征的位置关系符合度满足预设条件的图像，符合度满足预设条件的图像中包含目标对象的图像。

具体的，卷积神经网络具体用于将目标图像或待筛选图像中的任意一张待筛选图像划分为多张局部图像，并表示出多张局部图像中的每张局部图像的局部特征，得到多个局部特征；编码网络具体用于对多个局部特征中的每个局部特征进行位置编码，并将编码后得到的每个局部特征的位置信息与每个局部特征进行拼接，以得到带有位置信息的局部特征。

示例性的，目标图像为动物A，待筛选图像包括1张动物A的图像、1张动物B的图像和1张动物C的图像，将目标图像输入至第二神经网络模型，自注意力机制网络中的目标位置关系模型根据目标图像，即目标对象中的局部特征的位置关系输出动物A对应的目标特征为z₁，此时将待筛选图像也输入第二神经网络模型，输出待筛选图像中动物A对应的目标特征为z₂，输出动物B对应的目标特征为z₃,输出动物C对应的目标特征为z₄，其中目标特征z₂和目标特征z₁的位置关系符合度满足预设条件，其中位置关系符合度满足预设条件可以是目标特征z₂和目标特征z₁的相似度大于预设值，预设值可以为90％，而目标特征z₃和目标特征z₁的位置关系符合度不满足预设条件，目标特征z₄和目标特征z₁的位置关系符合度不满足预设条件，则自注意力机制网络确定符合度满足预设条件的图像为待筛选图像中动物A的图像，并输出。

需要说明的是，待筛选图像也可以预先输入至目标神经网络模型中，即预先得到了全部待筛选图像的目标特征，在应用过程中只需要得到目标图像的目标特征就可以完成筛选。

在一种可能的实施例中，编码网络还用于获取多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，位置信息由第一函数与第二函数表示，第一函数为基于横坐标位置的正弦函数与基于纵坐标位置的正弦函数之和，第二函数为基于横坐标位置的余弦函数与基于纵坐标位置的余弦函数之和。在一种可能的实施例中，编码网络还用于将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，预设特征向量为随机初始化的可学习特征向量。在一种可能的实施例中，自注意力机制网络基于多头自注意力机制建立。上述可能的实施例中对应的目标神经网络模型可以参照前述实施例中的第二神经网络模型，本申请实施例在此不再赘述。

示例性的，当目标图像被遮挡时，例如动物A的胸部被遮挡，目标图像被输入至目标神经网络模型后输出的目标特征对于胸部的部分表征很弱，但是动物A的头部的目标特征和腿部的目标特征被正确表征，且包括了头部和腿部的相对位置关系，待筛选图像中头部的目标特征和腿部的目标特征及表征出的相对位置关系和目标图像的目标特征相同时，就可以认为该待筛选图像也为动物A。

示例性的，当目标图像和待筛选图像非对齐时，例如目标图像中的动物A在整个目标图像中占比很小，而动物A在整个待筛选图像中占比很大，但动物A每个部位对应的特征的位置关系都被表征，因此目标图像的目标特征和待筛选图像的目标特征的相似度依然很大。

本申请实施例通过获取目标图像以及待筛选图像；基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像，即将训练好的，经过位置编码和自注意力机制关联的目标神经网络模型应用在图像重识别，可以基于目标对象的局部特征间的位置相关程度表示出目标对象，最后输出待筛选图像中包含目标对象的图像，大大提高识别准确率。

请参阅图12，本申请实施例中图像重识别方法另一实施例包括：

1201、接收输入的目标对象，以及接收用于确定待筛选图像的条件。

1202、根据用于确定待筛选图像的条件，从数据库中确定待筛选图像。

目标图像为动物图像，即图像重识别应用于动物重识别，用户需要查找特定的动物时，将目标对象，即目标动物和待筛选图像的条件输入，其中待筛选图像的条件可以为时间条件，此时就可以根据该时间条件从数据库中确定出待筛选图像，其中数据库可以保存在云服务器中。

示例性的，用户输入目标对象为动物A，输入待筛选图像的条件为11月11日11点至11月11日21点，数据库为录像设备保存的视频，计算机设备就可以从云服务器中的数据库中获取11月11日11点至11月11日21点的视频，并将该视频按预设时间间隔保存为多张待筛选图像，例如在视频中每隔1秒保存一张图像。

1203、基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像。

1204、输出待筛选图像中包含目标对象的图像。

基于目标神经网络模型，就可以从待筛选图像中得到包含目标对象的图像，进一步的，还可以获取包含目标对象的图像对应的视频。目标神经网络模型输出包含目标对象的图像，然后获取包含目标对象的图像在视频中出现的片段或视频中的时间段。

示例性的，包含目标对象的图像存在于视频中的11月11日12点01秒至11月11日12点59秒，那么还可以输出11月11日12点01秒至11月11日12点59秒这个时间段信息，或者输出该时间段的视频，以便用户查阅。

本申请实施例提供的图像重识别方法还可以应用在行人重识别，在效果上要优于多种现有技术，工程人员为了测试效果，从TOP1检索命中率和平均检索准确度两个指标做了测试以及数据收集，得到图13的测试结果。需要说明的是，该技术的使用如果涉及个人信息，应当在遵循适用的法律法规，包括个人信息保护相关法规的情况下，获取个人信息主体的授权同意，在必要范围内进行。

本申请实施例通过将训练好的，经过位置编码和自注意力机制关联的目标神经网络模型应用在图像重识别，可以基于目标对象的局部特征间的位置相关程度表示出目标对象，对于非对齐和被遮挡的图像也可以很好的识别，大大提高识别准确率。

下面对本申请实施例中的计算机设备进行描述，请参阅图14，本申请实施例中计算机设备1400一个实施例包括：

获取单元1401，用于获取多组训练样本，多组训练样本中的每组训练样本包括同一目标对象的多张图像。该获取单元1401可以执行上述方法实施例中的步骤601。

训练单元1402，用于基于多组训练样本对第一神经网络模型进行训练，以得到用于图像重识别的第二神经网络模型，第一神经网络模型包括卷积神经网络、编码网络和自注意力机制网络。该训练单元1402可以执行上述方法实施例中的步骤602。

其中，所述卷积神经网络用于表示出所述多张图像中的每张图像的多个局部特征；

所述编码网络用于在所述局部特征中添加位置信息；

所述自注意力机制网络用于使用位置关系模型训练添加了所述位置信息的所述局部特征，所述位置关系模型用于描述归属于同一图像的不同局部特征之间的通用位置关系。

本申请实施例中，训练单元1402使用的第一神经网络模型可以表示出每张图像的局部特征并添加位置信息，并基于位置关系模型进行局部特征的训练，因位置关系模型可以描述同一图像中不同局部特征之间的通用位置关系，即位置关系模型训练时可以学习到局部特征之间的位置关系，输出的特征隐含的表示出了同一图像中每个局部图像之间的位置关系和每个局部图像自身的特征，即使图像被遮挡或非对齐，训练好的第二神经网络模型仍然可以很好的识别出是否为同一个目标对象，大大提高识别准确率。

可选的，卷积神经网络具体用于将多张图像中的每张图像划分为多张局部图像，并表示出多张局部图像中的每张局部图像的局部特征，得到多个局部特征；

编码网络具体用于对多个局部特征中的每个局部特征进行位置编码，并将编码后得到的每个局部特征的位置信息与每个局部特征进行拼接，以得到带有位置信息的局部特征；

自注意力机制网络具体用于基于多个带有位置信息的局部特征进行位置关系模型训练，多个带有位置信息的局部特征归属于同一图像，位置关系模型在经过多组训练样本中的图像的多次训练后得到目标位置关系模型，目标位置关系模型包含于第二神经网络模型。

可选的，编码网络还用于获取多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，位置信息由第一函数与第二函数表示，第一函数为基于横坐标位置的正弦函数与基于纵坐标位置的正弦函数之和，第二函数为基于横坐标位置的余弦函数与基于纵坐标位置的余弦函数之和。

可选的，编码网络还用于将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，带有位置信息和预设特征向量的局部特征用于自注意力机制网络训练位置关系模型，预设特征向量为随机初始化的可学习特征向量。

可选的，自注意力机制网络基于多头自注意力机制建立。

本申请实施例提供的计算机设备1400可以参阅前述神经网络模型的训练方法实施例部分的相应内容进行理解，此处不再重复赘述。

如图15所示，本申请实施例提供的计算机设备1500的一实施例包括：

获取单元1501，用于获取目标图像以及待筛选图像，目标图像中包括目标对象；该获取单元1501可以执行上述方法实施例中的步骤1101。

筛选单元1502，用于基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像，目标神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，自注意力机制网络中包括目标位置关系模型；其中，卷积神经网络用于表示出目标图像或待筛选图像中的任意一张待筛选图像的多个局部特征；编码网络用于在局部特征中添加位置信息；自注意力机制网络用于依据目标位置关系模型确定待筛选图像中局部特征的位置关系与目标对象中局部特征的位置关系符合度满足预设条件的图像，符合度满足预设条件的图像中包含目标对象的图像；该筛选单元1502可以执行上述方法实施例中的步骤1102。

输出单元1503，用于输出待筛选图像中包含目标对象的图像。该输出单元1503可以执行上述方法实施例中的步骤1103。

本申请实施例通过获取单元1501获取目标图像以及待筛选图像；筛选单元1502基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像，即将训练好的，经过位置编码和自注意力机制关联的目标神经网络模型应用在图像重识别，可以基于目标对象的局部特征间的位置相关程度表示出目标对象，最后输出单元1503输出待筛选图像中包含目标对象的图像，大大提高识别准确率。

如图16所示，本申请实施例提供的计算机设备1600的另一实施例包括：

获取单元1601，用于获取目标图像以及待筛选图像，目标图像中包括目标对象；

筛选单元1602，用于基于目标神经网络模型，从待筛选图像中筛选出包含目标对象的图像，目标神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，自注意力机制网络中包括目标位置关系模型；其中，所述卷积神经网络用于表示出所述目标图像或所述待筛选图像中的任意一张待筛选图像的多个局部特征；所述编码网络用于在所述局部特征中添加位置信息；所述自注意力机制网络用于依据所述目标位置关系模型确定所述待筛选图像中局部特征的位置关系与所述目标对象中局部特征的位置关系符合度满足预设条件的图像，所述符合度满足预设条件的图像中包含所述目标对象的图像；

输出单元1603，用于输出待筛选图像中包含目标对象的图像。

可选的，卷积神经网络具体用于将目标图像或待筛选图像中的任意一张待筛选图像划分为多张局部图像，并表示出多张局部图像中的每张局部图像的局部特征，得到多个局部特征；编码网络具体用于对多个局部特征中的每个局部特征进行位置编码，并将编码后得到的每个局部特征的位置信息与每个局部特征进行拼接，以得到带有位置信息的局部特征。

可选的，编码网络还用于将预设特征向量拼接至带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，预设特征向量为随机初始化的可学习特征向量。

可选的，自注意力机制网络基于多头自注意力机制建立。

可选的，获取单元1601包括：

接收子单元16011，用于接收输入的目标对象，以及接收用于确定待筛选图像的条件；

确定子单元16012，用于根据用于确定待筛选图像的条件，从数据库中确定待筛选图像。

本申请实施例提供的计算机设备1600可以参阅前述图像重识别方法实施例部分的相应内容进行理解，此处不再重复赘述。

图17所示，为本申请的实施例提供的计算机设备1700的一种可能的逻辑结构示意图。计算机设备1700包括：处理器1701、通信接口1702、存储器1703以及总线1704，该处理器1701可以包括CPU，或者，CPU与GPU和NPU和其他类型的处理器中的至少一个。处理器1701、通信接口1702以及存储器1703通过总线1704相互连接。在本申请的实施例中，处理器1701用于对计算机设备1700的动作进行控制管理，例如，处理器1701用于执行图6中的步骤601至602，以及图11中的步骤1101至1103，以及图12中的步骤1201至1204和/或用于本文所描述的技术的其他过程。通信接口1702用于支持计算机设备1700进行通信。存储器1703，用于存储计算机设备1700的程序代码和数据。

其中，处理器1701可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。总线1704可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

如图18所示，本申请实施例提供的计算机设备1800的一种可能的逻辑结构示意图。该计算机设备1800包括：硬件层1801和虚拟机(virtual machine，VM)层1802，该VM层可以包括一个或多个VM。该硬件层1801为VM提供硬件资源，支撑VM运行，该VM的功能和与本申请相关的过程可以参阅上述图5A至图13中的相应描述进行理解。该硬件层1801包括处理器、通信接口以及存储器等硬件资源。该处理器可以包括CPU，或者，CPU与GPU和NPU中的至少一个。

在本申请的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当设备的至少一个处理器执行该计算机执行指令时，设备执行上述图5A至图13部分实施例所描述的神经网络模型的训练方法或图像重识别方法。

在本申请的另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中；设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令，至少一个处理器执行该计算机执行指令使得设备执行上述图5A至图13部分实施例所描述的神经网络模型的训练方法或图像重识别方法。

在本申请的另一实施例中，还提供一种芯片***，该芯片***包括至少一个处理器和接口，该接口用于接收数据和/或信号，至少一个处理器用于支持实现上述图5A至图13部分实施例所描述的神经网络模型的训练方法或图像重识别方法。在一种可能的设计中，芯片***还可以包括存储器，存储器，用于保存计算机设备必要的程序指令和数据。该芯片***，可以由芯片构成，也可以包含芯片和其他分立器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

获取多组训练样本，所述多组训练样本中的每组训练样本包括同一目标对象的多张图像；

基于所述多组训练样本对第一神经网络模型进行训练，以得到用于图像重识别的第二神经网络模型，所述第一神经网络模型包括卷积神经网络、编码网络和自注意力机制网络；

所述编码网络用于在所述局部特征中添加位置信息；

2.根据权利要求1所述的方法，其特征在于，

所述卷积神经网络具体用于将所述多张图像中的每张图像划分为多张局部图像，并表示出所述多张局部图像中的每张局部图像的局部特征，得到所述多个局部特征；

所述编码网络具体用于对所述多个局部特征中的每个局部特征进行位置编码，并将编码后得到的所述每个局部特征的位置信息与所述每个局部特征进行拼接，以得到带有位置信息的局部特征；

所述自注意力机制网络具体用于基于多个所述带有位置信息的局部特征进行位置关系模型训练，所述多个带有位置信息的局部特征归属于同一图像，所述位置关系模型在经过所述多组训练样本中的图像的多次训练后得到目标位置关系模型，所述目标位置关系模型包含于所述第二神经网络模型。

3.根据权利要求1或2所述的方法，其特征在于，所述编码网络还用于获取所述多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，所述位置信息由第一函数与第二函数表示，所述第一函数为基于所述横坐标位置的正弦函数与基于所述纵坐标位置的正弦函数之和，所述第二函数为基于所述横坐标位置的余弦函数与基于所述纵坐标位置的余弦函数之和。

4.根据权利要求2所述的方法，其特征在于，所述编码网络还用于将预设特征向量拼接至所述带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，所述带有位置信息和预设特征向量的局部特征用于所述自注意力机制网络训练所述位置关系模型，所述预设特征向量为随机初始化的可学习特征向量。

5.一种图像重识别方法，其特征在于，包括：

获取目标图像以及待筛选图像，所述目标图像中包括目标对象；

基于目标神经网络模型，从所述待筛选图像中筛选出包含所述目标对象的图像，所述目标神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，所述自注意力机制网络中包括目标位置关系模型；其中，所述卷积神经网络用于表示出所述目标图像或所述待筛选图像中的任意一张待筛选图像的多个局部特征；所述编码网络用于在所述局部特征中添加位置信息；所述自注意力机制网络用于依据所述目标位置关系模型确定所述待筛选图像中局部特征的位置关系与所述目标对象中局部特征的位置关系符合度满足预设条件的图像，所述符合度满足预设条件的图像中包含所述目标对象的图像；

输出所述待筛选图像中包含所述目标对象的图像。

6.根据权利要求5所述的方法，其特征在于，

所述卷积神经网络具体用于将所述目标图像或所述待筛选图像中的任意一张待筛选图像划分为多张局部图像，并表示出所述多张局部图像中的每张局部图像的局部特征，得到所述多个局部特征；

所述编码网络具体用于对所述多个局部特征中的每个局部特征进行位置编码，并将编码后得到的所述每个局部特征的位置信息与所述每个局部特征进行拼接，以得到带有位置信息的局部特征。

7.根据权利要求5或6所述的方法，其特征在于，所述编码网络还用于获取所述多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，所述位置信息由第一函数与第二函数表示，所述第一函数为基于所述横坐标位置的正弦函数与基于所述纵坐标位置的正弦函数之和，所述第二函数为基于所述横坐标位置的余弦函数与基于所述纵坐标位置的余弦函数之和。

8.根据权利要求6所述的方法，其特征在于，所述编码网络还用于将预设特征向量拼接至所述带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，所述预设特征向量为随机初始化的可学习特征向量。

9.根据权利要求5、6或8所述的方法，其特征在于，所述获取目标图像以及待筛选图像，包括：

接收输入的目标对象，以及接收用于确定待筛选图像的条件；

根据所述用于确定待筛选图像的条件，从数据库中确定所述待筛选图像。

10.一种计算机设备，其特征在于，包括：

获取单元，用于获取多组训练样本，所述多组训练样本中的每组训练样本包括同一目标对象的多张图像；

训练单元，用于基于所述多组训练样本对第一神经网络模型进行训练，以得到用于图像重识别的第二神经网络模型，所述第一神经网络模型包括卷积神经网络、编码网络和自注意力机制网络；

所述编码网络用于在所述局部特征中添加位置信息；

11.根据权利要求10所述的计算机设备，其特征在于，

12.根据权利要求10或11所述的计算机设备，其特征在于，所述编码网络还用于获取所述多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，所述位置信息由第一函数与第二函数表示，所述第一函数为基于所述横坐标位置的正弦函数与基于所述纵坐标位置的正弦函数之和，所述第二函数为基于所述横坐标位置的余弦函数与基于所述纵坐标位置的余弦函数之和。

13.根据权利要求11所述的计算机设备，其特征在于，所述编码网络还用于将预设特征向量拼接至所述带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，所述带有位置信息和预设特征向量的局部特征用于所述自注意力机制网络训练所述位置关系模型，所述预设特征向量为随机初始化的可学习特征向量。

14.一种计算机设备，其特征在于，包括：

获取单元，用于获取目标图像以及待筛选图像，所述目标图像中包括目标对象；

筛选单元，用于基于目标神经网络模型，从所述待筛选图像中筛选出包含所述目标对象的图像，所述目标神经网络模型包括卷积神经网络、编码网络和自注意力机制网络，所述自注意力机制网络中包括目标位置关系模型；其中，所述卷积神经网络用于表示出所述目标图像或所述待筛选图像中的任意一张待筛选图像的多个局部特征；所述编码网络用于在所述局部特征中添加位置信息；所述自注意力机制网络用于依据所述目标位置关系模型确定所述待筛选图像中局部特征的位置关系与所述目标对象中局部特征的位置关系符合度满足预设条件的图像，所述符合度满足预设条件的图像中包含所述目标对象的图像；

输出单元，用于输出所述待筛选图像中包含所述目标对象的图像。

15.根据权利要求14所述的计算机设备，其特征在于，

16.根据权利要求14或15所述的计算机设备，其特征在于，所述编码网络还用于获取所述多个局部特征中的每个局部特征在对应图像中的横坐标位置和纵坐标位置，所述位置信息由第一函数与第二函数表示，所述第一函数为基于所述横坐标位置的正弦函数与基于所述纵坐标位置的正弦函数之和，所述第二函数为基于所述横坐标位置的余弦函数与基于所述纵坐标位置的余弦函数之和。

17.根据权利要求15所述的计算机设备，其特征在于，所述编码网络还用于将预设特征向量拼接至所述带有位置信息的局部特征，得到带有位置信息和预设特征向量的局部特征，所述预设特征向量为随机初始化的可学习特征向量。

18.根据权利要求14、15或17所述的计算机设备，其特征在于，所述获取单元包括：

接收子单元，用于接收输入的目标对象，以及接收用于确定待筛选图像的条件；

确定子单元，用于根据所述用于确定待筛选图像的条件，从数据库中确定所述待筛选图像。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求5-9任一项所述的方法。