CN111368934B

CN111368934B - 图像识别模型训练方法、图像识别方法以及相关装置

Info

Publication number: CN111368934B
Application number: CN202010187873.3A
Authority: CN
Inventors: 卓炜; 范琦; 戴宇榮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-09-19
Anticipated expiration: 2040-03-17
Also published as: CN111368934A

Abstract

本申请公开了图像识别模型训练方法、图像识别方法以及相关装置，通过基于目标识别图像获取目标样本；然后根据目标样本确定训练三元组；进而将训练三元组输入预设网络模型进行训练，以得到目标网络模型。从而实现了基于三元组的网络模型训练，由于三元组中包含了指示标签之间相似性的正样本，以及用于指示标签之间差异性的负样本，使得经过训练的网络模型可以更加全面指示图像特征，且三元组样本的构建过程无需人工干预，可以应用于新样本的识别，大大节省了训练的时间，提高了网络模型训练的准确性及效率。

Description

图像识别模型训练方法、图像识别方法以及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及图像识别模型训练方法、图像识别方法以及相关装置。

背景技术

随着用户对图片处理要求的不断提升，目标检测技术的应用也愈加广泛。用户需要使用大量高质量的目标检测训练样本对模型进行训练，然后将这个模型用于目标检测任务中。但是在实际的应用场景中，大量高质量的目标检测训练样本需要大量的人力物力去标注，往往无法快速获得，所以无法将检测模型快速部署到新样本的检测中，而小样本目标检测方法可以很好地解决这一问题。

一般，对于小样本的目标检测方法采用大量的训练样本进行模型训练，使得训练后的模型可以对与训练样本类似的图像具有识别能力。

然而，随着图像中小样本类别的增多，采用固定训练样本的方法无法完全提取出样本的特征，且需要大量的人力物力去收集训练样本，影响模型训练的准确性以及效率。

发明内容

有鉴于此，本申请提供一种图像识别模型训练的方法，可以有效避免由于手工标注训练样本而造成的低效以及不全面，提高模型训练过程的效率以及精确度。

本申请第一方面提供一种图像识别模型训练的方法，可以应用于终端设备中包含模型训练功能的***或程序中，具体包括：基于目标识别图像获取目标样本；

根据所述目标样本确定训练三元组，所述训练三元组包括至少一个正样本对和至少一个负样本对，所述正样本对由所述目标样本和正样本组成，所述负样本对由所述目标样本和负样本组成，所述正样本基于所述目标样本对应的相似标签所得，所述负样本基于所述目标样本对应的差异标签所得；

基于所述正样本对和所述负样本对对预设网络模型进行监督学习，以得到目标网络模型，所述目标网络模型用于对所述目标识别图像进行识别。

可选的，在本申请一些可能的实现方式中，所述基于所述正样本对和所述负样本对对预设网络模型进行对比训练，以得到目标网络模型，包括：

确定所述正样本对的匹配标签，所述匹配标签基于所述正样本和所述目标样本的相似度确定；

基于所述匹配标签确定所述目标样本的前景区域和背景区域，以得到分类后的正样本对；

将所述分类后的正样本对和所述负样本对输入所述预设网络模型进行监督学习，以得到所述目标网络模型。

可选的，在本申请一些可能的实现方式中，所述将所述分类后的正样本对和所述负样本对输入所述预设网络模型进行监督学习，以得到所述目标网络模型，包括：

根据所述所述前景区域与所述正样本的特征相似度获取第一损失值；

根据所述所述背景区域与所述正样本的特征相似度获取第二损失值，所述第二损失值和所述第一损失值指示的标签类型相反；

根据所述负样本对的特征相似度获取第三损失值，所述第三损失值和所述第一损失值指示的标签类型相反；

基于所述第一损失值、第二损失值和所述第三损失值对所述预设网络模型进行反向传播计算，以得到所述目标网络模型。

可选的，在本申请一些可能的实现方式中，所述根据所述目标样本确定训练三元组，包括：

基于注意力机制提取所述目标样本的图像特征；

根据所述目标样本确定对应的正样本和负样本；

采用检测框提取所述正样本的图像特征，以和所述目标样本的图像特征生成正样本对；

采用检测框提取所述负样本的图像特征，以和所述目标样本的图像特征生成负样本对；

基于所述正样本对和所述负样本对确定训练三元组。

可选的，在本申请一些可能的实现方式中，所述根据所述目标样本确定对应的正样本和负样本，包括：

确定所述目标样本中的目标标签；

基于所述目标标签获取标签相同的样本，以得到所述正样本；

基于所述目标标签获取标签不同的样本，以得到所述负样本。

可选的，在本申请一些可能的实现方式中，所述目标标签包含于标签数据库中，所述确定所述目标样本中的目标标签，包括：

响应于至少一个标签选择指令确定对应的候选标签；

基于所述候选标签在所述标签数据库中进行遍历，以得到所述目标标签。

可选的，在本申请一些可能的实现方式中，所述基于所述候选标签在所述标签数据库中进行遍历，以得到所述目标标签，包括：

基于所述候选标签在所述标签数据库中进行遍历，以得到至少一个检索标签；

获取所述候选标签与所述检索标签的标签相似度；

基于所述标签相似度确定所述目标标签。

可选的，在本申请一些可能的实现方式中，所述确定所述目标样本中的目标标签，包括：

响应于至少一个目标检测框中的图像确定模板图片；

根据所述模板图片确定所述目标样本中的目标标签。

可选的，在本申请一些可能的实现方式中，所述基于目标识别图像获取目标样本，包括：

获取所述目标识别图像中的图像标签；

根据所述图像标签确定满足预设条件的所述目标样本，所述预设条件基于所述图像标签与所述目标样本的匹配程度确定。

可选的，在本申请一些可能的实现方式中，所述预设网络模型为小样本目标检测模型，所述目标网络模型为训练后的小样本目标检测模型。

本申请第二方面提供一种图像识别模型训练的装置，包括：获取单元，用于基于目标识别图像获取目标样本；

确定单元，用于根据所述目标样本确定训练三元组，所述训练三元组包括至少一个正样本对和至少一个负样本对，所述正样本对由所述目标样本和正样本组成，所述负样本对由所述目标样本和负样本组成，所述正样本基于所述目标样本对应的相似标签所得，所述负样本基于所述目标样本对应的差异标签所得；

训练单元，用于基于所述正样本对和所述负样本对对预设网络模型进行监督学习，以得到目标网络模型，所述目标网络模型用于对所述目标识别图像进行识别。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于确定所述正样本对的匹配标签，所述匹配标签基于所述正样本和所述目标样本的相似度确定；

所述训练单元，具体用于基于所述匹配标签确定所述目标样本的前景区域和背景区域，以得到分类后的正样本对；

所述训练单元，具体用于将所述分类后的正样本对和所述负样本对输入所述预设网络模型进行监督学习，以得到所述目标网络模型。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于根据所述所述前景区域与所述正样本的特征相似度获取第一损失值；

所述训练单元，具体用于根据所述所述背景区域与所述正样本的特征相似度获取第二损失值，所述第二损失值和所述第一损失值指示的标签类型相反；

所述训练单元，具体用于根据所述负样本对的特征相似度获取第三损失值，所述第三损失值和所述第一损失值指示的标签类型相反；

所述训练单元，具体用于基于所述第一损失值、第二损失值和所述第三损失值对所述预设网络模型进行反向传播计算，以得到所述目标网络模型。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于基于注意力机制提取所述目标样本的图像特征；

所述确定单元，具体用于根据所述目标样本确定对应的正样本和负样本；

所述确定单元，具体用于采用检测框提取所述正样本的图像特征，以和所述目标样本的图像特征生成正样本对；

所述确定单元，具体用于采用检测框提取所述负样本的图像特征，以和所述目标样本的图像特征生成负样本对；

所述确定单元，具体用于基于所述正样本对和所述负样本对确定训练三元组。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于确定所述目标样本中的目标标签；

所述确定单元，具体用于基于所述目标标签获取标签相同的样本，以得到所述正样本；

所述确定单元，具体用于基于所述目标标签获取标签不同的样本，以得到所述负样本。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于响应于至少一个标签选择指令确定对应的候选标签；

所述确定单元，具体用于基于所述候选标签在所述标签数据库中进行遍历，以得到所述目标标签。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于基于所述候选标签在所述标签数据库中进行遍历，以得到至少一个检索标签；

所述确定单元，具体用于获取所述候选标签与所述检索标签的标签相似度；

所述确定单元，具体用于基于所述标签相似度确定所述目标标签。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于响应于至少一个目标检测框中的图像确定模板图片；

所述确定单元，具体用于根据所述模板图片确定所述目标样本中的目标标签。

可选的，在本申请一些可能的实现方式中，所述获取单元，具体用于获取所述目标识别图像中的图像标签；

所述获取单元，具体用于根据所述图像标签确定满足预设条件的所述目标样本，所述预设条件基于所述图像标签与所述目标样本的匹配程度确定。

本申请第三方面提供一种图像识别的方法，具体包括：响应于识别指令获取至少一个模板图片，所述模板图片用于指示目标识别图像中的识别目标；

将所述模板图片和所述目标识别图像输入目标网络模型，以得到所述识别结果，所述识别结果为所述识别目标的集合，所述目标网络模型基于第一方面任一项所述的模型训练的方法训练所得。

本申请第四方面提供一种图像识别的装置，具体包括：获取单元，用于响应于识别指令获取至少一个模板图片，所述模板图片用于指示目标识别图像中的识别目标；

识别单元，用于将所述模板图片和所述目标识别图像输入目标网络模型，以得到所述识别结果，所述识别结果为所述识别目标的集合，所述目标网络模型基于第一方面任一项所述的模型训练的方法训练所得。

本申请第五方面提供一种计算机设备，包括：存储器、处理器以及总线***；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的模型训练的方法，或第三方面所述的图像识别的方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的模型训练的方法，或第三方面所述的图像识别的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过基于目标识别图像获取目标样本；然后根据目标样本确定对应的正样本和负样本，其中正样本与目标样本包含的标签相同，负样本与目标样本包含的标签不同；进而将目标样本、正样本和负样本输入预设网络模型进行训练，以得到目标网络模型，目标网络模型用于对目标识别图像进行识别。从而实现了基于三元组的网络模型训练，由于三元组中包含了指示标签之间相似性的正样本，以及用于指示标签之间差异性的负样本，使得经过训练的网络模型可以更加全面的包含不同标签下的图像特征，且三元组样本的构建过程无需人工干预，大大节省了训练的时间，提高了网络模型训练的准确性及效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为模型训练***运行的网络架构图；

图2为本申请实施例提供的一种图像识别模型训练的流程架构图；

图3为本申请实施例提供的一种图像识别模型训练的方法的流程图；

图4为本申请实施例提供的一种图像识别模型训练的场景示意图；

图5为本申请实施例提供的一种模型训练方法的流程架构图；

图6为本申请实施例提供的一种图像识别的方法的流程图；

图7为本申请实施例提供的一种图像识别方法的场景示意图；

图8为本申请实施例提供的一种终端架构执行流程图；

图9为本申请实施例提供的另一种图像识别方法的场景示意图；

图10为本申请实施例提供的另一种图像识别方法的场景示意图；

图11为本申请实施例提供的另一种图像识别方法的场景示意图；

图12为本申请实施例提供的一种图像识别模型训练装置的结构示意图；

图13为本申请实施例提供的一种图像识别装置的结构示意图；

图14为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请实施例提供了一种图像识别模型训练的方法以及相关装置，可以应用于终端设备中包含模型训练功能的***或程序中，通过基于目标识别图像获取目标样本；然后根据目标样本确定对应的正样本和负样本，其中正样本与目标样本包含的标签相同，负样本与目标样本包含的标签不同；进而将目标样本、正样本和负样本输入预设网络模型进行训练，以得到目标网络模型，目标网络模型用于对目标识别图像进行识别。从而实现了基于三元组的网络模型训练，由于三元组中包含了指示标签之间相似性的正样本，以及用于指示标签之间差异性的负样本，使得经过训练的网络模型可以更加全面的包含不同标签下的图像特征，且三元组样本的构建过程无需人工干预，大大节省了训练的时间，提高了网络模型训练的准确性及效率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

目标检测技术(Object Detection):将图片中的每个物体都使用一个矩形框将其标记出来，并给出这个物体的类别。

小样本目标检测技术(Few-shot Object Detection，FSOD):指只使用很少量的样本训练目标检测模型，并且在进行目标检测时可以根据给定的少量模板物体将图片中具有相同类别的物体检测出来。

孪生网络(Siamese Network):指使用权重共享的网络对两个不同的输入同时进行处理，这个权重共享的网络就是孪生网络。

特征图(Feature map):图像和滤波器进行卷积后得到的图像信息；Feature map可以和滤波器进行卷积生成新的Feature map。

注意力特征图(Attention feature map):是指通过注意力机制使得feature map关注包含目标物体的区域，这一区域将具有更强烈的响应。

目标识别图像(Query image):是指进行目标检测的图片，网络模型会将queryimage中的物体检测出来。

模板图片(Support image):是指在进行小样本目标检测时使用的模板图片，模型将根据这些模板图片将query image中具有与模板图片相同类别的所有物体检测出来。

深度互相关(Depth-wise Cross correlation):是指将support image的特征图作为滤波器在query image的特征图上逐通道进行一对一的卷积。Support image和queryimage的特征图具有相同的输入通道数，并且输出通道数与输入通道数相同。

特征池化(RoIPooling):是指根据输入矩形框的位置在特征图中将相应区域池化为固定尺寸的特征图。

对比训练(Contrastive training):是指通过(目标样本，正样本，负样本)三元组训练样本对多路孪生网络进行训练的方法。

应理解，本申请提供的模型训练方法可以应用于终端设备中包含模型训练功能的***或程序中，例如图像识别程序，具体的，模型训练***可以运行于如图1所示的网络架构中，如图1所示，是模型训练***运行的网络架构图，如图可知，模型训练***可以提供与多个信息源的模型训练，终端通过网络建立与服务器的连接，进而向服务器发送识别请求以及目标识别图像，服务器根据目标识别图像进行三元组训练样本的构建，进而对预设网络模型进行训练，并对目标识别图像进行识别，然后返回结果至终端；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到模型训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的模型训练方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行连接，进而进行终端之间的模型训练的过程。

可以理解的是，上述模型训练***可以运行于个人移动终端，例如：作为图像识别这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供模型训练，以得到信息源的模型训练处理结果；具体的模型训练***可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的***部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

为了解决上述问题，本申请提出了一种图像识别模型训练的方法，该方法应用于图2所示的模型训练的流程框架中，如图2所示，为本申请实施例提供的一种图像识别模型训练的流程架构图，首先根据目标识别图像确定目标样本，然后基于目标样本中的标签得到正样本和负样本，并组成三元组训练样本，进而对预设模型进行对比训练，以对目标识别图像进行识别，并返回结构至客户端。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件***中的一种处理逻辑，也可以作为一种图像识别模型训练装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该模型训练装置通过基于目标识别图像获取目标样本；然后根据目标样本确定对应的正样本和负样本，其中正样本与目标样本包含的标签相同，负样本与目标样本包含的标签不同；进而将目标样本、正样本和负样本输入预设网络模型进行训练，以得到目标网络模型，目标网络模型用于对目标识别图像进行识别。从而实现了基于三元组的网络模型训练，由于三元组中包含了指示标签之间相似性的正样本，以及用于指示标签之间差异性的负样本，使得经过训练的网络模型可以更加全面的包含不同标签下的图像特征，且三元组样本的构建过程无需人工干预，大大节省了训练的时间，提高了网络模型训练的准确性及效率。

结合上述流程架构，下面将对本申请中模型训练的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种图像识别模型训练的方法的流程图，本申请实施例至少包括以下步骤：

301、基于目标识别图像获取目标样本。

本实施例中，基于目标识别图像获取目标样本的过程可以是基于预设的模板图片进行的，即提取目标识别图像中的模板图片，进而基于模板图片获取包含模板图片的目标样本。例如：目标识别图像的模板图片为帽子，则根据帽子的图像特征获取对应的包含帽子图像特征的目标样本。

可选的，基于模板图片获取目标样本的过程也可以是基于目标识别图像中的图像标签进行的，即模板图片对应的标签。例如：目标识别图像的模板图片为自行车，则根据自行车这一标签获取对应的包含自行车标签或自行车图像特征的图片作为目标样本；通过标签获取目标样本可以实现快速的搜索过程，提高模型训练的效率。

可以理解的是，基于标签获取目标样本的过程中可能召回多个目标样本，此时可以根据图像标签与目标样本的匹配程度确定匹配度较高的图片作为目标样本，从而提高了目标样本与目标识别图像的关联性，提高了接下来训练过程的准确度。

本实施例中，目标样本的来源可以是预设的训练数据库，此时无需人工的设置训练样本，节约时间；目标样本的来源还可以是通过网络获取的。上述目标样本均指示的目标识别图像中代表性较高的小部分，为一种小样本检测的过程，相较于整张图像的特征识别过程，节省了***资源。

302、根据所述目标样本确定训练三元组。

本实施例中，训练三元组包括至少一个正样本对和至少一个负样本对，正样本对由目标样本和正样本组成，负样本对由目标样本和负样本组成，正样本基于目标样本对应的相似标签所得，负样本基于目标样本对应的差异标签所得。即正样本与目标样本所属的类别相同，负样本与目标样本所属的类别不同，如图4所示，是本申请实施例提供的一种图像识别模型训练的场景示意图，图中包括目标识别图像中的目标样本A1，则对应的正样本A2为具有相似图像特征或相似标签的自行车，而负样本A3则为标签不相同的汽车。

可以理解的是，对于正样本和负样本的标签可以是预先设定的，即存在包括海量小样本素材的数据库，且这些小样本均设置了对应的标签，而标签之间的相对性可以是不同的即为负样本，也可以是人为的设定预设对应关系作为正样本和负样本的选择依据。

具体的，对于正样本和负样本的确定过程可以是通过标签之间的关联性进行的过程，首先需要确定目标样本中的目标标签；然后基于目标标签获取标签相同的样本，以得到正样本；接下来基于目标标签获取标签不同的样本，以得到负样本，从而快速的得到了正样本和负样本，无需多余的人工标注训练样本的过程，大大节省了训练时间。

可选的，由于标签的多样性，可能存在目标样本的目标标签有多个的情况，此时，可以基于这些标签在标签数据库中的存在情况进行确定，即首先响应于至少一个标签选择指令确定对应的候选标签；然后基于候选标签在标签数据库中进行遍历，以得到目标标签。例如：标签选择指令指示的标签为自行车，则候选标签可以是脚踏车、自行车、单车，而此时数据库中仅遍历到单车这一标签，则确定单车为目标标签，从而保证了标签关联过程的稳定性。

在一种可能的场景中，在标签数据库中可能未检索到完全对应的标签，此时可以根据候选标签与检索标签的标签相似度确定目标标签，即选择相似度较高的标签作为目标标签。

可选的，对于目标标签的确定过程也可以是响应与用户框出的模板图片，然后根据模板图片对应的标签作为目标标签，例如：用户框出的模板图片中包括小狗，则目标标签则为小狗，从而丰富了用户的操作方式，提高了用户体验。

303、基于正样本对和负样本对对预设网络模型进行监督学习，以得到目标网络模型。

本实施例中，目标网络模型即用于对目标识别图像进行识别。

具体的，对于目标样本、正样本和负样本的对比训练过程可以是根据目标样本、正样本和负样本生成正样本对和负样本对，正样本对包括目标样本和正样本，负样本对包括目标样本和负样本；然后分别获取正样本对的特征相似度和负样本对的特征相似度；并根据正样本对的特征相似度和负样本对的特征相似度对预设网络模型进行监督学习，以得到目标网络模型。

可以理解的是，由于监督学习过程中涉及不同维度的参数训练，即目标样本和正样本真实标签是匹配，而目标样本和负样本的真实标签是不匹配的，此时，需要根据正样本对的特征相似度获取损失值，而由于基于匹配标签确定目标样本的前景区域和背景区域，例如：目标样本的前景区域为马、背景区域为树木；故正样本对的特征相似度获取损失值包括根据前景区域与正样本的特征相似度获取第一损失值，以及根据背景区域与正样本的特征相似度获取的第二损失值；然后根据负样本对的特征相似度获取第三损失值，第三损失值和第一损失值指示的标签类型相反；并基于第一损失值、第二损失值和第三损失值对预设网络模型进行反向传播计算，从而得到目标网络模型；由于上述训练过程兼顾了样本标签之间的相似性以及差异性，可以提高模型训练的精确度，且训练后的模型不仅适用于已标注的样本，也可以对新加入的样本进行识别。

在一种可能的场景中，模型训练的过程可以参照图5，图5为本申请实施例提供的一种模型训练方法的流程架构图；图中示出了如下步骤：

(1)构建训练三元组(目标样本，正样本，负样本)。

其中，(目标样本，正样本)组成正样本对，(目标样本，负样本)组成负样本对。然后设定样本对的真值，这是由于目标识别图像是场景物体，真值即为确定正样本和目标识别图像中的矩形框(anchor)的匹配标签。

可选的，目标样本的anchor可以是通过每隔16个像素选定的不同尺寸，不同长宽比选定；例如：根据图像大小自行选定4个尺寸，3个长宽比，具体参数因实际场景而定。

具体的，由于正样本对可能出现不匹配的情况，故需要对正样本对进行筛选。在正样本对(目标样本，正样本)中，基于目标样本中的anchor与识别目标的标注重合率进行筛选。例如：预设条件为交并比(Intersection-over-Union，IOU)大于0.5的正样本对为匹配成功，给定匹配标签A；对应的，不成功的为匹配标签B。则在正样本对中，有些预测候选框被给定标签A，如与目标重合的预测候选框；有些预测候选框被给定标签B，如区域图像是背景的预测候选框。

另外，在负样本对(目标样本，负样本)中，目标样本的预测框的标签均为B，即不匹配。

(2)基于孪生网络提取样本特征。

在构建样本对后，分别提取样本特征，即将三元组(目标样本，正样本，负样本)分别输入backbone网络(resnet50)提取特征。其中，正样本经过检测框(box)提取并全局池化后得到1*1*1024的特征f_p，负样本经过box提取并全局池化后得到1*1*1024的特征f_n，而目标样本通过全局池化后得到M*N*1024的特征f_q，M、N为目标样本的图像参数。

(3)基于注意力机制提取正样本对和负样本对的特征向量。即将正样本对和负样本输入区域候选网络(attentionRPN)提取注意力特征，并在正样本对的注意力特征上预测目标样本中候选框和正样本是否匹配的概率值，在负样本对的注意力特征上预测目标样本中候选框和负样本是否匹配的概率值。

具体的基于attentionRPN提取注意力特征是深度卷积(depthwise)的卷积过程，其损失函数为：

其中，f_p为正样本特征；f_qf,i为目标样本前景区域特征；f_qb,j为目标样本背景区域特征；f_n为负样本特征；f_k为目标样本特征；L_p-qf，L_p-qb，L_n-q均为区域候选网络的标准损失；N_pqf，N_pqb，N_nq为样本的数量，此处可以设定N_pqf：N_pqb：N_nq＝1:1:1，具体比例因实际场景而定。

可以理解的是，上述损失目标函数即包括目标样本前景区域和正样本的匹配损失函数，即第一损失值；目标样本背景区域和正样本的匹配损失函数，即第二损失值；目标样本和负样本的匹配损失函数，即第三损失值。

在经过attentionRPN过滤候选框后，剩下的候选框经过检测网络，得到最终的匹配预测值，即匹配结果。

可以理解的是，每个匹配损失函数是标准的检测任务的损失函数，即检测框回归损失函数(box regression loss)和类别损失函数(classification loss)，其中，类别损失函数为是否匹配的二值交叉熵损失函数，即上述匹配标签的取值过程，例如标签A取1，B取0。

在一种可能的场景中，可以基于本申请提供的模型训练的方法对FSOD模型的训练过程进行改进，即FSOD的样本输入采用本实施例提供的三元组样本构建方式；一方面可以继承FSOD的所有优点，并大大提升FSOD的性能。

应当注意的是，本实施例中采用FSOD作为预设网络模型仅为示例，实际场景中本实施例所述的模型训练的方法也可以使用与不同的基础网络结构。

结合上述实施例可知，通过基于目标识别图像获取目标样本；然后根据目标样本确定对应的正样本和负样本，其中正样本与目标样本包含的标签相同，负样本与目标样本包含的标签不同；进而将目标样本、正样本和负样本输入预设网络模型进行训练，以得到目标网络模型，目标网络模型用于对目标识别图像进行识别。从而实现了基于三元组的网络模型训练，由于三元组中包含了指示标签之间相似性的正样本，以及用于指示标签之间差异性的负样本，使得经过训练的网络模型可以更加全面的包含不同标签下的图像特征，且三元组样本的构建过程无需人工干预，可以应用于新样本的识别，大大节省了训练的时间，提高了网络模型训练的准确性及效率。

上述实施例介绍了模型训练的过程，下面，结合图像识别作为具体场景进行介绍，请参阅图6，图6为本申请实施例提供的一种图像识别的方法的流程图，本申请实施例至少包括以下步骤：

601、响应于识别指令获取至少一个模板图片。

本实施例中，模板图片用于指示目标识别图像中的识别目标，其中，模板图片可以是通过识别指令获取的图片，也可以是通过识别指令确定的标签进而获取的；另外，识别指令可以是由用户发起的，具体的，可以是点击识别按钮，也可以是框选图像中的某一部分，还可以是响应于用户输入的标签，具体形式因实际场景而定。

应当注意的是，响应于识别指令获取的模板图片可以是一个也可以是多个，具体的，当模板图片为多个时，则分别对其进行识别，并输出对应的识别结果。

可选的，若识别指令的作用对象为视频，则目标识别图像则为识别指令发出时刻对应对应的视频帧，并将该视频帧下的图像特征与后续视频帧中相似的图像进行关联，以实现对于视频的识别过程。

602、将模板图片和目标识别图像输入目标网络模型，以得到识别结果。

本实施例中，识别结果为识别目标的集合，如图7所述，为本申请实施例提供的一种图像识别方法的场景示意图，图中输入的模板图片有两个，分别为帽子和自行车，则将这些模板图片与目标识别图像输入目标网络模型进行识别，可以得到目标识别图像中与模板图像类似的元素，并进行框选，以突出显示。

可以理解的是，上述实施例中框选突出的形式仅为示例，具体的其他具有突出显示识别结果的方式也应作为本申请所提供的的方案，例如：突出显示、改变色调等。

本实施例中，目标网络模型的训练过程的相关特征与图3所述的实施例中步骤301-303相似，可以进行参考，此处不做赘述。

可以理解的是，图像识别的结果可以是框定的图像特征区域，也可以是输出的框定区域的标签信息，还可以是对框定的图像特征进行持续的追寻，即视频中的特征识别过程。

由于预设网络模型的训练过程是针对于目标识别图像进行的，且通过构建高效的(目标样本，正样本，负样本)训练三元组对小样本检测网络进行有效训练，极大地提升网络对小样本的检测性能并缩短训练时间。实现了方便高效快速的模型训练过程，扩展了图像识别的应用场景。

下面结合终端的硬件架构对本申请提供的图像识别方法进行说明，如图8所示，是本申请实施例提供的一种终端架构执行流程图，该方法包括：

801、前端A接收输入数据。

本实施例中，输入数据包括目标识别图片以及模板图片，其中，模板图片可以是用户框定的，也可以是基于标签生成的。

802、后端进行模型训练。

本实施例中，后端进行模型训练的过程参考图3所述实施例，此处不做赘述。

可以理解的是，后端可以是终端的处理***，也可以是服务器，还可以是云端的服务设备，例如通过腾讯云进行模型训练过程。

803、前端B显示识别结果。

本实施例中，前端B和前端A可以是同一终端的显示界面，也可以是不同终端的显示界面，具体形式因实际场景而定。

可选的，识别结果可以采用如图9所示的交互方式进行，如图9所示，是本申请实施例提供的另一种图像识别方法的场景示意图。图中首先用户点击识别按钮对目标识别图像进行识别，此时，模板图片可以是人物和自行车，则显示界面中将人物和自行车对应的图像部分框选出来。进一步的，用户可以点击详情按钮查询具体的识别过程，即本申请中模型训练过程中涉及的正样本和负样本，例如：正样本为不同形态的自行车，负样本为汽车、卡车；进一步的，用户可以通过点击更多按钮知晓正样本和负样本的匹配过程，此时，用户可以检查匹配的过程是否准确，若不准确，可以点击报错进行错误的记录，以便于后台进行模型训练参数的修订，从而保证了模型训练的准确性。

可选的，上述识别的过程可以采用如图10所示的交互方式进行，如图10所示，是本申请实施例提供的另一种图像识别方法的场景示意图。即采用在前端A进行标签输入的方式进行图像识别，图中用户可以在标签栏B1中输入自行车，则后台生成自行车的目标样本，并相应的生成正样本和负样本，然后进行上述模型训练的过程，从而通过点击识别按钮得到训练结果。

可选的，上述识别的过程还可以采用如图11所示的交互方式进行，如图11所示，是本申请实施例提供的另一种模型图像识别的场景示意图。即采用框选的方式确定模板图片，并确定目标样本。图中，用户需要标记出所有的自行车图像特征，则可以进行触屏滑动得到样本框C1，从而后台生成样本框C1中对应的自行车的目标样本，并相应的生成正样本和负样本，然后进行上述模型训练的过程，从而通过点击识别按钮得到训练结果。

通过上述交互方式可以进行快速的图像识别过程，且由于通过三元组的训练过程，极大地提升网络模型对小样本的检测性能并缩短训练时间，用户可以便捷的通过多种方式进行图像识别，提高了用户体验。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图12，图12为本申请实施例提供的一种图像识别模型训练装置的结构示意图，模型训练装置1200包括：

获取单元1201，用于基于目标识别图像获取目标样本；

确定单元1202，用于根据所述目标样本确定训练三元组，所述训练三元组包括至少一个正样本对和至少一个负样本对，所述正样本对由所述目标样本和正样本组成，所述负样本对由所述目标样本和负样本组成，所述正样本基于所述目标样本对应的相似标签所得，所述负样本基于所述目标样本对应的差异标签所得；

训练单元1203，用于基于所述正样本对和所述负样本对对预设网络模型进行监督学习，以得到目标网络模型，所述目标网络模型用于对所述目标识别图像进行识别。

可选的，在本申请一些可能的实现方式中，所述训练单元1203，具体用于确定所述正样本对的匹配标签，所述匹配标签基于所述正样本和所述目标样本的相似度确定；

所述训练单元1203，具体用于基于所述匹配标签确定所述目标样本的前景区域和背景区域，以得到分类后的正样本对；

所述训练单元1203，具体用于将所述分类后的正样本对和所述负样本对输入所述预设网络模型进行监督学习，以得到所述目标网络模型。

可选的，在本申请一些可能的实现方式中，所述训练单元1203，具体用于根据所述所述前景区域与所述正样本的特征相似度获取第一损失值；

所述训练单元1203，具体用于根据所述所述背景区域与所述正样本的特征相似度获取第二损失值，所述第二损失值和所述第一损失值指示的标签类型相反；

所述训练单元1203，具体用于根据所述负样本对的特征相似度获取第三损失值，所述第三损失值和所述第一损失值指示的标签类型相反；

所述训练单元1203，具体用于基于所述第一损失值、第二损失值和所述第三损失值对所述预设网络模型进行反向传播计算，以得到所述目标网络模型。

可选的，在本申请一些可能的实现方式中，所述确定单元1202，具体用于基于注意力机制提取所述目标样本的图像特征；

所述确定单元1202，具体用于根据所述目标样本确定对应的正样本和负样本；

所述确定单元1202，具体用于采用检测框提取所述正样本的图像特征，以和所述目标样本的图像特征生成正样本对；

所述确定单元1202，具体用于采用检测框提取所述负样本的图像特征，以和所述目标样本的图像特征生成负样本对；

所述确定单元1202，具体用于基于所述正样本对和所述负样本对确定训练三元组。

可选的，在本申请一些可能的实现方式中，所述确定单元1202，具体用于确定所述目标样本中的目标标签；

所述确定单元1202，具体用于基于所述目标标签获取标签相同的样本，以得到所述正样本；

所述确定单元1202，具体用于基于所述目标标签获取标签不同的样本，以得到所述负样本。

可选的，在本申请一些可能的实现方式中，所述确定单元1202，具体用于响应于至少一个标签选择指令确定对应的候选标签；

所述确定单元1202，具体用于基于所述候选标签在所述标签数据库中进行遍历，以得到所述目标标签。

可选的，在本申请一些可能的实现方式中，所述确定单元1202，具体用于基于所述候选标签在所述标签数据库中进行遍历，以得到至少一个检索标签；

所述确定单元1202，具体用于获取所述候选标签与所述检索标签的标签相似度；

所述确定单元1202，具体用于基于所述标签相似度确定所述目标标签。

可选的，在本申请一些可能的实现方式中，所述确定单元1202，具体用于响应于至少一个目标检测框中的图像确定模板图片；

所述确定单元1202，具体用于根据所述模板图片确定所述目标样本中的目标标签。

可选的，在本申请一些可能的实现方式中，所述获取单元1201，具体用于获取所述目标识别图像中的图像标签；

所述获取单元1201，具体用于根据所述图像标签确定满足预设条件的所述目标样本，所述预设条件基于所述图像标签与所述目标样本的匹配程度确定。

本申请实施例还提供一种图像识别装置1300，如图13所示，是本申请实施例提供的一种图像识别的装置，具体包括：获取单元1301，用于响应于识别指令获取至少一个模板图片，所述模板图片用于指示目标识别图像中的识别目标；

识别单元1302，用于将所述模板图片和所述目标识别图像输入目标网络模型，以得到所述识别结果，所述识别结果为所述识别目标的集合，所述目标网络模型基于第一方面任一项所述的模型训练的方法训练所得。

本申请实施例还提供了一种终端设备，如图14所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图14示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图14，手机包括：射频(radio frequency，RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity，WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作，以及在触控面板1431上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据。可选的，处理器1480可包括一个或多个处理单元；可选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490(比如电池)，可选的，电源可以通过电源管理***与处理器1480逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1480还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有模型训练指令，当其在计算机上运行时，使得计算机执行如前述图3至图11所示实施例描述的方法中模型训练装置所执行的步骤。

本申请实施例中还提供一种包括模型训练指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图11所示实施例描述的方法中模型训练装置所执行的步骤。

本申请实施例还提供了一种模型训练***，所述模型训练***可以包含图12所描述实施例中的模型训练装置，或者图14所描述的终端设备。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，模型训练装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别模型训练的方法，其特征在于，包括：

基于目标识别图像获取目标样本；

根据所述前景区域与所述正样本的特征相似度获取第一损失值；

根据所述背景区域与所述正样本的特征相似度获取第二损失值，所述第二损失值和所述第一损失值指示的标签类型相反；

基于所述第一损失值、所述第二损失值和所述第三损失值对预设网络模型进行反向传播计算，以得到目标网络模型，所述目标网络模型用于对所述目标识别图像进行识别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标样本确定训练三元组，包括：

基于注意力机制提取所述目标样本的图像特征；

根据所述目标样本确定对应的正样本和负样本；

基于所述正样本对和所述负样本对确定训练三元组。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标样本确定对应的正样本和负样本，包括：

确定所述目标样本中的目标标签；

4.根据权利要求3所述的方法，其特征在于，所述目标标签包含于标签数据库中，所述确定所述目标样本中的目标标签，包括：

响应于至少一个标签选择指令确定对应的候选标签；

5.根据权利要求4所述的方法，其特征在于，所述基于所述候选标签在所述标签数据库中进行遍历，以得到所述目标标签，包括：

获取所述候选标签与所述检索标签的标签相似度；

基于所述标签相似度确定所述目标标签。

6.根据权利要求3所述的方法，其特征在于，所述确定所述目标样本中的目标标签，包括：

响应于至少一个目标检测框中的图像确定模板图片；

根据所述模板图片确定所述目标样本中的目标标签。

7.根据权利要求1所述的方法，其特征在于，所述基于目标识别图像获取目标样本，包括：

获取所述目标识别图像中的图像标签；

8.根据权利要求1所述的方法，其特征在于，所述预设网络模型为小样本目标检测模型，所述目标网络模型为训练后的小样本目标检测模型。

9.一种图像识别的方法，其特征在于，包括：

响应于识别指令获取至少一个模板图片，所述模板图片用于指示目标识别图像中的识别目标；

将所述模板图片和所述目标识别图像输入目标网络模型，以得到识别结果，所述识别结果为所述识别目标的集合，所述目标网络模型基于权利要求1-8任一项所述的模型训练的方法训练所得。

10.一种图像识别模型训练的装置，其特征在于，包括：

获取单元，用于基于目标识别图像获取目标样本；

训练单元，用于确定所述正样本对的匹配标签，所述匹配标签基于所述正样本和所述目标样本的相似度确定；基于所述匹配标签确定所述目标样本的前景区域和背景区域，以得到分类后的正样本对；根据所述前景区域与所述正样本的特征相似度获取第一损失值；根据所述背景区域与所述正样本的特征相似度获取第二损失值，所述第二损失值和所述第一损失值指示的标签类型相反；根据所述负样本对的特征相似度获取第三损失值，所述第三损失值和所述第一损失值指示的标签类型相反；基于所述第一损失值、所述第二损失值和所述第三损失值对预设网络模型进行反向传播计算，以得到目标网络模型，所述目标网络模型用于对所述目标识别图像进行识别。

11.一种图像识别的装置，其特征在于，包括：

获取单元，用于响应于识别指令获取至少一个模板图片，所述模板图片用于指示目标识别图像中的识别目标；

识别单元，用于将所述模板图片和所述目标识别图像输入目标网络模型，以得到识别结果，所述识别结果为所述识别目标的集合，所述目标网络模型基于权利要求1-8任一项所述的模型训练的方法训练所得。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至8任一项所述的模型训练的方法，或权利要求9所述的图像识别的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至8任一项所述的模型训练的方法，或权利要求9所述的图像识别的方法。