CN112132231A

CN112132231A - 对象的识别方法和装置、存储介质及电子设备

Info

Publication number: CN112132231A
Application number: CN202011074278.5A
Authority: CN
Inventors: 沈伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2020-12-25

Abstract

本发明公开了一种对象的识别方法和装置、存储介质及电子设备。其中，该方法包括：获取目标图像；在目标识别神经网络中提取目标图像中每个目标对象各自对应的注意力图，目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内；在目标识别神经网络中，基于注意力图识别出各个目标对象对应的分类标签及各个目标对象在目标图像中的位置。

Description

对象的识别方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种对象的识别方法和装置、存储介质及电子设备。

背景技术

随着人工智能的发展，使用神经网络模型进行模式识别是目前的发展趋势。使用卷积神经网络模型进行图像识别已取得一些成就，例如，通过卷积神经网络模型进行多标签分类。即将包含有多个待识别对象的一张图像输入到卷积神经网络中，然后卷积神经网络输出识别结果。

目前通过神经网络模型进行多标签分类时，模型的训练过程将每一个标签当作是一个二分类任务来进行。在使用卷积神经网络进行特征提取时，对于给定图片，可以通过注意力机制，提取多个特征，然后使用这些特征进行多标签分类。然而由于训练数据集中多标签是关联在一起的。神经网络模型的训练过程中没有重视分类器在特征层的注意力分布。可能会出现其对应到图像上的注意力区域不具有可解释性。由此导致多标签分类结果准确率较低。

针对相关技术中，由于现有技术中神经网络模型的训练过程中没有重视分类器在特征层的注意力分布，导致神经网络模型对多标签分类的结果准确率较低的问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种对象的识别方法和装置、存储介质及电子设备，以至少解决由于现有技术中神经网络模型的训练过程中没有重视分类器在特征层的注意力分布，导致神经网络模型对多标签分类的结果准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种对象的识别方法，包括：获取目标图像，其中，上述目标图像中包括待识别的至少一个目标对象；在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，上述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；在目标识别神经网络中，基于上述注意力图识别出各个上述目标对象对应的分类标签及各个上述目标对象在上述目标图像中的位置。

根据本发明实施例的另一方面，还提供了一种对象的识别装置，包括：获取模块，用于获取目标图像，其中，上述目标图像中包括待识别的至少一个目标对象；提取模块，用于在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，上述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；识别模块，用于在目标识别神经网络中，基于上述注意力图识别出各个上述目标对象对应的分类标签及各个上述目标对象在上述目标图像中的位置。

可选地，上述装置还用于在上述获取目标图像之前，获取多个样本图像，其中，上述多个样本图像包括：第一样本图像集和第二样本图像集，上述第一样本图像集包括：包含单标签对象的样本图像和无标签对象的样本图像，上述第二样本图像集包括：包含单标签对象的样本图像、包含多标签对象的样本图像及无标签对象的样本图像；利用上述第一样本图像集训练上述初始分类神经网络，得到上述第一样本图像集对应的第一注意力图，上述第一输出结果包括上述第一注意力图；利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图，上述第二输出结果包括上述第二注意力图；在确定上述第一注意力图中单标签对象对应的注意力图与上述第二注意力图中上述单标签对象对应的注意力图之间的损失函数的输出值在上述第一预设范围内的情况下，确定达到上述第一收敛条件。

可选地，上述装置还用于通过如下方式实现上述利用上述第一样本图像集训练上述初始分类神经网络，得到上述第一样本图像集对应的第一注意力图：获取上述第一样本图像集中的N组第一样本图像子集，其中，每组上述第一样本图像子集中的每张图像中包括一个单标签对象和多个上述无标签对象，N为大于或等于1的整数；使用上述N组第一样本图像子集对上述初始分类神经网络中的N个分类子网络分别进行训练，得到N组对象注意力图，其中，上述第一注意力图中包括上述N组对象注意力图，每组上述对象注意力图中包括上述一个单标签对象对应的对象注意力图。

可选地，上述装置还用于通过如下方式实现使用上述N组第一样本图像子集对上述初始分类神经网络中的N个分类子网络分别进行训练，得到N组对象注意力图：获取第i组上述第一样本图像子集，其中，i为大于等于1，且小于等于N的整数；将第i组上述第一样本图像子集输入第i个上述分类子网络，得到第i组上述对象注意力图；保存上述第i组上述对象注意力图。

可选地，上述装置还用于通过如下方式实现上述利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图：使用上述第二样本图像集对上述初始识别神经网络进行j轮训练，得到第j轮注意力图，其中，j大于或等于1；在确定上述第j轮注意力图中的M个单标签对象对应的注意力图与上述N组对象注意力图中包含的M个单标签对象对应的注意力图之间的损失函数的输出值在上述第一预设范围内情况下，确定达到上述第一收敛条件，其中，M大于或等于1且小于N，上述M个单标签对象中包括上述目标对象。

可选地，上述装置还用于通过如下方式实现上述利用上述第一样本图像集训练上述初始分类神经网络，得到上述第一样本图像集对应的第一注意力图：使用上述N组第一样本图像子集对上述初始识别神经网络进行训练，得到N组初始对象注意力图；对上述N组初始对象注意力图进行第一处理，得到第一处理结果；对上述第一处理结果进行二值化处理和高斯滤波处理，以得到上述第一注意力图。

可选地，上述装置还用于通过如下方式实现上述对上述N组初始对象注意力图进行第一处理，得到第一处理结果：计算上述N组初始对象注意力图的均值与预设值的乘积，得到第一调整值；确定上述N组初始对象注意力图与上述第一调整值的差值，得到上述第一处理结果。

可选地，上述装置还用于通过如下方式实现上述利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图：使用上述第二样本图像集对上述初始识别神经网络进行训练，得到上述第二样本图像集对应的初始注意力图；计算上述第二样本图像集对应的初始注意力图与上述第二样本图像集对应的初始注意力图的均值的差值，得到第二处理结果；对上述第二处理结果进行归一化处理，得到上述第二注意力图。

可选地，上述装置还用于上述目标识别神经网络输出的标签对象的预估分类标签与上述标签对象的已知分类标签之间满足第二收敛条件，其中，上述第二收敛条件用于表示上述预估分类标签与上述已知分类标签之间的损失函数的输出值在第二预设范围内；上述目标识别神经网络输出的标签对象在样本图像中的预估位置与上述标签对象在样本图像中的已知位置之间满足第三收敛条件，其中，上述第三收敛条件用于表示上述预估位置与上述已知位置之间的损失函数的输出值在第三预设范围内；其中，上述标签对象包括上述单标签对象和上述多标签对象，上述样本图像包括上述单标签对象的样本图像和上述多标签对象的样本图像。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述对象的识别方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的对象的识别方法。

在本发明实施例中，使用分类神经网络的第一输出结果对识别神经网络的第二输出结果进行修正，通过基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的目标识别神经网络，使用目标神经网络对目标图像中的至少一个目标对象进行分类识别，第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，达到了神经网络模型的训练过程中注重分类器在特征层的注意力分布的目的，从而实现了提高神经网络模型对多标签分类的结果准确率的技术效果，进而解决了由于现有技术中神经网络模型的训练过程中没有重视分类器在特征层的注意力分布，导致神经网络模型对多标签分类的结果准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的对象的识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的对象的识别方法流程示意图；

图3是根据本发明实施例的一种可选的分类子网络模型训练示意图一；

图4是根据本发明实施例的一种可选的分类子网络模型训练示意图二；

图5是根据本发明实施例的一种可选的目标识别神经网络模型示意图；

图6是根据本发明实施例的一种可选的图像采集示意图；

图7是根据本发明实施例的一种可选的对初始分类神经网络CNN0进行训练的示意图；

图8是根据本发明实施例的一种可选的对初始分类神经网络CNN1进行训练的示意图；

图9是根据本发明实施例的一种可选的对初始识别神经网络CNN2进行训练的示意图；

图10是根据本发明实施例的一种可选的对象的识别装置的结构示意图；

图11是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种对象的识别方法，可选地，作为一种可选的实施方式，上述对象的识别方法可以但不限于应用于如图1所示的环境中。

可选地，在本实施例中，上述用户设备102可以是配置有客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。可以通过用户设备中安装的客户端获取目标图像。用户设备102可以是配置有显示器108，可以用于显示目标图像，以及对目标图像的识别结果。用户设备上还可以配置有处理器106和存储器104，其中，处理器106用于对获取到的目标图像进行处理，存储器104用于存储目标图像。上述网络110可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述服务器112设置有数据库114和处理引擎116，其中，数据库114用于存储数据，例如，获取到的目标图像的数据，以及对初始分类神经网络和初始识别神经网络进行训练的过程中得到的模型参数等。处理引擎116可以用于对初始分类神经网络和初始识别神经网络进行训练，得到目标识别神经网络。也可以使用目标神经网络模型对目标图像中包括的待识别的至少一个目标对象进行识别。

上述仅是一种示例，本实施例中对此不作任何限定。

具体的，通过上述虚拟按键的设置将实现以下步骤：

如步骤S102，获取目标图像，其中，上述目标图像中包括待识别的至少一个目标对象；如步骤S104，在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，上述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；如步骤S106，在目标识别神经网络中，基于上述注意力图识别出各个上述目标对象对应的分类标签及各个上述目标对象在上述目标图像中的位置。

可选地，作为一种可选的实施方式，如图2所示，上述对象的识别方法包括：

步骤S202，获取目标图像，其中，上述目标图像中包括待识别的至少一个目标对象；

步骤S204，在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，上述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；

步骤S206，在目标识别神经网络中，基于上述注意力图识别出各个上述目标对象对应的分类标签及各个上述目标对象在上述目标图像中的位置。

通过上述步骤，使用分类神经网络的第一输出结果对识别神经网络的第二输出结果进行修正，通过基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的目标识别神经网络，使用目标神经网络对目标图像中的至少一个目标对象进行分类识别，第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，达到了神经网络模型的训练过程中注重分类器在特征层的注意力分布的目的，从而实现了提高神经网络模型对多标签分类的结果准确率的技术效果，进而解决了由于现有技术中神经网络模型的训练过程中没有重视分类器在特征层的注意力分布，导致神经网络模型对多标签分类的结果准确率较低的技术问题。

作为一个可选的实施方式，上述目标图像中可以包括多个待识别的目标对象，例如，同时包括鼠标和键盘的一张图像，或者，同时包括鼠标、键盘、显示器、主机、音响、耳机等目标对象的一张图像。图像中包括的对象种类和对象数量不受限制，可以根据实际情况而定。

作为一个可选的实施方式，上述初始分类神经网络可以是卷积神经网络，初始分类神经网络的数量可以根据待识别的对象的数量而定。例如，若待识别的对象包括鼠标和键盘，则初始分类神经网络的可以是CNN0和CNN1两个初始卷积神经网络，使用仅包含鼠标的训练图像集对初始分类神经网络CNN0进行训练，在使用仅包含鼠标的训练图像集对CNN0进行训练的过程中，可以得到CNN0输出的第一输出结果，第一输出结果包括鼠标的注意力图。同理，使用仅包含键盘的训练图像集对初始神经网络CNN1进行训练，在对CNN1训练的过程中，可以得到CNN1输出的第一输出结果，第一输出结果中包括键盘的注意力图。上述包含单标签对象的图像为仅包含一个待识别对象的图像，如仅包含键盘的图像，或仅包含鼠标的图像。

作为一个可选的实施方式，上述初始识别神经网络也可以是卷积神经网络，如CNN2。上述多待识别对象的图像，如同时包含鼠标和键盘的图像。初始神经网络的训练集包括仅包含单标签对象的图像，也包括包含多标签对象的图像，如仅包含鼠标的图像和仅包含键盘的图像，以及同时包含鼠标和键盘的图像。在对初始识别神经网络CNN2进行训练的过程中，可以得到CNN2输出的第二输出结果，第二输出结果中包括键盘的注意力图和鼠标的注意力图。

作为一个可选的实施方式，由于上述初始分类神经网络CNN0是使用仅包含鼠标的训练图像集进行训练得到的，可以学习到鼠标特征的注意力分布。初始分类神经网络CNN1是使用仅包含键盘的训练图像集进行训练得到的，可以学习到键盘特征的注意力分布。通过初始分类神经网络CNN0和CNN1分别学习到的鼠标的注意力分布和键盘学习到的鼠标的注意力分布对初始识别神经网络CNN2中学习的鼠标和键盘的特征图进行修正，具体地，可以通过使得CNN0输出的鼠标的特征图与CNN2输出的鼠标的特征图之间满足第一收敛条件，CNN1输出的键盘的特征图和CNN1输出的键盘的特征图之间满足第一收敛条件。第一收敛条件可以根据实际情况而定。上述目标神经网络模型可以是满足第一收敛条件的CNN2网络模型，在本实施例中，可以仅通过目标神经网络模型对仅包含鼠标的图像进行鼠标识别，也可以仅通过目标神经网络模型对仅包含键盘的图像进行键盘识别，也可以仅通过目标神经网络模型对同时包含鼠标和键盘的图像进行鼠标和键盘的识别。具体的识别结果可以包括鼠标的标签，键盘的标签，以及鼠标和键盘分别在目标图像中的位置。在本实施例中，鼠标和键盘仅为了对本实施例进行解释说明，具体图像中所包含的待识别的对象可以根据实际情况而定。

现有技术中，训练完成的神经网络模型仅用于对于训练样本相同的待识别样本进行识别，例如，使用鼠标训练样本得到的CNN0仅用于识别鼠标，而无法对键盘进行识别，而使用键盘训练样本得到的CNN1仅用于识别键盘，而无法对鼠标进行识别。若想同时识别鼠标和键盘，则需要使用同时包含鼠标和键盘的训练样本对神经网络模型进行训练，而此时鼠标和键盘的训练样本是关联在一起的，神经网络模型的训练过程中并不会关注不同训练样本之间的注意力分布。而本申请通过分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，使得使用分类神经网络的第一输出结果对识别神经网络的第二输出结果进行修正，由此得到的目标神经网络模型既可以准确的识别出鼠标，也可以准确的识别出键盘，对于同时包含鼠标和键盘的图像，也可以准确的识别出鼠标和键盘分为在图像中的位置。可以达到提高多标签对象识别的准确率。

可选地，在上述获取目标图像之前，上述方法还包括：获取多个样本图像，其中，上述多个样本图像包括：第一样本图像集和第二样本图像集，上述第一样本图像集包括：包含单标签对象的样本图像和无标签对象的样本图像，上述第二样本图像集包括：包含单标签对象的样本图像、包含多标签对象的样本图像及无标签对象的样本图像；利用上述第一样本图像集训练上述初始分类神经网络，得到上述第一样本图像集对应的第一注意力图，上述第一输出结果包括上述第一注意力图；利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图，上述第二输出结果包括上述第二注意力图；在确定上述第一注意力图中单标签对象对应的注意力图与上述第二注意力图中上述单标签对象对应的注意力图之间的损失函数的输出值在上述第一预设范围内的情况下，确定达到上述第一收敛条件。

作为一个可选的实施方式，上述第一样本图像集是包含单标签对象的图像，例如，上述仅包含鼠标的图像，或仅包含键盘的图像。上述无标签对象可以是其他对象，如图像的背景或不需要关注的对象。上述第二样本图像集中包括：包含单标签对象的图像，如上述仅包含鼠标的图像和仅包含键盘的图像，以及包含多标签对象的图像，如上述同时包含鼠标和键盘的图像。

作为一个可选的实施方式，使用仅包含鼠标的图像集对初始分类神经网络CNN0进行训练，以及使用仅包含键盘的图像集对初始分类神经网络CNN1进行训练。在对CNN0训练的过程中，可以得到鼠标的注意力图。在对CNN1训练的过程中，可以得到键盘的注意力图。第一注意力图包括上述CNN0输出的鼠标的注意力图和CNN1输出的键盘的注意力图。

作为一个可选的实施方式，使用第二样本图像集对初始识别神经网络CNN2进行训练，在对CNN2进行训练的过程中，得到CNN2输出的鼠标的注意力图和键盘的注意力图，对应于第二注意力图。在本实施例中，CNN0输出的鼠标的注意力图与CNN2输出的鼠标的注意力图之间的满足第一收敛条件，CNN1输出的键盘的注意力图与CNN2输出的键盘的注意力图之间的满足第一收敛条件。上述第一收敛条件可以是损失函数的输出值在预定的范围内，损失函数可以根据实际情况选取，例如可以是交叉熵函数，第一预设范围可以根据实际情况而定，例如可以是0.5、0.3、0.1等。

可选地，上述利用上述第一样本图像集训练上述初始分类神经网络，得到上述第一样本图像集对应的第一注意力图，包括：获取上述第一样本图像集中的N组第一样本图像子集，其中，每组上述第一样本图像子集中的每张图像中包括一个单标签对象和多个上述无标签对象，N为大于或等于1的整数；使用上述N组第一样本图像子集对上述初始分类神经网络中的N个分类子网络分别进行训练，得到N组对象注意力图，其中，上述第一注意力图中包括上述N组对象注意力图，每组上述对象注意力图中包括上述一个单标签对象对应的对象注意力图。

作为一个可选的实施方式，上述N组第一样本图子集中的每组第一样本图子集中所包括的图像中包含一个单标签对象和多个无标签对象，例如可以是上述仅包含鼠标的图像，以及仅包含键盘的图像。每组第一样本图子集对应于一个初始分类神经网络，分别使用每组第一样本图子集对对应的初始分类神经网络进行训练。例如，使用仅包含鼠标的第一样本图像子集对CNN0进行训练，可以得到鼠标的注意力图，使用仅包含键盘的第一样本图像子集对CNN1进行训练，可以得到键盘的注意力图。

可选地，使用上述N组第一样本图像子集对上述初始分类神经网络中的N个分类子网络分别进行训练，得到N组对象注意力图，包括：获取第i组上述第一样本图像子集，其中，i为大于等于1，且小于等于N的整数；将第i组上述第一样本图像子集输入第i个上述分类子网络，得到第i组上述对象注意力图；保存上述第i组上述对象注意力图。

作为一个可选的实施方式，上述第i组第一样本图像子集可以是包括单标签对象的图像集合，例如可以是包含鼠标的图像集合，可以使用第i组第一样本图像子集对对应的分类子网络进行训练，得到该图像子集中包括的单标签对象的注意力图。

作为一个优选的实施方式，以第i组第一样本图像子集是包含鼠标的图像集合，分类子网络为CNN0为例进行说明，如图3是根据本发明实施例的一种可选的分类子网络模型训练示意图一，具体可以包括如下步骤：

步骤S1，将包含鼠标的图像集合A输入分类子网络CNN0；

步骤S2，在对CNN0进行训练的过程中，最后一层卷积层F为一个CxHxW大小的特征图，用于识别鼠标的特征向量为w0，将特征向量w0，与F卷积得到注意力图M0；

步骤S3，使用注意力图M0作为权重F进行空间域加权求和，得到对应的特征w1，然后与w0和w1计算相似度。在w0和w1的相似度满足预设条件的情况下，停止对CNN0的训练。训练完成后，对于训练集A里面的所有图像，提取其注意力图并保存。

作为一个优选的实施方式，以第i组第一样本图像子集是包含键盘的图像集合，分类子网络为CNN1为例进行说明，如图4是根据本发明实施例的一种可选的分类子网络模型训练示意图二，具体可以包括如下步骤：

步骤S1，将包含键盘的图像集合B输入分类子网络CNN1；

步骤S2，在对CNN1进行训练的过程中，最后一层卷积层F为一个CxHxW大小的特征图，用于识别鼠标的特征向量为w3，将特征向量w3，与F卷积得到注意力图M1；

步骤S3，使用注意力图M1作为权重F进行空间域加权求和，得到对应的特征w4，然后与w3和w4计算相似度。在w3和w4的相似度满足预设条件的情况下，停止对CNN1的训练。训练完成后，对于训练集B里面的所有图像，提取其注意力图并保存。

可选地，利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图，包括：使用上述第二样本图像集对上述初始识别神经网络进行j轮训练，得到第j轮注意力图，其中，j大于或等于1；在确定上述第j轮注意力图中的M个单标签对象对应的注意力图与上述N组对象注意力图中包含的M个单标签对象对应的注意力图之间的损失函数的输出值在上述第一预设范围内情况下，确定达到上述第一收敛条件，其中，M大于或等于1且小于N，上述M个单标签对象中包括上述目标对象。

作为一个可选的实施方式，神经网络模型的训练过程是反复的调节神经网络模型的参数，直到达到预设的收敛条件时停止训练，得到训练完成的神经网络模型。在本实施例中，假设对初始识别神经网络进行j轮训练得到的模型是第j轮识别神经网络，j的取值可以是大于或等于1的整数，如第1轮训练是将训练数据集输入初始识别神经网络进行第一次的训练，第2轮训练是基于第一轮训练得到的模型参数，对模型参数进行调整，以此得到第轮识别神经网络。通过不断的迭代直到输出结果满足收敛条件，得到目标神经网络模型。

作为一个可选的实施方式，对初始识别神经网络进行j轮训练，若得到的第j轮识别神经网络输出的单标签对象与初始分类神经网络进行训练时得到的N组对象注意力图中的部分或全部对象注意力图满足第一收敛条件，停止对第j轮识别神经网络，将得到的第j轮识别神经网络作为目标神经网络模型。

作为一个优选的实施方式，假设分别使用仅包含鼠标的图像对CNN0进行训练，得到鼠标的注意力图，使用仅包含键盘的图像对CNN1进行训练，得到键盘的注意力图。使用仅包含鼠标的图像和仅包含键盘的图像对CNN2进行训练，若在对CNN2进行第j轮训练，得到第j轮CNN2网络模型，若第j轮CNN2网络模型输出的鼠标的注意力图与CNN0输出的鼠标的注意力图满足第一收敛条件，可以停止对第j轮CNN2网络模型的训练，将第j轮CNN2网络模型作为目标神经网络模型。该目标神经网络模型可以对包含鼠标的图像进行识别。

或者，若在对CNN2进行第j轮训练，得到第j轮CNN2网络模型，若第j轮CNN2网络模型输出的键盘的注意力图与CNN0输出的键盘的注意力图满足第一收敛条件，可以停止对第j轮CNN2网络模型的训练，将第j轮CNN2网络模型作为目标神经网络模型。该目标神经网络模型可以对包含键盘的图像进行识别。

或者，若在对CNN2进行第j轮训练，得到第j轮CNN2网络模型，若第j轮CNN2网络模型输出的键盘的注意力图与CNN0输出的键盘的注意力图满足第一收敛条件，且第j轮CNN2网络模型输出的鼠标的注意力图与CNN0输出的鼠标的注意力图满足第一收敛条件。停止对第j轮CNN2网络模型的训练，将第j轮CNN2网络模型作为目标神经网络模型。该目标神经网络模型既可以对包含键盘的图像进行识别，也可以对包含鼠标的图像进行识别，还可以对同时包含鼠标和键盘的图像进行识别。

在本实施例中，上述仅包含鼠标的图像，仅用于说明该图像中不包括键盘，但可以包含其他的无标签对象，如图像背景，或者其他图像元素。同理，仅包含键盘的图像，仅用于说明该图像中不包含鼠标，还可以包含其他图像元素。

可选地，上述利用上述第一样本图像集训练上述初始分类神经网络，得到上述第一样本图像集对应的第一注意力图，包括：使用上述N组第一样本图像子集对上述初始识别神经网络进行训练，得到N组初始对象注意力图；对上述N组初始对象注意力图进行第一处理，得到第一处理结果；对上述第一处理结果进行二值化处理和高斯滤波处理，以得到上述第一注意力图。

作为一个可选的实施方式，为了避免对初始分类神经网络进行训练得到的初始注意力图，与对初始识别神经网络进行训练得到的初始注意力图的大小形状不同，需要对上述模型输出的初始注意力图进行调整。例如，在对CNN0进行训练时得到的鼠标的大小与在对CNN2进行训练时得到的鼠标的大小可能不一致，因此需要对CNN0和CNN2输出的鼠标的大小进行调整，以使两个模型输出的鼠标大小一致。

作为一个优选的实施方式，使用N组第一样本图像子集对初始识别神经网络进行训练得到的是N组初始对象注意力图，通过对N组初始对象注意力图进行第一处理、二值处理和高斯处理后得到第一注意力图。在本实施例中，通过对初始分类神经网络进行训练得到的初始注意力图进行上述处理，以使得到的第一注意力图与对初始识别神经网络进行训练时得到的第二注意力图的大小保持一致。

可选地，上述对上述N组初始对象注意力图进行第一处理，得到第一处理结果，包括：计算上述N组初始对象注意力图的均值与预设值的乘积，得到第一调整值；确定上述N组初始对象注意力图与上述第一调整值的差值，得到上述第一处理结果。

作为一个可选的实施方式，以初始对象注意力图为鼠标注意力图M0为例进行说明，对M0进行处理可以包括如下步骤：

步骤S1，计算鼠标注意力图M0的均值，得到M0m；

步骤S2，计算M0m与预设值α的乘积，得到第一调整值αM0m；

步骤S3，计算鼠标注意力图M0与第一调整值αM0m的差值M0-M0m*α；

步骤S4，根据M0-M0m*α是否大于0进行二值化得到M0b；

M0b＝Bin(M0-M0m*α)

其中，Bin代表二值化操作；

步骤S5，对二值化处理得打的M0b进行高斯滤波，并取其值大于β的部分作为注意力标准，以此得到鼠标的第一注意力图。

具体的高斯滤波公式可以为：

M0s＝Gaussian(M0b)x(Gaussian(M0b)>β)，

其中，Gaussian代表高斯滤波。上述论述中α和β均为可调节系数，α的取值可以在1附近，β的取值为0-1之间。

可选地，上述利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图，包括：使用上述第二样本图像集对上述初始识别神经网络进行训练，得到上述第二样本图像集对应的初始注意力图；计算上述第二样本图像集对应的初始注意力图与上述第二样本图像集对应的初始注意力图的均值的差值，得到第二处理结果；对上述第二处理结果进行归一化处理，得到上述第二注意力图。

作为一个可选的实施方式，为了第一注意力与第二注意力图保持一致，需要对初始识别神经网络进行训练时得到的初始注意力图进行调整，在本实施例中可以对初始识别神经网络进行训练时得到的初始注意力图进行归一化处理。

具体地，以初始对象注意力图为鼠标注意力图M0’为例进行说明，对M0’进行处理可以包括如下步骤：

步骤S1，计算鼠标注意力图M0’的均值，得到M0’m；

步骤S2，计算注意力图M0’与均值M0’m的差值，得到第二处理结果M0’-M0’m；

步骤S3，对上述第二处理结果M0’-M0’m进行归一化处理，具体地，可以通过以下公式进行归一化处理，得到第二注意力图M0c’：

M0c’＝sigmoid(M0’-M0m’)

在本实施例中，可以采用交叉熵损失函数建立M0c’和M0s之间的误差Lattn，在误差Lattn值，误差Lattn可以用于表示交叉熵损失函数的输出值，误差Lattn值在第一预设范围内的情况下，确定对初始识别神经网络的训练完成，得到目标神经网络模型。

作为一个可选的实施方式，如图5是根据本发明实施例的一种可选的目标识别神经网络模型示意图。以输入的目标图像中同时包括鼠标和键盘为例，由于训练好的目标神经网络模型可以分别学习到鼠标和键盘的注意力分布，可以得到鼠标的注意力图M0’，以及键盘的注意力图M1’。因此通过目标神经网络模型可以准确的识别出鼠标，也可以识别出键盘，还可以同时识别出鼠标和键盘，并且识别结果中还包括鼠标和键盘分别在目标图像中的位置。

可选地，上述方法还包括以下至少之一：上述目标识别神经网络输出的标签对象的预估分类标签与上述标签对象的已知分类标签之间满足第二收敛条件，其中，上述第二收敛条件用于表示上述预估分类标签与上述已知分类标签之间的损失函数的输出值在第二预设范围内；上述目标识别神经网络输出的标签对象在样本图像中的预估位置与上述标签对象在样本图像中的已知位置之间满足第三收敛条件，其中，上述第三收敛条件用于表示上述预估位置与上述已知位置之间的损失函数的输出值在第三预设范围内；其中，上述标签对象包括上述单标签对象和上述多标签对象，上述样本图像包括上述单标签对象的样本图像和上述多标签对象的样本图像。

作为一个可选的实施方式，在对初始识别神经网络进行训练时，还可以最小化分类损失函数Lclf1。训练图像集中包含的标签对象的标签是已知的，也就是分类结果是已知的，在对初始识别神经网络进行训练时，得到标签对象的预估分类结果，可以通过预估分类结果与已知分类结果之间的损失函数Lclf1输出的误差值在第二预设范围内的情况下，确定满足第二收敛条件。

作为一个可选的实施方式，在对初始识别神经网络进行训练时，还可以最小化分类损失函数Lclf2。训练图像集中包含的标签对象的在图像中的位置是已知的。在对初始识别神经网络进行训练时，得到对标签对象的在目标图像中的位置的预估结果，得到预估位置，可以通过标签对象在目标图像中的预估位置与已知位置之间的损失函数Lclf2输出的误差值在第三预设范围内的情况下，确定满足第三收敛条件。

作为一个可选的实施方式，训练完成得到的目标神经网络模型可以仅满足第一收敛条件，或同时满足第一收敛条件和第二收敛条件，或同时满足第一收敛条件和第三收敛条件，或同时满足第一收敛条件、第二收敛条件和第三收敛条件。具体满足的收敛条件可以根据实际情况而定。

作为一个可选的实施方式，上述目标图像的获取方式可以包含多种，可以通过路侧安装的摄像头对道路上行驶的车辆和行人进行拍摄得到的图像，也可以是用户通过移动终端拍摄得到的图像，还可以是移动终端上安装的应用程序中的图像。

下面通过具体实施例来说明本申请可以应用的场景。

以对道路上行驶的车辆和行人进行识别为例，可以通过路侧安装的摄像头采集马路上的图像，如图6是根据本发明实施例的一种可选的图像采集示意图，图中包括行人602，车辆604和摄像头606。通过图中的摄像头对当前道路上的行人和车辆进行图像采集。将采集到的图像作为训练图像集。

用人物标签对图像中的行人进行标识，用车辆标签对图像中的车辆进行标识，图像中还可以包括其他无标签对象，例如自行车、电动车等无标签对象。训练图像集中包括样本图像集1、样本图像集2和样本图像集3，样本图像集1中包括人物标签标识的行人，样本图像集2中包括车辆标签标识的车辆，样本图像集3中包括人物标签标识的行人和车辆标签标识的车辆。

使用样本图像集1对初始分类神经网络CNN0进行训练，在训练的过程中可以得到行人注意力图M0，图7是根据本发明实施例的一种可选的对初始分类神经网络CNN0进行训练的示意图。使用样本图像集2对初始分类神经网络CNN1进行训练，在训练的过程中可以得到车辆注意力图M1如图8是根据本发明实施例的一种可选的对初始分类神经网络CNN1进行训练的示意图。使用样本图像集1、样本图像集2和样本图像集3对初始识别神经网络CNN2进行训练，在训练的过程中可以得到行人注意力图M0’和车辆注意力图M1’。如图9是根据本发明实施例的一种可选的对初始识别神经网络CNN2进行训练的示意图。

在对初始识别神经网络训练的过程中，若行人注意力图M0和行人注意力图M0’之间的损失函数，以及车辆注意力图M1和车辆注意力图M1’之间的损失函数均满足第一收敛条件，停止对初始识别神经网络，得到目标识别神经网络。通过训练完成的目标神经网络可以对道路上行驶的车辆和行人进行识别，并能识别出行人和车辆分别在道路上的位置。

通过本实施例，可以对马路上的行人和车辆进行识别，以达到对交通状态进行监控的目的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述对象的识别方法的对象的识别装置。如图10所示，该装置包括：获取模块1002，用于获取目标图像，其中，上述目标图像中包括待识别的至少一个目标对象；提取模块1004，用于在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，上述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；识别模块1006，用于在目标识别神经网络中，基于上述注意力图识别出各个上述目标对象对应的分类标签及各个上述目标对象在上述目标图像中的位置。

可选地，上述装置还用于通过如下方式实现上述利用上述第二样本图像集训练上述初始识别神经网络，得到上述第二样本图像集对应的第二注意力图：使用上述第二样本图像集对上述初始识别神经网络进行j轮训练，得到第j轮注意力图，其中，j大于或等于1；在确定上述第j轮注意力图中的M个单标签对象对应的注意力图与上述N组对象注意力图中包含的M个单标签对象对应的注意力图之间的损失函数的输出值在所述第一预设范围内情况下，确定达到所述第一收敛条件，其中，M大于或等于1且小于N，上述M个单标签对象中包括上述目标对象。

根据本发明实施例的又一个方面，还提供了一种用于实施上述对象的识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为为例来说明。如图11所示，该电子设备包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标图像，其中，上述目标图像中包括待识别的至少一个目标对象；

S2，在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，所述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；

S3，在目标识别神经网络中，基于上述注意力图识别出各个上述目标对象对应的分类标签及各个上述目标对象在上述目标图像中的位置。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本发明实施例中的对象的识别方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的对象的识别方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1102具体可以但不限于用于存储图像数据、神经网络模型结构和模型参数等信息。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述对象的识别装置中的获取模块1002、提取模块1004及识别模块1006。此外，还可以包括但不限于上述对象的识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1106包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1108，用于显示上述待处理的订单信息；和连接总线1110，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式***中的一个节点，其中，该分布式***可以为区块链***，该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S2，在目标识别神经网络中提取上述目标图像中每个上述目标对象各自对应的注意力图，其中，上述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，上述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，上述分类神经网络用于识别包含单标签对象的图像，上述识别神经网络用于识别包含多标签对象的图像；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对象的识别方法，其特征在于，包括：

获取目标图像，其中，所述目标图像中包括待识别的至少一个目标对象；

在目标识别神经网络中提取所述目标图像中每个所述目标对象各自对应的注意力图，其中，所述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，所述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，所述分类神经网络用于识别包含单标签对象的图像，所述识别神经网络用于识别包含多标签对象的图像；

在目标识别神经网络中，基于所述注意力图识别出各个所述目标对象对应的分类标签及各个所述目标对象在所述目标图像中的位置。

2.根据权利要求1所述的方法，其特征在于，在所述获取目标图像之前，所述方法还包括：

获取多个样本图像，其中，所述多个样本图像包括：第一样本图像集和第二样本图像集，所述第一样本图像集包括：包含单标签对象的样本图像和无标签对象的样本图像，所述第二样本图像集包括：包含单标签对象的样本图像、包含多标签对象的样本图像及无标签对象的样本图像；

利用所述第一样本图像集训练所述初始分类神经网络，得到所述第一样本图像集对应的第一注意力图，所述第一输出结果包括所述第一注意力图；

利用所述第二样本图像集训练所述初始识别神经网络，得到所述第二样本图像集对应的第二注意力图，所述第二输出结果包括所述第二注意力图；

在确定所述第一注意力图中单标签对象对应的注意力图与所述第二注意力图中所述单标签对象对应的注意力图之间的损失函数的输出值在所述第一预设范围内的情况下，确定达到所述第一收敛条件。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第一样本图像集训练所述初始分类神经网络，得到所述第一样本图像集对应的第一注意力图，包括：

获取所述第一样本图像集中的N组第一样本图像子集，其中，每组所述第一样本图像子集中的每张图像中包括一个单标签对象和多个所述无标签对象，N为大于或等于1的整数；

使用所述N组第一样本图像子集对所述初始分类神经网络中的N个分类子网络分别进行训练，得到N组对象注意力图，其中，所述第一注意力图中包括所述N组对象注意力图，每组所述对象注意力图中包括所述一个单标签对象对应的对象注意力图。

4.根据权利要求3所述的方法，其特征在于，使用所述N组第一样本图像子集对所述初始分类神经网络中的N个分类子网络分别进行训练，得到N组对象注意力图，包括：

获取第i组所述第一样本图像子集，其中，i为大于等于1，且小于等于N的整数；

将第i组所述第一样本图像子集输入第i个所述分类子网络，得到第i组所述对象注意力图；

保存所述第i组所述对象注意力图。

5.根据权利要求4所述的方法，其特征在于，利用所述第二样本图像集训练所述初始识别神经网络，得到所述第二样本图像集对应的第二注意力图，包括：

使用所述第二样本图像集对所述初始识别神经网络进行j轮训练，得到第j轮注意力图，其中，j大于或等于1；

在确定所述第j轮注意力图中的M个单标签对象对应的注意力图与所述N组对象注意力图中包含的M个单标签对象对应的注意力图之间的损失函数的输出值在所述第一预设范围内情况下，确定达到所述第一收敛条件，其中，M大于或等于1且小于N，所述M个单标签对象中包括所述目标对象。

6.根据权利要求3所述的方法，其特征在于，所述利用所述第一样本图像集训练所述初始分类神经网络，得到所述第一样本图像集对应的第一注意力图，包括：

使用所述N组第一样本图像子集对所述初始识别神经网络进行训练，得到N组初始对象注意力图；

对所述N组初始对象注意力图进行第一处理，得到第一处理结果；对所述第一处理结果进行二值化处理和高斯滤波处理，以得到所述第一注意力图。

7.根据权利要求6所述的方法，其特征在于，所述对所述N组初始对象注意力图进行第一处理，得到第一处理结果，包括：

计算所述N组初始对象注意力图的均值与预设值的乘积，得到第一调整值；

确定所述N组初始对象注意力图与所述第一调整值的差值，得到所述第一处理结果。

8.根据权利要求2所述的方法，其特征在于，所述利用所述第二样本图像集训练所述初始识别神经网络，得到所述第二样本图像集对应的第二注意力图，包括：

使用所述第二样本图像集对所述初始识别神经网络进行训练，得到所述第二样本图像集对应的初始注意力图；

计算所述第二样本图像集对应的初始注意力图与所述第二样本图像集对应的初始注意力图的均值的差值，得到第二处理结果；

对所述第二处理结果进行归一化处理，得到所述第二注意力图。

9.根据权利要求2所述的方法，其特征在于，所述方法还包括以下至少之一：

所述目标识别神经网络输出的标签对象的预估分类标签与所述标签对象的已知分类标签之间满足第二收敛条件，其中，所述第二收敛条件用于表示所述预估分类标签与所述已知分类标签之间的损失函数的输出值在第二预设范围内；

所述目标识别神经网络输出的标签对象在样本图像中的预估位置与所述标签对象在样本图像中的已知位置之间满足第三收敛条件，其中，所述第三收敛条件用于表示所述预估位置与所述已知位置之间的损失函数的输出值在第三预设范围内；

其中，所述标签对象包括所述单标签对象和所述多标签对象，所述样本图像包括所述单标签对象的样本图像和所述多标签对象的样本图像。

10.一种对象的识别装置，其特征在于，包括：

获取模块，用于获取目标图像，其中，所述目标图像中包括待识别的至少一个目标对象；

提取模块，用于在目标识别神经网络中提取所述目标图像中每个所述目标对象各自对应的注意力图，其中，所述目标识别神经网络是基于初始分类神经网络和初始识别神经网络进行训练时，直至达到第一收敛条件所得到的，所述第一收敛条件指示训练中的分类神经网络的第一输出结果与识别神经网络的第二输出结果之间的损失函数的输出值在第一预设范围内，所述分类神经网络用于识别包含单标签对象的图像，所述识别神经网络用于识别包含多标签对象的图像；

识别模块，用于在目标识别神经网络中，基于所述注意力图识别出各个所述目标对象对应的分类标签及各个所述目标对象在所述目标图像中的位置。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。