CN114067099B

CN114067099B - 学生图像识别网络的训练方法及图像识别方法

Info

Publication number: CN114067099B
Application number: CN202111271677.5A
Authority: CN
Inventors: 伍天意; 朱欤; 郭国栋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-02-06
Anticipated expiration: 2041-10-29
Also published as: US20230046088A1; CN114067099A

Abstract

本公开提供了一种学生图像识别网络的训练方法及图像识别方法，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，具体实现方案为：将样本图像输入学生图像识别网络中，以获取样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，并将样本图像输入教师图像识别网络中，以获取样本图像在第一粒度上的第一特征信息和在第二粒度上的第二特征信息，获得目标学生图像识别网络，使得训练好的目标学生图像识别网络能够在专注于显著性区域，以获取到图像的区域级特征的同时，还能够获取到图像的像素级特征，避免了忽视图像其他重要的区域导致的图像识别结果不够准确的问题，提升了学生图像识别网络的训练效果。

Description

学生图像识别网络的训练方法及图像识别方法

技术领域

本公开涉及图像处理技术领域，并且更具体地涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域。

背景技术

随着图像处理(Image Processing)技术的迅速发展，图像识别技术在日常生活中也得到了广泛的应用。其中，图像识别，指的是利用计算机对图像进行处理、分析和理解，以识别各种不同的目标和对象的技术，是应用深度学习算法的一种实践应用。一般情况下，在图像识别技术领域，通常使用训练好的用于图像识别的模型/网络，对待识别图像进行识别，以得到识别结果。

因此，如何提升用于图像识别的网络的训练效果，以通过训练好的用于图像识别的网络更加准确地对待识别图像进行识别性，已成为重要的研究方向之一。

发明内容

本公开提供了一种学生图像识别网络的训练方法及图像识别方法。

根据本公开的一方面，提供了一种学生图像识别网络的训练方法，包括：

将样本图像输入学生图像识别网络中，以获取所述样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，其中，所述第一粒度与所述第二粒度不同；

将所述样本图像输入教师图像识别网络中，以获取所述样本图像在所述第一粒度上的第一特征信息和在所述第二粒度上的第二特征信息；

根据所述第一预测特征信息、所述第二预测特征信息、所述第一特征信息和所述第二特征信息，对所述学生图像识别网络进行调整，获得目标学生图像识别网络。

根据本公开的另一方面，提供了一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入至目标学生图像识别网络中，以输出所述待识别图像的图像识别结果，其中，所述目标学生图像识别网络采用如本公开第一方面实施例所述的学生图像识别网络的训练方法获得的网络。

根据本公开的另一方面，提供了一种学生图像识别网络的训练装置，包括：

第一获取模块，用于将样本图像输入学生图像识别网络中，以获取所述样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，其中，所述第一粒度与所述第二粒度不同；

第二获取模块，用于将所述样本图像输入教师图像识别网络中，以获取所述样本图像在所述第一粒度上的第一特征信息和在所述第二粒度上的第二特征信息；

训练模块，用于根据所述第一预测特征信息、所述第二预测特征信息、所述第一特征信息和所述第二特征信息，对所述学生图像识别网络进行调整，获得目标学生图像识别网络。

根据本公开的另一方面，提供了一种图像识别装置，包括：

获取模块，用于获取待识别图像；

识别模块，用于将所述待识别图像输入至目标学生图像识别网络中，以输出所述待识别图像的图像识别结果，其中，所述目标学生图像识别网络采用如本公开第一方面实施例所述的学生图像识别网络的训练方法获得的网络。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的学生图像识别网络的训练方法或者第二方面所述的图像识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的数据处理方法或者第二方面所述的数据处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现根据本公开第一方面所述的学生图像识别网络的训练方法或者第二方面所述的图像识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是一种图像识别***的示意图；

图7是一种特征提取的示意图；

图8是另一种特征提取模块的示意图；

图9是用来实现本公开实施例的学生图像识别网络的训练方法的学生图像识别网络的训练装置的框图；

图10是用来实现本公开实施例的图像识别方法的图像识别装置的框图；

图11是用来实现本公开实施例的学生图像识别网络的训练方法以及图像识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本公开的方案涉及的技术领域进行简要说明：

图像处理(ImageProcessing)用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。

AI(Artificial Intelligence，人工智能)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

DL(Deep Learning，深度学习)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。深度学习，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

计算机视觉，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能***。

下面参考附图描述本公开实施例的一种学生图像识别网络的训练方法。

图1是根据本公开第一实施例的示意图。其中，需要说明的是，本实施例的学生图像识别网络的训练方法的执行主体为学生图像识别网络的训练装置，学生图像识别网络的训练装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。

如图1所示，本实施例提出的学生图像识别网络的训练方法，包括如下步骤：

S101、将样本图像输入学生图像识别网络中，以获取样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，其中，第一粒度与第二粒度不同。

需要说明的是，在图像识别技术领域，通常使用自监督学习方法训练用于图像识别的模型/网络，并基于收敛的用于图像识别的模型/网络对待识别图像进行识别，以得到识别结果。

相关技术中，主流的自监督学习方法可以分为以下两类。

其一，是基于对比学习(Contrastive learning)的训练方法，可选地，把同一张图像的两种数据增强下的粗粒度表征视为正样本对(positive pairs)，把不同图像的数据增强下的粗粒度表征视为负样本对(negative pairs)。鼓励相同图像的两种数据增强作为正样本对，在特征空间它们之间的距离尽可能小，并把不同图像的数据增强下的表征尽可能拉远。

然而，上述方法需要依赖极大的内存银行(memory bank)或者利用非常大的超参数，即批尺寸(batch size)，这对显存是不友好的。也就是说，需要采用海量的样本参与训练。

其二，是不使用负样本进行表征学习的方法。可选地，可以使用非对称的预测网络(predictor network)和梯度终止(Stop-gradients)来避免表征坍塌(collapsedrepresentations)。例如，可以引进一个正则化项来约束两个相同网络的输出的交叉相关矩阵(cross-correlation matrix)为单位矩阵(identity matrix)。

然而，上述两种方法均存在明显的问题，即通过粗粒度特征提取方式，仅能够专注于显著性区域，以获取到图像的区域级特征，从而忽视图像其他重要的区域，进而导致图像识别结果不够准确。

由此，本公开中采用均具有第一粒度的特征提取模块和第二粒度的特征提取模块的学生(Student network)-教师网络(Teacher network)的网络框架，对学生图像识别网络进行训练，以得到目标学生图像识别网络。

本公开实施例中，可以将样本图像输入学生图像识别网络中，以获取样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，其中，第一粒度与第二粒度不同。

其中，样本图像，可以为任意待识别图像，且样本图像的数量不作限定，可以根据实际情况进行设定。

其中，第一预测特征信息是对教师图像识别网络输出的第一特征信息的预测结果，第二预测特征信息是对教师图像识别网络输出的第二特征信息的预测结果。

其中，第一粒度与第二粒度之间的粒度粗细不同，可选地，可以设定第一粒度为粗粒度，设定第二粒度为细粒度；可选地，可以设定第一粒度为细粒度，设定第二粒度为粗粒度。

需要说明的是，在采用不同粒度对图像进行特征提取时，获取到的特征也是不同的。可选地，采用粗粒度对图像进行特征提取，可以获取区域级特征；可选地，采用细粒度对图像进行特征提取，可以获取像素级特征，其中，像素级特征指的是针对任一图像帧中的每个像素进行特征提取得到的特征。

S102、将样本图像输入教师图像识别网络中，以获取样本图像在第一粒度上的第一特征信息和在第二粒度上的第二特征信息。

本公开实施例中，在将样本图像输入学生图像识别网络中，以获取样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息的同时，可以将样本图像输入教师图像识别网络中，以获取样本图像在第一粒度上的第一特征信息和在第二粒度上的第二特征信息。

需要说明的是，分别采用学生图像识别网络和教师图像识别网络获取到的样本图像的特征信息是不同的。

进一步地，可以结合通过学生图像识别网络获取的样本图像在一种数据增强下的第一预测特征信息和第二预测特征信息后，以及通过教师图像识别网络获取的样本图像在另一种数据增强下的第一特征信息和第二特征信息，对学生图像识别网络进行训练。

S103、根据第一预测特征信息、第二预测特征信息、第一特征信息和第二特征信息，对学生图像识别网络进行调整，获得目标学生图像识别网络。

本公开实施例中，在获取第一预测特征信息、第二预测特征信息、第一特征信息和第二特征信息后，可以获取第一预测特征信息与第一特征信息之间的第一差异，以及第二预测特征信息与第二特征信息之间的第二差异，并根据第一差异和第二差异获取损失函数，以根据损失函数对学生图像识别网络进行调整，获得目标学生图像识别网络。

根据本公开实施例的学生图像识别网络的训练方法，通过将样本图像输入学生图像识别网络中，以获取样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，并将样本图像输入教师图像识别网络中，以获取样本图像在第一粒度上的第一特征信息和在第二粒度上的第二特征信息，进而根据第一预测特征信息、第二预测特征信息、第一特征信息和第二特征信息，对学生图像识别网络进行调整，获得目标学生图像识别网络，使得训练好的目标学生图像识别网络能够在专注于显著性区域，以获取到图像的区域级特征的同时，还能够获取到图像的像素级特征，避免了忽视图像其他重要的区域导致的图像识别结果不够准确的问题，提升了学生图像识别网络的训练效果。

图2是根据本公开第二实施例的示意图。

如图2所示，本实施例提出的学生图像识别网络的训练方法，包括如下步骤：

上述步骤S101包括以下步骤S201～S203。

S201、对样本图像进行特征提取，以获取样本图像在第一粒度上的第三特征信息和第二粒度上的第四特征信息。

本公开实施例中，在将样本图像输入学生图像识别网络中后，可以采用不同粒度对样本图像进行特征提取。可选地，可以采用第一粒度对样本图像进行特征提取以获取第三特征信息，并采用第二粒度对样本图像进行特征提取以获取第四特征信息。

举例而言，针对样本图像X，在将样本图像X输入学生图像识别网络中后，可以采用第一粒度对样本图像X进行特征提取以获取第三特征信息y₁ ^c，并采用第二粒度对样本图像X进行特征提取以获取第四特征信息y₁ ^f。

S202、对第三特征信息向第一特征信息进行预测映射，以获取第一预测特征信息。

本公开实施例中，在获取第三特征信息后，可以采用预测器(Predictor)等模块对第三特征信息向第一特征信息进行预测映射，以获取第一预测特征信息。

举例而言，在获取第三特征信息y₁ ^c后，可以对第三特征信息y₁ ^c向第一特征信息进行预测映射，以获取第一预测特征信息q^c。

S203、对第四特征信息向第二特征信息进行预测映射，以获取第二预测特征信息。

本公开实施例中，在获取第四特征信息后，可以采用预测器(Predictor)等模块对第四特征信息向第二特征信息进行预测映射，以获取第二预测特征信息。

举例而言，在获取第四特征信息y₁ ^f后，可以对第所四特征信息y₁ ^f向第二特征信息进行预测映射，以获取第二预测特征信息q^f。

上述步骤S102包括以下步骤S204。

S204、对样本图像进行特征提取，以获取样本图像在第一粒度上的第三特征信息和第二粒度上的第四特征信息。

本公开实施例中，可以对样本图像进行特征提取，以获取样本图像的第一特征信息和第二特征信息。

举例而言，针对样本图像X，可以对样本图像X进行特征提取，以获取样本图像X的第一特征信息y₂ ^c和第二特征信息y₂ ^f。

上述步骤S103包括以下步骤S205～S207。

S205、根据第一预测特征信息和第一特征信息，获取学生图像识别网络的第一损失函数。

本公开实施例中，可以根据第一预测特征信息和第一特征信息，采用以下公式获取学生图像识别网络的第一损失函数：

其中，L_c为第一损失函数、q^c为第一预测特征信息、y₂ ^c为第一特征信息；第一损失函数L_c为来自教师图像识别网络的粗粒度特征和学生图像识别网络对该特征的预测之间最小均方误差。

S206、根据第二预测特征信息和第二特征信息，获取学生图像识别网络的第二损失函数。

本公开实施例中，可以根据第二预测特征信息和第二特征信息，采用以下公式获取学生图像识别网络的第二损失函数：

其中，L_f为第二损失函数、q^f为第二预测特征信息、y₂ ^f为第二特征信息；第二损失函数L_f为来自教师图像识别网络的细粒度特征和学生图像识别网络对该特征的预测之间最小均方误差。

S207、根据第一损失函数和第二损失函数，对学生图像识别网络进行调整。

本公开实施例中，在获取第一损失函数和第二损失函数后，可以对第一损失函数和第二损失函数进行加权处理，并将加权结果作为学生图像识别网络的损失函数，对学生图像识别网络进行调整。

举例而言，针对第一损失函数L_c以及第二损失函数L_f，可以采用以下公式获取学生图像识别网络的损失函数L：

其中，α为权重，可以根据实际情况进行设定。

下面分别对获取第一特征信息、第二特征信息、第三特征信以及第四特征信息的具体过程进行解释说明。

针对获取第三特征信和第四特征信息，作为一种可能的实现方式，如图3所示，在上述实施例的基础上，具体包括以下步骤：

S301、获取样本图像的第一特征图谱。

本公开实施例中，可以将样本图像输入至学生图像识别网络中的编码器中，以获取样本图像的第一特征图谱。

其中，特征图谱，指的是深度学习神经网络中经特定模块(例如编码器、卷积层等)处理后的中间结果，是一种密集特征。

S302、对第一特征图谱进行特征提取，以获取第三特征信息和第四特征信息。

本公开实施例中，在获取第一特征图谱后，可以采用第一粒度对第一特征图谱进行特征提取以获取第三特征信息，并采用第二粒度对第一特征图谱进行特征提取以获取第四特征信息。

举例而言，针对第一特征图谱z₁，采用第一粒度对第一特征图谱z₁进行特征提取，以获取第三特征信息y₁ ^c，并采用第二粒度第三特征信息第四特征信息y₁ ^f。

进一步地，本公开中，在将样本图像输入学生图像识别网络中之前，可以对样本图像进行数据增强，以获取第一增强样本图像，并输入学生图像识别网络。

可选地，可以从预先设定的数据增强方法集合中选取任一方法作为第一数据增强方法，并根据第一数据增强方法对样本图像进行数据增强，以获取第一增强样本图像，并输入学生图像识别网络。

举例而言，针对样本图像X，可以从根据预先设定的数据增强方法集合t中选取第一数据增强方法t₁，并根据第一数据增强方法t₁对样本图像X进行数据增强，以获取第一增强样本图像v₁，并输入学生图像识别网络。

进一步地，可以获取第一增强样本图像的第一特征图谱，并第一特征图谱进行特征提取，以获取第三特征信息和第四特征信息。

针对获取第一特征信和第二特征信息，作为一种可能的实现方式，如图4所示，在上述实施例的基础上，具体包括以下步骤：

S401、获取样本图像的第二特征图谱。

本公开实施例中，可以将样本图像输入至教师图像识别网络中的编码器中，以获取样本图像的第二特征图谱。

S402、对第二特征图谱进行特征提取，以获取第一特征信息和第二特征信息。

本公开实施例中，在获取第二特征图谱后，可以采用第一粒度对第二特征图谱进行特征提取以获取第一特征信息，并采用第二粒度对第二特征图谱进行特征提取以获取第二特征信息。

举例而言，针对第二特征图谱z₂，采用第一粒度对第二特征图谱z₂进行特征提取，以获取第一特征信息y₂ ^c，并采用第二粒度第二特征信息第四特征信息y₂ ^f。

进一步地，本公开中，在将样本图像输入教师图像识别网络中之前，可以对样本图像进行数据增强，以获取第二增强样本图像，并输入教师图像识别网络。

可选地，可以从预先设定的数据增强方法集合中选取任一方法作为第二数据增强方法，并根据第二数据增强方法对样本图像进行数据增强，以获取第二增强样本图像，并输入教师图像识别网络。

其中，第二数据增强方法与第一数据增强方法不一致。

举例而言，针对样本图像X，可以从预先设定的数据增强方法集合t中选取第二数据增强方法t₂，并根据第二数据增强方法t₂对样本图像X进行数据增强，以获取第二增强样本图像v₂，并输入教师图像识别网络。

进一步地，可以获取第二增强样本图像的第二特征图谱，并第二特征图谱进行特征提取，以获取第一特征信息和第二特征信息。

进一步地，可以根据第一损失函数和第二损失函数，对学生图像识别网络的参数进行反向传播识别，以对学生图像识别网络进行更新。

需要说明的是，由于教师图像识别网络不同于学生图像识别网络，无法自动反向传播以进行自动更新，因此，为了避免教师号图像识别网络出现模型坍塌问题(ModelCollapsing)，本公开中，可以获取延迟因子，并根据延迟因子，对教师图像识别网络进行调整。

可选地，可以根据延迟因子，对教师图像识别网络的参数进行指数滑动平均识别，以对教师网络进行更新。

其中，指数滑动平均识别，又称指数平滑，指的是利用上一期的实际值和预测值(估算值)，对它们进行不同的加权分配，求得一个指数平滑值，作为下一期预测值的一种预测方法。

作为一种可能的实现方式，可以对教师图像识别网络中的编码器的第一参数、采用第一粒度进行特征提取的模块的第二参数，以及采用第二粒度进行特征提取的模块的第三参数进行调整。

可选地，针对第一参数，可以采用以下公式进行获取：

η＝m·η+(1-m)·θ

其中，m为延迟因子、η为第一参数、θ为学生图像识别网络的编码器的参数。

针对第二参数，可以采用以下公式进行获取：

其中，为第二参数。

针对第三参数，可以采用以下公式进行获取：

其中，为第三参数。

根据本公开实施例的学生图像识别网络的训练方法，能够采用能够进行多粒度特征提取的教师图像识别网络获取第一特征信息和第二特征信息，并采用能够进行多粒度特征提取的学生图像识别网络获取第一预测特征信息和第二预测特征信息，进而基于第一预测特征信息和第二预测特征信息对第一特征信息和第二特征信息进行预测，并根据预测结果调整学生图像识别网络的参数以及教师图像识别网络的参数，直至满足训练停止条件，将最后一次调整参数后的学生图像识别网络作为目标学生图像识别网络，使得在训练过程中能够避免模型坍塌，从而确保训练效果，以得到训练好的目标学生图像识别网络，进一步提升了学生图像识别网络的训练效果。

下面参考附图描述本公开实施例的一种图像识别方法。

图5是根据本公开第五实施例的示意图。其中，需要说明的是，本实施例的图像识别方法的执行主体为图像识别装置，图像识别装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。

如图5所示，本实施例提出的图像识别方法，包括如下步骤：

S501、获取待识别图像。

其中，待识别图像，可以为任一待识别图像。

S502、将待识别图像输入至目标学生图像识别网络中，以输出待识别图像的图像识别结果。

本公开实施例中，可以将待识别图像输入至目标学生图像识别网络中，由目标学生图像识别网络对待识别图像进行第一粒度的特征提取以获取第一特征信息，并对待识别图像进行第二粒度的特征提取以获取第二特征信息，进而根据第一特征信息和第二特征信息，获取待识别图像的图像识别结果。

根据本公开实施例的图像识别方法，通过获取待识别图像，进而将待识别图像输入至目标学生图像识别网络中，以输出待识别图像的图像识别结果，使得能够通过将待识别图像输入至训练好的目标学生图像识别网络中，获取既能够体现区域级特征又能够体现像素级特征的图像识别结果，提高了图像识别结果的准确性和可靠性。

需要说明的是，如图6所示，本公开提出了一种图像识别***Deep CFR(DeepCoarse-grained and Fine-grained Representations)，包括学生图像识别网络和教师图像识别网络。

下面对图像识别***的训练过程进行解释说明。

可选地，针对样本图像X(Image X)，可以从预先设定的数据增强方法集合t中选取第一数据增强方法t₁和第二数据增强方法t₂，并根据第一数据增强方法t₁对样本图像X进行数据增强，以获取第一增强样本图像v₁，并输入学生图像识别网络(Student Network)，根据第二数据增强方法t₂对样本图像X进行数据增强，以获取第二增强样本图像v₂，并输入教师图像识别网络(Teacher Network)。

进一步地，可以根据第一增强样本图像v₁，获取第一特征图谱z₁，并根据第二增强样本图像v₂，获取第二特征图谱z₂。

进一步地，针对学生图像识别网络，可以通过粗粒度特征提取模块对第一特征图谱z₁进行粗粒度特征提取，以获取第三特征信息y₁ ^c，并通过细粒度特征提取模块对第一特征图谱z₁进行细粒度特征提取，以获取第四特征信息y₁ ^f；针对教师图像识别网络，可以通过粗粒度特征提取模块对第二特征图谱z₂进行粗粒度特征提取，以获取第一特征信息y₂ ^c，并通过细粒度特征提取模块对第二特征图谱z₂进行细粒度特征提取，以获取第二特征信息y₂ ^f。

进一步地，可以将第三特征信息y₁ ^c输入至第一预测器中，对第三特征信息y₁ ^c向第一特征信息进行预测映射，以获取第一预测特征信息q^c，并将第四特征信息y₁ ^f输入至第二预测器中，对第四特征信息y₁ ^f向第二特征信息进行预测映射，以获取第二预测特征信息q^f。其中，第一预测器和第二预测器分别连接于学生图像识别网络中的粗粒度特征提取模块和细粒度特征提取模块后。

进一步地，可以根据第一预测特征信息q^c和第一特征信息y₂ ^c，获取第一损失函数L_c，并根据第二预测特征信息q^f和第二特征信息y₂ ^f，获取第二损失函数L_f。

进一步地，可以根据第一损失函数L_c和第二损失函数L_f，对学生图像识别网络进行调整，获得目标学生图像识别网络。

其中，学生图像识别网络和教师图像识别网络中，采用第二粒度进行特征提取的模块如图7所示。

通过由一个1x1的Conv(卷积层)、一个3x3的Conv和一个1x1的Conv组成残差模块，并通过一个1x1的Conv来约减输入特征图的通道，以节省显存和计算开销，并得到特征图谱z^∈R^(C×H×W)。

进一步地，可以定义K个可学习视觉单词(visual words)组成的码书(codebook)，即C＝{c_1,c_2,…,c_K}。对于每个视觉单词，可以通过以下公式加权累加每个位置与视觉单词的残差：

其中，是针对视觉单词c_k，特征向量/>的软权重分配(soft-weightassignment)，δμ是自适应温度项，用来控制软分配权重的平滑程度，μ是特征向量与其最近的视觉单词之间均方距离，并以滑动平均方式更新，δ是基本温度值。

进一步地，在获得所有编码残差r_k之后，利用L2对每个残差进行归一化处理，并将归一化处理结果级联成以下高维向量y^f：

y^f＝Concat(Norm(r₁),Norm(r₂)…,Norm(r_K))

其中，学生图像识别网络和教师图像识别网络中，采用第一粒度进行特征提取的模块(Coarse-grained Projection Head)如图8所示，其中，“//”表示梯度终止操作。

通过一个全局池化(Global Average Pooling)层和一个多层感知机组成，具体过程如以下公式所示：

y^c＝MLP(GAP(z))

其中，GAP(·)表示全局池化层，MLP(·)表示多层感知机。

由此，本公开通过对样本图像增强两次，并分别把增强后的两个图像输入两个编码网络，以通过学生-教师架构进行训练。其中，学生图像识别网络被训练去预测教师网络输出的两个特征，进而对学生图像识别网络的参数进行调整，以得到目标学生图像识别网络，使得训练好的目标学生图像识别网络能够在专注于显著性区域，以获取到图像的区域级特征的同时，还能够获取到图像的像素级特征，避免了忽视图像其他重要的区域导致的图像识别结果不够准确的问题，提升了学生图像识别网络的训练效果。进一步地，确保了获取既能够体现区域级特征又能够体现像素级特征的图像识别结果，提高了图像识别结果的准确性和可靠性。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

与上述几种实施例提供的学生图像识别网络的训练方法相对应，本公开的一个实施例还提供一种学生图像识别网络的训练装置，由于本公开实施例提供的学生图像识别网络的训练装置与上述几种实施例提供的学生图像识别网络的训练方法相对应，因此在学生图像识别网络的训练方法的实施方式也适用于本实施例提供的学生图像识别网络的训练装置，在本实施例中不再详细描述。

图9是根据本公开一个实施例的学生图像识别网络的训练装置的结构示意图。

如图9所示，该学生图像识别网络的训练装置900，包括：第一获取模块910、第二获取模块920和训练模块930，其中：

第一获取模块910，用于将样本图像输入学生图像识别网络中，以获取所述样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，其中，所述第一粒度与所述第二粒度不同；

第二获取模块920，用于将所述样本图像输入教师图像识别网络中，以获取所述样本图像在所述第一粒度上的第一特征信息和在所述第二粒度上的第二特征信息；

训练模块930，用于根据所述第一预测特征信息、所述第二预测特征信息、所述第一特征信息和所述第二特征信息，对所述学生图像识别网络进行调整，获得目标学生图像识别网络。

其中，第一获取模块910，还用于：

对所述样本图像进行特征提取，以获取所述样本图像在所述第一粒度上的第三特征信息和所述第二粒度上的第四特征信息；

对所述第三特征信息向所述第一特征信息进行预测映射，以获取所述第一预测特征信息；

对所述第四特征信息向所述第二特征信息进行预测映射，以获取所述第二预测特征信息。

其中，第一获取模块910，还用于：

获取所述样本图像的第一特征图谱；

对所述第一特征图谱进行特征提取，以获取所述第三特征信息和所述第四特征信息。

其中，第一获取模块910，还用于：

对所述样本图像进行数据增强，以获取第一增强样本图像，并输入所述学生图像识别网络。

其中，第二获取模块920，还用于：

对所述样本图像进行特征提取，以获取所述样本图像的所述第一特征信息和所述第二特征信息。

其中，第二获取模块920，还用于：

获取所述样本图像的第二特征图谱；

对所述第二特征图谱进行特征提取，以获取所述第一特征信息和所述第二特征信息。

其中，第二获取模块920，还用于：

对所述样本图像进行数据增强，以获取第二增强样本图像，并输入所述教师图像识别网络。

其中，训练模块930，还用于：

根据所述第一预测特征信息和所述第一特征信息，获取所述学生图像识别网络的第一损失函数；

根据所述第二预测特征信息和所述第二特征信息，获取所述学生图像识别网络的第二损失函数；

根据所述第一损失函数和所述第二损失函数，对所述学生图像识别网络进行调整。

其中，训练模块930，还用于：

根据所述第一损失函数和所述第二损失函数，对所述学生图像识别网络的参数进行反向传播识别，以对所述学生图像识别网络进行更新。

其中，训练模块930，还用于：

获取延迟因子，并根据所述延迟因子，对所述教师图像识别网络进行调整。

其中，训练模块930，还用于：

根据所述延迟因子，对所述教师图像识别网络的参数进行指数滑动平均识别，以对所述教师网络进行更新。

根据本公开实施例的学生图像识别网络的训练装置，通过将样本图像输入学生图像识别网络中，以获取样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，并将样本图像输入教师图像识别网络中，以获取样本图像在第一粒度上的第一特征信息和在第二粒度上的第二特征信息，进而根据第一预测特征信息、第二预测特征信息、第一特征信息和第二特征信息，对学生图像识别网络进行调整，获得目标学生图像识别网络，使得训练好的目标学生图像识别网络能够在专注于显著性区域，以获取到图像的区域级特征的同时，还能够获取到图像的像素级特征，避免了忽视图像其他重要的区域导致的图像识别结果不够准确的问题，提升了学生图像识别网络的训练效果。

与上述几种实施例提供的图像识别方法相对应，本公开的一个实施例还提供一种图像识别装置，由于本公开实施例提供的图像识别装置与上述几种实施例提供的图像识别方法相对应，因此在图像识别方法的实施方式也适用于本实施例提供的图像识别装置，在本实施例中不再详细描述。

图10是根据本公开一个实施例的图像识别装置的结构示意图。

如图10所示，该图像识别装置1000，包括：获取模块1010和识别模块1020，其中：

获取模块1010，用于获取待识别图像；

识别模块1020，用于将所述待识别图像输入至目标学生图像识别网络中，以输出所述待识别图像的图像识别结果，其中，所述目标学生图像识别网络采用如本公开第一方面实施例所述的学生图像识别网络的训练方法获得的网络。

根据本公开实施例的图像识别装置，通过获取待识别图像，进而将待识别图像输入至目标学生图像识别网络中，以输出待识别图像的图像识别结果，使得能够通过将待识别图像输入至训练好的目标学生图像识别网络中，获取既能够体现区域级特征又能够体现像素级特征的图像识别结果，提高了图像识别结果的准确性和可靠性。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如学生图像识别网络的训练方法和图像识别方法。例如，在一些实施例中，本公开第一方面所述的学生图像识别网络的训练方法以及本公开第二方面所述的图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。

在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的学生图像识别网络的训练或者图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开第一方面所述的学生图像识别网络的训练方法以及本公开第二方面所述的图像识别方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网以及区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

本公开还提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如上所述的学生图像识别网络的训练方法以及图像识别方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种学生图像识别网络的训练方法，包括：

根据所述第一预测特征信息、所述第二预测特征信息、所述第一特征信息和所述第二特征信息，对所述学生图像识别网络进行调整，获得目标学生图像识别网络；

所述方法还包括：

获取延迟因子，并根据所述延迟因子和学生图像识别网络的预测结果，对所述教师图像识别网络的参数进行指数滑动平均识别，以对所述教师图像识别网络进行更新，其中，所述教师图像识别网络的参数包括所述教师图像识别网络中的编码器的第一参数、采用第一粒度进行特征提取的模块的第二参数和采用第二粒度进行特征提取的模块的第三参数；

其中，所述将样本图像输入学生图像识别网络中，以获取所述样本图像在第一粒度上的第一预测特征信息和第二粒度上的第二预测特征信息，包括：

2.根据权利要求1所述的训练方法，其中，所述对所述样本图像进行特征提取，以获取所述样本图像在所述第一粒度上的第三特征信息和所述第二粒度上的第四特征信息，包括：

获取所述样本图像的第一特征图谱；

3.根据权利要求1-2中任一项所述的训练方法，其中，所述方法还包括：

4.根据权利要求1所述的训练方法，其中，所述将所述样本图像输入教师图像识别网络中，以获取所述样本图像在所述第一粒度上的第一特征信息和在所述第二粒度上的第二特征信息，包括：

5.根据权利要求4所述的训练方法，其中，所述对所述样本图像进行特征提取，以获取所述样本图像的所述第一特征信息和所述第二特征信息，包括：

获取所述样本图像的第二特征图谱；

6.根据权利要求1或4或5所述的训练方法，其中，所述方法还包括：

7.根据权利要求1所述的训练方法，其中，所述根据所述第一预测特征信息、所述第二预测特征信息、所述第一特征信息和所述第二特征信息，对所述学生图像识别网络进行调整，包括：

8.根据权利要求7所述的训练方法，其中，所述根据所述第一损失函数和所述第二损失函数，对所述学生图像识别网络进行调整，包括：

9.一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入至目标学生图像识别网络中，以输出所述待识别图像的图像识别结果，其中，所述目标学生图像识别网络采用如权利要求1-8中任一项所述的学生图像识别网络的训练方法获得的网络。

10.一种学生图像识别网络的训练装置，包括：

训练模块，用于根据所述第一预测特征信息、所述第二预测特征信息、所述第一特征信息和所述第二特征信息，对所述学生图像识别网络进行调整，获得目标学生图像识别网络；

其中，所述训练模块，还用于：

其中，所述第一获取模块，还用于：

11.根据权利要求10所述的训练装置，其中，所述第一获取模块，还用于：

获取所述样本图像的第一特征图谱；

12.根据权利要求10-11中任一项所述的训练装置，其中，所述第一获取模块，还用于：

13.根据权利要求10所述的训练装置，其中，所述第二获取模块，还用于：

14.根据权利要求13所述的训练装置，其中，所述第二获取模块，还用于：

获取所述样本图像的第二特征图谱；

15.根据权利要求10或13或14所述的训练装置，其中，所述第二获取模块，还用于：

16.根据权利要求10所述的训练装置，其中，所述训练模块，还用于：

17.根据权利要求16所述的训练装置，其中，所述训练模块，还用于：

18.一种图像识别装置，包括：

获取模块，用于获取待识别图像；

识别模块，用于将所述待识别图像输入至目标学生图像识别网络中，以输出所述待识别图像的图像识别结果，其中，所述目标学生图像识别网络采用如权利要求1-8中任一项所述的学生图像识别网络的训练方法获得的网络。

19.一种电子设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8中任一项所述的学生图像识别网络的训练方法以及权利要求9所述的图像识别方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的学生图像识别网络的训练方法以及权利要求9所述的图像识别方法。