CN117576535B

CN117576535B - 一种图像识别方法、装置、设备以及存储介质

Info

Publication number: CN117576535B
Application number: CN202410055633.6A
Authority: CN
Inventors: 顾智浩; 张江宁; 王亚彪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Filing date: 2024-01-15
Publication date: 2024-06-25
Anticipated expiration: 2044-01-15

Abstract

本申请实施例提供了一种图像识别方法，用于提高对工业图像缺陷的识别准确度。可应用于人工智能、云技术、交通领域等领域。包括：获取待识别对象的主模态图像以及至少一个辅模态图像；调用教师网络对主模态图像进行特征提取得到包括N个不同尺度的特征图的第一特征图集合，并调用教师网络对辅模态图像进行特征提取得到包括N个不同尺度的特征图的第二特征图集合，教师网络为预训练模型；将第一特征图集合与第二特征图集合进行特征融合得到第一多模态特征图集合；调用学生网络基于第一特征图集合和第二特征图集合进行重建，以得到第二多模态特征图集合；根据第一多模态特征图集合和第二多模态特征图集合进行比对，以识别得到待识别对象的缺陷。

Description

一种图像识别方法、装置、设备以及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种图像识别方法、装置、设备以及存储介质。

背景技术

在工业生产过程中，由于现有工作条件以及人员技术的局限性，产品质量极易受到影响。其中，表面缺陷是产品质量受到影响的最直观表现，因此，为了保证合格率和产品质量的可靠性，必须进行产品表面缺陷检测，即表面缺陷检测是工业质量检测中的关键一环。传统的产品缺陷大多由熟练的质检人员根据人工经验进行检测。由于质检人员在检测时可能出现视觉疲劳，容易受环境因素干扰，并且每个人对于瑕疵的判断都不尽相同，这就使得检测效率和质量难以得到保证。因此现在很多企业选择用机器视觉设备来替代人工做一些重复性的工作，提高企业的生产效率以及产品质量。

图像异常检测旨在对同质图像中的异质区域进行识别和定位，已广泛应用于制造业缺陷检测、医疗诊断等领域。在许多工业场景中，如质量控制和表面缺陷，异常样本的采集昂贵且耗时，且异常样本不足会限制有监督方法在实际生产中的应用。因此目前通常可以采用基于知识蒸馏的方案进行特征重构来实现工业产品的缺陷识别，但是特征重构在特征相似时会导致识别不准确。

因此目前亟需一种可以精确识别工业图像缺陷的识别方法。

发明内容

本申请实施例提供了一种图像识别方法，用于提高对工业图像缺陷的识别准确度。

有鉴于此，本申请一方面提供一种图像识别方法，包括：获取待识别对象的主模态图像以及至少一个辅模态图像；调用教师网络对该主模态图像进行N层特征提取得到第一特征图集合，并调用该教师网络对该至少一个辅模态图像进行N层特征提取得到第二特征图集合，该教师网络为预训练模型，该第一特征图集合包括N个不同尺度的特征图，该第二特征图集合包括N个不同尺度的特征图，该N为正整数；将该第一特征图集合与该第二特征图集合进行特征融合，以得到该待识别对象的第一多模态特征图集合；调用学生网络基于该第一特征图集合和该第二特征图集合进行特征重构，以得到第二多模态特征图集合；根据该第一多模态特征图集合和该第二多模态特征图集合进行特征比对，以得到该待识别对象的识别结果。

本申请另一方面提供一种图像识别装置，包括：获取模块，用于获取待识别对象的主模态图像以及至少一个辅模态图像；

处理模块，用于调用教师网络对该主模态图像进行N层特征提取得到第一特征图集合，并调用该教师网络对该至少一个辅模态图像进行N层特征提取得到第二特征图集合，该教师网络为预训练模型，该第一特征图集合包括N个不同尺度的特征图，该第二特征图集合包括N个不同尺度的特征图，该N为正整数；

融合模块，用于将该第一特征图集合与该第二特征图集合进行特征融合，以得到该待识别对象的第一多模态特征图集合；

该处理模块，用于调用学生网络基于该第一特征图集合和该第二特征图集合进行特征重构，以得到第二多模态特征图集合；

识别模块，用于根据该第一多模态特征图集合和该第二多模态特征图集合进行比对，以得到该待识别对象的识别结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该融合模块，用于根据第一特征图与第二特征图确定融合权重，其中，该第一特征图与该第二特征图具有相同的尺度，该第一特征图包含于该第一特征图集合，该第二特征图包含于该第二特征图集合；

将该第二特征图与该融合权重相乘得到乘积值；

将该乘积值与该第一特征图相加得到该第一多模态特征图；

依此遍历该第一特征图集合和该第二特征图集合，以得到该第一多模态特征图集合。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该处理模块，用于分别对第三特征图和第四特征图进行先验处理，以得到第一先验特征图和第二先验特征图，其中，该第三特征图与该第四特征图具有相同的尺度，该第三特征图为该教师网络对该主模态图像进行第N+1层特征提取得到的特征图，该第四特征图为该教师网络对该至少一个辅模态图像进行第N+1层特征提取得到的特征图；

对该第一先验特征图与该第二先验特征图进行特征融合，得到第一先验多模态特征图；

基于该第一先验多模态特征图进行特征重构，以得到第二多模态特征图，该第二多模态特征图包含于该第二多模态特征图集合，且该第二多模态特征图的尺度与该教师网络第N层输出的多模态特征图的尺度相同；

分别对第五特征图和第六特征图进行先验处理，以得到第三先验特征图和第四先验特征图，其中，该第五特征图与该第六特征图具有相同的尺度，该第五特征图为该教师网络对该主模态图像进行第N层特征提取得到的特征图，该第六特征图为该教师网络对该至少一个辅模态图像进行第N层特征提取得到的特征图；

对该第三先验特征图与该第四先验特征图进行特征融合，得到第二先验多模态特征图；

基于该第二先验多模态特征图进行特征重构，以得到第三多模态特征图，该第三多模态特征图包含于该第二多模态特征图集合，且该第三多模态特征图的尺度与该教师网络第N-1层输出的多模态特征图的尺度相同；

依此重复上述操作，以得到该第二多模态特征图集合。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该获取模块，用于获取训练样本集合和初始学生网络，该训练样本集合包括正样本图像和辅模态图像；

该处理模块，用于利用该教师网络对该正样本图像进行N层特征提取，以得到该正样本图像的N个特征图；

利用该教师网络对该辅模态图像进行N层特征提取，以得到该辅模态图像的N个特征图；

将该正样本图像的N个特征图与该辅模态图像的N个特征图进行特征融合，以得到N个训练多模态特征图；

将该正样本图像的N个特征图与该辅模态图像的N个特征图输入该初始学生网络进行特征重构，以得到N个重构特征图；

根据该N个重构特征图与该N个训练多模态特征图进行特征比对，以得到损失值；

该装置还包括训练模块，用于根据该损失值对该初始学生网络进行训练，以得到该学生网络。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该辅模态图像包括工业样本的深度图和表面法向量图，该正样本图像为工业样本的彩色图像。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该获取模块，用于获取该教师网络的至少两个初始批标准化层，其中，该至少两个初始批标准化层与该正样本图像和该辅模态图像一一对应；

该训练模块，用于根据该损失值对该至少两个初始批标准化层进行微调训练，以得到至少两个批标准化层，其中，该至少两个批标准化层具有不同的网络参数。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该处理模块，用于调用该教师网络对该主模态图像进行特征提取并通过对应的批标准化层处理，以得到第一特征图集合；

调用该教师网络该至少一个辅模态图像进行特征提取并通过对应的批标准化层处理，以得到该第二特征图集合。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线***；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线***用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：为待识别图像增加辅模态图像，并利用知识蒸馏网络对待识别图像的主模态特征和辅模态特征进行特征融合，从而增加该待识别图像的特征信息，进而提高对工业图像缺陷的识别准确度。

附图说明

图1为本申请实施例中图像识别方法的一个应用场景架构示意图；

图2为本申请实施例中教师网络与学生网络的一个架构示意图；

图3为本申请实施例中图像识别方法的一个实施例示意图；

图4为本申请实施例中图像识别装置的一个实施例示意图；

图5为本申请实施例中图像识别装置的另一个实施例示意图；

图6为本申请实施例中图像识别装置的另一个实施例示意图；

图7为本申请实施例中图像识别装置的另一个实施例示意图。

实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

在工业生产过程中，由于现有工作条件以及人员技术的局限性，产品质量极易受到影响。其中，表面缺陷是产品质量受到影响的最直观表现，因此，为了保证合格率和产品质量的可靠性，必须进行产品表面缺陷检测，即表面缺陷检测是工业质量检测中的关键一环。传统的产品缺陷大多由熟练的质检人员根据人工经验进行检测。由于质检人员在检测时可能出现视觉疲劳，容易受环境因素干扰，并且每个人对于瑕疵的判断都不尽相同，这就使得检测效率和质量难以得到保证。因此现在很多企业选择用机器视觉设备来替代人工做一些重复性的工作，提高企业的生产效率以及产品质量。图像异常检测旨在对同质图像中的异质区域进行识别和定位，已广泛应用于制造业缺陷检测、医疗诊断等领域。目前通常可以采用基于知识蒸馏的方法进行工业产品的缺陷识别。基于知识蒸馏的异常检测方法通常包含一个教师网络和一个学生网络，其中教师网络提供监督信号，帮助学生网络重构正常数据。这种基于知识蒸馏方法中的一个简单而基本的假设是：如果学生网络只感知正常样本，那么面对输入为异常样本时，学生网络输出的重构特征会与教师网络输出的原始特征有很大的差异。这种差异可作为异常程度的判断标准。然而，对于一些与正常特征相似的异常原始特征，学生网络仍可对其完好地重构，即该方法存在教师网络输出的原始特征与学生网络重构的特征之间的差异较小，从而导致缺陷的漏检，工业缺陷检测的准确率较低。因此目前亟需一种可以精确识别工业图像缺陷的识别方法。

为了解决上述技术问题，本申请提供如下技术方案：获取待识别对象的主模态图像以及至少一个辅模态图像；调用教师网络对该主模态图像进行N层特征提取得到第一特征图集合，并调用该教师网络对该至少一个辅模态图像进行N层特征提取得到第二特征图集合，该教师网络为预训练模型，该第一特征图集合包括N个不同尺度的特征图，该第二特征图集合包括N个不同尺度的特征图，该N为正整数；将该第一特征图集合与该第二特征图集合进行特征融合，以得到该待识别对象的第一多模态特征图集合；调用学生网络基于该第一特征图集合和该第二特征图集合进行特征重构，以得到第二多模态特征图集合；根据该第一多模态特征图集合和该第二多模态特征图集合进行特征比对，以得到该待识别对象的识别结果。这样为待识别图像增加辅模态图像，并利用知识蒸馏网络对待识别图像的主模态特征和辅模态特征进行特征融合，从而增加该待识别图像的特征信息，进而提高对工业图像缺陷的识别准确度。

本申请各可选实施例的图像识别方法可以基于人工智能技术实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

预训练模型（Pre-training model），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT）、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO，BERT，GPT)、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型(ViBERT，CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请还涉及到云技术。其中，云技术（cloud technoolgy）是指在广域网或局域网内将硬件、软件、网络等***资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行为的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。本申请中所涉及到的云技术主要指终端设备或者服务器之间可能通过“云”进行待识别对象的主模态图像和辅模态图像的传输等等。

本申请还涉及到智慧交通技术。智能交通***(Intelligent Traffic System，ITS)又称智能运输***(Intelligent Transportation System)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输***。或者；智能车路协同***(Intelligent Vehicle Infrastructure Cooperative Systems，IVICS)，简称车路协同***，是智能交通***(ITS)的一个发展方向。车路协同***是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通***。

为了方便理解，下面对本申请中的部分名词进行说明。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

神经网络：人工神经网络(Artificial Neural Networks，ANN)，是由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。

卷积层(Convolutional layer，Conv)是指卷积神经网络层中由若干卷积单元组成的层状结构，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，卷积神经网络中包括至少两个神经网络层，其中，每一个神经网络层包含若干个神经元，各个神经元分层排列，同一层的神经元之间没有互相连接，层间信息的传送只沿一个方向进行。

残差神经网络（ResNet）是卷积神经网络(Convolutional Neural Network，CNN)的一种特殊结构，其主要是在CNN中通过短路机制加入了残差单元。一个示例性结构中，ResNet中直接使用stride=2的卷积做下采样，并且用全局平均池化（global averagepool）层替换了全连接层。ResNet的一个重要设计原则是：当特征图（feature map）大小降低一半时，feature map的数量增加一倍，这保持了网络层的复杂度。同时ResNet相比普通网络每两层间增加了短路机制，这就形成了残差学习，导致feature map数量发生了改变。

全连接层(Fully Connected layer，FC)是指该层状结构中的每一个结点均与上一层的所有结点相连，可用于将上一层的神经网络层提取的特征进行综合处理，在神经网络模型中起到“分类器”的作用。

批标准化层（Batch Normalization，BN）和普通的数据标准化类似，是将分散的数据统一的一种做法，也是优化神经网络的一种方法。BN可以被看做一个层面。在一层层的添加神经网络的时候，先有数据，再添加全连接层，全连接层的计算结果会经过激励函数成为下一层的输入。接着重复之前的操作，而BN层就被添加在每一个全连接层和激励函数之间。而BN层的计算可以概括如下：计算一个批次的输入特征中所有元素的均值和方差，然后对输入特征减去均值除以标准差，最后利用可学习参数进行仿射变换，得到最终的输出。

反向传播：前向传播是指模型的前馈处理过程，反向传播与前向传播相反，指根据模型输出的结果对模型各个层的权重参数进行更新。例如，模型包括输入层、隐藏层和输出层，则前向传播是指按照输入层-隐藏层-输出层的顺序进行处理，反向传播是指按照输出层-隐藏层-输入层的顺序，依次更新各个层的权重参数。

本申请实施例提供的一种图像识别方法、装置、设备及存储介质，提高对工业图像缺陷的识别准确度。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的用户终端，也可以实施为服务器。

电子设备通过运行本申请实施例提供的图像识别方法，提高对工业图像缺陷的识别准确度。即提高电子设备自身对工业图像缺陷的识别准确度。

上述方案可以应用于诸多计算机视觉领域，包括工业图像识别。当利用本申请实施例提供的图像识别方法帮助用户进行图像处理时，该方法可以实现成为独立的线上应用程序，安装在用户使用的计算机设备或者后台服务器中，方便用户使用该程序对进行图像处理。

在该场景下，用户在应用程序界面输入工业产品的彩色图像和深度图像，计算机设备将彩色图像和深度图像输入教师网络得到该彩色图像对应的特征图像以及该深度图像的特征图像，然后该彩色图像对应的特征图像与该深度图像的特征图像进行特征融合，以得到多模态特征图像；基于该彩色图像对应的特征图像与该深度图像的特征图像输入学生网络，以重构得到多模态特征图像；最终将该教师网络输出的多模态特征图像与该学生网络输出的多模态特征图像进行特征比对，从而确定该工业产品的是否存在缺陷。

一个示例性方案中，可以将该图像识别方法应用于智慧交通，比如，车辆通过摄像头获取到道路的彩色图像和深度图像，车载设备将彩色图像和深度图像通过云技术将该彩色图像和深度图像传输至车载设备的后台服务器，然后将该彩色图像和深度图像输入教师网络得到该彩色图像对应的特征图像以及该深度图像的特征图像，然后该彩色图像对应的特征图像与该深度图像的特征图像进行特征融合，以得到多模态特征图像；基于该彩色图像对应的特征图像与该深度图像的特征图像输入学生网络，以重构得到多模态特征图像；最终将该教师网络输出的多模态特征图像与该学生网络输出的多模态特征图像进行特征比对，从而确定该道路是否存在故障。

当然，除了应用于上述场景外，本申请实施例提供方法还可以应用于其他需要图像识别的场景，本申请实施例并不对具体的应用场景进行限定。

参见图1，图1是本申请实施例提供的图像识别方案的一个应用场景下的一个可选的架构示意图，为实现支撑一个图像识别方案，终端设备100通过网络200连接服务器300，服务器300连接数据库400，网络200可以是广域网或者局域网，又或者是二者的组合。其中用于实现图像识别方案的客户端部署于终端设备100上，其中，客户端可以通过浏览器的形式运行于终端设备100上，也可以通过独立的应用程序（application，APP）的形式运行于终端设备100上等，对于客户端的具体展现形式，此处不做限定。本申请涉及的服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备100可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备、智能语音交互设备、智能家电、飞行器等等，但并不局限于此。终端设备100以及服务器300可以通过有线或无线通信方式通过网络200进行直接或间接地连接，本申请在此不做限制。服务器300和终端设备100的数量也不做限制。本申请提供的方案可以由终端设备100独立完成，也可以由服务器300独立完成，还可以由终端设备100与服务器300配合完成，对此，本申请并不做具体限定。其中，数据库400，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理***（Database Management System，DBMS）是为管理数据库而设计的电脑软件***，一般具有存储、截取、安全保障、备份等基础功能。数据库管理***可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言（Extensible Markup Language，XML）；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(Structured Query Language，SQL)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。在本申请中，数据库400可以用于存储训练样本集合和待识别对象的主模态图像以及辅模态图像，当然，训练样本集合和待识别对象的主模态图像以及辅模态图像的存储位置并不限于数据库，例如还可以存储于终端设备100、区块链或者服务器300的分布式文件***中等。

在一些实施例中，服务器300和该终端设备100均可以执行本申请实施例提供的图像识别方法以及图像识别方法中学生网络的训练方法以及该教师网络中的BN层的训练方法。

下面对该学生网络的训练方法进行说明：服务器300获取训练样本集合和初始学生网络，该训练样本集合包括正样本图像和辅模态图像；利用该教师网络对该正样本图像进行N层特征提取，以得到该正样本图像的N个特征图；利用该教师网络对该辅模态图像进行N层特征提取，以得到该辅模态图像的N个特征图；将该正样本图像的N个特征图与该辅模态图像的N个特征图进行特征融合，以得到N个训练多模态特征图；将该正样本图像的N个特征图与该辅模态图像的N个特征图输入该初始学生网络进行特征重构，以得到N个重构特征图；根据该N个重构特征图与该N个训练多模态特征图进行特征比对，以得到损失值；根据该损失值对该初始学生网络进行训练，以得到该学生网络。

应理解的是，为了可以学习到待识别对象的多模态图像的特有特征，还可以在该学生网络的训练过程中，对该教师网络的BN层进行微调训练。

基于上述描述，下面以图2所示的网络架构，以彩色图像和深度图像为例，对本申请中的图像识别进行说明：

调用教师网络（即图2中所示的固定多模态教师编码器）对该彩色图像进行N层特征提取得到主模态特征图像，调用教师网络对该深度图像进行N层特征提取得到辅模态特征图像，其中该/>的取值为1至N；对于每一层的特征图像，进行特征融合，以得到该教师网络输出的多模态特征图像/>，其中该多模态特征图像/>或者 />，其中，该/>是基于/>计算得到的融合权重；同时该教师网络还需要输出一组过渡特征图，即和/>，同样将该/>和/>进行特征融合，得到教师网络最终输出的多模态特征图（其中，/>、该/>和该/>用于解码生成学生网络侧输出的多模态特征图像/>，其中学生网络即为图2所示的可学习的多模态学生解码器）；然后在学生网络侧（即图2中所示的可学习的多模态学生解码器）将/>和/>分别进行先验处理，以得到先验特征图/>和先验特征图/>；然后再将/>和/>进行特征融合（即通过将/>和/>在通道注意力机制以及空间注意力机制中对两个特征图中的元素进行相乘以及相加处理），以得到先验多模态特征图/>；然后基于该/>和/>进行特征重构得到该/>；最后根据该/>与该/>进行特征比对，以确定该彩色图像和该深度图像指示的工业产品是否存在缺陷。同理可得，在本申请中，解码生成该/>的方法与上述过程相似，即在学生网络侧（即图2中所示的可学习的学生解码器）将过渡特征图/>和/>分别进行先验处理，以得到先验特征图/>和先验特征图/>；然后再将/>和/>进行特征融合（即通过将/>和/>在通道注意力机制以及空间注意力机制中对两个特征图中的元素进行相乘以及相加处理），以得到先验多模态特征图/>；然后基于该/>和/>进行特征重构得到该/>。

应理解的是，在图2所示的网络架构中，该教师网络也可以理解为孪生教师网络。因为在实际应用中，该教师网络是复用于对不同模态的图像进行特征提取。同时为了可以对不同模态的图像进行更准确的特征表示，在复用教师网络的过程中，不同模态的图像可以使用不同的批标准化层（即BN层）。

本申请中，该教师网络可以是预训练得到的ResNet，而该学生网络可以是参数可训练的网络，而教师网络与该学生网络构成一个特征重构网络，然后基于重构特征与教师网络提取的特征进行特征比对，从而确定工业产品是否存在在缺陷。

可以理解的是，在本申请的具体实施方式中，涉及到主模态图像和辅模态图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍，下面以服务器为执行主体，对本申请中图像识别方法进行介绍，请参阅图3，本申请实施例中图像识别方法的一个实施例包括：

301、获取待识别对象的主模态图像以及至少一个辅模态图像。

通过摄像头对该待识别对象进行图像采集得到该主模态图像和该至少一个辅模态图像，然后再将该主模态图像与该至少一个辅模态图像传输至该服务器。

本实施例中，该主模态图像可以是设定为该待识别对象的彩色图像（即RGB图像），而该至少一个辅模态图像可以是该待识别对象的深度图像、表面法向图像或者红外图像等等。

302、调用教师网络对该主模态图像进行N层特征提取得到第一特征图集合，并调用该教师网络对该至少一个辅模态图像进行N层特征提取得到第二特征图集合，该教师网络为预训练模型，该第一特征图集合包括N个不同尺度的特征图，该第二特征图集合包括N个不同尺度的特征图，该N为正整数。

该服务器在获取到该主模态图像以及该至少一个辅模态图像之后，调用该教师网络对该主模态图像进行N层特征提取得到N个不同尺度的特征图，以得到该第一特征图集合；然后调用该教师网络对该至少一个辅模态图像进行N层特征提取得到N个不同尺度的特征图，以得到该二特征图集合。应理解的是，在该辅模态图像的数量大于1时，每个辅模态图像都需要调用教师网络对其进行N层特征提取得到N个不同尺度的特征图。

一个示例性方案中，假设工业产品A的主模态图像为彩色图像，辅模态图像为深度图像，则调用该教师网络对该彩色图像进行3层的特征提取，则得到3个不同尺度的特征图。即特征图1、特征图2以及特征图3，此时该特征图1、特征图2以及特征图3归于该第一特征图集合。

调用该教师网络对该深度图像进行3层的特征提取，则得到3个不同尺度的特征图。即特征图A，特征图B和特征图C，此时该特征图A，特征图B和特征图C归于该第二特征图集合。

若该工业产品A的辅模态图像还包括表面法向量图像，则调用该教师网络对该表面法向量图像进行3层的特征提取，则得到3个不同尺度的特征图。即该特征图a，特征图b和特征图c，此时该特征图a，特征图b和特征图c也可以作为一个第二特征图集合。

即本实施例中，该第二特征图集合用于指示辅模态图像对应的特征图集合。即一个辅模态图像对应一个特征图集合。

可选的，为了保证对待识别对象的多模态图像进行准确学习，该教师网络中针对不同的模态图像设置有不同的批标准化层。

303、将该第一特征图集合与该第二特征图集合进行特征融合，以得到该待识别对象的第一多模态特征图集合。

该服务器对该第一特征图集合与该第二特征图集合中的各个特征图进行一一对应的特征融合，从而得到该待识别对象的第一多模态特征图集合。

特征融合可以理解为不同网络层或不同网络分支输出的特征的组合。在本申请中，该服务器是从该第一特征图集合和第二特征图集合中选择尺寸相同的特征图进行特征组合。其中，特征融合的方法可以是对特征图进行相加，也可以是对特征图进行拼接也可以是基于注意力机制对特征图进行融合。一个示例性方案中，本申请服务器对该第一特征图集合和第二特征图集合进行特征融合的具体操作可以如下：根据第一特征图与第二特征图确定融合权重，其中，该第一特征图与该第二特征图具有相同的尺度，该第一特征图包含于该第一特征图集合，该第二特征图包含于该第二特征图集合；将该第二特征图与该融合权重相乘得到乘积值；将该乘积值与该第一特征图相加得到该第一多模态特征图；依此遍历该第一特征图集合和该第二特征图集合，以得到该第一多模态特征图集合。

一个示例性方案中，假设工业产品A的主模态图像为彩色图像，辅模态图像为深度图像，则该教师网络对该彩色图像进行3层的特征提取，则得到3个不同尺度的特征图。即特征图1、特征图2以及特征图3，此时该特征图1、特征图2以及特征图3归于该第一特征图集合。该教师网络对该深度图像进行3层的特征提取，则得到3个不同尺度的特征图。即特征图A，特征图B和特征图C，此时该特征图A，特征图B和特征图C归于该第二特征图集合。其中，该特征图1与该特征图A具有相同的尺度，该特征图2与该特征图B具有相同的尺度，该特征图3与该特征图C具有相同的尺度。即该特征图1与该特征图A进行特征融合将得到多模态特征图1，该特征图2与该特征图B进行特征融合将得到多模态特征图2，该特征图3与该特征图C进行特征融合将得到多模态特征图3。

下面以该特征图1与该特征图A进行特征融合将得到多模态特征图1为例对该特征融合进行详细说明：

首先确定特征图A的融合权重。本实施例中，该特征图A的融合权重可以设定为固定值，也可以根据特征图A进行相应的计算。一个示例性方案中，在根据特征图A进行相应的计算时，该融合权重可以定义如下：

其中，该用于指示该融合权重，/> ， />。其中，该/>和/>用于指示该特征图A的尺度（即宽度和高度），该/>用于指示该特征图A。在此示例性方案中，可以设定该/>取值为1。

然后根据该融合权重值将该特征图A与该特征图1进行特征融合。其具体操作可以如下：

其中，在此示例性方案中，可以设定该取值为1，该/>用于指示该多模态特征图1。

应理解的是，剩下的特征图进行融合时，也采用上述方案，具体此处不再赘述。

304、调用学生网络基于该第一特征图集合和该第二特征图集合进行特征重构，以得到第二多模态特征图集合。

在本实施例中，该教师网络在输出该和/>之后，该教师网络还可以对该/>和/>进行进一步的特征提取，通过该教师网络的输出层输出一组过渡特征图即/>和/>（此时该过渡特征图是指该教师网络的最终输出特征图，但并未作为特征比对时的特征图。其主要用于作为学生网络进行特征重构时的基础），然后将该过渡特征图输入该学生网络；然后基于该过渡特征图以及该第一特征图集合和该第二特征图集合进行特征重构，以得到该学生网络对应的多模态特征图集合。

本实施例中，该特征重构是指从经过变换的数据中恢复出原始数据。比如，教师网络输出四个尺度的特征图，特征图1、特征图2、特征图3和特征图4，其中，特征图4是对特征图3进行特征提取得到，特征图3是对特征图2进行特征提取得到，特征图2是对特征图1进行特征提取得到，特征图1是对原始图像进行特征提取得到。在学生网络进行特征重构时，需要基于特征图4进行解码得到重构后的特征图C，此时，该特征图C具有与特征图3相同的尺度，但是特征信息可以相同或者存在一定的差异。

其具体操作可以如下：分别对第三特征图和第四特征图进行先验处理，以得到第一先验特征图和第二先验特征图，其中，该第三特征图与该第四特征图具有相同的尺度，该第三特征图为该教师网络对该主模态图像进行第N+1层特征提取得到的特征图，该第四特征图为该教师网络对该至少一个辅模态图像进行第N+1层特征提取得到的特征图；对该第一先验特征图与该第二先验特征图进行特征融合，得到第一先验多模态特征图；基于该第一先验多模态特征图进行特征重构，以得到第二多模态特征图，该第二多模态特征图包含于该第二多模态特征图集合，且该第二多模态特征图的尺度与该教师网络第N层输出的多模态特征图的尺度相同；分别对第五特征图和第六特征图进行先验处理，以得到第三先验特征图和第四先验特征图，其中，该第五特征图与该第六特征图具有相同的尺度，该第五特征图为该教师网络对该主模态图像进行第N层特征提取得到的特征图，该第六特征图为该教师网络对该至少一个辅模态图像进行第N层特征提取得到的特征图；对该第三先验特征图与该第四先验特征图进行特征融合，得到第二先验多模态特征图；基于该第二先验多模态特征图进行特征重构，以得到第三多模态特征图，该第三多模态特征图包含于该第二多模态特征图集合，且该第三多模态特征图的尺度与该教师网络第N-1层输出的多模态特征图的尺度相同；依此重复上述操作，以得到该第二多模态特征图集合。

本实施例中，该先验处理是指根据原型特征与特征图之间在空间位置维度上的相似度，并基于相似度对原型特征进行聚合处理，以得到一个先验生成的特征图。其中原型特征可以理解为在网络模型学习过程对某一类图像识别得到的代表特征。比如对于人脸图像来说，其代表特征可以是具有五官，五官的空间分布特征以及五官的大小特征等等特征。

同时该教师网络还将输出特征图4和特征图D，其中，该特征图4作为该彩色图像的过渡特征图，该特征图D作为该深度图像的过渡特征图。

然后将该特征图4进行先验处理，以得到该先验特征图1；对该特征图D进行先验处理，以得到该先验特征图2。本实施例中，在进行单模态的先验处理时，其具体操作可以如下：首先计算特征图4的每个位置与训练得到的原型特征的相似度矩阵，其中，该相似度矩阵可以定义为/>；

然后使用每个位置对应的相似度权重对原型特征/>进行聚合以得到先验特征图1，其中，该j用于指示第j个原型特征或第j个相似度权重。其聚合的具体操作可以如下：

按照上述规则分别计算该特征图4和该特征图D的先验特征图1和先验特征图2。

然后将该先验特征图1与该先验特征图2基于通道注意力机制和空间注意力机制进行特征融合，以得到该先验多模态特征图1。其具体操作方式可以如下：

其中，该CA是通道注意力机制，SA是空间注意力机制。

最后将该先验多模态特征图1与多模态特征图3在通道维度上进行拼接（也称为特征融合），最后基于该拼接得到的特征图进行特征重构（也称为解码处理），从而得到学生网络的多模态特征图3。

同理，按照上述操作，获取得到特征图3和特征图C对应的先验多模态特征图2，然后基于该先验多模态特征图2与该学生网络的多模态特征图3进行特征重构，从而得到该学生网络的多模态特征图2。

按照上述操作，获取得到特征图2和特征图B对应的先验多模态特征图3，然后基于该先验多模态特征图3与该学生网络的多模态特征图2进行特征重构，从而得到该学生网络的多模态特征图1。

305、根据该第一多模态特征图集合和该第二多模态特征图集合进行特征比对，以得到该待识别对象的识别结果。

该服务器在获取到该学生网络输出的多模态特征图集合之后，将该学生网络输出的多模态特征图集合中的各个多模态特征图与该教师网络得到的各个多模态特征图一一进行特征对比（即计算两个特征图中各个特征元素的相似度），得到各个特征元素对应的差异值（此时该相似度作为差异值）；然后将多个差异值分别与第一阈值进行比较，差异值大于第一阈值的区域识别为缺陷区域。而在存在缺陷区域时，可以确定待识别对象的识别结果为具有缺陷。

应理解的是，也可以对各个特征元素的差异值进行求和或者求平均值或者取最大值作为特征图的整体差异值；然后根据整体差异值与第二阈值进行比较，差异值大于第二阈值，则确定该待识别对象存在缺陷。比如学生网络通过特征重构得到3个多模态特征图，分别是多模态特征图1、多模态特征图2和多模态特征图3。而该教师网络输出3个多模态特征图，分别是多模态特征图A、多模态特征图B和多模态特征图C。其中，多模态特征图1与多模态特征图A具有相同尺度，多模态特征图2与多模态特征图B具有相同尺度，多模态特征图3与多模态特征图C具有相同尺度。因此在进行特征对比时，计算多模态特征图1与多模态特征图A之间的相似度1，多模态特征图2与多模态特征图B之间的相似度2以及多模态特征图3与多模态特征图C的相似度3；然后对相似度1、相似度2和相似度3求和或者求平均值或者取最大值作为该差异值；然后根据该差异值与第二阈值进行判定，若差异值大于第二阈值，则确定该待识别对象存在缺陷。

本实施例中，为待识别对象增加辅模态图像，并利用知识蒸馏网络对待识别对象的主模态特征和辅模态特征进行特征融合，从而增加该待识别图像的特征信息，进而提高对工业图像缺陷的识别准确度。

下面对本申请中的图像识别装置进行详细描述，请参阅图4，图4为本申请实施例中图像识别装置的一个实施例示意图，图像识别装置20包括：

获取模块201，用于获取待识别对象的主模态图像以及至少一个辅模态图像；

处理模块202，用于调用教师网络对该主模态图像进行N层特征提取得到第一特征图集合，并调用该教师网络对该至少一个辅模态图像进行N层特征提取得到第二特征图集合，该教师网络为预训练模型，该第一特征图集合包括N个不同尺度的特征图，该第二特征图集合包括N个不同尺度的特征图，该N为正整数；

融合模块203，用于将该第一特征图集合与该第二特征图集合进行特征融合，以得到该待识别对象的第一多模态特征图集合；

该处理模块202，用于调用学生网络基于该第一特征图集合和该第二特征图集合进行特征重构，以得到第二多模态特征图集合；

识别模块204，用于根据该第一多模态特征图集合和该第二多模态特征图集合进行比对，以得到该待识别对象的识别结果。

本申请实施例中，提供了一种图像识别装置。采用上述装置，为待识别图像增加辅模态图像，并利用知识蒸馏网络对待识别图像的主模态特征和辅模态特征进行特征融合，从而增加该待识别图像的特征信息，进而提高对工业图像缺陷的识别准确度。

可选地，在上述图4所对应的实施例的基础上，本申请实施例提供的图像识别装置20的另一实施例中，

该融合模块203，用于根据第一特征图与第二特征图确定融合权重，其中，该第一特征图与该第二特征图具有相同的尺度，该第一特征图包含于该第一特征图集合，该第二特征图包含于该第二特征图集合；

将该第二特征图与该融合权重相乘得到乘积值；

将该乘积值与该第一特征图相加得到该第一多模态特征图；

本申请实施例中，提供了一种图像识别装置。采用上述装置，对于同一尺度的特征图进行无参数调试的特征融合，同时对辅模态进行融合权重设定，可以在提高识别准确度的情况下，减少对该辅模态特征的计算。

可选地，在上述图4所对应的实施例的基础上，本申请实施例提供的图像识别装置20的另一实施例中，该处理模块202，用于分别对第三特征图和第四特征图进行先验处理，以得到第一先验特征图和第二先验特征图，其中，该第三特征图与该第四特征图具有相同的尺度，该第三特征图为该教师网络对该主模态图像进行第N+1层特征提取得到的特征图，该第四特征图为该教师网络对该至少一个辅模态图像进行第N+1层特征提取得到的特征图；

依此重复上述操作，以得到该第二多模态特征图集合。

本申请实施例中，提供了一种图像识别装置。采用上述装置，对于主模态特征图和辅模态特征分别进行单模态下的先验生成，这样可以通过原型特征更好的学习到不同模态特征图的特征；然后再将主模态特征图与辅模态特征进行特征融合，这样可以使得学生网络可以更精确的进行特征重构，从而提高对工业图像缺陷的识别准确度。

可选地，在上述图4所对应的实施例的基础上，如图5所示，本申请实施例提供的图像识别装置20的另一实施例中，

该获取模块201，用于获取训练样本集合和初始学生网络，该训练样本集合包括正样本图像和辅模态图像；

该处理模块202，用于利用该教师网络对该正样本图像进行N层特征提取，以得到该正样本图像的N个特征图；

该装置还包括训练模块205，用于根据该损失值对该初始学生网络进行训练，以得到该学生网络。

本申请实施例中，提供了一种图像识别装置。采用上述装置，对于主模态特征图和辅模态特征分别进行单模态下的先验生成，这样可以通过原型特征更好的学习到不同模态特征图的特征；然后再将主模态特征图与辅模态特征进行特征融合，这样可以使得学生网络可以更精确的进行特征重构，从而提高对工业图像缺陷的识别准确度。同时，利用正样本图像对该学生网络进行学习，可以方便学生网络学习得到图像的原型特征。

可选地，在上述图5所对应的实施例的基础上，本申请实施例提供的图像识别装置20的另一实施例中，

该辅模态图像包括工业样本的深度图和表面法向量图，该正样本图像为工业样的彩色图像。

本申请实施例中，提供了一种图像识别装置。采用上述装置，设定彩色图像为主模态图像，可以获取较多的表面特征，而深度图或者表面法向量可以获取到更多的深度特征和几何特征，从而增加了对待识别对象的特征表示，进而提高对待识别对象缺陷的识别准确度。

可选地，在上述图5所对应的实施例的基础上，本申请实施例提供的图像识别装置20的另一实施例中，该获取模块201，用于获取该教师网络的至少两个初始批标准化层，其中，该至少两个初始批标准化层与该正样本图像和该辅模态图像一一对应；

该训练模块205，用于根据该损失值对该至少两个初始批标准化层进行微调训练，以得到至少两个批标准化层，其中，该至少两个批标准化层具有不同的网络参数。

本申请实施例中，提供了一种图像识别装置。采用上述装置，对于不同模态的图像采用不同的BN层进行处理，可以获取到更准确模态特征表示，从而提高对待识别对象缺陷的识别准确度。

可选地，在上述图5所对应的实施例的基础上，本申请实施例提供的图像识别装置20的另一实施例中，该处理模块202，用于调用该教师网络对该主模态图像进行特征提取并通过对应的批标准化层处理，以得到第一特征图集合；

本申请提供的图像识别装置可用于服务器，请参阅图6，图6是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作***341，例如Windows Server^TM，Mac OS X^TM，Unix^TM， Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器结构。

本申请提供的图像识别装置可用于终端设备，请参阅图7，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。在本申请实施例中，以终端设备为智能手机为例进行说明：

图7示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图7，智能手机包括：射频（radio frequency，RF）电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真（wireless fidelity，WiFi）模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图7中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对智能手机的各个构成部件进行具体的介绍：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器480处理；另外，将设计上行的数据发送给基站。通常，RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（low noiseamplifier，LNA）、双工器等。此外，RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯*** （globalsystem of mobile communication，GSM）、通用分组无线服务（general packet radioservice，GPRS）、码分多址（code division multiple access，CDMA）、宽带码分多址（wideband code division multiple access，WCDMA）、长期演进（long term evolution，LTE）、电子邮件、短消息服务（short messaging service，SMS）等。

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器（liquidcrystal display，LCD）、有机发光二极管（organic light-emitting diode，OLED）等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图7中，触控面板431与显示面板441是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与智能手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一智能手机，或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块470，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监测。可选的，处理器480可包括一个或多个处理单元；可选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

智能手机还包括给各个部件供电的电源490（比如电池），可选的，电源可以通过电源管理***与处理器480逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图7所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别对象的主模态图像以及至少一个辅模态图像；

调用教师网络对所述主模态图像进行N层特征提取得到第一特征图集合，并调用所述教师网络对所述至少一个辅模态图像进行N层特征提取得到第二特征图集合，所述教师网络为预训练模型，所述第一特征图集合包括N个不同尺度的特征图，所述第二特征图集合包括N个不同尺度的特征图，所述N为正整数；

将所述第一特征图集合与所述第二特征图集合进行特征融合，以得到所述待识别对象的第一多模态特征图集合，其中包括：根据第一特征图与第二特征图确定融合权重，其中，所述第一特征图与所述第二特征图具有相同的尺度，所述第一特征图包含于所述第一特征图集合，所述第二特征图包含于所述第二特征图集合，所述融合权重是根据特征图的宽度和高度进行计算得到的；将所述第二特征图与所述融合权重相乘得到乘积值；将所述乘积值与所述第一特征图相加得到第一多模态特征图，所述第一多模态特征图归于所述第一多模态特征图集合；依此遍历所述第一特征图集合和所述第二特征图集合，以得到第一多模态特征图集合；

调用学生网络基于所述第一特征图集合和所述第二特征图集合进行特征重构，以得到第二多模态特征图集合；

根据所述第一多模态特征图集合和所述第二多模态特征图集合进行特征比对，以得到所述待识别对象的识别结果；

其中，调用学生网络基于所述第一特征图集合和所述第二特征图集合进行特征重构，以得到第二多模态特征图集合包括：

步骤1：分别对第五特征图和第六特征图进行先验处理，以得到第三先验特征图和第四先验特征图，其中，所述第五特征图与所述第六特征图具有相同的尺度，所述第五特征图为所述教师网络对所述主模态图像进行第N层特征提取得到的特征图，所述第六特征图为所述教师网络对所述至少一个辅模态图像进行第N层特征提取得到的特征图，先验特征图的获取方式包括：计算特征图的每个位置与训练得到的原型特征的相似度矩阵，使用每个位置对应的相似度权重对原型特征进行聚合以得到先验特征图；

步骤2：基于通道注意力机制和空间注意力机制，对所述第三先验特征图与所述第四先验特征图进行特征融合，得到第二先验多模态特征图；

步骤3：基于所述第二先验多模态特征图进行特征重构，以得到第三多模态特征图，所述第三多模态特征图包含于所述第二多模态特征图集合，且所述第三多模态特征图的尺度与所述教师网络第N-1层输出的多模态特征图的尺度相同；

步骤4：N递减1，重复执行步骤1-3，直至N=2，以得到所述第二多模态特征图集合。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本集合和初始学生网络，所述训练样本集合包括正样本图像和辅模态图像；

利用所述教师网络对所述正样本图像进行N层特征提取，以得到所述正样本图像的N个特征图；

利用所述教师网络对所述辅模态图像进行N层特征提取，以得到所述辅模态图像的N个特征图；

将所述正样本图像的N个特征图与所述辅模态图像的N个特征图进行特征融合，以得到N个训练多模态特征图；

将所述正样本图像的N个特征图与所述辅模态图像的N个特征图输入所述初始学生网络进行特征重构，以得到N个重构特征图；

根据所述N个重构特征图与所述N个训练多模态特征图进行特征比对，以得到损失值；

根据所述损失值对所述初始学生网络进行训练，以得到所述学生网络。

3.根据权利要求2所述的方法，其特征在于，所述辅模态图像包括工业样本的深度图和表面法向量图，所述正样本图像为工业样本的彩色图像。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述教师网络的至少两个初始批标准化层，其中，所述至少两个初始批标准化层与所述正样本图像和所述辅模态图像一一对应；

根据所述损失值对所述至少两个初始批标准化层进行微调训练，以得到至少两个批标准化层，其中，所述至少两个批标准化层具有不同的网络参数。

5.根据权利要求4所述的方法，其特征在于，所述调用教师网络对所述主模态图像进行N层特征提取得到第一特征图集合，并调用所述教师网络对所述至少一个辅模态图像进行N层特征提取得到第二特征图集合包括：

调用所述教师网络对所述主模态图像进行特征提取并通过对应的批标准化层处理，以得到所述第一特征图集合；

调用所述教师网络对所述至少一个辅模态图像进行特征提取并通过对应的批标准化层处理，以得到所述第二特征图集合。

6.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别对象的主模态图像以及至少一个辅模态图像；

处理模块，用于调用教师网络对所述主模态图像进行N层特征提取得到第一特征图集合，并调用所述教师网络对所述至少一个辅模态图像进行N层特征提取得到第二特征图集合，所述教师网络为预训练模型，所述第一特征图集合包括N个不同尺度的特征图，所述第二特征图集合包括N个不同尺度的特征图，所述N为正整数；

融合模块，用于将所述第一特征图集合与所述第二特征图集合进行特征融合，以得到所述待识别对象的第一多模态特征图集合，其中包括：根据第一特征图与第二特征图确定融合权重，其中，所述第一特征图与所述第二特征图具有相同的尺度，所述第一特征图包含于所述第一特征图集合，所述第二特征图包含于所述第二特征图集合，所述融合权重是根据特征图的宽度和高度进行计算得到的；将所述第二特征图与所述融合权重相乘得到乘积值；将所述乘积值与所述第一特征图相加得到第一多模态特征图，所述第一多模态特征图归于所述第一多模态特征图集合；依此遍历所述第一特征图集合和所述第二特征图集合，以得到第一多模态特征图集合；

所述处理模块，用于调用学生网络基于所述第一特征图集合和所述第二特征图集合进行特征重构，以得到第二多模态特征图集合；

识别模块，用于根据所述第一多模态特征图集合和所述第二多模态特征图集合进行比对，以得到所述待识别对象的识别结果；

其中，所述处理模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练模块；

所述获取模块，用于获取训练样本集合和初始学生网络，所述训练样本集合包括正样本图像和辅模态图像；利用所述教师网络对所述正样本图像进行N层特征提取，以得到所述正样本图像的N个特征图；利用所述教师网络对所述辅模态图像进行N层特征提取，以得到所述辅模态图像的N个特征图；将所述正样本图像的N个特征图与所述辅模态图像的N个特征图进行特征融合，以得到N个训练多模态特征图；将所述正样本图像的N个特征图与所述辅模态图像的N个特征图输入所述初始学生网络进行特征重构，以得到N个重构特征图；根据所述N个重构特征图与所述N个训练多模态特征图进行特征比对，以得到损失值；

所述训练模块，用于根据所述损失值对所述初始学生网络进行训练，以得到所述学生网络。

8.根据权利要求7所述的装置，其特征在于，所述辅模态图像包括工业样本的深度图和表面法向量图，所述正样本图像为工业样本的彩色图像。

9.根据权利要求7所述的装置，其特征在于，所述获取模块，用于获取所述教师网络的至少两个初始批标准化层，其中，所述至少两个初始批标准化层与所述正样本图像和所述辅模态图像一一对应；

所述训练模块，用于根据所述损失值对所述至少两个初始批标准化层进行微调训练，以得到至少两个批标准化层，其中，所述至少两个批标准化层具有不同的网络参数。

10.根据权利要求9所述的装置，其特征在于，所述处理模块，用于：

11.一种计算机设备，其特征在于，包括：存储器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至5中任一项所述的方法；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至5中任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，计算机设备的处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至5中任一项所述的方法。