CN116977262A

CN116977262A - 对象质量检测方法、质量检测模型的构建方法、和装置

Info

Publication number: CN116977262A
Application number: CN202310340960.1A
Authority: CN
Inventors: 张博深
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-10-31

Abstract

本申请涉及一种对象质量检测方法、质量检测模型的构建方法、装置、设备、存储介质和程序产品。所述方法涉及人工智能，包括：根据训练好的质量检测模型，对与对象质量检测请求对应的待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。根据各第一检测模型以及第二检测模型，对各增强产品图像样本进行预测处理，获得第一预测结果以及第二预测结果，根据第一预测结果的监督数据和第二预测结果确定监督损失，根据第二检测模型的监督损失以及强化损失确定奖励参数，根据奖励参数从各第一检测模型中确定目标检测模型，根据目标检测模型对第二检测模型进行蒸馏训练得到质量检测模型，采用本方法提升了对产品的质量检测准确度。

Description

对象质量检测方法、质量检测模型的构建方法、和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种对象质量检测方法、质量检测模型的构建方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能技术的发展，以及对生产制造过程中的不同产品的质量要求日益提升，出现了工业缺陷质检技术。其中，工业缺陷质检主要是通过拍摄工业产品的表面得到产品表面图片，并通过对产品表面图片进行特征提取、缺陷识别以及质量检测等处理，以获得相应的检测识别结果，确定产品是否存在缺陷，避免缺陷产品流入市场。

传统上，通常采用训练卷积神经网络模型的方式，以根据卷积神经网络模型对产品表面图片进行特征提取，并对提取到的特征进行二分类，分为有缺陷和缺陷两个类别，从而实现对产品进行有无质量问题的分类。

然而，实际应用过程中，由于产品的多样化，对不同产品采集到的缺陷图像并不属于简单的二分类，比如包括较多缺陷图像的程度较低，无法直接划分为有缺陷图像，或者某些图像缺陷程度十分轻微，本质上可以划分为无缺陷图像的情况等，即实际应用过程中的产品图像，无法通过简单的二值标签进行全面表述。同时，简单的二值标签需要人工预先标注，不同人进行标注时，根据缺陷图像的不同缺陷程度，其标注结果也会不同，会导致预先进行的人工标注的标签带有噪声和误差数据。而若利用带噪和误差的数据进行模型的训练，通常所获得的模型也携带噪声，会导致模型的识别、分类等性能下降，进而所利用模型获得的质量检测结果准确度也较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升对产品的质量检测准确度的质量检测模型的构建方法、对象质量检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种对象质量检测方法。所述方法包括：

接收对象质量检测请求，并获取与所述对象质量检测请求对应的待检测产品图像；

根据训练好的质量检测模型，对所述待检测产品图像进行质量检测处理，获得与所述待检测产品图像对应的缺陷置信度数据；

其中，所述训练好的质量检测模型，是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的；所述目标检测模型是根据奖励参数从各第一检测模型中确定得到的，所述奖励参数是根据对所述第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各所述第一检测模型进行强化训练过程的强化损失，确定得到的；所述监督损失是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的，所述第一预测结果是根据多个训练好的第一检测模型，对各所述增强产品图像样本进行预测处理得到的，所述第二预测结果是根据第二检测模型，对各所述增强产品图像样本进行预测处理得到的。

第二方面，本申请提供了一种质量检测模型的构建方法。所述方法包括：

获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各所述增强产品图像样本进行预测处理，获得与各所述第一检测模型对应的第一预测结果、以及与所述第二检测模型对应的第二预测结果；

确定与各所述第一预测结果对应的监督数据，并根据所述监督数据和所述第二预测结果，确定在对所述第二检测模型训练过程中的监督损失；

根据各所述增强产品图像样本，对各所述第一检测模型进行强化训练，并确定强化训练过程的强化损失；

基于所述监督损失和所述强化损失，确定奖励参数；

根据所述奖励参数，从各所述第一检测模型中确定出目标检测模型，并根据所述目标检测模型对所述第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

第三方面，本申请还提供了一种对象质量检测装置。所述装置包括：

待检测产品图像获得模块，用于接收对象质量检测请求，并获取与所述对象质量检测请求对应的待检测产品图像；

缺陷置信度数据获得模块，用于根据训练好的质量检测模型，对所述待检测产品图像进行质量检测处理，获得与所述待检测产品图像对应的缺陷置信度数据；

第四方面，本申请还提供了一种质量检测模型的构建装置。所述装置包括：

预测结果获得模块，用于获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各所述增强产品图像样本进行预测处理，获得与各所述第一检测模型对应的第一预测结果、以及与所述第二检测模型对应的第二预测结果；

监督损失确定模块，用于确定与各所述第一预测结果对应的监督数据，并根据所述监督数据和所述第二预测结果，确定在对所述第二检测模型训练过程中的监督损失；

强化损失确定模块，用于根据各所述增强产品图像样本，对各所述第一检测模型进行强化训练，并确定强化训练过程的强化损失；

奖励参数确定模块，用于基于所述监督损失和所述强化损失，确定奖励参数；

质量检测模型获得模块，用于根据所述奖励参数，从各所述第一检测模型中确定出目标检测模型，并根据所述目标检测模型对所述第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第六方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于所述监督损失和所述强化损失，确定奖励参数；

第七方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第八方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

基于所述监督损失和所述强化损失，确定奖励参数；

第九方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

第十方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于所述监督损失和所述强化损失，确定奖励参数；

上述对象质量检测方法、质量检测模型的构建方法、装置、计算机设备、存储介质和程序产品中，通过接收对象质量检测请求，获取与对象质量检测请求对应的待检测产品图像，进而根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。其中，训练好的质量检测模型是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的，目标检测模型则是根据奖励参数从各第一检测模型中确定得到的，达到了利用强化训练实现对各第一检测模型的进一步加权和选择，确定出最合适的目标检测模型的目的，奖励参数则是根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失确定得到的，监督损失则是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的。通过根据目标模型对第二检测模型进行知识蒸馏训练，使得第二检测模型可学习到第一检测模型中的知识，减少对产品图像样本中预先标注的标签的依赖，以及预先标注的标签带来的噪声误差数据，从而获得模型精准度更高的质量检测模型，从而提升了利用质量检测模型对产品的质量检测准确度。

附图说明

图1为一个实施例中对象质量检测方法以及质量检测模型的构建方法的应用环境图；

图2为一个实施例中对象质量检测方法的流程示意图；

图3为一个实施例中不同严重程度的缺陷图像示意图；

图4为一个实施例中获得与待检测产品图像对应的缺陷置信度数据的过程示意图；

图5为一个实施例中待检测产品图像对应的缺陷置信度数据示意图；

图6为一个实施例中获得训练好的质量检测模型的流程示意图；

图7为一个实施例中获得训练好的第一检测模型的过程示意图；

图8为一个实施例中强化训练过程中的强化学习算法示意图；

图9为另一个实施例中对象质量检测方法的流程示意图；

图10为一个实施例中质量检测模型的构建方法的流程示意图；

图11为一个实施例中获得质量检测模型的过程示意图；

图12为一个实施例中对象质量检测装置的结构框图；

图13为一个实施例中质量检测模型的构建装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的对象质量检测方法、以及质量检测模型的构建方法，具体涉及人工智能技术，可应用于云技术、人工智能、智慧交通、网络媒体以及辅助驾驶等各种场景。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

而云技术(Cloud technology)，是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。由于技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，通常需要通过作为重要支撑的云计算来实现。其中，人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)，属于目前主流的一种人工智能平台的服务方式，具体来说，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城，即所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本申请实施例提供的对象质量检测方法、以及质量检测模型的构建方法，具体涉及人工智能技术中的计算机视觉技术和机器学***板电脑、物联网设备、便携式可穿戴设备以及飞行器等，物联网设备可为智能音箱、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不对此进行限制。

进一步地，终端102和服务器104均可单独用于执行本申请实施例中提供的对象质量检测方法、以及质量检测模型的构建方法，终端102和服务器104也可以协同执行本申请实施例提供的对象质量检测方法、以及质量检测模型的构建方法。举例来说，以终端102和服务器104协同执行本申请实施例提供的对象质量检测方法为例，服务器104通过接收对象质量检测请求，并获取与对象质量检测请求对应的待检测产品图像。其中，对象质量检测请求可以是基于终端102触发的，终端102可将触发的对象质量请求发送至服务器104，待检测产品图像，可存储在服务器104的云端存储中、或存储在数据存储***中、或存储在终端102的本地存储中，当需要进行对象质量检测处理时，可从服务器104、或数据存储***、或终端102中获取。进一步地，服务器104根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，从而获得与待检测产品图像对应的缺陷置信度数据，还可进一步将获得缺陷置信度数据反馈至终端102，也可将缺陷置信度数据存储在服务器104的云端存储数据、或存储***中。

其中，训练好的质量检测模型，是服务器104根据目标检测模型对第二检测模型进行知识蒸馏训练得到的，目标检测模型是服务器104根据奖励参数从各第一检测模型中确定得到的，奖励参数则是服务器104根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失，确定得到的。其中，监督损失是服务器104根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的，而第一预测结果是根据多个训练好的第一检测模型，对各增强产品图像样本进行预测处理得到的，同样地，第二预测结果是根据第二检测模型，对各增强产品图像样本进行预测处理得到的。

同样地，以终端102和服务器104协同执行本申请实施例提供的质量检测模型的构建方法为例，服务器104通过获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果。其中，增强产品图像样本可存储在服务器104的云端存储中、或存储在数据存储***中、或存储在终端102的本地存储中，当需要进行质量检测模型的构建时，可从服务器104、或数据存储***、或终端102中获取。进一步地，服务器104通过确定与各第一预测结果对应的监督数据，并根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失，同样地，服务器104还需根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失，进而基于监督损失和强化损失，确定奖励参数。最终，服务器104根据奖励参数，从各第一检测模型中确定出目标检测模型，并根据目标检测模型对第二检测模型进行知识蒸馏训练，从而获得训练好的质量检测模型。

在一个实施例中，如图2所示，提供了一种对象质量检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，接收对象质量检测请求，并获取与对象质量检测请求对应的待检测产品图像。

具体地，在对工业产品或电子产品的质量检测过程中，检测人员可基于终端触发对象质量检测请求，终端将所触发的对象质量检测请求发送至服务器，服务器在接收到对象质量检测请求后，通过基于对象质量请求进行进一步解析，可获得对象质量检测请求对应的待检测产品图像。

其中，待检测产品图像具体可以是工业产品或电子产品等的产品图像，比如工业产品或电子产品的整体表面图像、某个组件的表面图像、或不同组件的连接处图像等，通过对工业产品或电子产品的产品图像进行质量检测，获得相应的缺陷置信度数据，可根据缺陷置信度数据确定各产品图像是否存在质量缺陷。

在一个实施例中，如图3所示，提供了不同严重程度的缺陷图像示意图，参照图3可知，图3中的图a为OK图像(即无质量缺陷的产品图像)，图3中的图b为轻度缺陷图像(即图像缺陷程度十分轻微，本质上可以划分为无缺陷图像)，而图3中的图c为严重缺陷图像。

其中，采用传统的二分类深度学习模型，对各产品图像进行检测时，通常只能将产品图像简单分为有缺陷的图像和无缺陷的图像，并不能针对不同严重程度的产品图像进行细分，容易出现直接将缺陷程度较低的产品图像直接划分为有缺陷图像，而忽略其由于图像缺陷程度十分轻微，本质上可以划分为无缺陷图像的实际划分情况，进而需要利用训练好的质量检测模型，对不同严重程度的待检测产品图像进行质量检测，获得各自的缺陷置信度数据，以根据缺陷置信度数据进一步判断是否属于缺陷图像。

步骤S204，根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。训练好的质量检测模型，是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的，目标检测模型是根据奖励参数从各第一检测模型中确定得到的，奖励参数是根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失，确定得到的，监督损失是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的，第一预测结果是根据多个训练好的第一检测模型，对各增强产品图像样本进行预测处理得到的，第二预测结果是根据第二检测模型，对各增强产品图像样本进行预测处理得到的。

具体地，利用根据训练好的质量检测模型，对各待检测产品图像进行质量检测处理，通过质量检测模型获得与待检测产品图像对应的缺陷置信度数据。其中，缺陷置信度数据用于确定出待检测产品图像是否属于缺陷图像，具体可通过将缺陷置信度数据和预设缺陷度置信阈值进行比对，若缺陷置信度数据大于预设缺陷度置信阈值，则表明对应的待检测产品图像属于缺陷图像，若缺陷置信度数据不大于预设缺陷度置信阈值，则表明对应的待检测产品图像属于无缺陷图像。

其中，预设缺陷度置信阈值可根据实际需求进行设置，具体可以是(0,1)范围内的不同取值，比如0.5、0.8、或0.9等取值，不局限于某个或某些具体取值。举例来说，预设缺陷度置信阈值可设置为0.5，则若缺陷置信度数据大于预设缺陷度置信阈值0.5时，则表明对应的待检测产品图像属于缺陷图像，若缺陷置信度数据不大于预设缺陷度置信阈值0.5时，则表明对应的待检测产品图像属于无缺陷图像。

在一个实施例中，用于进行质量检测的质量检测模型，是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的，其中，目标检测模型是根据奖励参数从各第一检测模型中确定得到的，而奖励参数则是根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失，确定得到的。其中，监督损失是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的，而第一预测结果是根据多个训练好的第一检测模型，对各增强产品图像样本进行预测处理得到的，以及第二预测结果是根据第二检测模型，对各增强产品图像样本进行预测处理得到的。

其中，第一检测模型和第二检测模型的网络层级结构相同，且第一检测模型的层级节点数大于第二检测模型中同一层级的层级节点数，进而在进行知识蒸馏训练时，是将从各第一检测模型中确定出的目标检测模型的知识传递至第二检测模型中。

具体来说，根据多个训练好的第一检测模型对各增强产品图像样本进行预测处理，可获得第一预测结果，而根据第二检测模型对各增强产品图像样本进行预测处理，可获得第二检测结果，进而通过确定与各第一预测结果对应的监督数据，并根据监督数据和第二预测结果，可确定在对第二检测模型训练过程中的监督损失。

进一步地，根据增强产品图像样本对各第一检测模型进行强化训练，可获得化训练过程的强化损失，进而根据确定出的监督损失以及强化损失，可确定用于筛选目标检测模型的奖励参数，以根据奖励参数从各第一检测模型中确定出目标检测模型，并根据目标检测模型对第二检测模型进行知识蒸馏训练，最终获得训练好的质量检测模型。

在一个实施例中，如图4所示，提供了一种获得与待检测产品图像对应的缺陷置信度数据的过程示例，参照图4可知，通过将待检测产品图像输入训练好的质量检测模型中，通过质量检测模型对检测产品图像进行特征提取以及概率预测，可输出与待检测产品图像对应的缺陷置信度数据。进一步地，通过将缺陷置信度数据和预设缺陷度置信阈值(图4中为缺陷度置信阈值的其中一个示例，缺陷度置信阈值取0.5时的示例)进行比对，并根据比对结果将待检测产品图像进行分类。

其中，若缺陷置信度数据大于预设缺陷度置信阈值0.5，则表明对应的待检测产品图像属于缺陷图像，若缺陷置信度数据不大于预设缺陷度置信阈值0.5，则表明对应的待检测产品图像属于无缺陷图像，即属于正常图像，从而实现根据缺陷置信度数据对待检测产品图像的精准分类。

进一步地，如图5所示，提供了一种与待检测产品图像对应的缺陷置信度数据示例，参照图5可知，图5中的图a为OK图像(即无缺陷的正常图像)，即图a对应的缺陷置信度数据为0.05，其小于缺陷度置信阈值0.5，而图5中的图b则为缺陷图像，即图b对应的缺陷置信度数据为0.95，其大于缺陷度置信阈值0.5。

上述对象质量检测方法中，通过接收对象质量检测请求，获取与对象质量检测请求对应的待检测产品图像，进而根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。其中，训练好的质量检测模型是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的，目标检测模型则是根据奖励参数从各第一检测模型中确定得到的，达到了利用强化训练实现对各第一检测模型的进一步加权和选择，确定出最合适的目标检测模型的目的，奖励参数则是根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失确定得到的，监督损失则是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的。通过根据目标模型对第二检测模型进行知识蒸馏训练，使得第二检测模型可学习到第一检测模型中的知识，减少对产品图像样本中预先标注的标签的依赖，以及预先标注的标签带来的噪声误差数据，从而获得模型精准度更高的质量检测模型，从而提升了利用质量检测模型对产品的质量检测准确度。

在一个实施例中，如图6所示，获得训练好的质量检测模型的方式，具体包括以下步骤：

步骤S602，获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果。

具体地，通过获取产品图像样本，并对各产品图像样本进行数据增强处理，以获得不同视角下的经过数据增强处理后的增强产品图像样本，从而增加用于进行模型训练的产品图像样本的随机性，并减少训练过程中的各产品图像样本携带的误差数据。其中，数据增强处理通过包括对产品图像进行旋转、平移、缩放、裁剪、以及添加高斯噪声等不同处理方式。

进一步地，根据多个训练好的第一检测模型，对各增强产品图像样本进行预测处理，可获得与各第一检测模型对应的第一预测结果，同样地，根据第二检测模型对各增强产品图像样本进行预测处理，可获得与第二检测模型对应的第二预测结果。

其中，第一检测模型和第二检测模型的网络层级结构相同，且第一检测模型的层级节点数大于第二检测模型中同一层级的层级节点数，即第一检测模型可以理解为用于对第二检测模型进行知识蒸馏训练的教师模型，第二检测模型则可以理解为学习其他教师模型的知识的学生模型。其中，第一检测模型和第二检测模型具体可以是深度学习模型或神经网络模型等，即通过对深度学习模型或神经网络模型进行多层次的训练，可获得最终用于进行质量检测的质量检测模型。

在一个实施例中，在获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果之前，还包括获得训练好的第一检测模型的步骤。其中，获得训练好的第一检测模型的方式，包括：

获取产品图像样本，并根据各产品图像样本对初始检测模型进行训练；确定对初始检测模型训练过程中的训练损失；若训练损失满足对初始检测模型的训练结束条件，获得训练好的第一检测模型。

具体地，通过获取工业产品或电子产品对应的产品图像，并对各产品图像进行预先标注，即为产品图像添加标注标签，包括缺陷标签和正常标签，以获得多个产品图像样本，从而根据携带标注标签的各产品图像样本，对初始检测模型进行训练，以获得训练好的第一检测模型。

进一步地，在训练过程中，通过确定出对初始检测模型进行训练的训练损失，并判断训练损失是否满足对初始检测模型的训练结束条件。其中，若确定训练损失满足对初始检测模型的训练结束条件，则获得训练好的第一检测模型。其中，对初始检测模型的训练结束条件具体可以是训练损失达到预设损失阈值，还可以是对初始检测模型的训练迭代次数达到预设次数。

其中，具体通过以下公式(1)确定计算得到对初始检测模型进行训练的训练损失l：

l＝CE(p,y) (1)；

其中，p表示通过初始检测模型对产品图像样本特征提取、以及输出得到的概率预测结果，y表示产品样本图像携带的标注标签(包括正常标签和缺陷标签)，CE(·)表示交叉熵损失函数，即通过计算概率预测结果p和产品样本图像携带的标注标签y之间的交叉熵损失值，可获得对初始检测模型进行训练的训练损失l。

在一个实施例中，计算训练损失l时，也可以采用其他损失函数，比如Kl损失(即KL散度损失)等，不局限采用交叉熵损失函数这一种损失计算方式。

进一步地，具体通过以下公式(2)，确定通过初始检测模型对产品图像样本特征提取、以及输出得到的概率预测结果p：

p＝f(x；θ) (2)；

其中，f(；θ)表示初始检测模型，x表示产品图像样本，θ表示训练过程中初始检测模型的权重参数，通过利用训练损失l进行梯度下降迭代更新模型参数，可得到训练完成的模型权重θ*。

在一个实施例中，如图7所示，提供了一种获得训练好的第一检测模型的过程示例，参照图7可知，通过利用多个产品图像样本，对初始检测模型进行训练，并根据模型的输出结果即概率预测结果、以及产品图像样本对应的标注标签，确定训练过程中的训练损失，后续具体是进一步判断训练损失，是否满足对初始检测模型的训练结束条件，并在确定训练损失满足对初始检测模型的训练结束条件时，获得训练好的第一检测模型。

进一步地，具体是根据不同的产品图像样本集，分别对多个初始检测模型进行训练，以获得多个训练好的第一检测模型，比如具体是获得K个训练好的第一检测模型，以及各第一检测模型的模型权重，通过对各第一检测模型的模型权重进行随机初始化，可获得具有差异化的模型权重，包括

其中，通过采用模型参数量较大的结构作为教师模型(即第一检测模型)，利用大模型的较强学习拟合能力，使得学生模型(即第二检测模型)可学习到教师模型的知识，并且在后续对第二检测模型的训练过程中，提供除预先标注的标注标签之外的监督信号，克服标注标签中噪声标签带来的影响，且最终的部署阶段并不直接部署教师模型，即所实际部署使用到的是通过对第二检测模型进行多层次训练得到的质量检测模型，而不需要部署教师模型，从而避免出现需要训练、部署大模型导致的训练耗时增加的问题。

在一个实施例中，针对产品图像样本(x,y)，进行旋转、平移、缩放、裁剪、以及添加高斯噪声等增强处理，获得增强产品图像样本(x′,y)，利用训练好的K个第一检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果，以及利用第二检测模型对各增强产品图像样本进行预测处理，获得与第二检测模型对应的第二预测结果。

其中，具体通过以下公式(3)获得与各第一检测模型对应的第一预测结果：

其中，K表示第一检测模型的数量为K个，即第一检测模型具体可以包括p₁表示第一检测模型/>的第一预测结果，p₂表示表示第一检测模型/>的第一预测结果，p_K表示第一检测模型/>的第一预测结果，x′表示增加产品图像样本，/>分别用于表示各第一检测模型的模型参数。

同样地，具体通过以下公式(4)获得与第二检测模型对应的第二预测结果：

p_s＝f_S(x′；θ_S) (4)；

其中，f_s(；θ_S)表示第二检测模型，θ_S为训练过程中待优化的第二检测模型的模型权重，c′表示增加产品图像样本，p_s表示与第二检测模型对应的第二预测结果。

步骤S604，确定与各第一预测结果对应的监督数据，并根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

具体地，通过对与各第一检测模型关联的加权参数，进行初始化处理和归一化处理，获得处理后的各加权系数，进而基于各加权系数，依次对各第一预测结果进行加权处理，获得对第二检测模型训练过程中的监督数据。

其中，为了利用多个训练好的第一检测模型的预测结果，对第二检测模型进行进一步指导，通过在对第二检测模型的训练过程中设计一组加权参数{W₁，W₂，...，W_K}，用于对第一检测模型的第一预测结果进行加权处理。

具体来说，通过对加权{W₁，W₂，...，W_K}进行初始化处理，并且通过以下公式(5)，使用softmax函数对加权参数{W₁，W₂，...，W_K}进行归一化处理，获得处理后的加权系数W_i′：

W_i′＝softmax(W₁，W₂，...，W_K)，i∈1，2，...，K (5)

其中，i表示第i个加权系数，K表示有K个加权系数，即具体包括与K个第一检测模型一一对应的K个加权系数。其中，通过softmax函数对可学习参数{W₁，W₂，...，W_K}进行归一化处理后，获得的加权系数W_i′可以理解为概率的形式，且各加权系数之和为1，即W′₁、W′₂、......、W′_K的求和结果为1。

进一步地，通过加权系数W′_i，依次对各第一预测结果进行加权处理，用于构造得到对第二检测模型训练过程中的监督数据。其中，具体通过以下公式(6)构造得到监督数据p_merge：

p_merge＝W′₁*p₁+W′₂*p₂+…，+W′_K*p_K (6)；

其中，p₁表示第一检测模型的第一预测结果，p₂表示表示第一检测模型的第一预测结果，p_K表示第一检测模型/>的第一预测结果，W′₁、W′₂、……、W′_K表示与各第一检测模型对应的加权系数。

进一步地，在确定出确定与各第一预测结果对应的监督数据后，根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。其中，具体采用以下公式(7)，确定出在对第二检测模型训练过程中的监督损失L_kd：

L_kd＝CE(p_S，p_merge) (7)；

其中，p_S表示与第二检测模型对应的第二预测结果，p_merge表示对第二检测模型训练过程中的监督数据，CE(·)表示交叉熵损失函数，即通过计算第二预测结果p_S和监督数据p_merge之间的交叉熵损失值，可获得在对第二检测模型训练过程中的监督损失L_kd。

在一个实施例中，计算监督损失L_kd时，也可以采用其他损失函数，比如Kl损失(即KL散度损失)等，不局限采用交叉熵损失函数这一种损失计算方式。

步骤S606，根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失。

具体地，根据各增强产品图像样本，对各第一检测模型进行强化训练，获得各第一检测模型对应的模型权重数据，并从各模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据。而在确定出满足强化训练筛选条件的目标模型权重数据后，通过确定出与目标权重数据匹配的强化检测模型，并根据强化检测模型，对各增强产品图像样本进行预测处理，从而获得与各强化检测模型对应的强化预测结果，以根据强化检测结果和第二预测结果，确定强化损失。

其中，根据各增强产品图像样本对各第一检测模型进行强化训练的目的，在于利用强化学习所具有的离散搜索能力，针对不同的增强产品图像样本，从K个第一检测模型中确定出最合适的强化检测模型，将最合适的强化检测模型在第二检测模型训练过程中的监督，从而加强知识蒸馏过程中的选择能力和特征表达能力。

进一步地，通过确定出经强化训练后的各第一检测模型对应的模型权重数据，具体包括W″＝[W₁″，W₂″，...，W_i″，...，W_K″]，其中，W_i″表示第i个第一检测模型对应的模型权重数据，W_K″表示第K个第一检测模型对应的模型权重数据。其中，W_i″的取值范围为(0，1)，W_i″越大则对应的第一检测模型的得分值越高，而强化训练筛选条件则可以理解为需要筛选出W_i″最大的第一检测模型，即通过筛选出最大的目标模型权重数据，并将与目标权重数据匹配的第一检测模型，确定为强化检测模型。

其中，具体通过以下公式(8)，确定出与目标权重数据匹配的第一检测模型的模型下标ID：

ID＝argmax(W″) (8)；

其中，ID表示与目标权重数据匹配的第一检测模型的模型下标，argmax(W″)表示最大的目标模型权重数据。

同样地，在确定出与目标权重数据匹配的强化检测模型后，进一步根据强化检测模型，对各增强产品图像样本进行预测处理，从而获得与各强化检测模型对应的强化预测结果，以根据强化检测结果和第二预测结果，确定强化损失。

进一步地，具体通过以下公式(9)确定出强化损失L_reinf：

L_reinf＝CE(p_S，p_ID) (9)；

其中，p_S表示第二检测模型对应的二预测结果，p_ID表示根据所确定出的强化检测模型，对各增强产品图像样本进行预测处理，所获得的强化预测结果。CE(·)表示交叉熵损失函数，即通过计算第二预测结果p_S和强化预测结果p_ID之间的交叉熵损失值，可获得强化损失L_reinf。

在一个实施例中，计算强化损失L_reinf时，也可以采用其他损失函数，比如K1损失(即KL散度损失)等，不局限采用交叉熵损失函数这一种损失计算方式。

在一个实施例中，强化学习可以理解为训练过程中的优化算法，如图8所示，提供了一种强化训练过程中的强化学习算法示例，参照图8可知，在强化学习算法中，具体是根据当前的状态s，通过智能体Agent的行为策略(即动作a)来改变环境，并反馈出一个奖励参数r。其中，奖励参数r是用来衡量当前状态下的得分值，得分越高表示Agent的行为越正确，即通过强化学习，智能体Agent可以学习到一个使得奖励函数r最大化的行为策略。

具体来说，针对本申请实施例中对第一检测模型进行强化训练时，智能体Agent是对应经强化训练后的各第一检测模型对应的模型权重数据，包括W₁″，W₂″，...，W_i″，...，W_K″，智能体Agent的行为策略，则可以理解为强化训练过程中所具体训练的第一检测模型，以及对所训练的第一检测模型所应用到的增强图像样本，而确定出奖励参数r时，则需要应用到对第二检测模型的训练过程中的融合损失。其中，具体是通过将对第二检测模型的训练过程中的融合损失的相反数，确定为奖励参数r。

其中，具体通过以下公式(10)确定得到奖励参数r：

r＝-L_all (10)；

其中，L_all表示对第二检测模型的训练过程中的融合损失，具体是通过对第二检测模型的训练过程中的标签损失、监督损失、强化损失、以及差异损失确定得到的。

步骤S608，基于监督损失和强化损失，确定奖励参数。

其中，奖励参数是对第二检测模型的训练过程中的融合损失的相反数，而对第二检测模型的训练过程中的融合损失，具体是通过对第二检测模型的训练过程中的标签损失、监督损失、强化损失、以及差异损失确定得到的。

具体地，基于第二预测结果和增强产品图像样本携带的标注标签，确定对第二检测模型的训练过程中的标签损失，并根据强化预测结果和监督数据，确定差异损失。

其中，具体通过以下公式(11)计算得到在第二检测模型的训练过程中的标签损失L_sup：

L_sup＝CE(p_S，y) (11)；

其中，p_S为与第二检测模型对应的第二预测结果，y表示增强产品样本图像携带的标注标签(包括正常标签和缺陷标签)，CE(·)表示交叉熵损失函数，即通过计算第二预测结果p_S、和增强产品样本图像携带的标注标签y之间的交叉熵损失值，可获得第二检测模型的训练过程中的标签损失L_sup。

在一个实施例中，计算标签损失L_sup时，也可以采用其他损失函数，比如K1损失(即KL散度损失)等，不局限采用交叉熵损失函数这一种损失计算方式。

同样地，具体通过以下公式(12)计算得到差异损失L_diff：

L_diff＝-KL(p_merge||p_ID) (12)；

其中，KL()表示KL散度，p_merge表示监督数据，p_ID表示强化检测结果，-KL(p_merge||p_ID)可以理解为计算出监督数据p_merge、强化检测结果p_ID之间的散度差异数据，即获得训练过程中强化学习分支、以及softmax函数加权分支之间差异损失。其中，通过设置差异损失L_diff，可避免强化学习分支、以及softmax函数加权分支两者收敛到同一个最小值，而是使得监督数据p_merge和强化检测结果p_ID之间的差异变大，避免出现p_merge＝＝p_ID的情况，减少对训练过程中第二检测模型的模型精度的影响。

进一步地，根据标签损失、监督损失、与监督损失对应的第一权重、强化损失、与强化损失对应的第二权重、差异损失、以及与差异损失对应的第三权重，确定出融合损失，最终可基于融合损失确定出强化训练过程中的奖励参数。其中，具体通过以下公式(13)计算得到模型训练过程中的融合损失L_all：

L_all＝L_sup+β₁L_kd+β₂L_reinf+β₃L_diff (13)；

其中，L_sup表示对第二检测模型的训练过程中的标签损失，L_kd表示在对第二检测模型训练过程中的监督损失，β₁表示与监督损失对应的第一权重，L_reinf表示强化损失，β₂表示与强化损失对应的第二权重，L_diff表示差异损失，β₃表示与差异损失对应的第三权重。其中，β₁、β₂、β₃用来调节各项损失的比重，可根据实际应用需求进行调整和设置，不局限于具体取值。

在一个实施例中，通过融合损失L_all，进行梯度计算，可反向传播更新第二检测模型的模型权重θ_S、加权系数{W′₁，W′₂，...，W_i′，...，W′_K}、以及经强化训练后的各第一检测模型对应的模型权重数据{W₁″，W₂″，...，W_i″，...，W_K″}，实现不同权重或参数的共同优化。

其中，加权系数{W′₁，W′₂，...，W_i′，...，W′_K}、以及强化训练后的各第一检测模型对应的模型权重数据{W₁″，W₂″，...，W_i″，...，W_K″}，在训练过程中会不断进行更新，即针对不同的强化训练数据(即不同的增强产品图像样本)，会确定出不同的强化检测模型和目标检测模型，且W_i′和W_i″的大小也直接反映了对应的第i个教师模型的贡献程度，从而挑选出最合适的强化检测模型以及目标检测模型。其中，通过利用不同第一检测模型对于不同增强产品图像样本的拟合能力的差异，可自适应的调整各第一检测模型的模型权重大小，从而根据所确定出的目标检测模型对第二检测模型进行监督，减少训练过程中标注标签中的噪声标签对第二检测模型的影响。

步骤S610，根据奖励参数，从各第一检测模型中确定出目标检测模型，并根据目标检测模型对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

具体地，通过从各奖励参数中确定出最大奖励参数，并从各第一检测模型中确定与最大奖励参数对应的目标检测模型，进而根据各增强产品图像样本以及目标检测模型，对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

进一步地，最大奖励参数对应的目标检测模型，则可以理解为是强化训练过程中确定出的得分值最高的第一检测模型，即通过利用得分值最高的第一检测模型，对第二检测模型进行监督以及知识蒸馏训练，并在满足对第二检测模型的训练结束条件时，获得训练好的质量检测模型。

其中，对第二检测模型的训练结束条件，具体可以是模型训练过程中的融合损失达到预设融合损失阈值，也可以是对第二检测模型的训练迭代次数达到预设训练次数，在达到对第二检测模型的训练结束条件时，将训练结束时的第二检测模型，确定为训练好的质量检测模型。

本实施例中，通过获取增强产品图像样本，根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得第一预测结果以及第二预测结果。进一步地，通过确定与各第一预测结果对应的监督数据，利用监督数据实现对第二检测模型的第二预测结果的监督训练，从而可根据监督数据和第二预测结果，确定出在对第二检测模型训练过程中的监督损失。同时，根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失，并基于获得的监督损失和强化损失确定奖励参数，从而根据奖励参数从各第一检测模型中确定出最合适的目标检测模型，从而达到利用强化训练实现对各第一检测模型的进一步加权和选择，确定出最合适的目标检测模型的目的，而根据目标检测模型对第二检测模型进行知识蒸馏训练，可使得第二检测模型学习到第一检测模型中的知识，减少对产品图像样本中预先标注的标签的依赖，以及预先标注的标签带来的噪声误差数据，从而获得模型精准度更高的质量检测模型，以提升利用质量检测模型对产品的质量检测准确度。

在一个实施例中，如图9所示，提供了一种对象质量检测方法，具体包括以下步骤：

步骤S901，获取产品图像样本，并根据各产品图像样本对初始检测模型进行训练。

步骤S902，确定对初始检测模型训练过程中的训练损失，若训练损失满足对初始检测模型的训练结束条件，获得训练好的第一检测模型。

步骤S903，获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果。

步骤S904，对与各第一检测模型关联的加权参数，进行初始化处理和归一化处理，获得处理后的各加权系数。

步骤S905，基于各加权系数，依次对各第一预测结果进行加权处理，获得对第二检测模型训练过程中的监督数据。

步骤S906，根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

步骤S907，根据各增强产品图像样本，对各第一检测模型进行强化训练，获得各第一检测模型对应的模型权重数据。

步骤S908，从各模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据。

步骤S909，确定与目标权重数据匹配的强化检测模型，并根据强化检测模型，对各增强产品图像样本进行预测处理，获得与各强化检测模型对应的强化预测结果。

步骤S910，根据强化检测结果和第二预测结果，确定强化损失。

步骤S911，基于第二预测结果和增强产品图像样本携带的标注标签，确定对第二检测模型的训练过程中的标签损失。

步骤S912，根据强化预测结果和监督数据，确定差异损失。

步骤S913，根据标签损失、监督损失、与监督损失对应的第一权重、强化损失、与强化损失对应的第二权重、差异损失、以及与差异损失对应的第三权重，确定融合损失。

步骤S914，基于融合损失，确定强化训练过程中的奖励参数。

步骤S915，从各奖励参数中确定出最大奖励参数，并从各第一检测模型中确定与最大奖励参数对应的目标检测模型。

步骤S916，根据各增强产品图像样本以及目标检测模型，对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

步骤S917，接收对象质量检测请求，并获取与对象质量检测请求对应的待检测产品图像。

步骤S918，根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。

在一个实施例中，如图10所示，提供了一种质量检测模型的构建方法，以该方法应用于图1中的服务器为例进行说明，具体包括以下步骤：

步骤S1002，获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果。

具体地，通过获取产品图像样本，并对各产品图像样本进行数据增强处理，以获得不同视角下的经过数据增强处理后的增强产品图像样本，其中，数据增强处理通过包括对产品图像进行旋转、平移、缩放、裁剪、以及添加高斯噪声等不同处理方式。

在一个实施例中，获得训练好的第一检测模型的方式，包括：

步骤S1004，确定与各第一预测结果对应的监督数据，并根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

具体地，通过对与各第一检测模型关联的加权参数，进行初始化处理和归一化处理，获得处理后的各加权系数，进而基于各加权系数，依次对各第一预测结果进行加权处理，获得对第二检测模型训练过程中的监督数据，并在确定出确定与各第一预测结果对应的监督数据后，进一步根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

步骤S1006，根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失。

具体地，根据各增强产品图像样本，对各第一检测模型进行强化训练，获得强化训练后的第一检测模型对应的模型权重数据，并从各模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据。而在确定出满足强化训练筛选条件的目标模型权重数据后，通过确定出与目标权重数据匹配的强化检测模型，并根据强化检测模型，对各增强产品图像样本进行预测处理，从而获得与各强化检测模型对应的强化预测结果，以根据强化检测结果和第二预测结果，确定强化损失。

步骤S1008，基于监督损失和强化损失，确定奖励参数。

具体地，基于第二预测结果和增强产品图像样本携带的标注标签，确定对第二检测模型的训练过程中的标签损失，并根据强化预测结果和监督数据，确定差异损失。进一步地，根据标签损失、监督损失、与监督损失对应的第一权重、强化损失、与强化损失对应的第二权重、差异损失、以及与差异损失对应的第三权重，确定出融合损失，最终基于融合损失确定出强化训练过程中的奖励参数。

步骤S1010，根据奖励参数，从各第一检测模型中确定出目标检测模型，并根据目标检测模型对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

在一个实施例中，如图11所示，提供了一种获得质量检测模型的过程示例，参照图11可知，获得质量检测模型的过程具体包括以下几个阶段：

1、一次训练阶段

其中，一次训练阶段表示对多个初始检测模型进行训练，训练得到K个第一检测模型。

具体地，通过获取工业产品或电子产品对应的产品图像，并对各产品图像进行预先标注，即为产品图像添加标注标签，包括缺陷标签和正常标签，以获得多个产品图像样本，从而根据携带标注标签的不同产品图像样本，分别对初始检测模型进行训练，以获得训练好的K个第一检测模型。

其中，参照图11可知，产品图像样本为(x,y)，通过各产品图像样本，分别对初始检测模型进行训练，获得K个第一检测模型(包括T₁、T₂、……、T_K)，以及各第一检测模型的模型权重

2、二次训练阶段

其中，在二次训练阶段中，需要获得训练好的第一检测模型针对增强产品图像样本的第一预测结果(包括P₁、P₂、……、P_K)，以及获得第二检测模型针对增强产品图像样本的第二预测结果(即P_S)，并在对第二检测模型的训练过程中设计一组加权参数{W₁,W₂,…,W_K}，对加权参数进行初始化和归一化处理后获得加权系数{W₁′、W₂′、……、W_K′}，并根据加权系数{W₁′、W₂′、……、W_K′}对第一检测模型的第一预测结果进行加权处理，从而构造得到对第二检测模型训练过程中的监督数据，并进一步根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

具体地，针对产品图像样本(x,y)，进行旋转、平移、缩放、裁剪、以及添加高斯噪声等增强处理，获得增强产品图像样本(x′,y)，利用训练好的K个第一检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果，以及利用第二检测模型对各增强产品图像样本进行预测处理，获得与第二检测模型对应的第二预测结果。

同样地，在二次训练阶段中，还需要根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失。

其中，根据各增强产品图像样本，对各第一检测模型进行强化训练，获得各第一检测模型对应的模型权重数据，并从各模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据。而在确定出满足强化训练筛选条件的目标模型权重数据后，通过确定出与目标权重数据匹配的强化检测模型，并根据强化检测模型，对各增强产品图像样本进行预测处理，从而获得与各强化检测模型对应的强化预测结果，以根据强化检测结果和第二预测结果，确定强化损失。

在一个实施例中，强化学习可以理解为训练过程中的优化算法，在强化学习算法中，具体是根据当前的状态s，通过智能体Agent的行为策略(即动作a)来改变环境，并反馈出一个奖励参数r。其中，奖励参数r是用来衡量当前状态下的得分值，得分越高表示Agent的行为越正确，即通过强化学习，智能体Agent可以学习到一个使得奖励函数r最大化的行为策略。

具体来说，针对本申请实施例中对第一检测模型进行强化训练时，智能体Agent是对应经强化训练后的各第一检测模型对应的模型权重数据，包括W₁″,W₂″,…,W_i″,…,W_K″，智能体Agent的行为策略，则可以理解为强化训练过程中所具体训练的第一检测模型，以及对所训练的第一检测模型所应用到的增强图像样本，而确定出奖励参数r时，则需要应用到对第二检测模型的训练过程中的融合损失。其中，具体是通过将对第二检测模型的训练过程中的融合损失的相反数，确定为奖励参数r。

同样地，在二次训练阶段中，在确定出监督损失以及强化损失后，还需基于第二预测结果和增强产品图像样本携带的标注标签，确定对第二检测模型的训练过程中的标签损失，以及根据强化预测结果和监督数据，确定差异损失，从而可根据标签损失、监督损失、与监督损失对应的第一权重、强化损失、与强化损失对应的第二权重、差异损失、以及与差异损失对应的第三权重，确定出融合损失，最终可基于融合损失确定出强化训练过程中的奖励参数。

进一步地，通过从各奖励参数中确定出最大奖励参数，并从各第一检测模型中确定与最大奖励参数对应的目标检测模型，进而根据各增强产品图像样本以及目标检测模型，对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

3、测试阶段

具体地，在测试阶段，需要利用训练好的质量检测模型，对输入的各测试产品图像，进行特征提取和概率预测，获得相应的预测缺陷置信度数据，并通过将测试缺陷置信度数据和预设缺陷置信度阈值进行比对，根据比对结果获得测试产品图像所属类别。

其中，测试产品图像同样进行了预先标注，即预先为测试产品图像添加了标注标签，包括缺陷标签和正常标签，即携带缺陷标签的测试产品图像即划分为缺陷图像，而携带正常标签的测试产品图像则划分为正常图像。而将测试缺陷置信度数据和预设缺陷置信度阈值进行比对时，其比对结果包括测试缺陷置信度数据大于预设缺陷置信度阈值，以及测试缺陷置信度数据小于预设缺陷置信度阈值。其中，测试缺陷置信度数据大于预设缺陷置信度阈值时，表明测试结果为测试产品图像属于缺陷产品，而测试缺陷置信度数据小于预设缺陷置信度阈值，表明测试结果为测试产品图像属于正常产品。

进一步地，根据预先添加的标注标签，以及预测结果确定的测试产品图像所属类别，判断测试结果的准确度，当测试结果的准确度达到预设准确度阈值时，表明当前训练得到的质量检测模型符合实际应用需求，可投入实际的工业产品、电子产品等的质量检测环节，以提升对产品的质量检测准确度、以及产品有无缺陷的分类准确度。

上述质量检测模型的构建方法中，通过获取增强产品图像样本，根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得第一预测结果以及第二预测结果。进一步地，通过确定与各第一预测结果对应的监督数据，利用监督数据实现对第二检测模型的第二预测结果的监督训练，从而可根据监督数据和第二预测结果，确定出在对第二检测模型训练过程中的监督损失。同时，根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失，并基于获得的监督损失和强化损失确定奖励参数，从而根据奖励参数从各第一检测模型中确定出最合适的目标检测模型，从而达到利用强化训练实现对各第一检测模型的进一步加权和选择，确定出最合适的目标检测模型的目的，而根据目标检测模型对第二检测模型进行知识蒸馏训练，可使得第二检测模型学习到第一检测模型中的知识，减少对产品图像样本中预先标注的标签的依赖，以及预先标注的标签带来的噪声误差数据，从而获得模型精准度更高的质量检测模型，以提升利用质量检测模型对产品的质量检测准确度。

在一个实施例中，提供了一种质量检测模型的构建方法，具体包括以下步骤，

获取产品图像样本，并根据各产品图像样本对初始检测模型进行训练。

确定对初始检测模型训练过程中的训练损失，若训练损失满足对初始检测模型的训练结束条件，获得训练好的第一检测模型。

获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果。

对与各第一检测模型关联的加权参数，进行初始化处理和归一化处理，获得处理后的各加权系数。

基于各加权系数，依次对各第一预测结果进行加权处理，获得对第二检测模型训练过程中的监督数据。

根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

根据各增强产品图像样本，对各第一检测模型进行强化训练，获得各第一检测模型对应的模型权重数据。

从各模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据。

确定与目标权重数据匹配的强化检测模型，并根据强化检测模型，对各增强产品图像样本进行预测处理，获得与各强化检测模型对应的强化预测结果。

根据强化检测结果和第二预测结果，确定强化损失。

基于第二预测结果和增强产品图像样本携带的标注标签，确定对第二检测模型的训练过程中的标签损失。

根据强化预测结果和监督数据，确定差异损失。

根据标签损失、监督损失、与监督损失对应的第一权重、强化损失、与强化损失对应的第二权重、差异损失、以及与差异损失对应的第三权重，确定融合损失。

基于融合损失，确定强化训练过程中的奖励参数。

从各奖励参数中确定出最大奖励参数，并从各第一检测模型中确定与最大奖励参数对应的目标检测模型。

根据各增强产品图像样本以及目标检测模型，对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的对象质量检测方法的对象质量检测装置、质量检测模型的构建方法的质量检测模型的构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个对象质量检测装置、质量检测模型的构建装置实施例中的具体限定可以参见上文中对于对象质量检测方法、质量检测模型的构建方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种对象质量检测装置，包括：待检测产品图像获得模块1202、以及缺陷置信度数据获得模块1204，其中：

待检测产品图像获得模块1202，用于接收对象质量检测请求，并获取与对象质量检测请求对应的待检测产品图像。

缺陷置信度数据获得模块1204，用于根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。其中，训练好的质量检测模型，是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的；目标检测模型是根据奖励参数从各第一检测模型中确定得到的，奖励参数是根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失，确定得到的；监督损失是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的，第一预测结果是根据多个训练好的第一检测模型，对各增强产品图像样本进行预测处理得到的，第二预测结果是根据第二检测模型，对各增强产品图像样本进行预测处理得到的。

上述对象质量检测装置中，通过接收对象质量检测请求，获取与对象质量检测请求对应的待检测产品图像，进而根据训练好的质量检测模型，对待检测产品图像进行质量检测处理，获得与待检测产品图像对应的缺陷置信度数据。其中，训练好的质量检测模型是根据目标检测模型对第二检测模型进行知识蒸馏训练得到的，目标检测模型则是根据奖励参数从各第一检测模型中确定得到的，达到了利用强化训练实现对各第一检测模型的进一步加权和选择，确定出最合适的目标检测模型的目的，奖励参数则是根据对第二检测模型训练过程中的监督损失、以及根据增强产品图像样本对各第一检测模型进行强化训练过程的强化损失确定得到的，监督损失则是根据与第一预测结果对应的监督数据、以及第二预测结果确定得到的。通过根据目标模型对第二检测模型进行知识蒸馏训练，使得第二检测模型可学习到第一检测模型中的知识，减少对产品图像样本中预先标注的标签的依赖，以及预先标注的标签带来的噪声误差数据，从而获得模型精准度更高的质量检测模型，从而提升了利用质量检测模型对产品的质量检测准确度。

在一个实施例中，提供了一种对象质量检测装置，还包括质量检测模型训练模块，包括：

预测结果获得模块，用于获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果；

监督损失确定模块，用于确定与各第一预测结果对应的监督数据，并根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失；

强化损失确定模块，用于根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失；

奖励参数确定模块，用于基于监督损失和强化损失，确定奖励参数；

质量检测模型获得模块，用于根据奖励参数，从各第一检测模型中确定出目标检测模型，并根据目标检测模型对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

在一个实施例中，强化损失确定模块，还用于：

根据各增强产品图像样本，对各第一检测模型进行强化训练，获得各第一检测模型对应的模型权重数据；从各模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据；确定与目标权重数据匹配的强化检测模型，并根据强化检测模型，对各增强产品图像样本进行预测处理，获得与各强化检测模型对应的强化预测结果；根据强化检测结果和第二预测结果，确定强化损失。

在一个实施例中，奖励参数确定模块，还用于：

基于第二预测结果和增强产品图像样本携带的标注标签，确定对第二检测模型的训练过程中的标签损失；根据强化预测结果和监督数据，确定差异损失；根据标签损失、监督损失、与监督损失对应的第一权重、强化损失、与强化损失对应的第二权重、差异损失、以及与差异损失对应的第三权重，确定融合损失；基于融合损失，确定强化训练过程中的奖励参数。

在一个实施例中，监督损失确定模块，还用于：

对与各第一检测模型关联的加权参数，进行初始化处理和归一化处理，获得处理后的各加权系数；基于各加权系数，依次对各第一预测结果进行加权处理，获得对第二检测模型训练过程中的监督数据。

在一个实施例中，质量检测模型获得模块，还用于：

从各奖励参数中确定出最大奖励参数，并从各第一检测模型中确定与最大奖励参数对应的目标检测模型；根据各增强产品图像样本以及目标检测模型，对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

在一个实施例中，提供了一种对象质量检测装置，还包括第一检测模型获得模块，用于：

在一个实施例中，如图13所示，提供了一种质量检测模型的构建装置，包括：预测结果获得模块1302、监督损失确定模块1304、强化损失确定模块1306、奖励参数确定模块1308、以及质量检测模型获得模块1310，其中：

预测结果获得模块1302，用于获取增强产品图像样本，并根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得与各第一检测模型对应的第一预测结果、以及与第二检测模型对应的第二预测结果。

监督损失确定模块1304，用于确定与各第一预测结果对应的监督数据，并根据监督数据和第二预测结果，确定在对第二检测模型训练过程中的监督损失。

强化损失确定模块1306，用于根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失。

奖励参数确定模块1308，用于基于监督损失和强化损失，确定奖励参数。

质量检测模型获得模块1310，用于根据奖励参数，从各第一检测模型中确定出目标检测模型，并根据目标检测模型对第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

上述质量检测模型的构建装置中，通过获取增强产品图像样本，根据多个训练好的第一检测模型、以及第二检测模型，对各增强产品图像样本进行预测处理，获得第一预测结果以及第二预测结果。进一步地，通过确定与各第一预测结果对应的监督数据，利用监督数据实现对第二检测模型的第二预测结果的监督训练，从而可根据监督数据和第二预测结果，确定出在对第二检测模型训练过程中的监督损失。同时，根据各增强产品图像样本，对各第一检测模型进行强化训练，并确定强化训练过程的强化损失，并基于获得的监督损失和强化损失确定奖励参数，从而根据奖励参数从各第一检测模型中确定出最合适的目标检测模型，从而达到利用强化训练实现对各第一检测模型的进一步加权和选择，确定出最合适的目标检测模型的目的，而根据目标检测模型对第二检测模型进行知识蒸馏训练，可使得第二检测模型学习到第一检测模型中的知识，减少对产品图像样本中预先标注的标签的依赖，以及预先标注的标签带来的噪声误差数据，从而获得模型精准度更高的质量检测模型，以提升利用质量检测模型对产品的质量检测准确度。

上述对象质量检测装置、质量检测模型的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测产品图像、质量检测模型、缺陷置信度数据、目标检测模型、第一检测模型、第二检测模型、奖励参数、监督损失、强化损失、第一预测结果、第二预测结果、监督数据以及增强产品图像样本等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象质量检测方法、质量检测模型的构建方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种对象质量检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获得训练好的质量检测模型的方式，包括：

基于所述监督损失和所述强化损失，确定奖励参数；

3.根据权利要求2所述的方法，其特征在于，所述根据各所述增强产品图像样本，对各所述第一检测模型进行强化训练，并确定强化训练过程的强化损失，包括：

根据各所述增强产品图像样本，对各所述第一检测模型进行强化训练，获得强化训练后的各所述第一检测模型对应的模型权重数据；

从各所述模型权重数据中，确定出满足强化训练筛选条件的目标模型权重数据；

确定与所述目标权重数据匹配的强化检测模型，并根据所述强化检测模型，对各所述增强产品图像样本进行预测处理，获得与各所述强化检测模型对应的强化预测结果；

根据所述强化检测结果和所述第二预测结果，确定强化损失。

4.根据权利要求3所述的方法，其特征在于，所述基于所述监督损失和所述强化损失，确定奖励参数，包括：

基于所述第二预测结果和所述增强产品图像样本携带的标注标签，确定对所述第二检测模型的训练过程中的标签损失；

根据所述强化预测结果和所述监督数据，确定差异损失；

根据所述标签损失、监督损失、与所述监督损失对应的第一权重、强化损失、与所述强化损失对应的第二权重、差异损失、以及与所述差异损失对应的第三权重，确定融合损失；

基于所述融合损失，确定强化训练过程中的奖励参数。

5.根据权利要求2至4任意一项所述的方法，其特征在于，确定与各所述第一预测结果对应的监督数据，包括：

对与各所述第一检测模型关联的加权参数，进行初始化处理和归一化处理，获得处理后的各加权系数；

基于各所述加权系数，依次对各所述第一预测结果进行加权处理，获得对所述第二检测模型训练过程中的监督数据。

6.根据权利要求2至4任意一项所述的方法，其特征在于，所述根据所述奖励参数，从各所述第一检测模型中确定出目标检测模型，并根据所述目标检测模型对所述第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型，包括：

从各所述奖励参数中确定出最大奖励参数，并从各所述第一检测模型中确定与所述最大奖励参数对应的目标检测模型；

根据各所述增强产品图像样本以及所述目标检测模型，对所述第二检测模型进行知识蒸馏训练，获得训练好的质量检测模型。

7.根据权利要求1至4任意一项所述的方法，其特征在于，获得训练好的第一检测模型的方式，包括：

获取产品图像样本，并根据各所述产品图像样本对初始检测模型进行训练；

确定对所述初始检测模型训练过程中的训练损失；

若所述训练损失满足对所述初始检测模型的训练结束条件，获得训练好的第一检测模型。

8.一种质量检测模型的构建方法，其特征在于，所述方法包括：

基于所述监督损失和所述强化损失，确定奖励参数；

9.一种对象质量检测装置，其特征在于，所述装置包括：

10.一种质量检测模型的构建装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。