CN117992898A

CN117992898A - 异常检测模型的训练方法、物体异常检测方法和装置

Info

Publication number: CN117992898A
Application number: CN202410405801.XA
Authority: CN
Inventors: 汪铖杰; 吴运声; 马利庄; 樊珂; 甘振业; 张江宁; 高斌斌; 彭瑾龙; 刘永; 吴永坚; 黄小明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-05-07
Anticipated expiration: 2044-04-07
Also published as: CN117992898B

Abstract

本申请提供了一种异常检测模型的训练方法、物体异常检测方法和装置，属于人工智能技术领域。方法包括：基于多个第一样本图像，获取多组样本对，每组样本对包括一个样本图块和样本文本，样本图块包括目标物体的局部，样本文本用于描述样本图块中局部的异常情况；对于每组样本对，通过异常检测模型对样本对中的样本图块和样本文本分别进行特征提取，得到样本图块的图像特征和样本文本的文本特征，确定图像特征与文本特征之间的相似度，异常检测模型用于对所输入图块中目标物体的局部进行异常检测；基于多组样本对各自的相似度和预设相似度，迭代训练异常检测模型。基于该方法训练得到的异常检测模型来进行异常检测，能够提高异常检测的准确性。

Description

异常检测模型的训练方法、物体异常检测方法和装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种异常检测模型的训练方法、物体异常检测方法和装置。

背景技术

工业异常检测在实际生产中具有重要的地位。在对工业生产的物品进行异常检测时，一般是先建立正常物品的分布特征，然后通过判断待检测物品的特征与该分布特征之间的相似度，判断物品是否正常。而建立正常物品的分布特征之前，需要收集大量的正常物品，也即需要将大量物品中的异常物品检测出来后剔除。

相关技术中，是通过聚类的方法来检测异常物品。该方法的基本假设是异常物品在实际生产中的占比较低，因此，该方法基于相似度将物品聚集成簇，由于异常物品的占比较低，因此在聚类完成后，表现为孤立的规模较小的簇，就有极大可能为异常物品，进而将这些异常物品剔除即可。然而，实际生产中异常物品所占的比例可能并不低，这就导致聚类之后某些异常物品聚集成一个较大的簇，造成与正常物品的混淆，使得该检测方法并不准确。

发明内容

本申请实施例提供了一种异常检测模型的训练方法、物体异常检测方法和装置，基于该方法训练得到的异常检测模型来进行异常检测，能够提高异常检测的准确性。所述技术方案如下。

一方面，提供了一种异常检测模型的训练方法，所述方法包括：

基于多个第一样本图像，获取多组样本对，所述多个第一样本图像均包括目标物体，每组样本对包括一个样本图块和样本文本，所述样本图块包括所述目标物体的局部，所述样本文本用于描述所述样本图块中所述局部的异常情况；

对于每组样本对，通过异常检测模型，对所述样本对中的样本图块和样本文本分别进行特征提取，得到所述样本图块的图像特征和所述样本文本的文本特征，确定所述图像特征与所述文本特征之间的相似度，所述异常检测模型用于对所输入图块中所述目标物体的局部进行异常检测；

基于所述多组样本对各自的相似度和预设相似度，迭代训练所述异常检测模型。

另一方面，提供了一种物体异常检测方法，所述方法包括：

获取图像的多个图块，所述图像包括目标物体，每个图块包括所述目标物体的局部；

对于每个图块，通过异常检测模型，确定所述图块对应的目标文本，所述异常检测模型通过上述训练方法得到，所述目标文本用于描述所述图块中所述目标物体的局部的异常情况；

基于所述多个图块分别对应的目标文本，确定所述图像中目标物体的异常信息，所述异常信息用于描述所述目标物体的异常情况。

另一方面，提供了一种异常检测模型的训练装置，所述装置包括：

获取模块，用于基于多个第一样本图像，获取多组样本对，所述多个第一样本图像均包括目标物体，每组样本对包括一个样本图块和样本文本，所述样本图块包括所述目标物体的局部，所述样本文本用于描述所述样本图块中所述局部的异常情况；

提取模块，用于对于每组样本对，通过异常检测模型，对所述样本对中的样本图块和样本文本分别进行特征提取，得到所述样本图块的图像特征和所述样本文本的文本特征，确定所述图像特征与所述文本特征之间的相似度，所述异常检测模型用于对所输入图块中所述目标物体的局部进行异常检测；

训练模块，用于基于所述多组样本对各自的相似度和预设相似度，迭代训练所述异常检测模型。

在一些实施例中，所述获取模块，用于：

对于每个第一样本图像，基于多个尺寸的滑动窗口分别对所述第一样本图像进行分割，得到所述多个尺寸各自的图块集，每个尺寸的图块集包括的多个样本图块均为所述尺寸；

基于所述多个第一样本图像各自的图块集中的样本图块和每个样本图块对应的样本文本，得到所述多组样本对。

在一些实施例中，每个样本图块对应多个样本文本，所述多个样本文本分别以不同的文本描述所述样本图块中局部的异常情况；所述提取模块，用于：

通过所述异常检测模型，对所述样本对中的多个样本文本分别进行特征提取，得到所述多个样本文本分别对应的初始文本特征，确定多个初始文本特征的均值，得到所述文本特征。

在一些实施例中，所述装置还包括：

填充模块，用于对于每个样本图块，基于所述样本图块中的局部和所述局部的异常信息，填充多个文本模板，得到所述多个样本文本，所述异常信息用于描述所述局部的异常情况，所述多个文本模板不同。

在一些实施例中，所述获取模块，还用于获取多个第二样本图像，所述多个第二样本图像均包括所述目标物体；

所述装置还包括分割模块，用于对于每个第二样本图像，从所述第二样本图像中分割出所述目标物体，得到所述第一样本图像。

在一些实施例中，所述获取模块，还用于获取多个第三样本图像，所述多个第三样本图像均包括所述目标物体；

所述装置还包括校准模块，用于对于每个第三样本图像，基于模板图像中所述目标物体的位置对所述第三样本图像中所述目标物体的位置进行校准，得到所述第一样本图像，所述第一样本图像中所述目标物体的位置与所述模板图像中所述目标物体的位置匹配。

另一方面，提供了一种物体异常检测装置，所述装置包括：

获取模块，用于获取图像的多个图块，所述图像包括目标物体，每个图块包括所述目标物体的局部；

确定模块，用于对于每个图块，通过异常检测模型，确定所述图块对应的目标文本，所述异常检测模型通过上述训练方法得到，所述目标文本用于描述所述图块中所述目标物体的局部的异常情况；

所述确定模块，还用于基于所述多个图块分别对应的目标文本，确定所述图像中目标物体的异常信息，所述异常信息用于描述所述目标物体的异常情况。

在一些实施例中，所述确定模块，用于：

在所述多个图块中至少一个图块对应的目标文本指示所述目标物体的局部存在异常的情况下，确定所述图像中的目标物体存在异常以及确定所述目标物体存在异常的局部；

在所述多个图块中每个图块对应的目标文本均指示所述目标物体的局部不存在异常的情况下，确定所述图像中的目标物体不存在异常。

在一些实施例中，所述确定模块，用于：

对于每个图块，通过所述异常检测模型，提取所述图块的图像特征，确定所述图像特征分别与多个预设文本特征之间的相似度，从所述多个预设文本特征中确定相似度满足预设要求的目标文本特征，所述多个预设文本特征分别对应有预设文本，所述目标文本为所述目标文本特征所对应的预设文本。

在一些实施例中，所述获取模块，用于：

基于多个尺寸的滑动窗口分别对所述图像进行分割，得到所述多个尺寸各自的图块集，每个尺寸的图块集包括的多个图块均为所述尺寸。

在一些实施例中，每个图块包括多个像素点，所述确定模块，用于：

对于每个尺寸的每个图块，在所述图块对应的目标文本指示所述图块中所述目标物体的局部存在异常的情况下，将所述图块的图像特征与所对应的目标文本特征之间的相似度赋值给所述图块中的多个像素点；

对于每个像素点，基于所述像素点在所述多个尺寸下的相似度，得到所述像素点的异常值，所述异常值用于指示所述像素点存在异常的概率；

基于所述图像中每个像素点的异常值，确定所述图像中目标物体的异常信息，所述目标物体的异常信息包括所述目标物体存在异常的像素点位置和异常面积中的至少一项。

在一些实施例中，所述图像为多个，所述确定模块，还用于基于多个图像中目标物体各自的异常信息，确定所述多个图像中的多个目标图像，所述目标图像中的目标物体不存在异常；基于所述多个目标图像确定所述目标物体的非异常特征，所述非异常特征为不存在异常的目标物体所具有的特征；

所述装置还包括第一检测模块，用于基于所述非异常特征对包括目标物体的图像进行异常检测。

在一些实施例中，所述图像为多个，所述确定模块，还用于基于所述多个图块分别对应的目标文本，确定所述多个图块中的多个目标图块，所述目标图块中所述目标物体的局部不存在异常；基于多个图像各自的多个目标图块，确定所述目标物体的局部的非异常特征，所述非异常特征为所述目标物体不存在异常的局部所具有的特征；

所述装置还包括第二检测模块，用于基于所述非异常特征对包括所述目标物体的局部的图块进行异常检测。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序，所述至少一段程序由所述处理器加载并执行以实现本申请实施例中的异常检测模型的训练方法或物体异常检测方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现本申请实施例中的异常检测模型的训练方法或物体异常检测方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一段程序，所述至少一段程序存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述至少一段程序，所述处理器执行所述至少一段程序，使得所述计算机设备执行上述任一实现方式所述的异常检测模型的训练方法或物体异常检测方法。

本申请实施例提供了一种异常检测模型的训练方法，该方法基于样本图块和用于描述样本图块中目标物体的局部的异常情况的样本文本来训练异常检测模型。由于异常检测模型提取图像特征和文本特征，且成对的图像特征和文本特征之间应具有较高的相似度，进而基于图像特征和文本特征之间的相似度和预设相似度来训练异常检测模型，使得异常检测模型学习到成对的图像特征和文本特征之间具有较高相似度的规律，即该方法训练得到的异常检测模型能够进行特征的准确提取。这样通过异常检测模型，对于任一包括目标物体的局部的图块，基于提取的其图像特征能够确定与其相似度高的文本特征，进而该文本特征对应的文本即是用于描述图块中目标物体的局部的异常情况的文本，因此基于该方法训练得到的异常检测模型来进行异常检测，能够提高异常检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种异常检测模型的训练方法的流程图；

图3是本申请实施例提供的另一种异常检测模型的训练方法的流程图；

图4是本申请实施例提供的一种图像校准的示意图；

图5是本申请实施例提供的一种物体异常检测方法的流程图；

图6是本申请实施例提供的另一种物体异常检测方法的流程图；

图7是本申请实施例提供的一种工业异常检测的流程示意图；

图8是本申请实施例提供的一种工业检测中训练阶段的流程图；

图9是本申请实施例提供的一种工业检测中测试阶段的流程图；

图10是本申请实施例提供的一种异常检测模型的训练装置的框图；

图11是本申请实施例提供的一种物体异常检测装置的框图；

图12是本申请实施例提供的一种终端的框图；

图13是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本图像都是在充分授权的情况下获取的。

以下，对本申请涉及的专业术语进行介绍：

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教式学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

预训练模型（Pre-training model），也称基石模型、大模型，指具有大参量的深度神经网络（Deep Neural Network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN（Deep Neural Network，深度神经网络）的函数近似能力使PTM（预训练模型）在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT，Parameter-Efficient Fine-Tuning）、prompt-tuning（迅速调整）等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO，BERT，GPT）、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型（ViBERT，CLIP，Flamingo，Gato）等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

以下，对本申请涉及的实施环境进行介绍：

本申请实施例提供的异常检测模型的训练方法，能够由计算机设备执行，该计算机设备可以提供为服务器或终端。下面介绍一下本申请实施例提供的异常检测模型的训练方法的实施环境示意图。

参见图1，图1为本申请实施例提供的一种异常检测模型的训练方法的实施环境的示意图，该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。在一些实施例中，服务器102用于训练异常检测模型，训练得到的异常检测模型用于确定图块对应的文本，该文本用于描述图块包括的目标物体的局部的异常情况。终端101上安装有目标应用，该目标应用用于对物体进行异常检测。在一些实施例中，终端101上嵌入有训练得到的异常检测模型，终端101通过异常检测模型进行物体的异常检测。在另一些实施例中，终端101通过服务器102上的异常检测模型进行物体的异常检测。

在一些实施例中，终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器、VR（Virtual Reality，虚拟现实）装置、AR（Augmented Reality，增强现实）装置等，但并不限于此。在一些实施例中，服务器102是独立的服务器也能够是多个服务器构成的服务器集群或者分布式***，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network 内容分发网络）以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中，服务器102主要承担计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算服务，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

参见图2，图2为本申请实施例提供的一种异常检测模型的训练方法的流程图，该方法包括以下步骤。

201、计算机设备基于多个第一样本图像，获取多组样本对，多个第一样本图像均包括目标物体，每组样本对包括一个样本图块和样本文本，样本图块包括目标物体的局部，样本文本用于描述样本图块中该局部的异常情况。

在本申请实施例中，目标物体可以为任意待检测异常的物体，如目标物体可以为工业中生产的各种零件。多个样本图块基于对第一样本图像进行分割得到，一个第一样本图像可以分割为多个样本图块。

其中，多个第一样本图像均包括目标物体，目标物体在第一样本图像中的状态可以相同或不同，状态不同包括尺寸不同、拍摄角度不同、亮度不同等。多个第一样本图像包括目标物体不存在异常的图像和目标物体存在异常的图像。

在本申请实施例中，异常情况也即指局部存在异常或不存在异常。若目标物体为零件，则局部存在异常指零件的局部存在缺陷，如表面不光滑、表面有划痕、尺寸不够等都属于存在异常的情况。进一步地，对于样本图块中的局部存在异常的情况下，样本文本还用于描述异常的类别，如表面不光滑、表面有划痕、尺寸不够等。

对于每组样本对，在样本对中的样本图块所包括的目标物体的局部不存在异常的情况下，则该样本对中的样本文本描述样本图块中的局部不存在异常。在样本对中的样本图块所包括的目标物体的局部存在异常的情况下，则该样本对中的样本文本描述样本图块中的局部存在异常，或者，该样本对中的样本文本描述样本图块中的局部所存在的异常的种类。

需要说明的是，由于目标物体具有多个不同的局部，如首尾部位、中间部位、零件头、零件尾等，则可选地，样本文本还描述样本图块所包括的局部的名称，进而使得训练得到的异常检测模型还能够确定图块所包括的局部为哪一局部。

202、计算机设备对于每组样本对，通过异常检测模型，对样本对中的样本图块和样本文本分别进行特征提取，得到样本图块的图像特征和样本文本的文本特征，确定图像特征与文本特征之间的相似度，异常检测模型用于对所输入图块中目标物体的局部进行异常检测。

在本申请实施例中，异常检测模型包括图像编码器和文本编码器。图像编码器用于对图像进行编码，得到图像特征。文本编码器用于对文本进行编码，得到文本特征。

在本申请实施例中，图像特征为向量或矩阵，用于代表样本图块。文本特征为向量或矩阵，用于代表样本文本。相似度可以为余弦相似度。

203、计算机设备基于多组样本对各自的相似度和预设相似度，迭代训练异常检测模型。

在本申请实施例中，预设相似度可以根据需要进行设定并更改。异常检测模型的训练目标为使得样本对中样本图块和样本文本的特征相似度达到预设相似度。在本申请实施例中，计算机设备基于样本对的相似度与预设相似度确定损失值，基于损失值迭代调整异常检测模型的模型参数。异常检测模型的模型参数包括图像编码器的参数和文本编码器的参数。

在本申请实施例中，计算机设备基于多组样本对各自的相似度和预设相似度，对异常检测模型进行迭代训练，直到达到预设要求。其中，达到预设要求可以为损失值达到收敛，或损失值达到预设阈值，或迭代次数达到预设次数，或相似度达到预设相似度，在此不作具体限定。

在本申请实施例中，训练后的异常检测模型用于提取输入的图块的图像特征，从多个预设文本特征中确定与图像特征之间相似度满足预设要求的目标文本特征，将目标文本特征所对应的文本作为图块对应的文本，该文本用于描述图块中目标物体的局部的异常情况。可选地，多个预设文本特征通过训练得到的异常检测模型对多个预设文本分别进行特征提取得到。

本申请实施例提供了一种异常检测模型的训练方法，该方法基于样本图块和用于描述样本图块中目标物体的局部的异常情况的样本文本来训练异常检测模型，由于异常检测模型提取图像特征和文本特征，且成对的图像特征和文本特征之间应具有较高的相似度，进而基于图像特征和文本特征之间的相似度和预设相似度来训练异常检测模型，使得异常检测模型学习到成对的图像特征和文本特征之间具有较高相似度的规律，进而训练后的异常检测模型能够进行特征的准确提取，这样对于任一包括目标物体的局部的图块，基于提取的其图像特征能够确定与其相似度高的文本特征，进而该文本特征对应的文本即是用于描述图块中目标物体的局部的异常情况的文本，因此基于该方法训练得到的异常检测模型对图块中目标物体的局部进行异常检测的准确性高。并且，由于该方法基于图块进行训练，而图块包括目标物体的局部，进而通过该异常检测模型能够具体检测出目标物体的哪一局部存在异常，即提高了异常检测的精度。因此，基于该方法训练得到的异常检测模型来进行异常检测，能够提高异常检测的准确性和精度。

上述图2为异常检测模型的训练方法的基本流程，下面基于图3对异常检测模型的训练方法进行进一步介绍。参见图3，图3为本申请实施例提供的一种异常检测模型的训练方法的流程图，该方法包括以下步骤。

301、计算机设备获取多个第二样本图像，多个第二样本图像均包括目标物体，对于每个第二样本图像，从第二样本图像中分割出目标物体，得到多个第一样本图像，第一样本图像包括目标物体。

在本申请实施例中，第二样本图像中不仅包括目标物体，还包括背景，背景中包括其他干扰元素。因此将目标物体从第二样本图像中分割出，实现第二样本图像中目标物体和背景的区分，进而将第二样本图像中的背景剔除，使得第二样本图像仅保留有目标物体，也即得到第一样本图像。

可选地，计算机设备通过SAM（Segment Anything Model，分段任意模型）模型来进行图像分割。其中，计算机设备将第二样本图像输入SAM模型，通过该模型将第二样本图像中的目标物体分割出来，以将前景和背景区分开来，进而剔除背景，以去除背景所带来的噪声干扰。进一步地，计算机设备将分割出的背景的像素值置为0，也即将背景设置为黑色，相应地，第一样本图像中的目标物体为前景，第一样本图像中除目标物体以外的背景为黑色。

在该实施例中，通过将目标物体从第二样本图像中分割出来，以剔除第二样本图像中的背景，避免了背景造成的干扰，进而便于后续图像处理。

在一些实施例中，计算机设备还对样本图像中目标物体的位置进行校准。其中，计算机设备获取多个第三样本图像，多个第三样本图像均包括目标物体；对于每个第三样本图像，基于模板图像中目标物体的位置对第三样本图像中目标物体的位置进行校准，得到第一样本图像，第一样本图像中目标物体的位置与模板图像中目标物体的位置匹配。

其中，第一样本图像中目标物体的位置与模板图像中目标物体的位置匹配指两个位置相同或两个位置之间的坐标差在预设范围内。

可选地，计算机设备将第三样本图像输入图像校准模块，图像校准模块通过模板图像中目标物体的位置对第三样本图像中目标物体的位置进行校准，得到第一样本图像。其中，图像校准模块用于对输入的图像进行校准，以便于后续能够精确地提取图像中目标物体所在区域的特征。

可选地，图像校准模块采用最小误差迭代法来进行校准，该方法通过构建误差函数，定义待估计参数，并基于当前的估计值，采用迭代算法优化参数以逐步降低误差函数。其中，图像校准模块先对输入的图像和模板图像中的目标物体进行边缘检测，获取二者各自的轮廓图。然后对轮廓图进行非极大值抑制（NMS）操作，将轮廓图转换为二维轮廓点集。或者对轮廓图进行分区处理，得到图像中各个区域的二维轮廓点集，以对图像进行分区处理。输入的图像与模板图像之间的二维轮廓点集的平均误差即为误差函数。误差函数如下公式（1）所示。

（1）；

其中，表示误差函数，也即平均误差，/>表示模板图像中轮廓点的数量，/>为输入的图像的第/>个轮廓点的坐标，/>表示模板图像中的第/>个轮廓点的坐标，/>表示累加。

在设置了误差函数后，采用迭代优化方法对输入的图像进行校准。首先，对待配准轮廓点集应用当前估计的变换矩阵也即初始变换矩阵进行配准。然后使用最近邻搜索方法建立输入的图像与模板图像的轮廓点集之间的位置匹配关系，且剔除误差过大的匹配对，也即剔除位置难以匹配的轮廓点。最后，利用RANSAC（Random Sample Consensus，随机样本一致算法）算法再次估计变换矩阵，并返回至第一步，直到误差函数达到收敛，得到目标变换矩阵，基于目标变换矩阵对输入的图像中各个点的坐标进行变换，得到校准后的图像。

在另一些实施例中，计算机设备还可以采用光度损失函数进行无监督的图像对齐学习以进行图像的校准，在此不作具体限定。

在该实施例中，对目标物体在样本图像中的位置进行校准，便于后续提取样本图像中目标物体所在区域来进行处理，如便于将目标物体从图像中分割出来、便于确定图像中目标物体所在的区域以及便于提取图像中目标物体的特征等。

例如，参见图4，图4是本申请实施例提供的一种图像校准的示意图。其中，先确定模板图像和输入的图像之间的目标变换矩阵，然后基于该目标变换矩阵对输入的图像进行处理，以最小化输入的图像与模板图像中目标物体的位置差，进而得到校准后的图像。校准后的图像中目标物体的朝向与角度与模板图像中目标物体的朝向和角度相同。

在一些实施例中，计算机设备在对第二样本图像进行分割之前，先进行目标物体的位置的校准，进而便于进行图像分割。或者，计算机设备在对第二样本图像进行分割之后，再进行目标物体的位置的校准，此时由于剔除了背景的干扰，进而便于进行目标物体的位置的校准。

302、计算机设备对于每个第一样本图像，基于多个尺寸的滑动窗口分别对该第一样本图像进行分割，得到多个尺寸各自的图块集，每个尺寸的图块集包括的多个样本图块均为该尺寸，样本图块包括目标物体的局部。

在本申请实施例中，每个滑动窗口的尺寸可以根据需要进行设定并更改，在此不作具体限定。例如，第一样本图像的分辨率为/>，给定编码器f进行图像分割。多个尺寸的滑动窗口表示为/>，每个滑动窗口/>是一个二进制掩码。用于表示像素点（i，j）周围k×k核的局部活动。i、j、h、w、k均为非负整数。每个滑动窗口对应的样本图块表示为/>，根据多个尺寸的滑动窗口进行分割，第一样本图像的有效面积也即一个样本图块定义为/>，/>表示元素乘积。其中，内核大小k对应于计算图像中每个位置的周围上下文的数量，其控制着分割中局部细节与全局信息之间的平衡。

在一些实施例中，异常检测模型中的图像编码器能够自动对所输入的图像进行分割。在另一些实施例中，异常检测模型不能够对所输入的图像进行分割，则计算机设备将图像分割后再输入异常检测模型。

在一些实施例中，计算机设备通过ViT patch（Vision Transformer，视觉转换器，图块）方法来进行图像分割，其包括多个尺寸的滑动窗口。如2×2的较小尺寸的滑动窗口，其对应像素32×32分辨率的图像，再如3×3的中度尺寸的滑动窗口，其对应像素48×48分辨率的图像。在另一些实施例中，计算机设备通过ViT token（图块）的方法来进行图像分割，以捕获图像的上下文。

在本申请实施例中，通过多个尺寸的滑动窗口分别对第一样本图像进行分割，这样每个第一样本对象对应多个尺寸的多个样本图块，而不同尺寸的样本图块包括了目标物体从小到大的局部，进而通过多个尺寸的样本图块，可以捕捉样本图像中目标物体从小到大的缺陷，提高了样本的多样性，进而基于这些样本来训练异常检测模型，可提高异常检测模型的泛化能力和准确性。

303、计算机设备基于多个第一样本图像各自的图块集中的样本图块和每个样本图块对应的样本文本，得到多组样本对，每组样本对包括一个样本图块和样本文本，样本文本用于描述样本图块中局部的异常情况。

在本申请实施例中，每个第一样本图像被分割为多个样本图块，相应地，每个第一样本图像对应多组样本对。

在一些实施例中，同一异常情况可以通过不同的文本进行描述，因此，一个样本图块可以对应多个样本文本，多个样本文本分别以不同的文本描述样本图块中局部的异常情况，进而一个样本图块可以组成多组样本对，该多组样本对中的样本图块相同，样本文本不同。

在一些实施例中，每个样本图块对应多个样本文本，多个样本文本分别以不同的文本描述样本图块中局部的异常情况。上述计算机设备通过异常检测模型，对样本对中的样本文本进行特征提取，得到样本文本的文本特征的过程，包括以下步骤：计算机设备通过异常检测模型，对样本对中的多个样本文本分别进行特征提取，得到多个样本文本分别对应的初始文本特征，确定多个初始文本特征的均值，得到文本特征。

在本申请实施例中，多个初始文本特征为维度相同的多个向量，文本特征也为向量，文本特征的维度与初始文本特征的维度相同。则确定多个初始文本特征的均值指确定多个向量的均值，得到文本特征。或者，多个初始文本特征为维度相同的多个矩阵，文本特征也为矩阵，文本特征的维度与初始文本特征的维度相同。则确定多个初始文本特征的均值指确定多个矩阵的均值，得到文本特征。

其中，多个样本文本分别以不同的文本描述样本图块中局部的异常情况。多个样本文本包括但不限于以下至少一种情况：每个样本文本包括至少一个与其他样本文本中的词不同的词；多个样本文本包括的词的数量不同；多个样本文本中多个词之间的语序不同。

例如，用于描述局部不存在异常的样本文本可以为“完美的”，还可以为“无缺陷的”。用于描述局部存在异常的样本文本可以为“被损坏的”，还可以为“有缺陷的”。

在本申请实施例中，由于同一异常情况可以通过不同的文本来进行描述，而将描述同一异常情况的多种文本的文本特征进行平均，使得得到的文本特征更加准确以及更有效。

在一些实施例中，计算机设备通过下述步骤获取多个样本文本。其中，计算机设备对于每个样本图块，基于样本图块中的局部和局部的异常信息，填充多个文本模板，得到多个样本文本，异常信息用于描述局部的异常情况，多个文本模板不同。

在本申请实施例中，多个文本模板为预设的，多个文本模板包括但不限于以下至少一种情况：每个文本模板包括至少一个与其他文本模板中的词不同的词；多个文本模板包括的词的数量不同；多个文本模板中多个词之间的语序不同。

其中，可以基于局部和局部的异常信息来填充文本模板，还可以基于局部和异常信息中的一项来填充文本模板。例如，文本模板可以为“[c]的裁剪照片”、“[c]的照片”，c为待填充的局部的异常信息和局部的名称中的至少一项。

在该实施例中，文本模板为多种异常情况通用的文本模板，进而基于多个文本模板来得到多个样本文本，仅需基于异常情况对文本模板进行填充即可，提高了获取样本文本的便捷性。

在另一些实施例中，还提供了用于描述不同异常情况的文本模板，进而仅需在文本模板中填充目标物体的局部的名称即可得到样本文本。例如，文本模板可以为“完美的[o]”、“无缺陷的[o]”，还可以为“被损坏的[o]”、“有缺陷的[o]”，其中，o表示待填充的局部的名称，如“螺丝钉的钉头”。可选地，o还可以表示待填充的目标物体的名称，如“螺丝钉”。

在本申请实施例中，通过上述步骤302-303实现了基于多个第一样本图像，获取多组样本对的过程。在该实施例中，基于多个尺寸的滑动窗口对第一样本图像进行分割，得到第一样本图像多个尺寸的多个图块，这样不仅提高了样本的多样性，且可以捕捉目标物体从小到大的缺陷，进而使得异常检测模型能够识别目标物体从小到大的缺陷，提高了异常检测模型的准确性。

需要说明的是，上述步骤302-303仅为实现该过程的一种可选地实现方式，计算机设备还可以通过其他可选地实现方式实现该过程；例如，通过一个尺寸的滑动窗口对第一样本图像进行分割，得到第一样本图像的多个图块，进而基于样本图块和样本文本得到样本对。

304、计算机设备对于每组样本对，通过异常检测模型，对样本对中的样本图块和样本文本分别进行特征提取，得到样本图块的图像特征和样本文本的文本特征，确定图像特征与文本特征之间的相似度，异常检测模型用于对所输入图块中目标物体的局部进行异常检测。

在本申请实施例中，对样本图块和样本文本进行特征提取可以获取样本图块和样本文本更具有表达性的表征，进而便于后续模型进行异常判断。

在一些实施例中，采用一个训练好的特征提取网络来进行特征初步提取，如ResNet50网络。该特征提取网络在大规模数据集上进行预训练，能较好地提取图像和文本的语义特征。在后续的学习过程中，该网络的参数保持不变，即该网络仅负责特征提取，并在后续的训练过程中不更新参数。可选地，该网络的后面连接有至少一个全连接层，全连接层用于对该网络输出的特征再次进行特征提取，得到相应的图像特征或文本特征，也即在训练过程中仅需调整全连接层的参数即可，进而可提高训练效率。

305、计算机设备基于多组样本对各自的相似度和预设相似度，迭代训练异常检测模型。

在本申请实施例中，每组样本对的相似度指该样本对中的样本图块和样本文本的特征之间的相似度。

在任一次迭代过程中，可以通过至少一组样本对的相似度和预设相似度，来调整异常检测模型的模型参数。如确定该至少一组样本对的相似度分别与预设相似度之间的损失值，基于多个损失值的均值来调整模型参数。在下次迭代过程中，将下一批的至少一组样本对分别输入调整后的异常检测模型，得到下一批的至少一组样本对各自的相似度，然后通过该至少一组样本对的相似度和预设相似度，来调整异常检测模型的模型参数。重复上述迭代过程，直到达到预设要求。

在另一些实施例中，上述样本对为正样本对，计算机设备还可以构建负样本对，结合正样本对和负样本对进行训练。负样本对包括样本图块和负样本文本，负样本文本不是用于描述该样本图块中局部的异常情况。进一步地，负样本文本为除该样本图块所在的正样本对以外的正样本对中的任一样本文本，进而提高了样本文本的获取效率。

在本申请实施例中，在异常检测模型的训练过程中，会通过异常检测模型中的图像编码器和文本编码器分别提取图像特征和文本特征，利用对比学习的损失函数，将配对的图像-文本在特征空间上拉近，将不配对的图像-文本在特征空间上推远，从而实现图像文本对的预训练。因此，在异常检测模型的使用阶段，通过预设不同的文本，如“一个有缺陷的物体”，“一个没有缺陷的物体”来分别描述目标物体的异常情况。再通过异常检测模型提取不同文本各自的文本特征以及提取所输入图像的图像特征，比较提取出来的图像特征与各个预设文本特征之间的相似度，从而判断图像更接近哪个文本，以实现异常的检测。

通过上述图2和图3的实施例训练得到了异常检测模型。下面基于图2或图3训练得到的异常检测模型进行异常检测。参见图5，图5是本申请实施例提供的一种物体异常检测方法，该方法包括以下步骤。

501、计算机设备获取图像的多个图块，图像包括目标物体，每个图块包括目标物体的局部。

在本申请实施例中，目标物体可以为任意待检测异常的物体，如可以为工业中生产的各种零件。多个图块基于对图像进行分割得到。

502、计算机设备对于每个图块，通过异常检测模型，确定图块对应的目标文本，目标文本用于描述图块中目标物体的局部的异常情况。

在本申请实施例中，异常检测模型用于对所输入图块中目标物体的局部进行异常检测。其中，计算机设备将图块输入异常检测模型，通过异常检测模型提取图块的图像特征，确定与该图像特征相似度满足预设要求的文本特征，进而将该文本特征对应的文本作为目标文本。

503、计算机设备基于多个图块分别对应的目标文本，确定图像中目标物体的异常信息，异常信息用于描述目标物体的异常情况。

在一些实施例中，目标物体的异常信息包括多个图块分别对应的目标文本，以得到目标物体各个局部的异常情况；或者，异常信息用于描述目标物体整体是否存在异常。如异常信息可以为“目标物体存在异常”、“目标物体不存在异常”。

本申请实施例提供了一种物体异常检测方法，该方法基于异常检测模型来进行检测，异常检测模型基于样本图块和用于描述样本图块中目标物体的局部的异常情况的样本文本来训练得到，由于异常检测模型提取图像特征和文本特征，且成对的图像特征和文本特征之间应具有较高的相似度，进而基于图像特征和文本特征之间的相似度和预设相似度来训练异常检测模型，使得异常检测模型学习到成对的图像特征和文本特征之间具有较高相似度的规律，进而训练后的异常检测模型能够进行特征的准确提取，这样对于任一包括目标物体的局部的图块，基于提取的其图像特征能够确定与其相似度高的文本特征，进而该文本特征对应的文本即是用于描述图块中目标物体的局部的异常情况的文本，因此基于该方法训练得到的异常检测模型对图块中目标物体的局部进行异常检测的准确性高，进而再基于图像中各个图块分别对应的异常情况，就能够得到图像中目标物体的整体异常情况，提高了异常检测的便捷性和准确性。

图5的实施例为基于异常检测模型进行物体异常检测的基本过程，下面基于图6的实施例对物体异常检测方法进行进一步介绍。参见图6，图6是本申请实施例提供的一种物体异常检测方法的流程图，该方法包括以下步骤。

601、计算机设备获取图像的多个图块，图像包括目标物体，每个图块包括目标物体的局部。

在一些实施例中，计算机设备获取初始图像，初始图像包括目标物体；从初始图像中分割出目标物体，得到该图像。或者，计算机设备基于模板图像中目标物体的位置对初始图像中目标物体的位置进行校准，得到该图像。或者，计算机设备从初始图像中分割出目标物体后，得到第一图像，然后基于模板图像中目标物体的位置对第一图像中目标物体的位置进行校准，得到该图像。或者，计算机设备基于模板图像中目标物体的位置对初始图像中目标物体的位置进行校准，得到第二图像，然后从第二图像中分割出目标物体，得到该图像。

其中，计算机设备对图像进行分割和校准的具体过程与步骤301对图像进行分割和校准的过程同理，在此不再赘述。

在一些实施例中，计算机设备获取图像的多个图块的过程，包括以下步骤：计算机设备基于多个尺寸的滑动窗口分别对图像进行分割，得到多个尺寸各自的图块集，每个尺寸的图块集包括的多个图块均为该尺寸。

其中，计算机设备对该图像进行分割的过程与步骤302中对第一样本图像进行分割的过程同理，在此不再赘述。

602、计算机设备对于每个图块，通过异常检测模型，提取图块的图像特征，确定图像特征分别与多个预设文本特征之间的相似度，从多个预设文本特征中确定相似度满足预设要求的目标文本特征，基于目标文本特征得到目标文本，多个预设文本特征分别对应有预设文本，目标文本为目标文本特征所对应的预设文本，目标文本用于描述图块中目标物体的局部的异常情况。

其中，多个预设文本特征分别对应有预设文本；计算机设备将多个预设文本分别输入异常检测模型，通过异常检测模型分别对多个预设文本进行特征提取，得到多个预设文本各自的预设文本特征。在该实施例中，通过异常检测模型事先确定出多个预设文本特征，进而可以重复利用该多个预设文本特征对大量图块进行检测，提高了效率，节约了资源。

在本申请实施例中，目标文本特征与图像特征之间的相似度满足预设要求指目标文本特征与图像特征之间的相似度达到目标相似度，或者目标文本特征与图像特征之间的相似度是多个预设文本特征的相似度中最大的。

在一些实施例中，预设文本为两个，分别为正常文本和异常文本，对应的两个预设文本特征分别为正常文本特征和异常文本特征。正常文本用于描述图块中的局部不存在异常，异常文本用于描述图块中的局部存在异常。若图像特征与正常文本特征之间的相似度更高，则该图块中的局部不存在异常，该图块为正常图块也即为目标图块。若图像特征与异常文本特征之间的相似度更高，则该图像中的局部存在异常，该图块为异常图块。

在本申请实施例中，通过上述步骤602实现了对于每个图块，通过异常检测模型，确定图块对应的目标文本的过程。在该实施例中，由于训练得到的异常检测模型能够准确提取图块的图像特征以及能够准确提取文本的文本特征，而用于描述图块中局部的异常情况的文本的文本特征与图像特征之间的相似度高，进而预设多个文本特征，分别对比该多个文本特征与图像特征之间的相似度，相似度满足预设要求的文本特征所对应的文本就是用于描述图块中局部的异常情况的文本，即通过该异常检测模型，实现了对图块中目标物体中异常局部的快捷、准确的检测。

需要说明的是，步骤602仅为实现该过程的一种可选地实现方式，计算机设备还可以通过其他可选地实现方式实现该过程，在此不再赘述。

603、计算机设备基于多个图块分别对应的目标文本，确定图像中目标物体的异常信息，异常信息用于描述目标物体的异常情况。

在一些实施例中，上述计算机设备基于多个图块分别对应的目标文本，确定图像中目标物体的异常信息的过程，包括以下步骤：计算机设备在多个图块中至少一个图块对应的目标文本指示目标物体的局部存在异常的情况下，确定图像中的目标物体存在异常以及确定目标物体存在异常的局部；在多个图块中每个图块对应的目标文本均指示目标物体的局部不存在异常的情况下，确定图像中的目标物体不存在异常。

其中，至少一个图块对应的文本指示目标物体的局部存在异常，则说明该目标物体至少有一个局部存在异常，进而说明该目标物体存在异常。在此基础上，由于多个图块分别包括目标物体的局部，进而基于该至少一个图块，确定目标物体存在异常的局部。

在一些实施例中，目标文本还指示异常的种类，则基于目标文本还能够确定目标物体存在异常的局部的异常种类，相应地，异常信息包括存在异常的局部以及该局部的异常种类。在一些实施例中，基于至少一个图块在多个图块中所占的比例，还能够确定目标物体存在异常的面积等，相应地，异常信息包括目标物体存在异常的面积。

在另一些实施例中，异常信息包括多个图块分别对应的目标文本，进而通过异常信息中这多个图块各自的目标文本，可以知道哪些图块中的局部存在异常或哪些图块中的局部不存在异常。

在本申请实施例中，基于多个图块各自的目标文本来确定目标物体的整体异常情况，实现了对多个图块的异常信息的总结，提高异常检测结果的可读性，进而提高用户的体验。

在一些实施例中，计算机设备通过多个尺寸的滑动窗口进行分割，得到多个尺寸的多个图块，每个图块包括多个像素点。上述计算机设备基于多个图块分别对应的目标文本，确定图像中目标物体的异常信息的过程，包括以下步骤：计算机设备对于每个尺寸的每个图块，在图块对应的目标文本指示图块中目标物体的局部存在异常的情况下，将图块的图像特征与所对应的目标文本特征之间的相似度赋值给图块中的多个像素点；对于每个像素点，基于像素点在多个尺寸下的相似度，得到像素点的异常值，异常值用于指示像素点存在异常的概率；基于图像中每个像素点的异常值，确定图像中目标物体的异常信息，目标物体的异常信息包括目标物体存在异常的像素点位置和异常面积中的至少一项。

可选地，上述计算机设备基于像素点在多个尺寸下的相似度，得到像素点的异常值的过程，包括以下步骤：计算机设备确定该像素点在多个尺寸下的相似度的均值，得到像素点的异常值，该均值可以为谐波均值，也可以为算数平均值。或者。计算机设备确定该像素点在多个尺寸下的相似度的和，得到像素点的异常值。

可选地，上述计算机设备基于图像中每个像素点的异常值，确定图像中目标物体的异常信息的过程，包括以下步骤：计算机设备确定图像的多个像素点中异常值大于异常阈值的多个目标像素点，确定多个目标像素点中位于目标物体上的像素点，得到目标物体存在异常的像素点位置。进一步地，计算机设备得到目标物体上存在异常的像素点后，确定这些像素点的数量与目标物体上的多个像素点的数量之间的比值，得到目标物体的异常面积。

在另一些实施例中，计算机设备确定图块的图像特征与多个预设文本特征之间的相似度的均值，将该均值赋值给图块中的多个像素点。或者，计算机设备确定多个预设文本特征中用于描述局部存在异常的多个文本的第一文本特征，确定图块的图像特征与多个第一文本特征之间的相似度的均值，将该均值赋值给图块中的多个像素点。或者，计算机设备还可以确定多个预设文本特征中与图像特征之间的相似度大于相似度阈值的多个第二文本特征，确定图块的图像特征与多个第二文本特征之间的相似度的均值，将该均值赋值给图块中的多个像素点。

在该实施例中，对于每个像素点，通过融合该像素点在多个尺寸下的相似度，使得每个像素点的异常值更加准确，也即该异常值所指示的像素点存在异常的概率更准确，进而通过多个像素点的异常值来确定图像中目标物体的异常信息，使得该异常信息更加准确。

在一些实施例中，本申请实施例提供的异常检测模型用于进行异常样本的筛选，剩下的正常样本作为训练数据用于进行异常检测网络的构建，异常检测网络用于对物体进行异常检测。异常样本指包括的目标物体存在异常的样本图像，正常样本指包括的目标物体不存在异常的样本图像。其中，通过异常检测模型从大量样本图像中检测出异常样本，基于剩下的正常样本来构建异常检测网络。具体地，基于正常样本构建目标物体的非异常特征，该非异常特征也即正常样本中目标物体的特征分布，进而异常检测网络基于该非异常特征进行异常物体的检测，也即将与该非异常特征差距大的物体检测出来，这类物体就是存在异常的物体。异常检测网络的构建和使用过程参见下述步骤，下述步骤为可选地实施步骤。

604、计算机设备基于多个图像中目标物体各自的异常信息，确定多个图像中的多个目标图像，目标图像中的目标物体不存在异常。

在本申请实施例中，异常信息用于描述目标物体的异常情况，因此，基于异常信息能够确定图像中的目标物体是否存在异常，将异常信息指示目标物体不存在异常的图像作为目标图像。

605、计算机设备基于多个目标图像确定目标物体的非异常特征，非异常特征为不存在异常的目标物体所具有的特征。

其中，计算机设备对多个图像特征分别进行特征提取，得到多个目标图像各自的图像特征，基于多个目标图像各自的图像特征，得到目标物体的非异常特征。

可选地，计算机设备通过异常检测模型进行特征提取，或者，计算机设备通过其他特征提取网络进行特征提取，如通过ResNet50网络进行特征提取。

其中，非异常特征包括该多个目标图像各自的图像特征。或者，计算机设备对多个目标图像的图像特征进行聚类，得到多个类簇，将每个类簇中的多个图像特征的均值作为该类簇对应的图像特征，非异常特征包括多个类簇各自对应的图像特征。或者，计算机设备确定多个目标图像的图像特征的均值，得到非异常特征。

因此，该非异常特征能够代表不存在异常的目标物体的特征分布。可选地，将非异常特征存储到一个记忆库中，该记忆库以一种直接的方式，离散化地表示了不存在异常的目标物体的特征分布。

606、计算机设备基于非异常特征对包括目标物体的图像进行异常检测。

在一些实施例中，计算机设备在包括目标物体的图像的图像特征与非异常特征之间的距离大于距离阈值的情况下，确定该图像中的目标物体存在异常；计算机设备在包括目标物体的图像的图像特征与非异常特征之间的距离不大于距离阈值的情况下，确定该图像中的目标物体不存在异常。该距离可以为余弦距离。

在一些实施例中，非异常特征包括多个目标图像各自的图像特征或多个类簇各自对应的图像特征，则从非异常特征包括的多个图像特征中，确定与该图像的图像特征之间距离最近的目标图像特征，在该距离不大于距离阈值的情况下，确定该图像中的目标物体不存在异常；在该距离大于距离阈值的情况下，确定该图像中的目标物体存在异常。

其中，距离阈值可以根据需要进行设定并更改。该距离阈值可以根据实际生产中对物品的良品率需求来确定。可选地，可以收集少量的验证数据（不存在异常的目标物体的图像），将这些验证数据输入到异常检测网络中，计算每个验证数据的异常分数（也即距离）。然后将异常分数按照从小到大进行排序。假设实际需求中的良品率为m%，则将排序后的异常分数中第m%位置的异常分数作为距离阈值。

在本申请实施例中，通过异常检测模型确定了图像的异常信息，而异常检测模型能够准确检测出目标物体存在异常的图像，进而通过异常检测模型就能够将多个图像中的目标物体存在异常的图像检测出来，保留目标物体不存在异常的正常图像，提高了异常检测的准确性。进而再基于这些正常图像建立的正常物体的非异常特征的准确性高。相应地，基于非异常特征进行异常检测，就能够将与非异常特征不匹配的图像检测出来，进而这些图像包括的目标物体也即存在异常的物体，进一步提高了异常检测的准确性。

上述实施例以异常检测网络以包括整个目标物体的图像为检测对象为例进行了说明。在另一些实施例中，异常检测网络以包括目标物体的局部的图块为检测对象，进而异常样本指包括的局部存在异常的图块样本，正常样本指包括的局部不存在异常的图块样本。其中，通过异常检测模型从大量图块中筛选出异常样本，基于剩下的正常样本来构建异常检测网络。具体地，基于正常样本构建目标物体的非异常特征，该非异常特征也即正常样本中目标物体的局部的特征分布，进而异常检测网络基于该非异常特征进行目标物体的异常局部的检测，也即将与该非异常特征差距大的局部检测出来，这类局部也即存在异常的局部。而检测出异常的局部后，也就检测出了异常的目标物体。

其中，计算机设备基于多个图块分别对应的目标文本，确定多个图块中的多个目标图块，目标图块中目标物体的局部不存在异常；基于多个图像各自的多个目标图块，确定目标物体的局部的非异常特征，非异常特征为目标物体不存在异常的局部所具有的特征；基于非异常特征对包括目标物体的局部的图块进行异常检测。

其中，目标文本用于描述目标物体的局部的异常情况，因此，基于目标文本能够确定图块中的局部是否异常，将目标文本指示局部不存在异常的图块作为目标图块。

可选地，计算机设备分别对多个目标图块分别进行特征提取，得到多个目标图块各自的图像特征，基于多个目标图块各自的图像特征，得到局部的非异常特征。其中，计算机设备通过异常检测模型进行特征提取，则由于在确定目标文本时已经提取了目标图块的图像特征，则可以直接获取步骤602中所提取的图像特征。或者，计算机设备通过其他特征提取网络进行特征提取，如通过ResNet50网络进行特征提取。

其中，局部的非异常特征包括多个目标图块各自的图像特征。或者，计算机设备对多个目标图块的图像特征进行聚类，得到多个类簇，将每个类簇中的多个图像特征的均值作为该类簇对应的图像特征，非异常特征包括多个类簇各自对应的图像特征。或者，计算机设备确定多个目标图块的图块特征的均值，得到非异常特征。

在一些实施例中，计算机设备将包括目标物体不同局部的多个图块进行统一处理，得到局部的非异常特征。在另一些实施例中，计算机设备对于目标物体的每个局部，基于包括该局部的多个目标图块，确定该局部的非异常特征，进而得到目标物体的多个局部各自的非异常特征。相应地，计算机设备基于每个局部的非异常特征对包括该局部的图块进行异常检测。

其中，计算机设备基于局部的非异常特征对包括局部的图块进行异常检测的过程与基于目标物体的非异常特征对包括目标物体的图像进行异常检测的过程同理，在此不再赘述。

在本申请实施例中，通过异常检测模型确定了图像的异常信息，而异常检测模型能够准确检测出目标物体的局部存在异常的图块，进而通过异常检测模型就能够将多个图块中局部存在异常的图块检测出来，保留局部不存在异常的正常图块，实现了对异常图块的准确检测，进而再基于这些正常图块建立的正常局部的非异常特征的准确性高。相应地，基于非异常特征进行异常检测，就能够将与非异常特征不匹配的图块准确检测出来，进而这些图块包括的局部也即存在异常的局部，即实现了异常检测的准确性。

异常检测网络构建目标物体的非异常特征时，默认使用的训练数据均是正常样本，正常样本指包括的目标物体不存在异常的图像。因此，对于校准之后的图像首先要进行去噪，即检测出异常样本并剔除后才能够将剩余的样本作为训练数据来训练异常检测网络。而在本申请实施例中，通过本申请实施例提供的方法能够准确检测出异常样本，进而使得异常检测网络所使用的训练数据均为正常样本，提高了训练出的异常检测网络的准确性，进而基于该异常检测网络进行异常检测的准确性高。

在本申请实施例中，以通过上述训练方法得到的异常检测模型进行异常检测为例进行了说明，在另一些实施例中，计算机设备还可以直接使用已经在大规模数据集上进行训练过的基础模型，如CLIP（Contrastive Language-Image Pre-Training，对比语言-图像预训练）模型，以及基于CLIP改进的模型APRIL-GAN模型、Anomaly CLIP模型等，在此不作具体限定。这类大模型通过在大规模、多模态数据集上进行预训练，能够具有良好的零样本迁移能力，进而利用这类模型进行去噪，能够避免聚类的方法造成的一系列问题，去噪指检测出异常样本并剔除。因此，本申请实施例提供的方法实现了一个基于基础大模型的全自动异常检测的框架，其利用大模型的通用能力，不依赖于特定的假设和大量正常物品的预训练，实现了更可靠的去噪流程，有效提升整体框架的去噪性能，进而实现更加高效、稳定、通用的全自动化的工业异常检测流程。

本申请实施例提供方法构建异常检测网络时无需更新参数，使得其训练阶段的时间开销极低，进而提高了效率。在另一些实施例中，计算机设备还可以通过PatchCore（一种基于卷积神经网络的图像处理算法）、UniAD（一种异常检测算法）、SimpleNet（一种异常检测算法）等来构建异常检测网络，在此不再赘述。

本申请实施例提供的方法可以应用于自动化的工业质量检测，可以准确检测出工业零件中的异常缺陷，大大降低工业质检的人力成本，且基于异常检测模组进行去噪，更加高效、稳定和通用。

例如，参见图7，图7是本申请实施例提供的一种工业异常检测的流程示意图。其中，本申请实施例提供的方法应用于全自动工业异常检测的流程，该流程包括训练阶段和测试阶段。在训练阶段，基于工厂生产的零件来对异常检测模型进行训练。首先，将包括零件的样本图像与模板图像进行对齐，对齐指基于模板图像中目标物体的位置对样本图像中目标物体的位置进行校准。然后基于这些样本图像进行训练，得到异常检测模型。再通过异常检测模型进行去噪，然后基于剩余的正常样本构建异常检测网络，异常检测网络中包括零件的非异常特征。在测试阶段以及实际的异常检测过程中，工厂生产的零件通过异常检测网络来进行异常检测，以将与非异常特征差距大的异常零件检测出来。

例如，参见图8，图8是本申请实施例提供的一种工业检测中训练阶段的流程图。其中，计算机设备获取输入的已自动采集的图像，进行图像对齐后，基于异常检测模型进行去噪，也即剔除异常样本，进而基于剩余的正常样本构建异常检测网络。再如，参见图9，图9是本申请实施例提供的一种工业检测中测试阶段的流程图。其中，计算机设备获取输入的测试图像，进行图像对齐后，通过异常检测网络进行异常检测，输出异常检测的结果。

需要说明的是，上述实施例以通过异常检测网络进行实际异常检测为例进行了说明，计算机设备还可以直接基于异常检测模型进行实际异常检测。或者，通过异常检测网络和异常检测模型分别进行实际异常检测，综合二者的检测结果，来得到目标检测结果。如将二者中的任一检测出来的物体作为存在异常的物体；或者，将二者均检测出来的物体作为存在异常的物体。

本申请实施例提供了一种物体异常检测方法，该方法基于异常检测模型来进行检测，异常检测模型基于样本图块和用于描述样本图块中目标物体的局部的异常情况的样本文本来训练得到，由于异常检测模型提取图像特征和文本特征，且成对的图像特征和文本特征之间应具有较高的相似度，进而基于图像特征和文本特征之间的相似度和预设相似度来训练异常检测模型，使得异常检测模型学习到成对的图像特征和文本特征之间具有较高相似度的规律，进而训练后的异常检测模型能够进行特征的准确提取；由于训练得到的异常检测模型能够准确提取图块的图像特征以及能够准确提取文本的文本特征，而用于描述图块中局部的异常情况的文本的文本特征与图像特征之间的相似度高，进而预设多个文本特征，分别对比该多个文本特征与图像特征之间的相似度，相似度满足预设要求的文本特征所对应的文本就是用于描述图块中局部的异常情况的文本，即通过该异常检测模型，实现了对图块中目标物体中异常局部的快捷、准确的检测，在此基础上再基于图像中各个图块分别对应的异常情况，就能够得到图像中目标物体的整体异常情况，提高了异常检测的便捷性和准确性。

图10是根据本申请实施例提供的一种异常检测模型的训练装置的框图。参见图10，装置包括：

获取模块1001，用于基于多个第一样本图像，获取多组样本对，多个第一样本图像均包括目标物体，每组样本对包括一个样本图块和样本文本，样本图块包括目标物体的局部，样本文本用于描述样本图块中局部的异常情况；

提取模块1002，用于对于每组样本对，通过异常检测模型，对样本对中的样本图块和样本文本分别进行特征提取，得到样本图块的图像特征和样本文本的文本特征，确定图像特征与文本特征之间的相似度，异常检测模型用于对所输入图块中目标物体的局部进行异常检测；

训练模块1003，用于基于多组样本对各自的相似度和预设相似度，迭代训练异常检测模型。

在一些实施例中，获取模块1001，用于：

对于每个第一样本图像，基于多个尺寸的滑动窗口分别对第一样本图像进行分割，得到多个尺寸各自的图块集，每个尺寸的图块集包括的多个样本图块均为尺寸；

基于多个第一样本图像各自的图块集中的样本图块和每个样本图块对应的样本文本，得到多组样本对。

在一些实施例中，每个样本图块对应多个样本文本，多个样本文本分别以不同的文本描述样本图块中局部的异常情况；提取模块1002，用于：

通过异常检测模型，对样本对中的多个样本文本分别进行特征提取，得到多个样本文本分别对应的初始文本特征，确定多个初始文本特征的均值，得到文本特征。

在一些实施例中，装置还包括：

填充模块，用于对于每个样本图块，基于样本图块中的局部和局部的异常信息，填充多个文本模板，得到多个样本文本，异常信息用于描述局部的异常情况，多个文本模板不同。

在一些实施例中，获取模块1001，还用于获取多个第二样本图像，多个第二样本图像均包括目标物体；

装置还包括分割模块，用于对于每个第二样本图像，从第二样本图像中分割出目标物体，得到第一样本图像。

在一些实施例中，获取模块1001，还用于获取多个第三样本图像，多个第三样本图像均包括目标物体；

装置还包括校准模块，用于对于每个第三样本图像，基于模板图像中目标物体的位置对第三样本图像中目标物体的位置进行校准，得到第一样本图像，第一样本图像中目标物体的位置与模板图像中目标物体的位置匹配。

本申请实施例提供了一种异常检测模型的训练装置，该装置基于样本图块和用于描述样本图块中目标物体的局部的异常情况的样本文本来训练异常检测模型，由于异常检测模型提取图像特征和文本特征，且成对的图像特征和文本特征之间应具有较高的相似度，进而基于图像特征和文本特征之间的相似度和预设相似度来训练异常检测模型，使得异常检测模型学习到成对的图像特征和文本特征之间具有较高相似度的规律，进而训练后的异常检测模型能够进行特征的准确提取，这样对于任一包括目标物体的局部的图块，基于提取的其图像特征能够确定与其相似度高的文本特征，进而该文本特征对应的文本即是用于描述图块中目标物体的局部的异常情况的文本，因此基于该装置训练得到的异常检测模型对图块中目标物体的局部进行异常检测的准确性高。并且，由于该装置基于图块进行训练，而图块包括目标物体的局部，进而通过该异常检测模型能够具体检测出目标物体的哪一局部存在异常，即提高了异常检测的精度。因此，基于训练得到的异常检测模型来进行异常检测，能够提高异常检测的准确性和精度。

图11是根据本申请实施例提供的一种物体异常检测装置的框图。参见图11，装置包括：

获取模块1101，用于获取图像的多个图块，图像包括目标物体，每个图块包括目标物体的局部；

确定模块1102，用于对于每个图块，通过异常检测模型，确定图块对应的目标文本，异常检测模型通过上述训练方法得到，目标文本用于描述图块中目标物体的局部的异常情况；

确定模块1102，还用于基于多个图块分别对应的目标文本，确定图像中目标物体的异常信息，异常信息用于描述目标物体的异常情况。

在一些实施例中，确定模块1102，用于：

在多个图块中至少一个图块对应的目标文本指示目标物体的局部存在异常的情况下，确定图像中的目标物体存在异常以及确定目标物体存在异常的局部；

在多个图块中每个图块对应的目标文本均指示目标物体的局部不存在异常的情况下，确定图像中的目标物体不存在异常。

在一些实施例中，确定模块1102，用于：

对于每个图块，通过异常检测模型，提取图块的图像特征，确定图像特征分别与多个预设文本特征之间的相似度，从多个预设文本特征中确定相似度满足预设要求的目标文本特征，多个预设文本特征分别对应有预设文本，目标文本为目标文本特征所对应的预设文本。

在一些实施例中，获取模块1101，用于：

基于多个尺寸的滑动窗口分别对图像进行分割，得到多个尺寸各自的图块集，每个尺寸的图块集包括的多个图块均为尺寸。

在一些实施例中，每个图块包括多个像素点，确定模块1102，用于：

对于每个尺寸的每个图块，在图块对应的目标文本指示图块中目标物体的局部存在异常的情况下，将图块的图像特征与所对应的目标文本特征之间的相似度赋值给图块中的多个像素点；

对于每个像素点，基于像素点在多个尺寸下的相似度，得到像素点的异常值，异常值用于指示像素点存在异常的概率；

基于图像中每个像素点的异常值，确定图像中目标物体的异常信息，目标物体的异常信息包括目标物体存在异常的像素点位置和异常面积中的至少一项。

在一些实施例中，图像为多个，确定模块1102，还用于基于多个图像中目标物体各自的异常信息，确定多个图像中的多个目标图像，目标图像中的目标物体不存在异常；基于多个目标图像确定目标物体的非异常特征，非异常特征为不存在异常的目标物体所具有的特征；

装置还包括第一检测模块，用于基于非异常特征对包括目标物体的图像进行异常检测。

在一些实施例中，图像为多个，确定模块1102，还用于基于多个图块分别对应的目标文本，确定多个图块中的多个目标图块，目标图块中目标物体的局部不存在异常；基于多个图像各自的多个目标图块，确定目标物体的局部的非异常特征，非异常特征为目标物体不存在异常的局部所具有的特征；

装置还包括第二检测模块，用于基于非异常特征对包括目标物体的局部的图块进行异常检测。

本申请实施例提供了一种物体异常检测装置，该装置基于异常检测模型来进行检测，异常检测模型基于样本图块和用于描述样本图块中目标物体的局部的异常情况的样本文本来训练得到，由于异常检测模型提取图像特征和文本特征，且成对的图像特征和文本特征之间应具有较高的相似度，进而基于图像特征和文本特征之间的相似度和预设相似度来训练异常检测模型，使得异常检测模型学习到成对的图像特征和文本特征之间具有较高相似度的规律，进而训练后的异常检测模型能够进行特征的准确提取，这样对于任一包括目标物体的局部的图块，基于提取的其图像特征能够确定与其相似度高的文本特征，进而该文本特征对应的文本即是用于描述图块中目标物体的局部的异常情况的文本，因此基于该装置训练得到的异常检测模型对图块中目标物体的局部进行异常检测的准确性高，进而再基于图像中各个图块分别对应的异常情况，就能够得到图像中目标物体的异常情况，提高了异常检测的便捷性和准确性。

在本申请实施例中，计算机设备可以为终端或者服务器，当计算机设备为终端时，由终端作为执行主体来实施本申请实施例提供的技术方案；当计算机设备为服务器时，由服务器作为执行主体来实施本申请实施例提供的技术方案；或者，通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图12示出了本申请一个示例性实施例提供的终端1200的结构框图。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1201所执行以实现本申请中方法实施例提供的异常检测模型的训练方法或物体异常检测方法。

在一些实施例中，终端1200还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207和电源1208中的至少一种。

***设备接口1203可被用于将I/O（Input /Output，输入/输出）相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1204还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-EmittingDiode，有机发光二极管）等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

电源1208用于为终端1200中的各个组件进行供电。电源1208可以是交流电、直流电、一次性电池或可充电电池。当电源1208包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1209。该一个或多个传感器1209包括但不限于：加速度传感器1210、陀螺仪传感器1211、压力传感器1212、光学传感器1213以及接近传感器1214。

加速度传感器1210可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1210可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1210采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1210还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1211可以检测终端1200的机体方向及转动角度，陀螺仪传感器1211可以与加速度传感器1210协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1211采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1212可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1212设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1212采集的握持信号进行左右手识别或快捷操作。当压力传感器1212设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1213用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1213采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1213采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1214，也称距离传感器，通常设置在终端1200的前面板。接近传感器1214用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1214检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1214检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图13是根据本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（CentralProcessing Units，CPU）1301和一个或一个以上的存储器1302，其中，存储器1302用于存储可执行程序代码，处理器1301被配置为执行上述可执行程序代码，以实现上述各个方法实施例提供的异常检测模型的训练方法或物体异常检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一段程序，至少一段程序由处理器加载并执行，以实现上述任一实现方式的异常检测模型的训练方法或物体异常检测方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括至少一段程序，至少一段程序存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取至少一段程序，处理器执行至少一段程序，使得计算机设备执行上述任一实现方式的异常检测模型的训练方法或物体异常检测方法。

在一些实施例中，本申请实施例所涉及的计算机程序产品可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种异常检测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于多个第一样本图像，获取多组样本对，包括：

3.根据权利要求1所述的方法，其特征在于，每个样本图块对应多个样本文本，所述多个样本文本分别以不同的文本描述所述样本图块中局部的异常情况；

通过所述异常检测模型，对所述样本对中的样本文本进行特征提取，得到所述样本文本的文本特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对于每个样本图块，基于所述样本图块中的局部和所述局部的异常信息，填充多个文本模板，得到所述多个样本文本，所述异常信息用于描述所述局部的异常情况，所述多个文本模板不同。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个第二样本图像，所述多个第二样本图像均包括所述目标物体；

对于每个第二样本图像，从所述第二样本图像中分割出所述目标物体，得到所述第一样本图像。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个第三样本图像，所述多个第三样本图像均包括所述目标物体；

对于每个第三样本图像，基于模板图像中所述目标物体的位置对所述第三样本图像中所述目标物体的位置进行校准，得到所述第一样本图像，所述第一样本图像中所述目标物体的位置与所述模板图像中所述目标物体的位置匹配。

7.一种物体异常检测方法，其特征在于，所述方法包括：

对于每个图块，通过异常检测模型，确定所述图块对应的目标文本，所述异常检测模型通过权利要求1-6任一项的训练方法得到，所述目标文本用于描述所述图块中所述目标物体的局部的异常情况；

8.根据权利要求7所述的检测方法，其特征在于，所述基于所述多个图块分别对应的目标文本，确定所述图像中目标物体的异常信息，包括：

9.根据权利要求7所述的检测方法，其特征在于，所述对于每个图块，通过异常检测模型，确定所述图块对应的目标文本，包括：

10.根据权利要求9所述的检测方法，其特征在于，所述获取图像的多个图块，包括：

11.根据权利要求10所述的检测方法，其特征在于，每个图块包括多个像素点，所述基于所述多个图块分别对应的目标文本，确定所述图像中目标物体的异常信息，包括：

12.根据权利要求7所述的检测方法，其特征在于，所述图像为多个，所述方法还包括：

基于多个图像中目标物体各自的异常信息，确定所述多个图像中的多个目标图像，所述目标图像中的目标物体不存在异常；

基于所述多个目标图像确定所述目标物体的非异常特征，所述非异常特征为不存在异常的目标物体所具有的特征；

基于所述非异常特征对包括目标物体的图像进行异常检测。

13.根据权利要求7所述的检测方法，其特征在于，所述图像为多个，所述方法还包括：

基于所述多个图块分别对应的目标文本，确定所述多个图块中的多个目标图块，所述目标图块中所述目标物体的局部不存在异常；

基于多个图像各自的多个目标图块，确定所述目标物体的局部的非异常特征，所述非异常特征为所述目标物体不存在异常的局部所具有的特征；

基于所述非异常特征对包括所述目标物体的局部的图块进行异常检测。

14.一种异常检测模型的训练装置，其特征在于，所述装置包括：

15.一种物体异常检测装置，其特征在于，所述装置包括：

确定模块，用于对于每个图块，通过异常检测模型，确定所述图块对应的目标文本，所述异常检测模型通过权利要求1-6任一项的训练方法得到，所述目标文本用于描述所述图块中所述目标物体的局部的异常情况；

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序，所述至少一段程序由所述处理器加载并执行权利要求1至6任一项所述的异常检测模型的训练方法或权利要求7-13任一项所述的物体异常检测方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段程序，所述至少一段程序用于执行权利要求1至6任一项所述的异常检测模型的训练方法或权利要求7-13任一项所述的物体异常检测方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一段程序，所述至少一段程序存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述至少一段程序，所述处理器执行所述至少一段程序，使得所述计算机设备执行权利要求1至6任一项所述的异常检测模型的训练方法或权利要求7-13任一项所述的物体异常检测方法。