CN117351192A

CN117351192A - 一种对象检索模型训练、对象检索方法、装置及电子设备

Info

Publication number: CN117351192A
Application number: CN202311298651.9A
Authority: CN
Inventors: 任玉强; 鄢科
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-05

Abstract

本申请公开了一种对象检索模型训练、对象检索方法、装置及电子设备，具体的，该方法包括：获取的初始图像集中包含有已知类别对象的图像标注有对应已知类别对象的定位数据；基于每个初始图像、每个初始图像的深度图像和每个初始图像的法向图像，对每个初始图像中的未知类别对象进行对象定位标注，得到目标标注图像集；基于目标标注图像集训练待训练对象定位模型；基于确定多个标注有对象类别数据的第一对象图像和多个第二对象图像，对待训练类别检索模型进行对比学习；基于对象定位模型和类别检索模型得到对象检索模型。利用本申请的方案可以在提升未知类别对象的定位标注效率和准确性的基础上，提升对象检索模型对未知类别对象检索的训练效果。

Description

一种对象检索模型训练、对象检索方法、装置及电子设备

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种对象检索模型训练、对象检索方法、装置及电子设备。

背景技术

随着人工智能以及深度学习技术的不断发展，目标检测技术在行人识别、物体检测、商品识别、智能安全监测，元素检测等应用也愈加广泛。传统的方法需要大量的标注数据训练检测模型，以保证它的性能。

然而面临新的任务时，往往需要添加新的类别，因此，模型需要重新训练，这就导致了模型训练的时间较长，计算资源的开销较大。此外，常规训练数据通常只标注了常见类别的对象的定位数据，导致模型会偏向已知的常见类别，对未知的新类别的定位检测效果较差。

发明内容

本申请提供了一种对象检索模型训练、对象检索方法、装置及电子设备，可以在提升未知类别对象的定位标注效率和准确性的基础上，提升对象检索模型对未知类别对象检索的训练效果，本申请技术方案如下：

一方面，提供了一种对象检索模型训练方法，所述方法包括：

获取初始图像集、所述初始图像集中每个初始图像对应的深度图像和所述每个初始图像对应的法向图像，所述初始图像集中包含有已知类别对象的图像标注有对应已知类别对象的对象定位数据；

基于所述每个初始图像对应的第一对象分割结果、所述深度图像对应的第二对象分割结果和所述法向图像对应的第三对象分割结果，对所述每个初始图像中的未知类别对象进行对象定位标注，得到所述初始图像集对应的目标标注图像集；

基于所述目标标注图像集，对待训练对象定位模型进行对象定位训练，得到对象定位模型；

确定多个第一对象图像和多个第二对象图像，每个第一对象图像标注有对象类别数据；

基于所述多个第一对象图像和所述多个第二对象图像，对待训练类别检索模型进行对比学习，得到类别检索模型；

基于所述对象定位模型和所述类别检索模型，得到对象检索模型。

另一方面，提供了一种对象检索方法，所述方法包括：

获取待检测图像和新增对象类别对应的新增类别表征图像；

将所述待检测图像输入对象检索模型中的对象定位模型进行对象定位，得到所述待检测图像中的多个对象定位区域；

基于所述新增类别表征图像，对预设图像集合进行更新，得到更新后的图像集合，所述更新后的图像集合包括：多个对象类别各自对应的类别表征图像；

将所述待检测图像中每个对象定位区域各自对应的对象子图像和所述多个对象类别各自对应的类别表征图像输入所述对象检索模型中的类别检索模型，对所述对象子图像中的对象进行类别检索处理，得到所述待检测图像的对象检索结果；

其中，所述对象检索模型是基于如上述的对象检索模型训练方法训练后得到的。

另一方面，提供了一种对象检索模型训练装置，所述装置包括：

初始图像集获取模块，用于获取初始图像集、所述初始图像集中每个初始图像对应的深度图像和所述每个初始图像对应的法向图像，所述初始图像集中包含有已知类别对象的图像标注有对应已知类别对象的对象定位数据；

对象定位标注模块，用于基于所述每个初始图像对应的第一对象分割结果、所述深度图像对应的第二对象分割结果和所述法向图像对应的第三对象分割结果，对所述每个初始图像中的未知类别对象进行对象定位标注，得到所述初始图像集对应的目标标注图像集；

对象定位训练模块，用于基于所述目标标注图像集，对待训练对象定位模型进行对象定位训练，得到对象定位模型；

对象图像确定模块，用于确定多个第一对象图像和多个第二对象图像，每个第一对象图像标注有对象类别数据；

类别检索训练模块，用于基于所述多个第一对象图像和所述多个第二对象图像，对待训练类别检索模型进行对比学习，得到类别检索模型；

对象检索模型生成模块，用于基于所述对象定位模型和所述类别检索模型，得到对象检索模型。

另一方面，提供了一种对象检索装置，所述装置包括：

图像获取模块，用于获取待检测图像和新增对象类别对应的新增类别表征图像；

对象定位模块，用于将所述待检测图像输入对象检索模型中的对象定位模型进行对象定位，得到所述待检测图像中的多个对象定位区域；

集合更新模块，用于基于所述新增类别表征图像，对预设图像集合进行更新，得到更新后的图像集合，所述更新后的图像集合包括：多个对象类别各自对应的类别表征图像；

类别检索模块，用于将所述待检测图像中每个对象定位区域各自对应的对象子图像和所述多个对象类别各自对应的类别表征图像输入所述对象检索模型中的类别检索模型，对所述对象子图像中的对象进行类别检索处理，得到所述待检测图像的对象检索结果；

其中，所述对象检索模型是基于如上述的对象检索模型训练装置训练后得到的。

另一方面，提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的对象检索模型训练方法或对象检索方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的对象检索模型训练方法或对象检索方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如上述的对象检索模型训练方法或对象检索方法。

本申请提供的一种对象检索模型训练、对象检索方法、装置及电子设备，具有如下技术效果：

本申请在训练针对开放世界的对象检索模型的过程中，在获取到仅标注有已知类别对象对应的定位标注数据的初始图像集的情况下，根据初始图像的三种图像模态(原始图像、深度图像和法向图像)各自的对象分割结果，对初始图像中的未知类别对象进行定位标注，得到目标标注图像集，通过原始图像中细节纹理信息与深度图像和法向图像中对象主体信息的结合，可以提升未知类别对象的定位标注的准确性，并基于目标标注图像集，对待训练对象定位模型进行对象定位训练，得到对象定位模型，在提升未知类别对象的定位标注效率和准确性的基础上，可以提升对象定位模型对未知类别对象定位的训练效率和训练效果，然后确定多个标注有对象类别数据的第一对象图像和多个第二对象图像，并基于多个第一对象图像和多个第二对象图像对待训练类别检索模型进行对比学习，得到类别检索模型，通过结合对象类别标注的混合监督训练机制，可以提升类别检索模型的训练拟合，从而提升类别检索模型的类别检索效果，最后基于对象定位模型和类别检索模型，得到对象检索模型，可以在提升对象定位模型和类别检索模型各自的训练效果的基础上，提升对象检索模型对未知类别对象检索的训练效果，进而可以提升对象检索模型对开放世界中新增未知类别对象的检索效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种对象检索模型训练方法的流程示意图；

图3是本申请实施例提供的一种对每个初始图像中的未知类别对象进行对象定位标注的流程示意图；

图4是本申请实施例提供的一种对象定位模型的训练流程的完整示意图；

图5是本申请实施例提供的一种对象定位模型的对象定位效果图；

图6是本申请实施例提供的一种基于目标对象图像和目标对象图像对应的正负样本图像，对待训练类别检索模型进行对比学习，得到类别检索模型的流程示意图；

图7a-b是本申请实施例提供的混合监督机制的示意图；

图8是本申请实施例提供的一种对象检索方法的流程示意图；

图9是本申请实施例提供的一种对象检索方案的框架示意图；

图10是本申请实施例提供的一种对象检索模型训练装置的组成框图；

图11是本申请实施例提供的一种对象检索装置的组成框图；

图12是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革，Swin-Transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

预训练模型(Pre-training model)，也称基石模型、大模型，指具有大参量的深度神经网络(Deep neural network，DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer，ViT，V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具，也可以作为连接多个具体任务模型的通用接口。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

此外，本申请中涉及到的技术术语包括：

目标检测技术(Object Detection)：是指将图片中的每个物体都定位出来并给出其类别信息。

少样本目标检测技术(Few Shot Object Detection，FSOD)：少样本目标检测的是目标检测技术的子领域，少样本目标检测一般分为2阶段，第一阶段利用大量已知类别来训练网络模型；第二阶段利用少部分新类别的数据进行微调，达到检测到新类别的物体的效果。少样本目标检测技术也称为K-shot N-way少样本目标检测，其中N-way代表训练的类别有N个，K-shot代表每个类别在第二阶段各有K个实例。

泛化少样本目标检测技术(Generalization Few Shot Object Detecton)：泛化少样本目标检测技术，是指在检测到新类别的条件下，使得微调后的新网络模型不会遗忘第一阶段中的类别，从而提高网络的泛化性。

开放世界目标定位技术(Open World Object Localization)：是指在已有类别的定位网络模型的基础上，对开放世界中未知的类别进行定位。

更快的区域卷积神经网络(Faster R-CNN)：更快的区域卷积神经网络，一种经典的基于锚框(anchor)两阶段的目标检测网络，由主干网络(Backbone)，区域生成网络(RPN)以及感兴趣区域头(RoI Head)组成。

锚框(Anchor)：在原图上每个像素的预设了不同大小的框辅助训练。

区域生成网络(Region Proposal Network，RPN)：在更快的区域卷积神经网络中，筛选出可能会有目标的框。

感兴趣区域对齐模块(RoI Align)：在区域生成网络找到的得分较高的候选框(proposals)后，将其按照相应比例裁剪下来。

感兴趣区域头(Region of Interest Head，RoI Head)：对区域生成网络阶段得到的候选框进行裁剪，并通过若干全连接层(FC)输出候选框回归和分类的预测值。

特征金字塔网络(Features Pyramid Network，FPN)：用于和残差网络(Resnet)网络一起组成骨干网络，来提取输入图像的多尺度特征。

支持图像(Support Images)：组成支持集(Support Set)的图像，从训练集每个类别所在的图像中，随机挑选出若干经过缩放后的图像(共有N个类别，每个类别共K张，每一次训练中，每个类别各挑选一张)，用于辅助N-way K-shot少样本目标检测的训练。

待检测图像(Query Imageas)：组成检测集(Query Set)的图像，也就是需要检测的目标图像。

微调技术(Fine Tune)：是指在已有的模型上进行调整，微调可以省下一定的计算资源和时间，提高计算效率。

预训练模型(Pre-trained Model)：是指已经用数据集训练好的模型。

全卷积网络(Fully convolutional network)：图像分割技术最常用的一种卷积网络，完全由卷积层和池化层组成。

特征图(Feature map)：图像和滤波器进行卷积后得到的特征图。特征图可以和滤波器进行卷积生成新的特征图。

本申请实施例提供的方案涉及人工智能的自然语言处理、计算机视觉技术和预训练模型等技术，具体通过如下实施例进行说明：

本申请实施例提供的对象检索方法，可以应用于如图1所示的应用环境中，该应用环境中可以包括客户端10和服务器端20，客户端10和服务器端20可以通过无线通信方式进行间接地连接。相关对象(比如用户)可以通过客户端10向服务器端20发送携带有新增对象类别对应的新增类别表征图像的图像集合更新请求，服务器端20响应于图像集合更新请求，基于新增类别表征图像，对预设图像集合进行更新，得到更新后的图像集合，该更新后的图像集合可以包括：多个对象类别各自对应的类别表征图像，并向客户端10反馈更新响应信息，然后相关对象可以通过客户端10向服务器端20发送携带有待检测图像的对象检索请求，服务器端20响应于对象检索请求，将待检测图像输入对象检索模型中的对象定位模型进行对象定位，得到待检测图像中的多个对象定位区域，接着将待检测图像中每个对象定位区域各自对应的对象子图像和多个对象类别各自对应的类别表征图像输入对象检索模型中的类别检索模型，对对象子图像中的对象进行类别检索处理，得到待检测图像的对象检索结果，并向客户端10反馈该对象检索结果，其中，对象定位模型是基于目标标注图像集对待训练对象定位模型进行对象定位训练后得到的，目标标注图像集是基于初始图像集中每个初始图像对应的第一对象分割结果、每个初始图像的深度图像对应的第二对象分割结果和每个初始图像的法向图像对应的第三对象分割结果，对每个初始图像中的未知类别对象进行对象定位标注后得到，该初始图像集中仅包含有已知类别对象的图像标注有对应已知类别对象的对象定位数据；类别检索模型是基于多个第一对象图像和多个第二对象图像，对待训练类别检索模型进行对比学习后得到的，每个第一对象图像标注有对象类别数据。需要说明的是，图1仅仅是一种示例。

客户端可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、车载终端等类型的实体设备，也可以是运行于实体设备中的软体，比如计算机程序。第一客户端所对应的操作***可以是安卓***(Android***)、iOS***(是由苹果公司开发的移动操作***)、Linux***(一种操作***)、Microsoft Windows***(微软视窗操作***)等。

服务器端可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。

示意性的，客户端10可以为运行于终端中的小程序，服务器端20可以为云服务器，用户可以通过终端拍照得到待检测图像，并通过小程序向云服务器发送携带有待检测图像的对象检索请求，云服务器响应于对象检索请求，将待检测图像输入对象检索模型中的对象定位模型进行对象定位，得到待检测图像中的多个对象定位区域，接着将待检测图像中每个对象定位区域各自对应的对象子图像和多个对象类别各自对应的类别表征图像输入对象检索模型中的类别检索模型，对对象子图像中的对象进行类别检索处理，得到待检测图像的对象检索结果，并返回该对象检索结果到小程序以向用户展示该对象检索结果。

上述客户端10和服务器端20可以用于构建一个有关对象检索的***，该***可以是分布式***。

需要说明的是，本申请提供的对象检索模型训练方法和对象检索方法既可以应用在客户端，也可以应用在服务器端，并不以上述应用环境的实施例为限。

以下介绍本申请提供的一种对象检索模型训练方法的具体实施例，图2是本申请实施例提供的一种对象检索模型训练方法的流程示意图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的，如图2所示，所述方法可以包括：

S201，获取初始图像集、初始图像集中每个初始图像对应的深度图像和每个初始图像对应的法向图像，初始图像集中包含有已知类别对象的图像标注有对应已知类别对象的对象定位数据。

在一个具体的实施例中，初始图像集中的各个初始图像可以包含有已知类别对象和/或未知类别对象，每个初始图像在包含有已知类别对象的情况下，预标注有该已知类别对象对应的对象定位数据，在包含有未知类别对象的情况下，未预标注有该未知类别对象对应的对象定位数据。

在一个可选的实施例中，已知类别对象的对象定位数据可以为人工标注的对象定位数据。

在一个可选的实施例中，某一初始图像在不包含有已知类别对象，仅包含有未知类别对象的情况下，则该初始图像中未预标注有对象定位数据。

在本说明书实施例中，对象定位数据可以表征对应对象在图像中的位置信息，在一个具体的实施例中，对象定位数据可以为对应对象在图像中的标注框坐标。

在本说明书实施例中，初始图像集中的每个初始图像可以为未经过图像处理的原始图像，具体的，原始图像可以为二维图像。在一个具体的实施例中，这里的初始图像的图像类型可以包括但不限于：RGB三通道图像、BGR三通道图像等。

在本说明书实施例中，深度图像中的每个像素点可以存储有对应像素位置的深度信息，这里的深度信息可以表征场景中某一点与图像采集设备(例如，摄像机)的距离，即该点在相机坐标系下的Z坐标值。在一个具体的实施例中，深度图像中的每个像素点的像素值可以表征对应像素位置的深度信息。

在本说明书实施例中，法向图像中的每个像素点可以存储有对应像素位置的法向量。示例性的，以法向图像为RGB三通道图像为例，每个像素点的红色分量、绿色分量和蓝色分量可以分别存储有对应像素位置的法向量的X坐标值、Y坐标值和Z坐标值。

在一个具体的实施例中，上述每个初始图像对应的深度图像和每个初始图像对应的法向图像是通过如下方式生成的：

将每个初始图像输入三维图像数据生成模型进行三维图像数据生成处理，得到每个初始图像对应的深度图像和每个初始图像对应的法向图像。

具体的，这里的三维图像数据生成模型可以用于生成二维图像对应的三维图像数据，这里的三维图像数据可以包括但不限于：深度图像、法向图像等。

具体的，这里的三维图像数据生成模型可以为预训练模型，三维图像数据生成模型可以包括但不限于：Omnidata模型、GET3D模型等预训练的三维生成模型。

在一个具体的实施例中，还可以基于单独的深度图像生成模型或深度图像生成算法，对每个初始图像进行深度图像生成处理，得到每个初始图像对应的深度图像，以及基于单独的法向图像生成模型或法向图像生成算法，对每个初始图像进行法向图像生成处理，得到每个初始图像对应的法向图像，需要说明的是，本申请实施例不对这里涉及的模型或算法进行特别的限定。

由以上实施例可见，将每个初始图像输入三维图像数据生成模型进行三维图像数据生成处理，得到每个初始图像对应的深度图像和法向图像，后续结合三种模态图像的对象分割结果进行对象定位标注，可以提升对象分割效果的基础上可以提升对象定位标注的准确性。

S202，基于每个初始图像对应的第一对象分割结果、深度图像对应的第二对象分割结果和法向图像对应的第三对象分割结果，对每个初始图像中的未知类别对象进行对象定位标注，得到初始图像集对应的目标标注图像集。

在本说明书实施例中，目标标注图像集中各个目标标注图像均标注有自身包含对象对应的对象定位数据。具体的，这里的自身包含对象可以为已知类别对象和/或未知类别对象。

在一个具体的实施例中，可以将每个初始图像、每个初始图像对应的深度图像和每个初始图像对应的法向图像分别输入对象分割模型，对图像中的各个对象进行分割处理，得到每个初始图像对应的第一对象分割结果、深度图像对应的第二对象分割结果和法向图像对应的第三对象分割结果。

具体的，这里的对象分割模型可以用于对自身输入图像中的所有对象进行分割处理，对象分割模型可以包括但不限于：SAM(Segment Anything Model，分割一切模型)、SegGPT模型、SEEM(Segment Everything Everywhere All at Once Model，一种可提示的交互式图像分割模型)等预训练的对象分割模型。

在一个具体的实施例中，每个初始图像对应的第一对象分割结果可以包括：每个初始图像中未知类别对象对应的第一掩膜区域和第一掩膜区域对应的分割置信信息，每个初始图像的深度图像对应的第二对象分割结果可以包括：每个初始图像的深度图像中未知类别对象对应的第二掩膜区域和第二掩膜区域对应的分割置信信息，每个初始图像的法向图像对应的第三对象分割结果包括：每个初始图像的法向图像中未知类别对象对应的第三掩膜区域和第三掩膜区域对应的分割置信信息。具体的，图像分割中属于感兴趣区域的部分与不属于感兴趣区域的部分可以分别具有不同的像素值(例如，0,1)，未知类别对象对应的掩膜区域可以为未知类别对象对应的感兴趣区域的二值图像区域，掩膜区域对应的分割置信信息可以表征对应掩膜区域中各个像素点属于未知类别对象的置信度。

在一个具体的实施例中，如图3所示，上述基于每个初始图像对应的第一对象分割结果、深度图像对应的第二对象分割结果和法向图像对应的第三对象分割结果，对每个初始图像中的未知类别对象进行对象定位标注，得到初始图像集对应的目标标注图像集可以包括：

S301，在每个初始图像中分别确定第一掩膜区域对应的第一最小外接区域、第二掩膜区域对应的第二最小外接区域和第三掩膜区域对应的第三最小外接区域。

S302，基于分割置信信息，对第一最小外接区域、第二最小外接区域和第三最小外接区域进行定位融合处理，得到每个初始图像中未知类别对象的预测定位数据。

具体的，分别将第一最小外接区域、第二最小外接区域和第三最小外接区域转化为对应的检测框，并基于分割置信信息和NMS(非极大值抑制)算法将得到的检测框中的低置信度框、细小部件框、重复框等去除，得到每个初始图像中每个未知类别对象对应的目标检测框，并将每个未知类别对象对应的目标检测框，作为每个未知类别对象对应的预测定位数据。

S303，基于初始图像集中各个初始图像对应的预测定位数据，对各个初始图像中的未知类别对象进行对象定位标注，得到目标标注图像集。

具体的，由于每个初始图像在包含有已知类别对象的情况下，已经预标注有该已知类别对象对应的对象定位数据，再通过对象分割，得到每个初始图像中每个未知类别对象对应的预测定位数据，对每个未知类别对象进行对象定位标注，得到每个初始图像对应的目标标注图像，并将初始图像集中各个初始图像对应的目标标注图像作为目标标注图像集，因而目标标注图像集中各个目标标注图像均标注有自身包含的所有对象各自对应的对象定位数据。

在一个可选的实施例中，某一初始图像在不包含有未知类别对象，仅包含有已知类别对象的情况下，则将该初始图像自身作为该初始图像对应的目标标注图像。

由以上实施例可见，根据初始图像的三种图像模态(原始图像、深度图像和法向图像)各自的对象分割结果，对初始图像中的未知类别对象进行定位标注，通过结合三种图像模态各自的表征优势，利用原始图像中的细节纹理信息与深度图像和法向图像中的对象主体信息进行对象分割效果和定位标注，可以在提升对象分割效果的基础上，提升未知类别对象的定位标注的准确性。

S203，基于目标标注图像集，对待训练对象定位模型进行对象定位训练，得到对象定位模型。

在本说明书实施例中，待训练对象定位模型可以为现有技术中的任何可实现对象定位的人工智能模型，本申请实施例不对该待训练对象定位模型的模型类型进行特别的限定。

在一个可选的实施例中，可以将现有技术中典型的两阶段目标检测框架作为基础对象定位框架，然后将该框架中用于常规检测的分类分支替换为基于BoxIoU(检测框交并比)或Centerness(中心度)的定位分支，得到待训练对象定位模型，示意性的，待训练对象定位模型可以包括有依次连接的骨干网络、区域生成网络、中间层输出分支(并列的第一定位置信度分支和第一预测框回归分支)、感兴趣区域对齐模块、感兴趣区域定位头、目标输出分支(并列的第二定位置信度分支和第二预测框回归分支)等结构，首先通过骨干网络获取输入训练图像的多尺度特征，接着使用区域生成网络层筛选出定位置信度较高的预测框，并输入至感兴趣区域定位头，最后利用感兴趣区域定位头输出预测框的回归坐标和定位置信度得分，使得网络能够定位输入训练图像中出现的对象以及潜在的未知物体。

在一个具体的实施例中，可以采用梯度下降算法求解待训练对象定位模型的卷积模板参数w和偏置参数b，在每次训练迭代过程中，将预测结果与标注结果之间的误差反向传播到待训练对象定位模型，在反向传播过程中根据误差计算每个参数的梯度并基于梯度进行参数更新，直至达到模型训练收敛条件。

在一个可选的实施例中，这里的梯度下降算法可以包括但不限于：随机梯度下降算法、批量梯度下降算法等，本申请对此不作特别的限定。

在一个可选的实施例中，上述达到模型训练收敛条件可以为训练迭代的次数达到预设训练次数。可选的，达到模型训练收敛条件也可以为当前误差小于指定阈值。本说明书实施例中，预设训练次数和指定阈值可以结合实际应用中对对象定位模型的训练速度和精准度预先设置。

示意性的，图4是本申请实施例提供的一种对象定位模型的训练流程的完整示意图。具体的，训练流程包括训练数据生成阶段和主体检测训练阶段，在训练数据生成阶段，首先，将人工标注有已知类别对象(例如，人)对应的检测框的原始图像输入预训练好的三维图像数据生成模型(例如，Omnidata模型)，生成原始图像的深度图像和法向图像，之后将三种模态图像(即原始图像、深度图像和法向图像)分别输入对象分割模型(例如，SAM模型)得到每种模态图像中所有对象对应的分割掩膜(mask)，并通过取最小外接矩形的方式将每种模态图像中的分割掩膜均转为检测框(bbox)，然后将三种模态图像中的检测框输入检测框融合模块，去除其中的低置信度框、细小部件框、重复框等，得到原始图像中未知类别对象对应的目标检测框，并将该目标检测框作为未知类别对象的伪标签检测框，接着基于已知类别对象的人工标注检测框和未知类别对象的伪标签检测框进行融合，生成原始图像对应的标注图像，最后将标注图像输入待训练的对象定位模型进行主体检测训练，即对图像中的对象主体进行定位。

示意性的，图5是本申请实施例提供的一种对象定位模型的对象定位效果图。如图5所示，利用本申请实施例提供的对象定位模型可以检测出输入图像中出现的已知类别对象(例如，图像画面中各类的控件图标：“取消施法”图标、“恢复”图标等)以及潜在的未知类别物体(例如，图像画面中的各类游戏道具)，并生成相应的定位框和定位置信度得分，在后续训练类别检索模型时，可以选择定位置信度得分较高的定位框对应的子图像作为类别检索模型的训练数据，提升类别检索模型的训练效果，在模型实际应用时，可以通过置信度得分进行定位框的筛选，仅将定位置信度得分较高的定位框对应的对象子图像输入类别检索模型进行类别检索，以提升对象检索的准确性。

S204，确定多个第一对象图像和多个第二对象图像，每个第一对象图像标注有对象类别数据。

在说明书实施例中，第一对象图像和第二对象图像均为仅包含有一个对象的图像，且第一对象图像标注有自身包含对象的对象类别数据。

具体的，第一对象图像和第二对象图像所包含的对象可以为属于任意对象类别的对象，本申请实施例不对这里的对象类别进行限制。

具体的，多个第一对象图像和多个第二对象图像可以从任意现有图像集中确定，这里的现有图像集可以包括但不限于：现有的用于目标检测的图像集、基于用户提供图像生成的图像集、上述初始图像集等，本申请实施例不对这里的现有图像集的来源和类型进行特别的限定。在一个可选的实施例中，可以从除初始图像集(目标标注图像集)之外的其他图像集中确定多个第一对象图像和多个第二对象图像，也可以从初始图像集(目标标注图像集)中确定多个第一对象图像和多个第二对象图像，也可以基于初始图像集(目标标注图像集)和其他图像集来确定多个第一对象图像和多个第二对象图像。

在一个具体的实施例中，上述确定多个第一对象图像和多个第二对象图像可以包括：

S2041，根据目标标注图像集中标注的对象定位数据，从目标标注图像集中，确定多个第一子图像和多个第二子图像，每个第一子图像为包含有预设已知类别对象的对象类别标注图像，每个第二对象子图像为包含有目标未知类别对象的未标注图像。

具体的，这里的预设已知类别对象可以为初始图像集中包含的已知类别对象中的一个对象，目标已知类别对象可以为初始图像集中包含的未知类别对象中的一个对象。

在一个具体的实施例中，根据目标标注图像集中标注的对象定位数据，从目标标注图像集中，确定多个第一子图像和多个第二子图像可以包括：

1)根据目标标注图像集中预设已知类别对象对应的对象定位数据，对目标标注图像集中预设已知类别对象对应的图像区域进行裁剪，得到包含有预设已知类别对象的第一子图像，并在第一子图像中标注有对应预设已知类别对象的对象类别数据；

2)根据目标标注图像集中目标未知类别对象对应的对象定位数据，对目标标注图像集中目标未知类别对象对应的图像区域进行裁剪，得到包含有目标未知类别对象的第二子图像。

S2042，将多个第一子图像，作为多个第一对象图像；将多个第二子图像，作为多个第二对象图像。

由以上实施例可见，根据目标标注图像集中标注的对象定位数据，从目标标注图像集中，确定多个第一子图像和多个第二子图像，每个第一子图像为包含有预设已知类别对象的对象类别标注图像，每个第二对象子图像为包含有目标未知类别对象的未标注图像，可以提升类别检索模型的训练数据的采集效率，从而提升类别检索模型的训练效率。

S205，基于多个第一对象图像和多个第二对象图像，对待训练类别检索模型进行对比学习，得到类别检索模型。

在本说明书实施例中，类别检索模型可以通过图像特征对对象图像包含的对象进行类别检索。具体的，可以将对象图像的图像特征与多种类别表征图像的图像特征进行匹配，从而将匹配成功的类别表征图像对应的对象类别作为对象图像包含的对象的对象类别。

具体的，待训练类别检索模型可以为现有技术中的任何可实现类别检索的人工智能模型，本申请实施例不作该待训练类别检索模型的模型类型进行特别的限定。可选的实施例中，待训练类别检索模型可以包括但不限于：Moco模型、Moco-v3模型等。

在一个具体的实施例中，上述基于多个第一对象图像和多个第二对象图像，对待训练类别检索模型进行对比学习，得到类别检索模型可以包括：

S2051，将多个第一对象图像中与目标对象图像的对象类别数据相同的第一对象图像，标注为目标对象图像对应的正样本图像，将多个第一对象图像中除正样本图像之外的其他第一对象图像和多个第二对象图像，标注为目标对象图像对应的负样本图像，目标对象图像为多个第一对象图像中的任一第一对象图像。

S2052，基于目标对象图像和目标对象图像对应的正负样本图像，对待训练类别检索模型进行对比学习，得到类别检索模型。

具体的，在类别检索环节，类别检索模型的训练目标是很好的区分目标类别的对象和其他类别的对象或背景噪声，在提高对象类别的召回率的同时尽可能多的降低误检。相关现有技术中常规的自监督对比学习方法是将样本和自身增强样本之间的特征距离拉近，而和其他样本之间的特征距离拉远，这一假设的前提是训练样本之间的类别各不相同，样本特征差异较大。但是在一些实际的业务场景，比如商品检索、logo(标志)检索等场景中，很多训练样本是相似的，甚至还有一部分训练样本是带有类别标签的标注数据，由于同类别样本比如同类商品之间的特征是很相近的，如果利用常规的自监督对比学习方法强行把同类别样本当作负样本进行训练，会大幅损害类别检索模型的训练效果，因此，在本申请实施例中将同对象类别的样本作为正样本进行训练，拉近同类别样本之间的特征距离，提升类别检索模型的特征提取能力。

由以上实施例可见，将多个第一对象图像中与目标对象图像的对象类别数据相同的第一对象图像，标注为目标对象图像对应的正样本图像，将多个第一对象图像中除正样本图像之外的其他第一对象图像和多个第二对象图像，标注为目标对象图像对应的负样本图像，并基于目标对象图像和目标对象图像对应的正负样本图像，对待训练类别检索模型进行对比学习，可以拉近同类别样本之间的特征距离，提升类别检索模型的特征提取能力，进而提升类别检索模型的类别检索性能。

在本说明书实施例中，待训练类别检索模型可以包括：第一特征编码模块、第二特征编码模块和特征匹配模块，具体的，第一特征编码模块可以用于对输入自身的图像进行特征编码，第二特征编码模块可以用于对输入自身的图像进行特征动量编码，特征匹配模块可以用于输入自身的不同图像特征进行特征相似度的计算，以进行特征匹配。

在一个具体的实施例中，如图6所示，上述待训练类别检索模型可以包括：第一特征编码模块和第二特征编码模块，上述基于目标对象图像和目标对象图像对应的正负样本图像，对待训练类别检索模型进行对比学习，得到类别检索模型可以包括：

S601，将目标对象图像和目标对象图像对应的正负样本图像，作为第一输入图像集。

S602，对第一输入图像集中各个图像分别进行图像增强，得到第一输入图像集对应的第二输入图像集。

具体的，图像增强是有目的地强调图像的整体或局部特性，例如改善图像的颜色、亮度和对比度等，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，提高图像的视觉效果。

具体的，图像增强方法可以结合实际应用中的业务场景和样本图像的图像质量进行设置，本申请实施例中对此不进行特别的限定。

S603，将第一输入图像集和第二输入图像集分别输入第一特征编码模块进行特征编码，得到第一输入图像集对应的第一图像特征和第二输入图像集对应的第二图像特征。

S604，将第一输入图像集和第二输入图像集分别输入第二特征编码模块进行特征动量编码，得到第一输入图像集对应的第三图像特征和第二输入图像集对应的第四图像特征。

S605，基于第一图像特征和第四图像特征之间的第一对比学习损失以及第二图像特征和第三图像特征之间的第二对比学习损失，训练待训练类别检索模型，得到类别检索模型。

在一个具体的实施例中，第一特征编码模块与第二特征编码模块即为编码器与动量编码器，分别代表待训练类别检索模型中的两个编码网络，这两个网络的结构相同，参数不同，具体的，编码器可以包括骨干网络(如ResNet、ViT)、投影器以及预测器；而动量编码器则由骨干网络、投影器构成，没有预测器。

在一个具体的实施例中，基于第一图像特征和第四图像特征之间的第一对比学习损失以及第二图像特征和第三图像特征之间的第二对比学习损失，训练待训练类别检索模型，得到类别检索模型可以包括：

S6051，基于预设对比学习损失函数，确定第一图像特征和第四图像特征之间的第一对比学习损失。

S6052，基于预设对比学习损失函数，确定第二图像特征和第三图像特征之间的第二对比学习损失。

具体的，这里预设对比学习损失函数可以为现有技术中任意可用于对比学习的模型损失函数，本申请实施例不对预设对比学习损失函数进行特别的限定。

在一个可选的实施例中，可以将如下所示的InfoNCE损失函数作为预设对比学习损失函数：

其中，τ为温度参数，用来调节输出分布，q表示输入图像经过第一特征编码模块输出的图像特征，k表示输入图像经过第二特征编码模块输出的图像特征，k⁺表示输入图像的正样本图像经过第二特征编码模块输出的图像特征，k^-表示输入图像的负样本图像经过第二特征编码模块输出的图像特征，q·k⁺表示目标对象图像与其正样本图像的特征相似度，q·k^-表示目标对象图像与其负样本图像的特征相似度；

相应的，第一对比学习损失loss1可以表示为：

第一对比学习损失loss2可以表示为：

其中，τ为温度参数，q₁表示目标对象图像经过第一特征编码模块输出的图像特征，表示目标对象图像的正样本图像经过第二特征编码模块输出的图像特征，/>表示目标对象图像的负样本图像经过第二特征编码模块输出的图像特征，q₂表示目标对象图像对应的增强图像经过第一特征编码模块输出的图像特征，/>表示目标对象图像的正样本图像对应的增强图像经过第二特征编码模块输出的图像特征，/>表示目标对象图像的负样本图像对应的增强图像经过第二特征编码模块输出的图像特征。

S6053，基于第一对比学习损失和第二对比学习损失，对待训练类别检索模型进行模型参数更新，得到类别检索模型。

在一个可选的实施例中，上述基于第一对比学习损失和第二对比学习损失，对待训练类别检索模型进行模型参数更新，得到类别检索模型可以包括：

S1，基于第一对比学习损失和第二对比学习损失，更新待训练类别检索模型的模型参数；

S2，基于更新后的待训练类别检索模型，重复执行包括步骤S601-S604、S6051-S6052和S1的模型训练迭代操作，直至达到模型训练收敛条件；

S3，基于达到模型训练收敛条件的情况下得到的待训练类别检索模型中的第一特征编码模块和特征匹配模型，得到类别检索模型。

在一个具体的实施例中，上述基于第一对比学习损失和第二对比学习损失，对待训练类别检索模型进行模型参数更新可以包括：

1)对第一对比学习损失与第二对比学习损失进行融合处理，得到目标损失。

在一个具体的实施例中，上述对第一对比学习损失与第二对比学习损失进行融合处理，得到目标损失可以包括：将第一对比学习损失与第二对比学习损失之和，作为目标损失，也即目标损失loss＝loss1+loss2。

2)基于目标损失，更新第一特征编码模块的参数。

具体的，可以基于目标损失，利用反向传播算法更新第一特征编码模块的参数。

3)通过第一特征编码模块的参数动量更新第二特征编码模块的参数。

具体的，可以通过动量更新公式和第一特征编码模块的参数，动量更新第二特征编码模块的参数。具体地，动量更新公式可以如下所示：

θ_k←mθ_k+(1-m)θ_q

其中，θ_k表示第二特征编码模块的参数，θ_q表示第一特征编码模块的参数，m表示介于0-1之间的动量系数。

在一个可选的实施例中，上述达到模型训练收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的，达到模型训练收敛条件也可以为当前类别损失信息小于指定阈值。本说明书实施例中，预设训练次数和指定阈值可以结合实际应用中对网络的训练速度和精准度预先设置。

参见图7a，图7a是本申请实施例提供的一种基于混合监督机制的元素检索训练框架，具体的，以商品检索场景为例，第一输入图像集D1包含有：样本短袖图像x1、样本短裙图像x2、样本短袖图像x3和样本运动鞋图像x4，第二输入图像集D2中包含有：样本短袖图像x5(x1对应的增强样本)、样本短裙图像x6(x2对应的增强样本)、样本短袖图像x7(x3对应的增强样本)和样本运动鞋图像x8(x4对应的增强样本)，在进行训练标签设置时，除了将任意样本与其增强样本之间的训练标签设置为1(即互为正样本)，也会将任意样本与其同类别样本之间的训练标签设置为1，例如，x1与其同类别样本x7之间的训练标签设置为1，x3与其同类别样本x5之间的训练标签设置为1。

然后将D1和D2输入编码器进行特征编码，得到D1中各样本图像对应的第一图像特征q1和D2中各样本图像对应的第二图像特征q2，将D1和D2输入动量编码器进行特征动量编码，得到D1中各样本图像对应的第三图像特征k1和D2中各样本图像对应的第四图像特征k2，基于q1和k2之间的第一对比学习损失以及q2和k1之间的第二对比学习损失，训练待训练类别检索模型拉近正样本之间的特征距离，得到类别检索模型。

示意性的，如图7b所示，在常规的自监督训练方法中，即使有两个短袖类别的训练样本，模型也会认为这属于不同的样本个体，训练样本x1在训练过程中会逐步向x1的增强样本x5靠近，而和同样属于短袖类别的另一个训练样本x7拉远，使得模型混淆，特征提取能力变差，而本申请实施例提供的混合监督训练方法在判断到训练样本x1和训练样本x7属于同一类别后，会拉近同类样本之间的特征距离，使得模型训练拟合更好。

由以上实施例可见，通过对象类别标注数据确定模型训练样本中的同类别正样本，从而利用混合监督机制，在对待训练类别检索模型进行对比学习的过程中，基于对比学习损失，拉近同类别正样本之间的特征距离，提升类别检索模型的特征提取能力，进而提升类别检索模型的类别检索性能。

S206，基于对象定位模型和类别检索模型，得到对象检索模型。

由以上本申请实施例提供的技术方案可见，本申请在训练针对开放世界的对象检索模型的过程中，在获取到仅标注有已知类别对象对应的定位标注数据的初始图像集的情况下，根据初始图像的三种图像模态(原始图像、深度图像和法向图像)各自的对象分割结果，对初始图像中的未知类别对象进行定位标注，得到目标标注图像集，通过原始图像中细节纹理信息与深度图像和法向图像中对象主体信息的结合，可以提升未知类别对象的定位标注的准确性，并基于目标标注图像集，对待训练对象定位模型进行对象定位训练，得到对象定位模型，在提升未知类别对象的定位标注效率和准确性的基础上，可以提升对象定位模型对未知类别对象定位的训练效率和训练效果，然后确定多个标注有对象类别数据的第一对象图像和多个第二对象图像，并基于多个第一对象图像和多个第二对象图像对待训练类别检索模型进行对比学习，得到类别检索模型，通过结合对象类别标注的混合监督训练机制，可以提升类别检索模型的训练拟合，从而提升类别检索模型的类别检索效果，最后基于对象定位模型和类别检索模型，得到对象检索模型，可以在提升对象定位模型和类别检索模型各自的训练效果的基础上，提升对象检索模型对未知类别对象检索的训练效果，进而可以提升对象检索模型对开放世界中新增未知类别对象的检索效果。

本申请实施例还提供了一种对象检索方法，如图8所示，该对象检索方法可以包括：

S801，获取待检测图像和新增对象类别对应的新增类别表征图像。

具体的，新增对象类别可以为对象检索模型在实际应用中尚未涉及过的对象类别，新增类别表征图像可以为能够表征新增对象类别的对象特征的图像。

S802，将待检测图像输入对象检索模型中的对象定位模型进行对象定位，得到待检测图像中的多个对象定位区域。

具体的，多个对象定位区域可以为待检测图像包含的多个对象各自在待检测图像中的定位区域。在一个具体的实施例中，可以在待检测图像中以检测框的形式指示出每个对象对应的定位区域。

在本说明书实施例中，对象定位模型可以用于对待检测图像进行目标检测，并在检测到待检测图像中包含有多个对象的情况下，定位出每个对象在待检测图像中的区域。

S803，基于新增类别表征图像，对预设图像集合进行更新，得到更新后的图像集合，更新后的图像集合包括：多个对象类别各自对应的类别表征图像。

具体的，预设图像集合可以包括：多个预设对象类别各自对应的类别表征图像。在一个可选的实施例中，多个预设对象类别可以包括：在对象检索模型的训练过程中涉及到的多个对象类别，相应的，预设图像集合也可以包括有：在对象检索模型的训练过程中涉及到的多个对象类别各自对应的类别表征图像。

在一个具体的实施例中，上述基于新增类别表征图像，对预设图像集合进行更新，得到更新后的图像集合可以包括：将新增类别表征图像添加至预设图像集合，得到更新后的图像集合。

在一个可选的实施例中，预设图像集合可以为预设图像库，新增类别表征图像可以通过类别注册的方式添加进行预设图像库，得到更新后的图像库。

S804，将待检测图像中每个对象定位区域各自对应的对象子图像和多个对象类别各自对应的类别表征图像输入对象检索模型中的类别检索模型，对对象子图像中的对象进行类别检索处理，得到待检测图像的对象检索结果。

具体的，每个对象定位区域对应的对象子图像可以为在待检测图像中基于对应对象定位区域确定的子图像。在一个具体的实施例中，可以在待检测图像中，对每个对象定位区域所在的图像画面进行裁剪，得到每个对象定位区域对应的对象子图像。

具体的，对象检索结果可以包括：待检测图像中多个对象各自对应的对象类别。

在本说明书实施例中，类别检索模型可以用于对对象子图像中包含的对象进行类别检索。具体的，类别检索模型可以将提取到的对象子图像的子图像特征与多种类别表征图像的类别特征进行匹配，从而将匹配成功的类别表征图像对应的对象类别作为对象子图像包含的对象的对象类别。

其中，上述对象检索模型是基于如上述的对象检索模型训练方法训练后得到的。

在一个具体的实施例中，对象定位模型是基于目标标注图像集对待训练对象定位模型进行对象定位训练后得到的，目标标注图像集是基于初始图像集中每个初始图像对应的第一对象分割结果、每个初始图像的深度图像对应的第二对象分割结果和每个初始图像的法向图像对应的第三对象分割结果，对每个初始图像中的未知类别对象进行对象定位标注后得到，该初始图像集中仅包含有已知类别对象的图像标注有对应已知类别对象的对象定位数据。

在一个具体的实施例中，类别检索模型是基于多个第一对象图像和多个第二对象图像，对待训练类别检索模型进行对比学习后得到的，每个第一对象图像标注有对象类别数据。

具体的，对象检索模型的使用场景有logo检索、商品识别等类似的开放世界目标检测识别场景。

参见图9，图9是本申请实施例提供的一种对象检索方案的框架示意图。具体的，该对象检索方案应用的对象检索模型可以包括：对象定位模型和类别检索模型，首先，可以通过对象定位模型检测出待检测图像中所有对象各自的对象定位区域，然后将对象定位区域对应的对象子图像和图像集合中的多个类别表征图像输入类别检索模型，类别检索模型可以包括有：特征提取模型和特征匹配模型，先通过特征提取模型提取出对象子图像对应的子图像特征和每个类别表征图像对应的类别特征，然后通过特征匹配模型对子图像特征和类别特征进行特征匹配，从而将匹配成功的类别表征图像对应的对象类别作为对象子图像包含的对象的对象类别。这样在遇到未支持的新增对象类别后，无需对对象检索模型进行针对新增对象类别的模型训练，只需要在图像集合中更新新增对象类别对应的类别表征图像，对象检索模型即可实现对新增对象类别的对象检索，可以满足实际业务中用户对新增对象类别的快速响应的需求。

由以上实施例可见，基于如上述的对象检索模型训练方法训练后得到的对象检索模型进行对象检索，在开放世界目标检测识别场景中，无需对对象检索模型进行针对新增对象类别的模型训练，只需要在图像集合中更新新增对象类别对应的类别表征图像，对象检索模型即可实现对新增对象类别的对象检索，可以满足实际业务中用户对新增对象类别的快速响应的需求。

本申请实施例还提供了一种对象检索模型训练装置，如图10所示，该对象检索模型训练装置可以包括：

初始图像集获取模块1010，用于获取初始图像集、初始图像集中每个初始图像对应的深度图像和每个初始图像对应的法向图像，初始图像集中包含有已知类别对象的图像标注有对应已知类别对象的对象定位数据；

对象定位标注模块1020，用于基于每个初始图像对应的第一对象分割结果、深度图像对应的第二对象分割结果和法向图像对应的第三对象分割结果，对每个初始图像中的未知类别对象进行对象定位标注，得到初始图像集对应的目标标注图像集；

对象定位训练模块1030，用于基于目标标注图像集，对待训练对象定位模型进行对象定位训练，得到对象定位模型；

对象图像确定模块1040，用于确定多个第一对象图像和多个第二对象图像，每个第一对象图像标注有对象类别数据；

类别检索训练模块1050，用于基于多个第一对象图像和多个第二对象图像，对待训练类别检索模型进行对比学习，得到类别检索模型；

对象检索模型生成模块1060，用于基于对象定位模型和类别检索模型，得到对象检索模型。

在一个具体的实施例中，上述每个初始图像对应的深度图像和所述每个初始图像对应的法向图像是通过如下装置生成的：

三维图像数据生成模块，用于将所述每个初始图像输入三维图像数据生成模型进行三维图像数据生成处理，得到所述每个初始图像对应的深度图像和所述每个初始图像对应的法向图像。

在一个具体的实施例中，上述第一对象分割结果包括：未知类别对象对应的第一掩膜区域和第一掩膜区域对应的分割置信信息，上述第二对象分割结果包括：未知类别对象对应的第二掩膜区域和第二掩膜区域对应的分割置信信息，上述第三对象分割结果包括：未知类别对象对应的第三掩膜区域和第三掩膜区域对应的分割置信信息，上述对象定位标注模块1020可以包括：

最小外接区域确定单元，用于在每个初始图像中分别确定第一掩膜区域对应的第一最小外接区域、第二掩膜区域对应的第二最小外接区域和第三掩膜区域对应的第三最小外接区域；

定位预测单元，用于基于分割置信信息，对第一最小外接区域、第二最小外接区域和第三最小外接区域进行定位融合处理，得到每个初始图像中未知类别对象的预测定位数据；

定位标注单元，用于基于初始图像集中各个初始图像对应的预测定位数据，对各个初始图像中的未知类别对象进行对象定位标注，得到目标标注图像集。

在一个具体的实施例中，上述对象图像确定模块1040可以包括：

子图像确定单元，用于根据目标标注图像集中标注的对象定位数据，从目标标注图像集中，确定多个第一子图像和多个第二子图像，每个第一子图像为包含有预设已知类别对象的对象类别标注图像，每个第二对象子图像为包含有目标未知类别对象的未标注图像；

对象图像确定单元，用于将多个第一子图像，作为多个第一对象图像；将多个第二子图像，作为多个第二对象图像。

在一个具体的实施例中，上述类别检索训练模块1050可以包括：

正负样本标注单元，用于将多个第一对象图像中与目标对象图像的对象类别数据相同的第一对象图像，标注为目标对象图像对应的正样本图像，将多个第一对象图像中除正样本图像之外的其他第一对象图像和多个第二对象图像，标注为目标对象图像对应的负样本图像，目标对象图像为多个第一对象图像中的任一第一对象图像；

对比学习单元，用于基于目标对象图像和目标对象图像对应的正负样本图像，对待训练类别检索模型进行对比学习，得到类别检索模型。

在一个具体的实施例中，上述待训练类别检索模型可以包括：第一特征编码模块和第二特征编码模块，上述对比学习单元可以包括：

第一输入图像集单元，用于将目标对象图像和目标对象图像对应的正负样本图像，作为第一输入图像集；

第二输入图像集单元，用于对第一输入图像集中各个图像分别进行图像增强，得到第一输入图像集对应的第二输入图像集；

特征编码单元，用于将第一输入图像集和第二输入图像集分别输入第一特征编码模块进行特征编码，得到第一输入图像集对应的第一图像特征和第二输入图像集对应的第二图像特征；

特征动量编码单元，用于将第一输入图像集和第二输入图像集分别输入第二特征编码模块进行特征动量编码，得到第一输入图像集对应的第三图像特征和第二输入图像集对应的第四图像特征；

模块训练单元，用于基于第一图像特征和第四图像特征之间的第一对比学习损失以及第二图像特征和第三图像特征之间的第二对比学习损失，训练待训练类别检索模型，得到类别检索模型。

需要说明的是，所述装置实施例中的装置与方法实施例基于同样的发明构思。

本申请实施例还提供了一种对象检索装置，如图11所示，该对象检索装置可以包括：

图像获取模块1110，用于获取待检测图像和新增对象类别对应的新增类别表征图像；

对象定位模块1120，用于将待检测图像输入对象检索模型中的对象定位模型进行对象定位，得到待检测图像中的多个对象定位区域；

集合更新模块1130，用于基于新增类别表征图像，对预设图像集合进行更新，得到更新后的图像集合，更新后的图像集合包括：多个对象类别各自对应的类别表征图像；

类别检索模块1140，用于将待检测图像中每个对象定位区域各自对应的对象子图像和多个对象类别各自对应的类别表征图像输入对象检索模型中的类别检索模型，对对象子图像中的对象进行类别检索处理，得到待检测图像的对象检索结果；

其中，上述对象检索模型是基于如上述的对象检索模型训练装置训练后得到的。

本申请实施例提供了一种电子设备，该设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的对象检索模型训练方法或对象检索方法。

进一步地，图12示出了一种用于实现本申请实施例所提供的对象检索模型训练方法或对象检索方法的电子设备的硬件结构示意图，所述电子设备可以参与构成或包含本申请实施例所提供的对象检索模型训练装置或对象检索装置。如图12所示，电子设备120可以包括一个或多个(图中采用1202a、1202b，……，1202n来示出)处理器1202(处理器1202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1204、以及用于通信功能的传输装置1206。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图12所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备120还可包括比图12中所示更多或者更少的组件，或者具有与图12所示不同的配置。

应当注意到的是上述一个或多个处理器1202和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到电子设备120(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1204可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的对象检索模型训练方法对应的程序指令/数据存储装置或所述的对象检索方法对应的程序指令/数据存储装置，处理器1202通过运行存储在存储器1204内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种对象检索模型训练方法或对象检索方法。存储器1204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1204可进一步包括相对于处理器1202远程设置的存储器，这些远程存储器可以通过网络连接至电子设备120。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备120的通信供应商提供的无线网络。在一个实例中，传输装置1206包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中，传输装置1206可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与电子设备120(或移动设备)的用户界面进行交互。

本申请的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于电子设备之中以保存用于实现至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的对象检索模型训练方法或对象检索方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如方法实施例提供的对象检索模型训练方法或对象检索方法。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对象检索模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一对象分割结果包括：所述未知类别对象对应的第一掩膜区域和所述第一掩膜区域对应的分割置信信息，所述第二对象分割结果包括：所述未知类别对象对应的第二掩膜区域和所述第二掩膜区域对应的分割置信信息，所述第三对象分割结果包括：所述未知类别对象对应的第三掩膜区域和所述第三掩膜区域对应的分割置信信息，所述基于所述每个初始图像对应的第一对象分割结果、所述深度图像对应的第二对象分割结果和所述法向图像对应的第三对象分割结果，对所述每个初始图像中的未知类别对象进行对象定位标注，得到所述初始图像集对应的目标标注图像集包括：

在所述每个初始图像中分别确定所述第一掩膜区域对应的第一最小外接区域、所述第二掩膜区域对应的第二最小外接区域和所述第三掩膜区域对应的第三最小外接区域；

基于所述分割置信信息，对所述第一最小外接区域、所述第二最小外接区域和所述第三最小外接区域进行定位融合处理，得到所述每个初始图像中未知类别对象的预测定位数据；

基于所述初始图像集中各个初始图像对应的预测定位数据，对所述各个初始图像中的未知类别对象进行对象定位标注，得到所述目标标注图像集。

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一对象图像和所述多个第二对象图像，对待训练类别检索模型进行对比学习，得到类别检索模型包括：

将所述多个第一对象图像中与目标对象图像的对象类别数据相同的第一对象图像，标注为所述目标对象图像对应的正样本图像，将所述多个第一对象图像中除所述正样本图像之外的其他第一对象图像和所述多个第二对象图像，标注为所述目标对象图像对应的负样本图像，所述目标对象图像为所述多个第一对象图像中的任一第一对象图像；

基于所述目标对象图像和所述目标对象图像对应的正负样本图像，对所述待训练类别检索模型进行对比学习，得到所述类别检索模型。

4.根据权利要求3所述的方法，其特征在于，所述待训练类别检索模型包括：第一特征编码模块和第二特征编码模块，所述基于所述目标对象图像和所述目标对象图像对应的正负样本图像，对所述待训练类别检索模型进行对比学习，得到所述类别检索模型包括：

将所述目标对象图像和所述目标对象图像对应的正负样本图像，作为第一输入图像集；

对所述第一输入图像集中各个图像分别进行图像增强，得到所述第一输入图像集对应的第二输入图像集；

将所述第一输入图像集和所述第二输入图像集分别输入第一特征编码模块进行特征编码，得到所述第一输入图像集对应的第一图像特征和所述第二输入图像集对应的第二图像特征；

将所述第一输入图像集和所述第二输入图像集分别输入第二特征编码模块进行特征动量编码，得到所述第一输入图像集对应的第三图像特征和所述第二输入图像集对应的第四图像特征；

基于所述第一图像特征和所述第四图像特征之间的第一对比学习损失以及所述第二图像特征和所述第三图像特征之间的第二对比学习损失，训练所述待训练类别检索模型，得到所述类别检索模型。

5.根据权利要求1至4任一所述的方法，其特征在于，所述每个初始图像对应的深度图像和所述每个初始图像对应的法向图像是通过如下方式生成的：

将所述每个初始图像输入三维图像数据生成模型进行三维图像数据生成处理，得到所述每个初始图像对应的深度图像和所述每个初始图像对应的法向图像。

6.根据权利要求1至4任一所述的方法，其特征在于，所述确定多个第一对象图像和多个第二对象图像包括：

根据所述目标标注图像集中标注的对象定位数据，从所述目标标注图像集中，确定多个第一子图像和多个第二子图像，每个第一子图像为包含有预设已知类别对象的对象类别标注图像，每个第二对象子图像为包含有目标未知类别对象的未标注图像；

将所述多个第一子图像，作为所述多个第一对象图像；将所述多个第二子图像，作为所述多个第二对象图像。

7.一种对象检索方法，其特征在于，所述方法包括：

获取待检测图像和新增对象类别对应的新增类别表征图像；

其中，所述对象检索模型是基于权利要求1-6任一所述的对象检索模型训练方法训练后得到的。

8.一种对象检索模型训练装置，其特征在于，所述装置包括：

9.一种对象检索装置，其特征在于，所述装置包括：

其中，所述对象检索模型是基于权利要求8所述的对象检索模型训练装置训练后得到的。

10.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一所述的对象检索模型训练方法或如权利要求7所述的对象检索方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一所述的对象检索模型训练方法或如权利要求7所述的对象检索方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至6任一所述的对象检索模型训练方法或如权利要求7所述的对象检索方法。