CN115393673A

CN115393673A - 对象识别模型的训练方法、对象识别的方法、电子设备

Info

Publication number: CN115393673A
Application number: CN202211043065.5A
Authority: CN
Inventors: 何天宇; 金鑫; 沈旭; 黄建强; 余文杰
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-25

Abstract

本申请提供了一种对象识别模型的训练方法、对象识别的方法、图像识别方法、电子设备及存储介质，对象识别模型的训练方法是利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；伪标签是利用未标注的第一图像样本集合确定的；利用经过软标签标注后的第二图像样本集合对初步训练后的模型进行第二阶段训练，获得对象识别模型；软标签是利用未标注的第一图像样本集合和未标注的第二图像样本集合确定的。本申请实施例提供的图像识别方法把对于对象识别模型的训练过程拆分为两个阶段。在第二阶段可以直接利用第一阶段的伪标签得到软标签。第二阶段无需再进行聚类计算，从而节省聚类计算导致的计算开销。

Description

对象识别模型的训练方法、对象识别的方法、电子设备

技术领域

本申请涉及图像识别技术领域，尤其涉及一种对象识别模型的训练方法、对象识别的方法、图像识别的方法、电子设备及存储介质。

背景技术

在模型训练场景，由于人工标注的成本不断提高。因此如何利用无监督方式对模型进行训练便成为越来越热门的研究领域。

无监督方式的训练其原理是利用没有标注的样本进行学习，以发现训练样本集中的结构性知识，从而解决问题。例如解决分类问题、解决预测问题等。

在利用大规模无标注样本进行训练的场景下，通常采用聚类的方式得到伪标签信息，从而完成模型的训练。但聚类过程对于图形处理器（Graphics Processing Unit，GPU）的显存以及计算量的极大需求，以路侧图像采集设备采集到的图像样本为示例，由于图像样本中的内容较多，因此聚类过程会导致高昂的资源消耗。

发明内容

本申请实施例提供一种对象识别模型的训练方法、对象识别的方法、图像识别的方法、电子设备及存储介质。

第一方面，本申请实施例提供了一种对象识别的方法，该方法可以包括以下步骤：

获取候选图像；

将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像。

第二方面，本申请实施例提供了一种对象识别模型的训练方法，该方法可以包括以下步骤：

利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；伪标签是利用未标注的第一图像样本集合确定的；

利用经过软标签标注后的第二图像样本集合对初步训练后的模型进行第二阶段训练，获得对象识别模型；软标签是利用未标注的第一图像样本集合和未标注的第二图像样本集合确定的。

第三方面，本申请实施例提供了一种图像识别的方法，应用增强现实设备和/或虚拟现实设备，包括：

获取候选图像；

将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像；

将包含目标对象的候选图像渲染至增强现实设备和/或虚拟现实设备的显示器上。

第四方面，本申请实施例提供了一种对象识别的装置，该装置可以包括：

获取模块，用于获取候选图像；

识别模块，用于将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像。

第五方面，本申请实施例提供了一种对象识别模型的训练装置，该装置可以包括：

第一阶段训练模块，用于利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；伪标签是利用未标注的第一图像样本集合确定的；

第二阶段训练模块，用于利用经过软标签标注后的第二图像样本集合对初步训练后的模型进行第二阶段训练，获得对象识别模型；软标签是利用未标注的第一图像样本集合和未标注的第二图像样本集合确定的。

第六方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

与现有技术相比，本申请具有如下优点：

依据本申请实施例，相比于直接利用聚类技术对未标注的样本特征进行聚类标注得到伪标签以完成模型训练。本申请实施例可以把对于对象识别模型的训练过程拆分为两个阶段，第一阶段对未标注的样本特征进行聚类标注，得到伪标签。在第二阶段可以直接利用第一阶段的聚类标注结果或者伪标签得到软标签。即，在第二阶段无需再进行聚类计算，尤其对于路侧图像采集设备采集到的图像样本的情况，对于复杂的图像样本处理，可以节省聚类计算导致的计算开销。同时，由于第二阶段利用经过软标签标注的样本进行模型训练，可以提高模型的泛化性，保障了对象识别模型的识别请准度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请提供的基于对象识别方法的场景示意图；

图2为本申请一实施例的对象识别的方法的流程图；

图3是本申请一实施例的对象识别模型的训练方法的流程图；

图4是本申请一实施例的确定伪标签的示意图；

图5是本申请一实施例的确定软标签的示意图；

图6是本申请一实施例的确定类中心的示意图；

图7是本申请一实施例的对类中心进行更新的示意图；

图8是本申请一实施例的对象识别的装置的结构框图；

图9是本申请一实施例的对象识别模型的训练装置的结构框图；以及

图10为用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的构思或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的，而非限制性的。

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。

首先对本申请所涉及的名词进行解释。

深度学习（Deep Learning）：深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本、音视频等各种问题的算法集合。示例性地，例如图像中的对象识别、文本的摘要生成、音视频的相关信息生成等。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

人工神经网络（ Artificial Neural Networks，ANNs）：也可简称为神经网络（Neural Networks）或连接模型（Connectionist Model）。人工神经网络是从信息处理角度对人脑神经元网络进行抽象并建立起的一种运算模型，按不同的连接方式组成不同的网络。人工神经网络具有自学习功能。例如在图像识别场景，将图像样本和对应的标签输入人工神经网络，网络就会通过自学习功能，学会识别类似的图像。

元学习（Meta Learning）：元学习使得模型获取调整超参数的能力，使得模型可以在获取已有知识的基础上快速学习新的任务。元学习解决了学会学习（learning tolearn）的问题。元学习和传统机器学习的区别在于，机器学习是先人为调参，之后直接训练特定任务下深度模型，元学习则是先通过其它的任务训练出一个较好的超参数，然后再对特定任务进行训练以对超参数进行优化。

聚类（Clustering）：在无监督学习中，训练样本的标记信息是未知的，其目标是通过对无标记训练样本的学习揭示数据的内在规律，为进一步的数据分析提供基础。聚类可以将样本集合中样本划分为若干个通常是互不相交的子集，每一个子集称为一个簇，即认为同一簇中的数据样本拥有相同的类别，基于此完成分类等任务的训练。

图1为示例性的用于实现本申请实施例的方法的一个应用场景的示意图。图1中示出的是基于包含目标对象的图像，在候选图像集合中查询包含目标对象的图像。执行查询过程的执行主体可以是智能手机、平板电脑等电子设备。其中，目标对象可以是人物、动物等，也可以是服装、电子产品、车辆等。候选图像集合可以是视频中截取的图像，也可以是网络中的图像等。示例性地，视频可以道路交通视频。或者，视频可以是用户拍摄的视频或者影视作品等。在图1所示的场景中，目标对象为车辆。

具体查询原理简述如下。一方面，将包含目标对象的图像输入预先训练好的对象识别模型。该对象识别模型可以提取出目标对象的特征，并且得到目标对象的特征表示。另一方面，可以将候选图像集合输入预先训练好的对象识别模型，以便该对象识别模型可以提取出每个候选图像中所包含的候选对象的特征，并且得到每个候选对象的特征表示。最终，对象识别模型经过比较目标对象的特征表示与候选对象的特征表示的相似性，可以确定出存在目标对象概率较高的候选图像。

另外，候选图像中图像的特征也可以采用预先存储的方式获得。例如，在候选图像进行更新的情况下，即可对更新后的后续图像进行特征提取。从而可以在查询场景下提高效率。

本申请方案可以适用于查询走失的人物、动物等，也可以适用于查询逃逸车辆。或者，可以适用于演员的作品查询，同款或类似款的商品查询等。例如，可以将某个演员的图像输入对象识别模型，利用对象识别模型在影视数据库中查询该演员出演过的影视作品。又例如，可以将用户喜欢的服饰图像、电子产品图像输入对象识别模型，利用对象识别模型在购物类网站充查询同款服饰或相似款服饰。

本申请实施例提供了一种对象识别的方法，如图2所示为本申请一实施例的对象识别的方法的流程图，可以包括：

步骤S201：获取候选图像。

候选图像可以是在道路交通视频中截取的图像。或者，候选图像可以是网络中的视频中截取的图像。又或者，候选图像可以是网络中的图像。例如，出现于某个应用程序中的图像。上述候选图像可以是实时图像，也可以是历史图像，还可以是网页中已有的图像等。另外，候选图像可以是单张图像，也可以是由多张图像组成的候选图像集合。

步骤S202：将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像。

目标对象可以是人物、动物、车辆、服装、电子产品等。预先训练好的对象识别模型将候选图像一一与参照图像进行比较，以确定候选图像中是否包含目标对象。或者，预先训练好的对象识别模型可以确定出候选图像中出现目标对象的概率。最终，将确定出的出现目标对象的候选图像作为目标图像，或者，将出现目标对象的概率高于对应概率阈值的候选图像作为目标图像。

以目标对象是动物为示例。可以将走丢的宠物的照片作为参照图像。将宠物主人所住社区周围一定距离范围内的采集设备采集到的道路视频图像作为候选图像，从而实现对走丢宠物的寻找。

以目标对象是人物为示例。可以将走失的人物的照片作为参照图像。将走失人物所住社区周围一定距离范围内的采集设备采集到的道路视频图像作为候选图像，从而实现对走失人物的寻找。

以目标对象是车辆为示例。可以将肇事车辆的照片作为参照图像。将肇事车辆的肇事地点所属的区、县等区域内的采集设备采集到的道路视频图像作为候选图像，从而实现对肇事车辆的追查。

以目标对象是服装、电子产品为示例。可以将服装、电子产品的照片作为参照图像。将购物类网站对应垂类下的商品图像作为候选图像，从而实现同款或相似款的服装、电子产品的查询。

在一种可能的实现方式中，还可以包括以下步骤：

利用包含目标对象的候选图像，确定目标对象的相关信息；相关信息包括目标对象的标识信息和目标对象的位置信息中的至少一种。

目标对象的相关信息包括目标对象的标识信息，和/或目标对象的位置信息。对于标识信息而言，以目标对象为车辆为例，目标对象的标识信息可以是通过图像识别而确定出的车辆的车牌号。以目标对象为动物为例，目标对象的标识可以是通过图像识别而确定出的动物的品种以及毛色等，如橘色的猫、斑点狗等。对于位置而言，可以根据检测到目标图像的采集设备的编号，确定出采集设备的安装位置或安装区域。进而可以将确定出的安装位置或安装区域作为目标对象的位置信息。

本申请实施例提供了一种对象识别模型的训练方法，如图3所示为本申请一实施例的对象识别模型的训练方法的流程图，可以包括：

步骤S301：利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；伪标签是利用未标注的第一图像样本集合确定的。

伪标签是无监督训练中的概念，是指采用自动化而非人工的方式对未标注的样本进行标注的标签。在一种情况下，确定伪标签时，可以利用少量的已标注数据对待训练的模型进行初始训练，得到初始训练后的模型，进而，可以利用初始训练后的模型对无标注数据进行预测，由此可以得到预测标签。该预测标签即可作为无标注数据的伪标签。

或者，在另一种情况下，伪标签的确定方式可以是利用未训练的模型对无标注数据进行预测，得到无标注数据的特征。利用聚类算法对无标注数据的特征进行聚类，得到聚类结果。利用该聚类结果可以得到伪标签。所谓的未训练的模型可以是通用的特征提取模型。

利用伪标签对第一图像样本集合中的图像样本进行标注。以图像样本为人物图像样本为例，伪标签可以是人物图像样本中不同人物的特征表示。举例而言，伪标签可以用于表征人物的性别、身高、肤色、发色、衣着等多个维度的信息。

利用深度学习以及元聚类学习技术，结合人工神经网络将经过伪标签标注后的第一图像样本集合输入初始模型，初始模型可以得到标签预测结果。标签预测结果和伪标签之间会存在差异，上述差异可以利用损失函数体现。损失函数的作用可以理解为：当待训练的初始模型进行前向传播得到的标签预测结果与伪标签接近时，损失函数的取较小值；反之，损失函数的取值增大。并且，损失函数是以初始模型中的参数为自变量的函数。

利用上述差异，对初始模型中的参数进行调整。上述差异会在初始模型中的每一层进行反向传播，初始模型中每一层的参数都会根据上述差异进行调整，直到初始模型的输出结果收敛或达到预期的效果才结束。

由此可以实现对于初始模型的第一阶段训练。经过第一阶段训练后，可以将初始模型训练为初步训练后的模型。

步骤S302：利用经过软标签标注后的第二图像样本集合对初步训练后的模型进行第二阶段训练，获得对象识别模型；软标签是利用未标注的第一图像样本集合和未标注的第二图像样本集合确定的。

软标签同样是无监督训练中的概念，是指对已标注的数据进行标签离散后对应的标签。例如，图像样本的原始标签为“猫”，但是图像样本中还有狗和人。如果只用标签“猫”表征图像样本特征，可能会造成模型训练结果被噪声干扰。通过设置软标签“狗”、“人”，可以将模型的预测概率结果代替原始图像的标签进行训练。

软标签可以是利用未标注的第一图像样本集合和未标注的第二图像样本集合确定的。可以将未标注的第二图像样本集合输入初步训练后的模型，得到对于未标注的第二图像样本集合的特征提取结果。例如，第二图像样本集合的特征提取结果为n个。利用未标注的第一图像样本集合可以得到伪标签，根据每个特征提取结果与伪标签的相似性，可以得到特征提取结果对应的软标签。或者，如前所述，利用未标注的第一图像样本集合可以得到特征聚类结果。进而可以得到聚类结果的类中心。根据每个特征提取结果与类中心的相似性，也可以得到特征提取结果对应的软标签。

利用经过软标签标注后的第二图像样本集合可以对初步训练后的模型进行第二阶段的训练。在满足指定条件时，可以表示第二阶段训练完成。其中，指定条件可以根据训练轮次、参与训练的样本数量、训练时长和损失函数是否收敛等因素确定。例如，利用软标签标注后的第二图像样本集合对初步训练后的模型进行参数优化，达到a轮参数优化便可以确定为满足指定条件。数值a可以是根据经验值确定的，取正整数。又例如，参与第二阶段训练的样本数量达到50万，或者达到100万等，可以确定满足指定条件。再例如，第二阶段训练时长达到200小时，或者达到1000小时等，可以确定满足指定条件。还例如，可以利用指定的损失函数是否收敛作为指定条件。

相比于直接利用聚类技术对未标注的样本特征进行聚类标注得到伪标签，进而完成训练。在当前实施方式中，可以把对于对象识别模型的训练过程拆分为两个阶段，第一阶段对未标注的样本特征进行聚类标注，得到伪标签。在第二阶段可以直接利用第一阶段的聚类标注结果或者伪标签得到软标签。即，在第二阶段无需再进行聚类计算，从而可以节省聚类计算导致的计算开销。同时，由于第二阶段利用经过软标签标注的样本进行模型训练，可以提高模型的泛化性，保障了对象识别模型的识别请准度。

结合图4所示，在一种可能的实现方式中，伪标签的确定方式，可以包括：

步骤S401：利用初始模型提取未标注的第一图像样本集合的特征，得到第一特征提取结果。

将未标注的第一图像样本集合输入初始模型，可以得到第一特征提取结果。第一特征提取结果在图4中以X₁表示。在图4所示的示例中，图像样本中包含多台车辆。基于此，第一特征提取结果可以表征图像样本中车辆的车型、颜色、车辆内乘客的数量、车辆在图像样本中的位置等。

步骤S402：将第一特征提取结果进行聚类处理，得到至少一个特征簇；特征簇用于表征候选对象的特征，候选对象是出现在未标注的第一图像样本集合的各图像样本中的对象。

样本集合中的每个图像样本中所包含的候选对象可能存在差异，例如，第m个图像样本中的候选对象为车辆，第m+1个图像样本中的候选对象为车辆和行人，第m+2个样本图像中的候选对象为行人、宠物和车道线。聚类的目的可以是将各图像样本中属于同一候选对象的特征聚合在一起。其中m为正整数。

示例性地，将第一特征提取结果进行聚类处理可以采用K均值算法（k-means）、基于密度的噪声应用空间聚类算法（Density-Based Spatial Clustering of Applicationswith Noise，DBScan）等。

步骤S403：根据特征簇确定伪标签。

根据特征簇确定伪标签的方式可以有多种，例如，可以以任意一个特征作为伪标签。又例如，可以随机选择多个特征，多个特征之间进行“与”逻辑、“或”逻辑等运算，基于逻辑运算的运算结果得到伪标签。还例如，可以对多个特征进行平均值计算，基于平均值计算的计算结果得到伪标签。伪标签的表现形式可以是编码。

结合图5所示，在一种可能的实现方式中，软标签的确定方式，包括：

步骤S501：利用初步训练后的模型对未标注的第二图像样本集合进行特征提取，得到第二特征提取结果。

未标注的第二图像样本集合中，图像样本的标号可以为1至k。k为正整数，即，第二图像样本集合中可以包括k个图像样本。不难理解，还可以构建多个第二图像样本集合，每个第二图像样本集合中的图像样本可以彼此不重复。例如，第一个第二图像样本集合中，图像样本的标号可以为1至k。第二个第二图像样本集合中，图像样本的标号可以为k+1至2k。

将未标注的第二图像样本集合输入至初步训练后的模型，可以得到对应的特征。对应的特征在图5中表示为X₂。初步训练后的模型可以对应图5中的f _θ。例如，将第二图像样本集合中的第一图像输入至初步训练后的模型，可以得到i个特征。将第二图像样本集合中的第二图像输入至初步训练后的模型，可以得到j个特征。i和j均为正整数，i和j的取值可能相同，也可能不同。

在对第二图像样本集合中的每个图像样本均进行特征提取后，即可得到第二图像样本的全部特征。即，第二图像样本的全部特征可以对应第二特征提取结果，第二特征提取结果的数量可以是多个。

步骤S502：利用第二特征提取结果与类中心的相似性，确定软标签；类中心是利用未标注的第一图像样本集合确定的，类中心用于表征特征。

类中心的本质是特征的表示。类中心可以是利用未标注的第一图像样本集合确定的，类中心的数量可以有多个。在得到第二特征提取结果后，对于第i个特征，可以计算与每个类中心的相似性，得到相似性计算结果。示例性地，相似性计算结果的分值与相似性程度成正比。基于相似性计算结果，选择分值最高的类中心作为第i个特征的软标签。相似性计算可以采用欧式距离、余弦相似度等方式。在确定出软标签的情况下，可以利用软标签对第二图像样本集合中的各图像样本进行标注。软标签的表现形式可以是编码。在图5中，确定类中心的过程是以机器人图标为示意。机器人图标可以表示软标签确定机器人。即，通过软标签确定机器人，执行相似性的比较过程。

结合图6所示，在一种可能的实现方式中，类中心的确定方式，包括：

步骤S601：利用初始模型提取未标注的第一图像样本集合的特征，得到第一特征提取结果。

将未标注的第一图像样本集合输入初始模型，可以得到第一特征提取结果。第一特征提取结果在图6中以X₁表示。在图6所示的示例中，图像样本中包含多台车辆。基于此，第一特征提取结果可以表征图像样本中车辆的车型、颜色、车辆内乘客的数量、车辆在图像样本中的位置等。

步骤S602：将第一特征提取结果进行聚类处理，得到至少一个特征簇；特征簇用于表征在未标注的第一图像样本集合中出现的候选对象的特征。

示例性地，将第一特征提取结果进行聚类处理可以采用K均值算法、基于密度的噪声应用空间聚类算法等。

步骤S603：分别对每个特征簇进行类中心计算，得到对应的类中心计算结果。

类中心计算可以通过类中心算法实现。例如，可以直接采用求均值算法，得到每个特征簇的类中心。或者，还可以采用加权求均值算法，得到每个特征簇的类中心。例如，可以利用求均值算法计算出平均值，进而计算特征簇中每个特征与平均值的距离。根据距离设置每个特征簇的权重，从而采用加权求均值算法，得到每个特征簇的类中心。又或者，还可以将与平均值的距离大于对应距离阈值的特征过滤去除，利用保留下来的特征再次进行求均值计算，得到类中心。

结合图7所示，在一种可能的实现方式中，还包括对类中心进行更新的步骤：

对类中心进行更新的步骤，包括：

步骤S701：利用初步训练后的模型对经过伪标签标注后的第一图像样本集合进行特征提取，得到第三特征提取结果。

图7中f _θ’可以表示初始模型。初始模型经过第一阶段的训练后可以得到初步训练后的模型。第三特征提取结果是利用初步训练后的模型对经过伪标签标注后的第一图像样本集合进行特征提取所得到的。

步骤S702：利用第三特征提取结果对类中心进行更新。

由于第一阶段的训练是基于伪标签标注后的第一图像样本集合完成的，而类中心是利用特征簇得到的，由此可能出现第三特征提取结果与类中心之间存在差异的情况。基于此，在存在差异的情况下，可以利用第三特征提取结果对类中心进行更新。例如，可以计算第三特征提取结果与类中心的平均值，利用平均值计算结果对类中心进行更新。或者，也可以直接将类中心替换为第三特征提取结果。

在一种可能的实现方式中，指定条件是根据指定类型的损失函数的收敛情况确定的；

损失函数是利用经过第二阶段训练的模型计算得到的；

指定类型的损失函数包括加权三元损失函数和一致性损失函数中的至少一种。

将经过软标签标注的第二图像样本集合中的图像样本输入第二阶段训练过程中的模型，可以得到特征预测结果。利用指定类型损失函数的收敛情况，可以基于特征预测结果衡量第二阶段训练是否可以结束。例如，在指定类型损失函数未收敛的情况下，可以基于损失函数的收敛情况对模型中参数的优化效果进行检验，并且对参数进行迭代优化。在指定类型损失函数收敛的情况下，可以结束第二阶段训练，得到训练好的对象识别模型。

指定类型的损失函数可以是三元损失函数。利用三元损失函数对特征预测结果进行检验，并利用检验结果优化模型中参数。其中，三元损失函数的原理是使用三张图像样本构成三元组。在三元组中，第一图像样本和第二图像样本（正样本）是相似的，而第一图像样本和第三图像样本（负样本）是不相似的。例如，第一图像样本为包含目标对象的图像，正样本是包含目标对象的候选图像，负样本是未包含目标对象的候选图像。基于三元组的损失函数的目标是：检测相似样本间的距离是否小于不相似样本间的距离，且差异满足预期。基于此，可以使得经过第二阶段训练的模型在候选图像中查询出包含目标对象的目标图像。

进一步的，还可以采用加权三元损失函数对特征预测结果进行检验。所谓加权三元损失函数是指对部分或全部样本进行加权处理。例如，选定第一图像样本，根据特征相似性选择正样本和负样本。具体而言，可以设定相似性阈值，通过相似性比较，高于该相似性阈值的样本为正样本，不高于该相似性阈值的样本为负样本。并且，可以根据相似性结果设定每个正样本以及每个负样本的权重。

另外，还可以利用一致性损失函数对特征预测结果进行检验，并利用检验结果优化模型中参数。一致性损失函数的原理可以是将包含目标对象的图像进行随机马赛克、随机涂抹、仿射变换、随机旋转或镜像等处理后，检测模型是否可以将处理后的图像作为查询出包含目标对象的目标图像。

在一种可能的实现方式中，第二图像样本集合中的样本数量第一图像样本集合中的样本数量的n倍；n＞1。

在当前实现方式中，第一图像样本集合中的样本数量可以远少于第二图像样本集合中的样本数量。例如，n的取值可以是10、50，甚至100等。基于此，可以降低第一阶段训练中需要进行聚合的数据量。

本申请实施例提供了一种图像识别的方法，该方法可以应用于增强现实（Augmented Reality，AR）设备和/或虚拟现实（Virtual Reality，VR）设备，该方法可以包括以下步骤：

S801：获取候选图像。

S802：将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像。

S803：将包含目标对象的候选图像渲染至增强现实设备和/或虚拟现实设备的显示器上。

利用增强现实设备和/或虚拟现实设备，可以通过渲染，在候选图像中增加目标对象的标识或者说明等，从而可以使得用户在候选图像中直观的锁定目标对象，或者呈现出多元化的对目标对象的观看体验。例如，在目标对象为肇事车辆的情况，对于包含肇事车辆的候选图像，可以在候选图像中对肇事车辆进行框选渲染，并且在显示框中显示肇事车辆的位置、车牌号等信息。另外，对于人物或者宠物等，也可以进行框选等渲染。另外，在目标对象为服装、配饰等内容的情况，可以将服装或配饰进行重生成，并且与指定的用户图像相结合，从而可以体现指定的用户穿戴的效果等。基于此，可以给用户更多元化的观看体验。

与本申请实施例提供的方法的应用场景以及方法相对应地，本申请实施例还提供一种对象识别的装置。如图8所示为本申请一实施例的对象识别的装置，该对象识别的装置可以包括：

获取模块801，用于获取候选图像；

识别模块802，用于将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像。

在一种可能的实现方式中，对象识别的装置还可以包括相关信息确定模块。相关信息确定模块用于利用包含目标对象的候选图像，确定目标对象的相关信息；相关信息包括目标对象的标识信息和目标对象的位置信息中的至少一种。

与本申请实施例提供的方法的应用场景以及方法相对应地，本申请实施例还提供一种对象识别模型的训练装置。如图9所示为本申请一实施例的对象识别模型的训练装置，该对象识别模型的训练装置可以包括：

第一阶段训练模块901，用于利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；伪标签是利用未标注的第一图像样本集合确定的；

第二阶段训练模块902，用于利用经过软标签标注后的第二图像样本集合对初步训练后的模型进行第二阶段训练，获得对象识别模型；软标签是利用未标注的第一图像样本集合和未标注的第二图像样本集合确定的。

在一种可能的实现方式中，第一阶段训练模块901可以包括：

第一特征提取子模块，用于利用初始模型提取未标注的第一图像样本集合的特征，得到第一特征提取结果；

聚类子模块，用于将第一特征提取结果进行聚类处理，得到至少一个特征簇；特征簇用于表征在未标注的第一图像样本集合的各图像样本中出现的候选对象的特征；

伪标签确定子模块，用于根据特征簇确定伪标签。

在一种可能的实现方式中，第二阶段训练模块902可以包括：

第二特征提取子模块，用于利用初步训练后的模型对未标注的第二图像样本集合进行特征提取，得到第二特征提取结果；

软标签确定子模块，用于利用第二特征提取结果与类中心的相似性，确定软标签；类中心是利用未标注的第一图像样本集合确定的，类中心用于表征特征。

在一种可能的实现方式中，还包括类中心确定子模块。类中心确定模块可以进一步包括：

聚类子模块，用于将第一特征提取结果进行聚类处理，得到至少一个特征簇；特征簇用于表征在未标注的第一图像样本集合中出现的候选对象的特征；

类中心计算子模块，用于分别对每个特征簇进行类中心计算，得到对应的类中心计算结果。

在一种可能的实现方式中，还包括类中心更新模块。类中心更新模块包括：

第三特征提取子模块，用于利用初步训练后的模型对经过伪标签标注后的第一图像样本集合进行特征提取，得到第三特征提取结果；

类中心更新执行子模块，用于利用第三特征提取结果对类中心进行更新。

损失函数是利用经过第二阶段训练的模型计算得到的；

在一种可能的实现方式中，第二图像样本集合中的样本数量是第一图像样本集合中的样本数量的n倍；n＞1。

与本申请实施例提供的方法的应用场景以及方法相对应地，本申请实施例还提供一种图像识别的装置。该装置可以应用于增强现实设备和/或虚拟现实设备，该装置可以包括：

候选图像获取模块，用于获取候选图像；

目标识别模块，用于将包含目标对象的参照图像和候选图像输入至预先训练好的对象识别模型，识别出包含目标对象的候选图像；

显示控制模块，用于将包含目标对象的候选图像渲染至增强现实设备和/或虚拟现实设备的显示器上。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。

图10为用来实现本申请实施例的电子设备的框图。如图10所示，该电子设备包括：存储器1010和处理器1020，存储器1010内存储有可在处理器1020上运行的计算机程序。处理器1020执行该计算机程序时实现上述实施例中的方法。存储器1010和处理器1020的数量可以为一个或多个。

该电子设备还包括：

通信接口1030，用于与外界设备进行通信，进行数据交互传输。

如果存储器1010、处理器1020和通信接口1030独立实现，则存储器1010、处理器1020和通信接口1030可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponent Interconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1010、处理器1020及通信接口1030集成在一块芯片上，则存储器1010、处理器1020及通信接口1030可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器（Advanced RISC Machines，ARM）架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以包括随机访问存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM均可用。例如，静态随机访问存储器（Static RAM，SRAM）、动态随机访问存储器（Dynamic Random Access Memory，DRAM）、同步动态随机访问存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机访问存储器（Double Data RateSDRAM，DDR SDRAM）、增强型同步动态随机访问存储器（Enhanced SDRAM，ESDRAM）、同步链接动态随机访问存储器（Sync link DRAM，SLDRAM）和直接内存总线随机访问存储器（DirectRambus RAM，DR RAM）。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生依照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中描述的或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的示例性实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请记载的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种对象识别的方法，其特征在于，包括：

获取候选图像；

将包含目标对象的参照图像和所述候选图像输入至预先训练好的对象识别模型，识别出包含所述目标对象的候选图像。

2.根据权利要求1所述的方法，其特征在于，还包括：

利用所述包含所述目标对象的候选图像，确定所述目标对象的相关信息；所述相关信息包括所述目标对象的标识信息和所述目标对象的位置信息中的至少一种。

3.一种对象识别模型的训练方法，其特征在于，包括：

利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；所述伪标签是利用未标注的第一图像样本集合确定的；

利用经过软标签标注后的第二图像样本集合对所述初步训练后的模型进行第二阶段训练，获得对象识别模型；所述软标签是利用所述未标注的第一图像样本集合和未标注的第二图像样本集合确定的。

4.根据权利要求3所述的方法，其特征在于，所述伪标签的确定方式，包括：

利用所述初始模型提取所述未标注的第一图像样本集合的特征，得到第一特征提取结果；

将所述第一特征提取结果进行聚类处理，得到至少一个特征簇；所述特征簇用于表征候选对象的特征，所述候选对象是出现在所述未标注的第一图像样本集合的各图像样本中的对象；

根据所述特征簇确定伪标签。

5.根据权利要求3所述的方法，其特征在于，所述软标签的确定方式，包括：

利用所述初步训练后的模型对所述未标注的第二图像样本集合进行特征提取，得到第二特征提取结果；

利用所述第二特征提取结果与类中心的相似性，确定软标签；所述类中心是利用所述未标注的第一图像样本集合确定的，所述类中心用于表征特征。

6.根据权利要求5所述的方法，其特征在于，所述类中心的确定方式，包括：

分别对每个所述特征簇进行类中心计算，得到对应的类中心计算结果。

7.根据权利要求5或6所述的方法，其特征在于，还包括对所述类中心进行更新的步骤：

所述对所述类中心进行更新的步骤，包括：

利用所述初步训练后的模型对所述经过伪标签标注后的第一图像样本集合进行特征提取，得到第三特征提取结果；

利用所述第三特征提取结果对所述类中心进行更新。

8.根据权利要求3所述的方法，其特征在于，在所述第二阶段训练的过程中，满足指定条件的情况下，获得对象识别模型；

所述指定条件是根据指定类型的损失函数的收敛情况确定的；

所述损失函数是在所述第二阶段训练过程中的模型计算得到的；

所述指定类型的损失函数包括加权三元损失函数和一致性损失函数中的至少一种。

9.根据权利要求3所述的方法，其特征在于，所述第二图像样本集合中的样本数量是所述第一图像样本集合中的样本数量的n倍；所述n＞1。

10.一种图像识别的方法，应用于增强现实设备和/或虚拟现实设备，其特征在于，包括：

获取候选图像；

将包含目标对象的参照图像和所述候选图像输入至预先训练好的对象识别模型，识别出包含所述目标对象的候选图像；

将所述包含所述目标对象的候选图像渲染至所述增强现实设备和/或虚拟现实设备的显示器上。

11.一种对象识别的装置，其特征在于，包括：

获取模块，用于获取候选图像；

识别模块，用于将包含目标对象的参照图像和所述候选图像输入至预先训练好的对象识别模型，识别出包含所述目标对象的候选图像。

12.一种对象识别模型的训练装置，其特征在于，包括：

第一阶段训练模块，用于利用经过伪标签标注后的第一图像样本集合对初始模型进行第一阶段训练，得到初步训练后的模型；所述伪标签是利用未标注的第一图像样本集合确定的；

第二阶段训练模块，用于利用经过软标签标注后的第二图像样本集合对所述初步训练后的模型进行第二阶段训练，获得对象识别模型；所述软标签是利用所述未标注的第一图像样本集合和未标注的第二图像样本集合确定的。

13.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1至9中任一项所述的方法。

14.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法。