CN112232384A

CN112232384A - 模型训练方法、图像特征提取方法、目标检测方法和装置

Info

Publication number: CN112232384A
Application number: CN202011035233.7A
Authority: CN
Inventors: 王远江; 郑凯; 袁野
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-15

Abstract

本申请实施例公开了模型训练方法、图像特征提取方法、目标检测方法和装置。该方法的实施例包括：获取第一样本集，第一样本集中包括样本图像；从第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数；响应于检测到初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。该实施方式降低了模型训练时的人力成本，同时提高了模型的准确性。

Description

模型训练方法、图像特征提取方法、目标检测方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及模型训练方法、图像特征提取方法、目标检测方法和装置。

背景技术

随着人工智能领域的发展，模型训练任务越来越多。例如，在图像特征提取模型、目标检测模型等模型训练时，通常需要使用大量的带有标注的样本，使模型进行充分的有监督学习。

现有技术中，通常通过人工为样本进行标注，从而使用带有标注的样本进行模型训练。这种人工标注方式较为耗费人力成本。同时，人工标注存在的主观差异性，会导致标注不够准确，从而导致模型的输出结果的不够准确。

发明内容

本申请实施例提出了模型训练方法、图像特征提取方法、目标检测方法和装置，以解决现有技术中在模型训练过程中因人工标注样本导致人力成本较高以及模型的输出结果的准确性较低的技术问题。

第一方面，本申请实施例提供了一种图像特征提取模型训练方法，该方法包括：获取第一样本集，所述第一样本集中包括样本图像；从所述第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于所述损失值调整所述初始模型的参数；响应于检测到所述初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

第二方面，本申请实施例提供了一种图像特征提取方法，该方法包括：获取目标图像；将所述目标图像输入至采用第一方面中的方法训练得到的图像特征提取模型，得到所述目标图像的特征信息。

第三方面，本申请实施例提供了一种目标检测方法，包括：获取目标图像；将所述目标图像输入至预先训练的目标检测模型，得到所述目标图像的目标检测结果，其中，所述目标检测模型中包含图像特征提取模型，所述图像特征提取模型通过第一方面中的方法训练得到。

第四方面，本申请实施例提供了一种图像特征提取模型训练装置，该装置包括：获取单元，被配置成获取第一样本集，所述第一样本集中包括样本图像；第一训练单元，被配置成从所述第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于所述损失值调整所述初始模型的参数；响应于检测到所述初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

第五方面，本申请实施例提供了一种图像特征提取装置，该装置包括：获取单元，被配置成获取目标图像；输入单元，被配置成将所述目标图像输入至采用第一方面中的方法训练得到的图像特征提取模型，得到所述目标图像的特征信息。

第六方面，本申请实施例提供了一种目标检测装置，该装置包括：获取单元，被配置成获取目标图像；输入单元，被配置成将所述目标图像输入至预先训练的目标检测模型，得到所述目标图像的目标检测结果，其中，所述目标检测模型中包含图像特征提取模型，所述图像特征提取模型通过第一方面中的方法训练得到。

第七方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中所描述的方法。

第八方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中所描述的方法。

本申请实施例提供的模型训练方法、图像特征提取方法、目标检测方法和装置，通过从第一样本集中提取部分样本图像作为目标样本图像，将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；而后对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；之后基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数；最后在初始模型训练完成时，将调整参数后的初始模型确定为图像特征提取模型。该实施方式通过对特征信息进行聚类，以进行正负样本的自动判定，因而采用了一种自监督学习的训练方式。该训练方式所使用的样本无需人工标注，因而大大降低了人力成本，由于不涉及样本标注过程中的主观差异性问题，因而提高了模型输出结果的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的模型训练方法的一个实施例的流程图；

图2是根据本申请的模型训练过程示意图；

图3是根据本申请的图像特征提取方法的一个实施例的流程图；

图4是根据本申请的目标检测方法的一个实施例的流程图；

图5是根据本申请的模型训练装置的一个实施例的结构示意图；

图6是根据本申请的图像特征提取装置的一个实施例的结构示意图；

图7是根据本申请的目标检测装置的一个实施例的结构示意图；

图8是用于实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了根据本申请的模型训练方法的一个实施例的流程100。该模型训练方法，包括以下步骤：

步骤101，获取第一样本集。

在本实施例中，模型训练方法的执行主体(如服务器等电子设备)可以通过多种方式来获取第一样本集。例如，执行主体可以通过有线连接方式或无线连接方式，从用于存储样本的另一服务器(例如数据库服务器)中获取存储于其中的现有的第一样本集。再例如，用户可以通过终端设备来收集样本，这样，上述执行主体可以接收终端所收集的样本，并将这些样本存储在本地，从而生成第一样本集。需要指出的是，上述无线连接方式可包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX(World Interoperability for MicrowaveAccess，全球微波接入互操作性)连接、Zigbee(紫蜂协议)连接、UWB(ultra wideband，超宽带)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施例中，第一样本集中可以包括大量的样本图像。此处的样本图像可以是未标注的图像。

可以理解的是，很多图像处理模型(如目标检测模型、目标识别模型等、图像分类模型等)在对图像进行处理时，均需要进行图像特征的提取，因而均包含图像特征提取网络。常规训练方式通常使用已标注的图像样本对模型整体进行有监督训练，因而需要依赖大量且准确的已标注样本。但是，各类图像处理模型中的图像特征提取网络的作用是提取图像的特征信息，其不需要输出准确的结果(如分类结果、识别结果等)，因此不同应用场景的图像处理模型中的图像特征提取网络的结构和参数往往是一样或相似的，差异主要在于与图像特征提取网络相连接的后续网络结构(如分类网络)。鉴于此，本申请实施例单独将这些图像处理模型中的图像特征提取网络作为训练对象，使用大量的未标注的图像样本对图像特征提取网络进行训练，得到能够准确提取图像特征的图像特征提取模型。在此基础上，可进一步使用少量已标注的图像样本对图像处理模型的整体进行训练，使图像处理模型准确输出所需结果。由于未标注的图像易于获得，因而本实施例使用未标注图像训练图像特征提取模型，可大大节省标注过程的人力成本，同时能够避免因人工标注的主观差异性造成的模型输出不准确的问题。

在本实施例的一些可选的实现方式中，第一样本集可通过对第二样本集进行数据增强后获得。此时，第一样本集中可以包括第二样本集中的原始样本图像和对原始样本图像增强后的增强样本图像。具体地，可首先获取未标注的第二样本集，上述第二样本集中包括原始样本图像。此处的第二样本集可以是未标注的各种现有的图像集。之后，对原始样本图像执行以下至少一项操作，得到原始样本图像对应的增强样本图像：随机裁剪、水平翻转、色度调整、亮度调整、饱和度调整、高斯噪声添加。最后，将第二样本集中的原始样本图像和所得到的增强样本图像进行汇总，得到第一样本集。实践中，数据增强的操作可以在GPU(Graphics Processing Unit，图形处理器)中执行，以缩短图像处理时间。

步骤102，从第一样本集中提取部分样本图像作为目标样本图像。

在本实施例中，执行主体可以从步骤第一样本集中选取样本，以及执行步骤103至步骤106的训练步骤。其中，样本的提取方式和提取数量在本申请中并不限制。例如，可以是随机提取至少一个样本，也可以是从中提取样本图像的清晰度较好的样本等。

步骤103，将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息。

在本实施例中，可将尚未训练的图像处理模型(如目标检测模型、目标识别模型等、图像分类模型等)中的图像特征提取网络作为初始模型，分别将上一步骤中所提取的各目标样本图像输入至该初始模型，得到各目标样本图像的特征信息。

作为示例，初始模型可以是目标检测模型中的骨干网络(backbone)。每一个目标样本图像输入至初始模型后，可输出多个尺度的特征图，如5个尺度的特征图，分别记为P3、P4、P5、P6、P7。其中，P3、P4、P5可分别由深度卷积神经网络产生的三个特征图(可分别记为C3、C4、C5)经过1×1尺寸的卷积得到的，P6可以是对P5进行了步长为2的卷积操作得到的(可视为降采样)，P7可以是对P6进行了步长为2的卷积操作得到的。本实施例对特征图的数量和尺度不做限定。此处，可将该骨干网络与一全连接层(fully connected layers，FC)相连接，从而将所得到的多个尺度的特征图一起输入至全连接层，得到向量形式的特征信息。

步骤104，对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像。

在本实施例中，上述执行主体可以采用各种聚类算法，如k均值聚类算法(k-meansclustering algorithm，k-means)，对所得到的特征信息进行聚类，得到聚类结果。作为示例，若预设的batch_size(一次训练所选取的目标样本图像数)为256，设定10个聚类，则在对此batch_size进行聚类后，可将这256个目标样本图像划分至10个聚类中。其中，同一聚类中的目标样本图像的特征信息的相似度较高，不同聚类中的目标样本图像的特征信息相似度较低。

作为示例，上述执行主体可通过如下步骤对所得到的特征信息进行聚类：第一步，获取预设数量(如10个)的聚类中心。其中，聚类中心的形式可以与特征信息相同，如均为128维向量。在第一次执行训练步骤时，聚类中心可从所得到的特征信息中随机选取，在后续执行训练步骤时，聚类中心可基于聚类结果进行更新。

第二步，检测所得到的各特征信息到各聚类中心的距离。例如，可使用向量的内积计算结果表征到聚类中心的距离。

第三步，对于所得到的每一个特征信息，将与该特征信息距离最小的聚类中心对应的聚类作为该特征信息所属的聚类。

需要说明的是，在对所得到的特征信息进行聚类之后，对于每一个聚类，上述执行主体可以逐一地从该聚类中选取一个特征信息作为目标特征信息，并将该聚类的聚类中心与目标特征信息加权求和，得到加权求和结果，最后将该聚类的聚类中心替换为加权求和结果。具体可参见如下公式：

C’＝a×C+(1-a)×current_feature

其中，a为预设的权重，C为原始的聚类中心，current_feature为当前选取的目标特征信息。C’为更新后的聚类中心。由此，在训练过程中，随着特征信息的更新，聚类结果以及聚类中心也随之实时更新。

在本实施例中，在得到特征信息的聚类结果后，上述执行主体可以基于聚类结果确定各目标样本图像对应的正样本图像和负样本图像；也可以基于聚类结果确定各目标样本图像对应的负样本图像，并通过其他方式确定各目标样本图像对应的正样本图像。

作为一个示例，对于每一个目标样本图像，上述执行主体可将与该目标样本图像属于同一聚类的其他目标样本图像作为正样本图像，将与该目标样本图像属于不同聚类的其他目标样本图像作为负样本图像。

作为又一示例，对于每一个目标样本图像，上述执行主体可从与该目标样本图像属于同一聚类的其他目标样本图像中，选取部分样本图像(如满足预设条件的目标样本图像)作为正样本图像，将与该目标样本图像属于不同聚类的其他目标样本图像作为负样本图像。

作为再一示例，对于每一个目标样本图像，上述执行主体可从与该目标样本图像属于同一聚类的其他目标样本图像中，选取部分样本图像(如满足预设条件的目标样本图像)作为正样本图像，将其余各样本图像均作为负样本图像。

在本实施例的一些可选的实现方式中，第一样本集中的样本图像可包括原始样本图像(如某个狗的图像A)和原始样本图像对应的增强样本图像(例如，包括对图像A进行水平翻转后所得到的图像A’、对图像A进行色度调整后所得到的图像A”)。此时，对于每一个目标样本图像而言，与该目标样本图像属于同一聚类的其他样本中，通常包含该目标样本图像的原始样本图像和/或增强样本图像。具体包含如下两种情况：若该目标样本图像为原始样本图像，则与该目标样本图像属于同一聚类的其他样本中，包含该目标样本图像的增强样本图像。若该目标样本图像为增强样本图像，则与该目标样本图像属于同一聚类的其他样本中，包含该目标样本图像的原始样本图像以及该原始样本图像的其他增强样本图像。

此时，基于聚类结果，上述执行主体可以通过如下步骤确定各目标样本图像对应的正样本图像和负样本图像：

第一步，基于聚类结果为各目标样本图像设置聚类标签。

其中，特征信息属于同一聚类的目标样本图像具有相同的聚类标签，特征信息不属于同一聚类的目标样本图像具有不同的聚类标签。

聚类标签用于指示和区分不同的聚类，聚类标签不同于常规的已标注的样本图像中的类别标签。例如，某一聚类中可包含某只贵宾犬的原始样本图像A、该贵宾犬的增强样本图像A’和A”、以及某只萨摩耶的原始样本图像B和该萨摩耶的增强样本图像B’和B”。若A、A’、A”、B、B’和B”被聚为一类，则A、A’、A”、B、B’和B”可以具有相同的聚类标签。

第二步，对于每一个目标样本图像，从与该目标样本图像具有相同的聚类标签的其余样本图像中，选取该目标样本图像对应的增强样本图像和/或原始样本图像，作为该目标样本图像对应的正样本图像；将与该目标样本图像具有不同的聚类标签的各样本图像作为该目标样本图像对应的负样本图像。

继续上述示例，若某一目标样本图像为某一聚类中的某只贵宾犬的原始样本图像A，则其对应的正样本图像可包括该贵宾犬的增强样本图像A’和A”。其对应的负样本图像可包括其余聚类中的各目标样本图像，如某只英国短毛猫的原始样本图像C、该英国短毛猫的增强样本图像C’和C”，以及，某只橘猫的原始样本图像D、该英国短毛猫的增强样本图像D’和D”等。

需要说明的是，对于与该目标样本图像属于同一聚类中的某只萨摩耶的原始样本图像B和该萨摩耶的增强样本图像B’和B”，可在训练该初始模型的过程中不考虑，并在后续训练图像处理模型(如目标检测模型、目标识别模型等、图像分类模型等)，根据任务场景再进行具体处理。例如，若训练任务为对犬品种分类，则可以在训练犬品种分类模型时，将不同品种的犬类(如上述贵宾犬和萨摩耶)作为不同类型的样本。若训练任务为物种分类(如区分狗和猫等不同物种)，则可以在训练物种分类模型时，将不同品种的犬类(如上述贵宾犬和萨摩耶)作为相同类型的样本。再例如，若训练任务为犬识别(如区分不同的犬)，则可以在训练犬识别模型时，将不同的犬(如上述贵宾犬和萨摩耶，或者某一贵宾犬和另一只贵宾犬)作为不同类型的样本。

在一种可选的实现方式中，增强样本图像与原始样本图像已具备某种关联关系，例如在由原始样本图像生成增强样本图像时将增强样本图像命名为具有与原始样本图像相同的前缀，或者在生成增强样本图像时存储了增强样本图像和原始样本图像之间的关联。此时可直接查找原始样本图像对应的增强样本图像并将其作为目标样本图像对应的正样本图像，执行主体按照上述步骤基于聚类结果确定各目标样本图像对应的负样本图像。

根据聚类结果确定每一目标样本图像对应的正样本图像和负样本图像，能够使得该与目标样本图像其所对应的正样本图像的距离足够小，同时使得该与目标样本图像其所对应的负样本图像的距离足够大，达到分类的目的。同时，根据聚类结果确定每一目标样本图像对应的正样本图像和负样本图像，能够使模型自主学习样本图像之间的相似性，并实现基于聚类结果的自动标注，避免了因人工主观因素等造成的标签不准确的问题，同时能够大幅降低标注成本。

步骤105，基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数。

在本实施例中，上述执行主体可以基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数。其中，上述损失值为损失函数的值，该损失函数是一个非负实值函数，可以用于表征检测结果与真实结果的差异。一般情况下，损失值越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。此处，可是首先计算每一个目标样本图像的特征信息与其所对应的正样本图像的特征信息的距离，以及，每一个目标样本图像的特征信息与其所对应的负样本图像的特征信息的距离。而后，将所计算出的距离输入至预设的损失函数，得到损失值。之后，上述执行主体可以利用该损失值，更新初始模型的参数。此处，可以利用反向传播算法求得损失值相对于模型参数的梯度，而后利用梯度下降算法基于梯度更新模型参数。由此，每输入一次样本图像，可以基于该样本图像对应的损失值，对卷积神经网络的参数进行一次更新，直至训练完成。

实践中，可以通过多种方式确定是否训练完成。作为示例，当损失值收敛于某一值时，可确定训练完成。作为又一示例，若初始模型的训练次数等于预设次数时，可以确定训练完成。本实施例对训练完成的判定条件不作具体限定。

需要说明的是，若确定出初始模型已训练完成，则可以继续执行如下步骤106。若确定出初始模型未训练完成，可以重新从第一样本集中提取部分样本图像作为目标样本图像，并使用调整参数后的初始模型和新的目标样本图像，继续执行上述训练步骤。需要指出的是，这里的提取方式在本申请中也不限制。例如在第一样本集中有大量样本图像的情况下，执行主体可以从中提取未被提取过的样本图像。

在本实施例的一些可选的实现方式中，上述执行主体可以采用如下步骤计算损失值：

第一步，对于每一个目标样本图像，检测该目标样本图像的特征信息与该目标样本图像对应的各正样本图像的特征信息的距离之和(为便于区分，可称为第一距离之和)，并检测该目标样本图像的特征信息与该目标样本图像对应的各负样本图像的特征信息的第二距离之和(可称为第二距离之和)。

第二步，将每个目标样本图像对应的第一距离之和与第二距离之和的比值作为该目标样本图像对应的损失值。

第三步，将各目标样本图像对应的损失值求和，得到上述初始模型的损失值。

由此，对于每一个目标样本图像，若该目标样本图像的特征信息与其所对应的各正样本图像的特征信息差异越小、与其所对应的各负样本图像的特征信息差异越大，则损失值越小。最终的目标是使该目标样本图像的特征信息与其所对应的各正样本图像的特征信息的差异尽可能地小，同时与其所对应的各负样本图像的特征信息的差异尽可能地大，以提高模型提取特征的准确性。

步骤106，响应于检测到初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

在本实施例中，响应于检测到初始模型训练完成，上述执行主体可以将调整参数后的初始模型确定为图像特征提取模型。

作为示例，图2是根据本申请的模型训练过程的示意图。如图2所示，首先获取第一样本集，第一样本集中可包含大量的样本图像，具体包括原始样本图像和原始样本图像对应的增强样本图像。而后，从第一样本集中选取一组目标样本图像输入至初始模型，如骨干网络(backbone)，得到多尺度特征图。而后将多尺度特征图输入至全连接层，得到向量形式的特征信息。之后将特征信息进行聚类，并基于聚类结果确定该目标样本图像对应的正样本图像和负样本图像。然后基于正样本图像和负样本图像确定出损失值，最后基于损失值更新初始模型的参数。由此，完成一次训练过程。可迭代执行多次上述训练过程，得到图像特征提取模型。

在本实施例的一些可选的实现方式中，执行主体可以将生成的图像特征提取模型存储在本地，也可以将其发送给终端设备或用于存储数据的数据库服务器。

在本实施例的一些可选的实现方式中，执行主体可以将图像特征提取模型作为目标检测模型中的特征提取网络，建立初始目标检测模型。其中，初始目标检测模型中除包含特征提取网络外，还可以包含分类网络、位置检测网络等。而后，上述执行主体可以获取已标注的第三样本集，第三样本集中包括带有类别标注的样本图像。最后，将第三样本集中的样本图像作为输入，基于所输入的样本图像的类别标注，利用机器学习方法对初始目标检测模型进行训练，得到训练后的目标检测模型。由于目标检测模型中的特征提取网络已训练完成，因而使用少量带有标注的图像样本即可完成对初始目标检测模型的训练。由此，可大大降低人工标注的人力成本。

本申请的上述实施例提供的方法，通过从第一样本集中提取部分样本图像作为目标样本图像，将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；而后对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；之后基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数；最后在初始模型训练完成时，将调整参数后的初始模型确定为图像特征提取模型。该实施方式通过对特征信息进行聚类，以进行正负样本的自动判定，因而采用了一种自监督学习的训练方式。该训练方式所使用的样本无需人工标注，因而大大降低了人力成本，由于不涉及样本标注过程中的主观差异性问题，因而提高了模型输出结果的准确性。

进一步参考图3，其示出了图像特征提取方法的又一个实施例的流程300。该图像特征提取方法的流程300，包括以下步骤：

步骤301，获取目标图像。

在本实施例中，该图像特征提取方法的执行主体可以获取目标图像，其中，目标图像可以是待提取图像特征的图像。

步骤302，将目标图像输入至预先训练得到的图像特征提取模型，得到上述目标图像的特征信息。

在本实施例中，上述执行主体可以将目标图像输入至预先训练得到的图像特征提取模型，得到上述目标图像的特征信息。本实施例中的图像特征提取模型可以是采用如上述图1实施例所描述的方法而生成的。具体生成过程可以参见图1实施例的相关描述，此处不再赘述。

需要说明的是，本实施例的图像特征提取方法可以用于测试上述实施例所生成的图像特征提取模型。进而根据测试结果可以不断地优化图像特征提取模型。该方法也可以是上述实施例所生成的图像特征提取模型的实际应用方法。采用上述实施例所生成的图像特征提取模型，来进行图像特征提取，有助于提高所提取的图像特征的准确性。

进一步参考图4，其示出了目标检测方法的又一个实施例的流程400。该目标检测方法的流程400，包括以下步骤：

步骤401，获取目标图像。

在本实施例中，该目标检测方法的执行主体可以获取目标图像，其中，目标图像可以是待提取图像特征的图像。

步骤402，将目标图像输入至预先训练的目标检测模型，得到目标图像的目标检测结果，目标检测模型中包含图像特征提取模型。

在本实施例中，上述执行主体可以将目标图像输入至预先训练得到的目标检测模型，得到上述目标图像的特征信息。本实施例中的目标检测模型中可以包含图像特征提取模型，用以提取图像特征。该图像特征提取模型是采用如上述图1实施例所描述的方法而生成的。具体生成过程可以参见图1实施例的相关描述，此处不再赘述。

需要说明的是，本实施例的目标检测方法可以用于测试上述实施例所生成的图像特征提取模型。进而根据测试结果可以不断地优化图像特征提取模型。该方法也可以是上述实施例所生成的图像特征提取模型的实际应用方法。采用上述实施例所生成的图像特征提取模型，来进行目标检测过程中的图像特征提取，有助于提高所提取的图像特征的准确性以及提高目标检测的准确性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种图像特征提取模型训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例上述的模型训练装置500包括：获取单元501，被配置成获取第一样本集，上述第一样本集中包括样本图像；第一训练单元502，被配置成从上述第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于上述损失值调整上述初始模型的参数；响应于检测到上述初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

在本实施例的一些可选的实现方式中，上述获取单元501，进一步被配置成：获取未标注的第二样本集，上述第二样本集中包括原始样本图像；对上述原始样本图像执行以下至少一项操作，得到上述原始样本图像对应的增强样本图像：随机裁剪、水平翻转、色度调整、亮度调整、饱和度调整、高斯噪声添加；将上述第二样本集中的原始样本图像和所得到的增强样本图像进行汇总，得到第一样本集。

在本实施例的一些可选的实现方式中，上述第一样本集中的样本图像包括原始样本图像和上述原始样本图像对应的增强样本图像；以及，上述第一训练单元502，进一步被配置成：基于聚类结果为各目标样本图像设置聚类标签，其中，特征信息属于同一聚类的目标样本图像具有相同的聚类标签，特征信息不属于同一聚类的目标样本图像具有不同的聚类标签；对于每一个目标样本图像，从与该目标样本图像具有相同的聚类标签的其余样本图像中，选取该目标样本图像对应的增强样本图像和/或原始样本图像，作为该目标样本图像对应的正样本图像；将与该目标样本图像具有不同的聚类标签的各样本图像作为该目标样本图像对应的负样本图像。

在本实施例的一些可选的实现方式中，上述第一训练单元502，进一步被配置成：对于每一个目标样本图像，检测该目标样本图像的特征信息与该目标样本图像对应的各正样本图像的特征信息的第一距离之和，并检测该目标样本图像的特征信息与该目标样本图像对应的各负样本图像的特征信息的第二距离之和；将上述第一距离之和与上述第二距离之和的比值作为该目标样本图像对应的损失值；将各目标样本图像对应的损失值求和，得到上述初始模型的损失值。

在本实施例的一些可选的实现方式中，上述第一训练单元502，进一步被配置成：获取预设数量的聚类中心；检测所得到的各特征信息到各聚类中心的距离；对于所得到的每一个特征信息，将与该特征信息距离最小的聚类中心对应的聚类作为该特征信息所属的聚类。

在本实施例的一些可选的实现方式中，上述训练步骤还包括：对于每一个聚类，逐一地从该聚类中选取一个特征信息作为目标特征信息，将该聚类的聚类中心与上述目标特征信息加权求和，得到加权求和结果，并将该聚类的聚类中心替换为上述加权求和结果。

在本实施例的一些可选的实现方式中，上述装置还包括：执行单元，被配置成：响应于检测到上述初始模型未训练完成，重新从上述第一样本集中提取部分样本图像作为目标样本图像，并使用调整参数后的初始模型和新的目标样本图像，继续执行上述训练步骤。

在本实施例的一些可选的实现方式中，上述装置还包括：第二训练单元，被配置成：将上述图像特征提取模型作为目标检测模型中的特征提取网络，建立初始目标检测模型；获取已标注的第三样本集，上述第三样本集中包括带有类别标注的样本图像；将上述第三样本集中的样本图像作为输入，基于所输入的样本图像的类别标注，利用机器学习方法对上述初始目标检测模型进行训练，得到训练后的目标检测模型。

本申请的上述实施例提供的装置，通过从第一样本集中提取部分样本图像作为目标样本图像，将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；而后对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；之后基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数；最后在初始模型训练完成时，将调整参数后的初始模型确定为图像特征提取模型。该实施方式通过对特征信息进行聚类，以进行正负样本的自动判定，因而采用了一种自监督学习的训练方式。该训练方式所使用的样本无需人工标注，因而大大降低了人力成本，由于不涉及样本标注过程中的主观差异性问题，因而提高了模型输出结果的准确性。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种图像特征提取装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例上述的图像特征提取装置600包括：获取单元601，被配置成获取目标图像；输入单元602，被配置成将上述目标图像输入至图像特征提取模型，得到上述目标图像的特征信息。

可以理解的是，该装置600中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置600及其中包含的单元，在此不再赘述。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种目标检测装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例上述的目标检测装置700包括：获取单元701，被配置成获取目标图像；输入单元702，被配置成将上述目标图像输入至预先训练的目标检测模型，得到上述目标图像的目标检测结果，其中，上述目标检测模型中包含图像特征提取模型，上述图像特征提取模型通过图4对应的实施例中的方法训练得到。

可以理解的是，该装置700中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置700及其中包含的单元，在此不再赘述。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备的计算机***800的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机***800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有***800操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取第一样本集，第一样本集中包括样本图像；从第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于损失值调整初始模型的参数；响应于检测到初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像特征提取模型训练方法，其特征在于，所述方法包括：

获取第一样本集，所述第一样本集中包括样本图像；

从所述第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于所述损失值调整所述初始模型的参数；响应于检测到所述初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

2.根据权利要求1所述的方法，其特征在于，所述获取第一样本集，包括：

获取未标注的第二样本集，所述第二样本集中包括原始样本图像；

对所述原始样本图像执行以下至少一项操作，得到所述原始样本图像对应的增强样本图像：随机裁剪、水平翻转、色度调整、亮度调整、饱和度调整、高斯噪声添加；

将所述第二样本集中的原始样本图像和所得到的增强样本图像进行汇总，得到第一样本集。

3.根据权利要求1-2之一所述的方法，其特征在于，所述第一样本集中的样本图像包括原始样本图像和所述原始样本图像对应的增强样本图像；以及，所述基于聚类结果确定各目标样本图像对应的负样本图像，包括：

基于聚类结果为各目标样本图像设置聚类标签，其中，特征信息属于同一聚类的目标样本图像具有相同的聚类标签，特征信息不属于同一聚类的目标样本图像具有不同的聚类标签；

将与该目标样本图像具有不同的聚类标签的各样本图像作为该目标样本图像对应的负样本图像。

4.根据权利要求2或3之一所述的方法，其特征在于，所述确定各目标样本图像对应的正样本图像，包括：

对于每一个目标样本图像，从与该目标样本图像具有相同的聚类标签的其余样本图像中，选取该目标样本图像对应的增强样本图像和/或原始样本图像，作为该目标样本图像对应的正样本图像；

或者，对于每一个目标样本图像，选取该目标样本图像对应的增强样本图像和/或原始样本图像，作为该目标样本图像对应的正样本图像。

5.根据权利要求1-4之一所述的方法，其特征在于，所述基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，包括：

对于每一个目标样本图像，检测该目标样本图像的特征信息与该目标样本图像对应的各正样本图像的特征信息的第一距离之和，并检测该目标样本图像的特征信息与该目标样本图像对应的各负样本图像的特征信息的第二距离之和；将所述第一距离之和与所述第二距离之和的比值作为该目标样本图像对应的损失值；

将各目标样本图像对应的损失值求和，得到所述初始模型的损失值。

6.根据权利要求1-5之一所述的方法，其特征在于，所述对所得到的特征信息进行聚类，包括：

获取预设数量的聚类中心；

检测所得到的各特征信息到各聚类中心的距离；

对于所得到的每一个特征信息，将与该特征信息距离最小的聚类中心对应的聚类作为该特征信息所属的聚类。

7.根据权利要求6所述的方法，其特征在于，在所述对所得到的特征信息进行聚类之后，所述训练步骤还包括：

对于每一个聚类，逐一地从该聚类中选取一个特征信息作为目标特征信息，将该聚类的聚类中心与所述目标特征信息加权求和，得到加权求和结果，并将该聚类的聚类中心替换为所述加权求和结果。

8.根据权利要求1-7之一所述的方法，其特征在于，所述方法还包括：

响应于检测到所述初始模型未训练完成，重新从所述第一样本集中提取部分样本图像作为目标样本图像，并使用调整参数后的初始模型和新的目标样本图像，继续执行所述训练步骤。

9.根据权利要求1-8之一所述的方法，其特征在于，所述方法还包括：

将所述图像特征提取模型作为目标检测模型中的特征提取网络，建立初始目标检测模型；

获取已标注的第三样本集，所述第三样本集中包括带有类别标注的样本图像；

将所述第三样本集中的样本图像作为输入，基于所输入的样本图像的类别标注，利用机器学习方法对所述初始目标检测模型进行训练，得到训练后的目标检测模型。

10.一种图像特征提取方法，其特征在于，所述方法包括：

获取目标图像；

将所述目标图像输入至采用权利要求1-9之一的方法训练得到的图像特征提取模型，得到所述目标图像的特征信息。

11.一种目标检测方法，其特征在于，所述方法包括：

获取目标图像；

将所述目标图像输入至预先训练的目标检测模型，得到所述目标图像的目标检测结果，其中，所述目标检测模型中包含图像特征提取模型，所述图像特征提取模型通过权利要求1-9之一的方法训练得到。

12.一种图像特征提取模型训练装置，其特征在于，所述装置包括：

获取单元，被配置成获取第一样本集，所述第一样本集中包括样本图像；

第一训练单元，被配置成从所述第一样本集中提取部分样本图像作为目标样本图像，执行如下训练步骤：将各目标样本图像输入至初始模型，得到各目标样本图像的特征信息；对所得到的特征信息进行聚类，并基于聚类结果确定各目标样本图像对应的负样本图像；确定各目标样本图像对应的正样本图像；基于各目标样本图像对应的正样本图像和负样本图像，确定损失值，并基于所述损失值调整所述初始模型的参数；响应于检测到所述初始模型训练完成，将调整参数后的初始模型确定为图像特征提取模型。

13.一种图像特征提取装置，其特征在于，所述装置包括：

获取单元，被配置成获取目标图像；

输入单元，被配置成将所述目标图像输入至采用权利要求1-9之一的方法训练得到的图像特征提取模型，得到所述目标图像的特征信息。

14.一种目标检测装置，其特征在于，所述装置包括：

获取单元，被配置成获取目标图像；

输入单元，被配置成将所述目标图像输入至预先训练的目标检测模型，得到所述目标图像的目标检测结果，其中，所述目标检测模型中包含图像特征提取模型，所述图像特征提取模型通过权利要求1-9之一的方法训练得到。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的方法。