CN114005015B

CN114005015B - 图像识别模型的训练方法、电子设备和存储介质

Info

Publication number: CN114005015B
Application number: CN202111614740.0A
Authority: CN
Inventors: 浦煜; 何武; 付贤强; 朱海涛; 户磊
Original assignee: Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-31
Anticipated expiration: 2041-12-28
Also published as: CN114005015A

Abstract

本申请实施例涉及视觉搜索技术领域，公开了一种图像识别模型的训练方法、电子设备和存储介质，该方法包括：获取第一模型的训练样本；其中，训练样本标注用于表征训练样本的特征的特征类别的标签；基于第一模型的网络结构，构建第二模型；根据训练样本和第三模型，获取第三模型对应的各特征类别的类别中心向量；其中，第一模型和第三模型为功能相同的模型；根据各特征类别的类别中心向量，确定第二模型的分类层权重；根据训练样本和标签对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数，训练出的模型提取出的特征集可以直接与用旧模型提取出的特征库进行对比，省时省力，降低了成本，极大地提升了模型工业部署的便利性。

Description

图像识别模型的训练方法、电子设备和存储介质

技术领域

本申请实施例涉及视觉匹配和搜索技术领域，特别涉及一种图像识别模型的训练方法、电子设备和存储介质。

背景技术

随着视觉匹配和搜索技术的日益成熟，基于视觉匹配和搜索技术的识别模型被广泛应用在诸多领域中，如图像检索、行人重识别、车辆重识别、人脸识别等，这些基于视觉匹配和搜索技术的识别模型通过深度神经网络江图像映射到一个特征嵌入空间，在此特征空间中，相同类别的特征彼此相近并聚成一类，通常来说，对于数据检索库里大规模的图像数据，其特征是由识别模型预先提取的，这些图像数据的特征形成特征库gallery，而待查询图像的特征是由识别模型实时提取的，这些特征组成了待查询图像的特征集probe，识别模型可以遍历probe里的每一个特征，从gallery里检索出与其最相近的特征，并返回相应的信息。

在实际应用场景中，为了让用户获得更好的使用体验，基于视觉匹配和搜索技术的识别模型需要不断地进行迭代更新，然而，识别模型更新后，probe中的特征是用新模型提取的，但gallery中的特征都是用旧模型提取的，为了保证probe与gallery之间的特征具有一致性，技术人员需要使用新模型重新对gallery对应的原始图像数据进行特征提取，这个过程耗时非常长、成本非常高，并且在一些高安全要求的场景下，gallery对应的原始图像数据在gallery生成后就已自动删除，无法重新提取特征，也就不能保证probe与gallery之间的特征具有一致性，无法直接而对比。

发明内容

本申请实施例的目的在于提供一种图像识别模型的训练方法、电子设备和存储介质，训练出的模型提取出的特征集可以直接与用旧模型提取出的特征库进行对比，省时省力，降低了成本，极大地提升了模型工业部署的便利性。

为解决上述技术问题，本申请的实施例提供了一种图像识别模型的训练方法，包括以下步骤：获取第一模型的训练样本；其中，所述训练样本标注有标签，所述标签用于表征所述训练样本的特征的特征类别；基于所述第一模型的网络结构，构建第二模型；根据所述训练样本和第三模型，获取所述第三模型对应的各特征类别的类别中心向量；其中，所述第一模型和所述第三模型为功能相同的模型；根据所述各特征类别的类别中心向量，确定所述第二模型的分类层权重；根据所述训练样本和所述标签对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数。

本申请的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的图像识别模型的训练方法。

本申请的实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的图像识别模型的训练方法。

本申请的实施例提供的图像识别模型的训练方法、电子设备和存储介质，先获取第一模型的训练样本，训练样本上标注有用于表征该训练样本的特征的特征类别的标签，再基于第一模型的网络结构，构建第二模型，根据第一模型的训练样本和与第一模型功能相同的第三模型，获取第三模型对应的各特征类别的类别中心向量，并根据第三模型对应的各特征类别的类别中心向量，确定第二模型的分类层权重，最后根据第一模型的训练样本和训练样本上标注的标签，对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数，考虑到为了保证新模型提取出的特征集与旧模型提取出的特征库之间的特征具有一致性，需要使用新模型重新对旧模型提取出的特征库对应的原始数据进行特征提取，但整个过程耗时非常长、成本非常高，并且当原始数据删除时，无法进行重新提取，本申请的实施例，以新模型的网络结构为基础构建兼容模型，根据旧模型对应的各特征类别的类别中心向量确定兼容模型的分类层权重，再用新模型的训练样本和标签对兼容模型进行迭代训练，更新兼容模型的除分类层权重之外的参数，迫使训练出的兼容模型对应的各特征类别的类别中心与旧模型对应的各特征类别的类别中心相匹配，用训练出的兼容模型提取出的特征集可以直接与用旧模型提取出的特征库进行对比，无需重新进行特征提取，省时省力，降低了成本，极大地提升了模型工业部署的便利性。

另外，所述训练样本为若干个，所述根据所述训练样本和所述标签对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数，包括：将各所述训练样本分别输入至所述第一模型和所述第二模型中，获取所述第一模型从各所述训练样本中分别提取出的各第一特征向量和所述第二模型分别从各所述训练样本中提取出的各第二特征向量；根据所述训练样本的数量、所述特征类别的总数、所述各第一特征向量、所述各第二特征向量、所述标签和所述分类层权重，构建损失函数；以所述损失函数为监督，基于小批量梯度下降法对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数，直到所述损失函数满足预设的收敛条件，本申请的实施例，以新模型作为教师模型，以兼容模型作为学生模型，基于模型蒸馏的原理对兼容模型进行训练，即在对兼容模型训练时，参考并使用了新模型从各训练样本中提取出的特征，可以使兼容模型快速获得新模型的功能和性能，进一步提升兼容模型的训练效果。

另外，所述损失函数包括第一损失项，所述构建损失函数，包括：根据所述训练样本的数量、所述特征类别的总数，所述各第二特征向量、所述标签、所述分类层权重和预设的softmax交叉熵损失函数，构建所述第一损失项，softmax交叉熵损失函数作为第一损失项，构建简单计算量小，可以提升兼容模型训练的速度。

另外，所述损失函数还包括第二损失项，所述损失函数为所述第一损失项与所述第二损失项之和，在构建所述第一损失项之后，还包括：根据所述各第一特征向量和所述标签，计算所述各特征类别中同一特征类别的训练样本两两之间的第一欧氏距离，并确定所述各特征类别对应的计算的次数；根据所述各特征类别对应的计算的次数和各所述第一欧氏距离，计算所述各特征类别对应的第一欧氏距离的均值；根据所述各第二特征向量和所述标签，计算所述各特征类别中同一特征类别的训练样本两两之间的第二欧氏距离；根据所述各特征类别对应的计算的次数和各所述第二欧氏距离，计算所述各特征类别对应的第二欧氏距离的均值；根据所述第一欧氏距离的均值、所述第二欧氏距离的均值和预设的L1损失函数，构建所述第二损失项，考虑到如果只用softmax交叉熵函数作为损失函数，训练出的兼容模型会受到旧模型的性能制约，即无法破旧模型的性能瓶颈，这就损失了新模型的高性能优势，因此本实施例还设置了第二损失项，驱使兼容模型学习到新模型的同一特征类别内的特征分布的相对结构信息，使得类内紧凑型更好，大幅提升了兼容模型的性能。

另外，所述训练样本为若干个，所述根据所述训练样本和第三模型，获取所述第三模型对应的各特征类别的类别中心向量，包括：将各所述训练样本输入至所述第三模型中，获取所述第三模型从各所述训练样本中分别提取出的各第三特征向量；根据所述各第三特征向量和所述标签，计算所述各特征类别中同一特征类别对应的第三特征向量的第三均值，并将所述同一特征类别对应的第三特征向量的第三均值作为所述第三模型对应的所述特征类别的类别中心向量，可以使得确定的各特征类别的类别中心向量更加准确，更能代表自身的特征类别。

另外，所述根据所述各特征类别的类别中心向量，确定所述第二模型的分类层权重，包括：分别对所述各特征类别的类别中心向量进行转置；将转置后的所述各特征类别的类别中心向量拼接成参数矩阵；将所述参数矩阵作为所述第二模型的分类层权重，将转置后的各特征类别的类别中心向量拼接成参数矩阵，来作为第二模型的分类层权重，可以使得兼容模型更好地匹配旧模型的特征，进一步保证用兼容模型提取出的特征集与旧模型提取出的特征库之间的特征具有一致性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本申请的一个实施例的模型训练的流程图；

图2是根据本申请的一个实施例中，根据训练样本和标签对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数的流程图；

图3是根据本申请的一个实施例中，构建第二损失项的流程图；

图4是根据本申请的一个实施例中，根据训练样本和第三模型，获取第三模型对应的各特征类别的类别中心向量的流程图；

图5是根据本申请的一个实施例中，根据各特征类别的类别中心向量，确定第二模型的分类层权重的流程图；

图6是根据本申请的另一个实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请的一个实施例涉及一种模型训练方法，应用于电子设备，其中，电子设备可以为终端或服务器，本实施例以及以下个各个实施例中电子设备以服务器为例进行说明，下面对本实施例的模型训练方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本申请的实施例进行训练的模型可以为：用于进行以图识图、图像检索的图像检索模型；用于交通的进行车辆识别的车辆识别模型；用于商场、车站进行行人重识别的重识别模型；用于安防监控、人脸支付的人脸识别模型等。

本实施例中的模型训练方法的流程图可以如图1所示，包括：

步骤101，获取第一模型的训练样本，训练样本标注有标签。

具体而言，服务器训练第二模型时，可以先获取第一模型的训练样本，第一模型的训练样本上均标注有标签，训练样本上标注的标签用于表征该训练样本的特征的特征类别。

在一个例子中，为了让用户获得更好的使用体验，基于视觉匹配和搜索技术的识别模型需要不断地进行迭代更新，比如采用更先进的算法、使用新的参数等对旧模型进行改造，得到新模型，然而在使用新模型时，需要保证新模型提取出的特征集与旧模型提取出的特征库之间的特征具有一致性，否则无法匹配，技术人员需要使用新模型重新对旧模型提取出的特征库对应的原始数据进行特征提取，这个过程耗时非常长、成本非常高，并且当原始数据删除时，新模型无法提取特征，因此本申请基于新模型（即第一模型），构建并训练兼容模型（即第二模型），以兼容旧模型（第三模型）的特征。

步骤102，基于第一模型的网络结构，构建第二模型。

在具体实现中，服务器在获取第一模型的训练样本的同时，可以获取第一模型的模型文件，以明确第一模型的网络结构，并基于第一模型的网络结构，构建第二模型。

在一个例子中，服务器可以直接将第一模型作为第二模型。

在一个例子中，服务器可以将第一模型的网络结构作为第二模型的网络结构，并对第二模型的各层参数进行初始化。

步骤103，根据训练样本和第三模型，获取第三模型对应的各特征类别的类别中心向量。

具体而言，第一模型和第三模型为功能相同的模型，即第一模型和第三模型可以执行相同的任务，但第一模型与第三模型不完全相同。

在一个例子中，第一模型与第三模型使用的算法存在不同。

在一个例子中，第一模型与第三模型的网络结构存在不同。

在具体实现中，服务器在获取到第一模型的训练样本后，可以获取第三模型的模型文件，得到第三模型，再将训练样本输入至第三模型中，获取第三模型对应的各特征类别的类别中心向量，第一模型对应的各特征类别、第二模型对应的各特征类别和第三模型对应的各特征类别均相同，即三个模型能提取出的特征类别是一样的。

在一个例子中，服务器可以先根据训练样本和第三模型，获取第三模型对应的各特征类别的类别中心向量，再基于第一模型的网络结构，构建第二模型。

步骤104，根据各特征类别的类别中心向量，确定第二模型的分类层权重。

在具体实现中，服务器获取到第三模型对应的各特征类别的类别中心向量后，可以基于第三模型对应的各特征类别的类别中心向量，确定第二模型的分类层权重，并锁定第二模型的分类层权重，即在后续的对第二模型的迭代训练中，不更新第二模型的分类层权重。

步骤105，根据训练样本和标签对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数。

在一个例子中，服务器确定第二模型的分类层权重后，可以将训练样本输入至第二模型中，获得第二模型的输出结果，根据第二模型的输出结果、训练样本上标注的标签和预设的损失函数，对第二模型进行迭代训练，每次训练后更新第二模型的除分类层权重之外的所有参数，如各卷积层的权重、各卷积层的偏置等，迫使训练出的兼容模型对应的各特征类别的类别中心与旧模型对应的各特征类别的类别中心相匹配。

在一个例子中，服务器可以基于随机梯度下降法，对第二模型进行迭代训练。

在一个例子中，训练样本为若干个，服务器可以基于小批量梯度下降法，对第二模型进行迭代训练。

在一个例子中，训练样本为若干个，服务器可以基于批量梯度下降法，对第二模型进行迭代训练。

本实施例，服务器先获取第一模型的训练样本，训练样本上标注有用于表征该训练样本的特征的特征类别的标签，再基于第一模型的网络结构，构建第二模型，根据第一模型的训练样本和与第一模型功能相同的第三模型，获取第三模型对应的各特征类别的类别中心向量，并根据第三模型对应的各特征类别的类别中心向量，确定第二模型的分类层权重，最后根据第一模型的训练样本和训练样本上标注的标签，对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数，考虑到为了保证新模型提取出的特征集与旧模型提取出的特征库之间的特征具有一致性，需要使用新模型重新对旧模型提取出的特征库对应的原始数据进行特征提取，但整个过程耗时非常长、成本非常高，并且当原始数据删除时，无法进行重新提取，本申请的实施例，以新模型的网络结构为基础构建兼容模型，根据旧模型对应的各特征类别的类别中心向量确定兼容模型的分类层权重，再用新模型的训练样本和标签对兼容模型进行迭代训练，更新兼容模型的除分类层权重之外的参数，迫使训练出的兼容模型对应的各特征类别的类别中心与旧模型对应的各特征类别的类别中心相匹配，用训练出的兼容模型提取出的特征集可以直接与用旧模型提取出的特征库进行对比，无需重新进行特征提取，省时省力，降低了成本，极大地提升了模型工业部署的便利性。

在一个实施例中，训练样本为若干个，服务器基于小批量梯度下降法，对第二模型进行迭代训练，服务器根据训练样本和标签对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数，可以通过如图2所示的各步骤实现，具体包括：

步骤201，将各训练样本分别输入至第一模型和第二模型中，获取第一模型从各训练样本中分别提取出的各第一特征向量和第二模型分别从各训练样本中提取出的各第二特征向量。

在具体实现中，服务器可以将各训练样本，即一个小批次（mini-batch）的训练样本，分别输入至第一模型和第二模型中，第一模型和第二模型分别从各训练样本中提取特征，服务器得到第一模型从各训练样本中分别提取出的各第一特征向量，以及第二模型分别从各训练样本中提取出的各第二特征向量。

在一个例子中，第一模型从各训练样本中分别提取出的各第一特征向量，以及第二模型分别从各训练样本中提取出的各第二特征向量均为N维的特征向量，第一模型从训练样本x中提取出的第一特征向量表示为f₁(x)，第二模型从训练样本x中提取出的第二特征向量表示为f₂(x)。

步骤202，根据训练样本的数量、特征类别的总数、各第一特征向量、各第二特征向量、训练样本的标签和分类层权重，构建损失函数。

在具体实现中，服务器不使用预设的损失函数进行训练，而是自行构建损失函数进行训练，服务器得到各第一特征向量和各第二特征向量后，可以根据训练样本的数量、特征类别的总数、各第一特征向量、各第二特征向量、训练样本的标签和分类层权重，自行构建损失函数，即服务器以第一模型作为教师模型，以第二模型作为学生模型，基于模型蒸馏的原理在训练时参考并使用第一模型从各训练样本中提取出的特征，可以使第二模型快速获得第一模型的功能和性能。

步骤203，以损失函数为监督，基于小批量梯度下降法对第二模型进行迭代训练，更新第二模型的除分类层权重之外的参数，直到损失函数满足预设的收敛条件。

在具体实现中，服务器在每一次训练后，都要判断构建的损失函数是否满足预设的收敛条件，若损失函数满足预设的收敛条件，服务器保存此时的第二模型的参数，发布完成训练的第二模型，若损失函数不满足预设的收敛条件，服务器继续对第二模型进行迭代训练，其中，预设的收敛条件可以由本领域的技术人员根据实际需要进行设置，本申请的实施例对此不做具体限定。

本实施例，所述训练样本为若干个，所述根据所述训练样本和所述标签对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数，包括：将各所述训练样本分别输入至所述第一模型和所述第二模型中，获取所述第一模型从各所述训练样本中分别提取出的各第一特征向量和所述第二模型分别从各所述训练样本中提取出的各第二特征向量；根据所述训练样本的数量、所述特征类别的总数、所述各第一特征向量、所述各第二特征向量、所述标签和所述分类层权重，构建损失函数；以所述损失函数为监督，基于小批量梯度下降法对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数，直到所述损失函数满足预设的收敛条件，本申请的实施例，以新模型作为教师模型，以兼容模型作为学生模型，基于模型蒸馏的原理对兼容模型进行训练，即在对兼容模型训练时，参考并使用了新模型从各训练样本中提取出的特征，可以使兼容模型快速获得新模型的功能和性能，进一步提升兼容模型的训练效果。

在一个实施例中，训练样本为若干个，服务器基于小批量梯度下降法，对第二模型进行迭代训练，服务器构建的损失函数包括第一损失项，服务器可以根据训练样本的数量、特征类别的总数，各第二特征向量、训练样本的标签、分类层权重和预设的softmax交叉熵损失函数，构建第一损失项，用softmax交叉熵损失函数作为第一损失项，构建简单且计算量小，可以提升兼容模型训练的速度。

在一个例子中，服务器构建的第一损失项，可以通过以下公式表示：

式中，L_softmax为构建的第一损失项，R为训练样本的数量，x_i为第i个训练样本，y_i为第i个训练样本的标签，w^T为分类层权重，f₂(x)为第i个训练样本的第二特征向量，K为特征类别的总数。

在一个实施例中，训练样本为若干个，服务器基于小批量梯度下降法，对第二模型进行迭代训练，服务器构建的损失函数包括第二损失项，服务器构建的损失函数为第一损失项与第二损失项之和，服务器在构建完第一损失项后，可以根据如图3所示的各步骤构建第二损失项，具体包括：

步骤301，根据各第一特征向量和标签，计算各特征类别中同一特征类别的训练样本两两之间的第一欧氏距离，并确定各特征类别对应的计算的次数。

在具体实现中，服务器确定训练样本的数量，即小批量梯度下降的一个批次大小为G，第一模型、第二模型、第三模型能提取出的特征类别相同，三个模型能提取出的特征类别的数量为K，由于标签用于表征训练样本的特征的特征类别，服务器可以根据标签确定每个特征类别分别对应的训练样本的个数，服务器依次遍历各特征类别，根据各第一特征向量计算当前特征类别对应的的训练样本两两之间的第一欧氏距离，同时确定当前特征类别需要计算第一欧氏距离的计算的次数。

在一个例子中，共有特征类别甲、特征类别乙和特征类别丙三个特征类别：特征类别甲对应有4个训练样本，服务器可以计算特征类别甲对应的计算的次数为6次；特征类别乙对应有3个训练样本，服务器可以计算特征类别乙对应的计算的次数为3次；特征类别丙对应有5个训练样本，服务器可以计算特征类别丙对应的计算的次数为10次。

步骤302，根据各特征类别对应的计算的次数和各第一欧氏距离，计算各特征类别对应的第一欧氏距离的均值。

具体而言，服务器计算出各第一欧氏距离，并确定各特征类别对应的计算的次数后，可以根据各特征类别对应的计算的次数和各第一欧氏距离，计算各特征类别对应的第一欧氏距离的均值。

在一个例子中，服务器计算各特征类别对应的第一欧氏距离的均值，可以通过以下公式实现：

式中，K为特征类别的总数，N(k)为第k个特征类别的训练样本的集合，φ_1k(x_i,x_j)为第k个特征类别对应的第一欧氏距离的均值，B_k为第k个特征类别对应的计算的次数， f₁(x_i)为第k个特征类别中的第i个训练样本的第一特征向量，f₁(x_j)为所述第k个特征类别中的第j个训练样本的第一特征向量。

步骤303，根据各第二特征向量和标签，计算各特征类别中同一特征类别的训练样本两两之间的第二欧氏距离。

在具体实现中，由于标签是确定的，因此各特征类别需要计算第一欧氏距离的计算的次数，与各特征类别需要计算第二欧氏距离的计算的次数相同，服务器依次遍历各特征类别，根据各第二特征向量计算当前特征类别对应的的训练样本两两之间的第二欧氏距离。

步骤304，根据各特征类别对应的计算的次数和各第二欧氏距离，计算各特征类别对应的第二欧氏距离的均值。

具体而言，服务器计算出各第二欧氏距离，并确定各特征类别对应的计算的次数后，可以根据各特征类别对应的计算的次数和各第二欧氏距离，计算各特征类别对应的第二欧氏距离的均值。

在一个例子中，服务器计算各特征类别对应的第二欧氏距离的均值，可以通过以下公式实现：

式中，K为特征类别的总数，N(k)为第k个特征类别的训练样本的集合，φ_1k(x_i,x_j)为第k个特征类别对应的第一欧氏距离的均值，B_k为第k个特征类别对应的计算的次数， f₂(x_i)为第k个特征类别中的第i个训练样本的第二特征向量，f₂(x_j)为所述第k个特征类别中的第j个训练样本的第二特征向量。

步骤305，根据第一欧氏距离的均值、第二欧氏距离的均值和预设的L1损失函数，构建第二损失项。

在一个例子中，服务器可以通过以下公式，根据第一欧氏距离的均值、第二欧氏距离的均值和预设的L1损失函数，构建第二损失项：

式中，L_dis为第二损失项，λ为预设的平衡因子，K为特征类别的总数，N(k)为第k个特征类别的训练样本的集合，Smooth_L1为预设的L1损失函数，φ_1k(x_i,x_j)为第k个特征类别对应的第一欧氏距离的均值，φ_2k(x_i,x_j)为第k个特征类别对应的第二欧氏距离的均值，B_k为第k个特征类别对应的计算的次数，f₁(x_i)为第k个特征类别中的第i个训练样本的第一特征向量，f₂(x_i)为第k个特征类别中的第i个训练样本的第二特征向量，f₁(x_j)为第k个特征类别中的第j个训练样本的第一特征向量，f₁(x_j)为第k个特征类别中的第j个训练样本的第二特征向量。

在一个例子中，服务器构建的损失函数包括第一损失项和第二损失项，该损失函数可以表示为：L=L_softmax+L_dis，L_softmax为第一损失项，L_dis为第二损失项。

本实施例，所述损失函数还包括第二损失项，在构建所述第一损失项之后，还包括：根据所述各第一特征向量和所述标签，计算所述各特征类别中同一特征类别的训练样本两两之间的第一欧氏距离，并确定所述各特征类别对应的计算的次数；根据所述各特征类别对应的计算的次数和各所述第一欧氏距离，计算所述各特征类别对应的第一欧氏距离的均值；根据所述各第二特征向量和所述标签，计算所述各特征类别中同一特征类别的训练样本两两之间的第二欧氏距离；根据所述各特征类别对应的计算的次数和各所述第二欧氏距离，计算所述各特征类别对应的第二欧氏距离的均值；根据所述第一欧氏距离的均值、所述第二欧氏距离的均值和预设的L1损失函数，构建所述第二损失项，考虑到如果只用softmax交叉熵函数作为损失函数，训练出的兼容模型会受到旧模型的性能制约，即无法破旧模型的性能瓶颈，这就损失了新模型的高性能优势，因此本实施例还设置了第二损失项，驱使兼容模型学习到新模型的同一特征类别内的特征分布的相对结构信息，使得类内紧凑型更好，大幅提升了兼容模型的性能。

在一个实施例中，训练样本为若干个，服务器根据训练样本和第三模型，获取第三模型对应的各特征类别的类别中心向量，可以通过如图4所示的各步骤实现，具体包括：

步骤401，将各训练样本输入至第三模型中，获取第三模型从各训练样本中分别提取出的各第三特征向量。

在具体实现中，服务器可以将各训练样本，即一个小批次（mini-batch）的训练样本，输入至第三模型中，第三模型分别从各训练样本中提取特征，服务器得到第三模型分别从各训练样本中提取出的各第三特征向量。

在一个例子中，第三模型从各训练样本中分别提取出的各第三特征向量均为N维的特征向量，第三模型从训练样本x中提取出的第三特征向量表示为f₃(x)。

步骤402，根据各第三特征向量和标签，计算各特征类别中同一特征类别对应的第三特征向量的第三均值，并将同一特征类别对应的第三特征向量的第三均值作为第三模型对应的特征类别的类别中心向量。

具体而言，服务器得到各第三特征向量后，可以根据各第三特征向量和标签，计算各特征类别中同一特征类别对应的第三特征向量的第三均值，并将同一特征类别对应的第三特征向量的第三均值作为第三模型对应的特征类别的类别中心向量，使得确定的各特征类别的类别中心向量更加准确，更能代表自身的特征类别。

在一个例子中，服务器可以通过以下公式，计算各特征类别中同一特征类别对应的第三特征向量的第三均值并将同一特征类别对应的第三特征向量的第三均值，作为第三模型对应的特征类别的类别中心向量：

式中，w_k为第k个特征类别的类别中心向量，m_k为第k个特征类别的训练样本的数量，N(k)为第k个特征类别的训练样本的集合，f₃(x)为第三特征向量，K为特征类别的总数。

在一个实施例中，服务器根据各特征类别的类别中心向量，确定第二模型的分类层权重，可以通过如图5所示的各步骤实现，具体包括：

步骤501，分别对各特征类别的类别中心向量进行转置。

步骤502，将转置后的各特征类别的类别中心向量拼接成参数矩阵。

步骤503，将参数矩阵作为第二模型的分类层权重。

在具体实现中，服务器分别对各特征类别的类别中心向量进行转置，将转置后的各特征类别的类别中心向量拼接成参数矩阵，拼接出的参数矩阵可以表示为W=[w₁ ^T,w₂ ^T,…,w_K ^T]，服务器将该参数矩阵作为第二模型的分类层权重，可以使得兼容模型更好地匹配旧模型的特征，进一步保证用兼容模型提取出的特征集与旧模型提取出的特征库之间的特征具有一致性。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请另一个实施例涉及一种电子设备，如图6所示，包括：至少一个处理器601；以及，与所述至少一个处理器601通信连接的存储器602；其中，所述存储器602存储有可被所述至少一个处理器601执行的指令，所述指令被所述至少一个处理器601执行，以使所述至少一个处理器601能够执行上述各实施例中的模型训练方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本申请另一个实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory ，简称：ROM）、随机存取存储器（Random Access Memory，简称：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

获取第一模型的训练样本；其中，所述第一模型为图像识别模型，所述训练样本为图像，所述训练样本标注有标签，所述标签用于表征所述训练样本的特征的特征类别；

基于所述第一模型的网络结构，构建第二模型；

根据所述训练样本和第三模型，获取所述第三模型对应的各特征类别的类别中心向量；其中，所述第一模型和所述第三模型为功能相同的图像识别模型，所述第三模型的发布时间晚于所述第一模型，所述第三模型的性能优于所述第一模型；

根据所述各特征类别的类别中心向量，确定所述第二模型的分类层权重；

根据所述训练样本和所述标签对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数。

2.根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述训练样本为若干个，所述根据所述训练样本和所述标签对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数，包括：

将各所述训练样本分别输入至所述第一模型和所述第二模型中，获取所述第一模型从各所述训练样本中分别提取出的各第一特征向量和所述第二模型分别从各所述训练样本中提取出的各第二特征向量；

根据所述训练样本的数量、所述特征类别的总数、所述各第一特征向量、所述各第二特征向量、所述标签和所述分类层权重，构建损失函数；

以所述损失函数为监督，基于小批量梯度下降法对所述第二模型进行迭代训练，更新所述第二模型的除所述分类层权重之外的参数，直到所述损失函数满足预设的收敛条件。

3.根据权利要求2所述的图像识别模型的训练方法，其特征在于，所述损失函数包括第一损失项，所述构建损失函数，包括：

根据所述训练样本的数量、所述特征类别的总数，所述各第二特征向量、所述标签、所述分类层权重和预设的softmax交叉熵损失函数，构建所述第一损失项。

4.根据权利要求3所述的图像识别模型的训练方法，其特征在于，所述损失函数还包括第二损失项，所述损失函数为所述第一损失项与所述第二损失项之和，在构建所述第一损失项之后，还包括：

根据所述各第一特征向量和所述标签，计算所述各特征类别中同一特征类别的训练样本两两之间的第一欧氏距离，并确定所述各特征类别对应的计算的次数；

根据所述各特征类别对应的计算的次数和各所述第一欧氏距离，计算所述各特征类别对应的第一欧氏距离的均值；

根据所述各第二特征向量和所述标签，计算所述各特征类别中同一特征类别的训练样本两两之间的第二欧氏距离；

根据所述各特征类别对应的计算的次数和各所述第二欧氏距离，计算所述各特征类别对应的第二欧氏距离的均值；

根据所述第一欧氏距离的均值、所述第二欧氏距离的均值和预设的L1损失函数，构建所述第二损失项。

5.根据权利要求4所述的图像识别模型的训练方法，其特征在于，通过以下公式，根据所述第一欧氏距离的均值、所述第二欧氏距离的均值和预设的L1损失函数，构建所述第二损失项：

其中，L_dis为所述第二损失项，λ为预设的平衡因子，K为所述特征类别的总数，N(k)为所述第k个特征类别的训练样本的集合，Smooth_L1为所述预设的L1损失函数，φ_1k(x_i,x_j)为第k个特征类别对应的第一欧氏距离的均值，φ_2k(x_i,x_j)为所述第k个特征类别对应的第二欧氏距离的均值，B_k为所述第k个特征类别对应的计算的次数，f₁(x_i)为所述第k个特征类别中的第i个训练样本的第一特征向量，f₂(x_i)为所述第k个特征类别中的第i个训练样本的第二特征向量，f₁(x_j)为所述第k个特征类别中的第j个训练样本的第一特征向量，f₁(x_j)为所述第k个特征类别中的第j个训练样本的第二特征向量。

6.根据权利要求1至权利要求5中任一项所述的图像识别模型的训练方法，其特征在于，所述训练样本为若干个，所述根据所述训练样本和第三模型，获取所述第三模型对应的各特征类别的类别中心向量，包括：

将各所述训练样本输入至所述第三模型中，获取所述第三模型从各所述训练样本中分别提取出的各第三特征向量；

根据所述各第三特征向量和所述标签，计算所述各特征类别中同一特征类别对应的第三特征向量的第三均值，并将所述同一特征类别对应的第三特征向量的第三均值作为所述第三模型对应的所述特征类别的类别中心向量。

7.根据权利要求6中所述的图像识别模型的训练方法，其特征在于，通过以下公式，计算所述各特征类别中同一特征类别对应的第三特征向量的第三均值并将所述同一特征类别对应的第三特征向量的第三均值，作为所述第三模型对应的所述特征类别的类别中心向量：

其中，w_k为第k个特征类别的类别中心向量，m_k为所述第k个特征类别的训练样本的数量，N(k)为所述第k个特征类别的训练样本的集合，f₃(x)为所述第三特征向量，K为所述特征类别的总数。

8.根据权利要求6所述的图像识别模型的训练方法，其特征在于，所述根据所述各特征类别的类别中心向量，确定所述第二模型的分类层权重，包括：

分别对所述各特征类别的类别中心向量进行转置；

将转置后的所述各特征类别的类别中心向量拼接成参数矩阵；

将所述参数矩阵作为所述第二模型的分类层权重。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至权利要求8中任一所述的图像识别模型的训练方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的图像识别模型的训练方法。