CN111507407A

CN111507407A - 图像分类模型的训练方法及装置

Info

Publication number: CN111507407A
Application number: CN202010306813.9A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-07
Anticipated expiration: 2040-04-17
Also published as: CN111507407B

Abstract

本发明提供了一种图像分类模型的训练方法、装置、电子设备及存储介质；方法包括：采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检测，以确定图像分类模型的准确度；基于准确度确定图像分类模型的图像训练样本满足噪声识别的触发条件时，对图像分类模型的图像训练样本进行噪声识别，得到图像训练样本归属于噪声样本的概率；以概率作为图像训练样本的权重，采用加权后的图像训练样本训练图像分类模型，直至完成第二阶段的训练；如此，能够在图像分类模型完成第一阶段的基础上，依据图像训练样本归属于噪声样本的概率对图像分类模型进行第二阶段的训练，提高训练得到的图像分类模型的预测准确度。

Description

图像分类模型的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图像分类模型的训练方法、装置、电子设备及存储介质。

背景技术

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，机器学习(ML，Machine Learning)是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

图像的分类与识别是人工智能的重要应用分支，在通过训练样本对图像分类模型进行训练时，由于人为原因训练样本常常是带噪的，比如标注人员在简单的猫狗分类标注任务中标注错误率非常低，然而当要判断一件衣服是雪纺还是纯棉则会比较困难，则使得标注错误率大幅上升。如此，由于训练样本中噪声数据的存在，导致基于此类训练样本训练得到的图像分类模型的分类预测性能下降。

发明内容

本发明实施例提供一种图像分类模型的训练方法、装置、电子设备及存储介质，能够在图像分类模型完成第一阶段的基础上，依据图像训练样本归属于噪声样本的概率对图像分类模型进行第二阶段的训练，提高训练得到的图像分类模型的预测准确度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种图像分类模型的训练方法，包括：

采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检测，以确定所述图像分类模型的准确度；

基于所述准确度确定所述图像分类模型的图像训练样本满足噪声识别的触发条件时，

通过噪声识别模型，对所述图像分类模型的图像训练样本进行噪声识别，得到所述图像训练样本归属于噪声样本的概率；

以所述概率作为所述图像训练样本的权重，对所述图像训练样本进行加权处理，得到加权后的图像训练样本；

采用所述加权后的图像训练样本训练所述图像分类模型，直至完成第二阶段的训练。

本发明实施例还提供一种图像分类模型的训练装置，包括：

检测模块，用于采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检测，以确定所述图像分类模型的准确度；

噪声识别模块，用于基于所述准确度确定所述图像分类模型的图像训练样本满足噪声识别的触发条件时，通过噪声识别模型，对所述图像分类模型的图像训练样本进行噪声识别，得到所述图像训练样本归属于噪声样本的概率；

加权模块，用于以所述概率作为所述图像训练样本的权重，对所述图像训练样本进行加权处理，得到加权后的图像训练样本；

训练模块，用于采用所述加权后的图像训练样本训练所述图像分类模型，直至完成第二阶段的训练。

上述方案中，所述装置还包括：

确定模块，用于将所述图像分类模型的准确度与准确度阈值进行比较，得到比较结果；

当所述比较结果表征所述准确度低于准确度阈值时，确定所述图像分类模型的图像训练样本满足噪声识别的触发条件。

上述方案中，所述确定模块，还用于在所述第一阶段训练的过程中，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度；

当所述第一准确度与所述第二准确度的差值低于差值阈值时，确定所述图像分类模型的图像训练样本满足噪声识别的触发条件。

上述方案中，所述噪声识别模块，还用于通过所述噪声识别模型的特征提取层，对所述图像训练样本进行特征提取，得到所述图像训练样本的特征；

获取所述图像训练样本所对应的至少两个类别的类中心特征；

基于所述图像训练样本的特征、以及所述至少两个类别的类中心特征，通过所述噪声识别模型的噪声识别层进行噪声识别，得到所述图像训练样本归属于噪声样本的概率。

上述方案中，所述噪声识别模块，还用于从所述图像分类模型的多个图像训练样本中，依据所述图像训练样本所对应的至少两个类别，选取目标比例的图像训练样本；

通过所述噪声识别模型的特征提取层，分别对所述选取的图像训练样本进行特征提取，得到相应的样本特征；

对得到的所述样本特征进行聚类处理，得到对应各所述类别的所述样本特征；

从对应各所述类别的所述样本特征中，选取目标数量的类中心特征，以得到所述至少两个类别的类中心特征。

上述方案中，所述噪声识别模块，还用于分别确定所述图像训练样本的特征与各所述类中心特征的余弦距离；

并，从所述至少两个类别的类中心特征中，确定对应最大余弦距离的目标类中心特征；

基于所述图像训练样本的特征、以及所述目标类中心特征，确定所述图像训练样本归属于噪声样本的概率。

上述方案中，所述噪声识别模块，还用于基于所述图像训练样本的特征、以及所述目标类中心特征，采用以下公式确定所述图像训练样本归属于噪声样本的概率：

其中，a为所述图像训练样本的特征，b为所述目标类中心特征，w_k为所述目标类中心特征的权重，W为所述图像训练样本归属于噪声样本的概率。

上述方案中，所述训练模块，还用于通过所述图像分类模型，对所述加权后的图像训练样本进行分类预测，得到相应的预测结果；

获取所述预测结果、与所述加权后的图像训练样本的分类标签之间的差异；

基于获取的所述差异、以及所述加权后的图像训练样本的权重，确定所述图像分类模型的损失函数的值；

基于所述损失函数的值，更新所述图像分类模型的模型参数。

上述方案中，所述检测模块，还用于通过完成第一阶段训练的图像分类模型，对所述图像测试样本进行分类预测，得到相应的分类结果；

基于所述图像测试样本的分类标签，确定相应的分类结果的准确性；

基于所述图像测试样本对应的分类结果的准确性，确定所述图像分类模型的准确度。

本发明实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像分类模型的训练方法。

本发明实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本发明实施例提供的图像分类模型的训练方法。

本发明实施例具有以下有益效果：

通过图像测试样本对完成第一阶段训练的图像分类模型进行准确度检验，当准确度确定图像分类模型的图像训练样本满足噪声识别的触发条件时，通过噪声识别模型，确定图像训练样本归属于噪声样本的概率，并将该概率作为图像训练样本的权重进行加权处理，从而通过加权后的图像训练样本对图像分类模型进行训练；如此，能够在图像分类模型完成第一阶段的基础上，依据图像训练样本归属于噪声样本的概率对图像分类模型进行第二阶段的训练，提高训练得到的图像分类模型的预测准确度。

附图说明

图1A-B是相关技术中提供的噪声样本的识别方法的示意图；

图2是本发明实施例提供的图像分类模型的训练方法的实施场景示意图；

图3是本发明实施例提供的电子设备的结构示意图；

图4是本发明实施例提供的图像分类模型的训练方法的流程示意图；

图5是本发明实施例提供的差网络模型的残差模块的示意图；

图6是本发明实施例提供的图像训练样本的噪声识别流程图；

图7是本发明实施例提供的图像分类模型的训练方法的流程示意图；

图8是本发明实施例提供的图像分类模型的训练方法的流程示意图；

图9是本发明实施例提供的图像分类模型应用于服装图像分类的示意图；

图10是本发明实施例提供的图像分类模型的训练装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)图像识别:即图像的类别或者级别的识别，仅考虑图像的类别(如人、狗、猫、鸟等)所进行的分类识别，并给出图像所归属的类别。

3)图像多标签识别：通过计算机识别出图像是否具有多个指定属性标签或类别标签；一张图像可能具有多个属性或者归属于多个类别，多标签识别任务是判断某张图像具有哪些预设的属性标签、或者归属于哪些类别标签。

4)噪声样本：指样本中一定程度带有噪声数据，并非所有样本都是噪声，包括标注人员失误造成错误类别标注、概念不清晰造成图像与对应类别标签不完全一致的样本，比如两个类别间概念部分重叠造成某张图像具有2种类别属性，但仅被标注成1种类别属性。

5)干净样本：指经过人工确认，样本中不含有噪声数据。

6)全量样本：指干净样本和噪声样本的并集。

7)校验样本：指经过人工噪声校验的样本。

相关技术中，如图1A所示，第一种方案是采用课程网络(Curriculum Net)模型，先通过干净样本或全量样本对分类模型进行一阶段学习，然后通过密度ρ把噪声样本分成二阶段、三阶段数据并分别给予不同的样本权重进行噪声学习；但是该类方案需要以获取干净样本初始化模型，带来人工标注的额外需求，同时噪声判决是离线学习的，一旦确定不再变化，然而通过密度判决噪声总会带有偏差，容易造成学习不准确以致后续模型优化陷入困境。

如图1B所示，第二种方案是采用净网(Clean Net)模型，首先在全量样本(干净样本+噪声样本)学习到一阶段模型，然后给定校验样本并根据样本训练噪声判断模型，接着噪声判断模型对全量样本进行噪声预测，其预测结果作为样本权重，以应用到二阶段模型学习中作为样本加权。但是该类方案需要收集校验样本，校验样本越多效果越好，带来额外的人工投入。

基于此，本发明实施例提供一种图像分类模型的训练方法、装置、电子设备及存储介质，以至少解决相关技术中的上述问题，接下来分别说明。

基于上述对本发明实施例中涉及的名词和术语的解释，接下来首先说明本发明实施例提供的图像分类模型的训练方法的实施场景，参见图2，图2是本发明实施例提供的图像分类模型的训练方法的实施场景示意图，为实现支撑一个示例性应用，终端200包括终端200-1和终端200-2，其中终端200-1位于开发人员侧，用以控制图像分类模型的训练，终端200-2位于用户侧，用以请求针对待分类图像的分类预测；终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端200-1，用于向服务器发送针对图像分类模型的训练指令；

服务器100，用于响应于针对图像分类模型的训练指令，对图像分类模型进行第一阶段的训练直至完成；采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检测，以确定图像分类模型的准确度；基于准确度确定图像分类模型的图像训练样本满足噪声识别的触发条件时，通过噪声识别模型，对图像分类模型的图像训练样本进行噪声识别，得到图像训练样本归属于噪声样本的概率；以概率作为图像训练样本的权重，对图像训练样本进行加权处理，得到加权后的图像训练样本；采用加权后的图像训练样本训练图像分类模型，直至完成第二阶段的训练；

当图像分类模型完成第二阶段的训练后，终端200-2，用于发送针对待分类图像的图像分类指令；

服务器100，用于响应于该图像分类指令，通过完成第二阶段训练的图像分类模型，对待分类对象进行分类预测，得到相应的图像分类结果并返回给终端200-2。

在实际应用中，服务器100既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群；终端(如终端200-1)可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

下面对本发明实施例提供的图像分类模型的训练方法的电子设备的硬件结构做详细说明，电子设备包括但不限于服务器或终端。参见图3，图3是本发明实施例提供的电子设备的结构示意图，图3所示的电子设备300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。电子设备300中的各个组件通过总线***340耦合在一起。可理解，总线***340用于实现这些组件之间的连接通信。总线***340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线***340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。

存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器350旨在包括任意适合类型的存储器。

在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***351，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块353，用于经由一个或多个与用户接口330相关联的输出装置331(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块354，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的图像分类模型的训练装置可以采用软件方式实现，图3示出了存储在存储器350中的图像分类模型的训练装置355，其可以是程序和插件等形式的软件，包括以下软件模块：检测模块3551、噪声识别模块3552、加权模块3553和训练模块3554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的图像分类模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像分类模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像分类模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Cir cuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

基于上述对本发明实施例的图像分类模型的训练方法的实施场景及电子设备的说明，下面说明本发明实施例提供的图像分类模型的训练方法。参见图4，图4是本发明实施例提供的图像分类模型的训练方法的流程示意图；在一些实施例中，该图像分类模型的训练方法可由服务器或终端单独实施，或由服务器及终端协同实施，以服务器实施为例，本发明实施例提供的图像分类模型的训练方法包括：

步骤401：服务器采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检测，以确定图像分类模型的准确度。

这里，在实际应用中，首先构建图像分类模型，比如卷积神经网络模型等，其次将图像分类模型的模型参数设置为需要学习状态，然后采用大量图像训练样本对图像分类模型进行第一阶段的训练。具体地，可以针对第一阶段训练，设置相应的训练轮数，根据该训练轮数对图像分类模型进行训练，比如训练轮数设置为100，那么则通过图像训练样本对该图像分类模型进行100轮的训练，当训练轮数达到100时，则表征该图像分类模型的第一阶段训练已完成。

这里的图像分类模型可以为多类别的图像分类模型，即该图像分类模型可以针对一张图像进行多种类别的分类预测，比如可以同时识别一张图像是否归属于“动物类”、以及是否归属于“风景类”等；或者可同时识别一张图像是否归属于“服装类”、以及是否归属于“衬衫类”等。

为得到分类预测准确度更高的图像分类模型，在完成第一阶段训练后，采用图像测试样本对完成第一阶段训练的图像分类模型进行准确度检测，以确定图像分类模型的准确度。从而方便确定是否需要继续训练以提高图像分类模型的分类预测准确度。

在一些实施例中，服务器可通过如下方式确定图像分类模型的准确度：通过完成第一阶段训练的图像分类模型，对图像测试样本进行分类预测，得到相应的分类结果；基于图像测试样本的分类标签，确定相应的分类结果的准确性；基于图像测试样本对应的分类结果的准确性，确定图像分类模型的准确度。

在实际应用中，首先获取图像分类模型对应的多个图像测试样本，这里，图像测试样本标注有相应的分类标签。其次将该多个图像测试样本分别输入完成第一阶段训练的图像分类模型中，通过图像分类模型对相应的图像测试样本进行分类预测，得到相应的分类结果。然后根据各图像测试样本的分类标签、与相应的分类结果，确定相应的分类结果的准确性。最后根据各图像测试样本对应的分类结果的准确性，确定图像分类模型的准确度。

步骤402：基于准确度确定图像分类模型的图像训练样本满足噪声识别的触发条件时，通过噪声识别模型，对图像分类模型的图像训练样本进行噪声识别，得到图像训练样本归属于噪声样本的概率。

在确定完成第一阶段训练的图像分类模型的准确度后，根据该准确度，判断图像分类模型的图像训练样本是否满足噪声识别的触发条件，即判断用于训练图像分类模型的图像训练样本是否需要进行噪声识别，从而进一步确定图像分类模型的图像训练样本是否为噪声样本、或者是否存在噪声。

在一些实施例中，服务器可通过如下方式确定图像分类模型的图像训练样本是否满足噪声识别的触发条件：将图像分类模型的准确度与准确度阈值进行比较，得到比较结果；当比较结果表征准确度低于准确度阈值时，确定图像分类模型的图像训练样本满足噪声识别的触发条件。

这里，可以预先设置准确度阈值。当确定完成第一阶段训练的图像分类模型的准确度后，将图像分类模型的准确度与预设的准确度阈值进行比较，得到比较结果；当该比较结果表征准确度低于准确度阈值时，即完成第一阶段训练的图像分类模型的准确度没有达到预定标准，此时则确定图像分类模型的图像训练样本满足噪声识别的触发条件，需要进行噪声识别。

在一些实施例中，服务器还可通过如下方式确定图像分类模型的图像训练样本是否满足噪声识别的触发条件：在第一阶段训练的过程中，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度；当第一准确度与第二准确度的差值低于差值阈值时，确定图像分类模型的图像训练样本满足噪声识别的触发条件。

在实际应用中，由于预先设置了针对第一阶段训练的学习轮数，那么还可以是在图像分类模型的第一阶段训练的过程中，当完成目标轮数(比如学习轮数为100，那么目标轮数可以是第80轮或者第100轮)的训练时，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度。通过将第一准确度和第二准确度的差值、与预先设置的差值阈值进行比较，确定图像分类模型的图像训练样本是否满足噪声识别的条件。这里，差值用于表征本轮训练得到的图像分类模型相较于上一轮训练得到的图像分类模型的优化程度。当第一准确度与第二准确度的差值低于差值阈值时，即优化程度未达到预设的优化程度标准，则确定图像分类模型的图像训练样本满足噪声识别的触发条件。

或者，还可以是在图像分类模型的第一阶段训练的过程中，在完成每轮图像分类模型的训练时，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度。当确定前某几轮训练所得到的图像分类模型的优化程度较差，均未达到预设的优化程度阈值时，即在前某几轮的训练中，第一准确度和第二准确度的差值均低于差值阈值，则确定图像分类模型的图像训练样本满足噪声识别的触发条件。

当确定图像分类模型的图像训练样本满足噪声识别的触发条件后，则表征该图像训练样本可能存在噪声，以致经过多轮训练所得到的图像分类模型的准确度仍然不够。因此在一些实施例中，服务器可通过如下方式对图像分类模型的图像训练样本进行噪声识别：通过噪声识别模型的特征提取层，对图像训练样本进行特征提取，得到图像训练样本的特征；获取图像训练样本所对应的至少两个类别的类中心特征；基于图像训练样本的特征、以及至少两个类别的类中心特征，通过噪声识别模型的噪声识别层进行噪声识别，得到图像训练样本归属于噪声样本的概率。

这里，噪声识别模型包括特征提取层和噪声识别层的结构可以与基础的图像分类模型相同、也可以不同。在实际应用中，噪声识别模型也可以通过残差网络(ResidualNetwork,ResNet)构建，参见图5，图5是本发明实施例提供的残差网络模型的残差模块的示意图，这里使用1*1卷积先将输入的256维进行降维到64维，然后经过3*3卷积后，再用1*1卷积进行升维恢复到256维，基于残差网络构建噪声识别模型可降低参数的计算量。

噪声识别模型包括特征提取层和噪声识别层。因此在对图像分类模型的图像训练样本进行噪声识别时，通过构建的噪声识别模型的特征提取层，对输入的图像训练样本进行特征提取，从而得到图像训练样本的特征；同时获取该图像训练样本所对应的至少两个类别的类中心特征；通过噪声识别模型的噪声识别层，对图像训练样本的特征、以及对应的至少两个类别的类中心特征，进行噪声识别，从而得到图像训练样本归属于噪声样本的概率。

在一些实施例中，服务器可通过如下方式获取图像训练样本所对应的类中心特征：从图像分类模型的多个图像训练样本中，依据图像训练样本所对应的至少两个类别，选取目标比例的图像训练样本；通过噪声识别模型的特征提取层，分别对选取的图像训练样本进行特征提取，得到相应的样本特征；对得到的样本特征进行聚类处理，得到对应各类别的样本特征；从对应各类别的样本特征中，选取目标数量的类中心特征，以得到至少两个类别的类中心特征。

在实际应用中，首先从全部的图像训练样本中，选取目标比例的图像训练样本作为参考样本。这里，每个类别的参考样本量均需要大于预设的类中心数量K的若干倍，比如可以选取多于K*50的图像训练样本作为参考样本，在实际应用中，50倍量可根据具体情况增多或减少，类中心数量K也可以根据经验值确定。

然后通过噪声识别模型的特征提取层，对选取的图像训练样本进行特征提取，得到相应的样本特征。对得到的样本特征进行聚类处理，以得到至少两个类别的类中心特征。具体地，对得到的样本特征进行聚类处理，比如可以采用K-Means算法，得到对应各类别的样本特征；从对应各类别的样本特征中，选取目标数量的类中心特征，比如可以选取样本特征聚类后样本最集中的K个聚类中心，作为目标数量的类中心特征。

具体地，参加图6，图6是本发明实施例提供的图像训练样本的噪声识别流程图。具体流程如下：

步骤601：在所有图像训练样本中选择目标比例的参考样本；

步骤602：通过对参考样本进行特征提取，得到样本特征；

步骤603：对样本特征进行聚类处理，选取得到类中心特征；

步骤604：对所有图像训练样本进行特征提取，得到全量图像训练样本的特征；

步骤605：基于类中心特征、及全量图像训练样本的特征进行噪声识别，得到图像训练样本所归属于噪声样本的概率，以作为图像训练样本的权重。

在一些实施例中，服务器还可通过如下方式确定图像训练样本归属于噪声样本的概率：分别确定图像训练样本的特征与各类中心特征的余弦距离；并，从至少两个类别的类中心特征中，确定对应最大余弦距离的目标类中心特征；基于图像训练样本的特征、以及目标类中心特征，确定图像训练样本归属于噪声样本的概率。

在实际应用中，可以分别计算图像训练样本的特征与至少两个类别的类中心特征中的各类中心特征的余弦距离，从而在各类中心特征中，查找对应最大余弦距离的类中心特征，将该对应最大余弦距离的类中心特征确定为目标类中心特征；进而基于图像训练样本的特征、以及目标类中心特征，确定图像训练样本归属于噪声样本的概率。

在一些实施例中，服务器基于图像训练样本的特征以及目标类中心特征，可采用以下公式，确定图像训练样本归属于噪声样本的概率：

其中，a为图像训练样本的特征，b为目标类中心特征，w_k为目标类中心特征的权重，可根据经验预定义，也可以根据计算的余弦距离，设置与余弦距离成比例(如成反比)的值等，W为图像训练样本归属于噪声样本的概率。

步骤403：以概率作为图像训练样本的权重，对图像训练样本进行加权处理，得到加权后的图像训练样本。

步骤404：采用加权后的图像训练样本训练图像分类模型，直至完成第二阶段的训练。

在得到加权后的图像训练样本之后，通过加权后的图像训练样本对图像分类模型进行训练，直至完成第二阶段的训练。

在一些实施例中，服务器可通过如下方式训练图像分类模型：通过图像分类模型，对加权后的图像训练样本进行分类预测，得到相应的预测结果；获取预测结果、与加权后的图像训练样本的分类标签之间的差异；基于获取的差异、以及加权后的图像训练样本的权重，确定图像分类模型的损失函数的值；基于损失函数的值，更新图像分类模型的模型参数。

在实际的图像分类模型的训练过程中，通过图像分类模型对加权后的图像训练样本进行分类预测，得到相应的预测结果；获取该预测结果、与加权后的图像训练样本所标注的分类标签之间的差异；进而基于该获取的差异、以及加权后的图像训练样本的权重，确定图像分类模型的损失函数的值。这里，通过加权后的图像训练样本进行图像分类模型的训练所对应的损失函数的值L_w、与通过未加权的图像训练样本进行图像分类模型的训练所对应的损失函数的值L_class存在如下关系：

L_w＝wL_class；

其中，w为加权后的图像训练样本的权重。

在计算得到图像分类模型的损失函数的值后，当确定该损失函数的值超过设定的损失阈值时，则基于该损失函数的值，确定图像分类模型的误差信号；将该误差信号在图像分类模型中进行反向传播，从而在误差信号反向传播的过程中，更新图像分类模型中各个层的模型参数。比如通过随机梯度下降法将误差信号在图像分类模型中反向传播，在反向传播的过程中，实现图像分类模型的模型参数的更新及优化。

这里，第二阶段的训练即为基于加权后的图像训练样本训练图像分类模型。参见图7，图7是本发明实施例提供的图像分类模型的训练方法的流程示意图图，包括：

步骤701：采用全量图像训练样本进行第一阶段训练；

步骤702：对完成第一阶段训练的图像分类模型进行准确度检测，得到图像分类模型的准确度；

步骤703：基于准确度判断图像训练样本是否满足噪声识别的触发条件，如果满足，执行步骤704，如果不满足，返回步骤701；

步骤704：通过噪声识别模型对图像训练样本进行噪声识别，得到该图像训练样本归属于噪声样本的概率，以该概率作为图像训练样本的权重；

步骤705：采用图像训练样本的权重对图像训练样本进行加权处理；

步骤706：通过加权后的图像训练样本对图像分类模型进行训练；

步骤707：判断图像分类模型的第二阶段训练是否结束，如果结束则执行步骤708，如果未结束，则返回步骤703；

在实际应用中，可以设置第二阶段训练的学习轮数阈值，当第二阶段训练的学习轮数达到学习轮数阈值时，则终止学习；如果未达到，则返回噪声识别操作，以继续进行图像分类模型的第二阶段训练，直至完成。

步骤708：输出完成第二阶段训练的图像分类模型。

应用本发明上述实施例，通过图像测试样本对完成第一阶段训练的图像分类模型进行准确度检验，当准确度确定图像分类模型的图像训练样本满足噪声识别的触发条件时，通过噪声识别模型，确定图像训练样本归属于噪声样本的概率，并将该概率作为图像训练样本的权重进行加权处理，从而通过加权后的图像训练样本对图像分类模型进行训练；如此，能够在图像分类模型完成第一阶段的基础上，依据图像训练样本归属于噪声样本的概率对图像分类模型进行第二阶段的训练，提高训练得到的图像分类模型的预测准确度。

下面将说明本发明实施例在一个实际的应用场景中的示例性应用。参见图8，图8为本发明实施例提供的图像分类模型的训练方法的流程示意图，本发明实施例提供的图像分类模型的训练方法包括：

步骤801：服务器采用图像训练样本对图像分类模型进行第一阶段训练。

这里，在实际应用中，首先构建图像分类模型，比如可以通过残差网络(ResidualNetwork,ResNet)构建，参加图5，图5是本发明实施例提供的残差网络模型的残差模块的示意图，这里使用1*1卷积先将输入的256维进行降维到64维，然后经过3*3卷积后，再用1*1卷积进行升维恢复到256维，可降低参数的计算量。

具体地，图像分类模型包括特征提取层和分类预测层，基于ResNet-101构建。如表1所示，图像分类模型的特征提取层包含Conv1-Conv5的5个全连接层；如表2所示，图像分类模型的分类预测层包含池化层和全连接层；这里的图像分类模型为多类别的图像分类模型，即该图像分类模型可以针对一张图像进行多种类别的分类预测，比如可以同时识别一张图像是否归属于“动物类”、以及是否归属于“风景类”等；或者可同时识别一张图像是否归属于“服装类”、以及是否归属于“衬衫类”等。

表1ResNet-101特征提取层的结构表

Layer name	Output size	Layer
			Pool_cr	1x2048	Max pool
Fc_cr	1xN	full connetction

表2基于ResNet-101的分类预测层的结构表，N为学习的类别数量

在构建完成图像分类模型后，将图像分类模型的模型参数设置为需要学习状态，然后采用大量图像训练样本对图像分类模型进行第一阶段的训练。具体地，可以针对第一阶段训练，设置相应的训练轮数，根据该训练轮数对图像分类模型进行训练，比如训练轮数设置为100，那么则通过图像训练样本对该图像分类模型进行100轮的训练，当训练轮数达到100时，则表征该图像分类模型的第一阶段训练已完成。

步骤802：当第一阶段训练完成后，采用图像测试样本对图像分类模型进行准确度检测，得到图像分类模型的准确度。

这里，为得到分类预测准确度更高的图像分类模型，在完成第一阶段训练后，采用图像测试样本对完成第一阶段训练的图像分类模型进行准确度检测，以确定图像分类模型的准确度。从而方便确定是否需要继续训练以提高图像分类模型的分类预测准确度。

步骤803：基于准确度确定图像分类模型的图像训练样本是否满足噪声识别的触发条件。

在实际应用中，可以预先设置准确度阈值。当确定完成第一阶段训练的图像分类模型的准确度后，将图像分类模型的准确度与预设的准确度阈值进行比较，得到比较结果；当该比较结果表征准确度低于准确度阈值时，即完成第一阶段训练的图像分类模型的准确度没有达到预定标准，此时则确定图像分类模型的图像训练样本满足噪声识别的触发条件，需要进行噪声识别。

或者，在实际应用中，由于预先设置了针对第一阶段训练的学习轮数，那么还可以是在图像分类模型的第一阶段训练的过程中，当完成目标轮数(比如学习轮数为100，那么目标轮数可以是第80轮、第90轮或者第100轮)的训练时，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度。通过将第一准确度和第二准确度的差值、与预先设置的差值阈值进行比较，确定图像分类模型的图像训练样本是否满足噪声识别的条件。这里，差值用于表征本轮训练得到的图像分类模型相较于上一轮训练得到的图像分类模型的优化程度。当第一准确度与第二准确度的差值低于差值阈值时，即优化程度未达到预设的优化程度标准时，则确定图像分类模型的图像训练样本满足噪声识别的触发条件。

步骤804：如果未满足，则继续进行第一阶段训练。

这里，如果图像分类模型的图像训练样本未满足噪声识别的触发条件，则采用该图像训练样本继续对图像分类模型进行第一阶段训练。

步骤805：如果满足，则从图像分类模型的多个图像训练样本中，依据图像训练样本所对应的至少两个类别，选取目标比例的图像训练样本。

这里，如果图像分类模型的图像训练样本满足噪声识别的触发条件，则表征该图像训练样本可能存在噪声，以致经过多轮训练所得到的图像分类模型的准确度仍然不够。因此需要对该图像训练样本进行噪声识别。

具体地，首先从全部的图像训练样本中，选取目标比例的图像训练样本作为参考样本。这里，每个类别的参考样本量均需要大于预设的类中心数量K的若干倍，比如可以选取多于K*50的图像训练样本作为参考样本，在实际应用中，50倍量可根据具体情况增多或减少。

步骤806：通过噪声识别模型的特征提取层，分别对选取的图像训练样本进行特征提取，得到相应的样本特征。

这里，噪声识别模型的结构可以与基础的图像分类模型相同、也可以不同。噪声识别模型包括特征提取层和噪声识别层。通过噪声识别模型的特征提取层，对选取的图像训练样本进行特征提取，得到相应的样本特征。

步骤807：对得到的样本特征进行聚类处理，以得到至少两个类别的类中心特征。

对得到的样本特征进行聚类处理，以得到至少两个类别的类中心特征。具体地，对得到的样本特征进行聚类处理，比如可以采用K-Means算法，得到对应各类别的样本特征；从对应各类别的样本特征中，选取目标数量的类中心特征，比如可以选取样本特征聚类后样本最集中的K个聚类中心，作为目标数量的类中心特征。

步骤808：通过噪声识别模型的特征提取层，对图像训练样本进行特征提取，得到图像训练样本的特征。

这里，通过噪声识别模型的特征提取层，对全部的图像训练样本进行特征提取，得到图像训练样本的特征。

步骤809：分别确定图像训练样本的特征与各类中心特征的余弦距离。

步骤810：从至少两个类别的类中心特征中，确定对应最大余弦距离的目标类中心特征。

步骤811：基于图像训练样本的特征、以及目标类中心特征，确定图像训练样本归属于噪声样本的概率。

基于图像训练样本的特征、以及目标类中心特征，采用以下公式确定图像训练样本归属于噪声样本的概率：

其中，a为图像训练样本的特征，b为目标类中心特征，w_k为目标类中心特征的权重，W为图像训练样本归属于噪声样本的概率。

步骤601：在所有图像训练样本中选择目标比例的参考样本；

步骤602：通过对参考样本进行特征提取，得到样本特征；

步骤603：对样本特征进行聚类处理，选取得到类中心特征；

步骤812：以概率作为图像训练样本的权重，对图像训练样本进行加权处理，得到加权后的图像训练样本。

步骤813：采用加权后的图像训练样本训练图像分类模型，直至完成第二阶段的训练。

L_w＝wL_class；

其中，w为加权后的图像训练样本的权重。

这里，第二阶段训练指的是基于加权后的图像训练样本训练图像分类模型。参加图7，图7是本发明实施例提供的图像分类模型的训练方法的流程示意图图，包括：

步骤701：采用全量图像训练样本进行第一阶段训练；

步骤708：输出完成第二阶段训练的图像分类模型。

在实际应用中，完成第二阶段训练的图像分类模型可用于对待分类图像进行分类预测。

步骤814：终端发送针对待分类图像的分类指令。

步骤815：服务器响应于该分类指令，通过完成第二阶段训练的图像分类模型，对待分类对象进行分类预测，得到相应的分类结果并返回给终端。

参见图9，图9是本发明实施例提供的图像分类模型应用于服装图像分类的示意图。该图像分类模型为服装图像的分类模型，比如衬衫、T-shirt、内衣打底等，用户可将服装图像导入前端终端，前端终端上传至后台服务器，后台服务器通过完成第二阶段训练的图像分类模型，对接收的服装图像进行分类识别，得到相应的分类结果，比如用户输入的服装图像归属于内衣打底类。

下面继续说明本发明实施例提供的图像分类模型的训练装置355，在一些实施例中，图像分类模型的训练装置可采用软件模块的方式实现。参见图10，图10是本发明实施例提供的图像分类模型的训练装置355的结构示意图，本发明实施例提供的图像分类模型的训练装置355包括：

检测模块3551，用于采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检测，以确定所述图像分类模型的准确度；

噪声识别模块3552，用于基于所述准确度确定所述图像分类模型的图像训练样本满足噪声识别的触发条件时，通过噪声识别模型，对所述图像分类模型的图像训练样本进行噪声识别，得到所述图像训练样本归属于噪声样本的概率；

加权模块3553，用于以所述概率作为所述图像训练样本的权重，对所述图像训练样本进行加权处理，得到加权后的图像训练样本；

训练模块3554，用于采用所述加权后的图像训练样本训练所述图像分类模型，直至完成第二阶段的训练。

在一些实施例中，所述装置还包括：

在一些实施例中，所述确定模块，还用于在所述第一阶段训练的过程中，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度；

在一些实施例中，所述噪声识别模块3552，还用于通过所述噪声识别模型的特征提取层，对所述图像训练样本进行特征提取，得到所述图像训练样本的特征；

在一些实施例中，所述噪声识别模块3552，还用于从所述图像分类模型的多个图像训练样本中，依据所述图像训练样本所对应的至少两个类别，选取目标比例的图像训练样本；

在一些实施例中，所述噪声识别模块3552，还用于分别确定所述图像训练样本的特征与各所述类中心特征的余弦距离；

在一些实施例中，所述噪声识别模块3552，还用于基于所述图像训练样本的特征、以及所述目标类中心特征，采用以下公式确定所述图像训练样本归属于噪声样本的概率：

在一些实施例中，所述训练模块3554，还用于通过所述图像分类模型，对所述加权后的图像训练样本进行分类预测，得到相应的预测结果；

在一些实施例中，所述检测模块3551，还用于通过完成第一阶段训练的图像分类模型，对所述图像测试样本进行分类预测，得到相应的分类结果；

本发明实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述图像分类模型的准确度与准确度阈值进行比较，得到比较结果；

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一阶段训练的过程中，获取完成本轮训练的图像分类模型所对应的第一准确度、以及完成上一轮训练的图像分类模型所对应的第二准确度；

4.如权利要求1所述的方法，其特征在于，所述通过噪声识别模型，对所述图像分类模型的图像训练样本进行噪声识别，得到所述图像训练样本归属于噪声样本的概率，包括：

通过所述噪声识别模型的特征提取层，对所述图像训练样本进行特征提取，得到所述图像训练样本的特征；

5.如权利要求4所述的方法，其特征在于，所述获取所述图像训练样本所对应的至少两个类别的类中心特征，包括：

从所述图像分类模型的多个图像训练样本中，依据所述图像训练样本所对应的至少两个类别，选取目标比例的图像训练样本；

6.如权利要求4所述的方法，其特征在于，所述基于所述图像训练样本的特征、以及所述至少两个类别的类中心特征，通过所述噪声识别模型的噪声识别层进行噪声识别，得到所述图像训练样本归属于噪声样本的概率，包括：

分别确定所述图像训练样本的特征与各所述类中心特征的余弦距离；

7.如权利要求6所述的方法，其特征在于，所述基于所述图像训练样本的特征、以及所述目标类中心特征，确定所述图像训练样本归属于噪声样本的概率，包括：

基于所述图像训练样本的特征、以及所述目标类中心特征，采用以下公式确定所述图像训练样本归属于噪声样本的概率：

8.如权利要求1所述的方法，其特征在于，所述采用所述加权后的图像训练样本训练所述图像分类模型，包括：

通过所述图像分类模型，对所述加权后的图像训练样本进行分类预测，得到相应的预测结果；

9.如权利要求1所述的方法，其特征在于，所述采用图像测试样本，对完成第一阶段训练的图像分类模型进行准确度检验，以确定所述图像分类模型的准确度，包括：

通过完成第一阶段训练的图像分类模型，对所述图像测试样本进行分类预测，得到相应的分类结果；

10.一种图像分类模型的训练装置，其特征在于，所述装置包括：