CN109447146A

CN109447146A - 分类优化方法及装置

Info

Publication number: CN109447146A
Application number: CN201811243820.8A
Authority: CN
Inventors: 苏灿平; 余清洲; 许清泉; 洪炜冬; 张伟
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-08

Abstract

本申请实施例提供一种分类优化方法及装置，该方法包括：对预先构建的神经网络进行初始化处理，构建参数矩阵，利用参数矩阵对神经网络中的分类层参数进行正交初始化处理；将训练图像导入至所述神经网络，获得训练图像经过网络层后输出的特征向量；根据参数矩阵及特征向量计算得到损失函数；根据该损失函数对各网络层对应的网络层权值以及分类层对应的分类层权值进行梯度计算以更新网络层权值及分类层权值；根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。该分类优化方案增加了类别参数之间的相互正交的约束，促使不同类别相对独立，使得神经网络模型更具判别性。

Description

分类优化方法及装置

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种分类优化方法及装置。

背景技术

多分类问题是实际应用场景中常见的问题之一。在深度神经网络中，Softmax是最常被使用的损失函数。这是因为，Softmax具有结构简单和梯度运算高效等特点。但是许多研究已经表明，仅仅采用Softmax损失函数监督网络模型进行训练时，得到的特征判别性不足。切确地说，在图像比较相似时，网络对图像的分类容易出错。这主要是因为，Softmax仅对类间距离做了优化，未收缩类内样本的距离。

现有方案中有基于Softmax的改进方法和基于多元组的Contrastive(二元组)和Triplet(三元组)方法以用于解决上述问题。但是，基于Softmax损失的改进方法主要关注于加性间距，如AM-Softmax，但都未对类别中心进行约束，而是随模型训练进行动态学习。而多元组方法虽然对样本间的距离做约束，但高质量的样本对存在生成困难的问题，且梯度更新运算较为复杂。

发明内容

有鉴于此，本申请的目的在于，提供一种分类优化方法及装置以改善上述问题。

本申请实施例提供一种分类优化方法，所述方法包括：

对预先建立的神经网络进行初始化处理，所述神经网络包括分类层及多个网络层；

构建参数矩阵，利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理，所述参数矩阵包括所述分类层的分类层权值，且所述参数矩阵中各个行向量两两正交；

将训练图像导入至所述神经网络，获得所述训练图像经过所述网络层后输出的特征向量；

根据所述参数矩阵及所述特征向量计算得到损失函数；

根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值；

根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。

可选地，所述分类层包括多个类别参数，所述构建参数矩阵，利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理的步骤，包括：

根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵，所述参数矩阵中各行类别参数之间两两正交；

根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。

可选地，所述将训练图像导入至所述神经网络，获得所述训练图像经过所述网络层后输出的特征向量的步骤，包括：

将训练图像导入至所述神经网络，对所述训练图像进行特征提取；

将提取到的特征与所述网络层对应的网络层权值进行矩阵计算；

对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。

可选地，所述根据所述参数矩阵及所述特征向量计算得到损失函数的步骤，包括：

根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数；

根据所述初始函数及所述分类层权值计算得到损失函数。

可选地，所述根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数的步骤，包括：

根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数并按以下公式计算得到初始函数：

其中，Loss_softmax为初始函数，W_FCclass为所述分类层的参数矩阵，M为训练图像的个数，K为所述分类层的类别数，f_i为第i个训练图像经过所述网络层后输出的特征向量，f_j为第j个训练图像经过所述网络层后输出的特征向量，y_i为第i个训练图像对应的类别，为第i个训练图像对应的分类层权值。

可选地，所述根据所述初始函数及所述分类层权值计算得到损失函数的步骤，包括：

根据所述初始函数及所述分类层权值并按以下公式计算得到初始函数：

Loss＝Loss_so_ftmax+λ||W^T _FCclassW_FCclass-I||

其中，Loss为损失函数，λ为固定常数，W^T _FCclass为所述分类层的参数矩阵的转置矩阵，I为单位矩阵。

本申请实施例还提供一种分类优化装置，所述装置包括：

初始化处理模块，用于对预先建立的神经网络进行初始化处理，所述神经网络包括分类层及多个网络层；

构建模块，用于构建参数矩阵，利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理，所述参数矩阵包括所述分类层的分类层权值，且所述参数矩阵中各个行向量两两正交；

特征向量获取模块，用于将训练图像导入至所述神经网络，获得所述训练图像经过所述网络层后输出的特征向量；

计算模块，用于根据所述参数矩阵及所述特征向量计算得到损失函数；

更新模块，用于根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值；

训练模块，用于根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。

可选地，所述分类层包括多个类别参数，所述构建模块包括：

构建单元，用于根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵，所述参数矩阵中各行类别参数之间两两正交；

初始化单元，用于根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。

可选地，所述特征向量获取模块包括：

提取单元，用于将训练图像导入至所述神经网络，对所述训练图像进行特征提取；

矩阵计算单元，用于将提取到的特征与所述网络层对应的网络层权值进行矩阵计算；

归一化处理单元，用于对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。

可选地，所述计算模块包括：

第一计算单元，用于根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数；

第二计算单元，用于根据所述初始函数及所述分类层权值计算得到损失函数。

本申请实施例提供的分类优化方法及装置，通过构建内部行向量两两正交的参数矩阵以对神经网络中的分类层参数进行正交初始化处理，利用参数矩阵及训练图像的特征向量计算损失函数，并根据计算得到的损失函数对网络层权值进行梯度计算以更新网络层权值。后续利用更新后的神经网络对输入图像进行训练。该分类优化方案增加了类别参数之间的相互正交的约束，促使不同类别相对独立，使得神经网络模型更具判别性。并且，该方案相对现有技术而言，未引入额外的超参数，训练过程更加简单。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构框图。

图2为本申请实施例提供的分类优化方法的流程图。

图3为图2中步骤S130的子步骤的流程图。

图4为图2中步骤S140的子步骤的流程图。

图5为本申请实施例提供的分类优化装置的功能模块框图。

图6为本申请实施例提供的构建模块的功能模块框图。

图7为本申请实施例提供的特征向量获取模块的功能模块框图。

图8为本申请实施例提供的计算模块的功能模块框图。

图标：100-电子设备；110-分类优化装置；111-初始化处理模块；112-构建模块；1121-构建单元；1122-初始化单元；113-特征向量获取模块；1131-提取单元；1132-矩阵计算单元；1133-归一化处理单元；114-计算模块；1141-第一计算单元；1142-第二计算单元；115-更新模块；116-训练模块；120-处理器；130-存储器。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，本发明实施例提供了一种电子设备100，所述电子设备100包括存储器130、处理器120和分类优化装置110。

所述存储器130和处理器120之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述分类优化装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器130中的软件功能模块。所述处理器120用于执行所述存储器130中存储的可执行的计算机程序，例如，所述分类优化装置110所包括的软件功能模块及计算机程序等，以实现分类优化方法。

其中，所述存储器130可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器130用于存储程序，所述处理器120在接收到执行指令后，执行所述程序。

所述处理器120可能是一种集成电路芯片，具有信号的处理能力。上述的处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器120也可以是任何常规的处理器等。

可以理解，图1所示的结构仅为示意，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

可选地，所述电子设备100的具体类型不受限制，例如，可以是，但不限于，个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)、web(网站)服务器、数据服务器等具有处理功能的设备。

结合图2，本发明实施例还提供一种可应用于上述电子设备100的分类优化方法。其中，所述方法有关的流程所定义的方法步骤可以由所述处理器120实现。下面将对图2所示的具体流程进行详细阐述。

步骤S110，对预先建立的神经网络进行初始化处理，所述神经网络包括分类层及多个网络层。

步骤S120，构建参数矩阵，利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理，所述参数矩阵包括所述分类层的分类层权值，且所述参数矩阵中各个行向量两两正交。

为了提高原始Softmax的判别性，本实施例对深度神经网络的最后一层，即分类层作出改进。分类层中，每一个类别的参数可以理解成是在维护该类别的一个类中心。原始的Softmax未对各个类的类中心之间做约束，任其动态调节，这导致某些类之间的中心可能相距较近，导致模型在某些样本上难以区分。

可选地，本实施例中，可对预先建立的神经网络进行初始化处理，该初始化处理过程可为随机性的初始化。可预先构建参数矩阵，其中，所述参数矩阵包括所述分类层的分类层权值，而分类层中的类别参数与分类层权值对应，可选地，每个类的类别参数对应于分类层中的一个与前一层节点数一致的分类层权值。所述参数矩阵中各个行向量之间两两正交。

利用构建的所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理，如此，神经网络中的分类层在经过正交初始化处理之后，分类层中每个类的类别参数之间两两正交。

在本实施例中，上述步骤可通过以下过程实现：

根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵，其中，所述参数矩阵中各行类别参数之间两两正交。根据所述参数矩阵对所述神经网络包括的分类层参数进行正交初始化处理。

步骤S130，将训练图像导入至所述神经网络，获得所述训练图像经过所述网络层后输出的特征向量。

在完成对神经网络的正交初始化处理之后，将获得的训练图像导入至经过所述神经网络，通过网络层训练可得到训练图像的特征向量。

请参阅图3，在本实施例中，步骤S130可以包括步骤S131、步骤S132以及步骤S133三个子步骤。

步骤S131，将训练图像导入至所述神经网络，对所述训练图像进行特征提取。

步骤S132，将提取到的特征与所述网络层对应的网络层权值进行矩阵计算。

步骤S133，对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。

步骤S140，根据所述参数矩阵及所述特征向量计算得到损失函数。

由上述可知，原始的Softmax未对各个类的类中心之间做约束，任其动态调节，这导致某些类之间的中心可能相距较近，导致模型在某些样本上难以区分。因此，在本实施例中，根据上述构建的参数矩阵及得到的所述特征向量以计算得到损失函数。

可选地，请参阅图4，在本实施例中，步骤S140包括步骤S141及步骤S142。

步骤S141，根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数。

步骤S142，根据所述初始函数及所述分类层权值计算得到损失函数。

在本实施例中，首先计算得到初始函数，在初始函数的基础上考虑类别参数之间的约束条件，将各个类别参数维护的类中心的距离约束在正交状态，使得后续训练得到的特征更具有区分度。

可选地，本实施例中，根据所述参数矩阵、所述特征向量以及所述训练图像的数量按以下公式计算得到初始函数：

在获得初始函数之后，根据所述初始函数及所述分类层权值并按以下公式计算得到损失函数：

Loss＝Loss_softmax+λ||W^T _FCclassW_FCclass-I||

步骤S150，根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值。

步骤S160，根据更新网络层权值和分类层权值后的神经网络对输入图像进行训练。

本实施例中，利用计算得到的损失函数对各个网络层权值及分类层权值进行梯度计算，从而利用权值更新公式更新网络层权值及分类层权值。其中，权值更新公式可采用现有技术中的常用公式，本实施例不作赘述。在对权值进行更新时，由于加入了分类层权值正交化约束，则每个类别的类中心受到约束。

如此，后续在根据更新网络层权值和分类层权值后的神经网络对输入图像进行训练时，输入图像不断向对应类中心靠拢从而达到收缩类内距离的目的。而若未对类中心进行约束，类中心之间可能存在距离较近的现象，即使输入图像不断向类中心靠拢，也会出现由于类中心较近而不易被区分的问题。

请参阅图5，本申请实施例还提供一种应用于上述电子设备100的分类优化装置110，所述装置包括初始化处理模块111、构建模块112、特征向量获取模块113、计算模块114、更新模块115以及训练模块116。

所述初始化处理模块111用于对预先建立的神经网络进行初始化处理，所述神经网络包括分类层及多个网络层。在本实施例中，关于初始化处理模块111的描述具体可参考对图2所示的步骤S110的详细描述，即步骤S110可以由初始化处理模块111执行。

所述构建模块112，用于构建参数矩阵，利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理，所述参数矩阵包括所述分类层的分类层权值，且所述参数矩阵中各个行向量两两正交。在本实施例中，关于构建模块112的描述具体可参考对图2所示的步骤S120的详细描述，即步骤S120可以由构建模块112执行。

所述特征向量获取模块113，用于将训练图像导入至所述神经网络，获得所述训练图像经过所述网络层后输出的特征向量。在本实施例中，关于特征向量获取模块113的描述具体可参考对图2所示的步骤S130的详细描述，即步骤S130可以由特征向量获取模块113执行。

所述计算模块114，用于根据所述参数矩阵及所述特征向量计算得到损失函数。在本实施例中，关于计算模块114的描述具体可参考对图2所示的步骤S140的详细描述，即步骤S140可以由计算模块114执行。

所述更新模块115，用于根据所述损失函数对各所述网络层对应的网络层权值以及所述分类层对应的分类层权值进行梯度计算以更新所述网络层权值及所述分类层权值。在本实施例中，关于更新模块115的描述具体可参考对图2所示的步骤S150的详细描述，即步骤S150可以由更新模块115执行。

所述训练模块116，用于根据更新网络层权值及分类层权值后的神经网络对输入图像进行训练。在本实施例中，关于训练模块116的描述具体可参考对图2所示的步骤S160的详细描述，即步骤S160可以由训练模块116执行。

可选地，请参阅图6，所述分类层包括多个类别参数，所述构建模块112包括构建单元1121及初始化单元1122。

所述构建单元1121，用于根据所述分类层中的类别参数的个数以及各类别参数的维度数构建参数矩阵，所述参数矩阵中各行类别参数之间两两正交。

所述初始化单元1122，用于根据所述参数矩阵对所述神经网络包含的分类层参数进行正交初始化处理。

可选地，请参阅图7，所述特征向量获取模块113包括提取单元1131、矩阵计算单元1132及归一化处理单元1133。

所述提取单元1131，用于将训练图像导入至所述神经网络，对所述训练图像进行特征提取。在本实施例中，关于提取单元1131的描述具体可参考对图3所示的步骤S131的详细描述，即步骤S131可以由提取单元1131执行。

所述矩阵计算单元1132，用于将提取到的特征与所述网络层对应的网络层权值进行矩阵计算。在本实施例中，关于矩阵计算单元1132的描述具体可参考对图3所示的步骤S132的详细描述，即步骤S132可以由矩阵计算单元1132执行。

所述归一化处理单元1133，用于对得到的矩阵计算结果进行归一化处理以得到所述训练图像经过所述网络层后输出的特征向量。在本实施例中，关于归一化处理单元1133的描述具体可参考对图3所示的步骤S133的详细描述，即步骤S133可以由归一化处理单元1133执行。

可选地，请参阅图8，所述计算模块114包括第一计算单元1141及第二计算单元1142。

所述第一计算单元1141，用于根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数。在本实施例中，关于第一计算单元1141的描述具体可参考对图4所示的步骤S141的详细描述，即步骤S141可以由第一计算单元1141执行。

所述第二计算单元1142，用于根据所述初始函数及所述分类层权值计算得到损失函数。在本实施例中，关于第二计算单元1142的描述具体可参考对图4所示的步骤S142的详细描述，即步骤S142可以由第二计算单元1142执行。

综上所述，本申请实施例提供的分类优化方法及装置，通过构建内部行向量两两正交的参数矩阵以对神经网络进行正交初始化处理，利用参数矩阵及训练图像的特征向量计算损失函数，并根据计算得到的损失函数对网络层权值进行梯度计算以更新网络层权值。后续利用更新后的神经网络对输入图像进行训练。该分类优化方案增加了类别参数之间的相互正交的约束，促使不同类别相对独立，使得神经网络模型更具判别性。并且，该方案相对现有技术而言，未引入额外的超参数，训练过程更加简单。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种分类优化方法，其特征在于，所述方法包括：

根据所述参数矩阵及所述特征向量计算得到损失函数；

2.根据权利要求1所述的分类优化方法，其特征在于，所述分类层包括多个类别参数，所述构建参数矩阵，利用所述参数矩阵对所述神经网络中的分类层参数进行正交初始化处理的步骤，包括：

3.根据权利要求1所述的分类优化方法，其特征在于，所述将训练图像导入至所述神经网络，获得所述训练图像经过所述网络层后输出的特征向量的步骤，包括：

4.根据权利要求1所述的分类优化方法，其特征在于，所述根据所述参数矩阵及所述特征向量计算得到损失函数的步骤，包括：

根据所述初始函数及所述分类层权值计算得到损失函数。

5.根据权利要求4所述的分类优化方法，其特征在于，所述根据所述参数矩阵、所述特征向量以及所述训练图像的数量计算得到初始函数的步骤，包括：

根据所述参数矩阵、所述特征向量以及所述训练图像的数量按以下公式计算得到初始函数：

6.根据权利要求5所述的分类优化方法，其特征在于，所述根据所述初始函数及所述分类层权值计算得到损失函数的步骤，包括：

根据所述初始函数及所述分类层权值并按以下公式计算得到损失函数：

Loss＝Loss_softmax+λ||W^T _FCclassW_FCclass-I||

7.一种分类优化装置，其特征在于，所述装置包括：

8.根据权利要求7所述的分类优化装置，其特征在于，所述分类层包括多个类别参数，所述构建模块包括：

9.根据权利要求7所述的分类优化装置，其特征在于，所述特征向量获取模块包括：

10.根据权利要求7所述的分类优化装置，其特征在于，所述计算模块包括：