CN110633725B

CN110633725B - 训练分类模型的方法和装置以及分类方法和装置

Info

Publication number: CN110633725B
Application number: CN201810663447.5A
Authority: CN
Inventors: 庞占中; 于小亿; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2023-08-04
Anticipated expiration: 2038-06-25
Also published as: US20190392260A1; JP7222319B2; EP3588381A1; JP2020004406A; CN110633725A; US10902296B2

Abstract

公开了一种训练分类模型的方法和装置以及分类方法和装置。一种分类方法包括：从输入到经训练的分类模型的待测试信息中提取特征；将所提取的特征压缩成能够表征待测试信息的低维度的隐特征；对隐特征进行解压缩，从而得到解压缩后的特征；基于解压缩后的特征对待测试信息进行重建，以得到重建后的待测试信息；基于待测试信息与重建后的待测试信息之间的重建损失，判断待测试信息是属于已知类别还是属于未知类别；以及在确定待测试信息属于已知类别的情况下，经由经训练的分类模型，对待测试信息进行分类。

Description

训练分类模型的方法和装置以及分类方法和装置

技术领域

本公开涉及信息处理领域，具体涉及能够获得快速并准确地对待测试信息进行分类的分类模型的训练分类模型的方法和装置、以及能够快速并准确地对待测试信息进行分类的分类预测方法和装置。

背景技术

当前，通常是在一个闭集上进行分类任务，即，假设拥有完备的训练数据以应对实际测试中出现的每一个待测类。但通常情况下，并不具备足够的先验知识，因此在测试过程中如果出现未包含在训练集中的未知类，不仅无法将其检测出来，还会将其错误地分类到已知类中。例如，在古文识别中，由于古文的种类繁多且数据量庞大，加之每类又经常有很多变体，所以很难搜集到所有类别的古文数据。因此，在古文识别中，经常会碰到出现未知类的情况。此时，整个分类任务不仅要能正确识别出已知类别，还要对于出现的未知类别能够加以辨别。而这类问题，正是开放集背景下要解决的问题。

目前，对于开放集问题已经提出来很多种解决方法，例如基于聚类方法，基于半监督学习的分类，以及基于统计学理论的方法。而基于重建误差的识别是最流行也是准确率较高的技术之一。该算法背后的主要思想是搭建重建网络。该网络经过训练，可在给定输入时压缩并重建输入样本。所以重建效果越好，重建误差越小。当来自未知类的数据出现时，它应该产生大于事先选择的误差阈值，而对于来自已知类的数据，误差会小得多。

尽管如此，来自已知类和未知类的一些数据经常会相互混淆并且难以被正确识别。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练分类模型的方法和装置以及分类方法和装置。

根据本公开的一方面，提供了一种训练分类模型的方法，包括：样本处理步骤、重建损失计算步骤、类间损失计算步骤和获得分类模型步骤。在样本处理步骤中，针对训练集中的每个样本分别进行以下处理：从样本中提取特征；将所提取的特征压缩成能够表征样本的低维度的隐特征；对隐特征进行解压缩，从而得到解压缩后的特征；以及基于解压缩后的特征对样本进行重建，以得到重建后的样本。在重建损失计算步骤中，基于隐特征，针对训练集中的所有样本计算重建损失；在类间损失计算步骤中，针对训练集中的所有样本，计算表明不同的类别的样本之间的分离程度的类间损失；以及在获得分类模型步骤中，通过使包括重建损失和类间损失的损失函数最小，获得训练完成的分类模型。

根据本公开的另一方面，提供了一种分类方法，包括：提取步骤，从输入到经训练的分类模型的待测试信息中提取特征；压缩步骤，将所提取的特征压缩成能够表征待测试信息的低维度的隐特征；解压缩步骤，对隐特征进行解压缩，从而得到解压缩后的特征；重建步骤，基于解压缩后的特征对待测试信息进行重建，以得到重建后的待测试信息；判断步骤，基于待测试信息与重建后的待测试信息之间的重建损失，判断待测试信息是属于已知类别还是属于未知类别；以及分类步骤，在确定待测试信息属于已知类别的情况下，经由经训练的分类模型，对待测试信息进行分类。

根据本公开的又一方面，提供了一种分类装置，包括：提取单元，被配置成从输入到经训练的分类模型的待测试信息中提取特征；压缩单元，被配置成将所提取的特征压缩成能够表征待测试信息的低维度的隐特征；解压缩单元，被配置成对隐特征进行解压缩，从而得到解压缩后的特征；重建单元，被配置成基于解压缩后的特征对待测试信息进行重建，以得到重建后的待测试信息；判断单元，被配置成基于待测试信息与重建后的待测试信息之间的重建损失，判断待测试信息是属于已知类别还是属于未知类别；以及分类单元，被配置成在确定待测试信息属于已知类别的情况下，经由经训练的分类模型，对待测试信息进行分类。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品，以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开实施例的训练分类模型的方法的流程示例的流程图；

图2A和2B示意性地示出在损失函数包括中心损失和类间损失、以及损失函数不包括中心损失和类间损失的情况下，属于不同类的隐特征的分布图；

图3是示出根据本公开实施例的训练分类模型的装置的功能配置示例的框图；

图4是示出根据本公开实施例的分类方法的流程示例的流程图；

图5A和5B是示出利用变分自动编码器对隐特征进行重建的示例图；

图6是示出根据本公开实施例的分类装置的功能配置示例的框图；以及

图7是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开实施例的训练分类模型的方法100的流程示例。图1是示出根据本公开实施例的训练分类模型的方法100的流程示例的流程图。如图1所示，根据本公开实施例的训练分类模型的方法100包括样本处理步骤S101、重建损失计算步骤S102、类间损失计算步骤S103以及获得分类模型步骤S104。

根据本公开实施例的训练分类模型的方法100在S100处开始。

在样本处理步骤S101中，可以针对训练集中的每个样本分别进行以下处理：从样本中提取特征；将所提取的特征压缩成能够表征样本的低维度的隐特征；对隐特征进行解压缩，从而得到解压缩后的特征；以及基于解压缩后的特征对样本进行重建，以得到重建后的样本。

作为示例，样本可以是文字或其他常用图片，假设用x表示样本。例如，可以使用卷积层、考虑像素的空间相关性信息而提取每个样本x的特征，所提取的特征通常是高维度的特征。因此，例如，在根据本公开实施例的训练分类模型的方法100中，可以考虑像素之间的空间相关性信息而提取样本的特征。

可以将从每个样本x提取的高维度的特征压缩成能够表征样本x的低维度的隐特征z。用低维度的隐特征来表征样本可以加快对分类模型的训练。

可以对隐特征z进行解压缩，从而得到解压缩后的特征。

可以基于解压缩后的特征对样本x进行重建，以得到重建后的样本x’。

作为示例，根据变分自动编码器(VAE)，假定样本是由具有某种后验分布的隐特征控制生成的，并尝试用上述压缩处理(可以称为编码器)学习给定输入样本x下隐特征的后验分布p(z|x)，并从上述解压缩处理(可以称为解码器)学习得到似然分布p(x|z)来重建输入的样本x。由于重建过程遵循其在编码器中的后验分布，所以具有更好的泛化性能，并且可以比普通自动编码器更精确地重建样本，特别是当隐特征的维度非常低时，可以比普通自动编码器更精确地重建样本。

在重建损失计算步骤S102中，可以基于隐特征，针对训练集中的所有样本计算重建损失。

优选地，重建损失可以包括表明每个样本x与其重建后的样本x’之间的差别的生成损失以及表明隐特征z的分布与特定分布之间的匹配程度的隐损失。

作为示例，生成损失可以衡量重建过程的准确程度，隐损失可以衡量隐特征与特定分布之间的匹配程度。

假设训练集中一共有N个样本，生成损失Lg可以表示为：

在表达式(1)中，x_i和x_i’分别表示第i个样本和其重建后的样本，其中，i＝1,2,…,N。

假设所述特定分布为单位高斯分布N(0，1)，即假设隐特征z大致遵循单位高斯分布，则隐损失可以表示为：

Ll＝KL(p(z|x)，N(0，1)) (2)

在表达式(2)中，N(0,1)是单位高斯分布的概率密度函数，KL()表示KL距离。

重建损失Lvae可以如表达式(3)所示：

Lvae＝Lg+Ll (3)

在类间损失计算步骤S103中，针对训练集中的所有样本，计算表明不同的类别的样本之间的分离程度的类间损失。

优选地，在类间损失计算步骤S103中，可以基于每个样本的隐特征计算softmax损失，作为类间损失。

为了使得不同类之间的差异尽量大，即，尽可能地将不同类别的特征分开，可以基于每个样本的隐特征计算softmax损失Ls：

在表达式(4)中，z_i是第i(i＝1,2,…,N)个样本的隐特征，m是已知类别的数量，W_yi和b_yi分别表示与隐特征z所属的类y_i所对应的分类模型参数，W_j和b_j(j＝1,2,…,m)分别表示与m个已知类别中的第j个类别所对应的分类模型参数。

除了softmax损失之外，本领域技术人员还可以容易想到类间损失的其他计算方式，在此不再累述。

在获得分类模型步骤S104中，通过使包括重建损失和类间损失的损失函数最小，获得训练完成的分类模型。

作为示例，在获得分类模型步骤S104中，设定损失函数L包括重建损失Lvae和类间损失Ls，则损失函数L可以表示为：

L＝Lvae+λLs (5)

在表达式(5)中，λ是元参数，本领域技术人员可以根据经验预先确定λ。

对于训练集中的所有样本，通过使损失函数L最小化，可以确定分类模型中的参数，即可以获得训练完成的分类模型。

根据本公开实施例的训练分类模型的方法100在S105处结束。

由上可知，在根据本公开实施例的训练分类模型的方法100中，使用低维度的隐特征来表征样本可以加快对分类模型的训练；另外，由于损失函数包括有助于增大不同类之间差异的类间损失，因此，训练完成的分类模型可以更精确地对待测试信息进行分类。

优选地，根据本公开实施例的训练分类模型的方法100还可以包括中心损失计算步骤，用于计算表明每个样本的隐特征与该样本所属的类的中心隐特征之间的距离的中心损失，其中，损失函数还包括中心损失。

作为示例，为了使得属于同一个类的隐特征的差异小，即为了使来自同一类的特征更聚集，在中心损失计算步骤中计算中心损失Lc：

在表达式(6)中，z_i是第i个样本的隐特征，c_yi是z_i所属的第y_i类的隐特征中心向量，其中，i＝1,2,…,N。

在计算出中心损失之后，包括中心损失Lc的损失函数L可以表示为：

在表达式(7)中，λ₁和λ₂是元参数，本领域技术人员可以根据经验预先确定λ₁和λ₂。

对于训练集中的所有样本，通过使表达式(7)中的损失函数L最小化，可以确定分类模型中的参数，可以获得训练完成的分类模型。

图2A和2B分别示意性地示出在损失函数包括中心损失和类间损失、以及损失函数不包括中心损失和类间损失的情况下，属于不同类的隐特征的分布图。在图2A和2B中，为了简单并且为了清楚地示出隐特征的分布图，假设隐特征为具有维度1和维度2的二维向量。

图2A是在损失函数L中没有包括中心损失Lc和类间损失Lvae的情况下，隐特征的分布图；而图2B是在损失函数L中包括了中心损失Lc和类间损失Ls的情况下，隐特征的分布图。由图2A和2B可见，与在损失函数L中没有包括中心损失Lc和类间损失Ls的情况下隐特征的分布相比，在损失函数L中包括了中心损失Lc和类间损失Ls的情况下，属于同一类的隐特征更聚集，并且属于不同类的隐特征更加分离。

由上可知，在根据本公开实施例的训练分类模型的方法100中，由于损失函数除了类间损失之外还可以包括中心损失，因此，可以在增大不同类之间差异的同时、减少类内的差异，因此，训练完成的分类模型可以更精确地对待测试信息进行分类。

与上述训练分类模型的方法实施例相对应地，本公开还提供了以下训练分类模型的装置的实施例。

图3是示出根据本公开实施例的训练分类模型的装置300的功能配置示例的框图。

如图3所示，根据本公开实施例的训练分类模型的装置300可以包括样本处理单元301、重建损失计算单元302、类间损失计算单元303以及获得分类模型单元304。接下来将描述样本处理单元301、重建损失计算单元302、类间损失计算单元303以及获得分类模型单元304的功能配置示例。

在样本处理单元301中，可以针对训练集中的每个样本分别进行以下处理：从样本中提取特征；将所提取的特征压缩成能够表征样本的低维度的隐特征；对隐特征进行解压缩，从而得到解压缩后的特征；以及基于解压缩后的特征对样本进行重建，以得到重建后的样本。

有关对训练集中的每个样本进行的处理的具体示例可以参见以上方法实施例中相应部分例如关于图1的样本处理步骤S101的描述，在此不再重复。

在重建损失计算单元302中，可以基于隐特征，针对训练集中的所有样本计算重建损失。

优选地，重建损失可以包括表明每个样本与其重建后的样本之间的差别的生成损失以及表明隐特征的分布与特定分布之间的匹配程度的隐损失。

有关重建损失的具体示例可以参见以上方法实施例中相应部分例如关于图1的重建损失计算步骤S102的描述，在此不再重复。

在类间损失计算单元303中，针对训练集中的所有样本，计算表明不同的类别的样本之间的分离程度的类间损失。

优选地，在类间损失计算单元303中，可以基于每个样本的隐特征计算softmax损失，作为类间损失。

有关类间损失的具体示例可以参见以上方法实施例中相应部分例如关于图1的类间损失计算步骤S103的描述，在此不再重复。

在获得分类模型单元304中，通过使包括重建损失和类间损失的损失函数最小，获得训练完成的分类模型。

对于训练集中的所有样本，通过使包括重建损失和类间损失的损失函数最小化，可以确定分类模型中的参数，即可以获得训练完成的分类模型。

由上可知，在根据本公开实施例的训练分类模型的装置300中，使用低维度的隐特征来表征样本可以加快对分类模型的训练；另外，由于损失函数包括有助于增大不同类之间差异的类间损失，因此，训练完成的分类模型可以更精确地对待测试信息进行分类。

优选地，根据本公开实施例的训练分类模型的装置300还可以包括中心损失计算单元，用于计算表明每个样本的隐特征与该样本所属的类的中心隐特征之间的距离的中心损失，其中，损失函数还包括中心损失。

有关中心损失的具体示例可以参见以上方法实施例中相应部分例如关于中心损失计算步骤的描述，在此不再重复。

由上可知，在根据本公开实施例的训练分类模型的装置300中，由于损失函数除了类间损失之外还可以包括中心损失，因此，可以在增大不同类之间差异的同时、减少类内的差异，因此，训练完成的分类模型可以更精确地对待测试信息进行分类。

应指出，尽管以上描述了根据本公开实施例的训练分类模型的装置的功能配置，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的装置实施例是与上述方法实施例相对应的，因此在装置实施例中未详细描述的内容可参见方法实施例中相应部分的描述，在此不再重复描述。

此外，本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述训练分类模型的方法，因此在此未详细描述的内容可参考先前相应部分的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

根据本公开的另一方面，提供了一种分类方法400。根据本公开实施例的分类方法400是一种开放集识别方法，该方法适用于已知类分类和未知类检测，在保证对已知类正确分类的同时能准确地甄别未知类。

将参照图4描述根据本公开实施例的分类方法400的流程示例。图4是示出根据本公开实施例的分类方法400的流程示例的流程图。如图4所示，根据本公开实施例的分类方法400包括提取步骤S401、压缩步骤S402、解压缩步骤S403、重建步骤S404、判断步骤S405以及分类步骤S406。

根据本公开实施例的分类方法400在S400处开始。

在提取步骤S401中，可以从输入到经训练的分类模型的待测试信息中提取特征。

作为示例，待测试信息可以是文字或者其他常用图片。假设用x表示待测试信息。可以使用卷积层、考虑像素的空间相关性信息而提取待测试信息x的特征，所提取的特征通常是高维度的特征。因此，例如，在根据本公开实施例的分类方法400中，可以考虑像素之间的空间相关性信息而提取待测试信息的特征。

在压缩步骤S402中，可以将所提取的特征压缩成能够表征待测试信息的低维度的隐特征z。使用低维度的隐特征来表征待测试信息可以加快分类速度。

在解压缩步骤S403中，可以对隐特征z进行解压缩，从而得到解压缩后的特征。

在重建步骤S404中，可以基于解压缩后的特征对待测试信息x进行重建，以得到重建后的待测试信息x’。

此处需要说明的是，为了方便描述，在根据本公开实施例的训练分类模型的方法100和根据本公开实施例的分类方法400中，都使用了x、x’以及z，然而x、x’以及z所表示的对象在训练分类模型的方法100和分类方法400中是不同的。以x为例，在训练分类模型的方法100，x表示样本，而在分类方法400，x表示待测试信息。

在判断步骤S405中，可以基于待测试信息x与重建后的待测试信息x’之间的重建损失，判断待测试信息是属于已知类别还是属于未知类别。

例示而非限制，可以利用利用变分自动编码器(VAE)基于隐特征进行重建。图5A和5B是示出利用变分自动编码器基于隐特征进行重建的示例图。在图5A和5B中，示出了具有大小为5的隐特征的重建样例。其中，数字0-4为已知类，数字5-9为未知类。图5A为输入，图5B为重建后的输出。从图5A和5B可见，对于已知类(数字0-4)，其重建损失较小，因此VAE模型可以较好地对已知类进行重建；而对于未知类(数字5-9)，其重建损失相对较大，因此重建效果不很理想。

即，在根据本公开实施例的分类方法400中，可以基于重建损失，判断待测试信息是属于已知类别还是属于未知类别。

根据本公开实施例，将已知类别的数据与未知类别的数据进行分离，因而可以保证对已知类正确分类的同时更准确地甄别未知类。

优选地，重建损失可以包括表明待测试信息与重建后的待测试信息之间的差别的生成损失以及表明隐特征的分布与特定分布之间的匹配程度的隐损失。

其中，生成损失Lg_1可以表示为：

Lg_1＝||x-x′||₂ (8)

Ll_1＝KL(p(z|x),N(0,1)) (9)

在表达式(9)中，p(z|x)为给定待测试信息x下隐特征z的后验分布，N(0,1)是单位高斯分布的概率密度函数，KL()表示KL距离。

重建损失Lvae_1可以如表达式(10)所示：

Lvae_1＝Lg_1+Ll_1 (10)

优选地，在判断步骤S405中，在重建损失小于或等于预定阈值的情况下，判断待测试信息属于已知类别，而在重建损失大于预定阈值的情况下，判断待测试信息属于未知类别。要提及的是，上面描述的隐损失有助于对未知类的检测。

例示而非限制，可以根据经验确定预定阈值。

在分类步骤S406中，在确定待测试信息属于已知类别的情况下，可以经由经训练的分类模型，对待测试信息进行分类。

作为示例，在分类步骤S406中，只有在确定待测试信息属于已知类别的情况下，才对待测试信息进行分类。

优选地，在分类模型中使用softmax损失表明不同的已知类别之间的分离程度；在分类步骤S406中，利用隐特征，基于已知类中的每个类来计算softmax损失；以及待测试信息的损失函数包括重建损失和softmax损失。

作为示例，为了使得不同类之间的差异尽量大，即，尽可能地将不同类别的特征分开，在分类模型中使用softmax损失表明不同的已知类别之间的分离程度。

在分类步骤S406中，利用隐特征，基于已知类中的每个类所计算的softmax损失为：

在表达式(11)中，m是已知类别的数量，W_y和b_y分别表示与隐特征z所属的类y所对应的分类模型参数，W_j和b_j(j＝1,2,…,m)分别表示与m个已知类别中的第j个类别所对应的分类模型参数。

通过经训练的分类模型所获得的待测试信息的损失函数可以表示为：

L_1＝Lvae_1+λLs_1 (12)

在表达式(12)中，λ是经训练的分类模型的元参数，本领域技术人员可以根据经验预先确定λ。

在分类步骤S406中，可以根据包括重建损失和softmax损失的待测试信息的损失函数，对待测试信息进行分类。

根据本公开实施例的分类方法400在S407处结束。

由上可知，在根据本公开实施例的分类方法400中，使用低维度的隐特征来表征待测试信息可以加快分类速度；由于仅对属于已知类别的待测试信息进行分类并且分类模型的损失函数包括有助于增大不同类之间差异的类间损失，因此，可以更精确地对待测试信息进行分类；本方法是一种开放集识别方法，该方法适用于已知类分类和未知类检测，将已知类别的数据与未知类别的数据进行分离，从而保证对已知类正确分类并且能准确地甄别未知类。

优选地，在分类步骤S406中，还可以计算表明隐特征与已知类中的每个类的中心隐特征之间的距离的中心损失，以及损失函数还可以包括中心损失。

作为示例，为了使得属于同一个类的隐特征的差异小，即为了使来自同一类的特征更聚集，在分类模型中还计算中心损失。

在分类步骤S406中，表明隐特征与已知类中的每个类的中心隐特征之间的距离的中心损失可以表示为：

在表达式(13)中，c_j是第j(j＝1,2,…,m)个已知类别的隐特征中心向量。

由此，上述损失函数还可以包括中心损失，包括中心损失Lc_1的损失函数可以表示为：

L_1＝Lvae_1+λ₁Lc_1+λ₂Ls_1 (14)

在表达式(14)中，λ₁和λ₂是经训练的分类模型的元参数，本领域技术人员可以根据经验预先确定λ₁和λ₂。

在分类步骤S406中，可以根据除了包括重建损失和softmax损失之外还包括中心损失的损失函数，对待测试信息进行分类。

由上可知，在根据本公开实施例的分类方法400中，由于损失函数除了类间损失之外还可以包括中心损失，因此，可以更精确地对待测试信息进行分类。

下面简单介绍根据本公开实施例的训练分类模型的方法100和根据本公开实施例的分类方法400的实验示例。

我们使用经典的Mnist数据集作为实验数据，其中包含从标签0到标签9的10个类。随机选择6个类，每个类包含4000个实例作为训练集，200个实例作为测试集。为了测试在不同开放度下的性能，我们通过加入不同数量未知类的类别来改变测试数据的开放度，每种未知类的数目都为200。因此，总训练集包含24000个实例，测试集的实例数目从1200到2000不等。

包括开放度Openness、召回率Recall、精确率Precision、F1得分、准确率Accuracy的几个评估标准定义如下：

在以上表达式中，N_TA，N_TG，N_TE分别表示训练集类别、分类类别和测试集类别的数量，TP、FN、FP和TN分别表示真阳性、假阴性、假阳性和真阴性。

为了评估根据本公开实施例的分类方法400的效果，我们计算了不同开放度下的F1得分和准确率，并将实验结果与现有技术中的基于稀疏表示的开放集识别(SROSR)算法进行了比较。在SROSR算法中，在测试期间出现的所有类并不是在训练期间都是已知的，SROSR算法使用类重建误差用于分类。在训练过程中，设定λ₁＝0.1,λ₂＝0.8，隐特征的维度为10。测试结果列于表1中。

表1

从表1可以看出，根据本公开实施例的分类方法400获得了更好的性能。此外，由于SROSR一次只训练一次网络，整个训练过程相当费时和费力，例如，对于上述实验设置，完成整个模型训练需要2天时间。而根据本公开实施例的训练分类模型的方法100，整个训练过程不到一个小时就足够了。

与上述分类方法实施例相对应地，本公开还提供了以下分类装置600的实施例。

图6是示出根据本公开实施例的分类装置600的功能配置示例的框图。

如图6所示，根据本公开实施例的分类装置600包括提取单元601、压缩单元602、解压缩单元603、重建单元604、判断单元605以及分类单元606。接下来将描述提取单元601、压缩单元602、解压缩单元603、重建单元604、判断单元605以及分类单元606的功能配置示例。

在提取单元601中，可以从输入到经训练的分类模型的待测试信息中提取特征。

作为示例，待测试信息可以是文字或者其他常用图片。假设用x表示待测试信息。例如，可以使用卷积层、考虑像素的空间相关性信息而提取待测试信息x的特征，所提取的特征通常是高维度的特征。因此，例如，在根据本公开实施例的分类装置600中，可以考虑像素之间的空间相关性信息而提取待测试信息的特征。

在压缩单元602中，可以将所提取的特征压缩成能够表征待测试信息的低维度的隐特征z。使用低维度的隐特征来表征待测试信息可以加快分类速度。

在解压缩单元603中，可以对隐特征z进行解压缩，从而得到解压缩后的特征。

在重建单元604中，可以基于解压缩后的特征对待测试信息x进行重建，以得到重建后的待测试信息x’。

在判断单元605中，可以基于待测试信息x与重建后的待测试信息x’之间的重建损失，判断待测试信息是属于已知类别还是属于未知类别。

将已知类别的数据与未知类别的数据进行分离，可以保证对已知类正确分类的同时更准确地甄别未知类。

有关重建损失的描述可以参见以上分类方法400实施例中相应部分例如关于图4的判断步骤S405的描述，在此不再重复。

优选地，在判断单元605中，在重建损失小于或等于预定阈值的情况下，判断待测试信息属于已知类别，而在重建损失大于预定阈值的情况下，判断待测试信息属于未知类别。

例示而非限制，可以根据经验确定预定阈值。

在分类单元606中，在确定待测试信息属于已知类别的情况下，可以经由经训练的分类模型，对待测试信息进行分类。

作为示例，在分类单元606中，只有在确定待测试信息属于已知类别的情况下，才对待测试信息进行分类。

优选地，在分类模型中使用softmax损失表明不同的已知类别之间的分离程度；在分类单元606中，利用隐特征，基于已知类中的每个类来计算softmax损失；以及待测试信息的损失函数包括重建损失和softmax损失。

有关softmax损失的描述可以参见以上分类方法400实施例中相应部分例如有关图4的分类步骤S406的描述，在此不再重复。

在分类单元606中，可以根据包括重建损失和softmax损失的待测试信息的损失函数，对待测试信息进行分类。

由上可知，在根据本公开实施例的分类装置600中，考使用低维度的隐特征来表征待测试信息可以加快分类速度；由于仅对属于已知类别的待测试信息进行分类并且分类模型的损失函数包括有助于增大不同类之间差异的类间损失，因此，可以更精确地对待测试信息进行分类；此外，适用于已知类分类和未知类检测，将已知类别的数据与未知类别的数据进行分离，从而保证对已知类正确分类的同时能更准确地甄别未知类。

优选地，在分类单元606中，还可以计算表明隐特征与已知类中的每个类的中心隐特征之间的距离的中心损失，以及损失函数还可以包括中心损失。

有关中心损失的描述可以参见以上分类方法400实施例中相应部分例如有关图4的分类步骤S406的描述，在此不再重复。

在分类单元606中，可以根据除了包括重建损失和softmax损失之外还包括中心损失的损失函数，对待测试信息进行分类。

由上可知，在根据本公开实施例的分类装置600中，由于损失函数除了类间损失之外还可以包括中心损失，因此，可以更精确地对待测试信息进行分类。

应指出，尽管以上描述了根据本公开实施例的分类装置的功能配置，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述分类方法，因此在此未详细描述的内容可参考先前相应部分的描述，在此不再重复进行描述。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图7所示的通用个人计算机700安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等时所需的数据。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分708，包括硬盘等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

附记1.一种训练分类模型的方法，包括：

样本处理步骤，针对训练集中的每个样本分别进行以下处理：

从所述样本中提取特征；

将所提取的特征压缩成能够表征所述样本的低维度的隐特征；

对所述隐特征进行解压缩，从而得到解压缩后的特征；以及

基于所述解压缩后的特征对所述样本进行重建，以得到重建后的样本；

重建损失计算步骤，基于所述隐特征，针对所述训练集中的所有样本计算重建损失；

类间损失计算步骤，针对所述训练集中的所有样本，计算表明不同的类别的样本之间的分离程度的类间损失；以及

获得分类模型步骤，通过使包括所述重建损失和所述类间损失的损失函数最小，获得训练完成的分类模型。

附记2.根据附记1所述的训练分类模型的方法，其中，

所述重建损失包括表明每个样本与其重建后的样本之间的差别的生成损失以及表明所述隐特征的分布与特定分布之间的匹配程度的隐损失。

附记3.根据附记1所述的训练分类模型的方法，其中，在所述类间损失计算步骤中，基于每个样本的隐特征计算softmax损失，作为所述类间损失。

附记4.根据附记2所述的训练分类模型的方法，其中，在所述类间损失计算步骤中，基于每个样本的隐特征计算softmax损失，作为所述类间损失。

附记5.根据附记1所述的训练分类模型的方法，还包括：

中心损失计算步骤，计算表明每个样本的隐特征与该样本所属的类的中心隐特征之间的距离的中心损失，

其中，所述损失函数还包括所述中心损失。

附记6.根据附记2所述的训练分类模型的方法，还包括：

其中，所述损失函数还包括所述中心损失。

附记7.根据附记3所述的训练分类模型的方法，还包括：

其中，所述损失函数还包括所述中心损失。

附记8.一种分类方法，包括：

提取步骤，从输入到经训练的分类模型的待测试信息中提取特征；

压缩步骤，将所提取的特征压缩成能够表征所述待测试信息的低维度的隐特征；

解压缩步骤，对所述隐特征进行解压缩，从而得到解压缩后的特征；

重建步骤，基于所述解压缩后的特征对所述待测试信息进行重建，以得到重建后的待测试信息；

判断步骤，基于所述待测试信息与所述重建后的待测试信息之间的重建损失，判断所述待测试信息是属于已知类别还是属于未知类别；以及

分类步骤，在确定所述待测试信息属于已知类别的情况下，经由所述经训练的分类模型，对所述待测试信息进行分类。

附记9.根据附记8所述的分类方法，其中，

在所述判断步骤中，在所述重建损失小于或等于预定阈值的情况下，判断所述待测试信息属于已知类别，而在所述重建损失大于所述预定阈值的情况下，判断所述待测试信息属于未知类别。

附记10.根据附记8所述的分类方法，其中，

所述重建损失包括表明所述待测试信息与所述重建后的待测试信息之间的差别的生成损失以及表明所述隐特征的分布与特定分布之间的匹配程度的隐损失。

附记11.根据附记8所述的分类方法，其中，

在所述分类模型中使用softmax损失表明不同的已知类别之间的分离程度，

在所述分类步骤中，利用所述隐特征，基于已知类中的每个类来计算所述softmax损失，以及

所述待测试信息的损失函数包括所述重建损失和所述softmax损失。

附记12.根据附记10所述的分类方法，其中，

附记13.根据附记11所述的分类方法，其中，

在所述分类步骤中，还计算表明所述隐特征与已知类中的每个类的中心隐特征之间的距离的中心损失，以及

所述损失函数还包括所述中心损失。

附记14.根据附记12所述的分类方法，其中，

所述损失函数还包括所述中心损失。

附记15.一种分类装置，包括：

提取单元，被配置成从输入到经训练的分类模型的待测试信息中提取特征；

压缩单元，被配置成将所提取的特征压缩成能够表征所述待测试信息的低维度的隐特征；

解压缩单元，被配置成对所述隐特征进行解压缩，从而得到解压缩后的特征；

重建单元，被配置成基于所述解压缩后的特征对所述待测试信息进行重建，以得到重建后的待测试信息；

判断单元，被配置成基于所述待测试信息与所述重建后的待测试信息之间的重建损失，判断所述待测试信息是属于已知类别还是属于未知类别；以及

分类单元，被配置成在确定所述待测试信息属于已知类别的情况下，经由所述经训练的分类模型，对所述待测试信息进行分类。

附记16.根据附记15所述的分类装置，其中，

附记17.根据附记15所述的分类装置，其中，

附记18.根据附记15所述的分类装置，其中，

附记19.根据附记17所述的分类装置，其中，

附记20.根据附记18所述的分类装置，其中，

所述损失函数还包括所述中心损失。

Claims

1.一种训练分类模型的方法，包括：

样本处理步骤，针对训练集中的每个图片样本分别进行以下处理：

从所述图片样本中提取高维度的特征；

将所提取的高维度的特征压缩成能够表征所述图片样本的低维度的隐特征；

对所述隐特征进行解压缩，从而得到解压缩后的特征；以及

基于所述解压缩后的特征对所述图片样本进行重建，以得到重建后的图片样本；

重建损失计算步骤，基于所述隐特征，针对所述训练集中的所有图片样本计算重建损失；

类间损失计算步骤，针对所述训练集中的所有图片样本，计算表明不同的类别的图片样本之间的分离程度的类间损失；以及

2.根据权利要求1所述的训练分类模型的方法，其中，

所述重建损失包括表明每个图片样本与其重建后的图片样本之间的差别的生成损失以及表明所述隐特征的分布与特定分布之间的匹配程度的隐损失。

3.根据权利要求1所述的训练分类模型的方法，其中，在所述类间损失计算步骤中，基于每个图片样本的隐特征计算softmax损失，作为所述类间损失。

4.根据权利要求1所述的训练分类模型的方法，还包括：

中心损失计算步骤，计算表明每个图片样本的隐特征与该图片样本所属的类的中心隐特征之间的距离的中心损失，

其中，所述损失函数还包括所述中心损失。

5.一种分类方法，包括：

提取步骤，从输入到经训练的分类模型的待测试图片中提取高维度的特征；

压缩步骤，将所提取的高维度的特征压缩成能够表征所述待测试图片的低维度的隐特征；

重建步骤，基于所述解压缩后的特征对所述待测试图片进行重建，以得到重建后的待测试图片；

判断步骤，基于所述待测试图片与所述重建后的待测试图片之间的重建损失，判断所述待测试图片是属于已知类别还是属于未知类别；以及

分类步骤，在确定所述待测试图片属于已知类别的情况下，经由所述经训练的分类模型，对所述待测试图片进行分类。

6.根据权利要求5所述的分类方法，其中，

在所述判断步骤中，在所述重建损失小于或等于预定阈值的情况下，判断所述待测试图片属于已知类别，而在所述重建损失大于所述预定阈值的情况下，判断所述待测试图片属于未知类别。

7.根据权利要求5所述的分类方法，其中，

所述重建损失包括表明所述待测试图片与所述重建后的待测试图片之间的差别的生成损失以及表明所述隐特征的分布与特定分布之间的匹配程度的隐损失。

8.根据权利要求5所述的分类方法，其中，

所述待测试图片的损失函数包括所述重建损失和所述softmax损失。

9.根据权利要求8所述的分类方法，其中，

所述损失函数还包括所述中心损失。

10.一种分类装置，包括：

提取单元，被配置成从输入到经训练的分类模型的待测试图片中提取高维度的特征；

压缩单元，被配置成将所提取的高维度的特征压缩成能够表征所述待测试图片的低维度的隐特征；

重建单元，被配置成基于所述解压缩后的特征对所述待测试图片进行重建，以得到重建后的待测试图片；

判断单元，被配置成基于所述待测试图片与所述重建后的待测试图片之间的重建损失，判断所述待测试图片是属于已知类别还是属于未知类别；以及

分类单元，被配置成在确定所述待测试图片属于已知类别的情况下，经由所述经训练的分类模型，对所述待测试图片进行分类。