CN108197225A

CN108197225A - 图像的分类方法、装置、存储介质及电子设备

Info

Publication number: CN108197225A
Application number: CN201711466322.5A
Authority: CN
Inventors: 陈岩; 刘耀勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-22
Anticipated expiration: 2037-12-28
Also published as: CN108197225B

Abstract

本申请实施例公开了一种图像的分类方法、装置、存储介质及电子设备，其中，该推送方法包括当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集；根据特征对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型，决策树模型的输出为对应的多个分类库；当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；根据预测样本和决策树模型预测出对应的分类库。以此实现了图像的智能分类，提升了图像的分类准确率。

Description

图像的分类方法、装置、存储介质及电子设备

技术领域

本申请涉及通信技术领域，具体涉及一种图像的分类方法、装置、存储介质及电子设备。

背景技术

目前，随着终端技术的高速发展，如智能手机越来越深入人们的生活之中，用户往往会在智能手机上安装大量的应用，如拍照应用、游戏应用、地图应用等等。

其中，用户在通过拍照应用拍摄照片后，往往会对照片进行分类，根据需求将照片放入对应的分类文件夹中，以便下次可以在分类文件夹中快速找到，但是，当照片的数量达到一定的范围时，手动的将每一张照片放入对应的分类文件夹会浪费用户时间，并且操作过程极其繁琐，因此，有必要提供一种方法解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种图像的分类方法、装置、存储介质及电子设备，能够快速的对图像进行分类处理，并提高图像分类的准确性。

第一方面，本申请实施例了提供了的一种图像的分类方法，包括：

当检测到图像移动到分类库的操作时，采集所述图像对应的多维特征作为样本，并构建多个分类库对应的样本集；

根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出分类库的决策树模型，所述决策树模型的输出为对应的多个分类库；

当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；

根据所述预测样本和所述决策树模型预测出对应的分类库。

第二方面，本申请实施例了提供了的一种图像的分类装置，包括：

第一采集单元，用于当检测到图像移动到分类库的操作时，采集所述图像对应的多维特征作为样本，并构建多个分类库对应的样本集；

建构单元，用于根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出分类库的决策树模型，所述决策树模型的输出为对应的多个分类库；

第二采集单元，用于当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；

预测单元，用于根据所述预测样本和所述决策树模型预测出对应的分类库。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的图像的分类方法。

第四方面，本申请实施例提供的电子设备，包括处理器和存储器，所述存储器有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的图像的分类方法。

本申请实施例通过当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集；根据特征对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型，决策树模型的输出为对应的多个分类库；当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；根据预测样本和决策树模型预测出对应的分类库。以此实现了图像的智能分类，提升了图像的分类准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的图像的分类方法的应用场景示意图。

图2是本申请实施例提供的图像的分类方法的一个流程示意图。

图3是本申请实施例提供的一种决策树的示意图。

图4是本申请实施例提供的另一种决策树的示意图。

图5是本申请实施例提供的图像的分类方法的另一个流程示意图。

图6是本申请实施例提供的图像的分类装置的一个结构示意图。

图7是本申请实施例提供的图像的分类装置的另一结构示意图。

图8是本申请实施例提供的电子设备的一个结构示意图。

图9是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看做为在该运算***上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算***上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种图像的分类方法，该图像的分类方法的执行主体可以是本申请实施例提供的图像的分类装置，或者集成了该图像的分类装置的电子设备，其中该图像的分类装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

请参阅图1，图1为本申请实施例提供的图像的分类方法的应用场景示意图，以图像的分类装置集成在电子设备中为例，当检测到图像移动到分类库的操作时，采集所述图像对应的多维特征作为样本，并构建多个分类库对应的样本集；根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出分类库的决策树模型，所述决策树模型的输出为对应的多个分类库；当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；根据所述预测样本和所述决策树模型预测出对应的分类库。

具体地，例如图1所示，可以在历史时间段内，当检测到图像移动到分类库的操作时，采集图像对应的多维特征(亮度特征、纹理特征、对比度特征等)作为样本，并构建分类库对应的样本集；根据特征(亮度特征、纹理特征、对比度特征等)对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型；当检测到用户图像分类指令时，采集待分类图像对应的多维特征(亮度特征、纹理特征、对比度特征等)作为预测样本，根据预测样本和决策树模型预测出对应的分类库。并将该待分类图像移动至该分类库中，以完成分类操作。

请参阅图2，图2为本申请实施例提供的图像的分类方法的流程示意图。本申请实施例提供的图像的分类方法的具体流程可以如下：

201、当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集。

本实施例所提及的分类库，可以为电子设备中的文件夹，当前电子设备的存储空间越来越大，会存储图像的数量也对应越来越大，因此需要将不同类别的图像放入不同的文件夹中，以方便管理查找。进一步的，可以包括多个文件夹，用户可以对文件夹进行命名。如人物类文件夹以及风景类文件夹等等。

其中，该多维特征具有一定长度的维度，其每个维度上的参数均对应表征目的地的一种特征信息，即该多维特征息由多个特征构成。该多个特征可以包括图像移动到分类库时，图像对应的相关的特征信息，例如：当前的亮度信息；当前的纹理信息；当前的对比度信息等。

其中，分类库的样本集可以包括多个样本，每个样本包括每一分类库对应的多维特征。分类库的样本集中，可以包括在历史时间段内，采集的分类库的多个样本。历史时间段，例如可以是过去7天、14天等。可以理解的是，一次采集的分类库的多维特征数据构成一个样本，多个样本，构成样本集。

在构成样本集之后，可以对样本集中的每个样本进行标记，得到每个样本的样本标签，由于本实施要实现的是预测图像对应的分类库，因此，所标记的样本标签包括多个分类库，也即样本类别为多个分类库。

202、根据特征对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型。

本申请实施例可以基于特征对于样本分类的信息增益对样本集进行样本分类，以构建分类库的决策树模型。比如，可以基于ID3算法来构建决策树模型。

其中，决策树是一种依托决策而建立起来的一种树。在机器学习中，决策树是一种预测模型，代表的是一种对象属性与对象值之间的一种映射关系，每一个节点代表某个对象，树中的每一个分叉路径代表某个可能的属性值，而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出，如果有多个输出，可以分别建立独立的决策树以处理不同的输出。

其中，ID3(Iterative Dichotomiser 3，迭代二叉树3代)算法是决策树的一种，它是基于奥卡姆剃刀原理的，即用尽量用较少的东西做更多的事。在信息论中，期望信息越小，那么信息增益就越大，从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择，选择***后信息增益最大的属性进行***。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。

其中，信息增益是针对一个一个特征而言的，就是看一个特征t，***有它和没有它时的信息量各是多少，两者的差值就是这个特征给***带来的信息量，即信息增益。

下面将详细介绍基于信息增益对样本集进行分类的过程，比如，分类过程可以包括如下步骤：

生成相应的根节点，并将样本集作为根节点的节点信息；

将根节点的样本集确定为当前待分类的目标样本集；

获取目标样本集内特征对于样本集分类的信息增益；

根据信息增益选取从特征中选取当前的划分特征；

根据划分特征对样本集进行划分，得到若干子样本集；

对子样本集中样本的划分特征进行去除，得到去除后子样本集；

生成当前节点的子节点，并将去除后子样本集作为子节点的节点信息；

判断子节点是否满足预设分类终止条件；

若否，则将目标样本集更新为去除后子样本集，并返回执行获取目标样本集内特征对于样本集分类的信息增益；

若是，则将子节点作为叶子节点，根据去除后子样本集中样本的类别设置叶子节点的输出，样本的类别为对应的多个分类库。

其中，划分特征为根据各特征对于样本集分类的信息增益从特征中选取的特征，用于对样本集分类。其中，根据信息增益选取划分特征的方式有多种，比如为了提升样本分类的精确性，可以选取最大信息增益对应的特征为划分特征。

其中，样本的类别为对应的多个分类库类别。

当子节点满足预设分类终止条件时，可以将子节点作为叶子节点，即停止对该子节点的样本集分类，并且可以基于去除后子样本集中样本的类别设置该叶子节点的输出。基于样本的类别设置叶子节点的输出的方式有多种。比如，可以将去除后样本集中样本数量最多的类别作为该叶子节点的输出。

其中，预设分类终止条件可以根据实际需求设定，当子节点满足预设分类终止条件时，将当前子节点作为叶子节点，停止对子节点对应的样本集进行分词分类；当子节点不满足预设分类终止条件时，继续对子节点对应的样本集进行分类。比如，预设分类终止条件可以包括：子节点的去除后子样本集合中样本的类别数量为与预设数量，也即步骤“判断子节点是否满足预设分类终止条件”可以包括：

判断子节点对应的去除后子样本集中样本的类别数量是否为预设数量；

若是，则确定子节点满足预设分类终止条件；

若否，则确定子节点不满预设分类终端终止条件。

例如，预设分类终止条件可以包括：子节点对应的去除后子样本集中样本的类别数量为1，也即子节点的样本集中只有一个类别的样本。此时，如果子节点满足该预设分类终止条件，那么，将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“分类库1”的样本时，那么，可以将“分类库1”作为该叶子节点的输出。

在一实施例中，为了提升决策树模型的决策准确性，还可以设置一个增益阈值；当最大的信息增益大于该阈值时，才选取该信息增益对于的特征为划分特征。也即，步骤“根据信息增益选取从特征中选取当前的划分特征”可以包括：

从信息增益中选取最大的目标信息增益；

判断目标信息增益是否大于预设阈值；

若是，则选取目标信息增益对应的特征作为当前的划分特征。

在一实施例中，当目标信息增益不大于预设阈值时，可以将当前节点作为叶子节点，并选取样本数量最多的样本类别作为该叶子节点的输出。其中，样本类别为对应的分类库。

其中，预设阈值可以根据实际需求设定，如0.9、0.8等等。

例如，当特征1对于样本分类的信息增益0.9为最大信息增益时，预设阈值为0.8时，由于最大信息增益大于预设阈值，此时，可以将特征1作为划分特征。

又例如，当预设阈值为1时，那么最大信息增益小于预设阈值，此时，可以将当前节点作为叶子节点，对样本集分析可知类别为“分类库2”的样本数量最多，大于其他类别为“分类库1”的样本数量，此时，可以将“分类库2”作为该叶子节点的输出。

在一实施方式中，根据划分特征对样本进行分类划分的方式有多种，比如，可以基于划分特征的特征值来对样本集进行划分。也即步骤“根据划分特征对样本集进行划分”可以包括：

获取样本集中划分特征的特征值；

根据特征值对样本集进行划分。

比如，可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如，划分特征的特征值包括：0、1、2，那么此时，可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。

例如，对于样本集A{样本1、样本2……样本i……样本n}，其中样本1包括特征1、特征2……特征m，样本i包括特征1、特征2……特征m，样本n包括特征1、特征2……特征m。

首先，对样本集中所有样本进行初始化，然后，生成一个根节点a，并将样本集作为该根节点a的节点信息，如参考图3。

计算各特征如特征1、特征2……特征m对于样本集分类的信息增益g1、g2……gm；选取最大的信息增益gmax，如gi为最大的信息增益。

当最大信息增益gmax小于预设阈值ε时，当前的节点作为叶子节点，并选取样本数量最多的样本类别作为叶子节点的输出。

当最大信息增益gmax大于预设阈值ε时，可以选取信息增益gmax对应的特征i作为划分特征t，根据特征i对样本集A{样本1、样本2……样本i……样本n}进行划分，如将样本集划分成两个子样本集A1{样本1、样本2……样本k}和A2{样本k+1……样本n}。

将子样本集A1和A2中划分特征t去除，此时，子样本集A1和A2中样本包括{特征1、特征2……特征i-1、特征i+1……特征n}。参考图3生成根节点a的子节点a1和a2，并将子样本集A1作为子节点a1的节点信息、将子样本集A2作为子节点a2的节点信息。

接着，对于每个子节点，以子节点a1为例，判断子节点是否满足预设分类终止条件，若是，则将当前的子节点a1作为叶子节点，并根据子节点a1对应的子样本集中样本的类别设置该叶子节点输出。

当子节点不满足预设分类终止条件时，采用上述基于信息增益分类的方式，继续对子节点对应的子样本集进行分类，如以子节点a2为例可以计算A2样本集中各特征相对于样本分类的信息增益g，选取最大的信息增益gmax，当最大的信息增益gmax大于预设阈值ε时，可以选取该信息增益gmax对应的特征为划分特征t，基于划分特征t将A2划分成若干子样本集，如可以将A2划分成子样本集A21、A22、A23，然后，将子样本集A21、A22、A23中的划分特征t去除，并生成当前节点a2的子节点a21、a22、a23，将去除划分特征t后的样本集A21、A22、A23分别作为子节点a21、a22、a23的节点信息。

依次类推，利用上述的基于信息增益分类的方式可以构成出如图4所示的决策树，该决策树的叶子节点的输出包括多个分类库。

本申请实施例中，可以基于样本分类的经验熵以及特征对于样本集分类结果的条件熵，获取特征对于样本集分类的信息增益。也即步骤“获取目标样本集内特征对于样本集分类的信息增益”可以包括：

获取样本分类的经验熵；

获取特征对于样本集分类结果的条件熵；

根据条件熵和经验熵，获取特征对于样本集分类的信息增益。

其中，可以获取每一分类库样本在样本集中出现的概率，该分类库样本的样本类别为对应的多个分类库，根据每一分类库的概率获取样本的经验熵。

例如，对于样本集Y{样本1、样本2……样本i……样本n}，如果样本类别为“分类库1”样本的样本数量为j，“分类库2”样本的样本数量为n-j；此时，“分类库1”样本在样本集Y中的出现的概率p1＝j/n，“分类库2”在样本集Y中的出现概率p2＝n-j/n。然后，基于以下经验熵的计算公式，计算出样本分类的经验熵H(Y)：

其中，pi为样本在样本集Y中的出现概率。在决策树分类问题中，信息增益就是决策树在进行属性选择划分前和划分后信息的差值。

在一实施例中，可以根据特征t将样本集划分成若干子样本集，然后，获取各子样本集分类的信息熵，以及该特征t的各特征值在样本集中出现的概率，根据该信息熵以及该概率便可以得到划分后的信息熵，即该特征t对于样本集分类结果的条件熵。

例如，对于样本特征X，该样本特征X对于样本集Y分类结果的条件熵可以通过以下公式计算得到：

其中，n为特征X的取值种数，即特征值类型数量。此时，pi为X特征值为第i种取值的样本在样本集Y中出现的概率，xi为X的第i种取值。H(Y|X＝xi)为子样本集Yi分类的经验熵，该子样本集i中样本的X特征值均为第i种取值。

例如，以特征X的取值种数为3，即x1、x2、x3为例，此时，可以特征X将样本集Y{样本1、样本2……样本i……样本n}划分成三个子样本集,特征值为x1的Y1{样本1、样本2……样本d}、特征值为x2的Y2{样本d+1……样本e}、特征值为x3的Y3{样本e+1……样本n}。d、e均为正整数，且小于n。

此时，特征X对于样本集Y分类结果的条件熵为：

H(Y|X)＝p1H(Y|x1)+p2H(Y|x2)+p3H(Y|x3)；

其中，p1＝Y1/Y，p2＝Y2/Y，p2＝Y3/Y；

H(Y|x1)为子样本集Y1分类的信息熵，即经验熵，可以通过上述经验熵的计算公式计算得到。

在得到样本分类的经验熵H(Y)，以及特征X对于样本集Y分类结果的条件熵H(Y|X)后，便可以计算出特征X对于样本集Y分类的信息增益，如通过以下公式计算得到：

g(Y,X)＝H(Y)-H(Y|X)

也即特征X对于样本集Y分类的信息增益为：经验熵H(Y)与特征X对于样本集Y分类结果的条件熵H(Y|X)的差值。

203、当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本。

其中，该图像分类指令指示用户需要对图像进行分类操作，故基于检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本。

需要特别说明的是，本申请实施例中，步骤201和203中采集的多维特征是相同特征，例如：当前的亮度信息；当前的纹理信息；当前的对比度信息等。

204、根据预测样本和决策树模型预测出对应的分类库。

具体地，根据预测样本和决策树模型获取相应的输出结果，根据输出结果确定对应的分类库。其中，输出结果包括每一分类库。

比如，可以根据预测样本的特征和决策树模型确定相应的叶子节点，将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件确定当前的叶子节点，取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括多个分类库。因此，可以得到待分类图像对应分类的分类库。

例如，采集待分类图像的多维特征后，可以在图4所示的决策树中按照决策树的分支条件查找相应的叶子节点为an1，叶子节点an1的输出为分类库1，此时，便确定该待分类图像对应的分类库为分类库1。

由上可知，本申请实施例通过当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集；根据特征对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型，决策树模型的输出为对应的多个分类库；当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；根据预测样本和决策树模型预测出对应的分类库。以此实现了图像的智能分类，提升了图像的分类准确率。

进一步地，由于样本集的每个样本中，包括了反映用户平常将图像移动到每一分类库的行为习惯的多个特征信息，因此本申请实施例可以使得对图像的分类更加个性化和智能化。

进一步地，基于决策树预测模型来实现图像的分类预测，可以提升图像分类的准确性，更贴合用户的使用习惯。

下面将在上述实施例描述的方法基础上，对本申请的分类方法做进一步介绍。参考图5，该图像的分类方法可以包括：

301、当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集。

其中，当检测到用户将图像移动到分类库的操作时，如用户将图像移动到分类库1中时，采集该图像对应的多维特征作为样本。

应用的多维特征信息具有一定长度的维度，其每个维度上的参数均对应表征图像的一种特征信息，即该多维特征信息由多个特征信息构成。该多个特征信息可以包括将图像移动到分类库时图像的相关的特征信息，例如：当前的亮度信息；当前的纹理信息；当前的对比度信息；当前的饱和度信息；当前的色阶信息等。

分类库的样本集中，可以包括在历史时间段内采集的多个样本。历史时间段，例如可以是过去7天、14天等。可以理解的是，一次采集分类库的多维特征数据构成一个样本，多个样本，构成样本集。

一个具体的样本可如下表1所示，包括多个维度的特征信息，需要说明的是，表1所示的特征信息仅为举例，实际中，一个样本所包含的特征信息的数量，可以多于比表1所示信息的数量，也可以少于表1所示信息的数量，所取的具体特征信息也可以与表1所示不同，此处不作具体限定。

维度	特征信息
		1	当前的亮度信息
2	当前的纹理信息
		3	当前的对比度信息
4	当前的饱和度信息
		5	当前的色阶信息

表1

302、对样本集中的样本进行标记，得到每个样本的样本标签。

由于本实施要实现的是预测分类库，因此，所标记的样本标签包括每一分类库。该样本的样本标签表征该样本的样本类别。此时，样本类别可以“分类库1”、“分类库2”等等。

303、生成决策树模型的根节点，并将样本集作为根节点的节点信息。

比如，参考图3，对于样本集A{样本1、样本2……样本i……样本n}，可以先生成决策树的根节点a，并将样本集A作为该根节点a的节点信息。

304、确定样本集为当前待分类的目标样本集。

也即确定根节点的样本集作为当前待分类的目标样本集。

305、获取目标样本集内各特征对于样本集分类的信息增益，并确定最大的信息增益。

比如，对于样本集A，可以计算各特征如特征1、特征2……特征m对于样本集分类的信息增益g1、g2……gm；选取最大的信息增益gmax。

其中，特征对于样本集分类的信息增益，可以采用如下方式获取：

获取样本分类的经验熵；获取特征对于样本集分类结果的条件熵；根据条件熵和经验熵，获取特征对于样本集分类的信息增益。

比如，可以获取每一分类库类别。

可以获取每一分类库样本在样本集中出现的概率，该分类库样本为样本类别为对应的分类库，根据每一分类库的概率获取样本的经验熵。

例如，以分类库样本的样本类别只有“分类库1”以及“分类库2”为例，对于样本集Y{样本1、样本2……样本i……样本n}，如果样本类别为“分类库1”的样本数量为j，“分类库2”的样本数量为n-j；此时，“分类库1”在样本集Y中的出现概率p1＝j/n，“分类库2”在样本集Y中的出现概率p2＝n-j/n。然后，基于以下经验熵的计算公式，计算出样本分类的经验熵H(Y)：

在决策树分类问题中，信息增益就是决策树在进行属性选择划分前和划分后信息的差值。

此时，特征X对于样本集Y分类结果的条件熵为：

H(Y|X)＝p1H(Y|x1)+p2H(Y|x2)+p3H(Y|x3)；

其中，p1＝Y1/Y，p2＝Y2/Y，p3＝Y3/Y；

g(Y,X)＝H(Y)-H(Y|X)

306、判断最大的信息增益是否大于预设阈值，若是，则执行步骤307，若否，则执行步骤313。

例如，可以判断最大的信息增益gmax是否大于预设的阈值ε，该阈值ε可以根据实际需求设定。

307、选取最大的信息增益对应的特征作为划分特征，并根据该划分特征的特征值对样本集进行划分，得到若干子样本集。

比如，当最大的信息增益gmax对应的特征为特征i时，可以选取特征i为划分特征。

具体地，可以根据划分特征的特征值种数将样本集划分成若干子样本集，子样本集的数量与特征值种数相同。例如，可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如，划分特征的特征值包括：0、1、2，那么此时，可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。

308、将子样本集中样本的划分特征去除，得到去除后子样本集。

比如，划分特征i的取值有两种时，可以将样本集A划分成A1{样本1、样本2……样本k}和A2{样本k+1……样本n}。然后，可以将子样本集A1和A2中的划分特征i去除。

309、生成当前节点的子节点，并将去除后子样本集作为相应子节点的节点信息。

其中，一个子样本集对应一个子节点。例如，参考图3生成根节点a的子节点a1和a2，并将子样本集A1作为子节点a1的节点信息、将子样本集A2作为子节点a2的节点信息。

310、判断子节点的子样本集是否满足预设分类终止条件，若是，则执行步骤311，若否，则执行步骤312。

其中，预设分类终止条件可以根据实际需求设定，当子节点满足预设分类终止条件时，将当前子节点作为叶子节点，停止对子节点对应的样本集进行分词分类；当子节点不满足预设分类终止条件时，继续对子节点对应的额样本集进行分类。比如，预设分类终止条件可以包括：子节点的去除后子样本集合中样本的类别数量为与预设数量。

例如，预设分类终止条件可以包括：子节点对应的去除后子样本集中样本的类别数量为1，也即子节点的样本集中只有一个类别的样本。

311、将目标样本集更新为子节点的子样本集，并返回执行步骤305。

312、将该子节点作为叶子节点，并根据子节点的子样本集中样本类别设置该叶子节点的输出。

此时，如果子节点满足该预设分类终止条件，那么，将子样本集中样本的分类库类别作为该叶子节点的输出。如去除后子样本集中只有分类库类别为“分类库2”的样本时，那么，可以将“分类库2”作为该叶子节点的输出

313、将当前节点作为叶子节点，并选取样本数量最多的样本类别作为该叶子节点的输出。

其中，样本类别包括每一分类库。

例如，在子节点a1的子样本集A1分类时，如果最大信息增益小与预设阈值，此时，可以将子样本集A1中样本数量最多的样本类别作为该叶子节点的输出。如“分类库1”的样本数量最多，那么可以将“分类库1”作为叶子节点a1的输出。

314、在构建完决策树模型后，当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本。

其中，当检测到用户需要对图像进行分类操作时，生成对应的图像分类指令。对应的，采集该待分类图像的多维特征作为预测样本。

315、根据预测样本和决策树模型预测出对应的分类库。

比如，可以根据预测样本的特征和决策树模型确定相应的叶子节点，将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件确定当前的叶子节点，取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括每一分类库，因此，此时可以基于决策树来确定需要待分类图像对应的分类库。

例如，采集当前的多维特征后，可以在图4所示的决策树中按照决策树的分支条件查找相应的叶子节点为an2，叶子节点an2的输出为分类库2，此时，便确定该待分类图像对应的分类库为分类库2。

在一实施方式中，该根据预测样本和决策树模型预测出对应的分类库之后，还包括：

(1)当检测到用户将一分类库中的图像移动到另一分类库中时，采集图像对应的多维特征作为样本。

可以理解的是，当用户对分类结果不满意时，会将一分类库中的不满意图像手动移动到满意的另一分类库中，即当检测到用户将一分类库中的图像移动到另一分类库中时，可以采集被移动的图像对应的多维特征作为样本，该样本更为贴近用户当前的使用习惯。

(2)将样本替换掉样本集中的存储时间在先的一样本。

其中，可以将新采集的样本替换掉样本集中存储时间在先的一样本，因此，可以完成数据的更新。

在一实施方式中，可以设定一固定的更新周期，如30天，当决策树生成30天后，使用更新后的样本集重新生成新的决策树，因此，可以随着用户的习惯改变而实时进行更新，更智能化的贴近用户的分类习惯。

在一实施例中还提供了一种图像的分类装置。请参阅图6，图6为本申请实施例提供的图像的分类装置的结构示意图。其中该图像的分类装置应用于电子设备，该图像的分类装置包括第一采集单元401、构建单元402、第二采集单元403、和预测单元404，如下：

第一采集单元401，用于当检测到图像移动到分类库的操作时，采集所述图像对应的多维特征作为样本，并构建多个分类库对应的样本集；

构建单元402，用于根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出分类库的决策树模型，所述决策树模型的输出为对应的多个分类库；

第二采集单元403，用于当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；

预测单元404，用于根据所述预测样本和所述决策树模型预测出对应的分类库。

在一实施例中，参考图7，构建单元402，可以包括：

第一节点生成子单元4021，用于生成相应的根节点，并将所述样本集作为所述根节点的节点信息；将所述根节点的样本集确定为当前待分类的目标样本集；

增益获取子单元4022，用于获取目标样本集内所述特征对于样本集分类的信息增益；

特征确定子单元4023，用于根据所述信息增益选取从所述特征中选取当前的划分特征；

分类子单元4024，用于根据所述划分特征对所述样本集进行划分，得到若干子样本集；

第二节点生成子单元4025，用于对所述子样本集中样本的所述划分特征进行去除，得到去除后子样本集；生成当前节点的子节点，并将所述去除后子样本集作为所述子节点的节点信息；

判断子单元4026，用于判断子节点是否满足预设分类终止条件，若否，则将所述目标样本集更新为所述去除后子样本集，并触发所述增益获取子单元执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤；若是，则将所述子节点作为叶子节点，根据所述去除后子样本集中样本的类别设置所述叶子节点的输出，所述样本的类别为对应的多个分类库。

其中，分类子单元4024，可以用于获取所述样本集中划分特征的特征值；

根据所述特征值对所述样本集进行划分。相同的样本划分到相同的子样本集。

其中，特征确定子单元4023，可以用于：

从所述信息增益中选取最大的目标信息增益；

判断所述目标信息增益是否大于预设阈值；

若是，则选取所述目标信息增益对应的特征作为当前的划分特征。

在一实施例中，增益获取子单元4022，可以用于：

获取样本分类的经验熵；

获取所述特征对于样本集分类结果的条件熵；

根据所述条件熵和所述经验熵，获取所述特征对于所述样本集分类的信息增益。

比如，增益获取子单元4022，可以用于：获取每一分类库样本在样本集中出现的概率，该分类库样本为样本类别为对应的分类库，根据每一分类库的概率获取样本的经验熵。

在一实施例中，判断子单元4025，可以用于判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量；

若是，则确定所述子节点满足预设分类终止条件。

在一实施例中，特征确定子单元4023，还可以用于当目标信息增益不大于预设阈值时，将当前节点作为叶子节点，并选取样本数量最多的样本类别作为所述叶子节点的输出。

在一实施例中，参考图7，所述图像的分类装置还包括：

第三采集单元405，用于当检测到用户将一分类库中的图像移动到另一分类库中时，采集所述图像对应的多维特征作为样本；

替换单元406，用于将所述样本替换掉样本集中的存储时间在先的一样本。

其中，图像的分类装置中各单元执行的步骤可以参考上述方法实施例描述的方法步骤。该图像的分类装置可以集成在电子设备中，如手机、平板电脑等。

具体实施时，以上各个单元可以作为独立的实体实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单位的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例图像的分类装置可以通过第一采集单元401当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集；建构单元402根据特征对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型，决策树模型的输出为对应的多个分类库；第二采集单元403当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；预测单元404根据预测样本和决策树模型预测出对应的分类库。以此实现了图像的智能分类，提升了图像的分类准确率。

本申请实施例还提供一种电子设备。请参阅图8，电子设备500包括处理器501以及存储器502。其中，处理器501与存储器502电性连接。

所述处理器500是电子设备500的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器502内的计算机程序，以及调用存储在存储器502内的数据，执行电子设备500的各种功能并处理数据，从而对电子设备500进行整体监控。

所述存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

在本申请实施例中，电子设备500中的处理器501会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中，并由处理器501运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

根据所述预测样本和所述决策树模型预测出对应的分类库。

在某些实施方式中，在根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出所述应用的决策树模型时，处理器501可以具体执行以下步骤：

生成相应的根节点，并将所述样本集作为所述根节点的节点信息；

将所述根节点的样本集确定为当前待分类的目标样本集；

获取目标样本集内所述特征对于样本集分类的信息增益；

根据所述信息增益从所述特征中选取当前的划分特征；

根据所述划分特征对所述样本集进行划分，得到若干子样本集；

对所述子样本集中样本的所述划分特征进行去除，得到去除后子样本集；

生成当前节点的子节点，并将所述去除后子样本集作为所述子节点的节点信息；

判断子节点是否满足预设分类终止条件；

若否，则将所述目标样本集更新为所述去除后子样本集，并返回执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤；

若是，则将所述子节点作为叶子节点，根据所述去除后子样本集中样本的类别设置所述叶子节点的输出，所述样本的类别为对应的多个分类库。

在某些实施方式中，在根据所述预测样本和所述决策树模型预测出对应的分类库之后，处理器501还可以具体执行以下步骤：

当检测到用户将一分类库中的图像移动到另一分类库中时，采集所述图像对应的多维特征作为样本；

将所述样本替换掉样本集中的存储时间在先的一样本。

在某些实施方式中，在根据所述信息增益从所述特征中选取当前的划分特征时，处理器501可以具体执行以下步骤：

从所述信息增益中选取最大的目标信息增益；

判断所述目标信息增益是否大于预设阈值；

在某些实施方式中，处理器501还可以具体执行以下步骤：

当目标信息增益不大于预设阈值时，将当前节点作为叶子节点，并选取样本数量最多的样本类别作为所述叶子节点的输出。

在某些实施方式中，在获取目标样本集内所述特征对于样本集分类的信息增益时，处理器501可以具体执行以下步骤：

获取样本分类的经验熵；

获取所述特征对于样本集分类结果的条件熵；

由上述可知，本申请实施例的电子设备，通过当检测到图像移动到分类库的操作时，采集图像对应的多维特征作为样本，并构建多个分类库对应的样本集；根据特征对于样本分类的信息增益对样本集进行样本分类，以构建出分类库的决策树模型，决策树模型的输出为对应的多个分类库；当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；根据预测样本和决策树模型预测出对应的分类库。以此实现了图像的智能分类，提升了图像的分类准确率。

请一并参阅图9，在某些实施方式中，电子设备500还可以包括：显示器503、射频电路504、音频电路505以及电源506。其中，其中，显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。

所述显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

所述射频电路504可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

所述音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

所述电源506可以用于给电子设备500的各个部件供电。在一些实施例中，电源506可以通过电源管理***与处理器501逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管图9中未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一实施例中的图像的分类方法，比如：当检测到图像移动到分类库的操作时，采集所述图像对应的多维特征作为样本，并构建多个分类库对应的样本集；根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出分类库的决策树模型，所述决策树模型的输出为对应的多个分类库；当检测到图像分类指令时，采集待分类图像对应的多维特征作为预测样本；根据所述预测样本和所述决策树模型预测出对应的分类库。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的图像的分类方法而言，本领域普通测试人员可以理解实现本申请实施例的图像的分类方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如图像的分类方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的图像的分类装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种图像的分类方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像的分类方法，其特征在于，包括：

根据所述预测样本和所述决策树模型预测出对应的分类库。

2.如权利要求1所述的图像的分类方法，其特征在于，根据所述特征对于样本分类的信息增益对所述样本集进行样本分类，以构建出分类库的决策树模型，包括：

将所述根节点的样本集确定为当前待分类的目标样本集；

获取目标样本集内所述特征对于样本集分类的信息增益；

根据所述信息增益从所述特征中选取当前的划分特征；

判断子节点是否满足预设分类终止条件；

3.如权利要求2所述的图像的分类方法，其特征在于，根据所述预测样本和所述决策树模型预测出对应的分类库之后，还包括：

将所述样本替换掉样本集中的存储时间在先的一样本。

4.如权利要求2所述的图像的分类方法，其特征在于，根据所述信息增益从所述特征中选取当前的划分特征，包括：

从所述信息增益中选取最大的目标信息增益；

判断所述目标信息增益是否大于预设阈值；

5.如权利要求4所述的图像的分类方法，其特征在于，所述图像的分类方法还包括：

6.如权利要求2所述的图像的分类方法，其特征在于，判断子节点是否满足预设分类终止条件，包括：

判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量；

若是，则确定所述子节点满足预设分类终止条件。

7.如权利要求2-6任一项所述的图像的分类方法，其特征在于，获取目标样本集内所述特征对于样本集分类的信息增益，包括：

获取样本分类的经验熵；

获取所述特征对于样本集分类结果的条件熵；

8.一种图像的分类装置，其特征在于，包括：

9.如权利要求8所述的图像的分类装置，其特征在于，所述构建单元包括：

第一节点生成子单元，用于生成相应的根节点，并将所述样本集作为所述根节点的节点信息；将所述根节点的样本集确定为当前待分类的目标样本集；

增益获取子单元，用于获取目标样本集内所述特征对于样本集分类的信息增益；

特征确定子单元，用于根据所述信息增益选取从所述特征中选取当前的划分特征；

分类子单元，用于根据所述划分特征对所述样本集进行划分，得到若干子样本集；

第二节点生成子单元，用于对所述子样本集中样本的所述划分特征进行去除，得到去除后子样本集；生成当前节点的子节点，并将所述去除后子样本集作为所述子节点的节点信息；

判断子单元，用于判断子节点是否满足预设分类终止条件，若否，则将所述目标样本集更新为所述去除后子样本集，并触发所述增益获取子单元执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤；若是，则将所述子节点作为叶子节点，根据所述去除后子样本集中样本的类别设置所述叶子节点的输出，所述样本的类别为对应的多个分类库。

10.如权利要求9所述的图像的分类装置，其特征在于，所述装置还包括：

第三采集单元，用于当检测到用户将一分类库中的图像移动到另一分类库中时，采集所述图像对应的多维特征作为样本；

替换单元，用于将所述样本替换掉样本集中的存储时间在先的一样本。

11.如权利要求9所述的图像的分类装置，其特征在于，特征确定子单元，用于：

从所述信息增益中选取最大的目标信息增益；

判断所述目标信息增益是否大于预设阈值；

12.如权利要求9所述的图像的分类装置，其特征在于，所述增益获取子单元，用于：

获取样本分类的经验熵；

获取所述特征对于样本集分类结果的条件熵；

13.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至7任一项所述的图像的分类方法。

14.一种电子设备，包括处理器和存储器，所述存储器有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的图像的分类方法。