CN117972530B

CN117972530B - 一种基于蚁狮优化的缺失不平衡数据多分类方法和设备

Info

Publication number: CN117972530B
Application number: CN202410361825.XA
Authority: CN
Inventors: 刘艺; 郑奇斌; 李庚松; 杨国利; 李翔; 史殿习; 刁兴春
Original assignee: Beijing Big Data Advanced Technology Research Institute
Current assignee: Beijing Big Data Advanced Technology Research Institute
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-06-11
Anticipated expiration: 2044-03-28
Also published as: CN117972530A

Abstract

本申请提供了一种基于蚁狮优化的缺失不平衡数据多分类方法和设备，该方法包括：基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码，基于第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码，基于第一编码和各个第二编码生成多个迭代编码，基于蚁狮优化算法，从多个迭代编码中筛选得到适应度最大的目标迭代编码，从分类器库中抽取目标迭代编码对应的分类器进行组合，得到目标分类器群，基于目标分类器群识别第一待分类数据集的类别，能够根据待识别数据的特征类型生成多个迭代编码，采用蚁狮优化算法筛选最优迭代编码并生成相应的分类器群进行目标场景下的数据分类，提升了分类的灵活性和分类效果的稳定性。

Description

一种基于蚁狮优化的缺失不平衡数据多分类方法和设备

技术领域

本申请涉及数据处理技术领域，特别是一种基于蚁狮优化的缺失不平衡数据多分类方法和设备。

背景技术

在大数据兴起的浪潮中，数据规模大幅增长，每日产生的数据量已经从PB、EB级迅速跃升至ZB级，甚至是YB级。其中，不平衡性是大量数据的重要特征，不平衡数据中的少数类数据包含的信息较少，这使得算法对该类样本特征的学习和识别较为困难。

相关技术中，可以通过基于分解的方法对不平衡数据进行分类。基于分解的方法是将多分类问题分解为多个二分类问题，然后逐次求解。在每个二分类问题中都采取固定分类方法进行分类。

但是上述方法灵活性较低，在不同数据集上的分类效果差异较大。

发明内容

鉴于上述问题，本申请实施例提供了一种基于蚁狮优化的缺失不平衡数据多分类方法、装置、电子设备和可读存储介质，以便克服上述问题或者至少部分地解决上述问题。

本申请实施例的第一方面，提供了一种基于蚁狮优化的缺失不平衡数据多分类方法，所述方法包括：

基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码；

基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码；

基于所述第一编码和各个所述第二编码生成多个迭代编码；

基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码；

从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合，得到目标分类器群；

基于所述目标分类器群识别所述第一待分类数据集的类别。

可选地，所述基于目标场景下的第一待分类数据集的缺失数据个数生成至少一个第一编码，包括：

确定所述第一待分类数据集中的缺失位置对应的特征类型；

基于所述第一待分类数据集的缺失数据个数和所述特征类型生成至少一个第一编码。

可选地，所述方法还包括：

在所述目标分类器群的正类预测结果和负类预测结果的不平衡比大于预设阈值的情况下，采用合成少数过采样算法生成新的样本数据并加入所述第一待分类数据集。

可选地，所述基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码，包括：

在蚁狮优化算法的迭代过程中，采用一致性检验指标算法计算蚂蚁和蚁狮的适应度；所述蚂蚁和所述蚁狮按蚁狮优化算法从所述迭代编码中选择。

可选地，所述基于所述目标分类器群识别所述第一待分类数据集的类别，包括：

在所述特征类型为离散类型的情况下，基于不重复的特征值的取值总个数，按预设顺序将所述第一编码对应的总取值区间划分为多个取值区间；其中，每个取值区间对应一个填补特征值；

基于所述第一编码与所述取值区间的对应关系生成离散类型的填补映射；

基于所述第一编码和所述填补映射确定所述第一编码对应的填补特征值；

将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置，得到第二待分类数据集；

基于所述目标分类器群识别所述第二待分类数据集的类别。

可选地，所述取值区间的下限值的大小与所述填补特征值的大小正相关。

在所述特征类型为连续类型的情况下，基于所述第一编码、所述第一待分类数据集中的最大特征值和第一待分类数据集中的最小特征值，计算填补特征值；

基于所述目标分类器群识别所述第二待分类数据集的类别。

可选地，所述基于所述第一编码、所述第一待分类数据集中的最大特征值和所述第一待分类数据集中的最小特征值，计算填补特征值，包括：

将所述最大特征值和最小特征值之差与所述第一编码相乘，得到第一特征值；

将所述第一特征值加上所述最小特征值，得到所述填补特征值。

可选地，所述目标场景包括：网络新闻数据的分类识别场景和医学图像数据的分类识别场景中的至少一个。

第二方面，本申请提供了一种基于蚁狮优化的缺失不平衡数据多分类装置，所述装置包括：

第一生成模块，用于基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码；

第二生成模块，用于基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码；

第三生成模块，用于基于所述第一编码和各个所述第二编码生成多个迭代编码；

优化模块，用于基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码；

第四生成模块，用于从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合，得到目标分类器群；

分类识别模块，用于基于所述目标分类器群识别所述第一待分类数据集的类别。

可选地，所述第一生成模块，包括：

第一确定子模块，用于确定所述第一待分类数据集中的缺失位置对应的特征类型；

第一生成子模块，用于基于所述第一待分类数据集的缺失数据个数和所述特征类型生成至少一个第一编码。

可选地，所述装置还包括：

过采样模块，用于在所述目标分类器群的正类预测结果和负类预测结果的不平衡比大于预设阈值的情况下，采用合成少数过采样算法生成新的样本数据并加入所述第一待分类数据集。

可选地，所述优化模块，包括：

第一计算子模块，用于在蚁狮优化算法的迭代过程中，采用一致性检验指标算法计算蚂蚁和蚁狮的适应度；所述蚂蚁和所述蚁狮按蚁狮优化算法从所述迭代编码中选择。

可选地，所述分类识别模块，包括：

划分子模块，用于在所述特征类型为离散类型的情况下，基于不重复的特征值的取值总个数，按预设顺序将所述第一编码对应的总取值区间划分为多个取值区间；其中，每个取值区间对应一个填补特征值；

第二生成子模块，用于基于所述第一编码与所述取值区间的对应关系生成离散类型的填补映射；

第二确定子模块，用于基于所述第一编码和所述填补映射确定所述第一编码对应的填补特征值；

第一填补子模块，用于将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置，得到第二待分类数据集；

第一识别子模块基于所述目标分类器群识别所述第二待分类数据集的类别。

可选地，所述分类识别模块，包括：

第二计算子模块，用于在所述特征类型为连续类型的情况下，基于所述第一编码、所述第一待分类数据集中的最大特征值和第一待分类数据集中的最小特征值，计算填补特征值；

第二填补子模块，用于将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置，得到第二待分类数据集；

第二识别子模块，用于基于所述目标分类器群识别所述第二待分类数据集的类别。

可选地，所述第二计算子模块，包括：

第一计算单元，用于将所述最大特征值和最小特征值之差与所述第一编码相乘，得到第一特征值；

第二计算单元，用于将所述第一特征值加上所述最小特征值，得到所述填补特征值。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如上任意一项所述的基于蚁狮优化的缺失不平衡数据多分类方法。

第四方面，本申请实施例提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上任意一项所述的基于蚁狮优化的缺失不平衡数据多分类方法。

具体的有益效果在于：

本申请实施例通过基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码，基于第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码，基于第一编码和各个第二编码生成多个迭代编码，基于蚁狮优化算法，从多个迭代编码中筛选得到适应度最大的目标迭代编码，从分类器库中抽取目标迭代编码对应的分类器进行组合，得到目标分类器群，基于目标分类器群识别第一待分类数据集的类别，能够根据待识别数据的特征类型生成多个迭代编码，采用蚁狮优化算法筛选最优迭代编码并生成相应的分类器群进行目标场景下的数据分类，提升了分类的灵活性和分类效果的稳定性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于蚁狮优化的缺失不平衡数据多分类方法的流程示意图；

图2是本申请实施例提供的一种迭代编码的示意图；

图3是本申请实施例提供的另一种基于蚁狮优化的缺失不平衡数据多分类方法的流程示意图；

图4是本申请实施例提供的一种基于蚁狮优化的缺失不平衡数据多分类装置的逻辑框图；

图5是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

参照图1，图1为本申请实施例提供的一种基于蚁狮优化的缺失不平衡数据多分类方法的流程示意图，所述方法包括：

步骤101，基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码。

在本申请的实施例中，可以通过Python程序在互联网上爬取所需的数据来获取第一待分类数据集，也可直接在相关网站中获取相关数据集形成第一待分类数据集。第一待分类数据集中的数据可以用于对分类器群进行训练。其中，目标场景的样本数据可以是目标场景的待识别数据，或是目标场景下的待识别数据集，目标场景可以包括但不限于网络新闻数据、环境评价指标数据以及医学图像数据等。

在本申请的实施例中，可以对第一待分类数据集进行数据缺失性检测，并对缺失的数据进行填补。其中，数据缺失是数据应用难以避免的问题，当没有为观察样本赋值时，就会出现数据缺失。在数据分析中，数据缺失往往会引入偏差，导致结果可信度降低，损害数据应用价值。

在本申请的实施例中，在检测到第一待分类数据集中存在缺失数据时，在该缺失位置处可以采用随机算法生成一个或多个填补编码。当第一待分类数据集中存在多个缺失数据时，可以将各个缺失位置对应的填补编码进行组合形成第一编码。第一编码可以是一个或多个。在进行填补编码的组合时，每个缺失位置对应的填补编码可以被选择一次以用来组合。若第一待分类数据集中存在M个缺失位置，则第一编码中可以包含M个填补编码。通常情况下，填补编码可以具备两位有效数字。

在本申请的实施例中，第一编码所包含的填补编码的范围区间为(0,1]。

例如，有一个数据集为a[i]=[1,2,2, ,3,2, ,1,1,1]，则在a[4]位置和a[7]位置都发生了数据缺失，此时可以在区间(0,1]内随机产生数字作为a[4]位置和a[7]位置的填补编码，产生的随机数可以具备两位有效数字，如a[4]的填补编码可以是0.71，a[7]的填补编码可以是0.60。这样就可以构成一个形式为[0.71,0.60]第一编码。

步骤102，基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码。

在本申请的实施例中，可以存在一个分类器库，分类器库中包含了本申请实施例所用到的所有分类器种类。其中，分类器的种类可以包括但不限于支持向量机分类器、随机森林分类器、决策树分类器、K-近邻分类器和朴素贝叶斯分类器等，本申请的技术方案中使用的分类器种类为以上五种。第二编码可以包括两部分编码，第一部分为权值编码，权值编码中的每个编码值都对应了一种分类器在分类过程中所占的权重，权值编码中所包含的权重的数量与第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数正相关；第二部分为置信度编码，用来评价各个分类器的分类结果，置信度编码中所包含的置信度的数量与第一待分类数据集的预设类别数正相关。一个权值编码和一个置信度编码可以进行随机组合以生成第二编码，重复上述过程，即可生成多个第二编码。

例如，若第一待分类数据集的预设类别数为N，分类器库所包含的分类器的类别数为5，则权值编码中所包含的权重的数量为5N，置信度编码所包含的置信度的数量为N。

步骤103，基于所述第一编码和各个所述第二编码生成多个迭代编码。

在本申请的实施例中，第一编码和第二编码之间可以进行随机组合，从而可以生成迭代编码。一个迭代编码中可以包含一个第一编码和一个第二编码。迭代编码可以按照第一编码-第二编码的形式进行排列。排列完成后，还可以给迭代编码中的每个数值生成序号。

例如，如图2所示，图2为本申请实施例提供的一种迭代编码的示意图。在第一待分类数据集中存在m个缺失数据，因此可以随机生成m个第一编码；假设第一待分类数据集的预设类别数为n，且分类器库中共包含5种分类器，则可以生成5n个权值和n个置信度，其中5n个权值可以构成一个权值编码，n个置信度可以构成一个置信度编码，一个权值编码和一个置信度编码组合可以构成一个第二编码。图中，1、m、m+1等均为编码序号，并不是实际的编码值。

步骤104，基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码。

在本申请的实施例中，蚁狮优化算法（Ant Lion Optimization，ALO）是一种模拟自然界中蚁狮捕食蚂蚁的行为的优化算法。该算法利用了蚁狮在捕食前的狩猎机制，通过引入蚂蚁的随机游走、轮盘赌策略及精英策略，使得算法具有种群多样、寻优性能强、调节参数少、易于实现的特点。在蚁狮优化算法中，有两种主要的个体：蚁狮和蚂蚁。每个个体都代表了一个可行解。初始时，随机生成一定数量的蚁狮和蚂蚁，并分别放置在搜索空间中不同位置。在每一次迭代中，每个蚂蚁都会随机选择一个陷阱（即一个最优或次优的解），并向其移动。移动过程中，它们会受到陷阱周围环境和自身惯性的影响。同时，每个陷阱也会根据其深度和吸引力进行更新。当所有的迭代完成后，最深的陷阱所对应的解就是最优解。在本申请实施例中的蚁狮优化算法中，蚂蚁和蚁狮的随机游走按式1进行：

（式1）

式1中，t为当前迭代次数，T为最大迭代次数，X(t)表示随机游走位置，cumsum表示随机游走步长的累加和，r为随机游走步长的生成函数，其计算为，其中rand表示位于(0,1)之间的随机数。

陷阱迭代过程可以按照式2进行：

（式2）

式2中，c和d表示个体各维度值的上界和下界，c^t和d^t分别表示第t次迭代中蚂蚁各维度值搜索范围的上界和下界。其中，I的计算公式如下式3所示：

（式3）

式3中，w的值取决于当前迭代数t，t≤0.1T时，w=0；t＞0.1T时，w=2；t＞0.5T则w=3；t＞0.75T则w=4；当t＞0.9T时，w=5；当t＞0.95T时，w=6，从而使得10^w呈现分段指数递增趋势。

在使用蚁狮优化算法进行迭代编码的迭代过程中，可以对迭代编码中所包含的数值进行更新，从而可以得到新的迭代编码。也就是说，通过蚁狮优化算法筛选得到的适应度最大的目标迭代编码可以不是初始生成的迭代编码。

在本申请的实施例中，筛选的过程可以简单总结如下：首先把迭代编码分为蚂蚁和蚁狮两类，然后计算一次迭代编码的适应度，将适应度最大的蚂蚁或蚁狮确定为精英蚁狮。然后为蚂蚁设置随机游走函数，为蚁狮设置陷阱更新函数，然后再计算一次各个分类器群的适应度。若各个分类器群的适应度的最大值超过了精英蚁狮的适应度，就将适应度的最大值对应的蚂蚁或蚁狮确定为新的精英蚁狮。这样迭代预设次数之后，就可以获得适应度最大的精英蚁狮，也就是适应度最大的迭代编码。最后，可以将最大适应度对应的迭代编码作为目标迭代编码。其中，可以采用Kappa值作为迭代编码的适应度。

步骤105，从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合，得到目标分类器群。

在本申请的实施例中，根据步骤102和步骤103的实施例内容可知，迭代编码中所包含的权值编码可以对应分类器的种类。因此，可以从分类器库中抽取相应种类的分类器进行组合，从而可以得到目标分类器群。其中，每种分类器的个数可以预先设定。

在本申请的实施例中，由于分类器本质上是一种机器学习模型，因此，可以通过第一待分类数据集对每种分类器都预先进行训练，从而能够得到训练好的分类器。对分类器的训练过程与常规的机器学习训练过程类似，此处不再赘述。

例如，若迭代编码中只对应了三种分类器，设定分类器1的个数为a，分类器2的个数为b，分类器3的个数为c，则通过该迭代编码生成的分类器群的分类器个数为a+b+c。

步骤106，基于所述目标分类器群识别所述第一待分类数据集的类别。

在本申请的实施例中，在获得目标分类器群之后，可以使用目标分类器群对目标场景下待识别数据进行识别和分类，从而可以得到目标场景下待识别数据的分类结果。

例如，对于新闻类数据来说，可以分为政治类新闻、经济类新闻、科技类新闻、文化类新闻、社会类新闻等。如果目标场景为待识别的网络新闻数据，则对于目标分类器群来说，在获取到新闻类数据后，可以对新闻类数据进行关键字识别，若识别到的关键字中，政治类占比较大，则可以将该新闻类数据识别为政治类新闻。

在本申请的实施例中，通过基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码，基于第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码，基于第一编码和各个第二编码生成多个迭代编码，基于蚁狮优化算法，从多个迭代编码中筛选得到适应度最大的目标迭代编码，从分类器库中抽取目标迭代编码对应的分类器进行组合，得到目标分类器群，基于目标分类器群识别第一待分类数据集的类别，能够根据待识别数据的特征类型生成多个迭代编码，采用蚁狮优化算法筛选最优迭代编码并生成相应的分类器群进行目标场景下的数据分类，提升了分类的灵活性和分类效果的稳定性。

参照图3，图3为本申请实施例提供的另一种基于蚁狮优化的缺失不平衡数据多分类方法的流程示意图，该方法可以包括：

步骤201，确定所述第一待分类数据集中的缺失位置对应的特征类型。

在本申请的实施例中，可以根据第一待分类数据集中其他数据的特征类型来确定缺失位置对应的数据特征类型。若数据中的不重复特征值的个数与样本数量的比例小于1/3，则缺失位置对应的数据特征为离散类型，否则为连续类型。

沿用步骤101的示例，若数据集为a[i]=[1,2,2, ,3,2, ,1,1,1]，则不重复特征为1、2、3，总数据量为i=10，3/10小于1/3，因此缺失位置对应的特征类型为离散类型。

步骤202，基于所述第一待分类数据集的缺失数据个数和所述特征类型生成至少一个第一编码。

在本申请的实施例中，在特征类型为离散类型的情况下，可以采用随机算法在缺失位置处生成第一编码。随机数的范围为(0,1]，可以直接将缺失位置处产生的随机数作为该缺失位置的第一编码。若第一待分类数据集的缺失位置对应的特征类型为连续类型，则可以获取缺失位置的个数，然后将随机数的范围区间按照缺失位置的个数进行均分，将均分后的区间上限作为各个缺失位置的第一编码。

例如，若第一训练集中的特征类型为连续类型，且存在10个缺失位置，则第一个缺失位置对应的第一编码为0.1，第二个缺失位置对应的第一编码为0.2，依次类推。

在本申请的实施例中，通过确定第一待分类数据集中的缺失位置对应的特征类型，基于第一待分类数据集的缺失数据个数和特征类型生成至少一个第一编码，能够根据第一待分类数据集中的数据特征类型生成相应的第一编码，提升了第一编码的可用性。

步骤203，基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码。

在本申请的实施例中，本步骤的实施内容可参考步骤102的实施例内容，此处不再赘述。

步骤204，基于所述第一编码和各个所述第二编码生成多个迭代编码。

在本申请的实施例中，本步骤的实施内容可参考步骤103的实施例内容，此处不再赘述。

步骤205，基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码。

在本申请的实施例中，本步骤的实施内容可参考步骤104的实施例内容，此处不再赘述。

可选地，步骤205中，可以包括以下子步骤：

子步骤2051，在训练过程中，采用一致性检验指标算法计算蚂蚁和蚁狮的适应度；所述蚂蚁和所述蚁狮按蚁狮优化算法从种群编码对应的分类器群中选择。

在本申请的实施例中，一致性检验指标可以是Kappa指标，用于衡量分类或测量标度间观察者的一致性。Kappa值的计算方法如下所示：

Kappa值=(实际一致性-预期一致性)/(1-预期一致性)。

其中，预期一致性和实际一致性的值都可以通过分类类别数据建立的混淆矩阵计算得出。

在本申请的实施例中，通过在训练过程中，采用一致性检验指标算法计算蚂蚁和蚁狮的适应度；所述蚂蚁和所述蚁狮按蚁狮优化算法从种群编码对应的分类器群中选择，可以采用一致性检验指标作为分类器群个体的适应度，提升了分类器群的迭代效率。

步骤206，从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合，得到目标分类器群。

在本申请的实施例中，本步骤的实施内容可参考步骤105的实施例内容，此处不再赘述。

步骤207，基于所述目标分类器群识别所述第一待分类数据集的类别。

在本申请的实施例中，本步骤的实施内容可参考步骤106的实施例内容，此处不再赘述。

可选地，步骤207中，可以包括以下子步骤：

子步骤2071，在所述特征类型为离散类型的情况下，基于不重复的特征值的取值总个数，按预设顺序将所述第一编码对应的总取值区间划分为多个取值区间；其中，每个取值区间对应一个填补特征值。

在本申请的实施例中，若第一待分类数据集中的特征类型为离散类型，则可以获取第一待分类数据集中不重复的特征值的取值总个数，然后基于该取值总个数将第一编码对应的总取值区间均分为多个取值区间，然后将不重复的特征值由小到大进行排列，并与上述多个取值区间对应。

例如，若第一待分类数据集中含有0，1，2，3共4个不重复的特征值，则建立如下取值映射，当编码值位于(0，0.25]之间时，填补值为0，位于(0.25,0.5]之间时，填补值为1，以此类推。

子步骤2072，基于所述第一编码与所述取值区间的对应关系生成离散类型的填补映射。

在本申请的实施例中，在得到第一编码与取值区间的对应关系后，可以建立离散类型的填补映射。其中，若第一编码包含多个填补编码，则可以用填补编码替代第一编码进行计算。

沿用上述示例，填补映射可以是(0，0.25]—1，(0.25,0.5]—2，以此类推。

子步骤2073，基于所述第一编码和所述填补映射确定所述第一编码对应的填补特征值。

在本申请的实施例中，在确定离散类型的填补映射之后，可以根据随机生成的第一编码确定相应缺失位置对应的填补特征值。其中，若第一编码包含多个填补编码，则可以用填补编码替代第一编码进行计算。

沿用上述示例，若缺失位置处的第一编码为0.1，则该缺失位置的填补特征值为1；若缺失位置出处的第一编码为0.8，则该缺失位置的填补特征值为4。

子步骤2074，将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置，得到第二待分类数据集。

在本申请的实施例中，在得到补特征值之后，可以将填补特征值添加进第一待分类数据集对应的缺失位置处，从而可以得到第二待分类数据集。

优选地，在本申请的实施例中，取值区间的下限值的大小与填补特征值的大小正相关。

子步骤2075，基于所述目标分类器群识别所述第二待分类数据集的类别。

在本申请的实施例中，可以通过目标分类器群识别第二待分类数据集的类别。由于第二待分类数据集所包含的数据特征值与第一待分类数据集相同，因此，本步骤相关的实施内容可参考步骤106的实施例内容，此处不再赘述。

在本申请的实施例中，通过在特征类型为离散类型的情况下，基于不重复的特征值的取值总个数，按预设顺序将第一编码对应的总取值区间划分为多个取值区间；其中，每个取值区间对应一个填补特征值，基于第一编码与取值区间的对应关系生成离散类型的填补映射，基于第一编码和填补映射确定第一编码对应的填补特征值，将填补特征值添加进第一待分类数据集中对应的缺失位置，得到第二待分类数据集，基于目标分类器群识别第二待分类数据集的类别，能够对第一待分类数据集补齐数据增加数据的丰富度，提升了目标分类器群分类的准确性和可靠性。

子步骤2076，在所述特征类型为连续类型的情况下，基于所述第一编码、所述第一待分类数据集中的最大特征值和第一待分类数据集中的最小特征值，计算填补特征值。

在本申请的实施例中，若特征类型为连续类型，则可以首先获取第一待分类数据集中的最大特征值和最小特征值，然后可以基于第一编码、第一待分类数据集中的最大特征值和最小特征值计算该缺失位置处的填补特征值。第一编码与填补特征值的关系如下：

填补特征值=第一编码×(最大特征值-最小特征值)+最小特征值。

其中，若第一编码包含多个填补编码，则可以用填补编码替代第一编码进行计算。

可选地，子步骤2076中，可以包括以下子步骤：

子步骤A1，将所述最大特征值和最小特征值之差与所述第一编码相乘，得到第一特征值。

在本申请的实施例中，可以将第一待分类数据集中的最大特征值和最小特征值相减，然后将相减的结果与第一编码相乘，得到第一特征值。

子步骤A2，将所述第一特征值加上所述最小特征值，得到所述填补特征值。

在本申请的实施例中，可以将第一特征值与第一待分类数据集的最小特征值相加，得到与第一编码相对应的填补特征值。

在本申请的实施例中，通过将最大特征值和最小特征值之差与第一编码相乘，得到第一特征值，将第一特征值加上最小特征值，得到填补特征值，能够通过第一特征值计算得到填补特征值，提升了连续类型对应的填补特征值的可用性。

子步骤2077，将所述填补特征值添加进所述第一待分类数据集中对应的缺失位置，得到第二待分类数据集。

在本申请的实施例中，本步骤的实施内容可参考步骤2074的实施例内容，此处不再赘述。

子步骤2078，基于所述目标分类器群识别所述第二待分类数据集的类别。

在本申请的实施例中，本步骤的实施内容可参考步骤2075和步骤106的实施例内容，此处不再赘述。

在本申请的实施例中，通过在特征类型为连续类型的情况下，基于第一编码、第一待分类数据集中的最大特征值和第一待分类数据集中的最小特征值，计算填补特征值，将填补特征值添加进第一待分类数据集中对应的缺失位置，得到第二待分类数据集，基于目标分类器群识别第二待分类数据集的类别，能够在特征类型为连续类型时对第一待分类数据集进行数据填补以增加数据的丰富度，提升了目标分类器群分类的准确性和可靠性。

步骤208，在所述目标分类器群的正类预测结果和负类预测结果的不平衡比大于预设阈值的情况下，采用合成少数过采样算法生成新的样本数据并加入所述第一待分类数据集。

在本申请的实施例中，可以获取目标分类器群对第一待分类数据集的分类结果。若将目标分类器群的分类结果看做一个二分类结果，则在正类预测结果和负类预测结果的比值大于预设阈值的情况下，可以认为第一待分类数据集为不平衡数据集，此时可以对负类预测结果对应的少数类数据进行过采样，之后将过采样得到的数据添加进第一待分类数据集中，以增加第一待分类数据集中所包含的少数类数据的数据量。

在本申请的实施例中，通过在目标分类器群的正类预测结果和负类预测结果的不平衡比大于预设阈值的情况下，采用合成少数过采样算法生成新的样本数据并加入第一待分类数据集，可以在少数类数据过少时提升少数类数据的数据量，提升了目标分类器群对不平衡数据的分类效果。

优选地，在本申请的实施例中，目标场景可以包括网络新闻数据的分类识别场景和医学图像数据的分类识别场景中的至少一个。

在本申请的实施例中，网络新闻数据的分类识别内容可参考步骤107的实施例内容。

在本申请的实施例中，医学图像数据可以包括医学CT图像数据，在医学CT图像数据的分类识别场景中，可以将实际CT图像与各种疾病的病灶图像进行模板匹配，若匹配成功，则可以确认该CT图像对应的疾病为相匹配的病灶对应的疾病。

参照图4，图4为本申请实施例提供的一种基于蚁狮优化的缺失不平衡数据多分类装置的逻辑框图，所述基于蚁狮优化的缺失不平衡数据多分类装置400可以包括：

第一生成模块401，用于基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码；

第二生成模块402，用于基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码；

第三生成模块403，用于基于所述第一编码和各个所述第二编码生成多个迭代编码；

优化模块404，用于基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码；

第四生成模块405，用于从所述分类器库中抽取所述目标迭代编码对应的分类器进行组合，得到目标分类器群；

分类识别模块406，用于基于所述目标分类器群识别所述第一待分类数据集的类别。

可选地，所述第一生成模块401，包括：

可选地，所述装置400还包括：

可选地，所述优化模块404，包括：

可选地，所述分类识别模块406，包括：

可选地，所述第二计算子模块，包括：

本申请实施例中的基于蚁狮优化的不平衡数据多分类装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为GPU BOX、手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置（Mobile Internet Device，MID）、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本或者个人数字助理（personaldigital assistant，PDA）等，还可以为服务器、网络附属存储器（Network AttachedStorage，NAS）、个人计算机（personal computer，PC）、电视机（television，TV）、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的基于蚁狮优化的不平衡数据多分类装置可以为具有操作***的装置。该操作***可以为安卓（Android）操作***，可以为Linux、Windows操作***等，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的基于蚁狮优化的不平衡数据多分类装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供一种电子设备，参见图5，所述电子设备50包括：处理器501、存储器502以及存储在所述存储器502上并可在所述处理器501上运行的计算机程序5021，所述处理器501执行所述程序时实现前述实施例的基于蚁狮优化的不平衡数据多分类方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如本申请实施例公开的基于蚁狮优化的不平衡数据多分类方法中的步骤。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使处理器执行时实现如本申请实施例所公开的基于蚁狮优化的不平衡数据多分类方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种面向深度学习应用的资源解耦合***、执行方法和设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述方法包括：

基于所述第一编码和各个所述第二编码生成多个迭代编码；

基于所述目标分类器群识别所述第一待分类数据集的类别；

所述基于目标场景下第一待分类数据集的缺失数据个数生成至少一个第一编码，包括：

在目标场景下第一待分类数据集的各个数据缺失位置处生成至少一个填补编码；

在所述第一待分类数据集的缺失数据个数为多个的情况下，将所述填补编码进行组合，得到至少一个第一编码；

所述基于所述第一待分类数据集的预设类别数和分类器库所包含的分类器的类别数生成多个第二编码，包括：

基于所述第一待分类数据集的预设类别数、分类器库所包含的分类器的类别数和各个所述分类器分别对应的权重值生成权值编码；

基于所述第一待分类数据集的预设类别数和各个所述分类器分别对应的分类结果置信度生成置信度编码；

将所述权值编码和所述置信度编码进行组合，得到第二编码；

所述基于蚁狮优化算法，从所述多个迭代编码中筛选得到适应度最大的目标迭代编码，包括：

在蚁狮优化算法的迭代过程中，采用一致性检验指标算法计算蚂蚁和蚁狮的适应度；所述蚂蚁和所述蚁狮按蚁狮优化算法从所述迭代编码中选择；

所述基于所述目标分类器群识别所述第一待分类数据集的类别，包括：

在所述第一待分类数据集中的缺失位置对应的特征类型为离散类型的情况下，基于不重复的特征值的取值总个数，按预设顺序将所述第一编码对应的总取值区间划分为多个取值区间；其中，每个取值区间对应一个填补特征值；

基于所述目标分类器群识别所述第二待分类数据集的类别。

2.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述基于目标场景下的第一待分类数据集的缺失数据个数生成至少一个第一编码，包括：

确定所述第一待分类数据集中的缺失位置对应的特征类型；

3.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述取值区间的下限值的大小与所述填补特征值的大小正相关。

5.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述基于所述目标分类器群识别所述第一待分类数据集的类别，包括：

基于所述目标分类器群识别所述第二待分类数据集的类别。

6.根据权利要求5所述的一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述基于所述第一编码、所述第一待分类数据集中的最大特征值和所述第一待分类数据集中的最小特征值，计算填补特征值，包括：

7.根据权利要求1所述的一种基于蚁狮优化的缺失不平衡数据多分类方法，其特征在于，所述目标场景包括：网络新闻数据的分类识别场景和医学图像数据的分类识别场景中的至少一个。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7任意一项所述的基于蚁狮优化的缺失不平衡数据多分类方法。