CN112148765B

CN112148765B - 业务数据的处理方法、装置及存储介质

Info

Publication number: CN112148765B
Application number: CN201910576727.7A
Authority: CN
Inventors: 杨海华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2024-04-09
Anticipated expiration: 2039-06-28
Also published as: CN112148765A

Abstract

本申请提供一种业务数据的处理方法、装置及存储介质，其中，该方法包括：获取待处理的业务数据，该业务数据具有至少两个数据特征且业务数据中所包含的总数据样本具有时间标记，根据时间标记对业务数据中所包含的总数据样本按照时间段进行划分得到与各时间段分别对应的分桶数据样本，针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，进而计算该业务数据的各数据特征的第一波动幅度，根据该业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到业务数据的关键特征。该技术方案在特征筛选的过程中将时间维度作为考虑因素，解决了由于特征随着时间偏移会发生改变的问题，提高筛选特征的准确性。

Description

业务数据的处理方法、装置及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种业务数据的处理方法、装置及存储介质。

背景技术

随着人工智能技术的蓬勃发展，机器建模成为人工智能领域的一个重要方面，而如何从海量数据的多维特征中筛选出稳定且重要的特征用于机器建模是提高模型性能的关键。

现有技术中，通常基于某个单一的特征的性能指标和预设的划分阈值实现特征的过滤。基于这种方法进行特征筛选时，通常只考虑某一时刻的待筛选特征在处理样本中的重要性，未考虑到数据的特征随着时间的漂移会发生改变，存在所筛选的特征不准确的问题。

发明内容

本申请提供一种业务数据的处理方法、装置及存储介质，以克服现有特征过滤方法中存在的所筛选的特征不准确的问题。

本申请第一方面提供的一种业务数据的处理方法，包括：

获取待处理的业务数据，所述业务数据具有至少两个数据特征且所述业务数据中所包含的总数据样本具有时间标记；

根据所述时间标记，对所述业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本；

针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，所述第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值；

根据每个分桶数据样本中每个数据特征的第一统计值，计算所述业务数据的各数据特征的第一波动幅度；

根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

在第一方面的一种可能实现方式中，所述根据每个分桶数据样本中每个数据特征的第一统计值，计算所述业务数据的各数据特征的第一波动幅度，包括：

针对每个数据特征，计算所述数据特征对应的第一统计值的平均值；

针对每个数据特征，根据所述数据特征对应的第一统计值与所述第一统计值对应的平均值，得到所述业务数据的各数据特征的第一波动幅度。

在第一方面的另一种可能实现方式中，所述根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征，包括：

从全部数据特征中过滤掉第一波动幅度大于预设阈值的数据特征，得到所述业务数据的关键特征。

在第一方面的再一种可能实现方式中，所述根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征之前，还包括：

采用重要性分析模型，计算所述业务数据的各数据特征的重要性得分；

相应的，所述根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征，包括：

根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

在第一方面的上述可能实现方式中，所述根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征，包括：

针对每个数据特征，根据所述数据特征的重要性得分和第一波动幅度，得到各数据特征对应的综合指标值；

根据各数据特征的综合指标值和预设阈值，得到所述业务数据的关键特征。

在第一方面的又一种可能实现方式中，所述采用重要性分析模型，计算所述业务数据的各数据特征的重要性得分，包括：

针对每个分桶数据样本，采用重要性分析模型计算各数据特征分别对应的重要性得分；

根据每个分桶数据样本中每个数据特征的重要性得分，计算业务数据的各数据特征的第二波动幅度；

相应的，所述根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征，包括：

根据所述业务数据的各数据特征的第二波动幅度以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

计算所述业务数据的各数据特征分别对应的总特征概率，所述总特征概率表征各数据特征在所述总数据样本中出现的概率；

针对每个数据特征，计算所述数据特征在所述业务数据所对应的每个分桶数据样本中出现的分桶特征概率；

针对每个数据特征，根据所述数据特征所在的各个分桶数据样本总数以及所述业务数据中所包含的总数据样本的总个数，确定出各个分桶数据样本对应的第二统计值，所述第二统计值为对应分桶数据样本总数与总数据样本总数的比值；

根据所述数据特征在业务数据所对应的每个分桶数据样本中出现的分桶特征概率和各个分桶数据样本对应的第二统计值，确定所述数据特征在业务数据中出现的条件特征概率；

根据各数据特征在所述业务数据中出现的条件特征概率和所述业务数据的各数据特征分别对应的总特征概率，确定出所述业务数据的各数据特征的重要性得分。

本申请第二方面提供一种业务数据的处理装置，包括：获取模块、划分模块、处理模块和确定模块；

所述获取模块，用于获取待处理的业务数据，所述业务数据具有至少两个数据特征且所述业务数据中所包含的总数据样本具有时间标记；

所述划分模块，用于根据所述时间标记，对所述业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本；

所述处理模块，用于针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，所述第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值，以及根据每个分桶数据样本中每个数据特征的第一统计值，计算所述业务数据的各数据特征的第一波动幅度；

所述确定模块，用于根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

在第二方面的一种可能实现方式中，所述处理模块，具体用于针对每个数据特征，计算所述数据特征对应的第一统计值的平均值，针对每个数据特征，根据所述数据特征对应的第一统计值与所述第一统计值对应的平均值，得到所述业务数据的各数据特征的第一波动幅度。

在第二方面的另一种可能实现方式中，所述确定模块，具体用于从全部数据特征中过滤掉第一波动幅度大于预设阈值的数据特征，得到所述业务数据的关键特征。

在第二方面的再一种可能实现方式中，所述处理模块，还用于在所述确定模块根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征之前，采用重要性分析模型，计算所述业务数据的各数据特征的重要性得分；

相应的，所述确定模块，具体用于根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

在第二方面的上述可能实现方式中，所述确定模块，具体用于针对每个数据特征，根据所述数据特征的重要性得分和第一波动幅度，得到各数据特征对应的综合指标值，根据各数据特征的综合指标值和预设阈值，得到所述业务数据的关键特征。

在第二方面的又一种可能实现方式中，所述处理模块，具体用于针对每个分桶数据样本，采用重要性分析模型计算各数据特征分别对应的重要性得分，根据每个分桶数据样本中每个数据特征的重要性得分，计算业务数据的各数据特征的第二波动幅度；

相应的，所述确定模块，具体用于根据所述业务数据的各数据特征的第二波动幅度以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

在第二方面的又一种可能实现方式中，所述处理模块，具体用于执行如下步骤：

本申请第三方面提供一种业务数据的处理装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面以及第一方面各种可能实现方式中任一项所述的方法。

本申请第四方面提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述第一方面以及第一方面各种可能实现方式中任一项所述的方法。

本申请第五方面提供一种程序产品，包括：计算机程序，所述计算机程序存储在可读存储介质中，至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时用于第一方面以及第一方面各种可能实现方式中任一项所述的方法。

本申请实施例提供的业务数据的处理方法、装置及存储介质，通过获取待处理的业务数据，该业务数据具有至少两个数据特征且业务数据中所包含的总数据样本具有时间标记，根据时间标记，对业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本，再针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，该第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值，最后根据每个分桶数据样本中每个数据特征的第一统计值，计算该业务数据的各数据特征的第一波动幅度，根据该业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到业务数据的关键特征。该技术方案在特征筛选的过程中考虑了时间维度，解决了由于特征随着时间偏移会发生改变的问题，提高筛选特征的准确性。

附图说明

图1为本申请实施例提供的业务数据的处理方法实施例一的流程图；

图2为本申请实施例提供的业务数据的处理方法实施例二的流程图；

图3为本申请实施例提供的业务数据的处理方法实施例三的流程图；

图4为本申请实施例提供的业务数据的处理方法实施例四的流程图；

图5为本申请实施例提供的业务数据的处理装置实施例一的结构示意图；

图6为本申请实施例提供的业务数据的处理装置实施例二的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例针对现有技术由于数据的特征随着时间的漂移会发生改变，致使所筛选的特征不准确的问题，提出了一种业务数据的处理方法、装置及存储介质，通过获取待处理的业务数据，该业务数据具有至少两个数据特征且业务数据中所包含的总数据样本具有时间标记，根据时间标记，对业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本，再针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，该第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值，最后根据每个分桶数据样本中每个数据特征的第一统计值，计算该业务数据的各数据特征的第一波动幅度，根据该业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到业务数据的关键特征。该技术方案在特征筛选的过程中考虑了时间维度，解决了由于特征随着时间偏移会发生改变的问题，提高筛选特征的准确性。

可以理解的是，本申请实施例的执行主体可以是电子设备，例如，终端设备，也可以是服务器，例如，后台的处理平台等，其可以根据实际情况确定，此处不再赘述。

下面通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的业务数据的处理方法实施例一的流程图。如图1所示，本申请实施例提供的业务数据的处理方法，可以包括如下步骤：

步骤11：获取待处理的业务数据，该业务数据具有至少两个数据特征且该业务数据中所包含的总数据样本具有时间标记。

通常情况下，数据通常具有较多的特征维度，也即数据特征，为了在实际应用中构建一个性能优良的数据模型，需要对数据具有的数据特征进行筛选，过滤掉稳定性差或重要性差的特征，得到数据的关键特征，并利用具有关键特征的数据进行建模。

可选的，在实际应用中，由于数据具有的特征通常并不是一成不变的，而是随着时间的偏移，稳定性和重要性发生改变，致使原来的非关键特征变成关键特征，而关键特征变成非关键特征，所以，本申请实施例可以针对具有时间标记的数据样本进行处理。

在本实施例的技术方案可以针对多种类型的数据进行处理，例如，业务数据和非业务数据，业务数据可以包括通信业务数据、金融业务数据、教育业务数据等多种类型，非业务数据可以是用户信息数据等不参与业务处理的一些数据，本申请实施例并不对业务数据和非业务数据的具体分类进行限定。本实施例针对业务数据进行解释说明。

在本实施例中的待处理的业务数据需要具体如下特性，即该业务数据具有至少两个数据特征且该业务数据中所包含的总数据样本具有时间标记，这样后续才可能基于时间标记对获取到的业务数据进行处理，并从业务数据具有的多个数据特征中筛选出关键特征。

步骤12：根据上述时间标记，对业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本。

示例性的，在本实施例中，由于业务数据中所包含的总数据样本具有时间标记，因而，可以基于每个数据样本具有的时间标记，将所有的总数据样本按照时间段划分到多个桶中，每个桶对应一个时间段，进而得到与各时间段分别对应的分桶数据样本。

值得说明的是，本实施例中的桶实际上为本领域中所述的集合，也即，在本实施例中，可以将业务数据所包含的总数据样本划分成多个数据集合，每个数据集合中包括的多个数据样本的时间标记均处于对应的时间段内。

步骤13：针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，该第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值。

在本实施例中，针对每个分桶数据样本执行相同的操作，也即，对于每个分桶数据样本，统计业务数据具有的每个数据特征的第一统计值。

具体的，对于每个数据特征，统计具有该数据特征的数据样本数以及该分桶数据样本的总数据样本数，该具有该数据特征的数据样本数与该分桶数据样本的总数据样本数的比值即为该数据特征在该分桶数据样本中的第一统计值。

步骤14：根据每个分桶数据样本中每个数据特征的第一统计值，计算该业务数据的各数据特征的第一波动幅度。

在本实施例中，通过上述步骤13的方法可以确定出每个分桶数据样本中每个数据特征的第一统计值，这时，对于业务数据的每个数据特征，可以首先计算每个数据特征对应第一统计值的平均值，再计算各个数据特征的第一波动幅度。

具体的，该步骤14可以通过如下方式实现：

A1：针对每个数据特征，计算该数据特征对应的第一统计值的平均值。

在本实施例中，将该数据特征在所有分桶数据样本中的第一统计值进行相加，得到第一统计值的和，再利用第一统计值的和除以分桶的数量得到该数据特征对应的第一统计值的平均值。

A2：针对每个数据特征，根据该数据特征对应的第一统计值与该第一统计值的平均值，得到该业务数据的各数据特征的第一波动幅度。

示例性的，本实施例可以利用概率论中方差或均方差等来度量每个数据特征的第一统计值和其平均值之间的偏离程度。即，本申请中的第一波动幅度可以为第一均方差或第一方差。

在本步骤中，针对每个数据特征，计算该数据特征对应的第一统计值与该平均值之间的差值的平方的平均数，得到该业务数据的各数据特征的第一方差。相应的，对第一方差开平方取绝对值后为第一均方差。

值得说明的是，本申请实施例并不限定第一波动幅度的具体表现形式，在其他实施例中，该第一波动幅度还可以直接用上述第一统计值的平均值来表示，此处不再赘述。

步骤15：根据该业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到业务数据的关键特征。

在本实施例中，当各个数据特征对应的第一统计值在各个分桶数据样本中差距较大(即数据特征的第一统计值在其平均值附近波动较大)时，各第一统计值与平均值的差的平方和较大，均方差或方差就较大；当各个数据特征对应的第一统计值在各个分桶数据样本中差距较小时，各第一统计值与平均值的差的平方和较小，均方差或方差就较小。因此，第一波动幅度越大，数据特征的波动越大，第一波动幅度越小，数据特征的波动越小。

示例性的，可以基于上述计算出的各个数据特征对应的第一波动幅度，将第一波动幅度较大的数据特征从业务数据具有的数据特征中过滤掉，从而得到业务数据的关键特征。

作为一种可能实现方式，该步骤15可以通过如下方式实现：

从全部数据特征中过滤掉第一波动幅度大于预设阈值的数据特征，得到业务数据的关键特征。

具体的，在业务数据的处理过程中，可以首先设定一个预设阈值，因而，在得到各个数据特征对应的第一波动幅度后，可以将第一波动幅度大于预设阈值的数据特征从全部数据特征中过滤掉，进而得到上述业务数据的关键特征。

可以理解的是，在本实施例中，预设阈值的具体取值可以根据实际情况确定，此处不再赘述。

本申请实施例提供的业务数据的处理方法，通过获取待处理的业务数据，该业务数据具有至少两个数据特征且业务数据中所包含的总数据样本具有时间标记，根据时间标记对业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本，再针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，该第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值，最后根据每个分桶数据样本中每个数据特征的第一统计值，计算该业务数据的各数据特征的第一波动幅度，根据该业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到业务数据的关键特征。该技术方案在特征筛选的过程中考虑了时间维度，解决了由于特征随着时间偏移会发生改变的问题，提高筛选特征的准确性。

示例性的，在上述实施例的基础上，图2为本申请实施例提供的业务数据的处理方法实施例二的流程图。如图2所示，在上述步骤15之前，本申请实施例提供的业务数据的处理方法还可以包括如下步骤：

步骤21：采用重要性分析模型，计算该业务数据的各数据特征的重要性得分。

示例性的，在本申请的实施例中，为了避免单一处理方法的特征过滤不准确，在通过图1所示实施例中的步骤11至步骤14计算出该业务数据的各数据特征的第一波动幅度之后，在对全部数据特征进行特征过滤之前，还可以采用重要性分析模型计算业务数据的各数据特征的重要性得分。

可以理解的是，数据特征的重要性得分越高，表明该数据特征越重要，随着重要性得分的降低，重要程度逐渐减小。

示例性的，该重要性分析模型可以是采用与本实施例的业务数据相同类型的数据训练得到的，因而，在本实施例中，可以将获取到的业务数据输入到该重要性分析模型中，利用该重要性分析模型对业务数据的各数据特征进行重要性得分。

关于该步骤的具体实现方式可以参见下述图4所示实施例的记载，此处不再赘述。

相应的，上述步骤15可以替换为如下步骤：

步骤22：根据该业务数据的各数据特征的重要性得分以及业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到该业务数据的关键特征。

在实施例中，在得到业务数据中各个数据特征对应的第一波动幅度以及各数据特征的重要性得分之后，在同时考虑各数据特征的重要性得分以及第一波动幅度的情况下，对业务数据具有的全部数据特征进行特征排序和特征过滤，尽可能的将稳定差且得分低的数据特征从所有数据特征中滤除，进而得到稳定好且得分高的关键特征。

值得说明的是，在本实施例中，由于各数据特征的第一统计值均为介于0和1之间的数值，因此，各数据特征的第一波动幅度和重要性得分均为介于0和1之间的数值。

示例性的，该步骤22可以通过如下步骤实现：

B1：针对每个数据特征，根据该数据特征的重要性得分和第一波动幅度，得到各数据特征对应的综合指标值。

在本实施例中，作为一种示例，针对每个数据特征，对重要性得分以及第一波动幅度进行求和处理，得到各数据特征对应的综合指标值。

B2：根据各数据特征的综合指标值和预设阈值，得到业务数据的关键特征。

由上述分析可知，若某个数据特征的第一波动幅度越大，表明该数据特征越不稳定，数据特征的重要性得分越高，表明该数据特征越重要。通常情况下，将每个数据特征的重要性得分以及第一波动幅度进行求和处理可以得到各数据特征对应的综合指标值。

但是，对于某些特殊数据特征，例如，重要性得分比较高且第一波动幅度较小的数据特征，直接将求和处理得到的各数据特征对应的综合指标值与预设阈值进行相比，可能将这类数据特征错误的过滤掉，从而出现将关键特征过滤掉的问题。针对该问题，本申请实施例还可以对各数据特征的重要性得分或者第一波动幅度进行处理。

作为一种示例，利用1减去数据特征的重要性分数，得到处理后的重要性得分，使得数据特征的重要性得分与重要性成反比，这样将处理后的重要性得分与第一波动幅度进行求和处理，得到各数据特征更新后的综合指标值，这样再从全部数据特征中过滤掉综合指标值超过预设阈值的数据特征，可以得到的该业务数据的关键特征比较准确。

作为一种示例，利用1减去数据特征的第一波动幅度，得到处理后的第一波动幅度，使得数据特征的第一波动幅度与波动程度成反比，这样将处理后的第一波动幅度与重要性得分进行求和处理，得到各数据特征更新后的综合指标值，这样再从全部数据特征中过滤掉综合指标值小于预设阈值的数据特征，可以得到的该业务数据的关键特征也比较准确。

本申请实施例提供的业务数据的处理方法，根据业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到该业务数据的关键特征之前，还采用重要性分析模型，计算业务数据的各数据特征的重要性得分，这样根据业务数据的各数据特征的重要性得分以及业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到该业务数据的关键特征。该技术方案，通过将各数据特征的第一波动幅度和各数据特征的重要性得分进行结合，可以更准确的确定出业务数据的关键特征。

示例性的，在上述实施例的基础上，图3为本申请实施例提供的业务数据的处理方法实施例三的流程图。如图3所示，在上述步骤21可以通过如下步骤实现：

步骤31：针对每个分桶数据样本，采用重要性分析模型计算各数据特征分别对应的重要性得分。

在本实施例中，采用重要性分析模型计算该业务数据的各数据特征的重要性得分时，还可以采用例如图1所示的方法，基于每个分桶数据样本来确定业务数据中各数据特征对应的重要性得分。

示例性的，针对每个分桶数据样本，可以首先采用重要性分析模型计算该分桶数据样本中的各数据特征分别对应的重要性得分。

步骤32：根据每个分桶数据样本中每个数据特征的重要性得分，计算业务数据的各数据特征的第二波动幅度。

在本实施例中，与图1所示实施例中的类似，针对每个分桶数据样本中每个数据特征，首先计算该数据特征对应的重要性得分的平均值，再根据该数据特征对应的重要性得分与该重要性得分的平均值，得到该业务数据的各数据特征的第二波动幅度。

关于第二波动幅度的具体计算方法与图1所示实施例中第一波动幅度的计算方法类似，此处不再赘述。

相应的，上述步骤22可以通过如下步骤实现：

步骤33：根据该业务数据的各数据特征的第二波动幅度以及业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到该业务数据的关键特征。

可选的，在本申请的实施例中，针对每个数据特征，可以根据该数据特征的第二波动幅度和第一波动幅度，得到各数据特征对应的综合指标值，再根据各数据特征的综合指标值和预设阈值，得到业务数据的关键特征。

例如，针对各个数据特征，首先对该数据特征的第二波动幅度和第一波动幅度进行求和处理，得到各数据特征对应的综合指标值，再从全部数据特征中过滤掉综合指标值超过预设阈值的数据特征，得到该业务数据的关键特征。

本申请实施例提供的业务数据的处理方法，还可以针对每个分桶数据样本，采用重要性分析模型计算各数据特征分别对应的重要性得分，根据每个分桶数据样本中每个数据特征的重要性得分，计算业务数据的各数据特征的第二波动幅度，进而根据该业务数据的各数据特征的第二波动幅度以及业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到该业务数据的关键特征。该技术方案，同时考虑了各个数据特征在重要性得分以及稳定性方面的波动程度，进一步提高了确定出的业务数据的关键特征的准确度。

示例性的，在上述实施例的基础上，图4为本申请实施例提供的业务数据的处理方法实施例四的流程图。如图4所示，在上述步骤21可以通过如下步骤实现：

步骤41：计算该业务数据的各数据特征分别对应的总特征概率，该总特征概率表征各数据特征在总数据样本中出现的概率。

在本实施例中，针对业务数据具有的各数据特征，首先确定出各数据特征在总数据样本中出现的次数，再根据该次数与总数据样本总数确定各数据特征分别对应的总特征概率。

示例性的，本实施例中的总特征概率也可以称为各数据特征的信息熵，信息熵可以代表各数据特征的复杂度(不确定度)。例如，假设某个数据特征在总数据样本中出现的次数为M，总数据样本总数为N，其中，N≥M，且N和M均为正整数，则该数据特征对应的总特征概率P0可以通过公式P0＝-(M/N)×log(M/N)-(M/N)×log(M/N)。

步骤42：针对每个数据特征，计算该数据特征在业务数据所对应的每个分桶数据样本中出现的分桶特征概率。

可选的，在本申请的实施例中，针对每个数据特征，在每个分桶数据样本中，首先确定出该数据特征在该每个分桶数据样本中出现的次数，再根据该次数与每个分桶数据样本总数确定各数据特征在每个分桶数据样本中出现的分桶特征概率。

例如，假设某个数据特征在某个分桶数据样本出现的次数为m，总数据样本总数为n，其中，N≥n≥m，且n和m均为正整数，则该数据特征在该分桶数据样本中出现的分桶特征概率p0可以通过公式p0＝-(m/n)×log(m/n)-((N-M)/N)×log((N-M)/N)。

步骤43：针对每个数据特征，根据该数据特征所在的各个分桶数据样本总数以及上述业务数据中所包含的总数据样本的总个数，确定出各个分桶数据样本对应的第二统计值，第二统计值为对应分桶数据样本总数与总数据样本总数的比值。

在本实施例中，对于每个数据特征，首先在该数据特征所在的各个分桶中，统计该分桶数据样本总数，再结合业务数据中所包含的总数据样本总数，将每个分桶数据样本总数与总数据样本总数进行相比，得到的比值即为各个分桶数据样本对应的第二统计值。

步骤44：根据该数据特征在业务数据所对应的每个分桶数据样本中出现的分桶特征概率和各个分桶数据样本对应的第二统计值，确定该数据特征在业务数据中出现的条件特征概率。

在本实施例中，通过步骤42得到该数据特征在业务数据所对应的每个分桶数据样本中出现的分桶特征概率，以及通过步骤43和各个分桶数据样本对应的第二统计值，对每个分桶数据样本对于的分桶特征概率和第二统计值进行求积处理后，得到该数据特征在业务数据中出现的条件特征概率。

值得说明的是，本申请实施例中的条件特征概率也称为条件熵，条件熵代表在每个分桶数据样本中，该数据特征的复杂度(不确定度)。

步骤45：根据各数据特征在业务数据中出现的条件特征概率和该业务数据的各数据特征分别对应的总特征概率，确定出业务数据的各数据特征的重要性得分。

在实际应用中，根据信息增益的定义可知，信息增益等于信息熵减去条件熵。而本实施例中，各数据特征的重要性得分可以采用信息增益的形式表示，即信息增益越高，数据特征的重要性得分越高。因而，在本实施例中，可以将该业务数据的各数据特征分别对应的总特征概率减去各数据特征在业务数据中出现的条件特征概率，得到的差值即为业务数据的各数据特征的重要性得分。

本申请实施例提供的业务数据的处理方法，通过计算业务数据的各数据特征分别对应的总特征概率，并且针对每个数据特征，计算该数据特征在业务数据所对应的每个分桶数据样本中出现的分桶特征概率，根据该数据特征所在的各个分桶数据样本总数以及业务数据中所包含的总数据样本的总个数，确定出各个分桶数据样本对应的第二统计值，再根据该数据特征在业务数据所对应的每个分桶数据样本中出现的分桶特征概率和各个分桶数据样本对应的第二统计值，确定该数据特征在业务数据中出现的条件特征概率，最后根据各数据特征在所述业务数据中出现的条件特征概率和业务数据的各数据特征分别对应的总特征概率，确定出该业务数据的各数据特征的重要性得分。该技术方案中，通过计算各数据特征对应的总特征概率以及该各数据特征在业务数据中出现的条件特征概率来计算该数据特征的重要性得分，准确度高，易于实现。

值得说明的是，在本申请的实施例中，还可以与其他特征筛选方法进行结合以实现对关键特征的筛选，其他的过滤方法例如为共线性过滤方法等，关于结合其他特征筛选方法进行关键特征筛选的实现原理类似，此处不再赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图5为本申请实施例提供的业务数据的处理装置实施例一的结构示意图。在本实施例中，该业务数据的处理装置可以集成在电子设备中，也可以为一电子设备，可以集成在服务器中，也可以为一服务器。可选的，如图5所示，该装置可以包括：获取模块51、划分模块52、处理模块53和确定模块54。

其中，该获取模块51，用于获取待处理的业务数据，所述业务数据具有至少两个数据特征且所述业务数据中所包含的总数据样本具有时间标记；

该划分模块52，用于根据所述时间标记，对所述业务数据中所包含的总数据样本按照时间段进行划分，得到与各时间段分别对应的分桶数据样本；

该处理模块53，用于针对每个分桶数据样本，计算各数据特征分别对应的第一统计值，所述第一统计值为对应数据特征的数据样本数与分桶数据样本总数的比值，以及根据每个分桶数据样本中每个数据特征的第一统计值，计算所述业务数据的各数据特征的第一波动幅度；

该确定模块54，用于根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

示例性的，在本申请的一种可能设计中，该处理模块53，具体用于针对每个数据特征，计算所述数据特征对应的第一统计值的平均值，针对每个数据特征，根据所述数据特征对应的第一统计值与所述第一统计值对应的平均值，得到所述业务数据的各数据特征的第一波动幅度。

示例性的，在本申请的另一种可能设计中，该确定模块54，具体用于从全部数据特征中过滤掉第一波动幅度大于预设阈值的数据特征，得到所述业务数据的关键特征。

示例性的，在本申请的再一种可能设计中，该处理模块53，还用于在所述确定模块54根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征之前，采用重要性分析模型，计算所述业务数据的各数据特征的重要性得分；

相应的，该确定模块54，具体用于根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

作为一种示例，该确定模块，具体用于针对每个数据特征，根据所述数据特征的重要性得分和第一波动幅度，得到各数据特征对应的综合指标值，根据各数据特征的综合指标值和预设阈值，得到所述业务数据的关键特征。

示例性的，在本申请的又一种可能设计中，该处理模块53，具体用于针对每个分桶数据样本，采用重要性分析模型计算各数据特征分别对应的重要性得分，根据每个分桶数据样本中每个数据特征的重要性得分，计算业务数据的各数据特征的第二波动幅度；

相应的，该确定模块54，具体用于根据所述业务数据的各数据特征的第二波动幅度以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征。

示例性的，在本申请的又一种可能设计中，该处理模块53，具体用于执行如下步骤：

本申请实施例提供的装置，可用于执行图1至图4所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上***(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图6为本申请实施例提供的业务数据的处理装置实施例二的结构示意图。如图6所示，该业务数据的处理装置可以包括：处理器61、存储器62、通信接口63和***总线64，所述存储器62和所述通信接口63通过所述***总线64与所述处理器61连接并完成相互间的通信，所述存储器62用于存储计算机程序，所述通信接口63用于和其他设备进行通信。该处理器61执行所述计算机程序时实现如上述图1至图4所示实施例的方法。

该图6中提到的***总线可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。所述***总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，上述图5中的获取模块51、划分模块52、处理模块53和确定模块54可以对应本申请实施例中的处理器61。

可选的，本申请实施例还提供一种存储介质，所述存储介质中存储有指令。当所述执行在计算机上运行时，使得计算机执行图1至图4所示实施例的方法。

可选的，本申请实施例还提供一种运行指令的芯片，所述芯片用于执行上述图1至图4所示实施例的方法。

本申请实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图1至图4所示实施例的方法。

本文中的术语“多个”是指两个或两个以上。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

可以理解的是，在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种业务数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每个分桶数据样本中每个数据特征的第一统计值，计算所述业务数据的各数据特征的第一波动幅度，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述业务数据的各数据特征的重要性得分以及所述业务数据的各数据特征的第一波动幅度，对全部数据特征进行特征过滤，得到所述业务数据的关键特征，包括：

6.根据权利要求4所述的方法，其特征在于，所述采用重要性分析模型，计算所述业务数据的各数据特征的重要性得分，包括：

7.根据权利要求4所述的方法，其特征在于，所述采用重要性分析模型，计算所述业务数据的各数据特征的重要性得分，包括：

8.一种业务数据的处理装置，其特征在于，包括：获取模块、划分模块、处理模块和确定模块；

9.一种业务数据的处理装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的方法。

11.一种程序产品，包括：计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现上述权利要求1-7任一项所述的方法。