CN110309127B

CN110309127B - 一种数据处理方法、装置及电子设备

Info

Publication number: CN110309127B
Application number: CN201910596822.3A
Authority: CN
Inventors: 高鹏
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-07-16
Anticipated expiration: 2039-07-02
Also published as: CN110309127A

Abstract

本申请公开了一种数据处理方法、装置及电子设备，该方法包括：获得待处理的目标数据在至少一个数据维度上的数据特征；获得目标数据对应的对象处理条件；基于数据特征和对象处理条件，确定针对目标数据的目标对象；以目标对象对目标数据进行处理，以使得目标数据的处理效率满足对象处理条件。本申请可以对目标数据进行多维度的分析，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以为目标数据选取最合适的迁移方案。

Description

一种数据处理方法、装置及电子设备

技术领域

本申请涉及数据表迁移技术领域，尤其涉及一种数据处理方法、装置及电子设备。

背景技术

随着大数据时代的到来，用户产生的数据量越来越大，如何对其进行抽取和迁移就成了一个亟需解决的问题。

目前，用作数据抽取和迁移的技术手段有很多，比如Sqoop、Talend、以及Kettle等。在针对待迁移的数据表选择迁移方案的时候，通常都需要人为的去选择合适的方案，比如依靠数据量的大小，但是数据表之间不仅仅在于数据量的区别，因此，导致选取的方案可能并不是最合适的迁移方案。

因此，亟需对迁移方案的选取准确率进行提高。

发明内容

有鉴于此，本申请提供如下技术方案：

一种数据处理方法，包括：

获得待处理的目标数据在至少一个数据维度上的数据特征；

获得所述目标数据对应的对象处理条件；

基于所述数据特征和所述对象处理条件，确定针对所述目标数据的目标对象；

以所述目标对象对所述目标数据进行处理，以使得所述目标数据的处理效率满足所述对象处理条件。

优选的，基于所述数据特征和所述对象处理条件，确定针对所述目标数据的目标对象，包括：

获得所述对象处理条件对应的分类模型，其中，利用多个具有预设的对象标签的样本训练所述分类模型；

将所述数据特征输入所述分类模型中，以输出分类结果；

在所述分类结果对应的至少一个处理对象中，确定所述对象处理条件相匹配的目标对象。

优选的，所述利用多个具有预设的对象标签的样本训练所述分类模型，包括：

获得至少一个数据样本，所述数据样本均在至少一个数据维度上具有数据特征，且所述数据样本具有预设的对象标签，所述对象标签表征以所述对象标签对应的处理对象对所述数据样本进行处理的效率满足对应的对象处理条件；

基于所述数据样本的数据特征及其对象标签，对基于决策树算法的分类模型进行训练。

优选的，所述数据维度，包括：

所述目标数据的数据表维度，其中，所述数据表维度包括：行数、列数、数据类型和数据表来源中的一种或多种维度。

优选的，所述目标数据的处理效率满足所述对象处理条件，包括：

所述目标数据的处理效率高于所述对象处理条件中的目标处理效率值。

一种数据处理装置，包括：

获得单元，用于获得待处理的目标数据在至少一个数据维度上的数据特征；并获得所述目标数据对应的对象处理条件；

确定单元，用于基于所述数据特征和所述对象处理条件，确定针对所述目标数据的目标对象；

处理单元，用于以所述目标对象对所述目标数据进行处理，以使得所述目标数据的处理效率满足所述对象处理条件。

一种电子设备，包括：

存储器，用于存储应用程序及所述应用程序运行所产生的数据；

处理器，用于执行所述应用程序，以实现功能：获得待处理的目标数据在至少一个数据维度上的数据特征；获得所述目标数据对应的对象处理条件；基于所述数据特征和所述对象处理条件，确定针对所述目标数据的目标对象；以所述目标对象对所述目标数据进行处理，以使得所述目标数据的处理效率满足所述对象处理条件。

经由上述的技术方案可知，本申请实施例提供了一种数据处理方法，通过获得待处理的目标数据在至少一个数据维度上的数据特征和对应的对象处理条件，来确定针对目标数据的目标对象，以该目标对象对目标数据进行处理来实现目标数据的处理效率满足对象处理条件。由此可见，本申请可以对目标数据进行多维度的分析，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以为目标数据选取最合适的迁移方案。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的服务器集群的***架构图；

图2为本申请实施例公开的电子设备的硬件结构框图；

图3为本申请实施例一公开的数据处理方法的方法流程图；

图4为本申请实施例公开的数据表的示意图；

图5为本申请实施例二公开的数据处理方法的方法流程图；

图6为本申请实施例三公开的数据处理方法的方法流程图；

图7为本申请实施例公开的决策树分类模型的示意图；

图8为本申请实施例公开的数据处理装置的结构示意图；

图9为本申请场景实施例公开的数据处理方法的方法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的一种数据处理方法可以应用于云计算的服务器集群。图1为本申请实施例提供的一种服务器集群的***架构图，参照图1，数据迁移可以发生在服务器之间，比如数据由服务器1迁移到服务器2上，还可以发生在服务器内部，比如数据由磁盘1(图1中未示出)迁移到磁盘2(图1中未示出)上。

需要说明的是，以上描述仅为数据迁移的一种应用场景，可以理解的是，对于未列举到的其他涉及数据迁移的电子设备，均为本申请实施例的保护范围内。

图2为本申请实施例提供的一种电子设备的硬件结构框图，参照图2，电子设备的硬件结构可以包括：存储器11、处理器12、通信接口13和通信总线14；

在本申请实施例中，存储器11、处理器12、通信接口13和通信总线14的数量为至少一个，且存储器11、处理器12、通信接口13通过通信总线14完成相互间的通信。

存储器11可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；其中，存储器存储应用程序及应用程序运行所产生的数据。

处理器12可能是一个中央处理器CPU、GPU(Graphics Processing Unit，图形处理器)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；其中，处理器12用于执行应用程序，以实现功能：

获得待处理的目标数据在至少一个数据维度上的数据特征；获得目标数据对应的对象处理条件；基于数据特征和对象处理条件，确定针对目标数据的目标对象；以目标对象对目标数据进行处理，以使得目标数据的处理效率满足对象处理条件。

以上应用程序的细化功能和扩展功能可参照下文描述。

本申请公开的一种数据处理方法的实施例一中，如图3所示，该方法包括如下步骤：

步骤S101：获得待处理的目标数据在至少一个数据维度上的数据特征。

本申请实施例中，待处理的目标数据可以以数据表、文档等形式存储。针对不同存储形式，目标数据的数据维度也不相同。比如，对于数据表来说，其数据维度可以包括行数、列数、数据类型和数据表来源；再比如，对于文档来说，其数据维度可以包括字符数、段落数、数据类型和文档来源。

为方便理解，本申请实施例以数据表为例对数据特征进行说明：

可以获得目标数据的数据表维度，该数据表维度包括行数、列数、数据类型和数据表来源中的一种或多种维度。图4为本申请实施例提供的一种数据表的示意图，参照图4，该数据表的行数为“20”、列数为“13”、数据类型为“数值”、文档来源为“本地磁盘C”。

步骤S102：获得目标数据对应的对象处理条件。

本实施例中，针对不同数据，可以预先设置该数据对应的对象处理条件。而对象处理条件可以侧重于效率、还可以侧重于准确性，还可以侧重于可靠性等等。进而基于上述不同数据与对象处理条件的对应关系确定目标数据对应的对象处理条件。

为方便理解，以下对不同类型的对象处理条件进行介绍：

1)效率条件，即针对处理效率设置的条件，该处理效率表示单位时间内数据迁移的数据量。单位时间内数据迁移的数据量越大，处理效率越高。

2)准确性条件，即针对准确性设置的条件，该准确性表示迁移后未损失信息的数据相对于迁移前数据的比例。迁移后未损失信息的数据相对于迁移前数据的比例越大，准确性越高。

3)可靠性条件，即针对可靠性设置的条件，该可靠性表示完成数据迁移的概率。概率为0表示不可能完成数据迁移，概率为1表示一定能完成数据迁移，概率越接近1就表示完成数据迁移的可能性越大、可靠性越高。

需要说明的是，以上描述仅为对象处理条件的举例，可以理解的是，对于其他未列举到的其他类型的对象处理条件也在本申请实施例的保护范围内。

步骤S103：基于数据特征和对象处理条件，确定针对目标数据的目标对象。

本申请实施例中，针对不同对象处理条件，可以预先设置该对象处理条件下不同数据特征对应的对象，从而实现以该对象对数据进行处理时可以符合该对象处理条件。进而基于上述不同数据特征与对象的对应关系，确定在目标数据对应的对象处理条件下，目标数据的数据特征对应的目标对象。

为方便理解，以下继续以效率条件、数据表为例对目标对象的确定过程进行说明：

为实现数据的处理效率满足效率条件，可以预先设置不同数据特征对应的对象。以数据表的数据特征包括行数和列数为例：如果行数处于第一范围、列数处于第二范围，其对应的对象为JDBC；如果行数处于第三范围、列数处于第四范围，其对应的对象为Sqoop。

需要说明的是，上述第一范围、第二范围可以相同或者不同，第三范围和第四范围可以相同或者不同，本实施例对此不做限定，可以根据实际需要进行设置。

步骤S104：以目标对象对目标数据进行处理，以使得目标数据的处理效率满足对象处理条件。

本申请实施例中，以步骤S103确定的目标对象对目标数据进行迁移。由于目标对象是基于数据特征和对象处理条件所确定的，因此，在以目标对象对目标数据进行迁移时，目标数据可以满足对象处理条件。

为方便理解，以下继续对不同类型的对象处理条件进行介绍：

1)效率条件，该效率条件中包括数据的处理效率的限制要求，比如数据的处理效率高于指定的目标处理效率值。此时，以步骤S103确定的目标对象对目标数据进行迁移，目标数据的处理效率高于效率条件中的目标处理效率值。

2)准确性条件，该准确性条件中包括数据的准确性的限制要求，比如数据的准确性高于指定的准确性。此时，以步骤S103确定的目标对象对目标数据进行迁移，目标数据的准确性高于效率条件中的目标准确性。

3)可靠性条件，该可靠性条件中包括数据的可靠性的限制要求，比如数据的可靠性高于指定的可靠性。此时，以步骤S103确定的目标对象对目标数据进行迁移，目标数据的可靠性高于效率条件中的目标可靠性。

本申请实施例提供的数据处理方法，可以对目标数据进行多维度的分析，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以为目标数据选取最合适的迁移方案。

作为基于数据特征和对象处理条件，确定针对目标数据的目标对象的一种实现方式，本申请实施例二公开了一种数据处理方法，如图5所示，该方法包括如下步骤：

步骤S201：获得待处理的目标数据在至少一个数据维度上的数据特征。

步骤S202：获得目标数据对应的对象处理条件。

步骤S203：获得对象处理条件对应的分类模型，其中，利用多个具有预设的对象标签的样本训练分类模型。

本申请实施例中，针对不同对象处理条件，可以预先设置该对象处理条件对应的分类模型。该分类模型是采用有监督学习的方式训练得到的，具体的：

以具有预设的对象标签的数据为训练样本、以待训练分类模型对训练样本的数据特征的预测结果趋近于训练样本所具有的对象标签为训练目标，对待训练分类模型进行训练生成；其中，预设的对象标签表征数据在该对象处理条件下最适合的迁移方案。

为方便理解，以下继续以效率条件、数据表为例对训练分类模型的过程进行说明：

为获得效率条件对应的分类模型，预先获得大量训练用的数据表，并且对于每个数据表均执行以下操作：

获得该数据表在至少一个数据维度上的数据特征；利用不同迁移方案对该具有数据特征的数据表进行处理，以从不同迁移方案中选取满足效率条件且处理效率最高的迁移方案作为处理对象，并为该数据表标定表征处理对象的对象标签。

将大量具有对象标签的数据表的数据特征输入待训练分类模型，得到待训练分类模型输出的针对每个数据表的数据特征的预测结果；根据每个数据表所具有的对象标签和每个数据表的数据特征的预测结果，计算待训练分类模型的损失函数值；以最小化损失函数值为目标，更新待训练分类模型的参数，得到最终的分类模型。

需要说明的是，本申请实施例中待训练分类模型可以为任意一种机器学习算法的模型，比如神经网络算法，再比如逻辑回归算法等等。

步骤S204：将数据特征输入分类模型中，以输出分类结果。

步骤S205：在分类结果对应的至少一个处理对象中，确定对象处理条件相匹配的目标对象。

为方便理解，以下继续以效率条件为例对确定目标对象的过程进行说明：

效率条件对应的分类模型输出的分类结果中包括多个训练所用对象标签对应的处理对象的处理效率，进一步从多个处理对象中确定处理效率符合效率条件的目标对象，比如确定处理效率高于效率条件中目标处理效率的目标对象。

当然，如果确定的目标对象为多个，可以以随机选取或者选取效率最高等方式从中确定一个最终的目标对象处理目标数据。

步骤S206：以目标对象对目标数据进行处理，以使得目标数据的处理效率满足对象处理条件。

本申请实施例提供的数据处理方法，可以利用机器学习理论训练针对数据特征的分类模型，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以降低人为因素干扰，进一步提高迁移方案选取的准确性。

作为利用多个具有预设的对象标签的样本训练分类模型的一种实现方式，本申请实施例三公开了一种数据处理方法，如图6所示，该方法包括如下步骤：

步骤S301：获得待处理的目标数据在至少一个数据维度上的数据特征。

步骤S302：获得目标数据对应的对象处理条件。

步骤S303：获得对象处理条件对应的分类模型，其中，利用多个具有预设的对象标签的样本训练分类模型的过程包括：

获得至少一个数据样本，数据样本均在至少一个数据维度上具有数据特征，且数据样本具有预设的对象标签，对象标签表征以对象标签对应的处理对象对数据样本进行处理的效率满足对应的对象处理条件；基于数据样本的数据特征及其对象标签，对基于决策树算法的分类模型进行训练。

图7为本申请实施例提供的一种决策树分类模型的示意图，参照图7，首先创建根节点，将数据样本放在根节点，选择一个最优特征并按照该特征将数据样本分割成多个子数据样本；如果所有子数据样本都可以被正确分类，则进一步构建叶节点，并将所有子数据样本分到对应的叶节点上；如果其中部分子数据样本无法被正确分类，则对这部分子数据样本选择新的最优特征，继续分割并构建相应的叶节点，如此递归进行，直到所有子数据样本都可以被正确分类或者没有合适的特征为止。

此时每个子数据样本均被分到叶节点上，即有了明确分类，这就生成了一个决策树分类模型。该决策树分类模型可以对数据样本中归纳出一组分类规则，将正则化的极大似然函数最小化。

步骤S304：将数据特征输入分类模型中，以输出分类结果。

步骤S305：在分类结果对应的至少一个处理对象中，确定对象处理条件相匹配的目标对象。

步骤S306：以目标对象对目标数据进行处理，以使得目标数据的处理效率满足对象处理条件。

本申请实施例提供的数据处理方法，可以利用决策树算法训练针对数据特征的分类模型，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以降低人为因素干扰，进一步提高迁移方案选取的准确性。

与上述数据处理方法对应的，本申请还公开一种数据处理装置，如图8所示，该装置包括：

获得单元101，用于获得待处理的目标数据在至少一个数据维度上的数据特征；并获得目标数据对应的对象处理条件；

确定单元102，用于基于数据特征和对象处理条件，确定针对目标数据的目标对象；

处理单元103，用于以目标对象对目标数据进行处理，以使得目标数据的处理效率满足对象处理条件。

可选的，数据维度，包括：

目标数据的数据表维度，其中，数据表维度包括：行数、列数、数据类型和数据表来源中的一种或多种维度。

可选的，目标数据的处理效率满足对象处理条件，包括：

目标数据的处理效率高于对象处理条件中的目标处理效率值。

本申请实施例提供的数据处理装置，可以对目标数据进行多维度的分析，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以为目标数据选取最合适的迁移方案。

在本申请公开的数据处理装置的另一个实施例中，确定单元102基于数据特征和对象处理条件，确定针对目标数据的目标对象，包括：

获得对象处理条件对应的分类模型，其中，利用多个具有预设的对象标签的样本训练分类模型；将数据特征输入分类模型中，以输出分类结果；在分类结果对应的至少一个处理对象中，确定对象处理条件相匹配的目标对象。

本申请实施例提供的数据处理装置，可以利用机器学习理论训练针对数据特征的分类模型，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以降低人为因素干扰，进一步提高迁移方案选取的准确性。

在本申请公开的数据处理装置的另一个实施例中，确定单元102利用多个具有预设的对象标签的样本训练分类模型，包括：

本申请实施例提供的数据处理装置，可以利用决策树算法训练针对数据特征的分类模型，以此获得处理效率满足对象处理条件的目标对象对目标数据进行处理，这就可以降低人为因素干扰，进一步提高迁移方案选取的准确性。

为方便理解，以下以数据表迁移方案的选取为例详细说明本申请：

随着大数据时代的到来，用户产生的数据表的数据量越来越大，如何对其进行抽取和迁移就成了一个亟需解决的问题。目前，用作数据抽取和迁移的技术手段有很多，最简单的比如JDBC，还有Sqoop、Talend、以及Kettle等。在针对待迁移的数据表选择迁移方案的时候，通常都需要人为的去选择合适的技术，这时参考的数据维度比较单一，比如仅仅依靠数据量的大小，而常常忽略数据表的其他信息，这样选取的技术常在效率上不是最优的。

为了解决数据表的上述问题，本申请实施例提供一种用于智能化选择数据迁移方案的数据处理方法：

图9为本申请实施例提供的数据处理方法的方法流程图，参照图9：

首先，S401：选取与数据迁移相关的数据表的数据特征(比如行数、列数、数据类型和数据源)；

进一步，S402：将每个训练用的具有数据特征(数据特征的特征值可以不同)的数据表分别使用不同迁移方案进行数据迁移，从不同迁移方案中选取处理效率最高的迁移方案作为该数据表的处理对象，并为该数据表标定表征该处理对象的对象标签；

更进一步，S403：使用大量具有对象标签—数据特征的数据表对决策树算法的分类模型进行训练得到分类模型；

最后，S404：对于待处理的目标数据表，获得该目标数据表的数据特征，并将其输入至分类模型中得到该目标数据表的最优迁移方案，以该最优迁移方案对目标数据表进行数据迁移。

本申请实施例优势如下：

通过对数据表进行多维度分析可以得到最优迁移方案；利用机器学习理论从实际数据中得出结论，减少人为因素的干扰；降低决策成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，包括：

获得待处理的目标数据在至少一个数据维度上的数据特征；

获得所述目标数据对应的对象处理条件，所述对象处理条件包括以下的任意一个：数据迁移的效率、准确性、可靠性；

以所述目标对象对所述目标数据进行处理，以使得所述目标数据的处理结果满足所述对象处理条件；

其中，基于所述数据特征和所述对象处理条件，确定针对所述目标数据的目标对象，包括：

获得所述对象处理条件对应的分类模型，其中，利用多个具有预设的对象标签的样本训练所述分类模型，所述对象标签表征以所述对象标签对应的处理对象对数据样本进行处理的结果满足对应的对象处理条件；

将所述数据特征输入所述分类模型中，以输出分类结果；

2.根据权利要求1所述的方法，所述利用多个具有预设的对象标签的样本训练所述分类模型，包括：

获得至少一个数据样本，所述数据样本均在至少一个数据维度上具有数据特征，且所述数据样本具有预设的对象标签；

3.根据权利要求1所述的方法，所述数据维度，包括：

4.根据权利要求1所述的方法，所述目标数据的处理结果满足所述对象处理条件，包括：

5.一种数据处理装置，包括：

获得单元，用于获得待处理的目标数据在至少一个数据维度上的数据特征；并获得所述目标数据对应的对象处理条件，所述对象处理条件包括以下的任意一个：数据迁移的效率、准确性、可靠性；

处理单元，用于以所述目标对象对所述目标数据进行处理，以使得所述目标数据的处理结果满足所述对象处理条件；

其中，确定单元具体用于：

将所述数据特征输入所述分类模型中，以输出分类结果；

6.一种电子设备，包括：

处理器，用于执行所述应用程序，以实现功能：获得待处理的目标数据在至少一个数据维度上的数据特征；获得所述目标数据对应的对象处理条件，所述对象处理条件包括以下的任意一个：数据迁移的效率、准确性、可靠性；基于所述数据特征和所述对象处理条件，确定针对所述目标数据的目标对象；以所述目标对象对所述目标数据进行处理，以使得所述目标数据的处理结果满足所述对象处理条件；

将所述数据特征输入所述分类模型中，以输出分类结果；