CN111090686B

CN111090686B - 数据处理方法、装置、服务器和存储介质

Info

Publication number: CN111090686B
Application number: CN201911343379.5A
Authority: CN
Inventors: 华鹏; 谢明辰; 康伟乐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-04-18
Anticipated expiration: 2039-12-24
Also published as: CN111090686A

Abstract

本发明实施例公开了一种数据处理方法、装置、服务器和存储介质；本发明实施例获取目标算子、数据血缘网络和目标数据实体集，目标数据实体集中包括多个目标数据实体，数据血缘网络中包括多个节点，以及节点之间的流向线路；在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，目标节点对应目标数据实体，相关节点对应其他数据实体；根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息；基于实体关系信息以及目标算子构建目标数据实体的特征集合；对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分；根据预测评分在特征集合中确定预测特征。本方案可以提升数据处理的效率。

Description

数据处理方法、装置、服务器和存储介质

技术领域

本发明涉及计算机领域，具体涉及一种数据处理方法、装置、服务器和存储介质。

背景技术

特征工程(Feature engineering)又叫作特征构造，是基于现有数据来构造新特征，从而利用这些新特征来训练机器学习模型的过程。其中，构造新特征的过程中往往需要对现有数据之间的关系进行深入的分析，才能从现有数据中提取有用的特征信息。

然而，由于每个新特征可能都需要经过多个步骤去构造，尤其是那些与多个现有数据有关的特征，所以目前新特征的构造是一个非常耗时的过程，且需要人工干预才能够顺利地对现有数据进行新特征的提取处理，因此，目前用于特征构造的数据处理方法效率低下。

发明内容

本发明实施例提供一种数据处理方法、装置、服务器和存储介质，可以提升数据处理方法的效率。

本发明实施例提供一种数据处理方法，包括：

获取目标算子、数据血缘网络和目标数据实体集，所述目标数据实体集中包括多个目标数据实体，所述数据血缘网络中包括多个节点，以及所述节点之间的流向线路；

在所述数据血缘网络中确定目标节点，以及与所述目标节点相连的相关节点，所述目标节点对应目标数据实体，所述相关节点对应其他数据实体；

根据所述目标节点和相关节点之间的流向线路，生成所述目标数据实体和其他数据实体之间的实体关系信息；

基于所述实体关系信息以及目标算子构建所述目标数据实体的特征集合；

对所述特征集合中的特征进行评分预测，得到所述特征集合中特征的预测评分；

根据所述预测评分在特征集合中确定预测特征。

本发明实施例还提供一种数据处理装置，包括：

获取单元，用于获取目标算子、数据血缘网络和目标数据实体集，所述目标数据实体集中包括多个目标数据实体，所述数据血缘网络中包括多个节点，以及所述节点之间的流向线路；

节点单元，用于在所述数据血缘网络中确定目标节点，以及与所述目标节点相连的相关节点，所述目标节点对应目标数据实体，所述相关节点对应其他数据实体；

关系单元，用于根据所述目标节点和相关节点之间的流向线路，生成所述目标数据实体和其他数据实体之间的实体关系信息；

特征单元，用于基于所述实体关系信息以及目标算子构建所述目标数据实体的特征集合；

评分单元，用于对所述特征集合中的特征进行评分预测，得到所述特征集合中特征的预测评分；

预测单元，用于根据所述预测评分在特征集合中确定预测特征。

在一些实施例中，所述获取单元，包括：

获取子单元，用于获取用户的数据处理指令，以及数据库集群的历史操作信息；

确定子单元，用于基于所述数据处理指令确定目标算子和目标数据实体；

血缘子单元，用于基于所述历史操作信息构建数据血缘网络。

在一些实施例中，所述获取子单元，包括：

接收子模块，用于接收用户触发的数据处理指令；

拉取子模块，用于从数据库集群中的每个分布式数据库中拉取针对所述数据实体的历史操作信息；

在一些实施例中，所述血缘子单元，包括：

流向子模块，用于根据所述历史操作信息对数据实体进行流向分析，得到所述数据实体之间的流向线路；

血缘子模块，用于基于所述数据实体以及数据实体之间的流向线路构建数据血缘网络。

在一些实施例中，所述流向子模块，用于：

根据所述字段操作信息查询数据实体中与所述字段有依赖关系的所有其他数据实体；

基于所述依赖关系确定所述字段与其他数据实体之间的流向线路。

在一些实施例中，所述评分单元，包括：

预处理子单元，用于对所述特征集合中的特征进行数据预处理，得到处理后特征；

计算子单元，用于采用评分模型计算所述处理后特征的预测评分。

在一些实施例中，所述评分模型包括线性相关模型和非线性相关模型所述计算子单元，包括：

线性子模块，用于采用所述线性分析模型计算所述处理后特征之间的线性相关度；

非线性子模块，用于采用所述非线性相关模型计算所述处理后特征之间的非线性相关度；

评分子模块，用于基于所述线性相关度和非线性相关度确定所述处理后特征的预测评分。

在一些实施例中，所述评分子模块，还用于：

基于所述线性相关度和非线性相关度生成处理后特征之间的相关度热力图；

展示所述处理后特征之间的相关度热力图。

在一些实施例中，所述预处理子单元，用于：

采用数据预处理操作对所述特征集合中的特征进行数据预处理，得到处理后特征，其中，所述数据预处理操作包括缺省值处理、特征向量化处理、方差过滤处理、去重处理。

在一些实施例中，所述目标数据实体和所述实体关系信息均包括多个关键字段，所述特征单元，用于：

对比所述目标数据实体和实体关系信息中的关键字段，得到所述目标数据实体和实体关系信息之间的不同关键字段；

采用目标算子对所述不同关键字段进行特征提取，得到所述不同关键字段的字段特征；

根据所述目标数据实体中的关键字段，以及所述不同关键字段的字段特征生成特征集合。

在一些实施例中，所述数据实体中包括多个关键字段，所述关系单元，用于：

将所述目标数据实体中与所述流向线路相连的关键字段确定为主关键字段，以及，将其他数据实体中与所述流向线路相连的关键字段确定为外关键字段；

获取所述主关键字段和外关键字段的键值；

基于所述主关键字段、外关键字段以及键值生成所述目标数据实体和其他数据实体之间的实体关系信息。

在一些实施例中，所述预测子单元，用于：

根据在特征集合中将预测评分最高的特征确定为预测特征；

展示所述预测特征。

本发明实施例还提供一种服务器，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明实施例所提供的任一种数据处理方法中的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种数据处理方法中的步骤。

本发明实施例可以获取目标算子、数据血缘网络和目标数据实体集，该目标数据实体集中包括多个目标数据实体，该数据血缘网络中包括多个节点，以及节点之间的流向线路；在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，该目标节点对应目标数据实体，该相关节点对应其他数据实体；根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息；基于实体关系信息以及目标算子构建目标数据实体的特征集合；对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分；根据预测评分在特征集合中确定预测特征。

在本发明中，通过数据血缘网络来确定数据实体之间的关系，从而根据这些关系信息构建数据实体的特征集合，最后在特征集合中预测对数据实体影响最大的特征。由此，提升了用于特征构造的数据处理的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的数据处理方法的场景示意图；

图1b是本发明实施例提供的数据处理方法的第一种流程示意图；

图1c是本发明实施例提供的数据血缘网络结构示意图；

图1d是本发明实施例提供的数据处理***结构示意图；

图1e是本发明实施例提供的特征相关性热力示意图；

图2a是本发明实施例提供的数据处理方法的第二种流程示意图；

图2b是本发明实施例提供的数据处理方法的特征生成示意图；

图2c是本发明实施例提供的数据处理方法的数据预处理示意图；

图2d是本发明实施例提供的特征选择模块示意图；

图2e是本发明实施例提供的特征排序示意图；

图3是本发明实施例提供的数据处理装置的第一种结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种数据处理方法、装置、服务器和存储介质。

其中，该数据处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该数据处理装置还可以集成在多个电子设备中，比如，数据处理装置可以集成在多个服务器中，由多个服务器来实现本发明的数据处理方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该数据处理装置可以集成在服务器中，在本发明实施例中，该服务器可以从用户终端获取目标算子目标数据实体集，以及从分布式数据库中直接获取数据血缘网络，其中，该目标数据实体集中包括多个目标数据实体，该数据血缘网络中包括多个节点，以及节点之间的流向线路；服务器可以在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，该目标节点对应目标数据实体，该相关节点对应其他数据实体；然后，服务器可以根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息，再基于实体关系信息以及目标算子构建目标数据实体的特征集合；对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分，最后，根据预测评分在特征集合中确定预测特征。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种数据处理方法，如图1b所示，该数据处理方法的具体流程可以如下：

101、获取目标算子、数据血缘网络和目标数据实体集，目标数据实体集中包括多个目标数据实体，数据血缘网络中包括多个节点，以及节点之间的流向线路。

其中，算子(Operation)是指一个函数空间到函数空间上的映射，比如，算子F可以将函数空间X映射倒函数空间Y中，例如参考如下公式：

Y＝F(X)

广义地，对任何函数进行任一项操作都可以认为是一个算子，比如，常见的算子包括微分算子、梯度算子、散度算子、拉普拉斯算子、哈密顿算子、求和算子、求差算子、求均值算子、方差算子，等等。

目标算子是将用于此次数据处理的算子，该目标算子可以是预设的算子，也可以是由用户指定设置的算子，还可以是从算子集合中选定的算子，等等。

其中，数据血缘网络是指一种可以表现数据之间血缘关系的网络结构，其中，数据之间的血缘关系是指指数据在产生、处理、流转到消亡过程中，数据之间形成的一种类似于人类社会血缘关系的链路关系。

例如，数据A和数据B是最初的数据来源，数据C是数据A和数据B经过一系列处理、变换等操作后生成的新数据，则可以将数据C确定为数据A和数据B的子数据，将数据A和数据B确定为数据C的祖先。

数据血缘网络中可以包括多个节点，以及节点之间的流向线路。例如，参考图1c，其中，该数据血缘网络中包括6个节点，分别为节点a、节点b、节点c、节点d、节点e、节点f，以及8条流向线路，每条流向线路均具有流向方向，由一个节点流向另一个节点。

其中，数据血缘网络中的每个节点都表示一个数据实体，流向线路可以表示数据实体之间的主外键关系。

主外键关系是指数据实体的主键和另一个数据实体的外键之间的关系；其中，主键(primary key)是数据实体的主关键字，外键(foreign key)是数据实体的外关键字；主关键字和外关键字均是数据实体中的一个或多个字段，其值用于唯一地标识数据实体中的某一条字段记录。

在两个数据实体的关系中，主关键字用来在一个数据实体中引用来自于另一个数据实体中的特定记录，该主关键字对应的数据实体可以称为主数据实体，该外关键字对应的数据实体可以称为从数据实体，该主数据实体和从数据实体之间具有从属关系。

其中，目标算子、数据血缘网络和目标数据实体集的获取方法具有多种，具体的获取可以相同，也可以不同，比如，可以通过网络获取目标算子、数据血缘网络和目标数据实体集，也可以由用户设置目标算子和目标数据实体集，等等，在此不做约束。

在一些实施例中，由于数据实体是来源于分布式数据库，为了对分布式数据库中的数据进行自动地数据处理，减少用户的工作量，可以预先生成数据血缘网络，步骤101可以包括如下步骤：

(A1)获取用户的数据处理指令，以及数据库集群的历史操作信息；

(A2)基于数据处理指令确定目标算子和目标数据实体；

(A3)基于历史操作信息构建数据血缘网络。

其中，用户的数据处理指令可以包括用户信息、时间信息，以及用户所指定的目标算子信息、目标数据实体信息、目标数据实体集信息，等等。

根据该数据处理指令中目标算子信息和目标数据实体的信息中包括这些目标算子信息和目标数据实体的名称、标识、编号等信息，故可以确定目标算子和目标数据实体。

数据库集群的历史操作信息是指数据库集群所保存数据在历史时间所进行的操作信息，比如，数据库集群的历史操作信息可以包括数据在历史时间的产生信息、流转信息、消亡信息、更新信息，等等。

例如，以网络购物为例，客户在网络购物应用中购买物品以后，该购买所对应的数据的历史操作信息包括该数据的生成时间、具体数据内容，等等；为了统计该物品的购买率，则需要在历史时刻统计所有客户购买该物品的历史操作，生成一个新的购买率数据，则该购买率数据的历史操作信息在历史时刻针对购买所对应的数据的历史操作。

在本实施例中可以基于历史操作信息构建数据血缘网络，其中，该数据血缘网络中节点所对应的数据实体之间具有主外键关系。

由于数据库中存储的数据量大，特别是分布式数据库中保存的数据，目前的特征生成方法需要将数据库中的数据人工手动地转到服务器的本地内存中，由服务器对这些数据进行数据处理，然而，在数据采样后，本地内存中的数据不符合这些数据在分布式数据库中的分布，且计算资源有限，很难针对海量数据进行特征的生成，造成了所生成特征的不准确、效率低下的问题。

在本实施例中，用户无需将分布式数据库中的数据手动导入到本地进行数据处理，只需要在本地存储这些分布式数据库中数据的血缘网络就可以直接自动地根据数据血缘网络就进行特征的生成和选取，减少了用户的工作量，在保证了生成特征的准确度的同时，提高了数据处理的效率。

具体地，在一些实施例中，步骤(A1)，即步骤获取用户的数据处理指令，以及数据库集群的历史操作信息可以包括如下具体步骤：

接收用户触发的数据处理指令；

从数据库集群中的每个分布式数据库中拉取针对数据实体的历史操作信息。

由于***架构的不同，从数据库集群中的每个分布式数据库中拉取针对数据实体的历史操作信息的方式也可以不同。

比如，参考图1d，该数据处理***中包括分布式数据库集群，该分布式数据库集群中的每个分布式数据库都可以存储多个数据实体，每当需要进行数据处理时，则从这些分布式数据库中采样数据的历史操作信息，即，从数据库集群中的每个分布式数据库中拉取针对数据实体的历史操作信息。

该数据处理***中的服务器可以通过YARN(Yet Another Resource Negotiator，另一种资源协调者)以及HIVE(一种数据库工具)；来控制数据的拉取、发送等维护工作。

在一些实施例中，步骤(A3)，即步骤基于历史操作信息构建数据血缘网络可以包括如下具体步骤：

根据历史操作信息对数据实体进行流向分析，得到数据实体之间的流向线路；

基于数据实体以及数据实体之间的流向线路构建数据血缘网络。

其中，在一些实施例中，步骤根据历史操作信息对数据实体进行流向分析，得到数据实体之间的流向线路，具体可以包括如下步骤：

根据字段操作信息查询数据实体中与字段有依赖关系的所有其他数据实体；

基于依赖关系确定字段与其他数据实体之间的流向线路。

其中，数据实体中可以包括多个字段，数据实体之间的流向线路也可以是数据实体中某个字段，于另一个数据实体中某个字段之间的流向线路。

102、在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，目标节点对应目标数据实体，相关节点对应其他数据实体。

其中，可以根据目标数据实体的名称、标识、编号等信息在数据血缘网络中确定该目标数据实体对应的目标节点，以及，将与该目标节点相连接的节点确定我其它节点。

103、据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息。

其中，实体关系信息中可以包括所有目标节点对应的目标数据实体和所有其它节点对应的其他数据实体之间的关系。

比如，实体关系信息可以表示为【目标节点A->其他数据实体B，目标节点A<-其他数据实体C】，该实体关系信息表示了目标节点A流向其他数据实体B，其他数据实体C流向目标节点A。

在一些实施例中，数据实体中可以包括多个关键字段，根据关键字段的主从关系可以确定数据实体之间的主从关系，故步骤103可以包括如下具体步骤：

将目标数据实体中与流向线路相连的关键字段确定为主关键字段，以及，将其他数据实体中与流向线路相连的关键字段确定为外关键字段；

获取主关键字段和外关键字段的键值；

基于主关键字段、外关键字段以及键值生成目标数据实体和其他数据实体之间的实体关系信息。

在数据血缘网络中，目标数据实体还可以和目标数据实体中的字段相连，该相连的字段即为关键字段。

其中，流出的关键字段为主关键字段，流向的关键字段为外关键字段。

104、基于实体关系信息以及目标算子构建目标数据实体的特征集合。

其中，特征集合是实体关系信息经过目标算子处理后所得到的目标数据实体的特征。

在一些实施例中，目标数据实体和实体关系信息均包括多个关键字段，步骤104可以包括如下步骤：

对比目标数据实体和实体关系信息中的关键字段，得到目标数据实体和实体关系信息之间的不同关键字段；

采用目标算子对不同关键字段进行特征提取，得到不同关键字段的字段特征；

根据目标数据实体中的关键字段，以及不同关键字段的字段特征生成特征集合。

其中，不同关键字段是指目标数据实体和实体关系信息之间不同的关键字段。

例如，假设目标数据实体中存在个关键字段<A，B，C>，实体关系信息中的关键字段为<A，D，E，F>，可以确定字段<D，E，F>构成不同关键字段，采用目标算子G对不同关键字段进行特征提取，得到不同关键字段的字段特征<G(D)，G(E)，G(F)>，然后根据不同关键字段的字段特征和目标数据实体的关键字段结合，得到特征集合<A，B，C，G(D)，G(E)，G(F)>。

105、对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分。

最后，根据特征集合中的特征可以通过评分预测来进行特征选取。

其中，评分预测的方式具有多种，比如，线性分析方式、过滤方式、嵌入方式，等等。

具体地，在一些实施例中，为了提高评分预测的准确度，步骤105可以包括如下步骤：

(B1)对特征集合中的特征进行数据预处理，得到处理后特征；

(B2)采用评分模型计算处理后特征的预测评分。

其中，在一些实施例中，为了更进一步地提高评分预测的准确度，评分模型包括线性相关模型和非线性相关模型，步骤(B2)，即步骤采用评分模型计算处理后特征的预测评分可以包括如下步骤：

采用线性分析模型计算处理后特征之间的线性相关度；

采用非线性相关模型计算处理后特征之间的非线性相关度；

基于线性相关度和非线性相关度确定处理后特征的预测评分。

其中，线性分析模型可以包括皮尔森相关系数(Pearson Correlation)、斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)，等等；非线性相关模型可以包括自相关函数、最大信息系数，等等。

基于线性相关度和非线性相关度确定处理后特征的预测评分的方法具有多种，比如，直接根据线性相关度和非线性相关度的和来确定处理后特征的预测评分、对线性相关度和非线性相关度进行加权求和来确定处理后特征的预测评分，等等。

在一些实施例中，为了便于用户直观感受特征之间的相关性，提高用户体验，步骤基于线性相关度和非线性相关度确定处理后特征的预测评分还可以包括如下具体步骤：

基于线性相关度和非线性相关度生成处理后特征之间的相关度热力图；

展示处理后特征之间的相关度热力图。

比如，参考图1e，图1e的左图为处理后特征之间的非线性的相关度热力图，右图为处理后特征之间的线性的相关度热力图。

在一些实施例中，可以预先进行数据处理，使得相关性计算更加准确，故步骤(B1)，即步骤对特征集合中的特征进行数据预处理，得到处理后特征可以包括如下具体步骤：

采用数据预处理操作对特征集合中的特征进行数据预处理，得到处理后特征，其中，数据预处理操作包括缺省值处理、特征向量化处理、方差过滤处理、去重处理，等等。

106、根据预测评分在特征集合中确定预测特征。

比如，可以根据预测评分由大到小排序，将最大的预测评分对应的特征确定为预测特征。

在一些实施例中，为了提高用户体验，步骤106可以包括如下具体步骤：

根据在特征集合中将预测评分最高的特征确定为预测特征；

展示预测特征。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本发明实施例可以本发明实施例可以获取目标算子、数据血缘网络和目标数据实体集，该目标数据实体集中包括多个目标数据实体，该数据血缘网络中包括多个节点，以及节点之间的流向线路；在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，该目标节点对应目标数据实体，该相关节点对应其他数据实体；根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息；基于实体关系信息以及目标算子构建目标数据实体的特征集合；对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分；根据预测评分在特征集合中确定预测特征。

本方案可以直接通过数据血缘网络来确定数据实体之间的关系，而无需将数据库中的数据手动导入到本地中进行关系分析；然后，根据这些关系信息构建数据实体的特征集合，最后在特征集合中确定预测特征，由此，本方案提升了用于特征构造的数据处理的效率。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以根据分布式数据库中海量数据表进行特征提取为例，对本发明实施例的方法进行详细说明。

如图1d所示，本发明实施例提供了一种数据处理***的架构图，其中，该数据处理***中包括分布式数据库(Data Warehouse)，该数据库中保存了多个数据表(Table)(数据表为一种数据实体)，其中包括目标数据表(Target Table)，该目标数据表与多个其他数据表(Ralated Table)有关。

该数据处理***还包括搭载了数据处理装置的服务器，该服务器包括数据读取/预处理模块(Read data&preprocess)、特征树结构计算模块(Feature TrieConstruction&computation)、本地特征存储池(Feature Defs)和特征选取模块，其中，特征选取模块包括预处理模块、嵌入模型(Embedded)、包裹器模型(Wrapper)、过滤器模型(Filter)。

比如，参考图2d，该特征选取模块包括嵌入模型(Embedded)、包裹器模型(Wrapper)、过滤器模型(Filter)，此外，该特征选取模块还包括线性分析模型。

其中，该线性分析模型可以采用线性相关模型和非线性相关模型计算计算相关度，其中，线性相关模型可以是皮尔森相关系数(Pearson Correlation Coefficient)和斯皮尔曼相关系数(Spearman Correlation Coefficient)；非线性相关度可以是自相关系数和最大信息系数。

其中，Filter可以采用信息增益、基尼系数(Gini coefficient/index)以及卡方检验法(chi-square test)计算相关度。

其中，Embedded可以采用决策树模型(Decision Tree，DT)、随机森林模型(RandomForest，RF)、梯度提升树模型(Gradient Boosting Decision Tree，GBDT)以及逻辑斯特回归模型(Logistic Regression，LR)计算相关度。

该数据处理***采用YARN-spark(一种数据库集群管理器)和Hive(一种数据库工具)来控制分布式数据库中数据的吞吐。

在本实施例中，采用该数据处理***进行数据处理，如图2a所示，一种数据处理方法具体流程如下：

201、获取用户的数据处理指令，该数据处理指令指定了目标算子和目标数据表。

比如，用户的数据处理指令可以包括目标数据表的名称，以及数据表之间的主外键关系，以及主外键的键值，等等。

例如，用户的数据处理指令如下代码所示：

其中，目标算子可以是用户自定义算子，也可以是默认算子。

比如，默认算子包括求和算子SUM、最大值算子MAX、约束算子UNIQUE、模式算子MODE，等等。

202、从数据库集群中的每个分布式数据库中拉取数据表的历史操作信息。

在本实施例中，可以采用YARN-spark和Hive来从数据库集群中的每个分布式数据库中拉取数据表的历史操作信息。

其中，数据表的历史操作信息可以包括数据表中字段的历史操作信息，比如，参考表1，数据表的历史信息可以表现为如下列表：

表1

203、根据历史操作信息生成数据血缘网络，以及在数据血缘网络中确定目标节点和目标节点的相关节点，该目标节点对应目标数据表，该相关节点对应其他数据表。

比如，在本实施例中，可以根据如表1所示的历史操作信息中操作来源构建数据血缘网络。

例如，生成的数据血缘网络结构如图1c所示，其中，包括多个节点，以及，节点之间相互连接的、具有方向的流向线路。

例如，假设图1c中，节点c代表目标数据表，则可根据流向线路得知，与目标节点相关的其他节点是节点a、节点b、节点d、节点e。

其中，节点a代表其他数据表A，节点b代表其他数据表B，节点d代表其他数据表D，节点e代表其他数据表E。

204、根据数据血缘网络中目标节点和相关节点之间的流向线路，确定目标数据表和其他数据表之间的关系信息，并基于该关系信息和目标算子构建特征表。

可以目标数据表和其他数据表通过某一具有相同的列进行关联，比如目标数据表存在三列<A,B,C>,其他数据表存在四列<A,D,E,F>，则可以通过A列将两张表进行关联，为目标数据表提供其他数据表中<D,E,F>列的有效信息，即<D,E,F>为关系信息。

比如，根据数据血缘网络中目标节点和相关节点之间的流向线路，确定目标数据表和其他数据表之间的关系信息，根据关系信息和目标数据表生成特征表<A,B,C,F(C),F(D)>，其中，目标算子F可以是统计算子COUNT、求和算子SUM、方差算子STD、用户自定义算子，等等。

例如，参考图2b，可以根据数据血缘网络确定关系信息，该关系信息为目标数据表(目标实体)和其他数据表(其他实体)之间的关系信息，通过对目标数据表中的字段进行轮询，可以得到目标数据表和其他数据表之间所有字段的关系信息；然后，根据用户自定义的自定义算子，以及预设算子、组合算子等，对关系信息进行特征生成处理，最后得到特征表。

205、通过特征选择操作，在特征表中确定预测特征。

最后，可以对特征表<A,B,C,F(C),F(D)>中特征A、B、C、F(C)、F(D)进行特征选择。

首先，可以对这些特征表中的特征进行缺失值处理、特征向量化、方差过滤等数据预处理操作，得到预处理后的特征表，使得预测更加准确。

比如，参考图2c，数据预处理过程包括缺失值处理、特征向量化、方差过滤等数据预处理操作；其中，缺失值处理的步骤如下：

计算每一个特征的缺失率；

若缺失率较小，则需要判断缺失值的类型是字符串类型还是数值型，并根据缺失值的类型是进行缺失值填充，例如，在本实施例中可以基于频次填充(基于频次最多、频次最少的数值进行填充)、基于数据的分布填充、基于数值进行填充(基于中位数、均值、分组均值进行填充)，等等。

若缺失率较大，则可以直接丢弃数据。

当缺失值处理完毕后，还可以进行向量化、方差过滤等数据预处理操作。

之后，可以对预处理后的特征表进行特征选择，比如，可以有基于Filter算法进行特征选择、基于Embedded算法进行特征选择、基于Wrapper算法进行特征选择、基于相关性系数进行特征选择，等等。

其中，基于Embedded算法进行特征选择包括通过决策树算法进行特征选择、随机森林算法进行特征选择、梯度提升树算法进行特征选择以及逻辑斯特回归算法进行特征选择，等等。

例如，参考图2e，图2e是通过决策树算法进行特征选择得到的由大到小的特征排序，在本实施例中，可以选取具有最大值的特征作为预测特征。

由上可知，本方案通过获取用户的数据处理指令，该数据处理指令指定了目标算子和目标数据表；从数据库集群中的每个分布式数据库中拉取数据表的历史操作信息；根据历史操作信息生成数据血缘网络，以及在数据血缘网络中确定目标节点和目标节点的相关节点，该目标节点对应目标数据表，该相关节点对应其他数据表；根据数据血缘网络中目标节点和相关节点之间的流向线路，确定目标数据表和其他数据表之间的关系信息，并基于该关系信息和目标算子构建特征表；通过特征选择操作，在特征表中确定预测特征。

本方案可以有效地针对分布式数据库中的数据进行特征生成和特征选择，特别针对具有海量数据的分布式数据库，本方案无需对这些海量数据进行采样就能得到数据之间的关系，从而根据关系进行特征预测。由此，本方案提升了用于特征构造的数据处理的效率。

为了更好地实施以上方法，本发明实施例还提供一种数据处理装置，该数据处理装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以数据处理装置具体集成在服务器集群中为例，对本发明实施例的方法进行详细说明。

例如，如图3所示，该数据处理装置可以包括获取单元301、节点单元302、关系单元303、特征单元304、评分单元305以及预测单元306，如下：

(一)获取单元301：

获取单元301，用于获取目标算子、数据血缘网络和目标数据实体集，目标数据实体集中包括多个目标数据实体，数据血缘网络中包括多个节点，以及节点之间的流向线路。

在一些实施例中，获取单元可以包括获取子单元、确定子单元、血缘子单元，如下：

获取子单元可以用于获取用户的数据处理指令，以及数据库集群的历史操作信息；

确定子单元可以用于基于数据处理指令确定目标算子和目标数据实体；

血缘子单元可以用于基于历史操作信息构建数据血缘网络。

在一些实施例中，获取子单元可以包括接收子模块、拉取子模块，如下：：

接收子模块可以用于接收用户触发的数据处理指令；

拉取子模块可以用于从数据库集群中的每个分布式数据库中拉取针对数据实体的历史操作信息。

在一些实施例中，血缘子单元可以包括流向子模块、血缘子模块，如下：：

流向子模块可以用于根据历史操作信息对数据实体进行流向分析，得到数据实体之间的流向线路；

血缘子模块可以用于基于数据实体以及数据实体之间的流向线路构建数据血缘网络。

在一些实施例中，流向子模块具体可以用于：

基于依赖关系确定字段与其他数据实体之间的流向线路。

(二)节点单元302：

节点单元302可以用于在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，目标节点对应目标数据实体，相关节点对应其他数据实体。

(三)关系单元303：

关系单元303可以用于根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息。

在一些实施例中，数据实体中包括多个关键字段，关系单元303具体可以用于：

获取主关键字段和外关键字段的键值；

(四)特征单元304：

特征单元304可以用于基于实体关系信息以及目标算子构建目标数据实体的特征集合。

在一些实施例中，目标数据实体和实体关系信息均包括多个关键字段，特征单元304具体可以用于：

(五)评分单元305：

评分单元305可以用于对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分。

在一些实施例中，评分单元305可以包括预处理子单元、计算子单元，如下：

预处理子单元可以用于对特征集合中的特征进行数据预处理，得到处理后特征；

计算子单元可以用于采用评分模型计算处理后特征的预测评分。

在一些实施例中，评分模型包括线性相关模型和非线性相关模型，计算子单元具体可以包括线性子模块、非线性子模块和评分子模块，如下：

线性子模块可以用于采用线性分析模型计算处理后特征之间的线性相关度；

非线性子模块可以用于采用非线性相关模型计算处理后特征之间的非线性相关度；

评分子模块可以用于基于线性相关度和非线性相关度确定处理后特征的预测评分。

在一些实施例中，评分子模块还可以用于：

展示处理后特征之间的相关度热力图。

在一些实施例中，预处理子单元具体可以用于：

采用数据预处理操作对特征集合中的特征进行数据预处理，得到处理后特征，其中，数据预处理操作包括缺省值处理、特征向量化处理、方差过滤处理、去重处理。

(六)预测单元306：

预测单元306可以用于根据预测评分在特征集合中确定预测特征。

在一些实施例中，预测单元306具体可以用于：

根据在特征集合中将预测评分最高的特征确定为预测特征；

展示预测特征。

由上可知，本实施例的数据处理装置由获取单元获取目标算子、数据血缘网络和目标数据实体集，目标数据实体集中包括多个目标数据实体，数据血缘网络中包括多个节点，以及节点之间的流向线路；由节点单元在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，目标节点对应目标数据实体，相关节点对应其他数据实体；由关系单元根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息；由特征单元基于实体关系信息以及目标算子构建目标数据实体的特征集合；由评分单元对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分；由预测单元根据预测评分在特征集合中确定预测特征。由此，本发明实施例可以提升用于特征构造的数据处理的效率。

本发明实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在一些实施例中，服务器集群中的服务器也可以由终端来实现。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标算子、数据血缘网络和目标数据实体集，该目标数据实体集中包括多个目标数据实体，该数据血缘网络中包括多个节点，以及节点之间的流向线路；

在数据血缘网络中确定目标节点，以及与目标节点相连的相关节点，该目标节点对应目标数据实体，该相关节点对应其他数据实体；

根据目标节点和相关节点之间的流向线路，生成目标数据实体和其他数据实体之间的实体关系信息；

基于实体关系信息以及目标算子构建目标数据实体的特征集合；

对特征集合中的特征进行评分预测，得到特征集合中特征的预测评分；

根据预测评分在特征集合中确定预测特征。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本发明可以通过数据血缘网络来确定数据实体之间的关系，从而根据这些关系信息构建数据实体的特征集合，最后在特征集合中预测对数据实体影响最大的特征。由此，本发明提升了用于特征构造的数据处理的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种数据处理方法中的步骤。例如，该指令可以执行如下步骤：

根据预测评分在特征集合中确定预测特征。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种数据处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种数据处理方法、装置、服务器和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

所述目标数据实体和实体关系信息均包括多个关键字段，根据所述目标节点和相关节点之间的流向线路，基于所述目标数据实体和所述其他数据实体的关键字段，生成所述目标数据实体和其他数据实体之间的实体关系信息；

采用所述目标算子提取所述目标数据实体和实体关系信息之间的不同关键字段的字段特征；

根据所述目标数据实体中的关键字段，以及所述不同关键字段的字段特征生成特征集合；

根据所述预测评分在特征集合中确定预测特征。

2.如权利要求1所述的数据处理方法，其特征在于，获取目标算子、数据血缘网络和目标数据实体集，包括：

获取用户的数据处理指令，以及数据库集群的历史操作信息；

基于所述数据处理指令确定目标算子和目标数据实体；

基于所述历史操作信息构建数据血缘网络。

3.如权利要求2所述的数据处理方法，其特征在于，获取用户的数据处理指令，以及数据库集群的历史操作信息，包括：

接收用户触发的数据处理指令；

从数据库集群中的每个分布式数据库中拉取针对所述数据实体的历史操作信息；

所述基于所述历史操作信息构建数据血缘网络，包括：

根据所述历史操作信息对数据实体进行流向分析，得到所述数据实体之间的流向线路；

基于所述数据实体以及数据实体之间的流向线路构建数据血缘网络。

4.如权利要求3所述的数据处理方法，其特征在于，所述历史操作信息包括数据实体中字段的字段操作信息，所述数据实体之间的流向线路包括字段与其他数据实体之间的流向线路，根据所述历史操作信息对数据实体进行流向分析，得到所述数据实体之间的流向线路，包括：

5.如权利要求1所述的数据处理方法，其特征在于，对所述特征集合中的特征进行评分预测，得到所述特征集合中特征的预测评分，包括：

对所述特征集合中的特征进行数据预处理，得到处理后特征；

采用评分模型计算所述处理后特征的预测评分。

6.如权利要求5所述的数据处理方法，其特征在于，所述评分模型包括线性相关模型和非线性相关模型，采用评分模型计算所述处理后特征的预测评分，包括：

采用所述线性相关模型计算所述处理后特征之间的线性相关度；

采用所述非线性相关模型计算所述处理后特征之间的非线性相关度；

基于所述线性相关度和非线性相关度确定所述处理后特征的预测评分。

7.如权利要求6所述的数据处理方法，其特征在于，基于所述线性相关度和非线性相关度确定所述处理后特征的预测评分之后，还包括：

展示所述处理后特征之间的相关度热力图。

8.如权利要求5所述的数据处理方法，其特征在于，所述评分模型包括过滤器模型、嵌入模型、包裹器模型其中任意一种。

9.如权利要求5所述的数据处理方法，其特征在于，对所述特征集合中的特征进行数据预处理，得到处理后特征，包括：

10.如权利要求1所述的数据处理方法，其特征在于，采用所述目标算子提取所述目标数据实体和实体关系信息之间的不同关键字段的字段特征，包括：

采用目标算子对所述不同关键字段进行特征提取，得到所述不同关键字段的字段特征。

11.如权利要求1所述的数据处理方法，其特征在于，根据所述目标节点和相关节点之间的流向线路，基于所述目标数据实体和所述其他数据实体的关键字段，生成所述目标数据实体和其他数据实体之间的实体关系信息，包括：

获取所述主关键字段和外关键字段的键值；

12.如权利要求1所述的数据处理方法，其特征在于，根据所述预测评分在特征集合中确定预测特征，包括：

根据在特征集合中将预测评分最高的特征确定为预测特征；

展示所述预测特征。

13.一种数据处理装置，其特征在于，包括：

所述目标数据实体和实体关系信息均包括多个关键字段，关系单元，用于根据所述目标节点和相关节点之间的流向线路，基于所述目标数据实体和所述其他数据实体的关键字段，生成所述目标数据实体和其他数据实体之间的实体关系信息；

特征单元，用于采用所述目标算子提取所述目标数据实体和实体关系信息之间的不同关键字段的字段特征，根据所述目标数据实体中的关键字段，以及所述不同关键字段的字段特征生成特征集合；

14.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～12任一项所述的数据处理方法中的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～12任一项所述的数据处理方法中的步骤。