CN109213754A

CN109213754A - 一种数据处理***及数据处理方法

Info

Publication number: CN109213754A
Application number: CN201810935236.2A
Authority: CN
Inventors: 王清臣; 陈静瑶
Original assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Current assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Priority date: 2018-03-29
Filing date: 2018-08-16
Publication date: 2019-01-15
Anticipated expiration: 2038-08-16
Also published as: CN109213754B

Abstract

本发明提供一种数据处理***及数据处理方法，所述数据处理***包括：接口模块，用于显示用户界面，并接收用户在用户界面上的第一输入；显示模块，用于响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息；创建模块，用于根据所述数据模型创建信息，创建数据模型；其中，所述数据模型用于表示从上游***接入的业务数据和提供至下游***的数据之间的关系。本发明实施例中，用户可以通过接口模块显示的用户界面创建数据模型，从而能够在面对日益增长的数据量和日益复杂的业务的情况下，借助基于用户对业务数据的理解创建的数据模型，对上游***的数据进行处理，满足相应的数据需求变化。

Description

一种数据处理***及数据处理方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理***及数据处理方法。

背景技术

近年来，大数据处理与分析已经成为全球性问题。随着经济社会信息化和自动化水平不断提高，在政府管理、公共服务、科学研究、商业应用等许多领域都面临大数据问题，需要有各种针对性和经济有效的解决方案。大数据处理***为行业大数据提供处理能力，一般集数据接入、数据处理、数据存储、查询检索、分析挖掘、应用接口等功能为一体。

在数据处理技术领域中，当前的环境越来越重视数据的累积。随着数据量的越来越大，数据处理***对处理数据的能力以及其对应的基本架构有着越来越高的要求，需要更快的处理速度、更大的数据存储能力、易维护性和使用便利性等。但面对日益增长的数据量和日益复杂的业务，当前数据处理***无法满足相应的数据需求变化。

发明内容

本发明实施例提供一种数据处理***及数据处理方法，以能够在面对日益增长的数据量和日益复杂的业务的情况下，满足相应的数据需求变化。

第一方面，本发明实施例提供了一种数据处理***，包括：

接口模块，用于显示用户界面，并接收用户在用户界面上的第一输入；

显示模块，用于响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息；

创建模块，用于根据所述数据模型创建信息，创建数据模型；

其中，所述数据模型用于表示从上游***接入的业务数据和提供至下游***的数据之间的关系。

可选的，所述用户界面为界面模式时，所述数据模型创建信息包括如下至少一项：目标表基本信息、源表、源表之间的连接关系、目标表中各字段的信息和目标表中各字段的数据来源方式；

或者，所述数据模型创建信息包括如下至少一项：目标表基本信息、模型配置对象、模型配置对象之间的连线关系、字段加工信息、目标表中各字段的设置信息。

可选的，所述接口模块还用于接收用户用于设置目标表基本信息的输入、用于选择模型配置对象的输入和用于设置模型配置对象之间的连线关系的输入；

所述显示模块还用于显示设置的目标表基本信息、选择的模型配置对象和设置的模型配置对象之间的连线关系；

所述创建模块还用于根据所述设置的目标表基本信息、选择的模型配置对象和设置的模型配置对象之间的连线关系，创建目标表。

可选的，所述用户界面为脚本模式时，所述数据模型创建信息包括如下至少一项：建表脚本代码信息和加工脚本代码信息。

可选的，所述接口模块还用于：接收用户在用户界面上的第二输入；

所述***还包括：

切换模块，用于响应于所述第二输入，对所述用户界面的模式进行切换，将在模式切换前确定的数据模型创建信息转换为与切换后的模式对应的数据模型创建信息，并进行显示。

可选的，所述切换模块还用于：

基于接收到的用于将界面模式切换至脚本模式的输入，将模型配置对象及其连线关系翻译为对应的代码，以生成脚本代码信息；或者

基于接收到的用于将脚本模式切换至界面模式的输入，将脚本代码信息解析为对应的模型配置对象、模型配置对象的界面坐标及模型配置对象之间的连线关系，并显示于用户界面。

可选的，所述***还包括：

数据处理模块，用于根据所述数据模型获取目标数据；

数据服务模块，用于将所述目标数据提供给对应的下游***。

可选的，所述接口模块还用于：接收用户在用户界面上的第三输入；

所述***还包括：

数据血缘模块，用于响应于所述第三输入，确定目标数据表及其关联表之间的数据血缘关系，并对确定的数据血缘关系进行显示。

可选的，所述***还包括：

数据接入模块，用于从所述上游***接入业务数据；

元数据管理模块，用于对所述业务数据进行元数据管理。

可选的，所述数据接入模块还用于：根据预先生成的接入数据代码模块，从所述上游***接入所述业务数据。

可选的，所述接口模块还用于：接收用户在用户界面上的第四输入；

所述***还包括：

确定模块，用于响应于所述第四输入，确定与所述第四输入对应的业务数据信息和元数据信息；

生成模块，用于根据所述业务数据信息和所述元数据信息，生成所述接入数据代码模块。

可选的，所述数据接入模块中包括清洗规则模块；

所述数据接入模块还用于：根据所述清洗规则模块，对所述业务数据进行清洗，规范所述业务数据。

可选的，所述接口模块还用于：接收用户在用户界面上的第五输入；

所述***还包括：

检查模块，用于响应于所述第五输入，检查所述数据模型是否符合向下游***提供数据的要求，得到检查结果并显示所述检查结果。

可选的，所述数据处理模块还用于：根据预先生成的供数脚本代码模块获取目标数据。

第二方面，本发明实施例还提供了一种数据处理方法，包括：

显示用户界面，并接收用户在用户界面上的第一输入；

响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息；

根据所述数据模型创建信息，创建数据模型；

可选的，所述接收用户在用户界面上的第一输入的步骤，包括：

接收用户用于设置目标表基本信息的输入、用于选择模型配置对象的输入和用于设置模型配置对象之间的连线关系的输入；

所述显示与所述第一输入对应的数据模型创建信息的步骤，包括：

显示设置的目标表基本信息、选择的模型配置对象和设置的模型配置对象之间的连线关系；

所述根据所述数据模型创建信息，创建数据模型的步骤，包括：

根据所述设置的目标表基本信息、选择的模型配置对象和设置的模型配置对象之间的连线关系，创建目标表。

可选的，所述响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息的步骤之后，所述方法还包括：

接收用户在用户界面上的第二输入；

响应于所述第二输入，对所述用户界面的模式进行切换，将在模式切换前确定的数据模型创建信息转换为与切换后的模式对应的数据模型创建信息，并进行显示。

可选的，所述根据所述数据模型创建信息，创建数据模型之后，所述方法还包括：

根据所述数据模型获取目标数据；

将所述目标数据提供给对应的下游***。

可选的，所述方法还包括：

接收用户在用户界面上的第三输入；

响应于所述第三输入，确定目标数据表及其关联表之间的数据血缘关系，并对确定的数据血缘关系进行显示。

可选的，所述根据所述数据模型获取目标数据之前，所述方法还包括：

从所述上游***接入业务数据；

对所述业务数据进行元数据管理。

可选的，所述从所述上游***接入业务数据，包括：

根据预先生成的接入数据代码模块，从所述上游***接入所述业务数据。

可选的，所述根据预先生成的接入数据代码模块，从所述上游***接入所述业务数据之前，所述方法包括：

接收用户在用户界面上的第四输入；

响应于所述第四输入，确定与所述第四输入对应的业务数据信息和元数据信息；

根据所述业务数据信息和所述元数据信息，生成所述接入数据代码模块。

可选的，所述从所述上游***接入业务数据之后，所述方法还包括：

根据所述清洗规则模块，对所述业务数据进行清洗，规范所述业务数据。

接收用户在用户界面上的第五输入；

响应于所述第五输入，检查所述数据模型是否符合向下游***提供数据的要求，得到检查结果并显示所述检查结果。

可选的，所述方法还包括：

根据预先生成的供数脚本代码模块获取目标数据。

第三方面，本发明实施例还提供了一种数据处理***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述数据处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法的步骤。

在本发明实施例中，用户可以通过接口模块显示的用户界面创建数据模型，该数据模型用于表示从上游***接入的业务数据和提供至下游***的数据之间的关系，从而能够在面对日益增长的数据量和日益复杂的业务的情况下，借助基于用户对业务数据的理解创建的数据模型，对上游***的数据进行处理，满足相应的数据需求变化，从而提高使用数据的便利性，提高数据分析人员的工作效率，在处理大量数据例如TB、PB级数据时，缩短数据处理的时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据处理***的结构示意图；

图2A为本发明实施例提供的一界面模式下的用户界面的示意图；

图2B为本发明实施例提供的另一界面模式下的用户界面的示意图；

图3为本发明实施例提供的脚本模式下的用户界面的示意图；

图4为本发明实施例提供的另一数据处理***的结构示意图；

图5为本发明具体实例中显示的一血缘关联关系图；

图6为本发明实施例提供的数据处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先指出的是，本发明实施例提供的数据处理***可对应于大数据工程平台(Data Engineering Platform，DEP)，提供数据集成、数据清洗、数据存储、数据建模、数据质量探查、数据下发和数据推送等围绕大数据的相关服务，以对多种数据来源的原始业务数据进行整合、加工、计算和管理，为数据分析、数据挖掘和数据可视化等提供高质量、高价值的数据。具体的，本发明实施例提供的数据处理***可以以海杜普(Hadoop DistributedFile System，Hadoop)技术为基础，以Airflow作为调度工具。本发明实施例提供的数据处理***可以用于从上游***接入数据，对接入的数据进行数据存储及处理，之后提供给下游***；其中用于数据存储的存储模块相比于传统数据库进行了升级，使得***具有更强大的数据存储能力、良好的扩展性和稳定的高性能表现。数据处理***的存储模块可包括：数据处理***的业务存储模块(即数据处理***的业务数据库)和大数据平台的数据仓库。下文所述数据字典模块里的表(即元数据)可存储于业务数据库，目标表可存储于业务数据库和/或大数据平台的数据仓库，业务数据可存储于数据仓库中。

具体的，参见图1所示，本发明实施例提供了一种数据处理***，该数据处理***可包括：

接口模块101，用于显示用户界面，并接收用户在用户界面上的第一输入；

显示模块102，用于响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息；

创建模块103，用于根据所述数据模型创建信息，创建数据模型。

其中，所述数据模型用于表示从上游***接入的业务数据和提供至下游***的数据之间的关系，该关系例如为映射关系等。该数据模型可基于用户对业务数据的理解进行创建，该对业务数据的理解是基于对数据分析的需求、结合行业规则和业务经验等来获得的。在创建数据模型后，可显示模型列表，以进行信息展示，并提供编辑和删除等功能。

需指出的是，该数据模型在创建后，可保存至数据处理***的存储模块中，包括存储在数据处理***的业务存储模块和大数据平台的数据仓库中。实际应用中为下游***提供数据时，可直接调用该数据模型，对存储模块中存储的与上游***相关的数据进行处理，得到符合向下游***提供数据的要求的数据，并将此数据提供至下游***。

本发明实施例中，用户可以通过接口模块显示的用户界面创建数据模型，该数据模型用于表示从上游***接入的业务数据和提供至下游***的数据之间的关系，从而能够在面对日益增长的数据量和日益复杂的业务的情况下，借助基于用户对业务数据的理解创建的数据模型，对上游***的数据进行处理，满足相应的数据需求变化，从而提高使用数据的便利性，提高数据分析人员的工作效率，在处理大量数据例如TB、PB级数据时，缩短数据处理的时间。

需说明的是，该上游***可包括业务***(例如大数据平台)和数据库，该业务***可包括客户的内部业务***，和/或客户的第三方业务***，该数据库可包括客户的内部数据库，和/或客户使用的第三方数据库。该下游***可包括业务***(例如大数据平台)和数据库，该业务***可包括客户的内部业务***，和/或客户的第三方业务***，该数据库可包括客户的内部数据库，和/或客户使用的第三方数据库。

本发明实施例中，参见图2A、图2B和图3所示，第一输入所对应的用户界面(UserInterface，UI)可为界面模式，或者脚本模式。其中可选的，当用户界面为界面模式时，参见图2A所示，与第一输入对应的数据模型创建信息可包括如下至少一项：目标表(可称为模型表)基本信息、源表、源表之间的连接关系、目标表中各字段的信息和目标表中各字段的数据来源方式等。

进一步的参见图2A所示，该目标表基本信息可包括表名、表注释、层级和主题等，其中层级可选择已预设的层级，主题可选择已预设的主题。在接收第一输入之前，可对模型主题和模型层级这两方面进行预设。具体实现时，对模型主题的预设可通过模型主题模块的维度管理实现，即在模型主题模块下，用户可以根据实际业务场景需求，例如该模型产生和供数时的业务场景需求，添加主题、规定主题之间的从属关系，主题是从实际业务场景里提炼出的描述，以用于对模型在业务层面上进行区分，例如主题可以为客户、营销、账务等。对模型层级的预设可通过模型层级模块的维度管理实现，即在模型层级模块下，用户可以根据数据加工处理的需要，对***数据仓库内数据整合加工的流程和/或次序进行规划，主要用于数据在流向上做区分，例如层级可以为贴源层、整合层、加工层、集市层等，其中数据字典可默认为最下层贴源层，用户后续添加的层级一般均在贴源层之上；一般情况下，用户在添加了层级之后才能够创建数据模型，目标表一般无法存在于贴源层。

进一步的，源表的可选范围可为***的存储模块中已有的所有表，例如从上游***(业务***或数据库)直接接入的原始数据表，或经过加工的中间临时表(区别于原始数据表和目标表，处于两者之间的数据表)。在输入源表时，用户可通过点选或拖拽等操作，将一张或多张源表添加到工作区。在源表包括对接入的业务数据进行加工得到的表的情况下，当根据已创建的数据模型进行数据处理时，要不单单考虑直接从上游***接入的业务数据表，还要考虑经过加工的数据表，此由基于创建数据模型时所依据的源表决定。

进一步的，该源表之间的连接关系可包括但不限于左联、右联、内联和外联等。其中，左联是指以两张表中的左边的表的字段为准进行连接，右联是指以两张表中的右边的表的字段为准进行连接，内联是指只取连接的两张表字段之间的交集，外联是指取连接的两张表字段的合集。而通过源表及源表之间的连接关系，可获取模型表的字段。

进一步的，该目标表中各字段的信息可包括但不限于字段名、字段类型、字段长度、字段精度和字段注释等。该目标表中各字段的数据来源方式包括但不限于直抽、函数、自定义等。其中，直抽是指该字段直接来源于***存储模块内已有的某张表中的某个字段，无需对该字段进行加工，用户可以直接在***界面上选择来源表和字段；函数是指需要对***存储模块内某张表中的某个字段进行加工才能产生该字段，***会预设一些简单的函数提供给用户进行选择，至于如何加工该来源字段(即上述“***存储模块内某张表中的某个字段”)，用户可以在***界面上对来源表、来源字段和函数进行设置；自定义是指需要对***存储模块内一张或多张表中的一个或多个字段进行加工才能产生该字段，属于加工条件较为复杂的情况，用户在此时也可以利用脚本模式，自行编写代码，利用复杂的函数生成所需字段，或者对***提供的预设函数进行编辑、合并等。这样，通过用户的输入，可实现源表至模型表的映射关系，该映射关系为源表与模型表之间的关系，包括源表之间的连接关系和数据信息来源方式等。其中，将一张或多张源表通过拖拽等操作添加到工作区时，***界面可自动显示所述源表的字段，所述源表中各字段的数据来源方式默认为直抽。

本发明实施例中，可选的，当用户界面为界面模式时，参见图2B所示，与第一输入对应的数据模型创建信息可包括如下至少一项：目标表基本信息、模型配置对象、模型配置对象之间的连线关系、字段加工信息、目标表中各字段的设置信息等。

进一步的参见图2B所示，该目标表基本信息可包括表名、表注释、层级和主题等，其中层级可选择已预设的层级，主题可选择已预设的主题。在接收第一输入之前，可对模型主题和模型层级这两方面进行预设。预设方法与图2A所示实施例的所述方法相同，此处不再赘述。

进一步的参见图2B所示，该模型配置对象可包括实体表(对应于上述的源表)、容器(比如join容器和联合union容器，可表示为多张表的结果集)、临时表、单表结果集和目标表等。其中，实体表的可选范围可为数据处理***内相应目标表的所在层级及以下层级的所有表，例如从上游***(业务***或数据库)直接接入的原始数据表，或经过加工的数据表(例如临时表、单表结果集)。在输入实体表时，用户可通过点选或拖拽等操作，将一张或多张实体表添加到工作区。该单表结果集一般是一张表，其中可包含查询所返回的列标题(字段名)及相应的值。该目标表是建模最后生成的表，即模型表。可选的，实体表、join容器、union容器、单表结果集和临时表均可以基于指向连接指向目标表。

进一步的，该模型配置对象之间的连线关系可包括指向连接关系(如图2B中带箭头的连线)和关联关系(如图2B中未带箭头的连线)。其中指向连接是指上下关系的连线，可带有箭头属性，也可体现顺序；关联关系是指左右关系的连线。具体的，设置关联关系时，可设置除了目标表之外的模型配置对象之间的关联关系，包括join连接关系(比如左联、右联、内联和/或外联)，以及union连接关系(比如union和/或union all)。其中，左联是指以两张表中的左边的表的字段为准进行连接，右联是指以两张表中的右边的表的字段为准进行连接，内联是指只取连接的两张表字段之间的交集，外联是指取连接的两张表字段的合集。Union操作主要用于合并结果集，而union和union all的区别为：union查重且排除重复，union all不查重不排除重复。具体实现时，容器可通过实体表之间的关联关系生成，单表结果集可通过对某实体表的模型配置(例如字段加工、条件过滤、排序等)生成，临时表可通过单个或多个模型配置对象(不包含目标表)之间的连线和模型配置(例如字段加工、条件过滤、排序等)生成。模型配置对象之间的连接线，可随着用户的操作顺序产生相应的序号(如图2B中的序号)，并以此作为数据模型创建时脚本模式下生成对应SQL语句顺序的依据。

具体的，设置指向连接关系时，实体表、join容器、union容器、单表结果集和临时表均可以基于指向连接指向目标表。该指向连接可带有箭头属性，也可体现顺序，目标表可以被任意一个或多个模型配置对象(不包括目标表)指向连接。在指向连接后，模型配置对象内的字段可基于用户选择，成为目标表的字段，或者默认全部字段自动***目标表，成为目标表的字段。目标表的字段信息可以直接显示于用户界面，也可基于对目标表的操作显示。

例如图2B所示的界面模式下，模型配置对象之间的指向连接关系包括：实体表ET1指向连接临时表TT1，单表结果集ST1指向连接临时表TT1，单表结果集ST1指向连接实体表ET2，实体表ET2指向连接临时表TT2，join容器JC1指向连接临时表TT3，union容器UC1指向连接实体表ET4，临时表TT2指向连接目标表TET，临时表TT3指向连接目标表TET，以及实体表ET4指向连接目标表TET，其中指向连接线上的序号①至⑨表示用户操作顺序。而模型配置对象之间的关联关系包括：join容器JC1内的临时表TT1与单表结果集ST2的关联关系，和单表结果集ST2与实体表ET2的关联关系；及union容器UC1内的实体表ET3与临时表TT1的关联关系，和临时表TT1与单表结果集ST3的关联关系；其中关联关系线上的序号①和②表示用户操作顺序。

进一步的，该字段加工信息可以基于用户操作生成，可以包括以下至少一项：字段选择信息、字段加工逻辑、过滤条件和数据排序信息等。例如，完成各模型配置对象间的关联关系和/或指向连接后，即完成各模型配置对象间的连线后，用户可以对字段进行选择，比如选择模型配置对象的部分字段***至要生成的表(容器、临时表、单表结果集、目标表等)，还可以进行字段加工逻辑的编辑，比如选择数据处理***内提供的函数，加工出新的字段。通常，当对数据处理***数据仓库内一张或多张表中的一个或多个字段进行加工时，才可以加工出新的字段，此属于加工条件较为复杂的情况；当采用直抽方式时，连接后的模型配置对象(不包含目标表)内的部分或全部字段可自动***目标表，成为目标表的字段，无需在字段加工区域对该目标表的字段进行加工逻辑的编辑。可选的，具体实现时，数据处理***可以基于用户对连线的操作显示字段加工区域，以进行字段的选择和字段加工逻辑的编辑。

对于过滤条件，用户可以在条件过滤界面下选择要过滤的表和字段，并设置过滤条件，用于过滤字段的值(即表中的数据)，也可以在用户界面上或底层生成SQL语句，同时在编辑器内编写SQL语句通过表达式过滤，并相应地在界面内显示各个条件。具体实现时，在界面上设置进行条件过滤和编写SQL语句表达式进行条件过滤这两种方式间可以进行无缝对接。数据处理***可以基于用户对连线的操作显示条件过滤界面。

对于数据排序信息，任意表(即任意模型配置对象)中的一个或多个字段下的数据都可进行排序。具体的，数据处理***可以基于用户对指向连接线的操作显示排序界面，选择一个或多个字段，并针对各个字段下的数据(字段的值)进行排序。

进一步的，该目标表中各字段的设置信息可包括但不限于字段名、字段类型、字段长度、字段精度和字段注释等的设置信息。此外，该目标表中各字段的设置信息还可包括字段分区设置信息，用于将目标表中的数据(字段的值)存储于不同的存储区域。具体实现时，该目标表中各字段的设置信息可直接显示于用户界面，也可嵌入至目标表的下拉菜单中，基于下拉菜单中的指定按钮开启相应功能。

需指出的是，该目标表中各字段的设置信息可在生成目标表基本信息之后确定，也可在生成字段加工信息之后确定，本发明实施例对此不进行限制。

本发明实施例中，可选的，该接口模块101还可用于接收用户用于设置目标表基本信息的输入、用于选择源表的输入和用于设置源表之间的连接关系的输入；

该显示模块102还可用于显示设置的目标表基本信息、选择的源表和设置的源表之间的连线关系；

该创建模块103还用于根据所述设置的目标表基本信息、选择的源表和设置的源表之间的连线关系，创建目标表。

进一步的，该接口模块101还可用于接收用户用于设置目标表中各字段的信息的输入，和/或用于选择目标表中各字段的数据来源方式的输入等；该显示模块102还可用于显示设置的目标表中各字段的信息，和/或选择的目标表中各字段的数据来源方式等；该创建模块103在创建目标表时，还可根据设置的目标表中各字段的信息，和/或选择的目标表中各字段的数据来源方式等。

本发明实施例中，可选的，该接口模块101还可用于接收用户用于设置目标表基本信息的输入、用于选择模型配置对象的输入和用于设置模型配置对象之间的连线关系的输入；

该显示模块102还可用于显示设置的目标表基本信息、选择的模型配置对象和设置的模型配置对象之间的连线关系；

该创建模块103还用于根据所述设置的目标表基本信息、选择的模型配置对象和设置的模型配置对象之间的连线关系，创建目标表。

进一步的，该接口模块101还可用于接收用户用于设置字段加工信息的输入，和/或用于选择目标表中各字段的设置信息的输入等；该显示模块102还可用于显示设置的字段加工信息，和/或选择的目标表中各字段的设置信息等；该创建模块103在创建目标表时，还可根据设置的字段加工信息，和/或选择的目标表中各字段的设置信息等。

本发明实施例中，可选的，当用户界面为脚本模式时，参见图3所示，与第一输入对应的数据模型创建信息可包括如下至少一项：建表脚本代码信息和加工脚本代码信息。与界面模式相比，脚本模式具有高效及可以定义复杂加工逻辑的特性。其中，该建表脚本代码信息可采用hiveQL语言(标准SQL语言的一种变种)，用于描述模型表的结构，定义表名和各字段信息(比如字段名、字段类型、字段长度和/或字段精度)等。该加工脚本代码信息可用于在***界面上选择源表，定义源表连接关系，定义数据来源方式(比如直抽、函数、自定义)，或定义数据来源加工逻辑等。

本发明实施例中，为了满足不同用户的需求，数据处理***中的界面模式和脚本模式之间可一键切换，即界面模式下显示的数据模型创建信息和脚本模式下显示的数据模型创建信息之间能够相互转换。例如，在界面模式下完成模型配置，单击“生成脚本”后，脚本模式可自动生成对应的建表脚本代码信息和加工脚本代码信息，可以在建表脚本中进一步定义表名和各字段信息等。又例如，在加工脚本内以代码描述目标表字段来源的加工逻辑后，通过同步操作，可以在界面模式获取到更为直观的字段信息。对于从界面模式同步至脚本模式下的脚本，用户在保存编辑后，也可以选择撤回脚本。

具体的，所述接口模块101还用于：

接收用户在用户界面上的第二输入；

对应的，参见图4所示，所述***还可包括：

切换模块104，用于响应于所述第二输入，对所述用户界面的模式进行切换，将在模式切换前确定的数据模型创建信息转换为与切换后的模式对应的数据模型创建信息，并进行显示。

其中在转换不同模式下的数据模型创建信息时，可通过相应算法，将hiveQL语言与UI元素对应起来，比如基于hiveQL语句的语法规则抽取相应表之间的映射关系和连接关系。例如，若在界面模式选择了源表、定义了源表和目标表的映射关系，则在点击保存并运行后，脚本模式下可自动生成对应的建表脚本代码信息和加工脚本代码信息，并可进一步地在建表脚本中定义表名和各字段信息；或者，若在脚本模式内以代码描述了目标表的结构等信息，则在点击保存并运行后，界面模式可自动填充对应的信息。

可选的，该切换模块104还可用于：

例如，当从界面模式(UI界面)切换到脚本模式(脚本代码)时，对于不同的模型配置对象及其连线关系，可利用不同的代码的语法含义，翻译出对应的代码，生成相应的脚本信息；当从脚本模式切换到界面模式时，可对脚本代码信息(包括建表脚本代码信息和加工脚本代码信息)进行解析，解析出不同的UI对象(至少包括模型配置对象和连线关系)以及结构化信息，并将解析出的UI对象和结构化信息对应到实际的UI界面，即在UI界面上动态生成实际的模型配置对象并生成其坐标，根据加工逻辑设置不同模型配置对象之间的连线关系，以实现具体UI界面，如图2B所示。

本发明实施例中，参见图4所示，所述***还可包括：

数据处理模块105，用于根据所述数据模型获取目标数据。

数据服务模块106，用于将所述目标数据提供给对应的下游***。

其中，所述数据模型包含数据加工逻辑。这样借助已创建的数据模型，可提供满足向下游***提供数据的要求(即下游***的供数要求)的数据至下游***。

进一步的，参见图4所示，所述***还可包括：

数据接入模块107，用于从所述上游***接入业务数据。

元数据管理模块108，用于对所述业务数据进行元数据管理。

其中，获取的元数据可存储在业务存储模块中。该元数据在存储到业务存储模块中时，可以表的形式进行存储。

进一步的，所述数据接入模块107还用于：根据预先生成的接入数据代码模块，从所述上游***接入所述业务数据。

进一步的，本发明实施例中，所述接口模块101还用于：接收用户在用户界面上的第四输入。

对应的，参见图4所示，所述***还可包括：

确定模块109，用于响应于所述第四输入，确定与所述第四输入对应的业务数据信息和元数据信息；

生成模块110，用于根据所述业务数据信息和所述元数据信息，生成所述接入数据代码模块。

其中，业务数据为从上游***接入的数据，元数据(Metadata)为描述业务数据的数据(data about data)，主要是描述数据属性(property)的信息，而数据属性例如为，字段名、字段类型、字段长度、字段精度、字段注释等。业务数据被接入后，可以存储于数据仓库中，例如存储于HDFS中。数据仓库中的数据在被管理时，可以在UI界面上以数据表的形式进行展示。本发明实施例优选以表的形式管理、存储和展示数据，所述表包括列表、图表等。数据表中可包括业务数据和元数据(表示业务数据的属性)。

本发明实施例中，该数据接入模块107中可包括清洗规则模块，对应的该数据接入模块107还用于：根据所述清洗规则模块，对所述业务数据进行清洗，规范所述业务数据。

这样，通过对业务数据的清洗，可保证业务数据的规范性，便于后续数据处理过程。

需指出的是，具体实现数据处理***时，数据接入模块107这个一级模块下，可包括上游***模块、数据字典模块(对应于元数据管理模块108)、清洗规则模块、接入脚本模块(对应于上述确定模块109和生成模块110，该接入脚本模块也可称为脚本工具模块)和质量探查模块这五个二级功能模块，其中上游***模块、数据字典模块和接入脚本模块(具体实现时，该接入脚本模块也可集成于数据字典模块中作为数据字典模块的下级模块)是必要的，清洗规则模块和质量探查模块是可选的。

可选的，该上游***模块可用于管理上游***的基本信息(该基本信息也可称为***信息)、连接信息(该连接信息也可称为数据源信息，设置数据处理***与上游***的连接信息后，数据处理***可以与上游***建立连接)和接收信号信息，其中管理方式包括添加、删除及编辑等。该上游***模块还可用于管理数据的接入方式。具体的，数据的接入方式可以用离线文件方式，比如分布式文件***(Hadoop Distributed File System，HDFS)、文件传输协议(File Transfer Protocol，FTP)文件和文件***(File System，FS)，或者直抽方式。离线文件方式是指用户通过导入离线文件，将数据接入***数据仓库。直抽方式是指直接将***的数据仓库和数据来源的数据库(比如MySQL、SQL Server、PostgreSQL、Db2和Oracle)进行连接。接收信号信息可以包括信号文件(比如离线文件、HDFS、FTP和/或FS)、数据信号(比如数据来源的数据库中的数据，该数据库比如为MySQL、SQL Server、PostgreSQL、Db2和/或Oracle)和消息队列(即数据传输过程中的中间件，比如离线文件和/或数据来源的数据库中的数据)。数据来源的数据库具体可为上游***的内部或外部数据库，比如客户业务***的内部数据库或客户业务***用到的第三方数据库。

在本发明实施例中，导入是针对文件的动作，接入是针对数据的。上游***模块下，可以完成数据处理***与上游***的连接，完成的前提是用户可以在相应***界面上输入上游***的基本信息、连接信息和接收信号信息，同时用户还可以管理上游***的基本信息、连接信息和接收信号信息。

可选的，该数据字典模块可用于实现管理***数据仓库内的数据的功能，具体可以在***界面上以表的形式展示数据。其中，针对离线文件方式，可以通过在线建表或者导入文件进行元数据获取，针对直抽方式，可以通过直接抽取数据库内的表，获得元数据。对元数据的管理即是对相应数据表及其字段信息进行管理，包括添加、删除、编辑等。

可选的，该清洗规则模块可用于展示、查询及浏览数据处理***中已有的清洗规则，以及清洗规则被调用的次数等。该清洗规则可以由***预设，也可以由用户自定义。该清洗规则可以用于对相应数据进行清洗，即规范相应数据，例如规范数据接入的格式、缺失值(比如空值)填充、非法值删除等。该清洗规则可以为实现数据规范化和/或一致性的方式方法，可以被应用于接入数据处理***数据仓库内的业务数据。

可选的，该接入脚本模块(也可称为脚本工具模块)可用于生成接入数据代码模块，实现对业务数据的接入。该接入脚本模块与上游***模块和数据字典模块是相关的。其中在接入脚本模块下，用户可以在UI界面内完善数据表(从上游***接入的各张表，即数据字典模块中的表)的相应信息，如数据加载方式、数据文件名、数据文件行分割符、数据文件列分割符和表列分割符等，而接入脚本模块自动生成数据建表脚本(即接入数据代码模块)和接入脚本。其中，该数据建表脚本是***内部实现的，接入脚本的内容会显示在UI界面，数据建表脚本内程序代码对应于数据字典模块定义的元数据和数据加载方式、数据文件名、数据文件行分割符、数据文件列分割符和表列分割符等信息。接入脚本模块可基于数据处理***与上游***建立的连接和数据建表脚本进行业务数据的接入。需指出的是，用户也可以直接编写数据建表脚本，并对编写好的脚本进行运行及查看结果，而对应界面内的表的相应结构信息会自动调整，若运行成功则提示成功，若运行失败则提示相应错误信息，即用户能够直接在界面内对脚本进行查看和编辑的操作。

或者，在接入脚本模块下，用户可以在UI界面内完善数据表(比如从上游***接入的各张表，即数据字典模块中的表)的相应信息，如数据源、数据加载方式、数据文件名、目标路径、数据文件列分割符等。进一步的，该接入脚本模块还可以生成建表脚本(即接入数据代码模块)、抽取脚本(仅针对数据库直抽方式)和加载脚本。其中，运行“建表脚本”可以实现在数据处理***的hive组件中创建相应表的功能；运行“加载脚本”可以实现将数据处理***的hive组件中的数据文件更新到hive组件的存储中的功能，该存储可默认为列式存储；运行“抽取脚本”可以实现直接从数据库中导出数据进入数据处理***的hive组件，使之变成数据文件的功能。

在本发明实施例中，用户可以直接编写脚本(比如建表脚本、抽取脚本和/或加载脚本)，运行脚本及查看结果，并且脚本运行成功时提示成功信息，运行失败时提示相应的错误信息。进一步的，在后续应用脚本时，当运行建表脚本时，可基于表名和各字段信息等生成表的结构，所述表可存储于Hive组件中；当运行加载脚本时，可基于数据源、加载方式、目标路径和/或数据文件列分割符等，将数据源中的数据加载到上述表中；进一步的，针对直抽的方式，在运行建表脚本和加载脚本之间还可运行抽取脚本，将数据库中的数据转换成文件格式存储在hive组件中。进一步的，用户还可以实时查看脚本的运行日志。

进一步的，接入脚本模块下可以配置清洗规则，即在数据建表脚本中添加数据清洗规则信息，以在接入业务数据时，对业务数据进行清洗，例如规范数据接入的格式、缺失值(例如空值)填充、非法值删除等。

可选的，该质量探查模块可用于对接入的业务数据进行质量探查。其中，为了对接入的业务数据进行质量探查，可在数据处理***中预设一些规则，例如检查字段格式是否规范、字段是否有空值等。***可以调用这些规则针对一些数据进行探查，例如选择数据字典模块中一个或多个有数据的表，进行探查，并生成探查报告，报告内容显示其中有多少不符合规范、有空值等。进一步的，针对业务数据问题(例如探查报告中显示的问题)，数据处理***可提供即在***界面上显示解决方案和建议。

本发明实施例中，为了追溯数据的来源，获得数据在数据流中的演化过程，所述接口模块101还用于：接收用户在用户界面上的第三输入。

对应的，参见图4所示，所述***还可包括：

数据血缘模块111，用于响应于所述第三输入，确定目标数据表及其关联表之间的数据血缘关系，并对确定的数据血缘关系进行显示。

其中，数据血缘的概念是指用户在根据数据模型生成目标表时产生的数据链路关系。例如，若在生成目标表过程中，表1的字段A和表2的字段B生成了表3的字段C，则C的父血缘就是A和B。

可以理解的，该目标数据表表示数据血缘关系中的目标对象，即目标的数据表，可为本发明实施例中的目标表，也可为目标表之前加工的数据表，比如临时表、单表结果集等。

具体的可针对目标数据表或目标字段，通过搜索表名、表注释、字段等查看血缘关系。血缘关系可以以关系图的形式或列表的形式展示。

通过关系图可展示下述至少之一：目标数据表或目标字段的来源相关表、基于目标表或目标字段生成的相关表。本发明具体实例中显示的一血缘关联关系图可如图5所示。参见图5，根据贴源层的账户余额表(包含余额字段)生成整合层的账户余额表(包含余额字段)，根据整合层的账户余额表和贴源层的新增账户表(包含余额字段)在整合层进一步生成客户信息表(包含信用字段)，根据整合层的账户余额表生成整合层的账户信用表(包含余额、信用字段)，根据整合层的账户余额表又可进一步生成集市层的账户余额表(包含余额字段)和集市层的客户信息表(包含贷款字段)。

通过列表可展示下述至少之一：目标数据表或目标字段的来源相关表、基于目标数据表或目标字段生成的相关表。进一步的，可展示所述表的表名、表注释、主题、层级、表备注、字段名、字段注释、字段备注等信息。

这样，借助显示的关联关系，使得用户可追溯数据的来源，获得数据在数据流中的演化过程，提供查询和展示功能，方便用户进行全局和局部地分析和决策，追踪和解决问题。举例说明，基于数据血缘能够分析出对下游***影响较大的枢纽数据，即对业务的影响较大的数据，从而指导客户进行业务决策、数据处理、数据管控等。

本发明实施例中，所述接口模块101还用于：接收用户在用户界面上的第五输入。对应的，参见图4所示，所述***还可包括：

检查模块112，用于响应于所述第五输入，检查所述数据模型是否符合向下游***提供数据的要求，得到检查结果并显示所述检查结果。

其中，此检查数据模型的方式例如为检查模型表内字段的信息、字段之间的关系、模型表的格式等是否符合向下游***提供数据的要求(即下游***的供数要求)。这样，借助检查结果的显示，用户可实时了解数据模型是否符合下游***的供数要求，并在数据模型符合下游***的供数要求的前提下，再通过数据模型处理得到提供给下游***的数据，从而提高数据服务的准确性。

本发明实施例中，所述数据处理模块105还用于：根据预先生成的供数脚本代码模块获取目标数据。

这样，在根据供数脚本代码模块得到目标数据后，进一步将目标数据提供给下游***，能够保证向下游***提供更符合要求的数据。

需指出的是，具体实现数据处理***时，数据服务模块106这个一级模块下，可以包括下游***模块、文件下发模块和数据推送模块这三个二级功能模块。其中，该下游***模块用于管理下游***的基本信息，即在数据处理***内添加下游***信息、编辑下游***信息及设置本***与下游***的连接信息等，与上游***模块的管理方式类似。该文件下发模块和数据推送模块可向已添加的下游***，添加向其供数的模型表信息，即选择下游***后，选择匹配的模型表(该模型表可以是***中预置的、用户自己创建的或其他用户创建，进一步的针对模型表的操作权限可以进行划分)，下游***的目标表和字段等，进一步的可生成供数脚本即供数脚本代码模块，此生成供数脚本的过程可参考上述接入脚本模块生成建表脚本的过程。在数据处理***中，可对供数脚本进行查看和编辑。该文件下发模块一般将目标文件发送到下游***中客户业务***的内部***或客户业务***用到的第三方业务***。该数据推送模块一般对应于直抽的供数方式，可将数据推送到下游***中客户业务***的内部数据库或客户业务***用到的第三方数据库。

上述实施例对本发明的数据处理***进行了说明，下面将结合实施例和附图对与本发明的数据处理***对应的数据处理方法进行说明。

参见图6所示，本发明实施例还提供了一种数据处理方法，包括如下步骤：

步骤601：显示用户界面，并接收用户在用户界面上的第一输入；

步骤602：响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息；

步骤603：根据所述数据模型创建信息，创建数据模型；

本发明实施例中，可选地，所述用户界面为界面模式时，所述数据模型创建信息包括如下至少一项：目标表基本信息、源表、源表之间的连接关系、目标表中各字段的信息和目标表中各字段的数据来源方式；

可选地，步骤601可包括：

步骤602可包括：

步骤603可包括：

在另一实施例中，步骤601可包括：接收用户用于设置目标表基本信息的输入、用于选择源表的输入和用于设置源表之间的连接关系的输入；

步骤602可包括：显示设置的目标表基本信息、选择的源表和设置的源表之间的连线关系；

步骤603可包括：根据所述设置的目标表基本信息、选择的源表和设置的源表之间的连线关系，创建目标表。

可选地，所述用户界面为脚本模式时，所述数据模型创建信息包括如下至少一项：建表脚本代码信息和加工脚本代码信息。

本发明实施例中，可选地，步骤602之后，所述方法还包括：

接收用户在用户界面上的第二输入；

可选地，步骤602之后，所述方法还包括：

本发明实施例中，可选地，步骤603之后，所述方法还包括：

根据所述数据模型获取目标数据；

将所述目标数据提供给对应的下游***。

本发明实施例中，可选地，所述方法还包括：

接收用户在用户界面上的第三输入；

本发明实施例中，可选地，所述根据所述数据模型获取目标数据之前，所述方法还包括：

从所述上游***接入业务数据；

对所述业务数据进行元数据管理。

本发明实施例中，可选地，所述从所述上游***接入业务数据，包括：

本发明实施例中，可选地，所述根据预先生成的接入数据代码模块，从所述上游***接入所述业务数据之前，所述方法包括：

接收用户在用户界面上的第四输入；

本发明实施例中，可选地，所述从所述上游***接入业务数据之后，所述方法还包括：

本发明实施例中，可选地，步骤603之后，所述方法还包括：

接收用户在用户界面上的第五输入；

本发明实施例中，可选地，所述方法还包括：

根据预先生成的供数脚本代码模块获取目标数据。

此外，本发明实施例还提供了一种数据处理***，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器执行时可实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理***，其特征在于，包括：

2.根据权利要求1所述的***，其特征在于，

所述用户界面为界面模式时，所述数据模型创建信息包括如下至少一项：目标表基本信息、源表、源表之间的连接关系、目标表中各字段的信息和目标表中各字段的数据来源方式；

3.根据权利要求1所述的***，其特征在于，所述接口模块还用于接收用户用于设置目标表基本信息的输入、用于选择模型配置对象的输入和用于设置模型配置对象之间的连线关系的输入；

4.根据权利要求1所述的***，其特征在于，

所述用户界面为脚本模式时，所述数据模型创建信息包括如下至少一项：建表脚本代码信息和加工脚本代码信息。

5.根据权利要求3所述的***，其特征在于，

所述接口模块还用于：接收用户在用户界面上的第二输入；

所述***还包括：

6.一种数据处理方法，其特征在于，包括：

显示用户界面，并接收用户在用户界面上的第一输入；

根据所述数据模型创建信息，创建数据模型；

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求6所述的方法，其特征在于，所述接收用户在用户界面上的第一输入的步骤，包括：

9.根据权利要求6所述的方法，其特征在于，

10.根据权利要求8所述的方法，其特征在于，所述响应于所述第一输入，显示与所述第一输入对应的数据模型创建信息的步骤之后，还包括：

接收用户在用户界面上的第二输入；