CN109344186A

CN109344186A - 一种bi多源数据库跨源跨库融合和融合方法

Info

Publication number: CN109344186A
Application number: CN201810968312.XA
Authority: CN
Inventors: 李晓刚; 赖文文; 王建洪
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-02-15

Abstract

本发明公开了一种BI***多源数据库跨源跨库融合***和融合方法，包括外部业务数据库、数据处理引擎和数据存储模块；数据存储模块包括传统关系型数据库和大数据数据库，外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。数据处理引擎读取存储于外部业务数据库的外部数据，然后通过数据融合组件将外部数据封装为融合数据集，最后通过抽取组件将融和数据集***数据存储模块。本发明实现了快速在BI***上进行跨源跨库数据融合，不需要借助第三方ETL工具也无需编写复杂脚本语言，支持基于Hadoop的大数据数据仓储，采用底层分布式计算框架实现TB、PB级别数据的数据处理和融合。

Description

一种BI***多源数据库跨源跨库融合***和融合方法

技术领域

本发明属于数据库融合技术领域，具体涉及一种BI***多源数据库跨源跨库融合***和融合方法。

背景技术

商业智能***(BI***)兴起于上世纪90年代，经过近30年的发展，已经被广泛应用于各行各业中。近年来，大数据时代的来临给BI领域带来了巨大挑战，传统BI***通常只能基于单一数据来源进行分析和报表开发，若需要进行异构数据源的查询，通常需要借助底层ETL工具进行数据融合，而采用这种方式会导致BI分析流程复杂，周期漫长，无法快速为业务提供数据支撑。

在当前大数据时代，用户通常面临的是大量的、以不同形式存储的、依赖于不同的数据库管理***的数据，BI***需要解决的一个难点就是将多种数据源中的相关数据进行提取、融合、梳理整合成一个分析数据集。

为了能够支持多数据源的融合查询，当前的技术解决方案主要有以下两种：

1、数据仓库方式

如图1所示，该方式将各个分布在不同数据库中的数据，借助ETL工具提取到中心数据仓库中，通常业务数据会存储在不同的DBMS***内，如Oracle、DB2、MySQL等，为了实现业务跨库的数据查询，通常需要使用ETL工具，将不同来源的数据，共同存储于数据仓库中，数据仓库的形式可以是Oracle、DB2等，基于不同的数据量大小会采用不同的数据库架构，最终生成一个新的数据集，该数据集融合了不同库的数据，为上层分析和查询提供数据基础，这种方法的一个显然特点就是数据仓库对于各个分布的数据库具有高度控制权。

该数据仓库方式需要使用ETL工具预先处理生成好融合数据集，再由BI***连接中央数据仓库进行数据分析；且基于传统数据仓库架构，仅能支持TB级数据量；业务人员需要借助IT人员实现数据融合，无法做到实时数据处理；

2、脚本和接口方式

如图2所示，通过Javascript函数接口，实现跨数据库联合数据集，将来自不同数据库上的数据，通过脚本JOIN数据集的方法展现在一张表单上。

由于该方法要实现关联的数据表在不同的数据库上，无法使用SQL方式实现跨源跨库表关联，需要调用JAVA函数的类库进行跨库计算，具体步骤如下：先将不同数据源的数据表内容，读取到公共对象中，再使用***的函数实现表内字段的关联，将关联后的数据表存储在所创建的公共数据集中，对公共数据集通过函数方式进行数据处理，如数据过滤、分组、转换等操作，最终将数据输送到前端页面。

该脚本和接口方式需要专业编程人员编写数据融合代码，且由于采用公共对象实现数据融合，数据量跟内存相关，适合于GB以内数据的融合处理，在小数据量处理上具备实时性，无法处理大数据量。

3、总结

现有技术中相关数据源融合方法无法适应大数据量的处理情况，在BI***上实现跨源跨库数据融合查询，都具备操作复杂、无法处理大数据、处理时间长、一般业务人员无法上手的缺点。

发明内容

本发明的目的在于：解决上述现有技术中的不足，提供一种BI***多源数据库跨源跨库融合***和融合方法，让业务人员通过简单的图形化编排方式即可实现跨源跨库数据融合，不需要借助第三方工具也无需编写复杂脚本语言，可快速实现大数据量的数据融合。

为了实现上述目的，本发明采用的技术方案为：

一种BI***多源数据库跨源跨库融合***，包括外部业务数据库、数据处理引擎和数据存储模块；数据存储模块包括传统关系型数据库和大数据数据库，外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。

进一步的，上述的传统关系型数据库包括MySQL数仓、PG数仓，大数据数据库包括Hive数据库。

进一步的，上述的数据处理引擎包括DataSet、ETL、Cube和OLAP。

进一步的，上述的外部业务数据库包括Oracle数据库、DB2数据库、MySQL数据库和Hive数据仓库。

进一步的，上述的数据处理引擎和外部数据库通过JDBC/ODBC接口连接。

一种BI***多源数据库跨源跨库融合方法，应用上述的一种BI***多元数据库跨源跨库融合***，包括以下步骤：

步骤一：数据处理引擎读取存储于外部业务数据库的外部数据；

步骤二：数据处理引擎通过数据融合组件将外部数据封装为融合数据集；

步骤三：数据处理引擎通过抽取组件将融和数据集***数据存储模块。

进一步的，上述的步骤一中，数据处理引擎通过JDBC/ODBC接口读取存储于外部业务数据库的外部数据。

进一步的，上述的步骤二中数据融合组件的处理步骤具体为：

步骤201：将外部数据和数据融合组件***数据处理引擎配置区，数据融合组件为表关联组件；

步骤202：配置外部数据融合流程；

步骤203：通过数据抽取节点将外部数据封装为融合数据集。

进一步的，上述的步骤三中抽取组件的处理步骤具体为：

步骤301：配置抽取组件的参数，参数包括抽取频率和抽取类型；

步骤302：数据处理引擎根据抽取频率和抽取类型将融合数据集***数据存储模块内对应的数仓内。

由于采用了上述技术方案，本发明的有益效果是：

本发明的BI***多源数据库跨源跨库融合***和融合方法实现了快速在BI***上进行跨源跨库数据融合，让业务人员通过简单的图形化编排方式即可实现跨源跨库数据融合，不需要借助第三方ETL工具也无需编写复杂脚本语言，可快速实现大数据量的数据融合，支持基于Hadoop的大数据数据仓储，采用底层分布式计算框架实现TB、PB级别数据的数据处理和融合。

附图说明

图1为本发明的数据仓库多数据源融合查询方法示意图。

图2为本发明的脚本和接口方式多数据源融合查询方法示意图。

图3为本发明的BI***多源数据库跨源跨库融合***结构示意图。

具体实施方式

参照附图1-3，对本发明的实施方式做具体的说明。

客户的数据通常分散在不同的业务***内，数据处理引擎可以快速访问多源数据，支持各类数据源的接入，如：MySQL、SQLServer、Oracle。

进一步的，上述的数据处理引擎包括DataSet、ETL、Cube和OLAP。

步骤202：配置外部数据融合流程；

步骤203：通过数据抽取节点将外部数据封装为融合数据集。

读取数据库中的数据后，将数据封装成一个个数据集放在内存中进行数据处理，如：关联(包括内连接，外连接，左外连接，右外连接，左半连接)、过滤、计算等，基于资源管理框架，实现数据集分布式处理的调度和资源分配。

进一步的，上述的步骤三中抽取组件的处理步骤具体为：

通过数据处理，将多源数据表融合后，会生成一个新的数据集合，通过抽取组件将融合数据集***到新的数据存储中，数据存储支持传统关系型数据库和大数据数据库。

通过本实施例的方式实现的跨源跨库数据融合，相比于传统数据仓库方式和脚本接口方式，具有明显的操作优势，仅通过简单的配置就可以实现跨库数据融合处理，并且能够处理大数据量。

本实施例的有益效果：

1、操作便捷

数据仓库方式：需要两个人员进行不同软件工具的操作，一名人员使用ETL工具进行数据融合处理，一名人员进行业务数据分析。

脚本和接口方式：需要两名人员进行操作，一名人员编写脚本代码，一名人员进行数据集处理和分析。

本实施例中只需要一名人员，通过简单的两步配置，实现数据融合，与现有技术相比，人员需要较少，操作方式简单。

2、数据处理能力强

数据仓库方式：通常采用单机方式或者MPP方式，能够处理的数据容量在100TP。

脚本和接口方式：由于采用编程方式，能够处理的数据量在GB级。

本实施例中采用分布式内存计算框架，能够处理的数据量在PB级，相比现有技术，能够处理的数据量是最大的。

Claims

1.一种BI***多源数据库跨源跨库融合***，其特征在于：包括外部业务数据库、数据处理引擎和数据存储模块；所述的数据存储模块包括传统关系型数据库和大数据数据库，所述的外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。

2.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***，其特征在于：所述的传统关系型数据库包括MySQL数仓、PG数仓，所述的大数据数据库包括Hive数据库。

3.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***，其特征在于：所述的数据处理引擎包括DataSet、ETL、Cube和OLAP。

4.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***，其特征在于：所述的外部业务数据库包括Oracle数据库、DB2数据库、MySQL数据库和Hive数据仓库。

5.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***，其特征在于：所述的数据处理引擎和外部数据库通过JDBC/ODBC接口连接。

6.一种BI***多源数据库跨源跨库融合方法，应用权利要求1-5中任一项所述的一种BI***多元数据库跨源跨库融合***，其特征在于包括以下步骤：

步骤二：数据处理引擎通过数据融合组件将所述的外部数据封装为融合数据集；

步骤三：数据处理引擎通过抽取组件将所述的融和数据集***数据存储模块。

7.根据权利要求6所述的一种BI***多源数据库跨源跨库融合方法，其特征在于：所述的步骤一中，数据处理引擎通过JDBC/ODBC接口读取存储于外部业务数据库的外部数据。

8.根据权利要求6所述的一种BI***多源数据库跨源跨库融合方法，其特征在于：所述的步骤二中数据融合组件的处理步骤具体为：

步骤201：将所述的外部数据和数据融合组件***数据处理引擎配置区，所述的数据融合组件为表关联组件；

步骤202：配置外部数据融合流程；

步骤203：通过数据抽取节点将外部数据封装为融合数据集。

9.根据权利要求6所述的一种BI***多源数据库跨源跨库融合方法，其特征在于：所述的步骤三中抽取组件的处理步骤具体为：

步骤301：配置抽取组件的参数，所述参数包括抽取频率和抽取类型；