CN109344186A - 一种bi***多源数据库跨源跨库融合***和融合方法 - Google Patents
一种bi***多源数据库跨源跨库融合***和融合方法 Download PDFInfo
- Publication number
- CN109344186A CN109344186A CN201810968312.XA CN201810968312A CN109344186A CN 109344186 A CN109344186 A CN 109344186A CN 201810968312 A CN201810968312 A CN 201810968312A CN 109344186 A CN109344186 A CN 109344186A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- library
- inter
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种BI***多源数据库跨源跨库融合***和融合方法,包括外部业务数据库、数据处理引擎和数据存储模块;数据存储模块包括传统关系型数据库和大数据数据库,外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。数据处理引擎读取存储于外部业务数据库的外部数据,然后通过数据融合组件将外部数据封装为融合数据集,最后通过抽取组件将融和数据集***数据存储模块。本发明实现了快速在BI***上进行跨源跨库数据融合,不需要借助第三方ETL工具也无需编写复杂脚本语言,支持基于Hadoop的大数据数据仓储,采用底层分布式计算框架实现TB、PB级别数据的数据处理和融合。
Description
技术领域
本发明属于数据库融合技术领域,具体涉及一种BI***多源数据库跨源跨库融合***和融合方法。
背景技术
商业智能***(BI***)兴起于上世纪90年代,经过近30年的发展,已经被广泛应用于各行各业中。近年来,大数据时代的来临给BI领域带来了巨大挑战,传统BI***通常只能基于单一数据来源进行分析和报表开发,若需要进行异构数据源的查询,通常需要借助底层ETL工具进行数据融合,而采用这种方式会导致BI分析流程复杂,周期漫长,无法快速为业务提供数据支撑。
在当前大数据时代,用户通常面临的是大量的、以不同形式存储的、依赖于不同的数据库管理***的数据,BI***需要解决的一个难点就是将多种数据源中的相关数据进行提取、融合、梳理整合成一个分析数据集。
为了能够支持多数据源的融合查询,当前的技术解决方案主要有以下两种:
1、数据仓库方式
如图1所示,该方式将各个分布在不同数据库中的数据,借助ETL工具提取到中心数据仓库中,通常业务数据会存储在不同的DBMS***内,如Oracle、DB2、MySQL等,为了实现业务跨库的数据查询,通常需要使用ETL工具,将不同来源的数据,共同存储于数据仓库中,数据仓库的形式可以是Oracle、DB2等,基于不同的数据量大小会采用不同的数据库架构,最终生成一个新的数据集,该数据集融合了不同库的数据,为上层分析和查询提供数据基础,这种方法的一个显然特点就是数据仓库对于各个分布的数据库具有高度控制权。
该数据仓库方式需要使用ETL工具预先处理生成好融合数据集,再由BI***连接中央数据仓库进行数据分析;且基于传统数据仓库架构,仅能支持TB级数据量;业务人员需要借助IT人员实现数据融合,无法做到实时数据处理;
2、脚本和接口方式
如图2所示,通过Javascript函数接口,实现跨数据库联合数据集,将来自不同数据库上的数据,通过脚本JOIN数据集的方法展现在一张表单上。
由于该方法要实现关联的数据表在不同的数据库上,无法使用SQL方式实现跨源跨库表关联,需要调用JAVA函数的类库进行跨库计算,具体步骤如下:先将不同数据源的数据表内容,读取到公共对象中,再使用***的函数实现表内字段的关联,将关联后的数据表存储在所创建的公共数据集中,对公共数据集通过函数方式进行数据处理,如数据过滤、分组、转换等操作,最终将数据输送到前端页面。
该脚本和接口方式需要专业编程人员编写数据融合代码,且由于采用公共对象实现数据融合,数据量跟内存相关,适合于GB以内数据的融合处理,在小数据量处理上具备实时性,无法处理大数据量。
3、总结
现有技术中相关数据源融合方法无法适应大数据量的处理情况,在BI***上实现跨源跨库数据融合查询,都具备操作复杂、无法处理大数据、处理时间长、一般业务人员无法上手的缺点。
发明内容
本发明的目的在于:解决上述现有技术中的不足,提供一种BI***多源数据库跨源跨库融合***和融合方法,让业务人员通过简单的图形化编排方式即可实现跨源跨库数据融合,不需要借助第三方工具也无需编写复杂脚本语言,可快速实现大数据量的数据融合。
为了实现上述目的,本发明采用的技术方案为:
一种BI***多源数据库跨源跨库融合***,包括外部业务数据库、数据处理引擎和数据存储模块;数据存储模块包括传统关系型数据库和大数据数据库,外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。
进一步的,上述的传统关系型数据库包括MySQL数仓、PG数仓,大数据数据库包括Hive数据库。
进一步的,上述的数据处理引擎包括DataSet、ETL、Cube和OLAP。
进一步的,上述的外部业务数据库包括Oracle数据库、DB2数据库、MySQL数据库和Hive数据仓库。
进一步的,上述的数据处理引擎和外部数据库通过JDBC/ODBC接口连接。
一种BI***多源数据库跨源跨库融合方法,应用上述的一种BI***多元数据库跨源跨库融合***,包括以下步骤:
步骤一:数据处理引擎读取存储于外部业务数据库的外部数据;
步骤二:数据处理引擎通过数据融合组件将外部数据封装为融合数据集;
步骤三:数据处理引擎通过抽取组件将融和数据集***数据存储模块。
进一步的,上述的步骤一中,数据处理引擎通过JDBC/ODBC接口读取存储于外部业务数据库的外部数据。
进一步的,上述的步骤二中数据融合组件的处理步骤具体为:
步骤201:将外部数据和数据融合组件***数据处理引擎配置区,数据融合组件为表关联组件;
步骤202:配置外部数据融合流程;
步骤203:通过数据抽取节点将外部数据封装为融合数据集。
进一步的,上述的步骤三中抽取组件的处理步骤具体为:
步骤301:配置抽取组件的参数,参数包括抽取频率和抽取类型;
步骤302:数据处理引擎根据抽取频率和抽取类型将融合数据集***数据存储模块内对应的数仓内。
由于采用了上述技术方案,本发明的有益效果是:
本发明的BI***多源数据库跨源跨库融合***和融合方法实现了快速在BI***上进行跨源跨库数据融合,让业务人员通过简单的图形化编排方式即可实现跨源跨库数据融合,不需要借助第三方ETL工具也无需编写复杂脚本语言,可快速实现大数据量的数据融合,支持基于Hadoop的大数据数据仓储,采用底层分布式计算框架实现TB、PB级别数据的数据处理和融合。
附图说明
图1为本发明的数据仓库多数据源融合查询方法示意图。
图2为本发明的脚本和接口方式多数据源融合查询方法示意图。
图3为本发明的BI***多源数据库跨源跨库融合***结构示意图。
具体实施方式
参照附图1-3,对本发明的实施方式做具体的说明。
一种BI***多源数据库跨源跨库融合***,包括外部业务数据库、数据处理引擎和数据存储模块;数据存储模块包括传统关系型数据库和大数据数据库,外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。
客户的数据通常分散在不同的业务***内,数据处理引擎可以快速访问多源数据,支持各类数据源的接入,如:MySQL、SQLServer、Oracle。
进一步的,上述的传统关系型数据库包括MySQL数仓、PG数仓,大数据数据库包括Hive数据库。
进一步的,上述的数据处理引擎包括DataSet、ETL、Cube和OLAP。
进一步的,上述的外部业务数据库包括Oracle数据库、DB2数据库、MySQL数据库和Hive数据仓库。
进一步的,上述的数据处理引擎和外部数据库通过JDBC/ODBC接口连接。
一种BI***多源数据库跨源跨库融合方法,应用上述的一种BI***多元数据库跨源跨库融合***,包括以下步骤:
步骤一:数据处理引擎读取存储于外部业务数据库的外部数据;
步骤二:数据处理引擎通过数据融合组件将外部数据封装为融合数据集;
步骤三:数据处理引擎通过抽取组件将融和数据集***数据存储模块。
进一步的,上述的步骤一中,数据处理引擎通过JDBC/ODBC接口读取存储于外部业务数据库的外部数据。
进一步的,上述的步骤二中数据融合组件的处理步骤具体为:
步骤201:将外部数据和数据融合组件***数据处理引擎配置区,数据融合组件为表关联组件;
步骤202:配置外部数据融合流程;
步骤203:通过数据抽取节点将外部数据封装为融合数据集。
读取数据库中的数据后,将数据封装成一个个数据集放在内存中进行数据处理,如:关联(包括内连接,外连接,左外连接,右外连接,左半连接)、过滤、计算等,基于资源管理框架,实现数据集分布式处理的调度和资源分配。
进一步的,上述的步骤三中抽取组件的处理步骤具体为:
步骤301:配置抽取组件的参数,参数包括抽取频率和抽取类型;
步骤302:数据处理引擎根据抽取频率和抽取类型将融合数据集***数据存储模块内对应的数仓内。
通过数据处理,将多源数据表融合后,会生成一个新的数据集合,通过抽取组件将融合数据集***到新的数据存储中,数据存储支持传统关系型数据库和大数据数据库。
通过本实施例的方式实现的跨源跨库数据融合,相比于传统数据仓库方式和脚本接口方式,具有明显的操作优势,仅通过简单的配置就可以实现跨库数据融合处理,并且能够处理大数据量。
本实施例的有益效果:
1、操作便捷
数据仓库方式:需要两个人员进行不同软件工具的操作,一名人员使用ETL工具进行数据融合处理,一名人员进行业务数据分析。
脚本和接口方式:需要两名人员进行操作,一名人员编写脚本代码,一名人员进行数据集处理和分析。
本实施例中只需要一名人员,通过简单的两步配置,实现数据融合,与现有技术相比,人员需要较少,操作方式简单。
2、数据处理能力强
数据仓库方式:通常采用单机方式或者MPP方式,能够处理的数据容量在100TP。
脚本和接口方式:由于采用编程方式,能够处理的数据量在GB级。
本实施例中采用分布式内存计算框架,能够处理的数据量在PB级,相比现有技术,能够处理的数据量是最大的。
Claims (9)
1.一种BI***多源数据库跨源跨库融合***,其特征在于:包括外部业务数据库、数据处理引擎和数据存储模块;所述的数据存储模块包括传统关系型数据库和大数据数据库,所述的外部业务数据库通过数据处理引擎分别连接传统关系型数据库和大数据数据库。
2.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***,其特征在于:所述的传统关系型数据库包括MySQL数仓、PG数仓,所述的大数据数据库包括Hive数据库。
3.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***,其特征在于:所述的数据处理引擎包括DataSet、ETL、Cube和OLAP。
4.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***,其特征在于:所述的外部业务数据库包括Oracle数据库、DB2数据库、MySQL数据库和Hive数据仓库。
5.根据权利要求1所述的一种BI***多源数据库跨源跨库融合***,其特征在于:所述的数据处理引擎和外部数据库通过JDBC/ODBC接口连接。
6.一种BI***多源数据库跨源跨库融合方法,应用权利要求1-5中任一项所述的一种BI***多元数据库跨源跨库融合***,其特征在于包括以下步骤:
步骤一:数据处理引擎读取存储于外部业务数据库的外部数据;
步骤二:数据处理引擎通过数据融合组件将所述的外部数据封装为融合数据集;
步骤三:数据处理引擎通过抽取组件将所述的融和数据集***数据存储模块。
7.根据权利要求6所述的一种BI***多源数据库跨源跨库融合方法,其特征在于:所述的步骤一中,数据处理引擎通过JDBC/ODBC接口读取存储于外部业务数据库的外部数据。
8.根据权利要求6所述的一种BI***多源数据库跨源跨库融合方法,其特征在于:所述的步骤二中数据融合组件的处理步骤具体为:
步骤201:将所述的外部数据和数据融合组件***数据处理引擎配置区,所述的数据融合组件为表关联组件;
步骤202:配置外部数据融合流程;
步骤203:通过数据抽取节点将外部数据封装为融合数据集。
9.根据权利要求6所述的一种BI***多源数据库跨源跨库融合方法,其特征在于:所述的步骤三中抽取组件的处理步骤具体为:
步骤301:配置抽取组件的参数,所述参数包括抽取频率和抽取类型;
步骤302:数据处理引擎根据抽取频率和抽取类型将融合数据集***数据存储模块内对应的数仓内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810968312.XA CN109344186A (zh) | 2018-08-23 | 2018-08-23 | 一种bi***多源数据库跨源跨库融合***和融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810968312.XA CN109344186A (zh) | 2018-08-23 | 2018-08-23 | 一种bi***多源数据库跨源跨库融合***和融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344186A true CN109344186A (zh) | 2019-02-15 |
Family
ID=65291921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810968312.XA Pending CN109344186A (zh) | 2018-08-23 | 2018-08-23 | 一种bi***多源数据库跨源跨库融合***和融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344186A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059068A (zh) * | 2019-04-11 | 2019-07-26 | 厦门网宿有限公司 | 一种分布式存储***中的数据校验方法及数据校验*** |
CN110674163A (zh) * | 2019-08-26 | 2020-01-10 | 天津浪淘科技股份有限公司 | 一种基于bs构架的异构数据查询***及其方法 |
CN110851424A (zh) * | 2019-11-12 | 2020-02-28 | 中国建设银行股份有限公司 | 一种数据服务*** |
CN111858644A (zh) * | 2020-07-08 | 2020-10-30 | 联思智云(北京)科技有限公司 | 数据融合与查询的方法、装置和*** |
CN111966727A (zh) * | 2020-08-12 | 2020-11-20 | 北京海致网聚信息技术有限公司 | 基于Spark和Hive的分布式OLAP即席查询方法 |
CN114416705A (zh) * | 2021-11-09 | 2022-04-29 | 北京泰策科技有限公司 | 一种多源异构数据融合建模方法 |
CN114490842A (zh) * | 2021-12-28 | 2022-05-13 | 航天科工智慧产业发展有限公司 | 一种多源数据的接口数据查询方法和数据查询引擎 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043841A (zh) * | 2010-12-10 | 2011-05-04 | 上海市城市建设设计研究院 | 基于Web技术的多源信息供给方法及其集成服务*** |
CN106777142A (zh) * | 2016-12-19 | 2017-05-31 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量数据的服务层***及其方法 |
CN107045534A (zh) * | 2017-01-20 | 2017-08-15 | 中国航天***科学与工程研究院 | 大数据环境下基于HBase的异构数据库在线交换与共享*** |
CN107066499A (zh) * | 2016-12-30 | 2017-08-18 | 江苏瑞中数据股份有限公司 | 面向异构存储多源数据管理及可视化***的数据查询方法 |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合***、方法、电子设备及存储介质 |
-
2018
- 2018-08-23 CN CN201810968312.XA patent/CN109344186A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043841A (zh) * | 2010-12-10 | 2011-05-04 | 上海市城市建设设计研究院 | 基于Web技术的多源信息供给方法及其集成服务*** |
CN106777142A (zh) * | 2016-12-19 | 2017-05-31 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量数据的服务层***及其方法 |
CN107066499A (zh) * | 2016-12-30 | 2017-08-18 | 江苏瑞中数据股份有限公司 | 面向异构存储多源数据管理及可视化***的数据查询方法 |
CN107045534A (zh) * | 2017-01-20 | 2017-08-15 | 中国航天***科学与工程研究院 | 大数据环境下基于HBase的异构数据库在线交换与共享*** |
CN108010573A (zh) * | 2017-11-24 | 2018-05-08 | 苏州市环亚数据技术有限公司 | 一种医院数据融合***、方法、电子设备及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059068A (zh) * | 2019-04-11 | 2019-07-26 | 厦门网宿有限公司 | 一种分布式存储***中的数据校验方法及数据校验*** |
CN110059068B (zh) * | 2019-04-11 | 2021-04-02 | 厦门网宿有限公司 | 一种分布式存储***中的数据校验方法及数据校验*** |
CN110674163A (zh) * | 2019-08-26 | 2020-01-10 | 天津浪淘科技股份有限公司 | 一种基于bs构架的异构数据查询***及其方法 |
CN110851424A (zh) * | 2019-11-12 | 2020-02-28 | 中国建设银行股份有限公司 | 一种数据服务*** |
CN111858644A (zh) * | 2020-07-08 | 2020-10-30 | 联思智云(北京)科技有限公司 | 数据融合与查询的方法、装置和*** |
CN111858644B (zh) * | 2020-07-08 | 2022-11-18 | 联思智云(北京)科技有限公司 | 数据融合与查询的方法、装置和*** |
CN111966727A (zh) * | 2020-08-12 | 2020-11-20 | 北京海致网聚信息技术有限公司 | 基于Spark和Hive的分布式OLAP即席查询方法 |
CN114416705A (zh) * | 2021-11-09 | 2022-04-29 | 北京泰策科技有限公司 | 一种多源异构数据融合建模方法 |
CN114490842A (zh) * | 2021-12-28 | 2022-05-13 | 航天科工智慧产业发展有限公司 | 一种多源数据的接口数据查询方法和数据查询引擎 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344186A (zh) | 一种bi***多源数据库跨源跨库融合***和融合方法 | |
CN104123374B (zh) | 分布式数据库中聚合查询的方法及装置 | |
Chauhan | A review on various aspects of MongoDB databases | |
US10585887B2 (en) | Multi-system query execution plan | |
CN103729392B (zh) | 查询优化方法及查询编译器 | |
CN107491561B (zh) | 一种基于本体的城市交通异构数据集成***及方法 | |
US8650181B2 (en) | OLAP execution model using relational operations | |
US8612421B2 (en) | Efficient processing of relational joins of multidimensional data | |
US8200612B2 (en) | Efficient SQL access to multidimensional data | |
CA2318299C (en) | Metadata exchange | |
US20030208506A1 (en) | Registration of solved cubes within a relational database management system | |
CN107451220A (zh) | 一种分布式NewSQL数据库*** | |
US20140172776A1 (en) | Column smart mechanism for column based database | |
EP3161671A1 (en) | Managing data with flexible schema | |
CN104573022A (zh) | 一种HBase的数据查询方法及装置 | |
US20100235344A1 (en) | Mechanism for utilizing partitioning pruning techniques for xml indexes | |
CN103020301A (zh) | 一种多维度数据查询和存储方法及*** | |
US8639717B2 (en) | Providing access to data with user defined table functions | |
CN106599052A (zh) | 一种基于ApacheKylin的数据查询***及其方法 | |
CN100447781C (zh) | 用于将可扩展标记语言映射到n维数据结构的方法和*** | |
CN105843955A (zh) | 一种数据迁移*** | |
US8041728B2 (en) | Utilization of display profiles with abstract queries | |
CN116775605A (zh) | 一种基于人工智能的产业数据管理和共享平台 | |
Macura | Integration of data from heterogeneous sources using ETL technology | |
Ranawade et al. | Online analytical processing on hadoop using apache kylin |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |