CN103678665A - 一种基于数据仓库的异构大数据整合方法和*** - Google Patents

一种基于数据仓库的异构大数据整合方法和*** Download PDF

Info

Publication number
CN103678665A
CN103678665A CN201310723548.4A CN201310723548A CN103678665A CN 103678665 A CN103678665 A CN 103678665A CN 201310723548 A CN201310723548 A CN 201310723548A CN 103678665 A CN103678665 A CN 103678665A
Authority
CN
China
Prior art keywords
data
warehouse
module
mart
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310723548.4A
Other languages
English (en)
Other versions
CN103678665B (zh
Inventor
徐晓冬
邹铁鹏
何昌桃
黄建鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing New Silk Road Consulting Group Co., Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201310723548.4A priority Critical patent/CN103678665B/zh
Publication of CN103678665A publication Critical patent/CN103678665A/zh
Application granted granted Critical
Publication of CN103678665B publication Critical patent/CN103678665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于数据仓库的异构大数据整合方法和***,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。本发明对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联,通过Map/Reduce分布式处理和数据挖掘处理,把处理结果和相关数据以数据库结构的方式写入内存,形成简易内存数据库,便于高速计算和快速响应。

Description

一种基于数据仓库的异构大数据整合方法和***
技术领域
本发明主要涉及互联网领域,尤其涉及一种基于数据仓库的异构大数据整合方法和***。
背景技术
商业智能(BI,Business Intelligence)综合利用数据仓库、ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储,并对数据进行分析,提取出其中蕴藏的知识,从而帮助企业进行决策分析,在企业中得到了越来越广泛的应用。
随着互联网的快速发展,使互联网的应用越来越丰富,这些应用让互联网留存了海量的数据信息,包括用户的浏览记录,交易记录、日志文件、网络页面信息以及超链接。如何在海量的、动态的互联网信息数据中获取有用的知识,是商业智能的价值所在。
但是传统的商业智能架构移植到互联网应用领域会产生严重的“水土不服”现象,因为如下几种情况限制了传统的商业智能架构的作用:
●互联网应用中数据源多种多样,包含各种关系型数据库保存的数据,社交网络产生的数据,网络日志数据、图片文件、文本文件等。但传统的商业智能都是以处理各种关系型数据库中的数据见长。
●互联网数据量巨大。目前各类网站,特别是运营时间比较长的电子商务网站,都会产生了巨大的网络日志,而且在数据库中也存储了大量的各类数据,包括产品数据、商情数据、询盘数据等,另外,还有大量的各类数据文件保存在服务器中,在处理这么大规模的数据都出现了很多新的问题,而传统的关系型数据库目前已经无法满足处理如此大规模数据的要求。
●电子商务对于数据分析的实时性要求极高,有很大部分的数据只在短时间内才能体现数据的价值,处理数据速度的快慢就显得尤为重要。
●用户量巨大,互联网特别是电子商务的BI应用很大一部分是面向网站的用户群体的,这个群体数目巨大。传统的BI展现工具设计的时候是为了企业的中高层用户设计,移植到互联网应用中,无论从用户体验,交互效率都存在巨大差距。
以上四个问题就是传统的BI解决方案在互联网领域屡屡失败的根本原因。
目前针对大数据的处理方法,已经有一些研究和应用成果。
专利“一种分布式数据流处理方法及其***”(专利申请号:201110378247.3),它提出的方法是:将原始数据流分割成实时数据流和历史数据流,并行处理实时数据流和历史数据流,并对他们的处理结果进行整合。这种方法通过对数据按时间进行分类,实时数据流的运算能够最大限度地以分布式并行处理,保证了大数据量的处理和高实时性。但这种方法没有解决异构数据之间关系问题,对于异构大数据如何协调之间的关联关系,并进行整合处理方面,还没有提出解决方法。
专利“一种大数据量的数据查询方式”(专利申请号:201210075512.5),此方法先定义增量数据捕获方式,以及增量捕获调度执行计划,然后执行增量数据定期归集,最后执行数据统计结果查询。此方法把复杂的数据统计查询过程包分解成两个过程:统计计算归集和实时查询;将统计计算归集过程放在后台运行,并且归集过程只归集增量数据,提高了大数据量统计查询的执行效率。此方法主要是针对关系型数据数据库提出的,没有涉及到异构数据的处理。
发明内容
为了解决上述问题,本发明提出了一种基于数据仓库的异构大数据整合方法和***,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。
本发明技术方案如下:
一种基于数据仓库的异构大数据整合方法,包括:
数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件***中。其中,存储在关系型数据库中的数据主要是各个业务***产生的数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等非结构化数据;存储在文件***中的数据主要是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件等非结构化数据。
各个业务***中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中。
存储在文件***中的各类图片文件和文档文件,首先加载到Hadoop分布式文件***(简称:hdfs)中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用。
Hive是基于Hadoop的一个数据仓库工具,它将存储在hdfs中的网络日志文件这种半结构化文件映射到一张数据库表中,并提供完整的SQL语言进行数据的查询、处理等功能,Hive将SQL语言解析成Map/Reduce任务进行分布式运行处理。同时,Hive将存储在hdfs中的图片文件、文档文件等这种非结构化文件的属性映射到一张数据库表中。
在这些数据库表中,包含有半结构化数据和非结构化数据,在其中存在有隐性的各种属性数据,包括隐性的行为数据等。通过将库表中的字段与数据仓库中的知识库建立关联关系,从而建立了隐性数据与数据仓库中显性业务数据之间的联系,为异构数据的整合做好准备。
确定与网络日志、图片文件、文档文件等有关联的业务数据后,将他们从数据仓库提取出来,这其中包含有注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据。
使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中,其中,HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,它是一个适合于非结构化数据存储的数据库。
这样在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,包括数据分组、数据排序、数据统计、数据异常检测等,从而完成对大量数据的预处理,实现异构数据间的初步整合。计算后的结果作为中间结果保存在HBase中。其中,MapReduce是一种编程模型,用于大规模数据集的并行运算。
其中,Hive把一部分部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而可以分享给所有的数据集市使用。另一部分按照不同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中。
那么在数据仓库和这些数据集市中包含有:各个业务***包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据,以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据,还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果等。
这些异构数据进行上述处理后,以结构化的形式存储在各个数据集市和数据仓库中。
在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中。
数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果。这样,每个数据集市就可以分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识。这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能。
在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成了简易便捷的内存数据库,网站活动事务数据可以和内存数据库中的数据进行交互处理。通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据等实时信息。由于节省了内存中的数据和关系型数据库中的数据同步的过程,实现了实时查询。另外使用了内存数据库技术后,整体提高了数据集市常用数据的处理速度,大大缓解了访问磁盘数据库的压力,提高数据查询,加载,修改,删除的性能,为在线实时分析提供了可能。
一种基于数据仓库的异构大数据整合***,包括:
本***由业务***、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块、通用文件***、Hadoop分布式文件***、Hive模块、HBase分布式数据库模块组成。其中,业务***、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块依次连接;通用文件***、Hadoop分布式文件***、Hive模块、HBase分布式数据库模块依次连接;数据仓库模块与Hive模块连接;数据集市模块与HBase分布式数据库模块连接。
业务***模块,用于实现企业的业务信息化功能,通过此模块,收集管理大量的用户各方面信息数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等,这些数据是结构化数据,还有社交信息、产品详细描述、询盘内容、网站留言、邮件内容等,这些数据是非结构化数据,也保存在关系型数据库中。
标准数据接口模块,用于对业务***的数据进行统一规范处理。
ODS(Operational Data Store)模块是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP***的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。ODS用于存放从业务***直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务***基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性。
数据仓库模块,从ODS中加载数据,所需数据从ODS中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库,并形成多个业务数据之间的关联,数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据集市模块,数据是从数据仓库和HBase分布式数据库中抽取出来的。每个数据集市包括来自数据仓库的历史数据的子集,另外还包括与这些数据关联的来自HBase的数据。
在数据集市模块中,可以对加载的数据进行数据挖掘和OLAP分析,并把得出的局部知识结果回写到数据仓库中,数据仓库对各个业务主题的局部知识结果统一存储并管理,形成数据仓库中的知识层,得到全局知识结果。每个数据集市就可以分享到全局知识结果,并利用全局知识结果挖掘出更多的数据知识。这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能,进一步提高整个***的分析质量。
内存数据库模块,将数据集市中的数据及通过数据挖掘和OLAP分析得到的结果,以数据库结构的方式写入内存,快速形成便捷简易内存数据库,方便对用户的访问进行快速计算、快速响应。通过内存数据库,网站活动事务数据可以和内存数据库中的数据进行交互处理,可以实时监控网上访问及关注情况、询盘数据等,省去了内存中的数据和传统数据库中的数据同步的过程,能够实时查询,另外使用了内存数据库后,提高了常用数据的处理速度,缓解了访问关系型数据库的压力,提高数据查询,加载,修改,删除的性能,提高了在线实时分析的性能和质量。
Hadoop分布式文件***,用于存储大量的半结构化数据以及非结构化数据,其中半结构化数据主要包括网络日志,非结构化数据主要包括图片文件、文档文件。
Hive模块,用于将存储在Hadoop分布式文件***中的半结构化数据以及非结构化数据,与存储在数据仓库中的数据进行关联,并调用Map/Reduce对这些数据进行分布式处理,得到中间计算结果。然后,把关联的各种异构数据以及中间计算结果,保存到HBase分布式数据库中。同时,一部分数据通过ETL加载到数据仓库中。
HBase分布式数据库模块,通过ETL,把其中的各类数据按照不同的主题,加载到相应的数据集市中。
一种数据仓库持续共享知识的方法,包括:
ODS把经过处理后的业务数据通过ETL传送给数据仓库,数据仓库应Hive的需求,把其中相关联的数据传递给Hive。
Hive对关联的异构数据进行Map/Reduce分布式处理,通过分布式处理后,得到了处理的中间结果,在一定程度上减少了待处理的数据量。把部分关联数据及处理的中间结果通过ETL的方式传递给数据仓库。
数据仓库根据不同主题的需要,把这些数据分别传送不同的数据集市。
数据集市获得数据仓库的数据,以及HBase传递过来的关联数据及中间结果数据,在数据集市中通过各自的数据挖掘算法进行计算处理,并把得到的局部知识结果回写到数据仓库。
数据仓库获得各个数据集市传递过来的局部知识结果,进行整合处理,通过数据宽表形成全局知识结果,并把全局知识结果传递给各个数据集市进行共享。
数据集市结合获得的数据宽表中的数据,通过新的数据挖掘算法进行计算,不断深化知识结果,再把深化的局部知识结果回写到数据仓库。其中,新的数据挖掘算法是通过研发人员根据更新后的知识结果,加入到数据集市的挖掘算法。
数据仓库获得数据集市新的局部知识结果,并不断整合多个数据集市的局部知识结果,形成新的全局知识结果,再传递给各个数据集市共享,此过程不断循环。
本发明的有益效果如下:
(1)结合了关系型数据库、分布式数据库、内存数据库的各自优势,优化了异构大数据的处理。
(2)运用了分布式计算来进行大数据分布式处理,实现了对大数据量、计算简单这2个特性的需求,并且运用了经典的数据挖掘方式来实现数据的深度分析,使本方法既有大数据的广度处理,又有对大数据的深度处理。同时,通过大数据分布式处理,得到了中间结果,减少了待处理的数据量,有利于提高数据仓库和数据集市的运行效率。
(3)在数据集市中,把对数据的挖掘结果以及OLAP的分析结果形成的局部知识结果,回写到数据仓库,通过数据仓库整合,形成全局知识结果,分享到各个数据集市,这个过程不断循环,可以持续提高数据的处理分析的质量。
(4)研发人员根据知识结果不断增加新的数据挖掘算法,使挖掘的知识结果更加全面,更加准确,挖掘的效果更好。
(5)将结果数据以及相关数据,以数据库结构的方式写入内存,这些数据一直驻留内存中,能够进行高速计算、快速响应用户访问。
附图说明
图1本发明实施例数据处理流程图;
图2本发明实施例***结构示意图;
图3本发明实施例数据仓库持续共享知识的流程图。
具体实施方式
在本发明中,结合了关系型数据库、分布式数据库、内存数据库的各自优势,对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联,通过Map/Reduce分布式处理和数据挖掘处理,把处理结果和相关数据以数据库结构的方式写入内存,形成简易内存数据库,便于高速计算和快速响应。
参阅图1所示,本发明实施例的数据处理流程,具体步骤为:
步骤100:从数据源获取数据。其中一部分结构化数据通过各个业务***中收集,存储在关系型数据库中,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等。另外,业务***中的社交信息、产品详细描述、询盘内容、网站留言、邮件内容等非结构化数据,也存储在关系型数据库中;网络日志文件作为半结构化数据,图片文件和文档文件等作为非结构化数据,都存储在通用文件***中。
步骤101:业务数据通过ETL加载到数据仓库中。各个业务***的数据通过标准数据接口,加载到ODS中,再通过ETL加载到数据仓库中。
步骤102:通用文件***中的图片文件和文档文件据,先加载到hdfs中,并通过Map/Reduce处理,转换成Hive模块能够处理的格式,Hive从存储在hdfs的文件中取出半结构化数据和非结构化数据,其中,网络日志中包含有半结构化数据,图片文件和文档文件中包含有非结构化数据。
步骤103:Hive模块对取得的半结构化数据和非结构化数据,与数据仓库中的知识库数据进行关联,建立结构化数据与半结构化数据、非结构化数据的对应关系。
例如,网络日志中的访问IP信息与数据仓库中的地址信息字段建立关联关系,地址信息里含有国家、地区等信息。另外,图片文件的属性信息与数据仓库中的产品ID信息建立对应的关联关系。
步骤104:建立关联关系后,把相关联的业务数据从数据仓库取出,与包含在图片文件和文档文件中的半结构化数据和非结构化数据按照对应关系一起存储在分布式数据库HBase中。同时对于要处理的数据,用Map/Reduce进行分布式计算处理,并把中间计算结果也保存在HBase中。其中这种分布式处理包含数据分组、数据排序、数据统计、数据异常检测等,从而完成对大量数据的预处理,实现异构数据间的初步整合。
步骤105:通过ETL,把初步把部分关联的数据及中间结果数据加载到数据仓库中,同时按照不同的主题把关联的数据及中间结果数据加载到各个相应的数据集市中。
步骤106:各个数据集市根据自身的数据,按照数据挖掘算法进行挖掘计算,以及根据需要进行OLAP处理,形成局部知识结果。把这些局部知识结果回写到数据仓库,数据仓库对这些局部知识结果,进行整理,形成数据宽表,得到全局知识结果,再共享给各个数据集市,数据集市根据全局知识结果,再结合相应的新的数据挖掘算法进行计算,不断深化知识,此过程不断循环。
步骤107:在数据集市中,将常用数据以数据库结构的形式写入内存,形成简易、便捷的内存数据库,数据可以在内存在进行快速计算,以及对用户的访问进行快速响应,实现实时查询和实时分析。
参阅图2所示,本发明实施例的***结构,包括
本***由业务***模块200、标准数据接口模块201、ODS模块202、数据仓库模块203、数据集市模块204、内存数据库模块205、通用文件***206、Hadoop分布式文件***207、Hive模块208、HBase分布式数据库模块209组成。其中,业务***模块200、标准数据接口模块201、ODS模块202、数据仓库模块203、数据集市模块204、内存数据库模块205依次连接;通用文件***106、Hadoop分布式文件***207、Hive模块208、HBase分布式数据库模块209依次连接;数据仓库模块203与Hive模块208连接;数据集市模块204与HBase分布式数据库模块209连接。
业务***模块200,用于实现企业的业务信息化功能,通过此模块,收集管理大量的用户各方面信息数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等,这些数据是结构化数据,以及社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据,都保存在关系型数据库中。
标准数据接口模块201,用于对业务***的数据进行统一规范处理。
ODS(Operational Data Store)模块202是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP***的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。ODS用于存放从业务***直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务***基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性。
数据仓库模块203,从ODS模块202中加载数据,所需数据从ODS中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库,并形成多个业务数据之间的关联,数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据集市模块204,数据是从数据仓库模块203和HBase分布式数据库108中抽取出来的。它根据用户群体的特殊需求,每个数据集市包括来自数据仓库的历史数据的子集,用以满足特定部门、团队、客户或应用程序分析和报告需求。在数据集市模块204中,可以对加载的数据进行数据挖掘和OLAP分析,并把得出的知识回写到数据仓库中,数据仓库对各个业务主题的知识信息进行统一存储并管理,形成数据仓库中的知识层。这样,每个数据集市就可以分享到全局知识结果,并利用全局知识结果挖掘出更多的数据知识。这个过程不断循环进行,形成一个有效的知识信息闭环,极大的提高了知识的重复利用以及数据挖掘的性能,进一步提高整个***的分析质量。
内存数据库模块205,将数据集市中的数据及通过数据挖掘和OLAP分析得到的结果,以数据库结构的方式写入内存,快速形成便捷简易内存数据库,方便对用户的访问进行快速计算、快速响应,并提供内存数据库数据的快速修改更新。
通用文件***206,用于存储大量的半结构化数据以及非结构化数据,其中半结构化数据主要包括网络日志,非结构化数据主要包括图片文件、文档文件等。
Hadoop分布式文件***207,从通用文件***206加载大量的半结构化数据以及非结构化数据,其中半结构化数据主要包括网络日志,非结构化数据主要包括图片文件、文档文件。
Hive模块208,用于将存储在Hadoop分布式文件***207中的半结构化数据以及非结构化数据,与存储在数据仓库中的结构化数据进行关联,并调用Map/Reduce对这些数据进行分布式处理,得到中间计算结果。同时,Hive把部分关联的各种异构数据以及中间计算结果通过ETL加载到数据仓库,然后,把关联的各种异构数据以及中间计算结果,保存到HBase分布式数据库模块209中。
HBase分布式数据库模块209,用于保存通过ETL,把其中的各类数据及中间计算结果按照不同的主题,加载到相应的数据集市模块204中。
参阅图3所示,本发明实施例数据仓库持续共享知识的流程,包括:
步骤301:数据仓库从ODS获得业务数据,其中包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等,这些数据是结构化数据,以及业务***中的社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据作为非结构化数据。
步骤302:根据关联关系,数据仓库把相关联的数据传递给Hive。
步骤303:Hive对关联数据进行Map/Reduce分布式处理,得到中间计算结果,把关联的数据及中间计算结果通过ETL传递给数据仓库。其中这些中间结果已经融合了结构化数据、半结构化数据、以及非结构化数据。
步骤304:数据仓库把数据按照不同的主题,通过ETL传递给数据集市。
步骤305:数据集市接收到数据仓库的数据,结合从HBase传递给数据集市的数据,利用数据挖掘算法进行计算,形成局部知识结果。这对结构化数据、半结构化数据、以及非结构化数据融合后的数据又进行了深化整合。
步骤306:各个数据集市把挖掘计算后得到局部知识结果回写到数据仓库。
步骤307:数据仓库对各个数据集市回写的知识结果进行整合,形成数据宽表,得到全局知识结果,并共享给各个数据集市。这样,每个数据集市都获得了全局知识结果。
步骤308:各个数据集市获得全局知识结果后,根据需要,一些数据集市采用新的数据挖掘算法进行计算,获得进一步的新的局部知识结果,并把这些新的局部知识结果返回给数据仓库处理。其中,***根据研发人员是否加入新的数据挖掘算法进行循环计算。
本领域技术人员可以对本发明的实施例进行各种改动和变型而不会脱离本发明的精神和范围。倘若本发明实施例中的这些修改和变型属于本发明权利要求及其等同的范围之内,则本发明中的实施例也包含这些改动和变型在内。

Claims (8)

1.一种基于数据仓库的异构大数据整合方法,其特征在于:
数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件***中;其中,存储在关系型数据库中的数据是各个业务***产生的数据,包括结构化数据和非结构化数据;存储在文件***中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据;
各个业务***中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中;
存储在文件***中的各类图片文件和文档文件,首先加载到Hadoop分布式文件***中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用;
确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据;
使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中;
在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中;
Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中;
这些异构数据进行处理后,以结构化的形式存储在各个数据集市和数据仓库中;
在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中;
数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能;
在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息。
2.根据权利要求1所述的方法,其特征在于:存储在关系型数据库中数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容非结构化数据。
3.根据权利要求1所述的方法,其特征在于:Hive将存储在Hadoop分布式文件***中的图片文件、文档文件等这种非结构化文件的属性映射到一张数据库表中;在这些数据库表中,包含有半结构化数据和非结构化数据,在其中存在有隐性的各种属性数据,包括隐性的行为数据等。通过将数据库表中的字段与数据仓库中的知识库建立关联关系,从而建立了隐性数据与数据仓库中显性业务数据之间的联系,为异构数据的整合做好准备。
4.根据权利要求1所述的方法,其特征在于:分布式运算处理,
包括数据分组、数据排序、数据统计、数据异常检测。
5.根据权利要求1所述的方法,其特征在于,这些异构数据进行上述处理后,以结构化的形式加载到各个数据集市和数据仓库中,这时,在数据仓库和数据集市中包含有:各个业务***包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据,还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果。
6.一种基于数据仓库的异构大数据整合***,其特征在于:它由业务***模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块、通用文件***、Hadoop分布式文件***、Hive模块、HBase分布式数据库模块组成;其中,业务***模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块依次连接;通用文件***、Hadoop分布式文件***、Hive模块、HBase分布式数据库模块依次连接;数据仓库模块与Hive模块连接;数据集市模块与HBase分布式数据库模块连接;
业务***模块,用于实现企业的业务信息化功能,通过此模块,收集管理大量的用户各方面信息数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据,这些数据是结构化数据,还有社交信息、产品详细描述、询盘内容、网站留言、邮件内容,这些数据是非结构化数据,也保存在关系型数据库中;
标准数据接口模块,用于对业务***的数据进行统一规范处理;
ODS模块具备数据仓库的部分特征和OLTP***的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据;ODS模块用于存放从业务***直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务***基本保持一致;
数据仓库模块,从ODS模块中加载数据,所需数据从ODS模块中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库,并形成多个业务数据之间的关联,数据仓库的特征在于面向主题、集成性、稳定性和时变性;
数据集市模块,数据是从数据仓库和HBase分布式数据库中抽取出来的;每个数据集市包括来自数据仓库的历史数据的子集,另外还包括与这些数据关联的来自HBase的数据;
内存数据库模块,将数据集市中的数据及通过数据挖掘和OLAP分析得到的结果,以数据库结构的方式写入内存,快速形成便捷简易内存数据库,方便对用户的访问进行快速计算、快速响应;通过内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理,实时监控网上访问及关注情况、询盘数据;
Hadoop分布式文件***,用于存储大量的半结构化数据以及非结构化数据,其中半结构化数据包括网络日志,非结构化数据包括图片文件、文档文件;
Hive模块,用于将存储在Hadoop分布式文件***中的半结构化数据以及非结构化数据,与存储在数据仓库中的数据进行关联,并调用Map/Reduce对这些数据进行分布式处理,得到中间计算结果;然后,把关联的各种异构数据以及中间计算结果,保存到HBase分布式数据库中;同时,一部分数据通过ETL加载到数据仓库中;
HBase分布式数据库模块,通过ETL,把其中的各类数据按照不同的主题,加载到相应的数据集市中。
7.根据权利要求6所述的***,其特征在于:在数据集市模块中,对加载的数据进行数据挖掘和OLAP分析,并把得出的局部知识结果回写到数据仓库中,数据仓库对各个业务主题的局部知识结果统一存储并管理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到全局知识结果,并利用全局知识结果挖掘出更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能,进一步提高整个***的分析质量。
8.一种数据仓库持续共享知识的方法,包括:
ODS把经过处理后的业务数据通过ETL传送给数据仓库,数据仓库应Hive的需求,把其中相关联的数据传递给Hive;
Hive对关联的异构数据进行Map/Reduce分布式处理,通过分布式处理后,得到了处理的中间结果,在一定程度上减少待处理的数据量;把部分关联数据及处理的中间结果通过ETL的方式传递给数据仓库;
数据仓库根据不同主题的需要,把这些数据分别传送不同的数据集市;
数据集市获得数据仓库的数据,以及HBase传递过来的关联数据及中间结果数据,在不同数据集市中通过各自的数据挖掘算法进行计算处理,并把得到的局部知识结果回写到数据仓库;
数据仓库获得各个数据集市传递过来的局部知识结果,进行整合处理,通过数据宽表形成全局知识结果,并把全局知识结果传递给各个数据集市进行共享;
数据集市结合获得的数据宽表中的数据,通过新的数据挖掘算法进行计算,不断深化知识结果,再把深化的局部知识结果回写到数据仓库;其中,新的数据挖掘算法是根据更新后的知识结果,加入到数据集市的挖掘算法;
数据仓库获得数据集市新的局部知识结果,并不断整合多个数据集市的局部知识结果,形成新的全局知识结果,再传递给各个数据集市共享,此过程不断循环。
CN201310723548.4A 2013-12-24 2013-12-24 一种基于数据仓库的异构大数据整合方法和*** Active CN103678665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310723548.4A CN103678665B (zh) 2013-12-24 2013-12-24 一种基于数据仓库的异构大数据整合方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310723548.4A CN103678665B (zh) 2013-12-24 2013-12-24 一种基于数据仓库的异构大数据整合方法和***

Publications (2)

Publication Number Publication Date
CN103678665A true CN103678665A (zh) 2014-03-26
CN103678665B CN103678665B (zh) 2016-09-07

Family

ID=50316209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310723548.4A Active CN103678665B (zh) 2013-12-24 2013-12-24 一种基于数据仓库的异构大数据整合方法和***

Country Status (1)

Country Link
CN (1) CN103678665B (zh)

Cited By (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理***
CN104484410A (zh) * 2014-12-16 2015-04-01 芜湖乐锐思信息咨询有限公司 应用于大数据***的数据融合方法及***
CN104573071A (zh) * 2015-01-26 2015-04-29 湖南大学 一种基于大数据技术的校情智能分析***及方法
CN104615778A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种避免数据重抽的方法和装置及***
CN104636864A (zh) * 2015-01-28 2015-05-20 贵州省邮电规划设计院有限公司 基于云计算的政务信息资源管理***
CN104767795A (zh) * 2015-03-17 2015-07-08 浪潮通信信息***有限公司 一种基于hadoop的lte mro数据统计方法及***
CN104834706A (zh) * 2015-04-30 2015-08-12 南京邮电大学 基于位置推荐的互联网数据处理***及方法
CN104933601A (zh) * 2015-06-12 2015-09-23 北京京东尚科信息技术有限公司 一种输出商品信息的方法和装置
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN105045904A (zh) * 2015-08-07 2015-11-11 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及***
CN105095392A (zh) * 2015-07-02 2015-11-25 北京京东尚科信息技术有限公司 一种数据集市间共享数据的方法及装置
CN105095247A (zh) * 2014-05-05 2015-11-25 中国电信股份有限公司 符号数据分析方法和***
CN105095653A (zh) * 2015-07-13 2015-11-25 湖南互动传媒有限公司 医疗大数据应用基础服务***
CN105243067A (zh) * 2014-07-07 2016-01-13 北京明略软件***有限公司 一种实现实时增量同步数据的方法及装置
CN105302831A (zh) * 2014-07-18 2016-02-03 上海星红桉数据科技有限公司 基于海量用户行为数据的高速计算分析方法
CN105320765A (zh) * 2015-10-26 2016-02-10 华为技术有限公司 消息异常度值的获取方法和装置
CN105335448A (zh) * 2014-08-15 2016-02-17 ***股份有限公司 基于分布式环境的数据存储及处理***
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置
CN105512167A (zh) * 2015-10-30 2016-04-20 广东广信通信服务有限公司 一种基于混合数据库的多业务用户数据管理***及其方法
CN105550222A (zh) * 2015-12-07 2016-05-04 中国电子科技网络信息安全有限公司 一种基于分布式存储的图像服务***及方法
CN105589896A (zh) * 2014-11-14 2016-05-18 北大方正集团有限公司 数据挖掘方法及装置
CN105653573A (zh) * 2015-10-15 2016-06-08 许昌开普电气研究院 一种信息***服务平台用数据采集***
CN105701649A (zh) * 2016-02-26 2016-06-22 广州品唯软件有限公司 一种数据管控***
CN105718732A (zh) * 2016-01-20 2016-06-29 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析方法及***
CN105740316A (zh) * 2014-12-31 2016-07-06 商业对象软件有限公司 基于本地处理的样本数据的行为一致的集群范围数据整理
CN105760505A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 基于hive的历史数据分析及存档方法
CN105843880A (zh) * 2016-03-21 2016-08-10 中国矿业大学 一种基于多数据集市的煤矿多维数据仓库***
CN106021270A (zh) * 2015-03-30 2016-10-12 国际商业机器公司 在数据仓库和大数据存储之间协同数据智能的方法和***
CN106202486A (zh) * 2016-07-19 2016-12-07 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN106227899A (zh) * 2016-08-31 2016-12-14 北京京航计算通讯研究所 一种面向物联网大数据的存储和查询方法
CN106294805A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 数据处理方法及装置
CN106294849A (zh) * 2016-08-23 2017-01-04 成都卡莱博尔信息技术股份有限公司 基于数据挖掘技术的海量数据查询***
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
CN106611046A (zh) * 2016-12-16 2017-05-03 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架
CN106649298A (zh) * 2015-07-22 2017-05-10 中国科学院微电子研究所 一种基于物联网跨领域建立关联的方法及***
CN106709269A (zh) * 2017-03-13 2017-05-24 山东众阳软件有限公司 一种医疗大数据仓库的创建方法及***
CN106708993A (zh) * 2016-12-16 2017-05-24 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架实现方法
CN106844496A (zh) * 2016-12-26 2017-06-13 山东中创软件商用中间件股份有限公司 基于企业服务总线的数据传输调度方法、装置及服务器
CN106886527A (zh) * 2015-12-16 2017-06-23 北京奇虎科技有限公司 一种面向业务的数据计算方法及装置
CN106909689A (zh) * 2017-03-07 2017-06-30 山东浪潮云服务信息科技有限公司 一种数据融合方法及装置
CN106921614A (zh) * 2015-12-24 2017-07-04 北京国双科技有限公司 业务数据处理方法和装置
CN107092685A (zh) * 2017-04-24 2017-08-25 广州新盛通科技有限公司 一种联合使用文件***和rdbms存储事务数据的方法
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN107679096A (zh) * 2017-09-08 2018-02-09 北京京东尚科信息技术有限公司 数据集市间指标共享的方法和装置
CN107832392A (zh) * 2017-10-31 2018-03-23 链家网(北京)科技有限公司 一种元数据管理***
CN107908672A (zh) * 2017-10-24 2018-04-13 深圳前海微众银行股份有限公司 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN108121778A (zh) * 2017-12-14 2018-06-05 浙江航天恒嘉数据科技有限公司 一种异构数据交换与清洗***及方法
CN108228628A (zh) * 2016-12-15 2018-06-29 亿度慧达教育科技(北京)有限公司 一种结构化查询语言数据库中的宽表生成方法及其装置
CN108241934A (zh) * 2016-12-23 2018-07-03 北京京东尚科信息技术有限公司 数据查询方法与装置
CN108496190A (zh) * 2016-01-27 2018-09-04 甲骨文国际公司 用于从电子数据结构中提取属性的注释***
CN108932248A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种搜索实现方法及***
CN109040286A (zh) * 2018-08-24 2018-12-18 重庆金康特智能穿戴技术研究院有限公司 一种基于内存数据库的客户端在线状态维护方法
CN109033113A (zh) * 2017-06-12 2018-12-18 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析***
CN109344145A (zh) * 2018-09-07 2019-02-15 北明软件有限公司 一种基于数据标准规范的数据清洗方法、装置和***
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN109816336A (zh) * 2018-12-29 2019-05-28 中国神华能源股份有限公司 基于全生命周期的信息管理***
CN109960708A (zh) * 2019-03-22 2019-07-02 蔷薇智慧科技有限公司 数据处理方法、装置、电子设备及存储介质
CN110019109A (zh) * 2017-07-12 2019-07-16 北京京东尚科信息技术有限公司 用于处理数据仓库数据的方法及装置
CN110442627A (zh) * 2019-07-05 2019-11-12 威讯柏睿数据科技(北京)有限公司 一种内存数据库***和数据仓库***之间的数据传输方法及***
CN110533436A (zh) * 2019-09-05 2019-12-03 深圳市携众通科技有限公司 一种多***工单数据融合的方法
CN111352982A (zh) * 2018-12-24 2020-06-30 核工业计算机应用研究所 一种基于大数据的人力抽取分析***
US10749666B2 (en) 2017-10-31 2020-08-18 Alibaba Group Holding Limited Data statistics method and apparatus
CN111737364A (zh) * 2020-07-22 2020-10-02 同盾控股有限公司 安全多方数据融合与联邦共享方法、装置、设备及介质
US10885042B2 (en) 2015-08-27 2021-01-05 International Business Machines Corporation Associating contextual structured data with unstructured documents on map-reduce
CN112199346A (zh) * 2020-12-08 2021-01-08 北京每日优鲜电子商务有限公司 物品信息存储方法、装置、电子设备和计算机可读介质
CN112527886A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种基于城市大脑的数据仓库***
CN112632025A (zh) * 2020-08-25 2021-04-09 南方电网科学研究院有限责任公司 一种基于paas平台的电网企业管理决策支持应用***
CN112988860A (zh) * 2019-12-18 2021-06-18 菜鸟智能物流控股有限公司 数据加速处理方法、装置及电子设备
CN113111244A (zh) * 2020-12-31 2021-07-13 绍兴亿都信息技术股份有限公司 基于中医药知识规模化普及的多源异构大数据融合***
CN113468182A (zh) * 2021-07-14 2021-10-01 广域铭岛数字科技有限公司 一种数据存储方法及***
CN116860859A (zh) * 2023-09-01 2023-10-10 江西省信息中心(江西省电子政务网络管理中心 江西省信用中心 江西省大数据中心) 一种多源异构数据的接口创建方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136217A (zh) * 2011-11-24 2013-06-05 阿里巴巴集团控股有限公司 一种分布式数据流处理方法及其***
WO2013126074A1 (en) * 2012-02-24 2013-08-29 Landmark Graphics Corporation Determining optimal parameters for a downhole operation
CN103440288A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 一种大数据存储方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136217A (zh) * 2011-11-24 2013-06-05 阿里巴巴集团控股有限公司 一种分布式数据流处理方法及其***
WO2013126074A1 (en) * 2012-02-24 2013-08-29 Landmark Graphics Corporation Determining optimal parameters for a downhole operation
CN103440288A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 一种大数据存储方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘宇等: "数据仓库技术在发电厂中的应用研究", 《电力自动化设备》 *
王德文等: "基于Hive的电力设备状态信息数据仓库", 《电力***保护与控制》 *

Cited By (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN103916293B (zh) * 2014-04-15 2017-03-22 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105095247A (zh) * 2014-05-05 2015-11-25 中国电信股份有限公司 符号数据分析方法和***
CN105095247B (zh) * 2014-05-05 2018-07-17 中国电信股份有限公司 符号数据分析方法和***
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理***
CN104077402B (zh) * 2014-07-04 2018-01-19 用友网络科技股份有限公司 数据处理方法和数据处理***
CN105243067A (zh) * 2014-07-07 2016-01-13 北京明略软件***有限公司 一种实现实时增量同步数据的方法及装置
CN105243067B (zh) * 2014-07-07 2019-06-28 北京明略软件***有限公司 一种实现实时增量同步数据的方法及装置
CN105302831A (zh) * 2014-07-18 2016-02-03 上海星红桉数据科技有限公司 基于海量用户行为数据的高速计算分析方法
CN105335448B (zh) * 2014-08-15 2018-09-21 ***股份有限公司 基于分布式环境的数据存储及处理***
CN105335448A (zh) * 2014-08-15 2016-02-17 ***股份有限公司 基于分布式环境的数据存储及处理***
CN105589896A (zh) * 2014-11-14 2016-05-18 北大方正集团有限公司 数据挖掘方法及装置
CN104484410A (zh) * 2014-12-16 2015-04-01 芜湖乐锐思信息咨询有限公司 应用于大数据***的数据融合方法及***
CN105740316B (zh) * 2014-12-31 2020-10-16 商业对象软件有限公司 基于本地处理的样本数据的行为一致的集群范围数据整理
CN105740316A (zh) * 2014-12-31 2016-07-06 商业对象软件有限公司 基于本地处理的样本数据的行为一致的集群范围数据整理
CN104573071A (zh) * 2015-01-26 2015-04-29 湖南大学 一种基于大数据技术的校情智能分析***及方法
CN104636864A (zh) * 2015-01-28 2015-05-20 贵州省邮电规划设计院有限公司 基于云计算的政务信息资源管理***
CN104615778A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种避免数据重抽的方法和装置及***
CN104767795A (zh) * 2015-03-17 2015-07-08 浪潮通信信息***有限公司 一种基于hadoop的lte mro数据统计方法及***
CN106021270B (zh) * 2015-03-30 2019-06-11 国际商业机器公司 在数据仓库和大数据存储之间协同数据智能的方法和***
CN106021270A (zh) * 2015-03-30 2016-10-12 国际商业机器公司 在数据仓库和大数据存储之间协同数据智能的方法和***
CN104834706A (zh) * 2015-04-30 2015-08-12 南京邮电大学 基于位置推荐的互联网数据处理***及方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN104933112B (zh) * 2015-06-04 2018-12-21 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN104933601A (zh) * 2015-06-12 2015-09-23 北京京东尚科信息技术有限公司 一种输出商品信息的方法和装置
CN104933601B (zh) * 2015-06-12 2019-11-05 北京京东尚科信息技术有限公司 一种输出商品信息的方法和装置
CN106326248B (zh) * 2015-06-23 2019-08-27 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
CN105095392A (zh) * 2015-07-02 2015-11-25 北京京东尚科信息技术有限公司 一种数据集市间共享数据的方法及装置
CN105095653A (zh) * 2015-07-13 2015-11-25 湖南互动传媒有限公司 医疗大数据应用基础服务***
CN106649298B (zh) * 2015-07-22 2021-01-22 中国科学院微电子研究所 一种基于物联网跨领域建立关联的方法及***
CN106649298A (zh) * 2015-07-22 2017-05-10 中国科学院微电子研究所 一种基于物联网跨领域建立关联的方法及***
CN105045904A (zh) * 2015-08-07 2015-11-11 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及***
CN105045904B (zh) * 2015-08-07 2019-05-03 北京京东尚科信息技术有限公司 一种基于数据仓库的用户数据整合方法及***
US10915537B2 (en) 2015-08-27 2021-02-09 International Business Machines Corporation System and a method for associating contextual structured data with unstructured documents on map-reduce
US10885042B2 (en) 2015-08-27 2021-01-05 International Business Machines Corporation Associating contextual structured data with unstructured documents on map-reduce
CN105653573A (zh) * 2015-10-15 2016-06-08 许昌开普电气研究院 一种信息***服务平台用数据采集***
CN105320765B (zh) * 2015-10-26 2019-02-05 华为技术有限公司 消息异常度值的获取方法和装置
CN105320765A (zh) * 2015-10-26 2016-02-10 华为技术有限公司 消息异常度值的获取方法和装置
CN105512167B (zh) * 2015-10-30 2018-01-23 广东广信通信服务有限公司 一种基于混合数据库的多业务用户数据管理***及其方法
CN105512167A (zh) * 2015-10-30 2016-04-20 广东广信通信服务有限公司 一种基于混合数据库的多业务用户数据管理***及其方法
CN105550222B (zh) * 2015-12-07 2019-04-05 中国电子科技网络信息安全有限公司 一种基于分布式存储的图像服务***及方法
CN105550222A (zh) * 2015-12-07 2016-05-04 中国电子科技网络信息安全有限公司 一种基于分布式存储的图像服务***及方法
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN105447184B (zh) * 2015-12-15 2019-06-11 北京百分点信息科技有限公司 信息抓取方法及装置
CN106886527A (zh) * 2015-12-16 2017-06-23 北京奇虎科技有限公司 一种面向业务的数据计算方法及装置
CN106921614A (zh) * 2015-12-24 2017-07-04 北京国双科技有限公司 业务数据处理方法和装置
CN105512336A (zh) * 2015-12-29 2016-04-20 中国建设银行股份有限公司 一种基于Hadoop的海量数据处理方法和装置
CN105718732A (zh) * 2016-01-20 2016-06-29 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析方法及***
CN105718732B (zh) * 2016-01-20 2018-07-27 华中科技大学同济医学院附属协和医院 一种医疗数据采集分析***
CN108496190A (zh) * 2016-01-27 2018-09-04 甲骨文国际公司 用于从电子数据结构中提取属性的注释***
CN105760505A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 基于hive的历史数据分析及存档方法
CN105701649A (zh) * 2016-02-26 2016-06-22 广州品唯软件有限公司 一种数据管控***
CN105843880A (zh) * 2016-03-21 2016-08-10 中国矿业大学 一种基于多数据集市的煤矿多维数据仓库***
CN106202486A (zh) * 2016-07-19 2016-12-07 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN106202486B (zh) * 2016-07-19 2019-07-09 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN106294805A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 数据处理方法及装置
CN106294849A (zh) * 2016-08-23 2017-01-04 成都卡莱博尔信息技术股份有限公司 基于数据挖掘技术的海量数据查询***
CN106227899A (zh) * 2016-08-31 2016-12-14 北京京航计算通讯研究所 一种面向物联网大数据的存储和查询方法
CN108228628A (zh) * 2016-12-15 2018-06-29 亿度慧达教育科技(北京)有限公司 一种结构化查询语言数据库中的宽表生成方法及其装置
CN106611046B (zh) * 2016-12-16 2020-02-14 武汉中地数码科技有限公司 一种基于大数据技术的空间数据存储处理中间件***
CN106708993A (zh) * 2016-12-16 2017-05-24 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架实现方法
CN106611046A (zh) * 2016-12-16 2017-05-03 武汉中地数码科技有限公司 基于大数据技术的空间数据存储处理中间件框架
CN108241934A (zh) * 2016-12-23 2018-07-03 北京京东尚科信息技术有限公司 数据查询方法与装置
CN108241934B (zh) * 2016-12-23 2021-02-26 北京京东尚科信息技术有限公司 数据查询方法与装置
CN106844496A (zh) * 2016-12-26 2017-06-13 山东中创软件商用中间件股份有限公司 基于企业服务总线的数据传输调度方法、装置及服务器
CN106844496B (zh) * 2016-12-26 2020-04-10 山东中创软件商用中间件股份有限公司 基于企业服务总线的数据传输调度方法、装置及服务器
CN106909689A (zh) * 2017-03-07 2017-06-30 山东浪潮云服务信息科技有限公司 一种数据融合方法及装置
CN106709269A (zh) * 2017-03-13 2017-05-24 山东众阳软件有限公司 一种医疗大数据仓库的创建方法及***
CN107092685A (zh) * 2017-04-24 2017-08-25 广州新盛通科技有限公司 一种联合使用文件***和rdbms存储事务数据的方法
CN108932248A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种搜索实现方法及***
CN109033113B (zh) * 2017-06-12 2021-07-30 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置
CN109033113A (zh) * 2017-06-12 2018-12-18 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置
CN110019109B (zh) * 2017-07-12 2021-05-25 北京京东尚科信息技术有限公司 用于处理数据仓库数据的方法及装置
CN110019109A (zh) * 2017-07-12 2019-07-16 北京京东尚科信息技术有限公司 用于处理数据仓库数据的方法及装置
CN107679096B (zh) * 2017-09-08 2020-06-05 北京京东尚科信息技术有限公司 数据集市间指标共享的方法和装置
CN107679096A (zh) * 2017-09-08 2018-02-09 北京京东尚科信息技术有限公司 数据集市间指标共享的方法和装置
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN107908672A (zh) * 2017-10-24 2018-04-13 深圳前海微众银行股份有限公司 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN107832392A (zh) * 2017-10-31 2018-03-23 链家网(北京)科技有限公司 一种元数据管理***
US10749666B2 (en) 2017-10-31 2020-08-18 Alibaba Group Holding Limited Data statistics method and apparatus
CN108121778A (zh) * 2017-12-14 2018-06-05 浙江航天恒嘉数据科技有限公司 一种异构数据交换与清洗***及方法
CN109040286A (zh) * 2018-08-24 2018-12-18 重庆金康特智能穿戴技术研究院有限公司 一种基于内存数据库的客户端在线状态维护方法
CN109040286B (zh) * 2018-08-24 2021-01-26 重庆金康特智能穿戴技术研究院有限公司 一种基于内存数据库的客户端在线状态维护方法
CN109344145B (zh) * 2018-09-07 2022-12-27 北明软件有限公司 一种基于数据标准规范的数据清洗方法、装置和***
CN109344145A (zh) * 2018-09-07 2019-02-15 北明软件有限公司 一种基于数据标准规范的数据清洗方法、装置和***
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析***
CN109272155B (zh) * 2018-09-11 2021-07-06 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析***
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法
CN111352982A (zh) * 2018-12-24 2020-06-30 核工业计算机应用研究所 一种基于大数据的人力抽取分析***
CN109816336A (zh) * 2018-12-29 2019-05-28 中国神华能源股份有限公司 基于全生命周期的信息管理***
CN109960708A (zh) * 2019-03-22 2019-07-02 蔷薇智慧科技有限公司 数据处理方法、装置、电子设备及存储介质
CN110442627A (zh) * 2019-07-05 2019-11-12 威讯柏睿数据科技(北京)有限公司 一种内存数据库***和数据仓库***之间的数据传输方法及***
CN110533436B (zh) * 2019-09-05 2023-04-07 深圳市携众通科技有限公司 一种多***工单数据融合的方法
CN110533436A (zh) * 2019-09-05 2019-12-03 深圳市携众通科技有限公司 一种多***工单数据融合的方法
CN112988860B (zh) * 2019-12-18 2023-09-26 菜鸟智能物流控股有限公司 数据加速处理方法、装置及电子设备
CN112988860A (zh) * 2019-12-18 2021-06-18 菜鸟智能物流控股有限公司 数据加速处理方法、装置及电子设备
CN111737364A (zh) * 2020-07-22 2020-10-02 同盾控股有限公司 安全多方数据融合与联邦共享方法、装置、设备及介质
CN112632025A (zh) * 2020-08-25 2021-04-09 南方电网科学研究院有限责任公司 一种基于paas平台的电网企业管理决策支持应用***
CN112199346B (zh) * 2020-12-08 2021-03-23 北京每日优鲜电子商务有限公司 物品信息存储方法、装置、电子设备和计算机可读介质
CN112199346A (zh) * 2020-12-08 2021-01-08 北京每日优鲜电子商务有限公司 物品信息存储方法、装置、电子设备和计算机可读介质
CN113111244A (zh) * 2020-12-31 2021-07-13 绍兴亿都信息技术股份有限公司 基于中医药知识规模化普及的多源异构大数据融合***
CN112527886A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种基于城市大脑的数据仓库***
CN113468182A (zh) * 2021-07-14 2021-10-01 广域铭岛数字科技有限公司 一种数据存储方法及***
CN116860859A (zh) * 2023-09-01 2023-10-10 江西省信息中心(江西省电子政务网络管理中心 江西省信用中心 江西省大数据中心) 一种多源异构数据的接口创建方法、装置及电子设备
CN116860859B (zh) * 2023-09-01 2023-12-22 江西省信息中心(江西省电子政务网络管理中心 江西省信用中心 江西省大数据中心) 一种多源异构数据的接口创建方法、装置及电子设备

Also Published As

Publication number Publication date
CN103678665B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和***
JP6617117B2 (ja) 半構造データのためのスケーラブルな分析プラットフォーム
CN107402995B (zh) 一种分布式newSQL数据库***及方法
CN104767813B (zh) 基于openstack的公众行大数据服务平台
Phaneendra et al. Big Data-solutions for RDBMS problems-A survey
WO2019143705A1 (en) Dimension context propagation techniques for optimizing sql query plans
CN105139281A (zh) 一种电力营销大数据的处理方法及***
Dehdouh Building OLAP cubes from columnar NoSQL data warehouses
Roijackers et al. On bridging relational and document-centric data stores
Mohammed et al. A review of big data environment and its related technologies
Khan et al. Predictive performance comparison analysis of relational & NoSQL graph databases
CN103034650B (zh) 一种数据处理***和方法
Abdel Azez et al. Optimizing join in HIVE star schema using key/facts indexing
Adiba et al. Big data management challenges, approaches, tools and their limitations
Alsubaiee et al. Asterix: scalable warehouse-style web data integration
Qin et al. Beyond Simple Integration of RDBMS and MapReduce--Paving the Way toward a Unified System for Big Data Analytics: Vision and Progress
Chen et al. An optimized distributed OLAP system for big data
Ravichandran Big Data processing with Hadoop: a review
Seera et al. Perspective of database services for managing large-scale data on the cloud: a comparative study
Arputhamary et al. A review on big data integration
TW201947492A (zh) 運營資料匯流系統與方法
Shuijing Big data analytics: Key technologies and challenges
Li Introduction to Big Data
Cuzzocrea BigMDHealth: Supporting Multidimensional Big Data Management and Analytics over Big Healthcare Data via Effective and Efficient Multidimensional Aggregate Queries over Key-Value Stores
Gao et al. Exploiting sharing join opportunities in big data multiquery optimization with Flink

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191209

Address after: 100000 2505, 21 / F, building 6, No. 93 yard, Jianguo Road, Chaoyang District, Beijing

Patentee after: Beijing New Silk Road Consulting Group Co., Ltd

Address before: 210061 12F, building A, Spark Road software building, hi tech Zone, Jiangsu, Nanjing

Patentee before: Focus Technology Co., Ltd.

TR01 Transfer of patent right