CN107562931A - 数据抽取***和数据抽取方法 - Google Patents

数据抽取***和数据抽取方法 Download PDF

Info

Publication number
CN107562931A
CN107562931A CN201710835298.1A CN201710835298A CN107562931A CN 107562931 A CN107562931 A CN 107562931A CN 201710835298 A CN201710835298 A CN 201710835298A CN 107562931 A CN107562931 A CN 107562931A
Authority
CN
China
Prior art keywords
data
module
platform
big
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710835298.1A
Other languages
English (en)
Inventor
张含宇
许伟
孟凡华
米文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enn Cloud Data Service Co Ltd
Original Assignee
Enn Cloud Data Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enn Cloud Data Service Co Ltd filed Critical Enn Cloud Data Service Co Ltd
Priority to CN201710835298.1A priority Critical patent/CN107562931A/zh
Publication of CN107562931A publication Critical patent/CN107562931A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据抽取***和数据抽取方法。所述***包括:数据源和大数据平台,数据源包括数据复制模块和数据抽取模块,大数据平台包括分布式文件模块和/或数据仓库工具模块;数据复制模块用于添加数据库触发器至数据源并从数据库触发器复制更新数据,生成增量数据抽取队列;数据抽取模块用于依据设定时间间隔从增量数据抽取队列抽取更新数据并将更新数据发送至大数据平台;大数据平台,用于根据更新数据修正存储数据;分布式文件模块和数据仓库工具模块用于接收更新数据。本发明实施例的技术方案实现了Hadoop大数据平台可实时获取企业管理软件SAP对数据表格的处理操作,依据获取的处理操作更新自身存储的数据表格。

Description

数据抽取***和数据抽取方法
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及一种数据抽取***和数据抽取方法。
背景技术
随着国民经济的快速发展,各行各业所产生和存储的数据量在急速攀升,“大数据”已经渗透到每一个行业和领域,成为重要的生产要素。Hadoop是一个由Apache基金会所开发的分布式***基础架构,实现了一个分布式文件***,Hadoop可以以可靠、高效、可伸缩的方式进行数据处理,因此,Hadoop现已迅速发展成为分析大数据的领先平台。
由于Hadoop无法自主对自身已有数据进行修改和删除,也无法自主增加新数据,因此若需要对Hadoop已有数据进行修改或删除操作,则必须将相应的数据修改说明发送至Hadoop。同时,SAP是一款全球领先的企业管理解决方案的软件,由于SAP对内部数据进行增加、修改和删除等操作时,直接在数据库层面进行修改且无修改记录。
因此,当SAP作为数据源,使用Hadoop对SAP中的数据进行抽取时,对于已从SAP中抽取并存储在Hadoop中的数据,Hadoop无法从SAP的现有存储数据中获知SAP对上述数据的操作内容,以致Hadoop无法对上述数据实施与SAP相同的操作。
发明内容
有鉴于此,本发明实施例提供了一种数据抽取***和数据抽取方法,以解决现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷。
在第一方面,本发明实施例提供了一种数据抽取***,包括:数据源和大数据平台,所述数据源包括数据复制模块和数据抽取模块,所述大数据平台包括分布式文件模块和/或数据仓库工具模块;
所述数据复制模块,用于添加数据库触发器至所述数据源,并从所述数据库触发器中复制更新数据,同时依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
所述数据抽取模块,用于依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至所述大数据平台;
所述大数据平台,用于根据接收的所述更新数据修正存储数据;
所述分布式文件模块和所述数据仓库工具模块均用于接收所述更新数据。
在上述***中,优选的是,所述数据抽取模块还用于将数据复制规则发送至所述数据复制模块;
所述数据复制模块,具体用于:
依据所述数据复制规则从所述数据库触发器中复制更新数据。
在上述***中,优选的是,所述更新数据包括:
数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源中存储的数据表格。
在上述***中,优选的是,还包括:多样化接口***;
所述多样化接口***,用于接收所述数据抽取模块发送的所述更新数据,并将接收的所述更新数据发送至所述大数据平台。
在上述***中,优选的是,所述数据源包括企业管理软件SAP;
所述数据复制模块包括数据同步复制器SLT;
所述数据抽取模块包括数据服务***DS。
在上述***中,优选的是,所述大数据平台包括Hadoop大数据平台;
所述分布式文件模块包括分布式文件***HDFS;
所述数据仓库工具模块包括数据仓库工具HIVE。
在第二方面,本发明实施例提供了一种数据抽取方法,包括:
添加数据库触发器至内部数据源,从所述数据库触发器中复制更新数据,依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台。
在上述方法中,优选的是,所述从所述数据库触发器中复制更新数据,包括:
依据数据复制规则从所述数据库触发器中复制更新数据。
在上述方法中,优选的是,所述更新数据包括:
数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源存储的数据表格。
在上述方法中,优选的是,所述依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台,包括:
依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部多样化接口***;
通过所述内部多样化接口***,将所述更新数据发送至内部大数据平台。
在上述方法中,优选的是,所述内部数据源包括企业管理软件SAP。
在上述方法中,优选的是,其特征在于,所述内部大数据平台包括Hadoop大数据平台。
本发明实施例提供了一种数据抽取***和数据抽取方法,该数据抽取***包括数据源11和大数据平台12,数据源11包括数据复制模块111和数据抽取模块112,大数据平台12包括分布式文件模块121和/或数据仓库工具模块122,该***通过数据复制模块111添加数据库触发器至数据源,用以在确定数据源11的数据发生变更时,记录数据变更信息并生成增量数据抽取队列,然后通过数据抽取模块112从增量数据抽取队列中抽取更新数据并发送至大数据平台12,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格。
附图说明
图1是本发明实施例一提供的一种数据抽取***的结构图;
图2是本发明实施例二提供的一种数据抽取***的结构图;
图3是本发明实施例三提供的一种数据抽取方法的流程图;
图4是本发明实施例四提供的一种数据抽取方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种数据抽取***的结构图,本实施例中数据抽取***的结构具体包括:
数据源11和大数据平台12,数据源11包括数据复制模块111和数据抽取模块112,大数据平台12包括分布式文件模块121和/或数据仓库工具模块122。
数据复制模块111,用于添加数据库触发器至数据源11,并从数据库触发器中复制更新数据,同时依据更新数据生成增量数据抽取队列,其中,数据库触发器用于在确定数据源11的数据发生变更时,记录数据变更信息。
在本实施例中,数据复制模块111可以在数据源11中添加数据库触发器,该数据库触发器用于在确定数据源11的数据发生变更时,记录数据变更信息形成更新数据。本领域技术人员可以理解的是,数据库触发器可以对数据表格的***、更新以及删除操作自动进行存储,也就是说,当对数据源11中存储的数据表格被实施数据的***、更新和删除等操作时,数据库触发器会自动对上述操作进行记录作为更新数据的一部分,同时还会记录每一个操作的执行时间,即时间戳。另外,数据复制模块111所添加的数据库触发器不止一个,而是会对应每一张数据表格添加一个数据库触发器,即数据源11中有多少张数据表格,数据复制模块111就会添加多少个数据库触发器至数据源11,数据库触发器与数据表格一一对应,每一个数据库触发器仅用于记录对应数据表格中的数据的***、更新以及删除等操作。
在本实施例中,数据复制模块111还会依据数据库触发器中存储的更新数据,生成增量数据抽取队列,一般来说数据复制模块111会实时地从数据库触发器中抽取更新数据。进一步需要说明的是,增量数据抽取队列中并不会包括所有数据库触发器中存储的更新数据,而只会包括待更新数据表格对应的数据库触发器中存储的更新数据,其中,待更新数据表格具体可以是数据复制模块111根据接收到的数据抽取模块112发送的数据所确定的数据表格,还可以是数据复制模111块根据用户输入的数据所确定的数据表格等。
数据抽取模块112,用于依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至大数据平台12。
在本实施例中,数据抽取模块112用于依据设定时间间隔从增量数据抽取队列中抽取更新数据,一般来说,数据抽取模块112会将增量数据抽取队列中的所有数据全部一次性抽取出来,然后会将抽取到的更新数据发送至大数据平台12。其中,设定时间间隔具体可以是依据用户输入的数据确定等,典型的可以是实时或一个小时等。
大数据平台12,用于根据接收的更新数据修正存储数据。
在本实施例中,大数据平台12会根据接收到的,数据抽取模块112发送的更新数据修正自身的存储数据。
在本实施例中,当数据抽取模块112将更新数据发送至大数据平台12之后,会由大数据平台12中的分布式文件模块121或数据仓库工具模块122接收该更新数据,然后分布式文件模块121或数据仓库工具模块122会依据接收的更新数据修正存储的数据。
本发明实施例一提供了一种数据抽取***,该数据抽取***包括数据源11和大数据平台12,数据源11包括数据复制模块111和数据抽取模块112,大数据平台12包括分布式文件模块121和/或数据仓库工具模块122,该***通过数据复制模块111添加数据库触发器至数据源,用以在确定数据源11的数据发生变更时,记录数据变更信息并生成增量数据抽取队列,然后通过数据抽取模块112从增量数据抽取队列中抽取更新数据并发送至大数据平台12,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格。
实施例二
图2是本发明实施例二提供的一种数据抽取***的结构图。本实施例以上述实施例为基础进行优化,在本实施例中,将数据抽取模块112,优化为还用于将数据复制规则发送至数据复制模块111。
相应地,数据复制模块111优化为:具体用于依据数据复制规则从数据库触发器中复制更新数据。
进一步地,将更新数据优化为:数据表格的增量数据和增量数据的时间戳,其中,数据表格为数据源11中存储的数据表格。
进一步地,优化为还包括:多样化接口***13,用于接收数据抽取模块112发送的更新数据,并将接收的更新数据发送至大数据平台12。
进一步地,将数据源11优化为:企业管理软件SAP;将数据复制模块111优化为:数据同步复制器SLT;将数据抽取模块112优化为:数据服务***DS。
进一步地,将大数据平台12优化为:Hadoop大数据平台;将分布式文件模块121优化为:分布式文件***HDFS;将数据仓库工具模块122优化为:数据仓库工具HIVE。
如图2所示,在本实施例中,数据抽取***由企业管理软件SAP、Hadoop大数据平台和多样化接口***13,其中,企业管理软件SAP包括数据同步复制器SLT和数据服务***DS,Hadoop大数据平台包括分布式文件***HDFS和数据仓库工具HIVE。
在本实施例中,数据服务***DS,不但用于从增量数据抽取队列中抽取更新数据,同时,还用于将数据复制规则发送至同步复制器SLT,其中,数据复制规则具体是指同步复制器SLT所需抽取数据的数据表格的表格属性。在接收到数据服务***DS发送的数据复制规则之后,同步复制器SLT就确定了需要进行数据抽取的数据表格,然后,同步复制器SLT就会从需要进行数据抽取的数据表格所对应的数据库触发器中抽取数据。
在本实施例中,数据库触发器中存储的更新数据为数据表格的增量数据和增量数据的时间戳,其中,数据表格为企业管理软件SAP中存储的数据表格。本领域技术人员可以理解的是,一些数据源是以数据表格的形式进行数据存储的,即以数据表格作为最小的数据存储单位,因此,当对数据源中的数据进行更新时,也就是对数据源中各个数据表格中的数据进行更新。
其中,数据表格的增量数据具体是指企业管理软件SAP中的数据表格所被实施更新操作的相关数据,其中,更新操作具体可以是删除数据操作、增加数据操作或更新数据操作等。其中,增量数据的时间戳具体是指用来表明增量数据的生成时间的时间数据。可以理解的是,在某一数据表格对应的数据库触发器中的更新数据前后两次被抽取的时间间隔内,如果该数据表格中的同一数据被多次进行修改,但是没有对每次修改所产生的并存储在数据库触发器中的增量数据进行时间记录的话,那么,当Hadoop大数据平台接收到上述增量数据之后,无法确定哪一个数值才是最终的修改数值,因此,Hadoop大数据平台无法对自身存储的数据进行正确的更新操作。
在本实施例中,增加使用了多样化接口***13,该多样化接口***13用于接收数据服务***DS发送的数据表格的增量数据和增量数据的时间戳,并将接收的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台,也就是说,数据服务***DS不是直接将抽取的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台,而是先将抽取的数据表格的增量数据和增量数据的时间戳发送至多样化接口***13。进一步需要说明的是,多样化接口***13不但可以将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台的分布式文件***HDFS和数据仓库工具HIVE,而且还可以将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台中的其他模块,另外,多样化接口***13还可以同时将其他数据源的数据发送至Hadoop大数据平台。
示例性的,多样化接口***13可以将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台中的列式存储***KUDU、查询***Impala以及计算引擎SPARK等模块。
本发明实施例二提供了一种数据抽取***,具体化了数据抽取模块112的作用,即可以将数据复制规则发送至数据复制模块111,还具体化了更新数据的内容,更新数据为数据表格的增量数据和增量数据的时间戳,还优化增加了多样化接口***13,用于将接收到的更新数据发送至大数据平台12,同时还将数据源11具体化为企业管理软件SAP,将大数据平台12具体为Hadoop大数据平台,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格,同时,由于增加了多样化接口***13,不但使得更新数据可以做为Hadoop大数据平台更多模块的输入数据,而且还扩大了Hadoop大数据平台的数据来源。
实施例三
图3是本发明实施例三提供的一种数据抽取方法的流程图。本实施例的方法可以由数据抽取***来执行,该***可通过硬件和/或软件的方式实现,并一般可集成于计算机或服务器中。本实施例的方法具体包括:
310、添加数据库触发器至内部数据源,从数据库触发器中复制更新数据,依据更新数据生成增量数据抽取队列。
在本实施例中,内部数据源具体可以是将部分数据或全部数据均以数据表格的形式进行存储的数据源。添加至内部数据源的数据库触发器具体用于在确定数据源的数据发生变更时,记录数据变更信息形成更新数据,数据库触发器与数据表格一一对应,有多少张表格就会添加多少个数据库触发器,每一个数据库触发器仅用于记录对应数据表格中的数据的***、更新以及删除等操作。其中,内部数据源典型的可以是企业管理软件SAP等。
在本实施例中,添加完数据库触发器之后,还会依据数据库触发器中存储的更新数据,生成增量数据抽取队列,一般来说会实时地从数据库触发器中抽取更新数据,以使增量数据抽取队列中的数据与数据源对数据表格的操作保持高度一致。
进一步需要说明的是,增量数据抽取队列中并不会包括所有数据库触发器中存储的更新数据,而只会包括待更新数据表格对应的数据库触发器中存储的更新数据,其中,待更新数据表格具体可以是根据接收到的其他内部模块发送的数据所确定的数据表格,还可以是根据用户输入的数据所确定的数据表格等。
320、依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部大数据平台。
在本实施例中,设定时间间隔具体可以是依据用户输入的数据确定等,典型的可以是实时或一个小时等。一般来说,会将增量数据抽取队列中的所有数据全部一次性抽取出来,然后再将抽取到的更新数据发送至大数据平台。其中,大数据平台典型的可以是Hadoop大数据平台等。
本发明实施例三提供了一种数据抽取方法,通过先添加数据库触发器至内部数据源,从数据库触发器中复制更新数据,依据更新数据生成增量数据抽取队列,然后依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部大数据平台,解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格。
实施例四
图4是本发明实施例三提供的一种数据抽取方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将从数据库触发器中复制更新数据,优化为:依据数据复制规则从数据库触发器中复制更新数据。
将更新数据优化为:数据表格的增量数据和增量数据的时间戳,其中,数据表格为数据源存储的数据表格。
将依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部大数据平台,优化为:依据设定时间间隔从增量数据抽取队列中抽取更新数据,并将更新数据发送至内部多样化接口***;通过内部多样化接口***,将更新数据发送至内部大数据平台。
将内部数据源优化为:企业管理软件SAP。
将内部大数据平台优化为:Hadoop大数据平台。
相应地,本实施例的方法具体包括:
410、添加数据库触发器至企业管理软件SAP,依据数据复制规则从数据库触发器中复制数据表格的增量数据和增量数据的时间戳,依据数据表格的增量数据和增量数据的时间戳生成增量数据抽取队列。
在本实施例中,数据复制规则具体是指所需抽取数据的数据表格的表格属性,依据数据复制规则可以确定哪些表格所对应数据库触发器需要进行数据抽取。
在本实施例中,更新数据为数据表格的增量数据和增量数据的时间戳,其中,数据表格为企业管理软件SAP中存储的数据表格。
其中,数据表格的增量数据具体是指企业管理软件SAP中的数据表格所被实施更新操作的相关数据,其中,更新操作具体可以是删除数据操作、增加数据操作或更新数据操作等。其中,增量数据的时间戳具体是指用来表明增量数据的生成时间的时间数据。
420、依据设定时间间隔从增量数据抽取队列中抽取数据表格的增量数据和增量数据的时间戳,并将数据表格的增量数据和增量数据的时间戳发送至内部多样化接口***。
在本实施例中,增加使用了多样化接口***13,该多样化接口***13用于接收从增量数据抽取队列中抽取的数据表格的增量数据和增量数据的时间戳,并将接收的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台。
430、通过内部多样化接口***,将数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台。
在本实施例中,内部多样化接口***再接收的数据表格的增量数据和增量数据的时间戳发送至Hadooop大数据平台。
进一步地,内部多样化接口***不但可以将从内部数据源抽取的数据表格的增量数据和增量数据的时间戳发送至Hadoop大数据平台,而且还可以将其他数据源的数据发送至Hadoop大数据平台。
本发明实施例四提供了一种数据抽取方法,具体化了从数据库触发器中复制更新数据的方法,还将更新数据具体化为数据表格的增量数据和增量数据的时间戳,将内部数据源具体化为企业管理软件SAP,将内部大数据平台具体化为Hadoop大数据平台,同时,还具体化了从增量数量抽取队列中抽取更新数据并发送的过程,增加了内部多样化接口***作为抽取的更新数据的传送中介。该方法解决了现有技术中对于Hadoop大数据平台和企业管理软件SAP中存储的相同数据表格,Hadoop大数据平台无法同步企业管理软件SAP对上述数据表格的处理操作的技术缺陷,实现了Hadoop大数据平台可以实时获取企业管理软件SAP对数据表格的处理操作,并依据获取的上述处理操作更新自身存储的数据表格,同时,由于增加了内部多样化接口***,扩大了Hadoop大数据平台的数据来源。
本发明实施例所提供的数据抽取***可用于执行本发明任意实施例提供的数据抽取方法,具备相应的功能模块,实现相同的有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种数据抽取***,其特征在于,包括:数据源和大数据平台,所述数据源包括数据复制模块和数据抽取模块,所述大数据平台包括分布式文件模块和/或数据仓库工具模块;
所述数据复制模块,用于添加数据库触发器至所述数据源,并从所述数据库触发器中复制更新数据,同时依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
所述数据抽取模块,用于依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至所述大数据平台;
所述大数据平台,用于根据接收的所述更新数据修正存储数据;
所述分布式文件模块和所述数据仓库工具模块均用于接收所述更新数据。
2.根据权利要求1所述的***,其特征在于,所述数据抽取模块还用于将数据复制规则发送至所述数据复制模块;
所述数据复制模块,具体用于:
依据所述数据复制规则从所述数据库触发器中复制更新数据。
3.根据权利要求1所述的***,其特征在于,所述更新数据包括:
数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源中存储的数据表格。
4.根据权利要求1所述的***,其特征在于,还包括:多样化接口***;
所述多样化接口***,用于接收所述数据抽取模块发送的所述更新数据,并将接收的所述更新数据发送至所述大数据平台。
5.根据权利要求1-4中任一项所述的***,其特征在于,所述数据源包括企业管理软件SAP;
所述数据复制模块包括数据同步复制器SLT;
所述数据抽取模块包括数据服务***DS。
6.根据权利要求1-4中任一项所述的***,其特征在于,所述大数据平台包括Hadoop大数据平台;
所述分布式文件模块包括分布式文件***HDFS;
所述数据仓库工具模块包括数据仓库工具HIVE。
7.一种数据抽取方法,其特征在于,包括:
添加数据库触发器至内部数据源,从所述数据库触发器中复制更新数据,依据所述更新数据生成增量数据抽取队列,其中,所述数据库触发器用于在确定所述数据源的数据发生变更时,记录数据变更信息;
依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台。
8.根据权利要求7所述的方法,其特征在于,所述从所述数据库触发器中复制更新数据,包括:
依据数据复制规则从所述数据库触发器中复制更新数据。
9.根据权利要求7所述的方法,其特征在于,所述更新数据包括:
数据表格的增量数据和所述增量数据的时间戳,其中,所述数据表格为所述数据源存储的数据表格。
10.根据权利要求7所述的方法,其特征在于,所述依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部大数据平台,包括:
依据设定时间间隔从所述增量数据抽取队列中抽取所述更新数据,并将所述更新数据发送至内部多样化接口***;
通过所述颞部多样化接口***,将所述更新数据发送至内部大数据平台。
11.根据权利要求7-10中任一项所述的方法,其特征在于,所述内部数据源包括企业管理软件SAP。
12.根据权利要求7-10中任一项所述的方法,其特征在于,所述内部大数据平台包括Hadoop大数据平台。
CN201710835298.1A 2017-09-15 2017-09-15 数据抽取***和数据抽取方法 Pending CN107562931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710835298.1A CN107562931A (zh) 2017-09-15 2017-09-15 数据抽取***和数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710835298.1A CN107562931A (zh) 2017-09-15 2017-09-15 数据抽取***和数据抽取方法

Publications (1)

Publication Number Publication Date
CN107562931A true CN107562931A (zh) 2018-01-09

Family

ID=60981077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710835298.1A Pending CN107562931A (zh) 2017-09-15 2017-09-15 数据抽取***和数据抽取方法

Country Status (1)

Country Link
CN (1) CN107562931A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874313A (zh) * 2018-05-31 2018-11-23 安徽四创电子股份有限公司 一种基于数据流的大数据增量抽取的数据交换平台
CN108900568A (zh) * 2018-05-25 2018-11-27 山东中创软件商用中间件股份有限公司 一种表格传输的方法、***及服务器
CN109885618A (zh) * 2019-02-25 2019-06-14 南京金信通信息服务有限公司 Sap***和sap bw***信息同步的方法和装置
CN109977307A (zh) * 2019-03-18 2019-07-05 重庆摩托车(汽车)知识产权信息中心 一种基于专利状态实现目标对象自动推荐的方法及***
CN110825759A (zh) * 2019-11-04 2020-02-21 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN111858668A (zh) * 2020-06-30 2020-10-30 浙江物产信息技术有限公司 用于sap hana的数据抽取方法及装置
CN112115200A (zh) * 2020-09-16 2020-12-22 北京奇艺世纪科技有限公司 数据同步方法、装置、电子设备及可读存储介质
CN112685485A (zh) * 2021-01-04 2021-04-20 拉卡拉支付股份有限公司 数据获取方法、装置、电子设备、存储介质及程序产品
CN113190544A (zh) * 2021-05-26 2021-07-30 重庆高新技术产业研究院有限责任公司 一种面向企业的mes数据抽取和清洗方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055328A1 (en) * 2003-09-10 2005-03-10 Hitachi, Ltd. Method and apparatus for data integration
CN101923566A (zh) * 2010-06-24 2010-12-22 浙江协同数据***有限公司 一种基于触发器的数据增量抽取方法
CN103617585A (zh) * 2013-11-06 2014-03-05 梧州学院 一种基于共享数据平台的数据处理方法
CN103823797A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 基于ftp协议的行业数据库数据实时同步***
CN103914526A (zh) * 2014-03-27 2014-07-09 神华集团有限责任公司 一种用于sap erp***与oracle erp***的接口方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055328A1 (en) * 2003-09-10 2005-03-10 Hitachi, Ltd. Method and apparatus for data integration
CN101923566A (zh) * 2010-06-24 2010-12-22 浙江协同数据***有限公司 一种基于触发器的数据增量抽取方法
CN103823797A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 基于ftp协议的行业数据库数据实时同步***
CN103617585A (zh) * 2013-11-06 2014-03-05 梧州学院 一种基于共享数据平台的数据处理方法
CN103914526A (zh) * 2014-03-27 2014-07-09 神华集团有限责任公司 一种用于sap erp***与oracle erp***的接口方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900568A (zh) * 2018-05-25 2018-11-27 山东中创软件商用中间件股份有限公司 一种表格传输的方法、***及服务器
CN108900568B (zh) * 2018-05-25 2020-09-18 山东中创软件商用中间件股份有限公司 一种表格传输的方法、***及服务器
CN108874313B (zh) * 2018-05-31 2021-11-23 安徽四创电子股份有限公司 一种基于数据流的大数据增量抽取的数据交换平台
CN108874313A (zh) * 2018-05-31 2018-11-23 安徽四创电子股份有限公司 一种基于数据流的大数据增量抽取的数据交换平台
CN109885618A (zh) * 2019-02-25 2019-06-14 南京金信通信息服务有限公司 Sap***和sap bw***信息同步的方法和装置
CN109977307A (zh) * 2019-03-18 2019-07-05 重庆摩托车(汽车)知识产权信息中心 一种基于专利状态实现目标对象自动推荐的方法及***
CN110825759A (zh) * 2019-11-04 2020-02-21 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110825759B (zh) * 2019-11-04 2023-09-12 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN111858668A (zh) * 2020-06-30 2020-10-30 浙江物产信息技术有限公司 用于sap hana的数据抽取方法及装置
CN111858668B (zh) * 2020-06-30 2021-05-18 物产中大数字科技有限公司 用于sap hana的数据抽取方法及装置
CN112115200B (zh) * 2020-09-16 2023-08-29 北京奇艺世纪科技有限公司 数据同步方法、装置、电子设备及可读存储介质
CN112115200A (zh) * 2020-09-16 2020-12-22 北京奇艺世纪科技有限公司 数据同步方法、装置、电子设备及可读存储介质
CN112685485A (zh) * 2021-01-04 2021-04-20 拉卡拉支付股份有限公司 数据获取方法、装置、电子设备、存储介质及程序产品
CN113190544A (zh) * 2021-05-26 2021-07-30 重庆高新技术产业研究院有限责任公司 一种面向企业的mes数据抽取和清洗方法

Similar Documents

Publication Publication Date Title
CN107562931A (zh) 数据抽取***和数据抽取方法
CN105243067B (zh) 一种实现实时增量同步数据的方法及装置
US10452625B2 (en) Data lineage analysis
US9740831B2 (en) Clinical data management system
US8200633B2 (en) Database backup and restore with integrated index reorganization
US20180150531A1 (en) Enhanced mechanisms for managing multidimensional data
CN105373541B (zh) 数据库的数据操作请求的处理方法和***
CN112364094A (zh) 数据仓库可视化建模方法、装置及介质
CN106933703A (zh) 一种数据库数据备份的方法、装置及电子设备
CN102460076A (zh) 生成测试数据
CN107077479A (zh) 使用分立数据库***基于查询需求从行存储数据库自适性建立并更新列存储数据库的基于语句的迁移
CN106682213A (zh) 基于Hadoop平台的物联网任务订制方法及***
CN110023925A (zh) 生成、访问和显示沿袭元数据
CN102193991B (zh) 基于oltp的数据修改方法、***及图形数据库服务器
AU2012327168B2 (en) Amethod and structure for managing multiple electronic forms and their records using a static database
CN103440285B (zh) 大型******及其数据库更新方法
CN109271452A (zh) Db2数据库数据同步更新方法及设备
CN108536745A (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
GB2574282A (en) Data consistency verification method and system minimizing load of original database
US20230098227A1 (en) Change control and version management of data
CN106155838B (zh) 一种数据库备份数据恢复方法及装置
CN110457333A (zh) 数据实时更新方法、装置及计算机可读存储介质
CN110737432B (zh) 一种基于词根表的脚本辅助设计方法及装置
CN104317963A (zh) 一种数据处理方法及装置
CN110489092A (zh) 一种数据库读写分离架构下读取数据延迟问题的解决方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20210702

AD01 Patent right deemed abandoned