CN109271435A - 一种支持断点续传的数据抽取方法及*** - Google Patents

一种支持断点续传的数据抽取方法及*** Download PDF

Info

Publication number
CN109271435A
CN109271435A CN201811076270.5A CN201811076270A CN109271435A CN 109271435 A CN109271435 A CN 109271435A CN 201811076270 A CN201811076270 A CN 201811076270A CN 109271435 A CN109271435 A CN 109271435A
Authority
CN
China
Prior art keywords
data
time
extraction
scheduling
record number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811076270.5A
Other languages
English (en)
Other versions
CN109271435B (zh
Inventor
陈晓伟
刘春忆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linewell Software Co Ltd
Original Assignee
Linewell Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linewell Software Co Ltd filed Critical Linewell Software Co Ltd
Priority to CN201811076270.5A priority Critical patent/CN109271435B/zh
Publication of CN109271435A publication Critical patent/CN109271435A/zh
Application granted granted Critical
Publication of CN109271435B publication Critical patent/CN109271435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于互联网信息处理技术领域,公开了一种支持断点续传的数据抽取方法及***,数据抽取***包括配置数据库模块、设置模块、抽取数据模块、记录和保存模块;数据抽取方法首先根据抽取的数据来源信息配置抽取数据库,选择增量字段;然后设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数,抽取数据;随后记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数,服务器故障后再次抽取从之前已完成的下一页开始抽取。本发明的数据抽取方法可避免服务器负载过大,确保服务器的稳定性,不会重复抽取已完成的数据,提高了数据抽取的效率。

Description

一种支持断点续传的数据抽取方法及***
技术领域
本发明属于互联网信息处理技术领域,涉及一种支持断点续传的数据抽取方法及***。
背景技术
目前,业内常用的现有技术是这样的:
近年来,随着互联网的不断发展,人类生产生活方式的日新月异,积累了大量的业务数据。需要对大量数据进行分析、挖掘提取成有用的知识形成报表、图表,从而诞生了BI。而ETL(Extract-Transform-Load)则是BI项目形成数据仓库最重要的一个环节。
常用的ETL工具诸如Datastage、Powercenter、Automatic、Kettle、NIFI等都有自己的工具或者处理器进行数据抽取转换加载。而数据抽取过程中,需要保证大数据量下数据的完整性、准确性、一致性的同时,支持服务器故障等灾难发生数据只需继续抽取,而不是重新抽取,并且需要保证数据抽取的效率。
综上所述,现有技术存在的问题是:
服务器故障后,数据需要重新抽取,使得抽取效率低,浪费时间。
现有技术中,没有根据分析数据设置批次导入数据的起始值、间隔值、每次调度最多抽取记录数、查询数据库分页数等信息,导致不能实现数据的分批次分页抽取、抽取效率低;
不能在某次调度出现服务器故障、***内存溢出、集群节点异常等不可预见问题时待服务器重新恢复正常时进行断点续传。
解决上述技术问题的难度和意义:
上述问题需要一个较完整的解决方案,对源数据进行分析以及较完整的监控日志记录,方面流程跟踪以及历史数据统计分析。
难度在于分析源数据的维度定义,抽取规则定义以及流程调度信息的监控日志记录管理;在于要有较高的抽取和装载性能,对业务***的影响不能太大,倾入性不能太强;在于服务器发生故障后下次恢复启动需要对未抽取完成的数据进行断点续传。
发明内容
针对现有技术存在的问题,本发明提供了一种支持断点续传的数据抽取方法及***,支持在服务器故障、***内存溢出、集群节点异常等不可预见问题时保留原来抽取进度,实现断点续传。
本发明旨在基于开源ETL工具-NIFI进行二次开发,原生处理器支持配置数据源信息,配置物理表信息,配置增量抽取字段,并将截止当前时间该字段的数据最大值保存到处理器状态中。
本发明提供设置每次抽取最大记录数、每次调度分页抽取记录数、开始时间、间隔时间,并记录整个流程抽取总共抽取记录数、上次执行抽取记录数、调度次数,当前调度抽取完成记录数、已完成分页数、总分页数等信息,以供实现断点续传功能。
本发明是这样实现的,一种支持断点续传的数据抽取方法为:
限定数据分批次抽取范围、每次调度抽取最多记录数;范围内记录数大于设置的最大值,对间隔时间进行等分取前者,以此类推直到满足抽取的范围数据数量小于或者等于设置的最大记录数;
记录每次分页抽取的抽取时间截止点、已完成分页数、总分页数状态信息;当出现服务器故障、***内存溢出、集群节点异常不可预见问题时,保留原来抽取进度,下次调度时继续抽取未完成的分页数。
具体包括:
步骤1:根据抽取的数据来源信息,选择有建立索引且内容不为空的时间类型的字段作为增量字段。处理器的“Maximum-value Columns”属性配置成数据库的字段,处理器执行时会根据配置的字段组装SQL的WHERE从句条件,如“TIME>’2018-01-01 00:00:00’”。第一次调度根据开始时间初值再加上时间间隔,明确这次抽取只抽取该时间段内的数据,并在抽取完成后保存已完成的时间截止值。之后每次调度将上次的截止值作为初值,该次调度抽取的数据截止值为上次截止值加上时间间隔。确保了每次只抽取一批次的数据,避免数据量太大内存消耗过大而抛出OOM异常,影响整体服务器稳定性。
步骤2:根据实际应用场景,数据抽取通常会避免***使用高峰期。抽取的源数据库,可能既用于实际生产环境使用,白天高并发访问。为了不影响正常时间的用户访问,所以抽取数据只能在晚上进行。本发明通过任务调度控制任务执行的时间,通过控制任务最多抽取记录数控制每次任务最多抽取的量,避免服务器负载过大并且适应实际可供抽取数据的有限时间。
步骤3:根据设置的每次抽取最大记录数、每次调度分页抽取记录数实现对数据库记录的分页查询。最大记录数指一次调度最多查询的记录数,分页抽取记录数则为每次请求数据库查询的记录数。在首次查询后记录当前调度抽取完成记录数、已完成分页数、总分页数以及之后每次查询记录当前调度抽取完成记录数、已完成分页数。每一次调度中的每次数据库查询成功都会将查询信息记录下来,以供流程监控及错误数据排查。假设在此过程中服务器发生故障,导致只抽取完成了部分分页数,待下次服务器重新恢复正常,流程将读取之前抽取的状态信息,继续执行此次任务。
本发明的另一目的在于提供一种支持断点续传的数据抽取计算机程序,所述支持断点续传的数据抽取计算机程序实现所述的持断点续传的数据抽取方法。
本发明的另一目的在于提供一种终端,所述终端至少搭载实现所述支持断点续传的数据抽取方法的控制器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的支持断点续传的数据抽取方法。
本发明的另一目的在于提供一种支持断点续传的数据抽取***,包括配置数据库模块、设置模块、抽取数据模块、记录和保存模块;
所述配置数据库模块用于配置抽取数据库;
所述设置模块用于设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数;
所述抽取数据模块用于数据的抽取;
所述记录和保存模块用于记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数。
本发明的另一目的在于提供一种互联网数据抽取平台,所述互联网数据抽取平台至少搭载所述的支持断点续传的数据抽取***。
综上所述,本发明的优点及积极效果为:
本发明每次调度抽取都只抽取一定时间段内的数据,确保了每次只抽取一批次的数据,避免了数据量太大内存消耗过大导致的服务器异常,确保了服务器的稳定性。
现有原生NIFI处理器并不支持对数据进行时间段内的配置。根据选择增量字段,第一次调度全量抽取数据,记录最大值,然后之后数据库新的记录才会做增量。这样很容易造成内存溢出,集群节点挂起,服务器宕机。
本发明可以根据实际应用场景,避免在***使用高峰期抽取数据,不影响正常时间的用户访问,抽取数据只在晚上进行,通过任务调度控制任务执行的时间,通过控制任务最多抽取记录数控制每次任务最多抽取的量,避免服务器负载过大并且适应实际可供抽取数据的有限时间。
现有原生NIFI处理器并不支持对数据进行每次最多抽取记录数,每次任务最多抽取量的配置。只能控制调度时间,多久调度一次,不能控制调度最多抽取的记录数。这种控制方式一旦数据分布不均匀,会出现有时处理的数据量很大,晚上未完成所有执行任务,影响到白天生产环境上的用户访问。
本发明每一次调度中的每次数据库查询成功都会将查询信息记录下来,以供流程监控及错误数据排查。服务器发生故障后再次抽取时,待下次服务器重启流程将读取之前抽取的状态信息,继续执行此次任务,提高了数据抽取的效率。
现有原生NIFI处理器并未记录流程抽取信息,只记录了增量数据的状态。一旦发生数据抽取过程中服务器宕机,下次只能继续抽取。无法知道哪些数据是抽取成功的,这样就不能实现数据的断点续传,而是重新上传数据。
本发明根据分析数据设置批次导入数据的起始值、间隔值、每次调度最多抽取记录数、查询数据库分页数等信息,实现了数据的分批次分页抽取。在保证数据准确性的同时,提升抽取效率,同时在某次调度出现服务器故障、***内存溢出、集群节点异常等不可预见问题时待服务器重新恢复正常时可以进行断点续传。
附图说明
图1是本发明实施例提供的支持断点续传的数据抽取方法流程图。
图2是本发明实施例提供的支持断点续传的数据抽取***示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明限定了数据分批次抽取范围、每次调度抽取最多记录数,如果范围内记录数大于设置的最大值,则需要对间隔时间进行等分取前者,以此类推知道满足抽取的范围数据数量小于或者等于设置的最大记录数。
记录了每次分页抽取的状态信息即抽取时间截止点、已完成分页数、总分页数,当出现服务器故障、***内存溢出、集群节点异常等不可预见问题时保留原来抽取进度,下次调度时继续抽取未完成的分页数。
如图1所示,本发明实施例提供的支持断点续传的数据抽取方法,包括:
S101:根据抽取的数据来源信息配置抽取数据库,选择增量字段;
S102:设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数,抽取数据;
S103:记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数,服务器故障后再次抽取从之前已完成的下一页开始抽取。
所述增量字段为有建立索引且内容不为空的时间类型的字段;
所述抽取数据第一次调度只抽取开始时间初值加上时间间隔的时间段内的数据,保存已完成的抽取时间截至值,之后每次调度将上次截至值作为初值,当次抽取的数据截至值为上次截至值加上时间间隔;
最大记录数为一次调度最多查询的记录数,分页抽取记录数为每次请求数据库查询的记录数。
如图2所示,本发明还提供一种支持断点续传的数据抽取***,包括配置数据库模1块、设置模块2、抽取数据模块3、记录和保存模块4;
所述配置数据库模块1用于配置抽取数据库;
所述设置模块2用于设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数;
所述抽取数据模块3用于数据的抽取;
所述记录和保存模块4用于记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数。
下面结合实施例对本发明做进一步详细说明。
本发明实施例提供的支持断点续传的数据抽取方法,包括以下几个步骤:
步骤1:根据抽取的数据来源信息配置抽取数据库中“traffic_police”.”v_rel_driver_license”,选择有建立索引且内容不为空的时间类型的“JL_RKSJ”字段作为增量字段,提升条件查询数据效率。开始时间设置为“2017-08-01 00:00:00”,间隔时间25920000000(ms)即30天。第一次调度则会抽取“JL_RKSJ”在2017年8月1号到2017年8月30号间的数据,并在抽取完成后保存key为“traffic_police”.”v_rel_driver_license”@!@jl_rksj值为“2017-08-30 00:00:00”的状态信息、。之后调度将“2017-08-30 00:00:00”作为开始值,该次调度抽取的数据截止值为顺延30天后的值。
步骤2:根据实际应用场景,数据抽取通常会避免***使用高峰期。通过设置任务调度最多抽取300w数据,10w条分页,从数据库中分页查询。如果某次调度抽取范围内的数据量太大,超出预先设定的300w数据,则会一直拆分间隔时间为1/2间隔时间,直到抽取的数据量小于或者等于任务调度最多抽取记录数。
步骤3:记录流程的调度次数(flow_schedule_times)、流程的总抽取记录数(flow_total_record)、流程上次抽取记录数(flow_last_record)、当前调度抽取完成记录数(task_curr_record)、已完成分页数(task_finish_page_no)、总分页数(task_total_page_no)。集群环境下,该状态信息保存在zookeeper的节点上,节点之间的数据进行同步。在此过程中如果服务器发生故障,导致只抽取完成了x页,待下次服务器重新恢复正常,流程将读取之前抽取的状态信息,继续抽取x+1页及之后页码的数据。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种支持断点续传的数据抽取方法,其特征在于,所述支持断点续传的数据抽取方法包括:
限定数据分批次抽取范围、每次调度抽取最多记录数;
范围内记录数大于设置的最大值,对间隔时间进行等分取前者,以此类推直到满足抽取的范围数据数量小于或者等于设置的最大记录数;
记录每次分页抽取的抽取时间截止点、已完成分页数、总分页数状态信息;当出现服务器故障、***内存溢出、集群节点异常不可预见问题时,保留原来抽取进度,下次调度时继续抽取未完成的分页数。
2.如权利要求1所述的支持断点续传的数据抽取方法,其特征在于,所述支持断点续传的数据抽取方法具体包括:
步骤一,根据抽取的数据来源信息配置抽取数据库,选择增量字段;
步骤二,设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数,抽取数据;
步骤三,记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数,服务器故障后再次抽取从之前已完成的下一页开始抽取。
3.如权利要求1所述的支持断点续传的数据抽取方法,其特征在于,
步骤一,具体包括:根据抽取的数据来源信息,选择有建立索引且内容不为空的时间类型的字段作为增量字段;处理器的“Maximum-value Columns”属性配置成数据库的字段,处理器执行时根据配置的字段组装SQL的WHERE从句条件;第一次调度根据开始时间初值再加上时间间隔,这次抽取只抽取该时间段内的数据,并在抽取完成后保存已完成的时间截止值;
每次调度将上次的截止值作为初值,当前次数调度抽取的数据截止值为上次截止值加上时间间隔;每次只抽取一批次的数据。
4.如权利要求1所述的支持断点续传的数据抽取方法,其特征在于,
步骤二具体包括:根据实际应用场景,抽取数据在晚上进行;通过控任务调度控制任务执行的时间,通过控制任务最多抽取记录数控制每次任务最多抽取的量。
5.如权利要求1所述的支持断点续传的数据抽取方法,其特征在于,
步骤三具体包括:根据设置的每次抽取最大记录数、每次调度分页抽取记录数实现对数据库记录的分页查询;在首次查询后记录当前调度抽取完成记录数、已完成分页数、总分页数以及之后每次查询记录当前调度抽取完成记录数、已完成分页数;
每一次调度中的每次数据库查询成功均将查询信息记录,用于流程监控及错误数据排查;过程中服务器发生故障时,读取之前抽取的状态信息,继续执行此次任务。
6.一种支持断点续传的数据抽取计算机程序,其特征在于,所述支持断点续传的数据抽取计算机程序实现权利要求1~5任意一项所述的持断点续传的数据抽取方法。
7.一种终端,其特征在于,所述终端至少搭载实现权利要求1~5任意一项所述支持断点续传的数据抽取方法的控制器。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的支持断点续传的数据抽取方法。
9.一种实现权利要求1所述支持断点续传的数据抽取方法的支持断点续传的数据抽取***,其特征在于,所述支持断点续传的数据抽取***包括:
配置数据库模块,用于配置抽取数据库;
设置模块,用于设置开始时间、间隔时间、每次抽取最大记录数、每次调度分页抽取记录数;
抽取数据模块,用于数据的抽取;
记录和保存模块,用于记录并保存流程调度次数、流程总抽取记录数、流程上次抽取记录数、当前调度抽取完成记录数、已完成分页数、总分页数。
10.一种互联网数据抽取平台,其特征在于,所述互联网数据抽取平台至少搭载权利要求9所述的支持断点续传的数据抽取***。
CN201811076270.5A 2018-09-14 2018-09-14 一种支持断点续传的数据抽取方法及*** Active CN109271435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811076270.5A CN109271435B (zh) 2018-09-14 2018-09-14 一种支持断点续传的数据抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811076270.5A CN109271435B (zh) 2018-09-14 2018-09-14 一种支持断点续传的数据抽取方法及***

Publications (2)

Publication Number Publication Date
CN109271435A true CN109271435A (zh) 2019-01-25
CN109271435B CN109271435B (zh) 2022-03-04

Family

ID=65189223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811076270.5A Active CN109271435B (zh) 2018-09-14 2018-09-14 一种支持断点续传的数据抽取方法及***

Country Status (1)

Country Link
CN (1) CN109271435B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046189A (zh) * 2019-03-28 2019-07-23 阿里巴巴集团控股有限公司 数据传输方法及其装置
CN110297860A (zh) * 2019-06-18 2019-10-01 杭州数梦工场科技有限公司 数据交换方法、装置及相关设备
CN110928863A (zh) * 2019-11-20 2020-03-27 无锡识凌科技有限公司 一种应用于数据清洗工具的任务断点续传的方法
CN111241171A (zh) * 2019-10-28 2020-06-05 杭州美创科技有限公司 数据库全量数据抽取方法
CN111813845A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 基于etl任务的增量数据抽取方法、装置、设备及介质
CN112685768A (zh) * 2020-12-25 2021-04-20 北京明朝万达科技股份有限公司 一种基于软件资产审计的数据防泄漏方法及装置
CN112860776A (zh) * 2021-01-20 2021-05-28 山东众阳健康科技集团有限公司 一种多种数据抽取调度方法及***
CN113094415A (zh) * 2019-12-23 2021-07-09 北京懿医云科技有限公司 数据抽取方法、装置、计算机可读介质及电子设备
CN113688159A (zh) * 2021-09-08 2021-11-23 京东科技控股股份有限公司 一种数据抽取方法与装置
US11841871B2 (en) 2021-06-29 2023-12-12 International Business Machines Corporation Managing extract, transform and load systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299216B1 (en) * 2002-10-08 2007-11-20 Taiwan Semiconductor Manufacturing Company, Ltd. Method and apparatus for supervising extraction/transformation/loading processes within a database system
CN102521225A (zh) * 2011-09-29 2012-06-27 用友软件股份有限公司 增量数据抽取装置和增量数据抽取方法
CN102915336A (zh) * 2012-09-18 2013-02-06 北京金和软件股份有限公司 一种基于时间戳和日志的增量数据捕获和抽取方法
CN103034554A (zh) * 2012-12-30 2013-04-10 焦点科技股份有限公司 一种纠错重启以及自动判断启动的etl调度***及方法
CN106250444A (zh) * 2016-07-27 2016-12-21 北京集奥聚合科技有限公司 一种异构数据源的实时入库***及方法
CN108121728A (zh) * 2016-11-29 2018-06-05 北京京东尚科信息技术有限公司 从数据库抽取数据的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299216B1 (en) * 2002-10-08 2007-11-20 Taiwan Semiconductor Manufacturing Company, Ltd. Method and apparatus for supervising extraction/transformation/loading processes within a database system
CN102521225A (zh) * 2011-09-29 2012-06-27 用友软件股份有限公司 增量数据抽取装置和增量数据抽取方法
CN102915336A (zh) * 2012-09-18 2013-02-06 北京金和软件股份有限公司 一种基于时间戳和日志的增量数据捕获和抽取方法
CN103034554A (zh) * 2012-12-30 2013-04-10 焦点科技股份有限公司 一种纠错重启以及自动判断启动的etl调度***及方法
CN106250444A (zh) * 2016-07-27 2016-12-21 北京集奥聚合科技有限公司 一种异构数据源的实时入库***及方法
CN108121728A (zh) * 2016-11-29 2018-06-05 北京京东尚科信息技术有限公司 从数据库抽取数据的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯志贞: "远程数据库多线程断点续传研究与实现", 《中国优秀硕士学位论文全文数据库》 *
刘荣辉: "《大数据架构技术与实例分析》", 31 January 2018, 东北师范大学出版社 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046189A (zh) * 2019-03-28 2019-07-23 阿里巴巴集团控股有限公司 数据传输方法及其装置
CN110297860B (zh) * 2019-06-18 2024-01-26 杭州数梦工场科技有限公司 数据交换方法、装置及相关设备
CN110297860A (zh) * 2019-06-18 2019-10-01 杭州数梦工场科技有限公司 数据交换方法、装置及相关设备
CN111241171A (zh) * 2019-10-28 2020-06-05 杭州美创科技有限公司 数据库全量数据抽取方法
CN110928863A (zh) * 2019-11-20 2020-03-27 无锡识凌科技有限公司 一种应用于数据清洗工具的任务断点续传的方法
CN113094415A (zh) * 2019-12-23 2021-07-09 北京懿医云科技有限公司 数据抽取方法、装置、计算机可读介质及电子设备
CN113094415B (zh) * 2019-12-23 2024-03-29 北京懿医云科技有限公司 数据抽取方法、装置、计算机可读介质及电子设备
CN111813845A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 基于etl任务的增量数据抽取方法、装置、设备及介质
CN112685768A (zh) * 2020-12-25 2021-04-20 北京明朝万达科技股份有限公司 一种基于软件资产审计的数据防泄漏方法及装置
CN112860776A (zh) * 2021-01-20 2021-05-28 山东众阳健康科技集团有限公司 一种多种数据抽取调度方法及***
CN112860776B (zh) * 2021-01-20 2022-12-06 众阳健康科技集团有限公司 一种多种数据抽取调度方法及***
US11841871B2 (en) 2021-06-29 2023-12-12 International Business Machines Corporation Managing extract, transform and load systems
CN113688159A (zh) * 2021-09-08 2021-11-23 京东科技控股股份有限公司 一种数据抽取方法与装置
CN113688159B (zh) * 2021-09-08 2024-04-05 京东科技控股股份有限公司 一种数据抽取方法与装置

Also Published As

Publication number Publication date
CN109271435B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN109271435A (zh) 一种支持断点续传的数据抽取方法及***
US10459915B2 (en) Managing queries
US11132383B2 (en) Techniques for processing database tables using indexes
CN109885642B (zh) 面向全文检索的分级存储方法及装置
TWI738721B (zh) 任務調度方法和裝置
CN105279261B (zh) 动态可扩展数据库归档方法和***
CN105069134A (zh) 一种Oracle统计信息自动收集方法
US20150280981A1 (en) Apparatus and system for configuration management
US20210081358A1 (en) Background dataset maintenance
CN111506559A (zh) 数据存储方法、装置、电子设备及存储介质
WO2019109854A1 (zh) 分布式数据库数据处理方法、装置、存储介质及电子装置
US10241828B2 (en) Method and system for scheduling transactions in a data system
CN110807145A (zh) 查询引擎获取方法、设备和计算机可读存储介质
CN111190892A (zh) 一种数据回填中处理异常数据的方法和装置
CN115291806A (zh) 一种处理方法、装置、电子设备及存储介质
CN111984723A (zh) 数据同步方法、装置及终端设备
US10803030B2 (en) Asynchronous SQL execution tool for zero downtime and migration to HANA
CN108733484B (zh) 管理应用程序的方法与装置
CN113760950A (zh) 指标数据查询方法、装置、电子设备以及存储介质
CN112231292A (zh) 文件处理方法、装置、存储介质及计算机设备
US11663216B2 (en) Delta database data provisioning
CN113553320B (zh) 数据质量监控方法及装置
US20230010652A1 (en) Systems and methods for automatic index creation in database deployment
US20230004322A1 (en) Managing provenance information for data processing pipelines
CN117472907A (zh) 多集群索引的管理方法、***、装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant