CN110928863A - 一种应用于数据清洗工具的任务断点续传的方法 - Google Patents

一种应用于数据清洗工具的任务断点续传的方法 Download PDF

Info

Publication number
CN110928863A
CN110928863A CN201911141715.8A CN201911141715A CN110928863A CN 110928863 A CN110928863 A CN 110928863A CN 201911141715 A CN201911141715 A CN 201911141715A CN 110928863 A CN110928863 A CN 110928863A
Authority
CN
China
Prior art keywords
data
breakpoint
task
source
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911141715.8A
Other languages
English (en)
Inventor
纪峥嵘
刘军
叶庆楚
陈博文
吴永佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Shiling Technology Co ltd
Original Assignee
Wuxi Shiling Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Shiling Technology Co ltd filed Critical Wuxi Shiling Technology Co ltd
Priority to CN201911141715.8A priority Critical patent/CN110928863A/zh
Publication of CN110928863A publication Critical patent/CN110928863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种应用于数据清洗工具的任务断点续传的方法,包括如下步骤:(1)抽取目标源数据,将源数据断点拆分成数据源组块;(2)在处理任务中发生异常问题后,需要重启任务时,根据源数据断点分组标记表进行查询,定位到状态为未处理的最近标记断点;(3)根据未处理断点标记的分组号,获取对应的数据源组块,按顺序执行未处理的数据源组块,继续完成清洗任务;(4)当源数据断点分组标记表中所有数组都为已处理状态,则任务执行完成。本发明通过对源业务数据的断点拆分,分组并标记方式,将清洗数据分段处理,在发生异常中断清洗任务后,仍可以通过断点比对后,从异常中断的点继续完成剩余的任务。

Description

一种应用于数据清洗工具的任务断点续传的方法
技术领域
本发明涉及数据处理技术领域,尤其涉及了一种应用于数据清洗工具的任务断点续传的方法。
背景技术
目前,随着医疗信息化的发展,医院信息集成平台的建设已经广泛开展,其包含的ETL数据清洗工具主要用于打造全院的数据中心,实现独立的数据仓库。ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程,是BI/DW (商务智能/数据仓库)的核心和灵魂,是构建数据中心的重要一环。用户从数据源抽取出所需的数据,经过数据转换,最终按照预先定义好的数据中心模型,将数据加载到数据中心中去。通过ETL将医疗业务***HIS、LIS、PACS、EMR等***的业务数据抽取到数据中心的业务数据层,数据中心业务数据层的源数据通过数据清洗,数据标准化转换后抽取到数据中心标准层,数据中心标准层数据通过数据的进一步整合将数据进一步抽取转化加载到数据仓库、临床知识库、指标库等数据应用层。但是,ETL任务执行过程中,可能会出现因后台程序的异常,网络不稳定,服务器断电等等外部原因,而导致任务中断的现象。因此,快速、及时的业务数据清洗对医疗数据的管理十分重要。
发明内容
本发明针对现有技术中业务数据清洗速度慢、运行过程不稳定的缺点,提供了一种应用于数据清洗工具的任务断点续传的方法。
为了解决上述技术问题,本发明通过下述技术方案得以解决。
一种应用于数据清洗工具的任务断点续传的方法,包括如下步骤:
(1)抽取目标源数据,将源数据断点拆分成数据源组块,并按顺序进行分组形成集合数组并标记分组号,生成源数据断点分组标记表,同时标记每个数组均为未处理状态,在处理任务后标记为已处理状态;
(2)在处理任务中发生异常问题后,需要重启任务时,根据源数据断点分组标记表进行查询,定位到状态为未处理的最近标记断点;
(3)根据未处理断点标记的分组号,获取对应的数据源组块,按顺序执行未处理的数据源组块,继续完成清洗任务;
(4)当源数据断点分组标记表中所有数组都为已处理状态,则任务执行完成。
作为优选,步骤(1)中,按顺序进行分组形成集合数组并标记分组号的过程包括:将数据内存划分为多个临时存储表,将所有临时存储表形成一个集合数组,并对集合数组按顺序进行生成分组号,将集合数组的标记的关系放入源数据断点分组标记表中。
作为优选,步骤(3)完成后,将完成的数据源组块标记为已处理状态。
作为优选,步骤(3)中,清洗任务的实施过程包括清洗、转换、载入目标库表。
作为优选,还包括步骤(5),任务全部执行完成后,删除源数据断点分组标记表中该任务的断点标记信息。
本发明由于采用了以上技术方案,具有显著的技术效果:本发明通过对源业务数据的断点拆分,分组并标记方式,将清洗数据分段处理,将原来不可控的清洗过程,进行细化管理,在发生异常中断清洗任务后,仍可以通过断点比对后,从异常中断的点继续完成剩余的任务。该方案避免了任务异常导致本次任务的工作全部作废的情况,节省了服务器的计算资源和计算时间。本发明设计在ETL数据清洗的服务中增加了对因外部原因导致异常中断的清洗任务,在排除异常后,任务再次执行时,能够从上次任务中断的点继续运行,完成该任务的剩余部分。该设计模式可以使得用户操作更加人性化,有效避免再次重复执行,用户可以节省时间,提高速度。
附图说明
图1是本发明一种应用于数据清洗工具的任务断点续传的方法的流程示意图。
图2为患者入院登记信息成断点拆分示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步详细描述。
如图1所示,一种应用于数据清洗工具的任务断点续传的方法,包括如下步骤:
(1)抽取目标源数据,将源数据断点拆分成数据源组块,并按顺序进行分组形成集合数组并标记分组号,生成源数据断点分组标记表,同时标记每个数组均为未处理状态,在处理任务后标记为已处理状态;
(2)在处理任务中发生异常问题后,需要重启任务时,根据源数据断点分组标记表进行查询,定位到状态为未处理的最近标记断点;
(3)根据未处理断点标记的分组号,获取对应的数据源组块,按顺序执行未处理的数据源组块,继续完成清洗任务;
(4)当源数据断点分组标记表中所有数组都为已处理状态,则任务执行完成。
作为优选,步骤(1)中,按顺序进行分组形成集合数组并标记分组号的过程包括:将数据内存划分为多个临时存储表,将所有临时存储表形成一个集合数组,并对集合数组按顺序进行生成分组号,将集合数组的标记的关系放入源数据断点分组标记表中。
作为优选,步骤(3)完成后,将完成的数据源组块标记为已处理状态。
作为优选,步骤(3)中,清洗任务的实施过程包括清洗、转换、载入目标库表。
作为优选,还包括步骤(5),任务全部执行完成后,删除源数据断点分组标记表中该任务的断点标记信息。
本发明由于采用了以上技术方案,具有显著的技术效果:本发明通过对源业务数据的断点拆分,分组并标记方式,将清洗数据分段处理,将原来不可控的清洗过程,进行细化管理,在发生异常中断清洗任务后,仍可以通过断点比对后,从异常中断的点继续完成剩余的任务。该方案避免了任务异常导致本次任务的工作全部作废的情况,节省了服务器的计算资源和计算时间。本发明设计在ETL数据清洗的服务中增加了对因外部原因导致异常中断的清洗任务,在排除异常后,任务再次执行时,能够从上次任务中断的点继续运行,完成该任务的剩余部分。该设计模式可以使得用户操作更加人性化,有效避免再次重复执行,用户可以节省时间,提高速度。
实施例1
步骤1:抽取第三方业务源数据,将源数据断点拆分,分组并标记;
步骤2:查询比对“源数据断点分组标记存储表”如无数据则***断点标记,如有数据则找出未处理断点标记的分组号;
步骤3:根据未处理断点标记的分组号,获取对应的数据源组块,顺序执行未处理的数据源组块,清洗、转换、载入目标库表;
步骤4:每完成一组源数据组块的清洗,则将标记存储表中的断点标记状态变更为已处理,直至任务全部执行完成后,删除“源数据断点分组标记存储表”中该任务的断点标记信息。
以患者入院登记信息任务清洗1万条记录为例,如下图2:
步骤5:抽取患者入院登记信息并完成断点拆分,分组并标记:
步骤6:将1万条记录拆分为10个临时表(断点)存储,每个临时表为1000 条数据,并完成对应组号标记,将对应关系存入“源数据断点分组标记”关系表,如下:
序号 任务名称 断点(组)号 处理状态
1 入院登记信息 1 已处理
2 入院登记信息 2 已处理
3 入院登记信息 3 已处理
4 入院登记信息 4 已处理
5 入院登记信息 5 已处理
6 入院登记信息 6 已处理
7 入院登记信息 7 未处理
8 入院登记信息 8 未处理
9 入院登记信息 9 未处理
10 入院登记信息 10 未处理
表1
步骤7:在异常修复重新执行任务后,服务内部将查询“源数据断点分组标记”关系表,迅速定位到未处理的断点7的位置,同时比对内存中的临时表组,跳过前6组找到对应的7号源数据临时表,继续顺序完成剩余部分的清洗任务。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (5)

1.一种应用于数据清洗工具的任务断点续传的方法,其特征在于,包括如下步骤:
(1)抽取目标源数据,将源数据断点拆分成数据源组块,并按顺序进行分组形成集合数组并标记分组号,生成源数据断点分组标记表,同时标记每个数组均为未处理状态,在处理任务后标记为已处理状态;
(2)在处理任务中发生异常问题后,需要重启任务时,根据源数据断点分组标记表进行查询,定位到状态为未处理的最近标记断点;
(3)根据未处理断点标记的分组号,获取对应的数据源组块,按顺序执行未处理的数据源组块,继续完成清洗任务;
(4)当源数据断点分组标记表中所有数组都为已处理状态,则任务执行完成。
2.根据权利要求1所述的一种应用于数据清洗工具的任务断点续传的方法,其特征在于:步骤(1)中,按顺序进行分组形成集合数组并标记分组号的过程包括:将数据内存划分为多个临时存储表,将所有临时存储表形成一个集合数组,并对集合数组按顺序进行生成分组号,将集合数组的标记的关系放入源数据断点分组标记表中。
3.根据权利要求1所述的一种应用于数据清洗工具的任务断点续传的方法,其特征在于:步骤(3)完成后,将完成的数据源组块标记为已处理状态。
4.根据权利要求1所述的一种应用于数据清洗工具的任务断点续传的方法,其特征在于:步骤(3)中,清洗任务的实施过程包括清洗、转换、载入目标库表。
5.根据权利要求1所述的一种应用于数据清洗工具的任务断点续传的方法,其特征在于:还包括步骤(5),任务全部执行完成后,删除源数据断点分组标记表中该任务的断点标记信息。
CN201911141715.8A 2019-11-20 2019-11-20 一种应用于数据清洗工具的任务断点续传的方法 Pending CN110928863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911141715.8A CN110928863A (zh) 2019-11-20 2019-11-20 一种应用于数据清洗工具的任务断点续传的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911141715.8A CN110928863A (zh) 2019-11-20 2019-11-20 一种应用于数据清洗工具的任务断点续传的方法

Publications (1)

Publication Number Publication Date
CN110928863A true CN110928863A (zh) 2020-03-27

Family

ID=69851314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911141715.8A Pending CN110928863A (zh) 2019-11-20 2019-11-20 一种应用于数据清洗工具的任务断点续传的方法

Country Status (1)

Country Link
CN (1) CN110928863A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231403A (zh) * 2020-10-15 2021-01-15 北京人大金仓信息技术股份有限公司 数据同步的一致性校验方法、装置、设备和存储介质
CN113641694A (zh) * 2021-07-16 2021-11-12 南京国电南自维美德自动化有限公司 数据库的海量历史数据备份方法和恢复方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187564A (zh) * 2015-10-14 2015-12-23 中科宇图天下科技有限公司 一种手机端文件断点续传的方法
CN107426270A (zh) * 2017-03-21 2017-12-01 北京智行鸿远汽车有限公司 一种车辆远程监控终端的数据断点续传方法
CN109271435A (zh) * 2018-09-14 2019-01-25 南威软件股份有限公司 一种支持断点续传的数据抽取方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187564A (zh) * 2015-10-14 2015-12-23 中科宇图天下科技有限公司 一种手机端文件断点续传的方法
CN107426270A (zh) * 2017-03-21 2017-12-01 北京智行鸿远汽车有限公司 一种车辆远程监控终端的数据断点续传方法
CN109271435A (zh) * 2018-09-14 2019-01-25 南威软件股份有限公司 一种支持断点续传的数据抽取方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231403A (zh) * 2020-10-15 2021-01-15 北京人大金仓信息技术股份有限公司 数据同步的一致性校验方法、装置、设备和存储介质
CN112231403B (zh) * 2020-10-15 2024-01-30 北京人大金仓信息技术股份有限公司 数据同步的一致性校验方法、装置、设备和存储介质
CN113641694A (zh) * 2021-07-16 2021-11-12 南京国电南自维美德自动化有限公司 数据库的海量历史数据备份方法和恢复方法
CN113641694B (zh) * 2021-07-16 2023-12-22 南京国电南自维美德自动化有限公司 数据库的海量历史数据备份方法和恢复方法

Similar Documents

Publication Publication Date Title
WO2018180970A1 (ja) 情報処理システム、特徴量説明方法および特徴量説明プログラム
CN111459985B (zh) 标识信息处理方法及装置
CN105589838B (zh) 一种基于文件比较的电子公文痕迹保留方法
US7707230B1 (en) Methods and structure for use of an auxiliary database for importation of data into a target database
CN105550225A (zh) 索引构建方法、查询方法及装置
CN110781231A (zh) 基于数据库的批量导入方法、装置、设备及存储介质
CN110928863A (zh) 一种应用于数据清洗工具的任务断点续传的方法
CN107545015B (zh) 一种查询故障的处理方法及处理装置
CN105224527B (zh) 适用于多种目的表更新方式的通用etl方法
US11221986B2 (en) Data management method and data analysis system
CN104239580B (zh) 基于值‑列映射的通用单字段拆分数据抽取方法和装置
US20150026115A1 (en) Creation of change-based data integration jobs
CN116244333A (zh) 一种基于代价因子校准的数据库查询性能预测方法及***
CN106557881B (zh) 一种基于业务活动执行顺序的业务流程***构建方法
CN104731641A (zh) 用于复制计算***的批量作业的方法与***
CN104781814A (zh) 从单个表到多个表的引用数据分割
US20160042097A1 (en) System and method for concurrent multi-user analysis of design models
WO2018180971A1 (ja) 情報処理システム、特徴量説明方法および特徴量説明プログラム
CN111782619A (zh) 一种服务端间文档增量同步方法、同步装置及存储介质
CN104536897A (zh) 基于关键字的自动测试方法及***
CN108427675A (zh) 构建索引的方法及设备
CN115063101A (zh) 基于案例库的结构数据生成方法、***、装置及存储介质
CN109635032B (zh) 一种数据转换的方法及终端
CN113791594A (zh) 一种分散控制***的组态创建方法、***、设备及介质
CN108228226B (zh) 硬链接的差分方法、装置及相应终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination