CN104794124A - 一种数据缺失补漏的智能实现方法及*** - Google Patents

一种数据缺失补漏的智能实现方法及*** Download PDF

Info

Publication number
CN104794124A
CN104794124A CN201410025136.8A CN201410025136A CN104794124A CN 104794124 A CN104794124 A CN 104794124A CN 201410025136 A CN201410025136 A CN 201410025136A CN 104794124 A CN104794124 A CN 104794124A
Authority
CN
China
Prior art keywords
task
daily record
interface
interface document
ftp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410025136.8A
Other languages
English (en)
Inventor
舒海
朱晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Chongqing Co Ltd
Original Assignee
China Mobile Group Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Chongqing Co Ltd filed Critical China Mobile Group Chongqing Co Ltd
Priority to CN201410025136.8A priority Critical patent/CN104794124A/zh
Publication of CN104794124A publication Critical patent/CN104794124A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据缺失补漏的智能实现方法,所述方法包括:扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件;将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志状态;确定匹配失败时,跳过当前任务。本发明还同时公开了一种数据缺失补漏的智能实现***。

Description

一种数据缺失补漏的智能实现方法及***
技术领域
本发明涉及数据业务接口技术,尤其涉及一种数据缺失补漏的智能实现方法与***。 
背景技术
数据提取、转换和加载(Extraction-Transformation-Loading,ETL)是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程,是构建数据仓库的重要环节。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 
数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面,数据仓库中的数据不要求与联机事务处理***中的数据实时同步,所以,ETL可以定时进行。 
传统ETL根据接口传输的特性采用定时驱动的方式进行链式运算,例如每天晚上八点运算接口A;当接口数据缺失时,调度将无法正常进行,且接口数据延迟或缺失数天后到达时也不能智能进行后续工作,后续补漏工作需要人工进行干预。通常,需要维护人员手动进行数据补漏操作,或者调整ETL某些配置/状态/开关,使之开始运算缺失的接口数据,给ETL维护人员带来了麻烦,也给相关***带来了麻烦。 
发明内容
有鉴于此,本发明实施例期望提供一种数据缺失补漏的智能实现方法与***,能够在无用户干预的情况下,智能完成所有数据的缺失补漏操作。 
为达到上述目的,本发明的技术方案是这样实现的: 
本发明实施例提供了一种数据缺失补漏的智能实现方法,所述方法包括: 
扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件; 
将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志中任务状态;确定匹配失败时,跳过当前任务。 
上述方案中,所述扫描未完成任务对应接口的接口文件之前,所述方法还包括:读取任务日志,确定未完成的任务,并发送扫描请求。 
上述方案中,所述下载新增或重传的接口文件之后,所述方法还包括:在任务日志中标注文件传输协议(File Transfer Protocol,FTP)下载阶段为已完成,标注清洗阶段为正在进行。 
上述方案中,所述标注清洗阶段为正在进行之后,将预先生成的任务日志和接口文件进行匹配之前,所述方法还包括:读取任务日志中任务状态,并发送接口文件匹配请求。 
本发明实施例还提供了一种数据缺失补漏的智能实现***,所述***包括:FTP扫描器和任务日志管理驱动器;其中, 
所述FTP扫描器,用于扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件; 
所述任务日志管理驱动器,用于将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志状态;确定匹配失败时,跳过当前任务。 
上述方案中,所述***还包括:核心控制器、接口文件库、本地文件库和存储器;其中, 
所述核心控制器,用于读取任务日志,确定未完成的任务及任务状态,调度FTP扫描器和任务日志管理驱动器的运行; 
所述接口文件库,用于存储对方接口机接收的接口文件; 
所述本地文件库,用于存储本地接口机的所有接口文件; 
所述存储器,用于存储任务日志。 
上述方案中,所述FTP扫描器还用于,在任务日志中标注FTP下载阶段为 已完成,标注清洗阶段为正在进行。 
本发明实施例所提供的数据缺失补漏的智能实现方法,扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件;将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志状态;确定匹配失败时,跳过当前任务。如此,能弥补现有ETL对数据延迟、遗失等异常情况处理的不足,提升对数据准确性、及时性的保障能力,同时降低对ETL维护的成本,使得增值业务综合运营平台(Value-added Service General Operation Platform,VGOP)能够更有效的对数据业务进行支撑,为数据业务长久平稳的向前发展提供指引。 
附图说明
图1为本发明实施例一数据缺失补漏的智能实现方法流程示意图; 
图2为本发明实施例二数据缺失补漏的智能实现方法流程示意图; 
图3为本发明实施例数据缺失补漏的智能实现***组成结构示意图。 
具体实施方式
在本发明实施例中,扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件;将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志状态;确定匹配失败时,跳过当前任务。 
图1为本发明实施例一数据缺失补漏的智能实现方法流程示意图,如图1所示,该数据缺失补漏的智能实现方法流程包括: 
步骤101:扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件; 
这里,所述扫描未完成任务对应接口的接口文件之前,所述方法还包括:读取任务日志,确定未完成的任务,并发送扫描请求;其中,所述扫描请求中包含未完成的任务信息; 
所述下载新增或重传的接口文件为:通过接口文件属性,如创建时间信息 等获知新增或重传的接口文件,然后下载新增或重传的接口文件; 
所述下载新增或重传的接口文件之后,所述方法还包括:在任务日志中,标注FTP下载阶段为已完成,标注清洗阶段为正在进行。 
步骤102:将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志中任务状态;确定匹配失败时,跳过当前任务; 
这里,所述预先生成的任务日志为:根据用户预先配置的信息生成的任务日志,所述预先配置的信息可以包括任务及文件信息,如定时需要调度的程序及接口文件名、接口文件大小、存储时间、前置存储条件等; 
所述标注清洗阶段为正在进行之后,将预先生成的任务日志和接口文件进行匹配之前,所述方法还包括:读取任务日志中任务状态,并发送接口文件匹配请求;这里,所述接口文件匹配请求中包含任务日志中需要匹配的任务及对应接口信息; 
所述将预先生成的任务日志和接口文件进行匹配包括:根据预先生成的任务日志,查找未完成任务对应接口的接口文件,如果查找到正确的接口文件,则匹配成功,如果对应的接口文件不存在或找到错误的接口文件,则匹配失败; 
所述更改任务日志中任务状态包括:更改任务日志中FTP下载阶段后的接口文件匹配结果为匹配成功,并触发后续ETL处理流程。 
图2为本发明实施例二数据缺失补漏的智能实现方法流程示意图,如图2所示,该数据缺失补漏的智能实现方法流程包括: 
步骤201:读取任务日志,确定未完成的任务,并发送扫描请求; 
这里,所述扫描请求中包含未完成的任务信息。 
步骤202:扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件; 
这里,所述下载新增或重传的接口文件为:通过接口文件属性,如创建时间信息等获知新增或重传的接口文件,然后下载新增或重传的接口文件。 
步骤203:在任务日志中标注FTP下载阶段为已完成,标注清洗阶段为正在进行。 
步骤204:读取任务日志中任务状态,并发送接口文件匹配请求; 
这里,读取任务日志中任务状态为FTP下载阶段为已完成,清洗阶段为正在进行时,发送接口文件匹配请求; 
所述接口文件匹配请求中包含任务日志中需要匹配的任务及对应接口信息。 
步骤205:将预先生成的任务日志和接口文件进行匹配,并判断匹配是否成功,确定匹配成功时,执行步骤206;确定匹配失败时,执行步骤207; 
这里,所述预先生成的任务日志为:根据用户预先配置的信息生成的任务日志,所述预先配置的信息可以包括任务及文件信息,如定时需要调度的程序及接口文件名、接口文件大小、存储时间、前置存储条件等; 
所述将预先生成的任务日志和接口文件进行匹配包括:根据预先生成的任务日志查找未完成任务对应接口的接口文件,如果查找到正确的接口文件,则匹配成功,如果对应的接口文件不存在或找到错误的接口文件,则匹配失败。 
步骤206:更改任务日志中任务状态,执行步骤208; 
所述更改任务日志中任务状态包括:更改任务日志中FTP下载阶段后的接口文件匹配结果为匹配成功,并触发后续ETL处理流程。 
步骤207:跳过当前任务; 
这里,所述跳过当前任务即进行下一个未完成任务的接口文件扫描、匹配流程。 
步骤208:结束本次处理流程。 
图3为本发明实施例数据缺失补漏的智能实现***组成结构示意图,如图3所示,该数据缺失补漏的智能实现***组成结构包括:FTP扫描器31和任务日志管理驱动器32;其中, 
所述FTP扫描器31,用于扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件; 
所述任务日志管理驱动器32,用于将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志状态;确定匹配失败时,跳过当前任务; 
这里,所述预先生成的任务日志为:根据用户预先配置的信息生成的任务日志,所述预先配置的信息可以包括任务及文件信息,如定时需要调度的程序及接口文件名、接口文件大小、存储时间、前置存储条件等; 
所述将预先生成的任务日志和接口文件进行匹配包括:根据预先生成的任务日志查找未完成任务对应接口的接口文件,如果查找到正确的接口文件,则匹配成功,如果对应的接口文件不存在或找到错误的接口文件,则匹配失败; 
所述更改任务日志中任务状态包括:更改任务日志中FTP下载阶段后的接口文件匹配结果为匹配成功,并触发后续ETL处理流程。 
进一步的,所述***还包括:核心控制器33、接口文件库34、本地文件库35和存储器36;其中, 
所述核心控制器33,用于读取任务日志,确定未完成的任务及任务状态,调度FTP扫描器31和任务日志管理驱动器32的运行; 
所述接口文件库34,用于存储对方接口机接收的接口文件; 
所述本地文件库35,用于存储本地接口机的所有接口文件; 
所述存储器36,用于存储任务日志。 
进一步的,所述FTP扫描器31,还用于在任务日志中标注FTP下载阶段为已完成,标注清洗阶段为正在进行; 
所述核心控制器33,还用于控制ETL处理中其它服务和功能的运行。 
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 

Claims (7)

1.一种数据缺失补漏的智能实现方法,其特征在于,所述方法包括:
扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件;
将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志中任务状态;确定匹配失败时,跳过当前任务。
2.根据权利要求1所述方法,其特征在于,所述扫描未完成任务对应接口的接口文件之前,所述方法还包括:读取任务日志,确定未完成的任务,并发送扫描请求。
3.根据权利要求1所述方法,其特征在于,所述下载新增或重传的接口文件之后,所述方法还包括:在任务日志中标注文件传输协议FTP下载阶段为已完成,标注清洗阶段为正在进行。
4.根据权利要求3所述方法,其特征在于,所述标注清洗阶段为正在进行之后,将预先生成的任务日志和接口文件进行匹配之前,所述方法还包括:读取任务日志中任务状态,并发送接口文件匹配请求。
5.一种数据缺失补漏的智能实现***,其特征在于,所述***包括:FTP扫描器和任务日志管理驱动器;其中,
所述FTP扫描器,用于扫描未完成任务对应接口的接口文件,并下载新增或重传的接口文件;
所述任务日志管理驱动器,用于将预先生成的任务日志和接口文件进行匹配,确定匹配成功时,更改任务日志状态;确定匹配失败时,跳过当前任务。
6.根据权利要求5所述***,其特征在于,所述***还包括:核心控制器、接口文件库、本地文件库和存储器;其中,
所述核心控制器,用于读取任务日志,确定未完成的任务及任务状态,调度FTP扫描器和任务日志管理驱动器的运行;
所述接口文件库,用于存储对方接口机接收的接口文件;
所述本地文件库,用于存储本地接口机的所有接口文件;
所述存储器,用于存储任务日志。
7.根据权利要求5所述***,其特征在于,所述FTP扫描器还用于,在任务日志中标注FTP下载阶段为已完成,标注清洗阶段为正在进行。
CN201410025136.8A 2014-01-20 2014-01-20 一种数据缺失补漏的智能实现方法及*** Pending CN104794124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410025136.8A CN104794124A (zh) 2014-01-20 2014-01-20 一种数据缺失补漏的智能实现方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410025136.8A CN104794124A (zh) 2014-01-20 2014-01-20 一种数据缺失补漏的智能实现方法及***

Publications (1)

Publication Number Publication Date
CN104794124A true CN104794124A (zh) 2015-07-22

Family

ID=53558919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410025136.8A Pending CN104794124A (zh) 2014-01-20 2014-01-20 一种数据缺失补漏的智能实现方法及***

Country Status (1)

Country Link
CN (1) CN104794124A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN113312357A (zh) * 2021-06-23 2021-08-27 中国农业银行股份有限公司 数据装载方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477543A (zh) * 2008-01-03 2009-07-08 埃森哲环球服务有限公司 用于自动化etl应用的***和方法
CN102479113A (zh) * 2010-11-30 2012-05-30 ***通信集团黑龙江有限公司 异常自适应处理方法及***
CN102637214A (zh) * 2012-04-28 2012-08-15 中国工商银行股份有限公司 基于数据库服务间的通用数据同步方法及其***
CN102902785A (zh) * 2012-09-29 2013-01-30 合一网络技术(北京)有限公司 一种网页信息获取***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477543A (zh) * 2008-01-03 2009-07-08 埃森哲环球服务有限公司 用于自动化etl应用的***和方法
US20090177671A1 (en) * 2008-01-03 2009-07-09 Accenture Global Services Gmbh System and method for automating etl application
CN102479113A (zh) * 2010-11-30 2012-05-30 ***通信集团黑龙江有限公司 异常自适应处理方法及***
CN102637214A (zh) * 2012-04-28 2012-08-15 中国工商银行股份有限公司 基于数据库服务间的通用数据同步方法及其***
CN102902785A (zh) * 2012-09-29 2013-01-30 合一网络技术(北京)有限公司 一种网页信息获取***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN113312357A (zh) * 2021-06-23 2021-08-27 中国农业银行股份有限公司 数据装载方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102637214B (zh) 基于数据库服务间的通用数据同步方法及其***
CN100428141C (zh) 可编程控制器、通信单元、变量解决方法和数据交接方法
CN105405442B (zh) 语音的识别方法、装置和设备
CN104579752A (zh) 远程自动升级***及远程自动升级方法
CN105335316A (zh) 一种基于云计算的电机装配线串口服务器
CN110071855A (zh) 设备联动控制方法、装置、***、网关及存储介质
CN105808619A (zh) 基于影响分析的任务重做的方法、影响分析计算装置及一键重置装置
CN104794124A (zh) 一种数据缺失补漏的智能实现方法及***
CN104978635A (zh) 一种生产管理信息物理***及其实现方法
CN105607606A (zh) 一种基于双主板架构的数据采集装置及方法
CN102096772B (zh) 一种输变电工程的智能客户端***
CN113297218B (zh) 一种多***数据交互方法、装置及***
CN105245571A (zh) 一种数据获取的方法、装置及***
CN104065613A (zh) 一种应用的离线操作数据的同步方法、***及装置
CN106557934B (zh) 一种网络服务渠道用电账户绑定数据无缝迁移的方法
CN103810103A (zh) 用于对电子设备进行调试的方法及***
CN103488712A (zh) 一种自动化测试方法及***
CN106850596B (zh) 一种数据采集***和方法
CN105592097B (zh) 一种基于客户端的异步交互信息方法
CN110134086B (zh) 一种数字化车间实现中间件功能的数据采集及控制装置
CN110716524B (zh) 一种基于web的esop***
CN103488549A (zh) 多镜像数据的回滚处理***和回滚处理方法
CN104852841A (zh) 即时传讯通讯装置及方法
CN113297217B (zh) 一种数据传输方法、装置及***
CN201853233U (zh) 一种数据库的数据同步信息处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150722

RJ01 Rejection of invention patent application after publication