CN105512283B - 数据质量管理控制方法及装置 - Google Patents

数据质量管理控制方法及装置 Download PDF

Info

Publication number
CN105512283B
CN105512283B CN201510889904.9A CN201510889904A CN105512283B CN 105512283 B CN105512283 B CN 105512283B CN 201510889904 A CN201510889904 A CN 201510889904A CN 105512283 B CN105512283 B CN 105512283B
Authority
CN
China
Prior art keywords
data
tables
information
target matrix
service sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510889904.9A
Other languages
English (en)
Other versions
CN105512283A (zh
Inventor
付萍萍
陈燕青
陈雪莲
刘显明
杨济海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510889904.9A priority Critical patent/CN105512283B/zh
Publication of CN105512283A publication Critical patent/CN105512283A/zh
Priority to US15/230,308 priority patent/US10248674B2/en
Priority to PCT/CN2016/097717 priority patent/WO2017092447A1/en
Application granted granted Critical
Publication of CN105512283B publication Critical patent/CN105512283B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据质量管理控制方法及装置。该方法包括:接收业务子***发送的申请信息;解析数据表操作触发信息获得数据表流向信息;接收业务子***发送的用户信息和目标数据表;若目标数据表的名称与业务子***标识对应的多个数据表名称均不相同,则指示业务子***将目标数据表存储到数据中心;若数据表操作信息为更新数据表,指示数据中心将数据表名称对应的数据表内容替换为目标数据表的内容。本发明实施例通过数据质量管理控制***存储的数据表名称即可查找到目标数据表;降低了数据表的冗余度;提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。

Description

数据质量管理控制方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据质量管理控制方法及装置。
背景技术
随着企业信息化的高速发展,大量业务应用***数据接入数据中心,使得数据中心的数据库、数据表增长迅速,数据资源数量庞大。
现有技术中,业务应用***包括多个子***,每个子***与数据中心之间有一个数据传输接口,子***将其生成的数据表通过该数据传输接口存入数据中心为该子***分配的表空间中。
但是随着数据库、数据表的增长速度越来越快,数据中心存储的数据量越来越大,导致数据中心中的数据表存在以下四个问题:1)一个表空间可能存储多个子***生成的数据表,多个数据表在表空间中杂乱存储,导致数据表查找难度大;2)同样的数据表可能存储在多个表空间中,造成数据表的冗余度较大;3)数据表发生更新后,旧版本和新版本同时存在,导致数据表不一致;4)数据表的流向不清晰。
发明内容
本发明实施例提供一种数据质量管理控制方法及装置,以降低数据表的查找难度、降低数据表的冗余度、提高数据表的一致性、保证数据表的流向清晰、实现对数据质量的管理和控制。
本发明实施例的一个方面是提供一种数据质量管理控制方法,包括:
接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;
解析所述数据表操作触发信息获得数据表流向信息;
接收所述业务子***发送的用户信息和目标数据表;
若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;
若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称。
本发明实施例的另一个方面是提供一种数据质量管理控制装置,包括:
接收模块,用于接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;接收所述业务子***发送的用户信息和目标数据表;
解析模块,用于解析所述数据表操作触发信息获得数据表流向信息;
查询模块,用于若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称;
发送模块,用于若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称。
本发明实施例提供的数据质量管理控制方法及装置,通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
附图说明
图1为本发明实施例提供的数据质量管理控制方法流程图;
图2为本发明实施例提供的数据质量管理控制方法适用的网络结构图;
图3为本发明实施例提供的数据质量管理控制装置的结构图;
图4为本发明另一实施例提供的数据质量管理控制装置的结构图。
具体实施方式
图1为本发明实施例提供的数据质量管理控制方法流程图;图2为本发明实施例提供的数据质量管理控制方法适用的网络结构图。本发明实施例针对随着数据库、数据表的增长速度越来越快,数据中心存储的数据量越来越大,导致数据中心中的数据存在诸多问题,提供了数据质量管理控制方法,该方法具体步骤如下:
步骤S101、接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;
本发明实施例的执行主体为一个数据质量管理控制***,如图2所示,该数据质量管理控制***可以与业务***中的多个业务子***进行信息交互,也可以与数据中心进行信息交互,数据中心用于存储业务子***生成的数据库和/或数据表。其中,业务***包括多个业务子***,例如生产管理***、营销业务***、人资***、电力交易***和财务***等;每个业务子***对应有多个用户,每个用户可在该业务子***生成数据库或数据表,当用户在该业务子***生成数据库或数据表时,该业务子***向数据质量管理控制***发送申请信息,申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息,其中,一个数据库包括多个数据表,业务子***标识唯一标识一个业务子***,数据表操作信息表示用户对其生成的数据库或数据表的操作,例如新接入一个数据表、更新数据表、删除数据表等,数据表操作触发信息表示用户对数据库或数据表进行上述操作的原因。
步骤S102、解析所述数据表操作触发信息获得数据表流向信息;
数据质量管理控制***解析用户对数据库或数据表进行上述操作的原因获得数据表流向信息,数据表流向信息具体表示用户生成的数据表被哪个业务子***查看、调用或存储,即数据表流向信息可以为查看、调用或存储该数据表的业务子***的标识。
步骤S103、接收所述业务子***发送的用户信息和目标数据表;
数据质量管理控制***对业务子***发送的申请信息进行审核,审核通过后,业务子***向数据质量管理控制***发送用户信息和目标数据表,该目标数据表是该用户信息对应的用户在该业务子***中生成的数据表。
步骤S104、若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;
若该目标数据表是一个新增的数据表,即该目标数据表没有在数据中心存储过,则数据质量管理控制***依据该业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,数据质量管理控制***中预先存储有多个历史记录信息,每个历史记录信息至少包括业务子***标识和数据表名称,数据质量管理控制***分别判断目标数据表的名称与该多个数据表名称中每个数据表名称是否相同,若所述目标数据表的名称与所述多个数据表名称均不相同,则数据质量管理控制***指示所述业务子***将所述目标数据表存储到数据中心;若所述目标数据表的名称与所述多个数据表名称中的任意一个数据表名称相同,则向所述业务子***发送告警信息,告知用户该目标数据表的名称重复,避免数据中心中的数据表产生重复。
步骤S105、若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称。
若该目标数据表是一个更新后的数据表,即该目标数据表在数据中心存储过,数据中心中存储有一个与该目标数据表的名称一样的数据表,且数据质量管理控制***预先存储的历史记录信息中也包括该数据表名称,则数据质量管理控制***依据目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容,避免数据中心中存储的数据表发生不一致的现象。
本发明实施例通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
在上述实施例的基础上,所述指示所述业务子***将所述目标数据表存储到数据中心之后,还包括:接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
数据质量管理控制***指示所述业务子***将所述目标数据表存储到数据中心之后,业务子***将所述目标数据表通过所述业务子***与所述数据中心的接口方式发送到数据中心,该接口方式具体包括数据仓库技术(Extract Transform Load,简称ETL)、OGG、DBlink、WebService中的任意一种。数据中心可以为若干个业务子***开辟一个表空间,优选的,数据中心为每个业务子***开辟一个表空间,数据中心将业务子***通过该接口方式发送的目标数据表存储到表空间,并将表空间的名称以及所述业务子***与所述数据中心的接口方式发送给数据质量管理控制***。
数据质量管理控制***根据上述实施例中的申请信息、业务子***发送的用户信息和目标数据表、数据中心发送的表空间的名称和接口方式生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式,其中,所述目标数据表的操作权限信息是数据质量管理控制***为该用户设定的操作该目标数据表的权限。当数据质量管理控制***接收到另一个业务子***发送的申请信息时,该当前记录信息即成为历史记录信息。
所述接收所述业务子***发送的用户信息和目标数据表之后,还包括:判断所述目标数据表中的数据是否符合预先设定的数据规则;若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
数据质量管理控制***中预先存储有数据规则,每个业务子***发送的目标数据表中的数据均要符合数据规则,即通过数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,使得每个业务子***发送的目标数据表均可以被其他的业务子***识别,具体的,数据质量管理控制***在接收所述业务子***发送的用户信息和目标数据表之后,判断所述目标数据表中的数据是否符合预先设定的数据规则;若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
本发明实施例通过数据质量管理控制***中预先存储有数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,保证了每个业务子***发送的目标数据表均可以被其他的业务子***识别。
在上述实施例的基础上,所述生成当前记录信息之后,还包括:依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
数据质量管理控制***每生成一个当前记录信息就将该当前记录信息放入记录信息库中,通过对记录信息库中所有的记录信息进行分析可获得各个数据表的重要程度,每个数据表的重要程度可通过统计出的数据表名称对应的数据表流向信息的个数衡量,例如该目标数据表的名称出现在多条记录信息中,从该多条记录信息中分析获知该目标数据表被多个业务子***查看、调用或存储,则说明该目标数据表的重要程度较大,且数据表名称对应的数据表流向信息的个数与数据表的重要程度成正比。
数据质量管理控制方法还包括:设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
数据质量管理控制***还可设置数据表采集规则,数据表采集规则包括周期性采集、事件触发采集、依据数据表特征采集、预设时间点采集等。数据质量管理控制***依据数据表采集规则从所述数据中心采集多个数据表,并判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个,进一步降低数据中心中数据表的冗余度;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表,进一步提高数据中心中数据表的一致性。
本发明实施例通过数据质量管理控制***采集数据中心中的多个数据表,并对多个数据表中任意两个数据表的名称以及内容进行判断,通过删除名称一样、内容一样的两个数据表中的任一个数据表,进一步降低了数据中心中数据表的冗余度;同时通过删除名称一样、内容不同的两个数据表中时间戳较小的数据表,进一步提高了数据中心中数据表的一致性。
图3为本发明实施例提供的数据质量管理控制装置的结构图。图3所示的数据质量管理控制装置具体为图2中的数据质量管理控制***。本发明实施例提供的数据质量管理控制装置可以执行数据质量管理控制方法实施例提供的处理流程,如图3所示,数据质量管理控制装置30包括接收模块31、解析模块32、查询模块33和发送模块34,其中,接收模块31用于接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;接收所述业务子***发送的用户信息和目标数据表;解析模块32用于解析所述数据表操作触发信息获得数据表流向信息;查询模块33用于若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称;发送模块34用于若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;其中,所述历史记录信息至少包括业务子***标识和数据表名称。
本发明实施例通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
图4为本发明另一实施例提供的数据质量管理控制装置的结构图。在上述实施例的基础上,接收模块31还用于发送模块34指示所述业务子***将所述目标数据表存储到数据中心之后,接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;数据质量管理控制装置30还包括记录模块35,记录模块35用于生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
数据质量管理控制装置30还包括判断模块36,判断模块36用于接收模块31接收所述业务子***发送的用户信息和目标数据表之后,判断所述目标数据表中的数据是否符合预先设定的数据规则;发送模块34还用于若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
判断模块36还用于依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
数据质量管理控制装置30还包括采集模块37,采集模块37用于设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;判断模块36还用于判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;发送模块34还用于若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
本发明实施例提供的数据质量管理控制装置可以具体用于执行上述图1所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过数据质量管理控制***中预先存储有数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,保证了每个业务子***发送的目标数据表均可以被其他的业务子***识别;通过数据质量管理控制***采集数据中心中的多个数据表,并对多个数据表中任意两个数据表的名称以及内容进行判断,通过删除名称一样、内容一样的两个数据表中的任一个数据表,进一步降低了数据中心中数据表的冗余度;同时通过删除名称一样、内容不同的两个数据表中时间戳较小的数据表,进一步提高了数据中心中数据表的一致性。
综上所述,本发明实施例通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制;通过数据质量管理控制***中预先存储有数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,保证了每个业务子***发送的目标数据表均可以被其他的业务子***识别;通过数据质量管理控制***采集数据中心中的多个数据表,并对多个数据表中任意两个数据表的名称以及内容进行判断,通过删除名称一样、内容一样的两个数据表中的任一个数据表,进一步降低了数据中心中数据表的冗余度;同时通过删除名称一样、内容不同的两个数据表中时间戳较小的数据表,进一步提高了数据中心中数据表的一致性。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种数据质量管理控制方法,其特征在于,包括:
接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;
解析所述数据表操作触发信息获得数据表流向信息;
接收所述业务子***发送的用户信息和目标数据表;
若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;
若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称;
所述指示所述业务子***将所述目标数据表存储到数据中心之后,还包括:
接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;
生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
2.根据权利要求1所述的方法,其特征在于,所述接收所述业务子***发送的用户信息和目标数据表之后,还包括:
判断所述目标数据表中的数据是否符合预先设定的数据规则;
若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
3.根据权利要求2所述的方法,其特征在于,所述生成当前记录信息之后,还包括:
依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
4.根据权利要求3所述的方法,其特征在于,还包括:
设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;
判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;
若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;
若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
5.一种数据质量管理控制装置,其特征在于,包括:
接收模块,用于接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;接收所述业务子***发送的用户信息和目标数据表;
解析模块,用于解析所述数据表操作触发信息获得数据表流向信息;
查询模块,用于若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称;
发送模块,用于若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称;
所述接收模块还用于所述发送模块指示所述业务子***将所述目标数据表存储到数据中心之后,接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;
所述数据质量管理控制装置还包括记录模块,用于生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
6.根据权利要求5所述的数据质量管理控制装置,其特征在于,还包括:
判断模块,用于所述接收模块接收所述业务子***发送的用户信息和目标数据表之后,判断所述目标数据表中的数据是否符合预先设定的数据规则;
所述发送模块还用于若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
7.根据权利要求6所述的数据质量管理控制装置,其特征在于,所述判断模块还用于依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
8.根据权利要求7所述的数据质量管理控制装置,其特征在于,还包括:
采集模块,用于设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;
所述判断模块还用于判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;
所述发送模块还用于若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
CN201510889904.9A 2015-12-04 2015-12-04 数据质量管理控制方法及装置 Expired - Fee Related CN105512283B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510889904.9A CN105512283B (zh) 2015-12-04 2015-12-04 数据质量管理控制方法及装置
US15/230,308 US10248674B2 (en) 2015-12-04 2016-08-05 Method and apparatus for data quality management and control
PCT/CN2016/097717 WO2017092447A1 (en) 2015-12-04 2016-08-31 Method and apparatus for data quality management and control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510889904.9A CN105512283B (zh) 2015-12-04 2015-12-04 数据质量管理控制方法及装置

Publications (2)

Publication Number Publication Date
CN105512283A CN105512283A (zh) 2016-04-20
CN105512283B true CN105512283B (zh) 2019-05-03

Family

ID=55720265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510889904.9A Expired - Fee Related CN105512283B (zh) 2015-12-04 2015-12-04 数据质量管理控制方法及装置

Country Status (3)

Country Link
US (1) US10248674B2 (zh)
CN (1) CN105512283B (zh)
WO (1) WO2017092447A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512283B (zh) 2015-12-04 2019-05-03 国网江西省电力公司信息通信分公司 数据质量管理控制方法及装置
CN107222351A (zh) * 2017-06-29 2017-09-29 济南浪潮高新科技投资发展有限公司 一种网络设备数据质量的分析方法
CN108089872B (zh) * 2017-12-19 2021-02-19 联想(北京)有限公司 获取bios更新数据的方法、数据更新方法及电子设备
CN108304464B (zh) * 2017-12-26 2021-01-29 北京明略软件***有限公司 一种数据清洗的方法及装置
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置
CN109034623B (zh) * 2018-07-27 2021-11-30 国家电网有限公司 电网规划数据处理方法及终端设备
CN109933580B (zh) * 2019-02-14 2020-12-25 北京奇艺世纪科技有限公司 训练数据生成方法、装置及服务器
CN112243244A (zh) * 2019-07-16 2021-01-19 中兴通讯股份有限公司 一种同源数据处理装置及方法和基站
WO2021189283A1 (zh) * 2020-03-25 2021-09-30 深圳市欢太科技有限公司 数据处理方法、装置、电子装置及存储介质
CN112052138A (zh) * 2020-08-31 2020-12-08 平安科技(深圳)有限公司 业务数据质量检测方法、装置、计算机设备及存储介质
CN114911781A (zh) * 2022-03-31 2022-08-16 华能信息技术有限公司 一种数据质量管理方法及***
CN115455010B (zh) * 2022-11-09 2023-02-28 以萨技术股份有限公司 一种基于milvus数据库的数据处理方法、电子设备及存储介质
CN117762949B (zh) * 2024-02-19 2024-05-24 平凯星辰(北京)科技有限公司 数据抽取方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102202073A (zh) * 2010-03-24 2011-09-28 杭州华三通信技术有限公司 一种分布式***及其数据同步方法
CN104899257A (zh) * 2015-05-18 2015-09-09 北京京东尚科信息技术有限公司 分布式数据仓库中的数据更新方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050097122A1 (en) * 2003-08-29 2005-05-05 Thierry Schafflutzel Redundancy-free provision of multi-purpose data
US8082301B2 (en) * 2006-11-10 2011-12-20 Virtual Agility, Inc. System for supporting collaborative activity
US20110099095A1 (en) * 2009-10-28 2011-04-28 Microsoft Corporation Processing internal use of data-center resources
GB2507941B (en) * 2010-02-22 2018-10-31 Avaya Inc Secure,policy-based communications security and file sharing across mixed media,mixed-communications modalities and extensible to cloud computing such as soa
US10180807B2 (en) * 2011-10-12 2019-01-15 Tata Consultancy Services Limited Method and system for consolidating a plurality of heterogeneous storage systems in a data center
US9445529B2 (en) * 2012-05-23 2016-09-13 International Business Machines Corporation Liquid cooled data center design selection
US9165078B2 (en) 2013-03-14 2015-10-20 International Business Machines Corporation Row-based data filtering at a database level
US9569476B2 (en) * 2013-04-02 2017-02-14 International Business Machines Corporation Intelligent data routing and storage provisioning
JP2016520931A (ja) * 2013-05-31 2016-07-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 1つの論理ユニットとして関連付けられたファイルの群を転送するためのシステム及び方法
CN103617255B (zh) 2013-11-29 2017-01-04 国网电网公司 一种用于电力信息***的业务数据交换同步***及方法
EP3103245B1 (en) * 2014-02-05 2019-06-19 Seon Design (USA) Corp. Uploading data from mobile devices
US9274710B1 (en) * 2014-03-31 2016-03-01 Amazon Technologies, Inc. Offset-based congestion control in storage systems
US9495478B2 (en) * 2014-03-31 2016-11-15 Amazon Technologies, Inc. Namespace management in distributed storage systems
US9824093B1 (en) * 2014-06-30 2017-11-21 EMC IP Holding Company LLC Datacenter maintenance
EP3224744A4 (en) * 2014-11-28 2018-08-01 Nasuni Corporation Versioned file system with global lock
US10168762B2 (en) * 2015-09-17 2019-01-01 Advanced Micro Devices, Inc. Power management for heterogeneous computing systems
US20160247243A1 (en) * 2016-04-29 2016-08-25 EdgeConneX, Inc. System for measuring, analyzing, allocating and provisioning available electrical capacity in a data center visa vie a sales order request to use electrical capacity
CN105512283B (zh) 2015-12-04 2019-05-03 国网江西省电力公司信息通信分公司 数据质量管理控制方法及装置
US10152490B2 (en) * 2015-12-29 2018-12-11 Successfactors, Inc. Sequential replication with limited number of objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102202073A (zh) * 2010-03-24 2011-09-28 杭州华三通信技术有限公司 一种分布式***及其数据同步方法
CN104899257A (zh) * 2015-05-18 2015-09-09 北京京东尚科信息技术有限公司 分布式数据仓库中的数据更新方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字校园中基于SOA 的数据同步技术研究与实现;bousoujj;《豆丁www.docin.com/p-135866862.html》;20110301;第1-61页

Also Published As

Publication number Publication date
WO2017092447A1 (en) 2017-06-08
CN105512283A (zh) 2016-04-20
US20170161306A1 (en) 2017-06-08
US10248674B2 (en) 2019-04-02

Similar Documents

Publication Publication Date Title
CN105512283B (zh) 数据质量管理控制方法及装置
CN105677250B (zh) 对象存储***中的对象数据的更新方法和更新装置
CN104536965B (zh) 一种大数据条件下的数据查询展示***及方法
CN107220142A (zh) 执行数据恢复操作的方法及装置
CN105095313B (zh) 一种数据访问方法和设备
CN110019255A (zh) 数据查询方法、装置、服务器及存储介质
CN107025289B (zh) 一种数据处理的方法及相关设备
CN111596922A (zh) 基于redis实现自定义缓存注解的方法
CN104424287B (zh) 数据查询方法和装置
CN110727727B (zh) 一种数据库的统计方法及装置
CN112040429B (zh) 一种基于分布式存储的短信管理***及方法
US20080222098A1 (en) Methods, systems, and computer program products for providing consolidated order information
CN106681999A (zh) 一种数据表查询方法及设备
CN108696400A (zh) 网络监测方法和装置
CN110213207A (zh) 一种基于日志分析的网络安全防御方法及设备
CN108390933A (zh) 消息分发方法、装置、服务器及存储介质
CN106933836A (zh) 一种基于分表的数据存储方法和***
CN109063066A (zh) 数据查询方法及装置、数据管理***
CN109981627A (zh) 网络威胁情报信息的更新方法及***
CN105260479B (zh) 一种基于观察者模式的实时数据库实时数据发布方法
CN104317957A (zh) 一种报表处理的开放平台、***及报表处理方法
CN109325056A (zh) 一种大数据处理方法及装置、通信设备
CN110109906A (zh) 数据存储***及方法
TWI238620B (en) Apparatus and method for collecting updated information from information providing server in network
CN111881252A (zh) 工作报告处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190503

Termination date: 20191204

CF01 Termination of patent right due to non-payment of annual fee