CN105512283B - 数据质量管理控制方法及装置 - Google Patents
数据质量管理控制方法及装置 Download PDFInfo
- Publication number
- CN105512283B CN105512283B CN201510889904.9A CN201510889904A CN105512283B CN 105512283 B CN105512283 B CN 105512283B CN 201510889904 A CN201510889904 A CN 201510889904A CN 105512283 B CN105512283 B CN 105512283B
- Authority
- CN
- China
- Prior art keywords
- data
- tables
- information
- target matrix
- service sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 121
- 238000003860 storage Methods 0.000 claims abstract description 21
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 abstract description 5
- 238000007726 management method Methods 0.000 description 56
- 230000006870 function Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种数据质量管理控制方法及装置。该方法包括:接收业务子***发送的申请信息;解析数据表操作触发信息获得数据表流向信息;接收业务子***发送的用户信息和目标数据表;若目标数据表的名称与业务子***标识对应的多个数据表名称均不相同,则指示业务子***将目标数据表存储到数据中心;若数据表操作信息为更新数据表,指示数据中心将数据表名称对应的数据表内容替换为目标数据表的内容。本发明实施例通过数据质量管理控制***存储的数据表名称即可查找到目标数据表;降低了数据表的冗余度;提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据质量管理控制方法及装置。
背景技术
随着企业信息化的高速发展,大量业务应用***数据接入数据中心,使得数据中心的数据库、数据表增长迅速,数据资源数量庞大。
现有技术中,业务应用***包括多个子***,每个子***与数据中心之间有一个数据传输接口,子***将其生成的数据表通过该数据传输接口存入数据中心为该子***分配的表空间中。
但是随着数据库、数据表的增长速度越来越快,数据中心存储的数据量越来越大,导致数据中心中的数据表存在以下四个问题:1)一个表空间可能存储多个子***生成的数据表,多个数据表在表空间中杂乱存储,导致数据表查找难度大;2)同样的数据表可能存储在多个表空间中,造成数据表的冗余度较大;3)数据表发生更新后,旧版本和新版本同时存在,导致数据表不一致;4)数据表的流向不清晰。
发明内容
本发明实施例提供一种数据质量管理控制方法及装置,以降低数据表的查找难度、降低数据表的冗余度、提高数据表的一致性、保证数据表的流向清晰、实现对数据质量的管理和控制。
本发明实施例的一个方面是提供一种数据质量管理控制方法,包括:
接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;
解析所述数据表操作触发信息获得数据表流向信息;
接收所述业务子***发送的用户信息和目标数据表;
若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;
若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称。
本发明实施例的另一个方面是提供一种数据质量管理控制装置,包括:
接收模块,用于接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;接收所述业务子***发送的用户信息和目标数据表;
解析模块,用于解析所述数据表操作触发信息获得数据表流向信息;
查询模块,用于若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称;
发送模块,用于若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称。
本发明实施例提供的数据质量管理控制方法及装置,通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
附图说明
图1为本发明实施例提供的数据质量管理控制方法流程图;
图2为本发明实施例提供的数据质量管理控制方法适用的网络结构图;
图3为本发明实施例提供的数据质量管理控制装置的结构图;
图4为本发明另一实施例提供的数据质量管理控制装置的结构图。
具体实施方式
图1为本发明实施例提供的数据质量管理控制方法流程图;图2为本发明实施例提供的数据质量管理控制方法适用的网络结构图。本发明实施例针对随着数据库、数据表的增长速度越来越快,数据中心存储的数据量越来越大,导致数据中心中的数据存在诸多问题,提供了数据质量管理控制方法,该方法具体步骤如下:
步骤S101、接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;
本发明实施例的执行主体为一个数据质量管理控制***,如图2所示,该数据质量管理控制***可以与业务***中的多个业务子***进行信息交互,也可以与数据中心进行信息交互,数据中心用于存储业务子***生成的数据库和/或数据表。其中,业务***包括多个业务子***,例如生产管理***、营销业务***、人资***、电力交易***和财务***等;每个业务子***对应有多个用户,每个用户可在该业务子***生成数据库或数据表,当用户在该业务子***生成数据库或数据表时,该业务子***向数据质量管理控制***发送申请信息,申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息,其中,一个数据库包括多个数据表,业务子***标识唯一标识一个业务子***,数据表操作信息表示用户对其生成的数据库或数据表的操作,例如新接入一个数据表、更新数据表、删除数据表等,数据表操作触发信息表示用户对数据库或数据表进行上述操作的原因。
步骤S102、解析所述数据表操作触发信息获得数据表流向信息;
数据质量管理控制***解析用户对数据库或数据表进行上述操作的原因获得数据表流向信息,数据表流向信息具体表示用户生成的数据表被哪个业务子***查看、调用或存储,即数据表流向信息可以为查看、调用或存储该数据表的业务子***的标识。
步骤S103、接收所述业务子***发送的用户信息和目标数据表;
数据质量管理控制***对业务子***发送的申请信息进行审核,审核通过后,业务子***向数据质量管理控制***发送用户信息和目标数据表,该目标数据表是该用户信息对应的用户在该业务子***中生成的数据表。
步骤S104、若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;
若该目标数据表是一个新增的数据表,即该目标数据表没有在数据中心存储过,则数据质量管理控制***依据该业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,数据质量管理控制***中预先存储有多个历史记录信息,每个历史记录信息至少包括业务子***标识和数据表名称,数据质量管理控制***分别判断目标数据表的名称与该多个数据表名称中每个数据表名称是否相同,若所述目标数据表的名称与所述多个数据表名称均不相同,则数据质量管理控制***指示所述业务子***将所述目标数据表存储到数据中心;若所述目标数据表的名称与所述多个数据表名称中的任意一个数据表名称相同,则向所述业务子***发送告警信息,告知用户该目标数据表的名称重复,避免数据中心中的数据表产生重复。
步骤S105、若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称。
若该目标数据表是一个更新后的数据表,即该目标数据表在数据中心存储过,数据中心中存储有一个与该目标数据表的名称一样的数据表,且数据质量管理控制***预先存储的历史记录信息中也包括该数据表名称,则数据质量管理控制***依据目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容,避免数据中心中存储的数据表发生不一致的现象。
本发明实施例通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
在上述实施例的基础上,所述指示所述业务子***将所述目标数据表存储到数据中心之后,还包括:接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
数据质量管理控制***指示所述业务子***将所述目标数据表存储到数据中心之后,业务子***将所述目标数据表通过所述业务子***与所述数据中心的接口方式发送到数据中心,该接口方式具体包括数据仓库技术(Extract Transform Load,简称ETL)、OGG、DBlink、WebService中的任意一种。数据中心可以为若干个业务子***开辟一个表空间,优选的,数据中心为每个业务子***开辟一个表空间,数据中心将业务子***通过该接口方式发送的目标数据表存储到表空间,并将表空间的名称以及所述业务子***与所述数据中心的接口方式发送给数据质量管理控制***。
数据质量管理控制***根据上述实施例中的申请信息、业务子***发送的用户信息和目标数据表、数据中心发送的表空间的名称和接口方式生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式,其中,所述目标数据表的操作权限信息是数据质量管理控制***为该用户设定的操作该目标数据表的权限。当数据质量管理控制***接收到另一个业务子***发送的申请信息时,该当前记录信息即成为历史记录信息。
所述接收所述业务子***发送的用户信息和目标数据表之后,还包括:判断所述目标数据表中的数据是否符合预先设定的数据规则;若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
数据质量管理控制***中预先存储有数据规则,每个业务子***发送的目标数据表中的数据均要符合数据规则,即通过数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,使得每个业务子***发送的目标数据表均可以被其他的业务子***识别,具体的,数据质量管理控制***在接收所述业务子***发送的用户信息和目标数据表之后,判断所述目标数据表中的数据是否符合预先设定的数据规则;若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
本发明实施例通过数据质量管理控制***中预先存储有数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,保证了每个业务子***发送的目标数据表均可以被其他的业务子***识别。
在上述实施例的基础上,所述生成当前记录信息之后,还包括:依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
数据质量管理控制***每生成一个当前记录信息就将该当前记录信息放入记录信息库中,通过对记录信息库中所有的记录信息进行分析可获得各个数据表的重要程度,每个数据表的重要程度可通过统计出的数据表名称对应的数据表流向信息的个数衡量,例如该目标数据表的名称出现在多条记录信息中,从该多条记录信息中分析获知该目标数据表被多个业务子***查看、调用或存储,则说明该目标数据表的重要程度较大,且数据表名称对应的数据表流向信息的个数与数据表的重要程度成正比。
数据质量管理控制方法还包括:设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
数据质量管理控制***还可设置数据表采集规则,数据表采集规则包括周期性采集、事件触发采集、依据数据表特征采集、预设时间点采集等。数据质量管理控制***依据数据表采集规则从所述数据中心采集多个数据表,并判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个,进一步降低数据中心中数据表的冗余度;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表,进一步提高数据中心中数据表的一致性。
本发明实施例通过数据质量管理控制***采集数据中心中的多个数据表,并对多个数据表中任意两个数据表的名称以及内容进行判断,通过删除名称一样、内容一样的两个数据表中的任一个数据表,进一步降低了数据中心中数据表的冗余度;同时通过删除名称一样、内容不同的两个数据表中时间戳较小的数据表,进一步提高了数据中心中数据表的一致性。
图3为本发明实施例提供的数据质量管理控制装置的结构图。图3所示的数据质量管理控制装置具体为图2中的数据质量管理控制***。本发明实施例提供的数据质量管理控制装置可以执行数据质量管理控制方法实施例提供的处理流程,如图3所示,数据质量管理控制装置30包括接收模块31、解析模块32、查询模块33和发送模块34,其中,接收模块31用于接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;接收所述业务子***发送的用户信息和目标数据表;解析模块32用于解析所述数据表操作触发信息获得数据表流向信息;查询模块33用于若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称;发送模块34用于若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;其中,所述历史记录信息至少包括业务子***标识和数据表名称。
本发明实施例通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制。
图4为本发明另一实施例提供的数据质量管理控制装置的结构图。在上述实施例的基础上,接收模块31还用于发送模块34指示所述业务子***将所述目标数据表存储到数据中心之后,接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;数据质量管理控制装置30还包括记录模块35,记录模块35用于生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
数据质量管理控制装置30还包括判断模块36,判断模块36用于接收模块31接收所述业务子***发送的用户信息和目标数据表之后,判断所述目标数据表中的数据是否符合预先设定的数据规则;发送模块34还用于若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
判断模块36还用于依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
数据质量管理控制装置30还包括采集模块37,采集模块37用于设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;判断模块36还用于判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;发送模块34还用于若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
本发明实施例提供的数据质量管理控制装置可以具体用于执行上述图1所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过数据质量管理控制***中预先存储有数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,保证了每个业务子***发送的目标数据表均可以被其他的业务子***识别;通过数据质量管理控制***采集数据中心中的多个数据表,并对多个数据表中任意两个数据表的名称以及内容进行判断,通过删除名称一样、内容一样的两个数据表中的任一个数据表,进一步降低了数据中心中数据表的冗余度;同时通过删除名称一样、内容不同的两个数据表中时间戳较小的数据表,进一步提高了数据中心中数据表的一致性。
综上所述,本发明实施例通过数据质量管理控制***存储的历史记录信息中的数据表名称即可查找到目标数据表;通过查询多个历史记录信息获得与业务子***标识对应的多个数据表名称,并判断目标数据表的名称与多个数据表名称是否相同,只有目标数据表的名称与多个数据表名称均不相同时,指示业务子***将目标数据表存储到数据中心,降低了数据表的冗余度;通过将查询多个历史记录信息获得与目标数据表的名称相同的数据表名称,并将数据表名称对应的数据表内容替换为目标数据表的内容,提高了数据表的一致性;通过解析数据表操作触发信息获得数据表流向信息,保证了数据表的流向清晰;实现了对数据质量的管理和控制;通过数据质量管理控制***中预先存储有数据规则对每个业务子***发送的目标数据表中的数据进行统一化规范,保证了每个业务子***发送的目标数据表均可以被其他的业务子***识别;通过数据质量管理控制***采集数据中心中的多个数据表,并对多个数据表中任意两个数据表的名称以及内容进行判断,通过删除名称一样、内容一样的两个数据表中的任一个数据表,进一步降低了数据中心中数据表的冗余度;同时通过删除名称一样、内容不同的两个数据表中时间戳较小的数据表,进一步提高了数据中心中数据表的一致性。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种数据质量管理控制方法,其特征在于,包括:
接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;
解析所述数据表操作触发信息获得数据表流向信息;
接收所述业务子***发送的用户信息和目标数据表;
若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称,若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;
若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称,并指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称;
所述指示所述业务子***将所述目标数据表存储到数据中心之后,还包括:
接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;
生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
2.根据权利要求1所述的方法,其特征在于,所述接收所述业务子***发送的用户信息和目标数据表之后,还包括:
判断所述目标数据表中的数据是否符合预先设定的数据规则;
若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
3.根据权利要求2所述的方法,其特征在于,所述生成当前记录信息之后,还包括:
依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
4.根据权利要求3所述的方法,其特征在于,还包括:
设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;
判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;
若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;
若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
5.一种数据质量管理控制装置,其特征在于,包括:
接收模块,用于接收业务子***发送的申请信息,所述申请信息包括业务子***标识、数据表操作信息和数据表操作触发信息;接收所述业务子***发送的用户信息和目标数据表;
解析模块,用于解析所述数据表操作触发信息获得数据表流向信息;
查询模块,用于若所述数据表操作信息为新增数据表,则依据所述业务子***标识查询多个历史记录信息获得与所述业务子***标识对应的多个数据表名称;若所述数据表操作信息为更新数据表,则依据所述目标数据表的名称查询多个历史记录信息获得与所述目标数据表的名称相同的数据表名称;
发送模块,用于若所述目标数据表的名称与所述多个数据表名称均不相同,则指示所述业务子***将所述目标数据表存储到数据中心;指示所述数据中心将所述数据表名称对应的数据表内容替换为所述目标数据表的内容;
其中,所述历史记录信息至少包括业务子***标识和数据表名称;
所述接收模块还用于所述发送模块指示所述业务子***将所述目标数据表存储到数据中心之后,接收所述数据中心发送的存储所述目标数据表的表空间的名称,以及所述业务子***与所述数据中心的接口方式;
所述数据质量管理控制装置还包括记录模块,用于生成当前记录信息,所述当前记录信息包括所述业务子***标识、所述表空间的名称、所述目标数据表的名称、所述用户信息、所述数据表流向信息、所述目标数据表的操作权限信息和所述接口方式。
6.根据权利要求5所述的数据质量管理控制装置,其特征在于,还包括:
判断模块,用于所述接收模块接收所述业务子***发送的用户信息和目标数据表之后,判断所述目标数据表中的数据是否符合预先设定的数据规则;
所述发送模块还用于若所述目标数据表中的数据不符合预先设定的数据规则,则向所述业务子***发送警示信息,以使用户修改所述目标数据表中的数据格式。
7.根据权利要求6所述的数据质量管理控制装置,其特征在于,所述判断模块还用于依据所述当前记录信息和所述多个历史记录信息分析各个数据表的重要程度,所述数据表名称对应的数据表流向信息的个数越多,所述数据表的重要程度越大。
8.根据权利要求7所述的数据质量管理控制装置,其特征在于,还包括:
采集模块,用于设置数据表采集规则,并依据所述数据表采集规则从所述数据中心采集多个数据表;
所述判断模块还用于判断所述多个数据表中任意两个数据表的名称是否相同,若所述两个数据表的名称相同,则判断所述两个数据表的内容是否相同;
所述发送模块还用于若所述两个数据表的内容相同,则向所述数据中心发送第一删除指令,以使所述数据中心删除所述两个数据表的任意一个;若所述两个数据表的内容不同,则从所述数据中心获取所述两个数据表的时间戳,并向所述数据中心发送第二删除指令,以使所述数据中心删除所述两个数据表中时间戳较小的数据表。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510889904.9A CN105512283B (zh) | 2015-12-04 | 2015-12-04 | 数据质量管理控制方法及装置 |
US15/230,308 US10248674B2 (en) | 2015-12-04 | 2016-08-05 | Method and apparatus for data quality management and control |
PCT/CN2016/097717 WO2017092447A1 (en) | 2015-12-04 | 2016-08-31 | Method and apparatus for data quality management and control |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510889904.9A CN105512283B (zh) | 2015-12-04 | 2015-12-04 | 数据质量管理控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512283A CN105512283A (zh) | 2016-04-20 |
CN105512283B true CN105512283B (zh) | 2019-05-03 |
Family
ID=55720265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510889904.9A Expired - Fee Related CN105512283B (zh) | 2015-12-04 | 2015-12-04 | 数据质量管理控制方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10248674B2 (zh) |
CN (1) | CN105512283B (zh) |
WO (1) | WO2017092447A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512283B (zh) | 2015-12-04 | 2019-05-03 | 国网江西省电力公司信息通信分公司 | 数据质量管理控制方法及装置 |
CN107222351A (zh) * | 2017-06-29 | 2017-09-29 | 济南浪潮高新科技投资发展有限公司 | 一种网络设备数据质量的分析方法 |
CN108089872B (zh) * | 2017-12-19 | 2021-02-19 | 联想(北京)有限公司 | 获取bios更新数据的方法、数据更新方法及电子设备 |
CN108304464B (zh) * | 2017-12-26 | 2021-01-29 | 北京明略软件***有限公司 | 一种数据清洗的方法及装置 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
CN109034623B (zh) * | 2018-07-27 | 2021-11-30 | 国家电网有限公司 | 电网规划数据处理方法及终端设备 |
CN109933580B (zh) * | 2019-02-14 | 2020-12-25 | 北京奇艺世纪科技有限公司 | 训练数据生成方法、装置及服务器 |
CN112243244A (zh) * | 2019-07-16 | 2021-01-19 | 中兴通讯股份有限公司 | 一种同源数据处理装置及方法和基站 |
WO2021189283A1 (zh) * | 2020-03-25 | 2021-09-30 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子装置及存储介质 |
CN112052138A (zh) * | 2020-08-31 | 2020-12-08 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN114911781A (zh) * | 2022-03-31 | 2022-08-16 | 华能信息技术有限公司 | 一种数据质量管理方法及*** |
CN115455010B (zh) * | 2022-11-09 | 2023-02-28 | 以萨技术股份有限公司 | 一种基于milvus数据库的数据处理方法、电子设备及存储介质 |
CN117762949B (zh) * | 2024-02-19 | 2024-05-24 | 平凯星辰(北京)科技有限公司 | 数据抽取方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102202073A (zh) * | 2010-03-24 | 2011-09-28 | 杭州华三通信技术有限公司 | 一种分布式***及其数据同步方法 |
CN104899257A (zh) * | 2015-05-18 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 分布式数据仓库中的数据更新方法和装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050097122A1 (en) * | 2003-08-29 | 2005-05-05 | Thierry Schafflutzel | Redundancy-free provision of multi-purpose data |
US8082301B2 (en) * | 2006-11-10 | 2011-12-20 | Virtual Agility, Inc. | System for supporting collaborative activity |
US20110099095A1 (en) * | 2009-10-28 | 2011-04-28 | Microsoft Corporation | Processing internal use of data-center resources |
GB2507941B (en) * | 2010-02-22 | 2018-10-31 | Avaya Inc | Secure,policy-based communications security and file sharing across mixed media,mixed-communications modalities and extensible to cloud computing such as soa |
US10180807B2 (en) * | 2011-10-12 | 2019-01-15 | Tata Consultancy Services Limited | Method and system for consolidating a plurality of heterogeneous storage systems in a data center |
US9445529B2 (en) * | 2012-05-23 | 2016-09-13 | International Business Machines Corporation | Liquid cooled data center design selection |
US9165078B2 (en) | 2013-03-14 | 2015-10-20 | International Business Machines Corporation | Row-based data filtering at a database level |
US9569476B2 (en) * | 2013-04-02 | 2017-02-14 | International Business Machines Corporation | Intelligent data routing and storage provisioning |
JP2016520931A (ja) * | 2013-05-31 | 2016-07-14 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 1つの論理ユニットとして関連付けられたファイルの群を転送するためのシステム及び方法 |
CN103617255B (zh) | 2013-11-29 | 2017-01-04 | 国网电网公司 | 一种用于电力信息***的业务数据交换同步***及方法 |
EP3103245B1 (en) * | 2014-02-05 | 2019-06-19 | Seon Design (USA) Corp. | Uploading data from mobile devices |
US9274710B1 (en) * | 2014-03-31 | 2016-03-01 | Amazon Technologies, Inc. | Offset-based congestion control in storage systems |
US9495478B2 (en) * | 2014-03-31 | 2016-11-15 | Amazon Technologies, Inc. | Namespace management in distributed storage systems |
US9824093B1 (en) * | 2014-06-30 | 2017-11-21 | EMC IP Holding Company LLC | Datacenter maintenance |
EP3224744A4 (en) * | 2014-11-28 | 2018-08-01 | Nasuni Corporation | Versioned file system with global lock |
US10168762B2 (en) * | 2015-09-17 | 2019-01-01 | Advanced Micro Devices, Inc. | Power management for heterogeneous computing systems |
US20160247243A1 (en) * | 2016-04-29 | 2016-08-25 | EdgeConneX, Inc. | System for measuring, analyzing, allocating and provisioning available electrical capacity in a data center visa vie a sales order request to use electrical capacity |
CN105512283B (zh) | 2015-12-04 | 2019-05-03 | 国网江西省电力公司信息通信分公司 | 数据质量管理控制方法及装置 |
US10152490B2 (en) * | 2015-12-29 | 2018-12-11 | Successfactors, Inc. | Sequential replication with limited number of objects |
-
2015
- 2015-12-04 CN CN201510889904.9A patent/CN105512283B/zh not_active Expired - Fee Related
-
2016
- 2016-08-05 US US15/230,308 patent/US10248674B2/en active Active
- 2016-08-31 WO PCT/CN2016/097717 patent/WO2017092447A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102202073A (zh) * | 2010-03-24 | 2011-09-28 | 杭州华三通信技术有限公司 | 一种分布式***及其数据同步方法 |
CN104899257A (zh) * | 2015-05-18 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 分布式数据仓库中的数据更新方法和装置 |
Non-Patent Citations (1)
Title |
---|
数字校园中基于SOA 的数据同步技术研究与实现;bousoujj;《豆丁www.docin.com/p-135866862.html》;20110301;第1-61页 |
Also Published As
Publication number | Publication date |
---|---|
WO2017092447A1 (en) | 2017-06-08 |
CN105512283A (zh) | 2016-04-20 |
US20170161306A1 (en) | 2017-06-08 |
US10248674B2 (en) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512283B (zh) | 数据质量管理控制方法及装置 | |
CN105677250B (zh) | 对象存储***中的对象数据的更新方法和更新装置 | |
CN104536965B (zh) | 一种大数据条件下的数据查询展示***及方法 | |
CN107220142A (zh) | 执行数据恢复操作的方法及装置 | |
CN105095313B (zh) | 一种数据访问方法和设备 | |
CN110019255A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN107025289B (zh) | 一种数据处理的方法及相关设备 | |
CN111596922A (zh) | 基于redis实现自定义缓存注解的方法 | |
CN104424287B (zh) | 数据查询方法和装置 | |
CN110727727B (zh) | 一种数据库的统计方法及装置 | |
CN112040429B (zh) | 一种基于分布式存储的短信管理***及方法 | |
US20080222098A1 (en) | Methods, systems, and computer program products for providing consolidated order information | |
CN106681999A (zh) | 一种数据表查询方法及设备 | |
CN108696400A (zh) | 网络监测方法和装置 | |
CN110213207A (zh) | 一种基于日志分析的网络安全防御方法及设备 | |
CN108390933A (zh) | 消息分发方法、装置、服务器及存储介质 | |
CN106933836A (zh) | 一种基于分表的数据存储方法和*** | |
CN109063066A (zh) | 数据查询方法及装置、数据管理*** | |
CN109981627A (zh) | 网络威胁情报信息的更新方法及*** | |
CN105260479B (zh) | 一种基于观察者模式的实时数据库实时数据发布方法 | |
CN104317957A (zh) | 一种报表处理的开放平台、***及报表处理方法 | |
CN109325056A (zh) | 一种大数据处理方法及装置、通信设备 | |
CN110109906A (zh) | 数据存储***及方法 | |
TWI238620B (en) | Apparatus and method for collecting updated information from information providing server in network | |
CN111881252A (zh) | 工作报告处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190503 Termination date: 20191204 |
|
CF01 | Termination of patent right due to non-payment of annual fee |