CN113342791A - 一种数据质量监测方法及装置 - Google Patents

一种数据质量监测方法及装置 Download PDF

Info

Publication number
CN113342791A
CN113342791A CN202110599083.0A CN202110599083A CN113342791A CN 113342791 A CN113342791 A CN 113342791A CN 202110599083 A CN202110599083 A CN 202110599083A CN 113342791 A CN113342791 A CN 113342791A
Authority
CN
China
Prior art keywords
data quality
quality monitoring
field
monitoring
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110599083.0A
Other languages
English (en)
Inventor
梁婷
祁成
韩奇城
杜敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110599083.0A priority Critical patent/CN113342791A/zh
Publication of CN113342791A publication Critical patent/CN113342791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Library & Information Science (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种数据质量监测方法及装置,属于计算机领域,可以用于金融领域,所述方法包括:根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。

Description

一种数据质量监测方法及装置
技术领域
本申请涉及计算机领域,可以用于金融领域,具体是一种数据质量监测方法及装置。
背景技术
大数据建设体系中重要的一环是数据质量监控。通常每隔一段时间,数据质量监控***都会对其所监控的数据进行批量治理。将所有没做过基础监控规则(如主键唯一性校验及表不为空校验)的数据表推送给责任人确认,并人工配置监控规则。以上过程虽然可以作为一条数据质量反馈通道,帮助业务人员进行数据监控,但较为繁琐。且数据使用者往往在发现数据存在问题时,才会通知责任人进行问题排查并配置相应规则,时间上也具有滞后性。
综上所述,现有技术的缺陷如下:一是人工配置数据监控规则会增加整个数据链路运行的时长;二是数据质量还有很多基础监控规则以外的问题需要主动监控,比如某些字段的指标数据波动等,而现有技术均未有体现。
发明内容
针对现有技术中的问题,本申请提供一种数据质量监测方法及装置,能够根据数据质量监测规则,利用预先构建的机器学习模型进行数据质量监测。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种数据质量监测方法,包括:
根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
进一步地,在根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单之前,还包括:
获取所述数据仓库中的表信息、字段信息、字段依赖关系及监测规则信息;
根据所述表信息、字段信息、字段依赖关系及监测规则信息构建所述元数据。
进一步地,所述根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单,包括:
筛查所述数据仓库中的各接口表是否为空;
如不为空,则筛查所述接口表的表主键是否唯一;
若表主键唯一,筛查所述数据仓库中的各接口表中是否存在异常字段;
根据筛查结果确定所述数据质量监测表级清单。
进一步地,所述利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单,包括:
根据所述表信息、字段信息、字段依赖关系构建字段节点有向图;
利用预先构建的机器学习模型确定所述字段节点有向图中各字段节点的重要性值;
根据预先设定的重要性阈值及所述各字段节点的重要性值确定数据质量监测字段级清单。
进一步地,所述根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单,包括:
分别获取根据数据质量监测表级清单中的字段及数据质量监测字段级清单中的字段;
对获取到的字段取并集,得到数据质量监测输出清单。
进一步地,所述对所述数据质量监测输出清单中的监测信息进行数据质量监测,包括:
根据所述数据质量监测规则生成对应的数据库描述语言;
根据所述数据库描述语言对所述数据质量监测输出清单中的监测信息进行数据质量监测。
第二方面,本申请提供一种数据质量监测装置,包括:
表级清单生成单元,用于根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
字段级清单生成单元,用于利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
输出清单生成单元,用于根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
数据质量监测单元,用于对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
进一步地,所述的数据质量监测装置,还包括:
信息获取单元,用于获取所述数据仓库中的表信息、字段信息、字段依赖关系及监测规则信息;
元数据构建单元,用于根据所述表信息、字段信息、字段依赖关系及监测规则信息构建所述元数据。
进一步地,所述表级清单生成单元,包括:
空表筛查模块,用于筛查所述数据仓库中的各接口表是否为空;
主键筛查模块,用于如不为空,则筛查所述接口表的表主键是否唯一;
异常字段筛查模块,用于若表主键唯一,筛查所述数据仓库中的各接口表中是否存在异常字段;
表级清单确定模块,用于根据筛查结果确定所述数据质量监测表级清单。
进一步地,所述字段级清单生成单元,包括:
有向图构建模块,用于根据所述表信息、字段信息、字段依赖关系构建字段节点有向图;
重要性值确定模块,用于利用预先构建的机器学习模型确定所述字段节点有向图中各字段节点的重要性值;
字段级清单确定模块,用于根据预先设定的重要性阈值及所述各字段节点的重要性值确定数据质量监测字段级清单。
进一步地,所述输出清单生成单元,包括:
字段获取模块,用于分别获取根据数据质量监测表级清单中的字段及数据质量监测字段级清单中的字段;
输出清单确定模块,用于对获取到的字段取并集,得到数据质量监测输出清单。
进一步地,所述数据质量监测单元,包括:
描述语言生成模块,用于根据所述数据质量监测规则生成对应的数据库描述语言;
数据质量监测模块,用于根据所述数据库描述语言对所述数据质量监测输出清单中的监测信息进行数据质量监测。
第三方面,本申请提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述数据质量监测方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述数据质量监测方法的步骤。
针对现有技术中的问题,本申请提供的数据质量监测方法及装置,能够利用数据质量监测***的输入层、规则策略层、算法层及输出层,实现表级与字段级全覆盖、更精准的数据质量监测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中数据质量监测方法的流程图之一;
图2为本申请实施例中数据质量监测方法的流程图之二;
图3为本申请实施例中得到数据质量监测表级清单的流程图;
图4为本申请实施例中得到数据质量监测字段级清单的流程图;
图5为本申请实施例中确定数据质量监测输出清单的流程图;
图6为本申请实施例中进行数据质量监测的流程图;
图7为本申请实施例中数据质量监测装置的结构图之一;
图8为本申请实施例中数据质量监测装置的结构图之二;
图9为本申请实施例中表级清单生成单元的结构图;
图10为本申请实施例中字段级清单生成单元的结构图;
图11为本申请实施例中输出清单生成单元的结构图;
图12为本申请实施例中数据质量监测单元的结构图;
图13为本申请实施例中的电子设备的结构示意图;
图14为本申请实施例中数据质量监测方法的示意图之一;
图15为本申请实施例中数据质量监测方法的示意图之二;
图16为本申请实施例中数据质量监测方法的示意图之三;
图17为本申请实施例中数据质量监测方法的示意图之四。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请提供的数据质量监测方法及装置,可用于金融领域,也可用于除金融领域之外的任意领域,本申请提供的数据质量监测方法及装置的应用领域不做限定。
参见图1,为了能够根据数据质量监测规则,利用预先构建的机器学习模型进行数据质量监测,本申请提供一种数据质量监测方法,包括:
S101:根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
S102:利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
可以理解的是,本申请提供数据质量监测方法可以应用于金融数据中心及电商平台等多领域的数据存储***,实现对数据质量的表级监测及字段级监测。所谓表级监测是指针对数据库所存储的各数据表,依照预先设置的数据质量表级监测规则对各数据表进行概况监测。表级监测的监测粒度相对较粗,无法深入对表内的各数据字段进行监测。所谓字段级监测是指在表级监测的基础上,利用预先构建的机器学习模型深度筛查各数据表中的各数据字段,完成粒度相对较细的数据质量监测。本申请提供的数据质量监测方法基于图算法实现,这种实现方式可以提升数据质量监测规则配置的全面性及精准性。上述数据质量的监测可以依托一数据质量监测***实现,换而言之,该数据质量监测***可以作为本申请提供的数据质量监测方法的执行主体。
S103:根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
S104:对数据质量监测输出清单中的监测信息进行数据质量监测。
可以理解的是,在数据质量监测表级清单及数据质量监测字段级清单生成的基础上,数据质量监测***可以读取数据质量监测表级清单及数据质量监测字段级清单中的监测信息,将其加工整合后得到数据质量监测输出清单;最后,对数据质量监测输出清单中的监测信息进行数据质量监测。需要说明的是,监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则,在较佳的实施例中,还可以包括数据质量监测负责人等。
其中,数据质量监测表级清单及数据质量监测字段级清单可以分别如下表所示:
Figure BDA0003092147550000061
Figure BDA0003092147550000062
从上述描述可知,本申请提供的数据质量监测方法,能够利用数据质量监测***的输入层、规则策略层、算法层及输出层,实现表级与字段级全覆盖、更精准的数据质量监测。
参见图2,在根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单之前,还包括:
S201:获取数据仓库中的表信息、字段信息、字段依赖关系及监测规则信息;
S202:根据表信息、字段信息、字段依赖关系及监测规则信息构建元数据。
可以理解的是,参见图17,在本申请实施例中,数据质量监测***可以分为四层,分别是输入层、规则策略层、算法层及输出层。其中,构建元数据的过程可以在输入层执行。
具体地,数据质量监测***可以在输入层访问数据仓库或数据集市的元数据。这些元数据包括但不限于表信息、字段信息、字段依赖关系及监测规则信息。元数据可以用来描述数据的基本信息、依赖信息及调用信息等情况,如表信息可以包括表的维护人、表的生命周期、表的名称、表所属的库名、表的访问量及表的存储大小等;字段信息可以包括字段的中文描述、字段所属的表名、字段的维护人、字段的空值率及字段的类型等;字段依赖关系可以包括父节点字段三要素(即表名、库名、字段名)、子节点三要素(即表名、库名、字段名)、父子节点的维护人、强弱依赖类型等;监测规则信息可以包括监测对象、具体监测规则、监测阈值、监侧规则强弱等。这些元数据可以通过数据库自动采集及人工登记等方式获取。
举例而言,一个表信息可以如下表:
Figure BDA0003092147550000071
监测规则信息可以如下表:
序号 库名 表名 字段名 规则级别 规则描述 ...
1 A TABLE1 / 表级 主键唯一 ...
通过对两个元数据按照库名+表名进行关联,还可以获得更多的信息,如该表是否配置了数据监测规则以及配置了什么具体监测规则等,为规则策略层的规则运算提供了数据支撑,这一过程也可以理解为构建元数据的过程。当然,元数据也可以由数据仓库中直接获取,本申请不以此为限。
从上述描述可知,本申请提供的数据质量监测方法,能够获取并构建元数据。
参见图3,根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单,包括:
S301:筛查数据仓库中的各接口表是否为空;
S302:当不为空时,则筛查接口表的表主键是否唯一;
S303:当表主键唯一时,筛查数据仓库中的各接口表中是否存在异常字段;
S304:根据筛查结果确定数据质量监测表级清单。
S305:后台记录下存在异常的接口表。
可以理解的是,本申请实施例中的数据质量监测***可以在规则策略层完成表级监测,通过配置表级数据质量监测规则来拉取数据质量监测表级清单。在规则策略层,实施例中一般可以配置较简单的规则,对数据表(接口表)进行初步较粗粒度的监测。这些规则通过对元数据进行简单统计,可以筛选出存在问题的,也就是不满足表级数据质量监测规则的数据表(接口表)。
举例而言,本申请实施例推荐配置以下几个规则:
①接口表必须配置表不为空规则
②接口表必须配置主键唯一规则
③接口表必须配置字段级监控规则
④接口表字符型字段需配置空置率波动监控规则(如字段“用户常住地”的空值率7天前为10%,当天的空置率为50%,则认为波动过大,存在数据质量问题)。
⑤接口表数值型字段需配置总和波动监控规则(如字段“最近1年交易金额”,1月前表中所有记录求和为1亿,当天表中所有记录求和为8亿,则认为波动过大,存在质量问题)。
需要说明的是,业务中生成的临时表及中间表不对业务***外输出,因此,与对业务***外输出的接口表相比,临时表及中间表相对次要。为了避免拖延数据链路的产出时间,在本申请实施例中不对临时表及中间表中的数据按照上述规则进行数据质量监测,上述数据质量监测规则仅对接口表实施。在一更优的实施例中,上述应用于接口表的数据质量监测规则也可以应用于临时表及中间表。
其中,④与⑤虽然涉及字段,但需要在表的层面从整体上去监测,因此需要按照表级数据质量监测规则进行监测。
从上述描述可知,本申请提供的数据质量监测方法,能够根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单。
参见图4,利用预先构建的机器学习模型筛查元数据,得到数据质量监测字段级清单,包括:
S401:根据表信息、字段信息、字段依赖关系构建字段节点有向图;
S402:利用预先构建的机器学习模型确定字段节点有向图中各字段节点的重要性值;
S403:根据预先设定的重要性阈值及各字段节点的重要性值确定数据质量监测字段级清单。
可以理解的是,本申请实施例中的数据质量监测***可以在规则策略层完成字段级监测,利用图算法抽取字段特征,再利用机器学习模型对字段是否需要监测进行预测,具体过程如下:
①构图:字段之间的依赖关系可以存储于一张二元关系表中(表1),利用图的思想,将二元关系转化成图关系。以库名+表名+字段名作为节点,依赖关系作为边进行构图,图为有向图,方向为存在依赖关系的父节点指向子节点。
举例而言,如表1所述的二元关系可转换为图14。
表1 字段血缘关系示意
父库名 父表名 父字段名 子库名 子表名 子字段名
A Table1 var1 A Table2 Var1
A Table1 Var1 B Table3 Var3
②计算节点的重要性
在计算节点的重要性时往往基于两个假设:第一,一个节点的下游越多,这个节点可能越重要;第二,对于一个重要的节点,其上游节点往往也相对重要。本申请实施例采用改进后的PageRank算法(也可理解为重新构建了机器学习模型),将各节点计算得到的PR值作为该节点的重要性值。
经过场景的适用性改进,本申请实施例使用下述公式来衡量节点的重要性:
Figure BDA0003092147550000091
pi为当前节点,pj为pi节点的其中一个下游节点,Mpi为pi节点的所有下游集合,L(pj)为pj节点的入度。
所有节点的PR值都会一直迭代计算,直到结果收敛为止,然后将PR值进行归一化,可以得出最终值。本申请不对收敛阈值进行具体限定,具体可依实际情况进行选取。
图15以一简单示例描述了如上算法的计算过程,假设各节点之间存在如图15所示的依赖关系。
那么,从入度情况可建立矩阵
Figure BDA0003092147550000101
除以该行的数字之和,可以得出
Figure BDA0003092147550000102
经过转置可以得出
Figure BDA0003092147550000103
设每个节点的初始PR值为1,得出
Figure BDA0003092147550000104
Figure BDA0003092147550000105
持续迭代直至X’收敛,即:
一次迭代计算中,
Figure BDA0003092147550000106
再一次迭代计算中,
Figure BDA0003092147550000107
可以发现X’此时已收敛,再将PR值归一化,得出
Figure BDA0003092147550000108
即三个节点a、b及c的PR值分别为0.4、0.2及0.4。
再举一例说明:比如字段的依赖关系可以转化成如图16所示的有向图。
经过公式计算可以得出:
'B':0.027777907029846994
'A':0.2777758071818005
'C':0.06250017033612078
'D':0.07638886092778685
'E':0.06944431583032772
'F':0.04166659762151306
'G':0.027777907029846994
'X':0.027777907029846994
'Y':0.027777907029846994
'Z':0.027777907029846994
'M':0.16666735647660766
'H':0.16666735647660766
本申请实施例可以使用上述算法计算,也可选取其他算法计算,本申请不以此为限。
③确定阈值:对于超过某一阈值的节点可以认为需要配置监测规则,进入数据质量监测字段级清单。如设定阈值为0.07,对于上述例子,A、M、H、D四个节点认为是重要字段,需要配置监测规则。
从上述描述可知,本申请提供的数据质量监测方法,能够利用预先构建的机器学习模型筛查元数据,得到数据质量监测字段级清单。
参见图5,根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单,包括:
S501:分别获取根据数据质量监测表级清单中的字段及数据质量监测字段级清单中的字段;
S502:对获取到的字段取并集,得到数据质量监测输出清单。
可以理解的是,数据质量监测***可以从数据质量监测表级清单中获取到哪张表需要被监测。对于需要被监测的表,可以理解为其中的各字段也全部需要被监测。同时,数据质量监测***还可以读取数据质量监测字段级清单,从中获得需要进行质量监测的字段。最终将所有字段取并集,得到数据质量监测输出清单。数据质量监测输出清单中至少包括但不限于数据库名、数据表名、数据字段名及未满足的监测规则等监测信息。
从上述描述可知,本申请提供的数据质量监测方法,能够根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单。
参见图6,对数据质量监测输出清单中的监测信息进行数据质量监测,包括:
S601:根据数据质量监测规则生成对应的数据库描述语言;
S602:根据数据库描述语言对数据质量监测输出清单中的监测信息进行数据质量监测。
可以理解的是,数据质量监测***可以根据数据质量监测规则生成对应的数据库描述语言。举例而言,在配置表级数据质量监测规则时,关于主键唯一的筛查可以对应如下的数据库描述语言。其中,较常用的为结构化查询语言(Structured Query Language,SQL)。
Select t1.库名,t1.表名,t1.字段名,t1.维护人,‘主键唯一’as缺失规则描述
From
(Select*from表元数据where表类型=‘接口表’)t1
Left outer join
(Select*from监测规则元数据where字段名=‘/’and规则描述=
‘主键唯一’)t2
On t1.库名=t2.库名and t1.表名=t2.表名
where t2.表名is null
通过如上的数据库描述语言可以筛查出主键不唯一的数据表,其他数据质量监测规则以此类推。最终可以根据数据库描述语言对数据质量监测输出清单中的监测信息进行数据质量监测。
从上述描述可知,本申请提供的数据质量监测方法,能够对数据质量监测输出清单中的监测信息进行数据质量监测。
基于同一发明构思,本申请实施例还提供了一种数据质量监测装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于数据质量监测装置解决问题的原理与数据质量监测方法相似,因此数据质量监测装置的实施可以参见基于软件性能基准确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
参见图7,为了能够根据数据质量监测规则,利用预先构建的机器学习模型进行数据质量监测,本申请提供一种数据质量监测装置,包括:
表级清单生成单元701,用于根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
字段级清单生成单元702,用于利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
输出清单生成单元703,用于根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
数据质量监测单元704,用于对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
参见图8,数据质量监测装置,还包括:
信息获取单元801,用于获取所述数据仓库中的表信息、字段信息、字段依赖关系及监测规则信息;
元数据构建单元802,用于根据所述表信息、字段信息、字段依赖关系及监测规则信息构建所述元数据。
参见图9,表级清单生成单元701,包括:
空表筛查模块901,用于筛查所述数据仓库中的各接口表是否为空;
主键筛查模块902,用于如不为空,则筛查所述接口表的表主键是否唯一;
异常字段筛查模块903,用于若表主键唯一,筛查所述数据仓库中的各接口表中是否存在异常字段;
表级清单确定模块904,用于根据筛查结果确定所述数据质量监测表级清单。
参见图10,字段级清单生成单元702,包括:
有向图构建模块1001,用于根据所述表信息、字段信息、字段依赖关系构建字段节点有向图;
重要性值确定模块1002,用于利用预先构建的机器学习模型确定所述字段节点有向图中各字段节点的重要性值;
字段级清单确定模块1003,用于根据预先设定的重要性阈值及所述各字段节点的重要性值确定数据质量监测字段级清单。
参见图11,输出清单生成单元703,包括:
字段获取模块1101,用于分别获取根据数据质量监测表级清单中的字段及数据质量监测字段级清单中的字段;
输出清单确定模块1102,用于对获取到的字段取并集,得到数据质量监测输出清单。
参见图12,数据质量监测单元704,包括:
描述语言生成模块1201,用于根据所述数据质量监测规则生成对应的数据库描述语言;
数据质量监测模块1202,用于根据所述数据库描述语言对所述数据质量监测输出清单中的监测信息进行数据质量监测。
从硬件层面来说,为了能够根据数据质量监测规则,利用预先构建的机器学习模型进行数据质量监测,本申请提供一种用于实现所述数据质量监测方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(Processor)、存储器(Memory)、通讯接口(Communications Interface)和总线;其中,所述处理器、存储器、通讯接口通过所述总线完成相互间的通讯;所述通讯接口用于实现所述数据质量监测装置与核心业务***、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的数据质量监测方法的实施例,以及数据质量监测装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,数据质量监测方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通讯模块(即通讯单元),可以与远程的服务器进行通讯连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通讯链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图13为本申请实施例的电子设备9600的***构成的示意框图。如图13所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图13是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,数据质量监测方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
S101:根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
S102:利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
S103:根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
S104:对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
从上述描述可知,本申请提供的数据质量监测方法,能够利用数据质量监测***的输入层、规则策略层、算法层及输出层,实现表级与字段级全覆盖、更精准的数据质量监测。
在另一个实施方式中,数据质量监测装置可以与中央处理器9100分开配置,例如可以将数据复合传输装置数据质量监测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现数据质量监测方法的功能。
如图13所示,该电子设备9600还可以包括:通讯模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图13中所示的所有部件;此外,电子设备9600还可以包括图13中没有示出的部件,可以参考现有技术。
如图13所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通讯功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通讯模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通讯模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通讯终端的情况相同。
基于不同的通讯技术,在同一电子设备中,可以设置有多个通讯模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通讯模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的数据质量监测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的数据质量监测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
S102:利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
S103:根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
S104:对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
从上述描述可知,本申请提供的数据质量监测方法,能够利用数据质量监测***的输入层、规则策略层、算法层及输出层,实现表级与字段级全覆盖、更精准的数据质量监测。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种数据质量监测方法,其特征在于,包括:
根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
2.根据权利要求1所述的数据质量监测方法,其特征在于,在根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单之前,还包括:
获取所述数据仓库中的表信息、字段信息、字段依赖关系及监测规则信息;
根据所述表信息、字段信息、字段依赖关系及监测规则信息构建所述元数据。
3.根据权利要求2所述的数据质量监测方法,其特征在于,所述根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单,包括:
筛查所述数据仓库中的各接口表是否为空;
如不为空,则筛查所述接口表的表主键是否唯一;
若表主键唯一,筛查所述数据仓库中的各接口表中是否存在异常字段;
根据筛查结果确定所述数据质量监测表级清单。
4.根据权利要求2所述的数据质量监测方法,其特征在于,所述利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单,包括:
根据所述表信息、字段信息、字段依赖关系构建字段节点有向图;
利用预先构建的机器学习模型确定所述字段节点有向图中各字段节点的重要性值;
根据预先设定的重要性阈值及所述各字段节点的重要性值确定数据质量监测字段级清单。
5.根据权利要求1所述的数据质量监测方法,其特征在于,所述根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单,包括:
分别获取根据数据质量监测表级清单中的字段及数据质量监测字段级清单中的字段;
对获取到的字段取并集,得到数据质量监测输出清单。
6.根据权利要求1所述的数据质量监测方法,其特征在于,所述对所述数据质量监测输出清单中的监测信息进行数据质量监测,包括:
根据所述数据质量监测规则生成对应的数据库描述语言;
根据所述数据库描述语言对所述数据质量监测输出清单中的监测信息进行数据质量监测。
7.一种数据质量监测装置,其特征在于,包括:
表级清单生成单元,用于根据预先设置的数据质量监测规则筛查数据仓库中的元数据,得到数据质量监测表级清单;
字段级清单生成单元,用于利用预先构建的机器学习模型筛查所述元数据,得到数据质量监测字段级清单;
输出清单生成单元,用于根据数据质量监测表级清单及数据质量监测字段级清单确定数据质量监测输出清单;
数据质量监测单元,用于对所述数据质量监测输出清单中的监测信息进行数据质量监测;所述监测信息至少包括数据库名、数据表名、数据字段名及未满足的监测规则。
8.根据权利要求7所述的数据质量监测装置,其特征在于,还包括:
信息获取单元,用于获取所述数据仓库中的表信息、字段信息、字段依赖关系及监测规则信息;
元数据构建单元,用于根据所述表信息、字段信息、字段依赖关系及监测规则信息构建所述元数据。
9.根据权利要求8所述的数据质量监测装置,其特征在于,所述表级清单生成单元,包括:
空表筛查模块,用于筛查所述数据仓库中的各接口表是否为空;
主键筛查模块,用于如不为空,则筛查所述接口表的表主键是否唯一;
异常字段筛查模块,用于若表主键唯一,筛查所述数据仓库中的各接口表中是否存在异常字段;
表级清单确定模块,用于根据筛查结果确定所述数据质量监测表级清单。
10.根据权利要求8所述的数据质量监测装置,其特征在于,所述字段级清单生成单元,包括:
有向图构建模块,用于根据所述表信息、字段信息、字段依赖关系构建字段节点有向图;
重要性值确定模块,用于利用预先构建的机器学习模型确定所述字段节点有向图中各字段节点的重要性值;
字段级清单确定模块,用于根据预先设定的重要性阈值及所述各字段节点的重要性值确定数据质量监测字段级清单。
11.根据权利要求7所述的数据质量监测装置,其特征在于,所述输出清单生成单元,包括:
字段获取模块,用于分别获取根据数据质量监测表级清单中的字段及数据质量监测字段级清单中的字段;
输出清单确定模块,用于对获取到的字段取并集,得到数据质量监测输出清单。
12.根据权利要求7所述的数据质量监测装置,其特征在于,所述数据质量监测单元,包括:
描述语言生成模块,用于根据所述数据质量监测规则生成对应的数据库描述语言;
数据质量监测模块,用于根据所述数据库描述语言对所述数据质量监测输出清单中的监测信息进行数据质量监测。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的数据质量监测方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述的数据质量监测方法的步骤。
CN202110599083.0A 2021-05-31 2021-05-31 一种数据质量监测方法及装置 Pending CN113342791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599083.0A CN113342791A (zh) 2021-05-31 2021-05-31 一种数据质量监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599083.0A CN113342791A (zh) 2021-05-31 2021-05-31 一种数据质量监测方法及装置

Publications (1)

Publication Number Publication Date
CN113342791A true CN113342791A (zh) 2021-09-03

Family

ID=77472441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599083.0A Pending CN113342791A (zh) 2021-05-31 2021-05-31 一种数据质量监测方法及装置

Country Status (1)

Country Link
CN (1) CN113342791A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108021A (zh) * 2023-04-11 2023-05-12 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备
CN116402480A (zh) * 2023-06-07 2023-07-07 成都普朗克科技有限公司 基于关联规则自建模型输出清单的方法和***
WO2024039017A1 (en) * 2022-08-16 2024-02-22 Samsung Electronics Co., Ltd. Method and apparatus for managing quality of data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN107515886A (zh) * 2016-06-17 2017-12-26 阿里巴巴集团控股有限公司 一种数据表的识别方法、装置和***
WO2020207014A1 (zh) * 2019-04-09 2020-10-15 平安科技(深圳)有限公司 大数据自动回归测试方法、装置、测试中心服务器和存储介质
CN111913954A (zh) * 2020-06-20 2020-11-10 杭州城市大数据运营有限公司 智能数据标准目录生成方法和装置
CN112084269A (zh) * 2018-12-25 2020-12-15 北京锐安科技有限公司 数据质量计算方法、装置、存储介质及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN107515886A (zh) * 2016-06-17 2017-12-26 阿里巴巴集团控股有限公司 一种数据表的识别方法、装置和***
CN112084269A (zh) * 2018-12-25 2020-12-15 北京锐安科技有限公司 数据质量计算方法、装置、存储介质及服务器
WO2020207014A1 (zh) * 2019-04-09 2020-10-15 平安科技(深圳)有限公司 大数据自动回归测试方法、装置、测试中心服务器和存储介质
CN111913954A (zh) * 2020-06-20 2020-11-10 杭州城市大数据运营有限公司 智能数据标准目录生成方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024039017A1 (en) * 2022-08-16 2024-02-22 Samsung Electronics Co., Ltd. Method and apparatus for managing quality of data
CN116108021A (zh) * 2023-04-11 2023-05-12 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备
CN116108021B (zh) * 2023-04-11 2023-09-08 北方健康医疗大数据科技有限公司 基于标准数据集进行多维度数据质控的方法、装置及设备
CN116402480A (zh) * 2023-06-07 2023-07-07 成都普朗克科技有限公司 基于关联规则自建模型输出清单的方法和***
CN116402480B (zh) * 2023-06-07 2023-09-19 成都普朗克科技有限公司 基于关联规则自建模型输出清单的方法和***

Similar Documents

Publication Publication Date Title
CN113342791A (zh) 一种数据质量监测方法及装置
Bertsimas et al. Adaptive distributionally robust optimization
CN109377329B (zh) 一种房源推荐方法、装置、存储介质及电子设备
US11249969B2 (en) Data storage method and apparatus, and storage medium
CN106802932B (zh) 一种数据库的路由方法、装置及数据库***
US10909484B2 (en) Dynamic directed graph workflows
US20220020064A1 (en) Feature processing method and apparatus for artificial intelligence recommendation model, electronic device, and storage medium
US8244760B2 (en) Segmentation and profiling of users
US9135647B2 (en) Methods and systems for flexible and scalable databases
CN104933173B (zh) 一种用于异构多数据源的数据处理方法、装置和服务器
US9977819B2 (en) Sharing data on mobile devices
US11379226B2 (en) Mission-based developer certification system and method
CN107181729B (zh) 在多租户云环境中的数据加密
CN106844319B (zh) 报表生成方法及装置
US20210334312A1 (en) System and method for generating highly scalable temporal graph database
CN111625561A (zh) 一种数据查询方法及装置
CN102291453A (zh) 一种数据同步的方法及装置
CN108804454B (zh) 一种群画像方法、群画像装置及服务器
CN111488531B (zh) 一种基于协同过滤算法的信息推荐方法、设备及介质
CN110309147B (zh) 飞行器在轨试验双向溯源方法及设备
CN100383789C (zh) 一种对***资源进行管理的实现方法
Jamalizadeh et al. Discussion of “Birnbaum‐Saunders distribution: A review of models, analysis, and applications”
CN112734404B (zh) 研发过程迭代的工时统计方法、装置、计算机设备
CN114610803A (zh) 一种数据处理方法、装置、电子设备和存储介质
Li A note on a by-claim risk model: Asymptotic results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination