CN112948365A - 一种基于数据元智能匹配的数据质量检测方法 - Google Patents

一种基于数据元智能匹配的数据质量检测方法 Download PDF

Info

Publication number
CN112948365A
CN112948365A CN202110238363.9A CN202110238363A CN112948365A CN 112948365 A CN112948365 A CN 112948365A CN 202110238363 A CN202110238363 A CN 202110238363A CN 112948365 A CN112948365 A CN 112948365A
Authority
CN
China
Prior art keywords
data
task
matching
method based
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110238363.9A
Other languages
English (en)
Inventor
孙延庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110238363.9A priority Critical patent/CN112948365A/zh
Publication of CN112948365A publication Critical patent/CN112948365A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种基于数据元智能匹配的数据质量检测方法。该基于数据元智能匹配的数据质量检测方法,进行大数据分析,汇总政务数据中数据元信息,形成标准数据元格式,维护到数据元标准管理***;将利用搜索服务器ElasticSearch对数据元进行分词处理,选择需要检测的数据库表;录入数据源,通过数据源管理***建立数据源信息,维护需要检测的数据库;进入任务调度***,实现信息项的自动匹配,匹配完成进入人工补全模块,形成检查实例,执行检查实例并发送检查结果。该基于数据元智能匹配的数据质量检测方法,能够有效降低政务数据质量管理成本,提高数据质量问题反馈的效率,从而更好的管理和应用数据,提高了数据的应用价值,适宜推广应用。

Description

一种基于数据元智能匹配的数据质量检测方法
技术领域
本发明涉及数据质量管理技术领域,特别涉及一种基于数据元智能匹配的数据质量检测方法。
背景技术
数据已经成为促进经济发展和技术创新的全新驱动力,为提升公共数据资源利用率,加速政务数据开放已成趋势。如何确保海量数据的质量,提高数据的权威性和准确性成了信息处理领域重要的研究方向。
政务数据具有多样性,变化快,数据量大的特点,但是政务数据还要求具有权威性,这就对数据提出更高更严格的要求。但由于数据存在采集、加工、分析、保存、传输等阶段,且时间跨度大,存在难追溯,人员量大,不可避免造成数据存在质量问题。因此,对大量的、千差万别的政务数据的高效、通用的质量检测,问题可视化处理对帮助政府和社会更快、更直观地认识数据、理解数据、利用数据显得尤为重要。
基于上述问题,本发明提出了一种基于数据元智能匹配的数据质量检测方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于数据元智能匹配的数据质量检测方法。
本发明是通过如下技术方案实现的:
一种基于数据元智能匹配的数据质量检测方法,其特征在于:包括以下步骤:
第一步,进行大数据分析,汇总政务数据中数据元信息,形成标准数据元格式,维护到数据元标准管理***;
第二步,将利用搜索服务器ElasticSearch对数据元进行分词处理,选择需要检测的数据库表;
第三步,录入数据源
通过数据源管理***建立数据源信息,维护需要检测的数据库(前置库,原始库,标准库等);
第四步,进入任务调度***,实现信息项的自动匹配,匹配完成进入人工补全模块,形成检查实例,执行检查实例并发送检查结果。
所述第一步中,数据元属性主要包含数据元名称,数据类型,数据格式,数据集和数据长度;政务数据元目录包括人员类,机构类,位置类,时间类,公文类,金融类和其它类。
所述第二步中,将数据元核心信息,包括主键和名称,同步到搜索服务器ElasticSearch进行分词处理,分词处理实现步骤如下:
S1.首先将数据提交到ElasticSearch数据库中;
S2.通过分词控制器将对应的语句分词,将其权重和分词结果一并存入数据库;
S3.当用户搜索数据时候根据权重将搜索结果进行排名与打分,并将返回结果呈现给用户。
为了保证中英文情况下的正常匹配,所述步骤S2中,使用中文分词插件对标准数据元中文名称进行分词,构建中文字典;使用英文分词插件对标准数据元中英文名称进行分词,构建英文字典。
所述第四步中,通过数据源管理***选择需要检测的数据库表,并维护需要检验的字段,保存进入自动调度任务查询库表中标记的字段,并根据字段的中英文名称检索列出关联的数据元信息,形成检测示例预案;
预案完成后进行人工审核补全,进一步验证***检测的准确性,对错误进行修正,并积累优化检测***,验证完成后提交检测报告;
提交检测报告后进入任务列表,设置增量/全量检测,执行任务开始调度任务实例,任务检测完成后发出消提醒息。
为了实现多任务的负载均衡,所述第四步中,任务管理采用轻量级分布式任务的处理方案,包括调度中心和执行器;任务调度采用中心式设计,基于集群Quartz实现并支持集群部署,执行器支持集群部署;
所述调度中心持有所有的检测任务和执行器;路由方式包含选择第一个,最后一个,轮询和故障转等,一个任务配置一种路由方式;执行任务时按照配置的路由方式分发给任意一个执行器;
所述执行器周期性的自动注册到调度中心,调度中心自动发现注册的任务并触发执行,同时调度中心支持手动录入执行器地址。
所述执行器采用集群部署,支持弹性扩容处理;当有新的执行器上线或者下线时,下次调度时将会重新分配任务;分布式集群部署能够降低单台服务器硬件需求和服务器的压力,同时可以避免某个服务器出现问题后不影响数据质量的检测。
所述第四步中,通过数据元属性匹配数据集,数据格式和/或长度类型的校验,将检验不通过的数据记录到excel文件,并上传到文件服务器,将文件信息持久化到数据库,文件支持下载或推送到数据管理部门;设置增量检测,数据修改后重新进入检测,实现数据质量的实时报告。
本发明的有益效果是:该基于数据元智能匹配的数据质量检测方法,能够有效降低政务数据质量管理成本,提高数据质量问题反馈的效率,从而更好的管理和应用数据,提高了数据的应用价值,适宜推广应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明基于数据元智能匹配的数据质量检测方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该基于数据元智能匹配的数据质量检测方法,包括以下步骤:
第一步,进行大数据分析,汇总政务数据中数据元信息,形成标准数据元格式,维护到数据元标准管理***;
数据元也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元,在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。
通过对政府大数据的梳理积累,字段汇总,将字段的属性总结形成统一的标准,这个过程需要不断的反复验证积累和不断的丰富迭代,是知识库形成的过程,建立健全标准,统一维护到数据元标准***,将数据元归类持久化,方便后期维护整理。
第二步,将利用搜索服务器ElasticSearch对数据元进行分词处理,选择需要检测的数据库表;
第三步,录入数据源
通过数据源管理***建立数据源信息,维护需要检测的数据库(前置库,原始库,标准库等);
ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸缩性,能使数据在生产环境变得更有价值。
第四步,进入任务调度***,实现信息项的自动匹配,匹配完成进入人工补全模块,形成检查实例,执行检查实例并发送检查结果。
所述第一步中,数据元属性主要包含数据元名称,数据类型,数据格式,数据集和数据长度;政务数据元目录包括人员类,机构类,位置类,时间类,公文类,金融类和其它类。
所述第二步中,将数据元核心信息,包括主键和名称,同步到搜索服务器ElasticSearch进行分词处理,分词处理实现步骤如下:
S1.首先将数据提交到ElasticSearch数据库中;
S2.通过分词控制器将对应的语句分词,将其权重和分词结果一并存入数据库;
S3.当用户搜索数据时候根据权重将搜索结果进行排名与打分,并将返回结果呈现给用户。
为了保证中英文情况下的正常匹配,所述步骤S2中,使用中文分词插件对标准数据元中文名称进行分词,构建中文字典;使用英文分词插件对标准数据元中英文名称进行分词,构建英文字典。
所述第四步中,通过数据源管理***选择需要检测的数据库表,并维护需要检验的字段,保存进入自动调度任务查询库表中标记的字段,并根据字段的中英文名称检索列出关联的数据元信息,形成检测示例预案;
预案完成后进行人工审核补全,进一步验证***检测的准确性,对错误进行修正,并积累优化检测***,验证完成后提交检测报告;
提交检测报告后进入任务列表,设置增量/全量检测,执行任务开始调度任务实例,任务检测完成后发出消提醒息。
为了实现多任务的负载均衡,所述第四步中,任务管理采用轻量级分布式任务的处理方案,包括调度中心和执行器;任务调度采用中心式设计,基于集群Quartz实现并支持集群部署,执行器支持集群部署;
所述调度中心持有所有的检测任务和执行器;路由方式包含选择第一个,最后一个,轮询和故障转等,一个任务配置一种路由方式;执行任务时按照配置的路由方式分发给任意一个执行器;
所述执行器周期性的自动注册到调度中心,调度中心自动发现注册的任务并触发执行,同时调度中心支持手动录入执行器地址。
所述执行器采用集群部署,支持弹性扩容处理;当有新的执行器上线或者下线时,下次调度时将会重新分配任务;分布式集群部署能够降低单台服务器硬件需求和服务器的压力,同时可以避免某个服务器出现问题后不影响数据质量的检测。
所述第四步中,通过数据元属性匹配数据集,数据格式和/或长度类型的校验,将检验不通过的数据记录到excel文件,并上传到文件服务器,将文件信息持久化到数据库,文件支持下载或推送到数据管理部门;设置增量检测,数据修改后重新进入检测,实现数据质量的实时报告。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于数据元智能匹配的数据质量检测方法,其特征在于:包括以下步骤:
第一步,进行大数据分析,汇总政务数据中数据元信息,形成标准数据元格式,维护到数据元标准管理***;
第二步,将利用搜索服务器ElasticSearch对数据元进行分词处理,选择需要检测的数据库表;
第三步,录入数据源
通过数据源管理***建立数据源信息,维护需要检测的数据库;
第四步,进入任务调度***,实现信息项的自动匹配,匹配完成进入人工补全模块,形成检查实例,执行检查实例并发送检查结果。
2.根据权利要求1所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述第一步中,数据元属性主要包含数据元名称,数据类型,数据格式,数据集和数据长度;政务数据元目录包括人员类,机构类,位置类,时间类,公文类,金融类和其它类。
3.根据权利要求1所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述第二步中,将数据元核心信息,包括主键和名称,同步到搜索服务器ElasticSearch进行分词处理,分词处理实现步骤如下:
S1.首先将数据提交到ElasticSearch数据库中;
S2.通过分词控制器将对应的语句分词,将其权重和分词结果一并存入数据库;
S3.当用户搜索数据时候根据权重将搜索结果进行排名与打分,并将返回结果呈现给用户。
4.根据权利要求2所述的基于数据元智能匹配的数据质量检测方法,其特征在于:为了保证中英文情况下的正常匹配,所述步骤S2中,使用中文分词插件对标准数据元中文名称进行分词,构建中文字典;使用英文分词插件对标准数据元中英文名称进行分词,构建英文字典。
5.根据权利要求1所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述第四步中,通过数据源管理***选择需要检测的数据库表,并维护需要检验的字段,保存进入自动调度任务查询库表中标记的字段,并根据字段的中英文名称检索列出关联的数据元信息,形成检测示例预案;
预案完成后进行人工审核补全,进一步验证***检测的准确性,对错误进行修正,并积累优化检测***,验证完成后提交检测报告;
提交检测报告后进入任务列表,设置增量/全量检测,执行任务开始调度任务实例,任务检测完成后发出消提醒息。
6.根据权利要求5所述的基于数据元智能匹配的数据质量检测方法,其特征在于:为了实现多任务的负载均衡,所述第四步中,任务管理采用轻量级分布式任务的处理方案,包括调度中心和执行器;任务调度采用中心式设计,基于集群Quartz实现并支持集群部署,执行器支持集群部署;
所述调度中心持有所有的检测任务和执行器;路由方式包含选择第一个,最后一个,轮询和故障转等,一个任务配置一种路由方式;执行任务时按照配置的路由方式分发给任意一个执行器;
所述执行器周期性的自动注册到调度中心,调度中心自动发现注册的任务并触发执行,同时调度中心支持手动录入执行器地址。
7.根据权利要求6所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述执行器采用集群部署,支持弹性扩容处理;当有新的执行器上线或者下线时,下次调度时将会重新分配任务。
8.根据权利要求5所述的基于数据元智能匹配的数据质量检测方法,其特征在于:所述第四步中,通过数据元属性匹配数据集,数据格式和/或长度类型的校验,将检验不通过的数据记录到excel文件,并上传到文件服务器,将文件信息持久化到数据库,文件支持下载或推送到数据管理部门;
设置增量检测,数据修改后重新进入检测,实现数据质量的实时报告。
CN202110238363.9A 2021-03-04 2021-03-04 一种基于数据元智能匹配的数据质量检测方法 Pending CN112948365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110238363.9A CN112948365A (zh) 2021-03-04 2021-03-04 一种基于数据元智能匹配的数据质量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110238363.9A CN112948365A (zh) 2021-03-04 2021-03-04 一种基于数据元智能匹配的数据质量检测方法

Publications (1)

Publication Number Publication Date
CN112948365A true CN112948365A (zh) 2021-06-11

Family

ID=76247494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110238363.9A Pending CN112948365A (zh) 2021-03-04 2021-03-04 一种基于数据元智能匹配的数据质量检测方法

Country Status (1)

Country Link
CN (1) CN112948365A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591485A (zh) * 2021-06-17 2021-11-02 国网浙江省电力有限公司 一种基于数据科学的智能化数据质量稽核***及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理***
CN109542886A (zh) * 2018-11-23 2019-03-29 山东浪潮云信息技术有限公司 一种面向政府数据的数据质量检测方法
CN109993439A (zh) * 2019-04-02 2019-07-09 山东浪潮云信息技术有限公司 一种基于政府数据的质量检测方法
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别***
CN111159191A (zh) * 2019-12-30 2020-05-15 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面
CN111626838A (zh) * 2020-05-28 2020-09-04 山东浪潮商用***有限公司 一种用于税务***的数据治理方法及***
CN111858567A (zh) * 2020-06-18 2020-10-30 南京市江宁区信息化管理服务中心 一种通过标准数据元进行政务数据清洗的方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理***
CN109542886A (zh) * 2018-11-23 2019-03-29 山东浪潮云信息技术有限公司 一种面向政府数据的数据质量检测方法
CN109993439A (zh) * 2019-04-02 2019-07-09 山东浪潮云信息技术有限公司 一种基于政府数据的质量检测方法
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别***
CN111159191A (zh) * 2019-12-30 2020-05-15 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面
CN111626838A (zh) * 2020-05-28 2020-09-04 山东浪潮商用***有限公司 一种用于税务***的数据治理方法及***
CN111858567A (zh) * 2020-06-18 2020-10-30 南京市江宁区信息化管理服务中心 一种通过标准数据元进行政务数据清洗的方法和***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591485A (zh) * 2021-06-17 2021-11-02 国网浙江省电力有限公司 一种基于数据科学的智能化数据质量稽核***及方法

Similar Documents

Publication Publication Date Title
US9124612B2 (en) Multi-site clustering
CN111008521B (zh) 生成宽表的方法、装置及计算机存储介质
CN110633186A (zh) 用于电力计量微服务架构的日志监控***及实现方法
WO2007085187A1 (fr) Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche
US20080243776A1 (en) System and method to facilitate real-time end-user awareness in query results through layer approach utilizing end-user interaction, loopback feedback, and automatic result feeder
CN111563095B (zh) 一种基于HBase的数据检索装置
CN111651451A (zh) 一种场景驱动的单体***微服务拆分方法
CN110321383A (zh) 大数据平台数据同步方法、装置、计算机设备及存储介质
CN103425672A (zh) 一种数据库索引的建立方法及装置
CN107330098B (zh) 一种自定义报表的查询方法、计算节点及查询***
CN111914066B (zh) 多源数据库全局搜索方法及***
CN113282611A (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN110209578B (zh) 一种信息在线测试平台
CN112948365A (zh) 一种基于数据元智能匹配的数据质量检测方法
CN114637903A (zh) 一种针对定向目标数据拓展的舆情数据采集***
De Renzis et al. Semantic-structural assessment scheme for integrability in service-oriented applications
Han et al. Design and implementation of elasticsearch for media data
CN107291938A (zh) 订单查询***及方法
CN111581504A (zh) 一种基于大数据的行业信息推送方法及***
CN116821179A (zh) 一种达梦数据库跨库搜索***和方法
CN113590651B (zh) 一种基于hql的跨集群数据处理***及方法
CN115168361A (zh) 一种标签管理方法和装置
CN114218114B (zh) 基于接口流程编排的全自动测试数据生成方法
CN113626642B (zh) 视频化脚本语义结构的组装方法、***和电子装置
TWI764026B (zh) 日誌管理設備及日誌管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611