CN113535707B - 一种基于大数据进行人员信息数据治理的方法 - Google Patents

一种基于大数据进行人员信息数据治理的方法 Download PDF

Info

Publication number
CN113535707B
CN113535707B CN202110895458.8A CN202110895458A CN113535707B CN 113535707 B CN113535707 B CN 113535707B CN 202110895458 A CN202110895458 A CN 202110895458A CN 113535707 B CN113535707 B CN 113535707B
Authority
CN
China
Prior art keywords
data
personnel information
information data
exploration
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110895458.8A
Other languages
English (en)
Other versions
CN113535707A (zh
Inventor
阎星娥
杨昆
刘慰慰
严荣明
张�林
袁勇斌
薛世峰
石旦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huafei Data Technology Co ltd
Original Assignee
Nanjing Huafei Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huafei Data Technology Co ltd filed Critical Nanjing Huafei Data Technology Co ltd
Priority to CN202110895458.8A priority Critical patent/CN113535707B/zh
Publication of CN113535707A publication Critical patent/CN113535707A/zh
Application granted granted Critical
Publication of CN113535707B publication Critical patent/CN113535707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出的是一种基于大数据进行人员信息数据治理的方法,该方法包括以下步骤:1)数据标准:将人员信息数据标准化;2)数据备案:将人员信息数据的基本信息及原始数据上传进行登记备案;3)数据探查:进行人员信息数据探查,生成人员信息数据探查报告;4)数据预清洗:获取人员信息数据探查报告,对人员信息数据进行预清洗操作;5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理;6)数据接入处理:进行数据读取将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理;7)数据资产:对人员信息数据进行资产管理;本发明能够提供完整、及时的高质量人员信息数据。

Description

一种基于大数据进行人员信息数据治理的方法
技术领域
本发明涉及一种基于大数据进行人员信息数据治理的方法,属于人员信息数据治理领域。
背景技术
如今,人类的生产生活每天都在产生各种各样的庞大的数据,并且产生的速度越来越快;因此,海量异构的人员信息数据的接入、处理和管理的问题越来越引起人们的重视;在企业中,经常会面临人员信息数据离散化、人员信息数据质量参差不齐等问题,其原因如下:
一是人员信息数据量庞大、来源多样、结构混乱,数据缺少统一的标准规范,杂乱的数据会导致资源空间的浪费;
二是人员信息数据不完整、不准确问题越来越明显,人员信息数据质量低下成为了人员信息数据的核心问题。
发明内容
本发明提出的是一种基于大数据进行人员信息数据治理的方法,其目的旨在解决人员信息数据质量低下的问题。
本发明的技术解决方案:一种基于大数据进行人员信息数据治理的方法,该方法包括以下步骤:
1)数据标准:将人员信息数据标准化,对人员信息数据进行统一规范的管理,消除各部门间的人员信息数据壁垒;
2)数据备案:将人员信息数据的基本信息及原始数据上传进行登记备案,对人员信息数据进行备忘登记;
3)数据探查:从步骤2)中获取已登记备案的原始数据,对其进行人员信息数据探查,生成人员信息数据探查报告;
4)数据预清洗:从步骤3)中获取人员信息数据探查报告,掌握人员信息数据存在的质量问题,对人员信息数据进行预清洗操作,并将结果存储到hive临时库;
5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理,生成步骤6)所需的配置,形成人员信息数据定义结果供大数据治理平台调用;
6)数据接入处理:根据业务需求,基于步骤3)-步骤5),进行数据读取将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理,并与人员信息数据提供方进行数据核对,最后将处理完的人员信息数据写文件存储;
7)数据资产:对步骤6)中接入的人员信息数据进行资产管理,掌握人员信息数据资产的情况。
进一步地,所述步骤3)中的人员信息数据探查包括两次重复的多维度探查分析,一次是对原始数据的探查,另一次是对步骤4)中数据预清洗后的人员信息数据再次进行探查。
进一步地,所述步骤3)中多维度探查分析包括对人员信息数据量探查、对人员信息数据的字段与质量探查、问题数据探查。
进一步地,所述对人员信息数据量探查是探查出所有的人员信息数据量情况。
进一步地,所述对人员信息数据的字段与质量探查,包括:a)字段空值率探查,b)命名实体探查,c)类型及格式探查。
进一步地,所述字段空值率探查,具体为:通过公式(1)统计出字段空值占比情况:
Figure BDA0003197703680000031
式中:Rate表示空值率,f(k)表示字段空值数,k表示下界,n表示上界,m表示总行数,z表示特殊字符行数。
进一步地,所述命名实体探查,具体为:自动探查分析出字段内容的标识,再结合原始数据的值进行人工介入,识别出字段内容中的人名、地名、证件号码、手机号命名实体。
进一步地,所述类型及格式探查,具体为:探查人员信息数据的字段类型及格式是否符合规范。
进一步地,所述问题数据探查是探查字段的合法性及字段中不符合规范的数据,通过公式(2)统计每列的乱码率:
Figure BDA0003197703680000032
式中:Rate2表示乱码率,g(b)表示乱码数,b表示下界,e表示上界,h表示总行数。
进一步地,所述步骤4)中数据预清洗包括条件过滤,字段拼接、拆分与替换字符串操作;所述条件过滤是提供为空、非空、范围规则这三种选择,让前台以查询条件的形式作为参数传给后台;所述字段拼接、拆分与替换字符串是通过CONCAT函数和REPLACE函数来拼接拆分已有字段及替换字符串。
进一步地,所述步骤5)中数据定义是基于数据标准来定义,定义包括数据读取定义、数据格式定义、数据处理定义、数据治理定义;所述数据读取定义是根据人员信息数据探查结果,定义原始数据从源平台中的读取,按照业务需求来定义人员信息数据的文件字符集;所述数据格式定义是参考数据标准,完成人员信息原始字段与人员信息标准字段的映射;所述数据处理定义包括step1数据清洗策略定义,step2数据提取策略定义;所述数据治理定义包括资源目录注册,资源目录注册是将数据备案中已登记的人员信息数据,同步注册到数据资源目录,全面掌握人员信息数据的情况。
进一步地,所述步骤5)中step1数据清洗策略定义,具体为:根据业务需求,定义人员信息数据条件过滤,字段拼接、拆分与替换字符串的策略;与步骤4)中条件过滤,字段拼接、拆分与替换字符串操作的区别在于:两者所针对的数据对象不一致,步骤4)是针对样例数据进行预清洗操作,而此处是针对真实数据清洗策略的规则定义,为后面步骤6)的step1清洗提供了依据;
进一步地,所述步骤5)中step2数据提取策略定义,具体为:根据业务需求,明确并定义源数据到目的数据的提取映射关系,针对人员信息数据的部分字段、人员信息数据的关系进行提取。
进一步地,所述步骤6)中数据读取是从人员信息数据预清洗的hive临时库中抽取数据,检查数据定义是否一致,如果一致则进行数据读取,如果不一致则停止读取;数据核对是在数据读取阶段同步进行的环节,在某一时间对账时间节点内,检查人员信息数据的完整性和正确性。
进一步地,所述步骤6)中人员信息数据处理包括step1清洗和step2提取,具体如下:
根据数据清洗策略定义,对实时接入的人员信息数据进行;
step1清洗:根据数据清洗策略定义,对实时接入的人员信息数据重复执行步骤4)中的条件过滤,字段拼接、拆分与替换字符串操作;但与步骤4)、步骤5)的区别在于;两者所针对的数据对象不同,步骤4)是针对样例数据,而步骤5)、步骤6)是针对真实的数据;步骤5)和步骤6)的区别又在于:两者的用途不一样,步骤5)是清洗的规则定义,而步骤6)是按步骤5)对真实数据进行处理;
step2提取:根据数据提取策略定义,从源格式数据中提取出目的格式数据,针对实时接入的人员信息数据的部分字段、人员信息数据的关系进行提取。
进一步地,所述步骤7)中对步骤6)中接入的人员信息数据进行资产管理,具体包括:通过资源目录,直观的展示资源概况;资源目录是对数据进行管理,包括资源分类与编目,对大数据治理平台存储的数据和通过接口方式提供给大数据治理平台使用的人员信息数据进行梳理。
本发明的有益效果:
本发明通过一种基于大数据进行人员信息数据治理的方法,将分散、多样化的人员信息数据标准化,通过对人员信息数据进行数据备案、数据探查、数据预清洗、数据定义、数据接入处理来进行数据管控,能够提供完整、及时的高质量人员信息数据。
附图说明
附图1是本发明的总体设计架构图。
附图2是本发明的数据标准流程示意图。
附图3是本发明的数据预清洗流程示意图。
具体实施方式
下面结合具体实施方式对本发明做详细说明。
一种基于大数据进行人员信息数据治理的方法,该方法包括以下步骤:
1)数据标准:将人员信息数据标准化,对人员信息数据进行统一规范的管理,消除各部门间的人员信息数据壁垒,方便人员信息数据之间共享;
2)数据备案:将人员信息数据的基本信息及原始数据上传进行统一的登记备案,做好人员信息数据的备忘登记工作;
3)数据探查:从步骤2)中获取已登记备案的原始数据,对其进行人员信息数据探查,生成人员信息数据探查报告;数据探查是人员信息数据质量中关键的一步,真正把控人员信息数据来源,提高人员信息数据质量,保证人员信息数据的正确性,为后面的数据预清洗提供了依据;优选地,所述人员信息数据探查采用多维度探查分析;
4)数据预清洗:从步骤3)中获取人员信息数据探查报告,掌握人员信息数据存在的质量问题,对人员信息数据进行预清洗操作,并将结果存储到hive临时库,解决人员信息数据质量问题,保证人员信息数据的一致性,提高人员信息数据的使用价值与质量;
5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理,生成步骤6)所需的配置,形成人员信息数据定义结果供大数据治理平台调用;
6)数据接入处理:根据业务需求,基于步骤3)-步骤5),将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理,并与人员信息数据提供方进行数据核对,最后将处理完的人员信息数据写文件存储,提高人员信息数据接入处理的效率;
7)数据资产:对步骤6)中接入的人员信息数据进行资产管理,掌握人员信息数据资产的情况,直观展示、全面了解已接入的人员信息数据资产。
所述步骤3)中的人员信息数据探查包括两次重复的多维度探查分析,一次是对原始数据的多维度探查分析,另一次是对步骤4)中数据预清洗后的人员信息数据再次进行多维度探查分析,实现探查与数据预清洗的双向检查,保证人员信息数据问题的及时发现。
所述步骤3)中多维度探查分析包括对人员信息数据量探查、对人员信息数据的字段与质量探查、问题数据探查。
所述对人员信息数据量探查是探查出所有的人员信息数据量情况。
所述对人员信息数据的字段与质量探查,包括:a)字段空值率探查,b)命名实体探查,c)类型及格式探查。
所述字段空值率探查,具体为:通过公式(1)统计出字段控制空值占比情况:
Figure BDA0003197703680000081
式中:Rate表示空值率,f(k)表示字段空值数,k表示下界,n表示上界,m表示总行数,z表示特殊字符行数,通过字段空值率探查探查出人员信息数据的空值情况,发现人员信息数据中有用的数据,了解人员信息数据的价值;字段空值率是统计出字段控制占比情况。
所述命名实体探查,具体为:自动探查分析出字段内容的标识,再结合原始数据的值进行人工介入,识别出字段内容中的人名、地名、证件号码、手机号命名实体,为后面的人员信息数据提取提供依据,提取出有价值的人员信息数据关系。
所述类型及格式探查,具体为:探查人员信息数据的字段类型及格式是否符合规范,为后面人员信息数据提取提供数据质量依据,保证人员信息数据的质量;对问题数据探查是探查字段的合法性及字段中不符合规范的数据,通过公式(2)统计每列的乱码率:
Figure BDA0003197703680000082
式中:Rate2表示乱码率,g(b)表示乱码数,b表示下界,e表示上界,h表示总行数。
所述步骤4)中人员信息数据预清洗包括条件过滤,字段拼接、拆分与替换字符串操作;条件过滤是提供为空、非空、范围规则这三种选择,让前台以查询条件的形式作为参数传给后台;字段拼接、拆分与替换字符串是通过CONCAT函数和REPLACE函数来拼接拆分已有字段及替换字符串。
所述步骤5)中数据定义是基于数据标准来定义,定义包括数据读取定义、数据格式定义、数据处理定义、数据治理定义。
所述对数据读取定义是根据人员信息数据探查结果,定义原始数据从源平台中的读取,按照业务需求来定义人员信息数据的文件字符集。
所述数据格式定义是参考数据标准,完成人员信息原始字段与人员信息标准字段的映射。
所述数据处理定义具体步骤如下:
step1数据清洗策略定义,根据业务需求,定义人员信息数据条件过滤,字段拼接、拆分与替换字符串的策略;但与步骤4)的区别在于;两者所针对的数据对象不一致,步骤4)是针对样例数据进行预清洗操作,而此处是针对真实数据清洗的规则定义,为后面步骤6)的step1清洗提供了依据;
step2数据提取策略定义:根据业务需求,明确并定义源数据到目的数据的提取映射关系,针对人员信息数据的部分字段、人员信息数据的关系进行提取。
所述数据治理定义包括资源目录注册,资源目录注册是将数据备案中已登记的人员信息数据,同步注册到数据资源目录,全面掌握人员信息数据的情况。
所述步骤6)中数据读取是从人员信息数据预清洗的hive临时库中抽取数据,检查数据定义是否一致,如果一致则进行数据读取,如果不一致则停止读取;数据核对是在数据读取阶段同步进行的环节,是数据提供方与数据读取过程中,在某一时间对账时间节点内,检查人员信息数据的完整性和正确性。
所述步骤6)中人员信息数据处理包括清洗和提取,具体如下:
step1清洗:根据数据清洗策略定义,对实时接入的人员信息数据重复执行步骤4),但与步骤4)、步骤5)的区别在于;两者所针对的数据对象不同,步骤4)是针对样例数据,而步骤5)、步骤6)是针对真实的数据;步骤5)和步骤6)的区别又在于:两者的用途不一样,步骤5)是清洗的规则定义,而步骤6)是按步骤5)对真实数据进行处理;
step2提取:根据数据提取策略定义,从源格式数据中提取出目的格式数据,针对实时接入的人员信息数据的部分字段、人员信息数据的关系进行提取。
所述步骤7)中对步骤6)中接入的人员信息数据进行资产管理,具体为:通过资源目录,直观的展示资源概况;资源目录是对数据进行管理,包括资源分类与编目,对大数据治理平台存储的数据和通过接口方式提供给大数据治理平台使用的人员信息数据进行梳理。
本发明通过数据标准、数据备案、数据探查、数据预清洗、数据定义、数据接入处理、数据资产等手段,利用大数据治理平台对人员信息数据进行数据管控,利用数据标准化进行人员信息数据定义,并提供经验自学习,对定义资源具有标准对照自学习与推荐功能,提高了人员信息数据接入的效率;通过提供一套丰富的实时处理规则,提高了人员信息数据治理的效率;通过人员信息数据标准化,提升了数据合法性与合规性,确保了数据的正确性及质量;通过接入前多样化探查及探查与预清洗的双向检查方法,能够及时发现并解决数据质量问题;通过可靠的人员信息数据来提高人员信息数据的使用价值及质量,在人员信息数据治理领域提供有力支撑,为企业赢得经济效益。
实施例
参照附图1~3,下面将结合附图对本发明的实施例作进一步详细说明:
图1中实现了人员信息数据备案、探查、预清洗、定义、接入处理一系列完整的流程,具体步骤如下:
1)数据标准:将人员信息数据标准化,对人员信息数据进行统一规范的管理,消除各部门间的人员信息数据壁垒,方便人员信息数据的共享;
2)数据备案:将人员信息数据的基本信息及原始数据上传进行统一的登记备案,做好人员信息数据的备忘工作;
3)数据探查:从步骤2)中获取已登记的原始数据,对其进行多维度探查分析,生成人员信息数据探查报告;数据探查是人员信息数据质量中关键的一步,真正把控人员信息数据来源,提高人员信息数据质量,为后面清洗提供了依据;
具体以如下的人员信息表举例来说:
假如人员信息表共有7条数据,包含7个字段AGE、HM、XM、CSRQ、SJ、XB、DZ,其中字段AGE为年龄,HM为证件号码,XM为姓名,CSRQ为出生日期,SJ为时间,XB为性别,DZ为地址:
step1通过数据量探查方式探查全部人员信息数据量的情况,为后面空值率计算提供依据,探查到人员信息表的数据总量条数m为7;
step2假如人员信息表的7条数据的DZ字段值都是空,则根据字段空值率的公式
Figure BDA0003197703680000121
计算出DZ字段的空值率为100%;
step3类型及格式探查是探查人员信息表中字段的类型及格式,显示字段的各种格式占比情况;假如在人员信息表中,有5条数据的HM字段为正确的身份证号,另外2条数据的HM字段中带有#、$这种特殊符号,则类型及格式探查会将人员信息表的5条数据识别为身份证号格式,另外2条不符合身份证号格式的数据识别为未知数据,即对于人员信息表的HM字段,身份证号格式占比71.4%,未知数据格式占比28.6%;
step4命名实体探查是自动探查分析出人员信息表字段内容的标识,再结合原始数据的值进行人工介入,识别出字段内容中的证件号码、手机号、地址命名实体,为数据接入处理过程中数据提取策略定义提供依据;假如人员信息表中的HM字段被探查为身份证号,XM字段为姓名,DZ字段为地址,其它在已有规则中匹配不到的实体均默认为未知;
step5通过问题数据探查方式,探查人员信息表字段中不符合规范的数据,统计每列的乱码率,其中含有#、$这类特殊字符的字段会被识别为乱码;参照step3,人员信息表有5条数据的HM字段为正确的身份证号,另外2条数据的HM字段中带有#、$这种特殊符号;根据公式
Figure BDA0003197703680000131
计算出证件号码的乱码率为28.6%;假如人员信息表中7条数据中,有3条数据的CSRQ字段值在1996年,2条数据的CSRQ字段值在1995年,则探查出人员信息表的CSRQ字段的时间分布情况:排名第一的时间为1996,数据量为3;其次为1995,数据量为2;
4)数据预清洗:从数据探查中获取人员信息数据探查结果,掌握人员信息数据存在的质量问题,对人员信息数据进行条件过滤、字段拼接、拆分与替换字符串预清洗操作,具体步骤如下:
step1条件过滤:提供默认的为空、非空、范围过滤规则选择,以查询条件的形式作为参数传入;假如人员信息表的7条数据中有1条数据的XM字段值为空,并设置过滤条件为“XM-非空”,则XM字段中缺少值的那条数据将被过滤掉,清洗完成后的人员信息表只剩6条XM字段都有值的数据;
step2字段拼接:将选择的字段和分隔符进行字段值的拼接,输入到新增的字段中,其新字段在原始字段后追加;字段拼接的分隔方式支持空格分隔、逗号分隔和无分隔符;假如将人员信息表的CSRQ和SJ字段拼接成CSSJ新字段,则选择两个字段为CSRQ和SJ,分隔方式选择空格,最后拼接结果为新字段CSSJ(出生时间);
step3人员信息表经过预清洗操作后,对清洗后的数据再重复进行一次步骤3),实现人员信息数据预清洗探查,实现探查与清洗的双向检查,保证人员信息数据的质量;
5)数据定义:以登记的原始数据为维度,生成人员信息接入处理程序所需的配置,定义包括数据读取定义、数据格式定义、数据处理定义、数据治理定义,具体步骤如下:
step1对数据读取定义是根据人员信息数据探查结果,定义原始数据从源平台中的读取,按照业务需求来定义人员信息数据的文件字符集;数据格式定义参考数据标准,结合人员信息数据探查结果,完成人员信息原始字段与人员信息标准字段的映射,利用数据标准化进行数据定义,并对定义资源具有标准对照自学习与推荐功能;当下次数据定义时再遇到人员信息表中已标准化定义的HM、XB、DZ字段,则按照经验将其自动对标为ZJHM、SEX、ADDRESS标准数据字段;
step2数据处理定义包括数据清洗策略定义及数据提取策略定义;其中数据清洗策略定义是根据数据格式定义结果,定义数据条件过滤、字段拼接与拆分的策略,具体如下:
条件过滤:提供默认的为空、非空、范围过滤规则选择,以查询条件的形式作为参数传入;假如定义对实时接入的人员信息表设置过滤条件为“XM-非空”,则后面步骤6)中会对其进行条件过滤处理;
字段拼接:将选择的字段和分隔符进行字段值的拼接,输入到新增的字段中,其新字段在原始字段后追加;字段拼接的分隔方式支持空格分隔、逗号分隔和无分隔符;假如将实时接入的人员信息表的CSRQ和SJ字段拼接成CSSJ新字段,则选择两个字段为CSRQ和SJ,分隔方式选择空格;
数据提取策略定义:明确并定义源数据资源到目的数据资源的提取映射关系,针对人员信息数据的部分字段、人员信息数据的关系进行提取;根据需求,定义提取人员信息表的“姓名-年龄-性别-证件号码”关系;
step3数据治理定义包括资源目录注册,根据数据格式定义结果,将数据注册到数据资源目录,直观展示人员信息数据的情况,根据需要快速查找到对应的人员信息数据;
6)数据接入处理:根据数据定义中生成的配置,在人员信息数据接入过程中对数据进行处理,并与数据提供方进行数据核对,最后将处理完的人员信息数据写文件存储,具体步骤如下:
step1根据步骤5)的数据格式定义策略,将人员信息表的字段HM标准化为ZJHM、XB标准化处理为SEX、DZ标准化为ADDRESS,处理完后生成到新的人员信息表中,其包括6条数据,8个字段AGE、ZJHM、XM、CSRQ、SJ、SEX、ADDRESS、CSSJ,其中字段AGE为年龄,ZJHM为证件号码,XM为姓名,CSRQ为出生日期,SJ为时间,SEX为性别,ADDRESS为地址,CSSJ为出生时间(拼接后新字段);
step2根据步骤5)的数据处理定义策略进行数据处理,包括数据清洗及数据提取;数据清洗处理是根据数据定义数据清洗规则,对数据进行条件过滤、字段拼接与拆分操作;
根据数据清洗定义的条件过滤,将实时接入的人员信息表的XM字段中缺少值的那条数据过滤掉,即清洗完成后的人员信息表只剩6条XM字段都有值的数据;
根据数据清洗定义的字段拼接,将实时接入的人员信息表的CSRQ和SJ字段拼接成CSSJ新字段,则选择两个字段为CSRQ和SJ,分隔方式选择空格,最后拼接结果为新字段CSSJ(出生时间);
数据提取是根据数据提取策略定义,从源格式数据中提取出目的格式数据,生成一张“姓名-年龄-性别-证件号码”关系的人员信息表;
7)对已接入的人员信息数据进行标准管理,掌握人员信息数据资产的情况,直观展示、全面了解已接入的人员信息数据。
图2表示数据标准流程图,将人员信息数据标准同步到数据标准界面;数据标准界面在接收到数据定义的标准申请后,将标准发布给数据定义。
图3是数据预清洗流程图,人员信息数据预清洗是根据人员信息数据探查中发现的数据问题,对人员信息数据进行预清洗,在人员信息数据预清洗的过程中,自由形成任务结果集,存放在hive临时库,确认完成全部预清洗工作的任务结果集可作为新的原始数据,其备案信息从继承来的原始数据自动同步过来,进行后续的数据探查及数据定义。

Claims (6)

1.一种基于大数据进行人员信息数据治理的方法,其特征是该方法包括以下步骤:
1)数据标准:将人员信息数据标准化,对人员信息数据进行统一规范的管理,消除各部门间的人员信息数据壁垒;
2)数据备案:将人员信息数据的基本信息及原始数据上传进行登记备案,对人员信息数据进行备忘登记;
3)数据探查:从步骤2)中获取已登记备案的原始数据,对其进行人员信息数据探查,生成人员信息数据探查报告;
4)数据预清洗:从步骤3)中获取人员信息数据探查报告,掌握人员信息数据存在的质量问题,对人员信息数据进行预清洗操作,并将结果存储到hive临时库;
5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理,生成步骤6)所需的配置,形成人员信息数据定义结果供大数据治理平台调用;
6)数据接入处理:根据业务需求,基于步骤3)-步骤5),进行数据读取将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理,并与人员信息数据提供方进行数据核对,最后将处理完的人员信息数据写文件存储;
7)数据资产:对步骤6)中接入的人员信息数据进行资产管理,掌握人员信息数据资产的情况;
所述步骤3)中的人员信息数据探查包括两次重复的多维度探查分析,一次是对原始数据的探查,另一次是对步骤4)中数据预清洗后的人员信息数据再次进行探查;所述多维度探查分析包括对人员信息数据量探查、对人员信息数据的字段与质量探查、问题数据探查;
所述步骤4)中数据预清洗包括条件过滤,字段拼接、拆分与替换字符串操作;所述条件过滤是提供为空、非空、范围规则这三种选择,让前台以查询条件的形式作为参数传给后台;所述字段拼接、拆分与替换字符串是通过CONCAT函数和REPLACE函数来拼接拆分已有字段及替换字符串;
所述步骤5)中数据定义是基于数据标准来定义,定义包括数据读取定义、数据格式定义、数据处理定义、数据治理定义;所述数据读取定义是根据人员信息数据探查结果,定义原始数据从源平台中的读取,按照业务需求来定义人员信息数据的文件字符集;所述数据格式定义是参考数据标准,完成人员信息原始字段与人员信息标准字段的映射;所述数据处理定义包括step1数据清洗策略定义,step2数据提取策略定义;所述数据治理定义包括资源目录注册,资源目录注册是将数据备案中已登记的人员信息数据,同步注册到数据资源目录,全面掌握人员信息数据的情况;
所述步骤6)中数据读取是从人员信息数据预清洗的hive临时库中抽取数据,检查数据定义是否一致,如果一致则进行数据读取,如果不一致则停止读取;数据核对是在数据读取阶段同步进行的环节,在某一时间对账时间节点内,检查人员信息数据的完整性和正确性;
所述步骤6)中人员信息数据处理包括step1清洗和step2提取,具体如下:
step1清洗:根据数据清洗策略定义,对实时接入的人员信息数据进行条件过滤,字段拼接、拆分与替换字符串操作;
step2提取:根据数据提取策略定义,从源格式数据中提取出目的格式数据,针对实时接入的人员信息数据的部分字段、人员信息数据的关系进行提取;
所述步骤4)中数据预清洗、步骤5)中step1数据清洗策略定义、步骤6)中step1清洗的区别在于所针对的数据对象不同,步骤4)是针对样例数据,而步骤5)、步骤6)是针对真实的数据;步骤5)和步骤6)的区别又在于:两者的用途不一样,步骤5)是清洗的规则定义,而步骤6)是按步骤5)对真实数据进行处理。
2.根据权利要求1所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述对人员信息数据量探查是探查出所有的人员信息数据量情况;所述对人员信息数据的字段与质量探查包括:a)字段空值率探查,b)命名实体探查,c)类型及格式探查。
3. 根据权利要求2所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述字段空值率探查,具体为:通过公式(1)统计出字段空值占比情况:
Figure DEST_PATH_IMAGE002
(1)
式中:Rate表示空值率,f(k)表示字段空值数,k表示下界,n表示上界,m表示总行数,z表示特殊字符行数。
4. 根据权利要求2所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述命名实体探查,具体为:自动探查分析出字段内容的标识,再结合原始数据的值进行人工介入,识别出字段内容中的人名、地名、证件号码、手机号命名实体;所述类型及格式探查,具体为:探查人员信息数据的字段类型及格式是否符合规范;所述问题数据探查是探查字段的合法性及字段中不符合规范的数据,通过公式(2)统计每列的乱码率:
Figure DEST_PATH_IMAGE004
(2)
式中:Rate2表示乱码率,g(b)表示乱码数,b表示下界,e表示上界,h表示总行数。
5.根据权利要求1所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述步骤5)中step1数据清洗策略定义,具体为:根据业务需求,定义人员信息数据的条件过滤策略和字段拼接、拆分与替换字符串的策略,完成针对真实数据清洗策略的规则定义;
所述步骤5)中step2数据提取策略定义,具体为:根据业务需求,明确并定义源数据到目的数据的提取映射关系,针对人员信息数据的部分字段、人员信息数据的关系进行提取。
6.根据权利要求1所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述步骤7)中对步骤6)中接入的人员信息数据进行资产管理,具体包括:通过资源目录,直观的展示资源概况;资源目录是对数据进行管理,包括资源分类与编目,对大数据治理平台存储的数据和通过接口方式提供给大数据治理平台使用的人员信息数据进行梳理。
CN202110895458.8A 2021-08-05 2021-08-05 一种基于大数据进行人员信息数据治理的方法 Active CN113535707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110895458.8A CN113535707B (zh) 2021-08-05 2021-08-05 一种基于大数据进行人员信息数据治理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110895458.8A CN113535707B (zh) 2021-08-05 2021-08-05 一种基于大数据进行人员信息数据治理的方法

Publications (2)

Publication Number Publication Date
CN113535707A CN113535707A (zh) 2021-10-22
CN113535707B true CN113535707B (zh) 2022-04-15

Family

ID=78090531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110895458.8A Active CN113535707B (zh) 2021-08-05 2021-08-05 一种基于大数据进行人员信息数据治理的方法

Country Status (1)

Country Link
CN (1) CN113535707B (zh)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458148B2 (en) * 2009-09-22 2013-06-04 Oracle International Corporation Data governance manager for master data management hubs
CN103455373A (zh) * 2013-09-18 2013-12-18 浪潮电子信息产业股份有限公司 一种虚拟机动态迁移安全框架
US10521601B2 (en) * 2014-04-30 2019-12-31 Sailpoint Technologies, Israel Ltd. System and method for data governance
US10936215B2 (en) * 2018-04-30 2021-03-02 EMC IP Holding Company LLC Automated data quality servicing framework for efficient utilization of information technology resources
CN110119413B (zh) * 2019-04-30 2024-06-18 京东城市(南京)科技有限公司 数据融合的方法和装置
CN110990447B (zh) * 2019-12-19 2023-09-15 北京锐安科技有限公司 一种数据探查方法、装置、设备及存储介质
CN111125116B (zh) * 2019-12-27 2020-10-13 上海德拓信息技术股份有限公司 定位业务表中代码字段及对应代码表的方法及***
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置
CN112395325A (zh) * 2020-11-27 2021-02-23 广州光点信息科技有限公司 一种数据治理方法、***、终端设备及存储介质
CN112527783B (zh) * 2020-11-27 2024-05-24 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查***
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法
CN112650745A (zh) * 2020-12-30 2021-04-13 中科环森智慧科技(苏州)有限公司 一种基于统一数据资源池的数据治理***
CN112699175B (zh) * 2021-01-15 2024-02-13 广州汇智通信技术有限公司 一种数据治理***及其方法

Also Published As

Publication number Publication date
CN113535707A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110781236A (zh) 一种构建政务大数据治理体系的方法
CN110674360B (zh) 一种用于数据的溯源方法和***
CN106164896B (zh) 用于发现对手方关系的多维递归方法及***
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及***
CN114168716A (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
CN111816310A (zh) 一种骨髓血液疾病危险因素贡献率计算及风险预测***
CN111143394B (zh) 知识数据处理方法、装置、介质及电子设备
CN115936624A (zh) 基层数据管理方法及装置
CN113918705A (zh) 带有预警和推荐功能的投稿审核方法及***
Brahimi et al. Mapping the Scientific Landscape of Metaverse Using VOSviewer and Bibliometrix
CN113535707B (zh) 一种基于大数据进行人员信息数据治理的方法
Azeroual et al. Putting FAIR principles in the context of research information: FAIRness for CRIS and CRIS for FAIRness
CN106649599A (zh) 面向知识服务的科研数据处理和预测性分析平台
CN116431828A (zh) 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法
CN115455973A (zh) 一种基于真实世界研究的淋巴瘤研究数据库建设及应用方法
CN105786929A (zh) 一种信息监测方法及装置
Regla et al. Research Network Analysis, Agenda Mapping and Research Productivity Monitoring: Insights from a Higher Education in the Philippines
CN113408207A (zh) 基于社会网络分析技术的数据挖掘的一种方法
CN111815125A (zh) 基于技术图谱的创新实体科技评价体系优化方法及装置
Svenningsen et al. Sharing insect data through GBIF: novel monitoring methods, opportunities and standards
KR20210001645A (ko) 기업 부실 예측 방법
CN117786182B (zh) 基于erp***的业务数据存储***及方法
CN109542973A (zh) 一种专利信息定位方法及***
Hariri et al. Co-citation scientific maps: a case study of medical sciences in Iran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant