CN111858567A

CN111858567A - 一种通过标准数据元进行政务数据清洗的方法和***

Info

Publication number: CN111858567A
Application number: CN202010559413.9A
Authority: CN
Inventors: 苏荣康; 姚伯祥; 蒋钰; 吴宇龙; 陆晓清; 李康; 吕健; 陈�峰; 赵明亮; 倪雯; 戎鑫; 张�成; 刘兵; 吴荣华; 李兴洋; 赵海宁
Original assignee: Sugon Nanjing Research Institute Co ltd; Nanjing Jiangning District Information Management Service Center
Current assignee: Sugon Nanjing Research Institute Co ltd; Nanjing Jiangning District Information Management Service Center
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-30

Abstract

本发明公开了一种通过标准数据元进行政务数据清洗的方法和***，属于数据处理技术领域。包括如下步骤：从相关政务网站和商业数据库，收集现有的数据元标准，批量导入***中，进行分类和维护；给收集的数据表字段，添加中文注释；根据中文注释和数据来源部门提供的信息，匹配标准数据元，修改数据结构，编制数据元字典表；选择字段，匹配数据字典表。本发明通过标准数据元进行政务数据清洗的方法和***，通过收集不同类型的标准数据元建立政务数据清洗***，能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。

Description

一种通过标准数据元进行政务数据清洗的方法和***

技术领域

本发明属于数据处理技术领域，尤其是一种通过标准数据元进行政务数据清洗的方法和***。

背景技术

近年来，随着政府信息化项目建设的展开，政府整体信息化水平迅速提升，在各个政府单位手中积累了丰富的业务数据资源，其种类不断丰富、总量呈现爆发性增长，政务大数据体系已经初具雏形。随着数据资源汇集、整合、存储、管理、共享、交换与应用需求的不断增长，当前存在的数据不规范等问题也日益凸显，这些问题最终制约着政务数据资源的应用深度和价值，导致数据利用价值低、难以管理、应用范围窄，这些问题的根源是一些政务***开发时，没有完全按照相关标准做数据规范建设。

发明内容

发明目的：提供一种通过标准数据元进行政务数据清洗的方法和***，以解决背景技术中所涉及的问题。

技术方案：一种通过标准数据元进行政务数据清洗的方法和***，包括：包括如下步骤：

S1、从相关政务网站和商业数据库，收集现有的数据元标准，批量导入***中，进行分类和维护；

S2、给收集的数据表字段，添加中文注释；

S3、根据中文注释和数据来源部门提供的信息，匹配标准数据元;

S4、根据所匹配数据元标准，修改数据结构；

S5、根据数据元标准，编制数据元字典表；

S6、根据实际情况和数据来源部门提供的信息，编制数据字典表；

S7、选择字段，匹配数据字典表。

作为一个优选方案，所述数据元包括：数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。

作为一个优选方案，所述数据元导按照描述对象及所属业务进行分类，并组织形成树状结构。

作为一个优选方案，优选的，所述添加中文注释的具体步骤为：根据数据源***数据库设计文档。

作为一个优选方案，所述数据元维护功能为：支持对数据元进行人工新增、修改及删除操作，可对数据元所有的相关属性进行维护，通过后台维护数据元标准体系

作为一个优选方案，所述匹配标准数据元的步骤为：对数据资源字段进行整理分析及统计，确定字段的提交单位及机构、产生原因、实际含义，并与现有的数据元进行对照，寻找相关联的数据元；对于不确定的数据元，按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。

作为一个优选方案，所述修改数据结构为：修改数据表字段名称、字段类型、字段长度；在修改字段长度时，如果出现现有数据长度超出标准字段长度的情况，需要把这些数据分离出，再修改字段长度。

作为一个优选方案，所述编制数据字典表为：根据数据来源部门提供的数据库设计文档编写数据字典表；若没有数据库设计文档，对数据内容进行分类分析编写数据字典表。

本发明还提供一种通过标准数据元进行政务数据清洗的***，包括如下模块：

数据导入模块，从相关政务网站和商业数据库，收集现有的数据元标准，批量导入***中，进行分类和维护；

中文注释模块，给收集的数据表字段，添加中文注释；

匹配数据元模块，根据中文注释和数据来源部门提供的信息，匹配标准数据元;

修改数据模块，根据所匹配数据元标准，修改数据结构；

编制数据字典模块，根据数据元标准，编制数据元字典表；根据实际情况和数据来源部门提供的信息，编制数据字典表；选择字段，匹配数据字典表。

有益效果：本发明涉及一种通过标准数据元进行政务数据清洗的方法和***，通过收集不同类型的标准数据元，添加中文注释，匹配标准数据元，修改数据结构，编制数据元字典表，建立政务数据清洗***，能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。

附图说明

图1是本发明实施实施例的通过标准数据元进行政务数据清洗方法和***的流程示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

如附图1所示，一种通过标准数据元进行政务数据清洗的方法，包括如下步骤：

S1:从相关政务网站和商业数据库，收集现有的政务数据元（也称为数据元素，是用一组属性描述其定义、标识、表示和允许值的数据单元）标准，批量导入***中，进行分类和维护。其中，***提供文本文档批量导入和分类Excel模板；所述数据元导入，包含数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构等信息。所述数据元导按照描述对象及所属业务进行分类，并组织形成树状结构。

具体的，假设所有的政务数据元构成一个集合D，数据元为d，d∈D，按照预定规则，将集合D分割成M个子集合，记做D_i，其中每一个子集的权重为w_i。在集合D上定义函数A_d，由于d∈D，则A_d表示数据元d在集合D中是否存在；即

在集合D上重新定义一个函数B，由于d∈D，则B_d表示数据元d在预定规则下切割的子集合的多样性，即

在集合D上重新定义一个函数C。由于d∈D，C_d表示在预定规则下的权重，即

在实际处理过程中，在数据元的四个基本属性上添加多重性S和关系的集合Q，表示数据元预定规则下的所有关系，即

其中H，T，F，R为数据元的四个基本属性，分别表示为：数据元名称，数据类型，数据格式以及值域。

将上述算法应用到具体实施例中，选取一个单表初始化数据元集合，然后依次添加其他单表，对数据元集合进行修正，提取新的数据元，其具体步骤如下：

S11、按照预定规则，将现有的K个政务数据元的集合D₁、D₂、D₃、……、D_K，记做D_i，1≤i≤K。其中每一个数据元集合包括N_i个数据元，其中D_i={d_i,1, d_i,1, d_i,1……d_i,j},1≤j≤N_i。

步骤2、初始化数据元集合D，并令i=1，新建一个包含有M个数据元d_M的数据元集合集合D_M，并令M=N_i，用数据元集合D_i中的元素中d_{i, j}, 1≤j≤N_i依次给d_M赋值，d_M=d_i,j，1≤j≤N_i。对于任意一个d_M∈D，d_M的多重性S=1，关系的集合 Q= {D₁}。

S13、如果i≤K，执行步骤S14，反之，结束算法。

S14、选取集合D_i，并令j=1。

S15、若j≤N_i，执行步骤S16，反之，i=i+1，重新执行步骤S13。

S16、选取集合D_i中的元素d_i,j，与初始化数据元集合D中的元素逐一比较，若存在一个数据元是得d_i,j的H与D的H相等，则执行步骤S17，反之，执行步骤S17。

S17、更新数据元，则数据元的d_M的属性S=S+1，关系的集合 Q = Q∪{D_i}，然后令j=j+1,继续执行S15。

S18、新建数据元。令M=M+1，在初始化数据元集合D中新建元素d_M，d_M=d_i,j，d_M的多重性S=1，关系的集合 Q= {D_i},令j=j+1,继续执行S15。

S2:给收集的数据表字段，添加中文注释。其中，***提供对字段进行中文注释增、修改及删除等操作，可对数据元所有的相关属性进行维护，通过后台维护数据元标准体系。

S3:根据字段中文注释和数据来源部门提供的信息，匹配标准数据元。匹配的过程分成两个步骤：首先是匹配数据元，然后是匹配字典项；数据元匹配方法有：①基于数据来源部门提供的数据字典；②基于字段类型和长度，如字符、数字、日期等，身份证号长度通常为15位或18位。基于类型的匹配方法可以辅助缩小匹配范围；③基于字段的名称和中文注释，如gender、age、民族等。对于无法与标准数据元完全匹配的，使用“编辑距离”来衡量数据项与标准数据元的相似程度，匹配最相似的数据元。编辑距离的定义为：对于两个字符串S、T，将S转换成T所需要的操作步骤的总数量（删除、***、替换）叫做从S到T的编辑路径，所有编辑路径中最短的编辑路径就是字符串S与字符串 T 的编辑距离，编辑距离越小则表示两个字符串的相似度越高。

字符串S=[S[0],S[1],...,S[length(S)]-1]和字符串T=[T[0],T[1],...,T[length(T)]-1]的编辑距离d(S,T)通过如下算法进行计算：

输入：字符串S=[S[0],S[1],...,S[length(S)]-1]，字符串T=[T[0],T[1],...,T[length(T)]-1]。

输出：编辑距离d(S,T)。

S31 初始化。令i=1，定义一个与字符串T等长的数组d，并用数组下标初始化数组元素的值:

d=[0, 1, 2, ..., length(T)]。

S32 如果i≤length(S)，执行步骤S33，否则执行步骤S39。

S33 令j=1，定义数组d1，初始只包含一个元素i:

d1=[i]。

S34 如果j<length(d)，执行步骤S35，否则执行步骤S37。

S35 如果S[i-1]=T[j-1]，则在数组d1的末尾添加一个元素x，其中x=d[j-1]。

否则，在数组d1的末尾添加一个元素y，其中y是d[j-1]+1，d[j]+1，d1[j-1]+1三者中的最小值。

S36 令j=j+1，执行步骤S34。

S37 令d=d1。

S38 令i=i+1，执行步骤S32。

S39 假设当前的d为：

d=[d1, d2, ......, dt]

那么字符串S和T的编辑距离就是dt。

本算法通过双重循环实现，时间复杂度为O(length(S)*length(T))；在计算时定义了两个一维数组d和d1，空间复杂度为O(length(S)+length(T))。

④基于描述对象的属性和字典值取值范围，如描述主体是人，某一字段共有58种字典值，那么该字段对应于“民族”数据元。其中，分类的标准数据元构成一个标签集，字段添加中文注释后会再分类构成一个标签集，两个标签集进行对照后，再进行关联匹配。

S4:根据所匹配标准数据元，修改数据结构。其中，数据表字段匹配标准数据元后，***会自动修改数据结构，在这里是要手动确定修改是否有问题，并导出问题数据。修改数据表字段名称、字段类型、字段长度。在修改字段长度时，如果出现现有数据长度超出标准字段长度的情况，需要把这些数据分离出，再修改字段长度。

具体的，同现有信息拓展数据元的形式。具体包括如下步骤：从现有的K个政务数据元的集合中提取数据元，所有数据元按照时间顺序重新排列组成数据元集合T={t₁，t₂，t₃……t_i}。在坐标系中绘制成数据元随时间的变化曲线，通过数据拟合曲线，将数据曲线分为离散型、增长型、衰减型三种曲线。其中，离散型数据元集合，从数据元集合中找到max{t_i }，则该数据元的数据格式F=OM（max{ t_i }）+1，OM（x）表示数据元x所在的数量级。增长型的数据格式F= OM（f(t-T₀)）+1，其中，OM（x）表示数据元x所在的数量级，f(x)为拟合曲线的数据元随时间的关系式，t为该标准的有效时间，T₀为起始时间。衰减型的数据格式F= OM（f(t-T₀)）+1，从数据元集合中找到max{ t_i }，则该数据元的数据格式F=OM（max{ t_i }）+1，OM（x）表示数据元x所在的数量级。

如果出现现有数据长度超出标准字段长度的情况，需要把这些数据分离出，再修改字段长度，以符合数据元的数据格式。

S5：根据标准数据元，编制数据元字典表（具体数据或数据流、数据处理或者存储、数据分解等数据流图中出现的所有命名元素的详细定义）。当匹配的数据元字典为枚举类型时（如性别、民族、车辆类型等），需要进行字典项匹配。字典项匹配方法有：①基于数据来源部门提供的数据字典；②基于关联规则，例如可以利用身份证号得出人的性别，然后与表中的“性别”字段的字典项关联匹配规则；其中，政务标准数据元中，已规定了值域，根据值域所引用的标准或者定义的值域，编制数据元字典表。

S6:根据实际情况和数据来源部门提供的信息，编制数据字典表。其中，不同的数据表来源于不同的业务***，会采用不同的数据库设计文档，同样的字段名称，不同的来源***数据表，需要编制不同的数据字典表。

具体的，所述数据字典表以MVC作为框架，包括：模型模块，视图模块，控制模块。其中视图模块，用户使用的人机交互界面；模型模块，一方面，用于存储不同的数据库设计文档，不同的来源***数据表，另一方面，处理各种数据任务，还能够使用中间件的构建对象进行数据库。基于MVC框架对于模型模块的要求，能增大代码的复用性，能够通过一端通用的数据元，对多个视图模块提供数据支持。控制模块，用于接收视图模块的数据输入，并根据输入调用模型模块的数据，然后返回到视图模块输出，完成用户需求。

S7:选择字段，匹配数据字典表。其中，选择字段后，***自动匹配数据字典表，自动生成标准化数据。

下面结合实施例，对本发明作进一步说明，所述的实施例的示例旨在解释本发明，而不能理解为对本发明的限制。

如在相关政务网站下载了中文名称为:性别代码，标识符为：XBDM的关于人的性别的标准数据元。按照***提供的模板，录入***中。***采集了一张名为“群租人员采集信息”数据表，根据数据表来源部门提供的信息，对“SX”字段添加“性别”中文注释。选择“性别”字段，查找可匹配的数据元，匹配了“性别代码”标准数据元，按照标准数据元要求，***修改了字段数据结构。在“性别代码”标准数据元中，值域规定的是采用GB/T 2261.1 《个人基本信息分类与代码第1部分: 人的性别代码》。在国家标准全文公开***中查找标准，根据内容编制“性别代码”标准数据元字典表：“0：未知的性别”、“1：男性”、“2：女性”、“9：未说明的性别”。在对“群租人员采集信息”数据表“SX”字段数据分类后，根据来源部门提供的信息，编制了数据字典表：“男：男性”、“F:男性”、“MAN：男性”、“蓝：男性”、“男人：男性”。选择“群租人员采集信息”数据表“SX”字段字典表，匹配“性别代码”标准数据元字典表，完成数据清洗，标准数据进入数据仓库。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种通过标准数据元进行政务数据清洗的方法，其特征在于，包括如下步骤：

S2、给收集的数据表字段，添加中文注释；

S4、根据所匹配数据元标准，修改数据结构；

S5、根据数据元标准，编制数据元字典表；

S7、选择字段，匹配数据字典表。

2.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，所述数据元包括：数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。

3.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，所述数据元导按照描述对象及所属业务进行分类，并组织形成树状结构。

4.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，优选的，所述添加中文注释的具体步骤为：根据数据源***数据库设计文档。

5.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，所述数据元维护功能为：通过后台维护数据元标准体系支持对数据元进行人工新增、修改及删除操作，可对数据元所有的相关属性进行维护。

6.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，所述匹配标准数据元的步骤为：对数据资源字段进行整理分析及统计，确定字段的提交单位及机构、产生原因、实际含义，并与现有的数据元进行对照，寻找相关联的数据元；对于不确定的数据元，按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。

7.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，所述修改数据结构为：修改数据表字段名称、字段类型、字段长度；在修改字段长度时，如果出现现有数据长度超出标准字段长度的情况，需要把这些数据分离出，再修改字段长度。

8.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法，其特征在于，所述编制数据字典表为：根据数据来源部门提供的数据库设计文档编写数据字典表；若没有数据库设计文档，对数据内容进行分类分析编写数据字典表。

9.一种通过标准数据元进行政务数据清洗的***，其特征在于，包括如下模块：

中文注释模块，给收集的数据表字段，添加中文注释；

修改数据模块，根据所匹配数据元标准，修改数据结构；