CN111858567A - 一种通过标准数据元进行政务数据清洗的方法和*** - Google Patents

一种通过标准数据元进行政务数据清洗的方法和*** Download PDF

Info

Publication number
CN111858567A
CN111858567A CN202010559413.9A CN202010559413A CN111858567A CN 111858567 A CN111858567 A CN 111858567A CN 202010559413 A CN202010559413 A CN 202010559413A CN 111858567 A CN111858567 A CN 111858567A
Authority
CN
China
Prior art keywords
data
standard
data elements
cleaning
government
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010559413.9A
Other languages
English (en)
Inventor
苏荣康
姚伯祥
蒋钰
吴宇龙
陆晓清
李康
吕健
陈�峰
赵明亮
倪雯
戎鑫
张�成
刘兵
吴荣华
李兴洋
赵海宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sugon Nanjing Research Institute Co ltd
Nanjing Jiangning District Information Management Service Center
Original Assignee
Sugon Nanjing Research Institute Co ltd
Nanjing Jiangning District Information Management Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sugon Nanjing Research Institute Co ltd, Nanjing Jiangning District Information Management Service Center filed Critical Sugon Nanjing Research Institute Co ltd
Priority to CN202010559413.9A priority Critical patent/CN111858567A/zh
Publication of CN111858567A publication Critical patent/CN111858567A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种通过标准数据元进行政务数据清洗的方法和***,属于数据处理技术领域。包括如下步骤:从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;给收集的数据表字段,添加中文注释;根据中文注释和数据来源部门提供的信息,匹配标准数据元,修改数据结构,编制数据元字典表;选择字段,匹配数据字典表。本发明通过标准数据元进行政务数据清洗的方法和***,通过收集不同类型的标准数据元建立政务数据清洗***,能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。

Description

一种通过标准数据元进行政务数据清洗的方法和***
技术领域
本发明属于数据处理技术领域,尤其是一种通过标准数据元进行政务数据清洗的方法和***。
背景技术
近年来,随着政府信息化项目建设的展开,政府整体信息化水平迅速提升,在各个政府单位手中积累了丰富的业务数据资源,其种类不断丰富、总量呈现爆发性增长,政务大数据体系已经初具雏形。随着数据资源汇集、整合、存储、管理、共享、交换与应用需求的不断增长,当前存在的数据不规范等问题也日益凸显,这些问题最终制约着政务数据资源的应用深度和价值,导致数据利用价值低、难以管理、应用范围窄,这些问题的根源是一些政务***开发时,没有完全按照相关标准做数据规范建设。
发明内容
发明目的:提供一种通过标准数据元进行政务数据清洗的方法和***,以解决背景技术中所涉及的问题。
技术方案:一种通过标准数据元进行政务数据清洗的方法和***,包括:包括如下步骤:
S1、从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
S2、给收集的数据表字段,添加中文注释;
S3、根据中文注释和数据来源部门提供的信息,匹配标准数据元;
S4、根据所匹配数据元标准,修改数据结构;
S5、根据数据元标准,编制数据元字典表;
S6、根据实际情况和数据来源部门提供的信息,编制数据字典表;
S7、选择字段,匹配数据字典表。
作为一个优选方案,所述数据元包括:数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。
作为一个优选方案,所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
作为一个优选方案,优选的,所述添加中文注释的具体步骤为:根据数据源***数据库设计文档。
作为一个优选方案,所述数据元维护功能为:支持对数据元进行人工新增、修改及删除操作,可对数据元所有的相关属性进行维护,通过后台维护数据元标准体系
作为一个优选方案,所述匹配标准数据元的步骤为:对数据资源字段进行整理分析及统计,确定字段的提交单位及机构、产生原因、实际含义,并与现有的数据元进行对照,寻找相关联的数据元;对于不确定的数据元,按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。
作为一个优选方案,所述修改数据结构为:修改数据表字段名称、字段类型、字段长度;在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
作为一个优选方案,所述编制数据字典表为:根据数据来源部门提供的数据库设计文档编写数据字典表;若没有数据库设计文档,对数据内容进行分类分析编写数据字典表。
本发明还提供一种通过标准数据元进行政务数据清洗的***,包括如下模块:
数据导入模块,从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
中文注释模块,给收集的数据表字段,添加中文注释;
匹配数据元模块,根据中文注释和数据来源部门提供的信息,匹配标准数据元;
修改数据模块,根据所匹配数据元标准,修改数据结构;
编制数据字典模块,根据数据元标准,编制数据元字典表;根据实际情况和数据来源部门提供的信息,编制数据字典表;选择字段,匹配数据字典表。
有益效果:本发明涉及一种通过标准数据元进行政务数据清洗的方法和***,通过收集不同类型的标准数据元,添加中文注释,匹配标准数据元,修改数据结构,编制数据元字典表,建立政务数据清洗***,能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。
附图说明
图1是本发明实施实施例的通过标准数据元进行政务数据清洗方法和***的流程示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
如附图1所示,一种通过标准数据元进行政务数据清洗的方法,包括如下步骤:
S1:从相关政务网站和商业数据库,收集现有的政务数据元(也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元)标准,批量导入***中,进行分类和维护。其中,***提供文本文档批量导入和分类Excel模板;所述数据元导入,包含数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构等信息。所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
具体的,假设所有的政务数据元构成一个集合D,数据元为d,d∈D,按照预定规则,将集合D分割成M个子集合,记做Di,其中每一个子集的权重为wi。在集合D上定义函数Ad,由于d∈D,则Ad表示数据元d在集合D中是否存在;即
Figure 525971DEST_PATH_IMAGE002
在集合D上重新定义一个函数B,由于d∈D,则Bd表示数据元d在预定规则下切割的子集合的多样性,即
Figure DEST_PATH_IMAGE003
在集合D上重新定义一个函数C。由于d∈D,Cd表示在预定规则下的权重,即
Figure 987040DEST_PATH_IMAGE004
在实际处理过程中,在数据元的四个基本属性上添加多重性S和关系的集合Q,表示数据元预定规则下的所有关系,即
Figure 384261DEST_PATH_IMAGE006
其中H,T,F,R为数据元的四个基本属性,分别表示为:数据元名称,数据类型,数据格式以及值域。
将上述算法应用到具体实施例中,选取一个单表初始化数据元集合,然后依次添加其他单表,对数据元集合进行修正,提取新的数据元,其具体步骤如下:
S11、按照预定规则,将现有的K个政务数据元的集合D1、D2、D3、……、DK,记做Di,1≤i≤K。其中每一个数据元集合包括Ni个数据元,其中Di={di,1, di,1, di,1……di,j},1≤j≤Ni
步骤2、初始化数据元集合D,并令i=1,新建一个包含有M个数据元dM的数据元集合集合DM,并令M=Ni,用数据元集合Di中的元素中di, j, 1≤j≤Ni依次给dM赋值,dM=di,j,1≤j≤Ni。对于任意一个dM∈D,dM的多重性S=1,关系的集合 Q= {D1}。
S13、如果i≤K,执行步骤S14,反之,结束算法。
S14、选取集合Di,并令j=1。
S15、若j≤Ni,执行步骤S16,反之,i=i+1,重新执行步骤S13。
S16、选取集合Di中的元素di,j,与初始化数据元集合D中的元素逐一比较,若存在一个数据元是得di,j的H与D的H相等,则执行步骤S17,反之,执行步骤S17。
S17、更新数据元,则数据元的dM的属性S=S+1,关系的集合 Q = Q∪{Di},然后令j=j+1,继续执行S15。
S18、新建数据元。令M=M+1,在初始化数据元集合D中新建元素dM,dM=di,j,dM的多重性S=1,关系的集合 Q= {Di},令j=j+1,继续执行S15。
S2:给收集的数据表字段,添加中文注释。其中,***提供对字段进行中文注释增、修改及删除等操作,可对数据元所有的相关属性进行维护,通过后台维护数据元标准体系。
S3:根据字段中文注释和数据来源部门提供的信息,匹配标准数据元。匹配的过程分成两个步骤:首先是匹配数据元,然后是匹配字典项;数据元匹配方法有:①基于数据来源部门提供的数据字典;②基于字段类型和长度,如字符、数字、日期等,身份证号长度通常为15位或18位。基于类型的匹配方法可以辅助缩小匹配范围;③基于字段的名称和中文注释,如gender、age、民族等。对于无法与标准数据元完全匹配的,使用“编辑距离”来衡量数据项与标准数据元的相似程度,匹配最相似的数据元。编辑距离的定义为:对于两个字符串S、T,将S转换成T所需要的操作步骤的总数量(删除、***、替换)叫做从S到T的编辑路径,所有编辑路径中最短的编辑路径就是字符串S与字符串 T 的编辑距离,编辑距离越小则表示两个字符串的相似度越高。
字符串S=[S[0],S[1],...,S[length(S)]-1]和字符串T=[T[0],T[1],...,T[length(T)]-1]的编辑距离d(S,T)通过如下算法进行计算:
输入:字符串S=[S[0],S[1],...,S[length(S)]-1],字符串T=[T[0],T[1],...,T[length(T)]-1]。
输出:编辑距离d(S,T)。
S31 初始化。令i=1,定义一个与字符串T等长的数组d,并用数组下标初始化数组元素的值:
d=[0, 1, 2, ..., length(T)]。
S32 如果i≤length(S),执行步骤S33,否则执行步骤S39。
S33 令j=1,定义数组d1,初始只包含一个元素i:
d1=[i]。
S34 如果j<length(d),执行步骤S35,否则执行步骤S37。
S35 如果S[i-1]=T[j-1],则在数组d1的末尾添加一个元素x,其中x=d[j-1]。
否则,在数组d1的末尾添加一个元素y,其中y是d[j-1]+1,d[j]+1,d1[j-1]+1三者中的最小值。
S36 令j=j+1,执行步骤S34。
S37 令d=d1。
S38 令i=i+1,执行步骤S32。
S39 假设当前的d为:
d=[d1, d2, ......, dt]
那么字符串S和T的编辑距离就是dt。
本算法通过双重循环实现,时间复杂度为O(length(S)*length(T));在计算时定义了两个一维数组d和d1,空间复杂度为O(length(S)+length(T))。
④基于描述对象的属性和字典值取值范围,如描述主体是人,某一字段共有58种字典值,那么该字段对应于“民族”数据元。其中,分类的标准数据元构成一个标签集,字段添加中文注释后会再分类构成一个标签集,两个标签集进行对照后,再进行关联匹配。
S4:根据所匹配标准数据元,修改数据结构。其中,数据表字段匹配标准数据元后,***会自动修改数据结构,在这里是要手动确定修改是否有问题,并导出问题数据。修改数据表字段名称、字段类型、字段长度。在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
具体的,同现有信息拓展数据元的形式。具体包括如下步骤:从现有的K个政务数据元的集合中提取数据元,所有数据元按照时间顺序重新排列组成数据元集合T={t1,t2,t3……ti}。在坐标系中绘制成数据元随时间的变化曲线,通过数据拟合曲线,将数据曲线分为离散型、增长型、衰减型三种曲线。其中,离散型数据元集合,从数据元集合中找到max{ti },则该数据元的数据格式F=OM(max{ ti })+1,OM(x)表示数据元x所在的数量级。增长型的数据格式F= OM(f(t-T0))+1,其中,OM(x)表示数据元x所在的数量级,f(x)为拟合曲线的数据元随时间的关系式,t为该标准的有效时间,T0为起始时间。衰减型的数据格式F= OM(f(t-T0))+1,从数据元集合中找到max{ ti },则该数据元的数据格式F=OM(max{ ti })+1,OM(x)表示数据元x所在的数量级。
如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度,以符合数据元的数据格式。
S5:根据标准数据元,编制数据元字典表(具体数据或数据流、数据处理或者存储、数据分解等数据流图中出现的所有命名元素的详细定义)。当匹配的数据元字典为枚举类型时(如性别、民族、车辆类型等),需要进行字典项匹配。字典项匹配方法有:①基于数据来源部门提供的数据字典;②基于关联规则,例如可以利用身份证号得出人的性别,然后与表中的“性别”字段的字典项关联匹配规则;其中,政务标准数据元中,已规定了值域,根据值域所引用的标准或者定义的值域,编制数据元字典表。
S6:根据实际情况和数据来源部门提供的信息,编制数据字典表。其中,不同的数据表来源于不同的业务***,会采用不同的数据库设计文档,同样的字段名称,不同的来源***数据表,需要编制不同的数据字典表。
具体的,所述数据字典表以MVC作为框架,包括:模型模块,视图模块,控制模块。其中视图模块,用户使用的人机交互界面;模型模块,一方面,用于存储不同的数据库设计文档,不同的来源***数据表,另一方面,处理各种数据任务,还能够使用中间件的构建对象进行数据库。基于MVC框架对于模型模块的要求,能增大代码的复用性,能够通过一端通用的数据元,对多个视图模块提供数据支持。控制模块,用于接收视图模块的数据输入,并根据输入调用模型模块的数据,然后返回到视图模块输出,完成用户需求。
S7:选择字段,匹配数据字典表。其中,选择字段后,***自动匹配数据字典表,自动生成标准化数据。
下面结合实施例,对本发明作进一步说明,所述的实施例的示例旨在解释本发明,而不能理解为对本发明的限制。
如在相关政务网站下载了中文名称为:性别代码,标识符为:XBDM的关于人的性别的标准数据元。按照***提供的模板,录入***中。***采集了一张名为“群租人员采集信息”数据表,根据数据表来源部门提供的信息,对“SX”字段添加“性别”中文注释。选择“性别”字段,查找可匹配的数据元,匹配了“性别代码”标准数据元,按照标准数据元要求,***修改了字段数据结构。在“性别代码”标准数据元中,值域规定的是采用GB/T 2261.1 《个人基本信息分类与代码第1部分: 人的性别代码》。在国家标准全文公开***中查找标准,根据内容编制“性别代码”标准数据元字典表:“0:未知的性别”、“1:男性”、“2:女性”、“9:未说明的性别”。在对“群租人员采集信息”数据表“SX”字段数据分类后,根据来源部门提供的信息,编制了数据字典表:“男:男性”、“F:男性”、“MAN:男性”、“蓝:男性”、“男人:男性”。选择“群租人员采集信息”数据表“SX”字段字典表,匹配“性别代码”标准数据元字典表,完成数据清洗,标准数据进入数据仓库。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (9)

1.一种通过标准数据元进行政务数据清洗的方法,其特征在于,包括如下步骤:
S1、从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
S2、给收集的数据表字段,添加中文注释;
S3、根据中文注释和数据来源部门提供的信息,匹配标准数据元;
S4、根据所匹配数据元标准,修改数据结构;
S5、根据数据元标准,编制数据元字典表;
S6、根据实际情况和数据来源部门提供的信息,编制数据字典表;
S7、选择字段,匹配数据字典表。
2.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述数据元包括:数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。
3.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
4.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,优选的,所述添加中文注释的具体步骤为:根据数据源***数据库设计文档。
5.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述数据元维护功能为:通过后台维护数据元标准体系支持对数据元进行人工新增、修改及删除操作,可对数据元所有的相关属性进行维护。
6.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述匹配标准数据元的步骤为:对数据资源字段进行整理分析及统计,确定字段的提交单位及机构、产生原因、实际含义,并与现有的数据元进行对照,寻找相关联的数据元;对于不确定的数据元,按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。
7.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述修改数据结构为:修改数据表字段名称、字段类型、字段长度;在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
8.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述编制数据字典表为:根据数据来源部门提供的数据库设计文档编写数据字典表;若没有数据库设计文档,对数据内容进行分类分析编写数据字典表。
9.一种通过标准数据元进行政务数据清洗的***,其特征在于,包括如下模块:
数据导入模块,从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
中文注释模块,给收集的数据表字段,添加中文注释;
匹配数据元模块,根据中文注释和数据来源部门提供的信息,匹配标准数据元;
修改数据模块,根据所匹配数据元标准,修改数据结构;
编制数据字典模块,根据数据元标准,编制数据元字典表;根据实际情况和数据来源部门提供的信息,编制数据字典表;选择字段,匹配数据字典表。
CN202010559413.9A 2020-06-18 2020-06-18 一种通过标准数据元进行政务数据清洗的方法和*** Withdrawn CN111858567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010559413.9A CN111858567A (zh) 2020-06-18 2020-06-18 一种通过标准数据元进行政务数据清洗的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010559413.9A CN111858567A (zh) 2020-06-18 2020-06-18 一种通过标准数据元进行政务数据清洗的方法和***

Publications (1)

Publication Number Publication Date
CN111858567A true CN111858567A (zh) 2020-10-30

Family

ID=72987991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010559413.9A Withdrawn CN111858567A (zh) 2020-06-18 2020-06-18 一种通过标准数据元进行政务数据清洗的方法和***

Country Status (1)

Country Link
CN (1) CN111858567A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112800049A (zh) * 2021-04-06 2021-05-14 航天神舟智慧***技术有限公司 基于大数据的excel数据源清洗方法、***、电子设备和存储介质
CN112948250A (zh) * 2021-03-03 2021-06-11 浪潮云信息技术股份公司 基于数据标准的结构检测方法及***
CN112948365A (zh) * 2021-03-04 2021-06-11 浪潮云信息技术股份公司 一种基于数据元智能匹配的数据质量检测方法
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112948250A (zh) * 2021-03-03 2021-06-11 浪潮云信息技术股份公司 基于数据标准的结构检测方法及***
CN112948250B (zh) * 2021-03-03 2024-02-02 浪潮云信息技术股份公司 基于数据标准的结构检测方法及***
CN112948365A (zh) * 2021-03-04 2021-06-11 浪潮云信息技术股份公司 一种基于数据元智能匹配的数据质量检测方法
CN112800049A (zh) * 2021-04-06 2021-05-14 航天神舟智慧***技术有限公司 基于大数据的excel数据源清洗方法、***、电子设备和存储介质
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法

Similar Documents

Publication Publication Date Title
CN111858567A (zh) 一种通过标准数据元进行政务数据清洗的方法和***
CN109492077B (zh) 基于知识图谱的石化领域问答方法及***
US8185519B2 (en) Techniques for exact cardinality query optimization
US6618727B1 (en) System and method for performing similarity searching
US7912816B2 (en) Adaptive archive data management
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
CN104636478A (zh) 信息查询方法和设备
CN110543517A (zh) 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
CN112860727B (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
CN111782763A (zh) 基于语音语义的信息检索方法、及其相关设备
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
JP2024502730A (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
US10650191B1 (en) Document term extraction based on multiple metrics
Tekli et al. Minimizing user effort in XML grammar matching
US20090234852A1 (en) Sub-linear approximate string match
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
Babur Clone Detection for Ecore Metamodels using N-grams.
Phillips et al. Using Metadata Record Graphs to understand controlled vocabulary and keyword usage for subject representation in the UNT theses and dissertations collection.
CN110990423A (zh) Sql语句的执行方法、装置、设备和存储介质
WO2019010277A2 (en) HIGHLY ATOMIZED INTERVIEWABLE AND SEGMENTED DATA SYSTEMS (HASIDS)
CN114817498A (zh) 用户意图识别方法、装置、设备及存储介质
Padhi et al. FlashProfile: Interactive Synthesis of Syntactic Profiles.
CN117573959B (zh) 一种基于网页xpath获取新闻正文的通用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201030