CN111858567A - 一种通过标准数据元进行政务数据清洗的方法和*** - Google Patents
一种通过标准数据元进行政务数据清洗的方法和*** Download PDFInfo
- Publication number
- CN111858567A CN111858567A CN202010559413.9A CN202010559413A CN111858567A CN 111858567 A CN111858567 A CN 111858567A CN 202010559413 A CN202010559413 A CN 202010559413A CN 111858567 A CN111858567 A CN 111858567A
- Authority
- CN
- China
- Prior art keywords
- data
- standard
- data elements
- cleaning
- government
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004140 cleaning Methods 0.000 title claims abstract description 22
- 238000012423 maintenance Methods 0.000 claims abstract description 9
- 238000013461 design Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种通过标准数据元进行政务数据清洗的方法和***,属于数据处理技术领域。包括如下步骤:从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;给收集的数据表字段,添加中文注释;根据中文注释和数据来源部门提供的信息,匹配标准数据元,修改数据结构,编制数据元字典表;选择字段,匹配数据字典表。本发明通过标准数据元进行政务数据清洗的方法和***,通过收集不同类型的标准数据元建立政务数据清洗***,能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。
Description
技术领域
本发明属于数据处理技术领域,尤其是一种通过标准数据元进行政务数据清洗的方法和***。
背景技术
近年来,随着政府信息化项目建设的展开,政府整体信息化水平迅速提升,在各个政府单位手中积累了丰富的业务数据资源,其种类不断丰富、总量呈现爆发性增长,政务大数据体系已经初具雏形。随着数据资源汇集、整合、存储、管理、共享、交换与应用需求的不断增长,当前存在的数据不规范等问题也日益凸显,这些问题最终制约着政务数据资源的应用深度和价值,导致数据利用价值低、难以管理、应用范围窄,这些问题的根源是一些政务***开发时,没有完全按照相关标准做数据规范建设。
发明内容
发明目的:提供一种通过标准数据元进行政务数据清洗的方法和***,以解决背景技术中所涉及的问题。
技术方案:一种通过标准数据元进行政务数据清洗的方法和***,包括:包括如下步骤:
S1、从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
S2、给收集的数据表字段,添加中文注释;
S3、根据中文注释和数据来源部门提供的信息,匹配标准数据元;
S4、根据所匹配数据元标准,修改数据结构;
S5、根据数据元标准,编制数据元字典表;
S6、根据实际情况和数据来源部门提供的信息,编制数据字典表;
S7、选择字段,匹配数据字典表。
作为一个优选方案,所述数据元包括:数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。
作为一个优选方案,所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
作为一个优选方案,优选的,所述添加中文注释的具体步骤为:根据数据源***数据库设计文档。
作为一个优选方案,所述数据元维护功能为:支持对数据元进行人工新增、修改及删除操作,可对数据元所有的相关属性进行维护,通过后台维护数据元标准体系
作为一个优选方案,所述匹配标准数据元的步骤为:对数据资源字段进行整理分析及统计,确定字段的提交单位及机构、产生原因、实际含义,并与现有的数据元进行对照,寻找相关联的数据元;对于不确定的数据元,按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。
作为一个优选方案,所述修改数据结构为:修改数据表字段名称、字段类型、字段长度;在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
作为一个优选方案,所述编制数据字典表为:根据数据来源部门提供的数据库设计文档编写数据字典表;若没有数据库设计文档,对数据内容进行分类分析编写数据字典表。
本发明还提供一种通过标准数据元进行政务数据清洗的***,包括如下模块:
数据导入模块,从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
中文注释模块,给收集的数据表字段,添加中文注释;
匹配数据元模块,根据中文注释和数据来源部门提供的信息,匹配标准数据元;
修改数据模块,根据所匹配数据元标准,修改数据结构;
编制数据字典模块,根据数据元标准,编制数据元字典表;根据实际情况和数据来源部门提供的信息,编制数据字典表;选择字段,匹配数据字典表。
有益效果:本发明涉及一种通过标准数据元进行政务数据清洗的方法和***,通过收集不同类型的标准数据元,添加中文注释,匹配标准数据元,修改数据结构,编制数据元字典表,建立政务数据清洗***,能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。
附图说明
图1是本发明实施实施例的通过标准数据元进行政务数据清洗方法和***的流程示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
如附图1所示,一种通过标准数据元进行政务数据清洗的方法,包括如下步骤:
S1:从相关政务网站和商业数据库,收集现有的政务数据元(也称为数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元)标准,批量导入***中,进行分类和维护。其中,***提供文本文档批量导入和分类Excel模板;所述数据元导入,包含数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构等信息。所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
具体的,假设所有的政务数据元构成一个集合D,数据元为d,d∈D,按照预定规则,将集合D分割成M个子集合,记做Di,其中每一个子集的权重为wi。在集合D上定义函数Ad,由于d∈D,则Ad表示数据元d在集合D中是否存在;即
在集合D上重新定义一个函数B,由于d∈D,则Bd表示数据元d在预定规则下切割的子集合的多样性,即
在集合D上重新定义一个函数C。由于d∈D,Cd表示在预定规则下的权重,即
在实际处理过程中,在数据元的四个基本属性上添加多重性S和关系的集合Q,表示数据元预定规则下的所有关系,即
其中H,T,F,R为数据元的四个基本属性,分别表示为:数据元名称,数据类型,数据格式以及值域。
将上述算法应用到具体实施例中,选取一个单表初始化数据元集合,然后依次添加其他单表,对数据元集合进行修正,提取新的数据元,其具体步骤如下:
S11、按照预定规则,将现有的K个政务数据元的集合D1、D2、D3、……、DK,记做Di,1≤i≤K。其中每一个数据元集合包括Ni个数据元,其中Di={di,1, di,1, di,1……di,j},1≤j≤Ni。
步骤2、初始化数据元集合D,并令i=1,新建一个包含有M个数据元dM的数据元集合集合DM,并令M=Ni,用数据元集合Di中的元素中di, j, 1≤j≤Ni依次给dM赋值,dM=di,j,1≤j≤Ni。对于任意一个dM∈D,dM的多重性S=1,关系的集合 Q= {D1}。
S13、如果i≤K,执行步骤S14,反之,结束算法。
S14、选取集合Di,并令j=1。
S15、若j≤Ni,执行步骤S16,反之,i=i+1,重新执行步骤S13。
S16、选取集合Di中的元素di,j,与初始化数据元集合D中的元素逐一比较,若存在一个数据元是得di,j的H与D的H相等,则执行步骤S17,反之,执行步骤S17。
S17、更新数据元,则数据元的dM的属性S=S+1,关系的集合 Q = Q∪{Di},然后令j=j+1,继续执行S15。
S18、新建数据元。令M=M+1,在初始化数据元集合D中新建元素dM,dM=di,j,dM的多重性S=1,关系的集合 Q= {Di},令j=j+1,继续执行S15。
S2:给收集的数据表字段,添加中文注释。其中,***提供对字段进行中文注释增、修改及删除等操作,可对数据元所有的相关属性进行维护,通过后台维护数据元标准体系。
S3:根据字段中文注释和数据来源部门提供的信息,匹配标准数据元。匹配的过程分成两个步骤:首先是匹配数据元,然后是匹配字典项;数据元匹配方法有:①基于数据来源部门提供的数据字典;②基于字段类型和长度,如字符、数字、日期等,身份证号长度通常为15位或18位。基于类型的匹配方法可以辅助缩小匹配范围;③基于字段的名称和中文注释,如gender、age、民族等。对于无法与标准数据元完全匹配的,使用“编辑距离”来衡量数据项与标准数据元的相似程度,匹配最相似的数据元。编辑距离的定义为:对于两个字符串S、T,将S转换成T所需要的操作步骤的总数量(删除、***、替换)叫做从S到T的编辑路径,所有编辑路径中最短的编辑路径就是字符串S与字符串 T 的编辑距离,编辑距离越小则表示两个字符串的相似度越高。
字符串S=[S[0],S[1],...,S[length(S)]-1]和字符串T=[T[0],T[1],...,T[length(T)]-1]的编辑距离d(S,T)通过如下算法进行计算:
输入:字符串S=[S[0],S[1],...,S[length(S)]-1],字符串T=[T[0],T[1],...,T[length(T)]-1]。
输出:编辑距离d(S,T)。
S31 初始化。令i=1,定义一个与字符串T等长的数组d,并用数组下标初始化数组元素的值:
d=[0, 1, 2, ..., length(T)]。
S32 如果i≤length(S),执行步骤S33,否则执行步骤S39。
S33 令j=1,定义数组d1,初始只包含一个元素i:
d1=[i]。
S34 如果j<length(d),执行步骤S35,否则执行步骤S37。
S35 如果S[i-1]=T[j-1],则在数组d1的末尾添加一个元素x,其中x=d[j-1]。
否则,在数组d1的末尾添加一个元素y,其中y是d[j-1]+1,d[j]+1,d1[j-1]+1三者中的最小值。
S36 令j=j+1,执行步骤S34。
S37 令d=d1。
S38 令i=i+1,执行步骤S32。
S39 假设当前的d为:
d=[d1, d2, ......, dt]
那么字符串S和T的编辑距离就是dt。
本算法通过双重循环实现,时间复杂度为O(length(S)*length(T));在计算时定义了两个一维数组d和d1,空间复杂度为O(length(S)+length(T))。
④基于描述对象的属性和字典值取值范围,如描述主体是人,某一字段共有58种字典值,那么该字段对应于“民族”数据元。其中,分类的标准数据元构成一个标签集,字段添加中文注释后会再分类构成一个标签集,两个标签集进行对照后,再进行关联匹配。
S4:根据所匹配标准数据元,修改数据结构。其中,数据表字段匹配标准数据元后,***会自动修改数据结构,在这里是要手动确定修改是否有问题,并导出问题数据。修改数据表字段名称、字段类型、字段长度。在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
具体的,同现有信息拓展数据元的形式。具体包括如下步骤:从现有的K个政务数据元的集合中提取数据元,所有数据元按照时间顺序重新排列组成数据元集合T={t1,t2,t3……ti}。在坐标系中绘制成数据元随时间的变化曲线,通过数据拟合曲线,将数据曲线分为离散型、增长型、衰减型三种曲线。其中,离散型数据元集合,从数据元集合中找到max{ti },则该数据元的数据格式F=OM(max{ ti })+1,OM(x)表示数据元x所在的数量级。增长型的数据格式F= OM(f(t-T0))+1,其中,OM(x)表示数据元x所在的数量级,f(x)为拟合曲线的数据元随时间的关系式,t为该标准的有效时间,T0为起始时间。衰减型的数据格式F= OM(f(t-T0))+1,从数据元集合中找到max{ ti },则该数据元的数据格式F=OM(max{ ti })+1,OM(x)表示数据元x所在的数量级。
如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度,以符合数据元的数据格式。
S5:根据标准数据元,编制数据元字典表(具体数据或数据流、数据处理或者存储、数据分解等数据流图中出现的所有命名元素的详细定义)。当匹配的数据元字典为枚举类型时(如性别、民族、车辆类型等),需要进行字典项匹配。字典项匹配方法有:①基于数据来源部门提供的数据字典;②基于关联规则,例如可以利用身份证号得出人的性别,然后与表中的“性别”字段的字典项关联匹配规则;其中,政务标准数据元中,已规定了值域,根据值域所引用的标准或者定义的值域,编制数据元字典表。
S6:根据实际情况和数据来源部门提供的信息,编制数据字典表。其中,不同的数据表来源于不同的业务***,会采用不同的数据库设计文档,同样的字段名称,不同的来源***数据表,需要编制不同的数据字典表。
具体的,所述数据字典表以MVC作为框架,包括:模型模块,视图模块,控制模块。其中视图模块,用户使用的人机交互界面;模型模块,一方面,用于存储不同的数据库设计文档,不同的来源***数据表,另一方面,处理各种数据任务,还能够使用中间件的构建对象进行数据库。基于MVC框架对于模型模块的要求,能增大代码的复用性,能够通过一端通用的数据元,对多个视图模块提供数据支持。控制模块,用于接收视图模块的数据输入,并根据输入调用模型模块的数据,然后返回到视图模块输出,完成用户需求。
S7:选择字段,匹配数据字典表。其中,选择字段后,***自动匹配数据字典表,自动生成标准化数据。
下面结合实施例,对本发明作进一步说明,所述的实施例的示例旨在解释本发明,而不能理解为对本发明的限制。
如在相关政务网站下载了中文名称为:性别代码,标识符为:XBDM的关于人的性别的标准数据元。按照***提供的模板,录入***中。***采集了一张名为“群租人员采集信息”数据表,根据数据表来源部门提供的信息,对“SX”字段添加“性别”中文注释。选择“性别”字段,查找可匹配的数据元,匹配了“性别代码”标准数据元,按照标准数据元要求,***修改了字段数据结构。在“性别代码”标准数据元中,值域规定的是采用GB/T 2261.1 《个人基本信息分类与代码第1部分: 人的性别代码》。在国家标准全文公开***中查找标准,根据内容编制“性别代码”标准数据元字典表:“0:未知的性别”、“1:男性”、“2:女性”、“9:未说明的性别”。在对“群租人员采集信息”数据表“SX”字段数据分类后,根据来源部门提供的信息,编制了数据字典表:“男:男性”、“F:男性”、“MAN:男性”、“蓝:男性”、“男人:男性”。选择“群租人员采集信息”数据表“SX”字段字典表,匹配“性别代码”标准数据元字典表,完成数据清洗,标准数据进入数据仓库。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
Claims (9)
1.一种通过标准数据元进行政务数据清洗的方法,其特征在于,包括如下步骤:
S1、从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
S2、给收集的数据表字段,添加中文注释;
S3、根据中文注释和数据来源部门提供的信息,匹配标准数据元;
S4、根据所匹配数据元标准,修改数据结构;
S5、根据数据元标准,编制数据元字典表;
S6、根据实际情况和数据来源部门提供的信息,编制数据字典表;
S7、选择字段,匹配数据字典表。
2.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述数据元包括:数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。
3.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
4.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,优选的,所述添加中文注释的具体步骤为:根据数据源***数据库设计文档。
5.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述数据元维护功能为:通过后台维护数据元标准体系支持对数据元进行人工新增、修改及删除操作,可对数据元所有的相关属性进行维护。
6.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述匹配标准数据元的步骤为:对数据资源字段进行整理分析及统计,确定字段的提交单位及机构、产生原因、实际含义,并与现有的数据元进行对照,寻找相关联的数据元;对于不确定的数据元,按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。
7.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述修改数据结构为:修改数据表字段名称、字段类型、字段长度;在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
8.根据权利要求1所述的通过标准数据元进行政务数据清洗的方法,其特征在于,所述编制数据字典表为:根据数据来源部门提供的数据库设计文档编写数据字典表;若没有数据库设计文档,对数据内容进行分类分析编写数据字典表。
9.一种通过标准数据元进行政务数据清洗的***,其特征在于,包括如下模块:
数据导入模块,从相关政务网站和商业数据库,收集现有的数据元标准,批量导入***中,进行分类和维护;
中文注释模块,给收集的数据表字段,添加中文注释;
匹配数据元模块,根据中文注释和数据来源部门提供的信息,匹配标准数据元;
修改数据模块,根据所匹配数据元标准,修改数据结构;
编制数据字典模块,根据数据元标准,编制数据元字典表;根据实际情况和数据来源部门提供的信息,编制数据字典表;选择字段,匹配数据字典表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559413.9A CN111858567A (zh) | 2020-06-18 | 2020-06-18 | 一种通过标准数据元进行政务数据清洗的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559413.9A CN111858567A (zh) | 2020-06-18 | 2020-06-18 | 一种通过标准数据元进行政务数据清洗的方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858567A true CN111858567A (zh) | 2020-10-30 |
Family
ID=72987991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010559413.9A Withdrawn CN111858567A (zh) | 2020-06-18 | 2020-06-18 | 一种通过标准数据元进行政务数据清洗的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858567A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256688A (zh) * | 2020-11-26 | 2021-01-22 | 杭州数梦工场科技有限公司 | 业务数据清洗方法、装置、电子设备 |
CN112800049A (zh) * | 2021-04-06 | 2021-05-14 | 航天神舟智慧***技术有限公司 | 基于大数据的excel数据源清洗方法、***、电子设备和存储介质 |
CN112948250A (zh) * | 2021-03-03 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于数据标准的结构检测方法及*** |
CN112948365A (zh) * | 2021-03-04 | 2021-06-11 | 浪潮云信息技术股份公司 | 一种基于数据元智能匹配的数据质量检测方法 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
-
2020
- 2020-06-18 CN CN202010559413.9A patent/CN111858567A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256688A (zh) * | 2020-11-26 | 2021-01-22 | 杭州数梦工场科技有限公司 | 业务数据清洗方法、装置、电子设备 |
CN112948250A (zh) * | 2021-03-03 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于数据标准的结构检测方法及*** |
CN112948250B (zh) * | 2021-03-03 | 2024-02-02 | 浪潮云信息技术股份公司 | 基于数据标准的结构检测方法及*** |
CN112948365A (zh) * | 2021-03-04 | 2021-06-11 | 浪潮云信息技术股份公司 | 一种基于数据元智能匹配的数据质量检测方法 |
CN112800049A (zh) * | 2021-04-06 | 2021-05-14 | 航天神舟智慧***技术有限公司 | 基于大数据的excel数据源清洗方法、***、电子设备和存储介质 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858567A (zh) | 一种通过标准数据元进行政务数据清洗的方法和*** | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及*** | |
US8185519B2 (en) | Techniques for exact cardinality query optimization | |
US6618727B1 (en) | System and method for performing similarity searching | |
US7912816B2 (en) | Adaptive archive data management | |
US9390176B2 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
CN104636478A (zh) | 信息查询方法和设备 | |
CN110543517A (zh) | 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质 | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
CN112860727B (zh) | 基于大数据查询引擎的数据查询方法、装置、设备及介质 | |
CN111782763A (zh) | 基于语音语义的信息检索方法、及其相关设备 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
JP2024502730A (ja) | デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム | |
US10650191B1 (en) | Document term extraction based on multiple metrics | |
Tekli et al. | Minimizing user effort in XML grammar matching | |
US20090234852A1 (en) | Sub-linear approximate string match | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Babur | Clone Detection for Ecore Metamodels using N-grams. | |
Phillips et al. | Using Metadata Record Graphs to understand controlled vocabulary and keyword usage for subject representation in the UNT theses and dissertations collection. | |
CN110990423A (zh) | Sql语句的执行方法、装置、设备和存储介质 | |
WO2019010277A2 (en) | HIGHLY ATOMIZED INTERVIEWABLE AND SEGMENTED DATA SYSTEMS (HASIDS) | |
CN114817498A (zh) | 用户意图识别方法、装置、设备及存储介质 | |
Padhi et al. | FlashProfile: Interactive Synthesis of Syntactic Profiles. | |
CN117573959B (zh) | 一种基于网页xpath获取新闻正文的通用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201030 |