CN115936624A - 基层数据管理方法及装置 - Google Patents

基层数据管理方法及装置 Download PDF

Info

Publication number
CN115936624A
CN115936624A CN202211675961.3A CN202211675961A CN115936624A CN 115936624 A CN115936624 A CN 115936624A CN 202211675961 A CN202211675961 A CN 202211675961A CN 115936624 A CN115936624 A CN 115936624A
Authority
CN
China
Prior art keywords
target
base layer
layer data
field name
header
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211675961.3A
Other languages
English (en)
Inventor
宋伯言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211675961.3A priority Critical patent/CN115936624A/zh
Publication of CN115936624A publication Critical patent/CN115936624A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基层数据管理方法及装置。该方法包括:获取多个数据源的多组第一基层数据;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。本申请解决了相关技术中采集政务基层数据的效率较低,且数据质量较差的技术问题。

Description

基层数据管理方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基层数据管理方法及装置。
背景技术
基层数据采集是政府基层数据治理体系中不可或缺的重要部分,其发展关系着数字政府、智慧城市、智慧乡村建设的进程,近年来,为履行好公共服务和社会管理职能,越来越多的政府部门需要采集基层信息。但大量的采集信息需要通过基层工作人员手动录入、垂直上报的方式进行采集,其会造成数据采集各自分散,数据格式不统一,数据类型无标准,重复采集等问题,既给基层增加负担,造成人力财力浪费,又存在多头报送、重复报送、数据质量不高、采集效率较低等问题,影响政府社会治理水平。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基层数据管理方法及装置,以至少解决相关技术中采集政务基层数据的效率较低,且数据质量较差的技术问题。
根据本申请实施例的一个方面,提供了一种的基层数据管理方法,包括:获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
可选地,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型,包括:将第一表头和第一字段名称输入预训练的文本分类模型,得到文本分类模型输出的用于反映第一基层数据对应的业务类型的分类结果;其中,文本分类模型为多层感知机模型,文本分类模型中至少包括:输入层、归一化层、通道映射层、激活函数层和交叉投影门控单元层。
可选地,在文本分类模型中,输入层输入的为字嵌入;归一化层采用层归一化方法;激活函数层采用高斯误差线性单元激活函数。
可选地,文本分类模型的训练过程包括:获取训练样本集合,其中,训练样本集合中包括多个训练样本和每个训练样本对应的样本标签,每个训练样本中包括一组历史基层数据中的历史表头和历史字段名称,样本标签用于标记历史基层数据对应的业务类型;对于每个训练样本,将训练样本输入文本分类模型,得到文本分类模型的输出结果,依据训练样本对应的样本标签与输出结果构建损失函数;将多个训练样本依次输入文本分类模型进行迭代训练,通过最小化损失函数的方法调整文本分类模型的模型参数。
可选地,依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称,包括:依据字段名称含义将多组第一基层数据中的多个第一字段名称划分至多个字段名称集合,其中,同一字段名称集合内的各个第一字段名称的字段名称含义相同;对于每个字段名称集合,确定字段名称集合中出现频率最高的第一字段名称为字段名称集合中各个第一字段名称的标准化字段名称。
可选地,从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,包括:对于与目标业务类型对应的每组第一基层数据,将第一基层数据的第一表头与目标表头输入文本匹配模型,得到第一表头与目标表头的相似度,其中,文本匹配模型用于依据无监督的句嵌入的简单对比学习算法确定相似度;确定与目标表头的相似度最高的第一表头对应的第一基层数据为目标第一基层数据。
可选地,依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报,包括:对于目标基层数据中的各个目标采集项,确定目标第一基层数据中与目标采集项的目标字段名称相对应的第一字段名称的第一取值作为目标采集项的目标取值,将目标取值进行填报。
根据本申请实施例的另一方面,还提供了一种基层数据管理装置,包括:获取模块,用于获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;第一确定模块,用于对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;第二确定模块,用于依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;第三确定模块,用于确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;填报模块,用于从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,非易失性存储介质所在设备通过运行该程序执行上述的基层数据管理方法。
根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的基层数据管理方法。
在本申请实施例中,获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报,避免了基层业务人员手动录入垂直上报方式导致数据采集分散、数据格式不统一、数据类型无标准、重复采集等问题,从而在保证了基层数据采集的准确性和即时性的同时,减轻了基层业务人员的工作量,提升基层数据的上报效率,进而解决了相关技术中采集政务基层数据的效率较低,且数据质量较差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的基层数据管理方法的流程图;
图2是根据本申请实施例的一种可选的文本分类模型的结构示意图;
图3是根据本申请实施例的一种可选的对比学习框架的示意图;
图4是根据本申请实施例的一种可选的基层数据管理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,提供了一种基层数据管理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种可选的基层数据管理方法的流程示意图,如图1所示,该方法至少包括步骤S101-S105,其中:
步骤S101,获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值。
在本发明上述步骤S101提供的技术方案中,可以从政府基层数据资源中心各类型基础库或者专题库中获取多个数据源的第一基层数据,其中,政府基层数据资源中心各类型基础库包括:综合人口库、综合法人库、电子证照库;专题库中包括:一网通办库、一网统管库、一网协同库,另外,由于每组基层数据的填报要求不同,因此还可以从政府基层数据资源中心获取来自多个数据源的填报说明。
步骤S102,对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型。
在本发明上述步骤S102提供的技术方案中,对于从政府基层数据资源中心政府基层数据资源中心的多组第一基层数据,可以依据第一表头、各个第一采集项的第一字段名称和第一取值对第一基层数据进行分类,在本申请中,优先依据第一表头和第一字段名称对第一基层数据进行分类,从而实现自动化对第一基层数据进行分类,避免基层业务人员采用手动分类方式导致数据重复的问题。
步骤S103,依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称。
在本发明上述步骤S103提供的技术方案中,针对多组第一基层数据中的第一字段名称,确定词频最高的作为每个第一字段名称的标准化字段名称。
步骤S104,确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称。
在本发明上述步骤S104提供的技术方案中,待填报的目标基层数据为步骤S103中确定的标准化字段名称。
步骤S105,从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
在本发明上述步骤S105提供的技术方案中,通过相似性确定第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,其中,目标第一基层数据中包括目标字段名称,并对目标字段名称进行离线保存,也即完成字段名称的归一化,在用户输入新数据后,可以通过对待搜索数据进行归一化后,再进行搜索直接得到目标字段名称。
在本申请实施例中,获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报,避免了基层业务人员手动录入垂直上报方式导致数据采集分散、数据格式不统一、数据类型无标准、重复采集等问题,从而在保证了基层数据采集的准确性和即时性的同时,减轻了基层业务人员的工作量,提升基层数据的上报效率,进而解决了相关技术中采集政务基层数据的效率较低,且数据质量较差的技术问题。
下面将对该实施例的具体步骤进行进一步地介绍。
作为一种可选的实施方式,在本发明上述步骤S102提供的技术方案中,该方法包括:将第一表头和第一字段名称输入预训练的文本分类模型,得到文本分类模型输出的用于反映第一基层数据对应的业务类型的分类结果;其中,文本分类模型为多层感知机模型,文本分类模型中至少包括:输入层、归一化层、通道映射层、激活函数层和交叉投影门控单元层。
在该实施例中,将政府基层数据资源中心各类型数据库获取第一基层数据,并将第一基层数据中的第一表头和第一字段名称输入预训练的文本分类模型,得到与反映第一基层数据对应的业务类型的分类结果。
具体地,交叉投影门控单元层的原理为:设定待训练学习的两个全连接神经网络的参数分别为M1,M2,且两个矩阵均为[max_len,max_len]的方阵,其中,max_len表示输入模型的文本最大长度。若当前输入文本表示矩阵T,且矩阵T大小为[max_len,d_model],该矩阵T的第n行向量代表输入模型的第n个字符向量,则矩阵T经过全连接神经网络后会变为[max_len,d_model*2]的矩阵Ta,此时矩阵Ta在第二维度***为两个矩阵T1,T2,且这两个矩阵大小均为[max_len,d_model]。其中,M1和T1相乘得到矩阵
Figure BDA0004018311420000061
M2和T2相乘矩阵为
Figure BDA0004018311420000062
其中,
Figure BDA0004018311420000063
的意义为每个文本通过全连接神经网络可以感受到其它字的语义信息。此时针对原始文本一共有四种语义信息,分别为T1,T2
Figure BDA0004018311420000064
其中,T1,T2在当前层只能感到当前层自身语义表示信息,
Figure BDA0004018311420000065
可以感受到其它字语义表示信息,为了充分利用全连接神经网络的语义感受能力,将交叉投影门控单元的的表达式写作:
Figure BDA0004018311420000066
其中,运算符号“*”表示两两矩阵对应位置元素的相乘。
作为一种可选的实施方式,在本发明上述步骤S102提供的技术方案中,该方法包括:在文本分类模型中,输入层输入的为字嵌入;归一化层采用层归一化方法;激活函数层采用高斯误差线性单元(Gaussian Error Linear Unit,GELU)激活函数。
可选地,输入层输入的文本内容包括三部分:文本字嵌入、文本位置嵌入、文本类型嵌入;归一化层采用层归一化方法,将所有的第一基层数据格式进行统一;激活函数层用于将输入数据映射到输出端,使得所有的输出都是输入的线性组合,高斯误差线性单元激活函数的表达式可以写作:
Figure BDA0004018311420000067
其中,x表示初步输入文本的特征。
具体地,图2是根据本申请实施例的一种可选的文本分类模型的结构示意图,由图2可知,当通过输入层输入字嵌入后,依次通过归一化将输入的文本格式进行统一,接着通过通道映射和激活函数,将输入文本映射至输出端,并结合交叉投影门控单元,充分利用全连接神经网络的语义感受能力,最后通过通道映射得到输出结果,将上述过程反复执行N次,构成文本分类模型。
作为一种可选的实施方式,在本发明上述步骤S102提供的技术方案中,文本分类模型的训练过程包括:获取训练样本集合,其中,训练样本集合中包括多个训练样本和每个训练样本对应的样本标签,每个训练样本中包括一组历史基层数据中的历史表头和历史字段名称,样本标签用于标记历史基层数据对应的业务类型;对于每个训练样本,将训练样本输入文本分类模型,得到文本分类模型的输出结果,依据训练样本对应的样本标签与输出结果构建损失函数;将多个训练样本依次输入文本分类模型进行迭代训练,通过最小化损失函数的方法调整文本分类模型的模型参数。
在该实施例中,获取训练样本集合为政府基层数据资源中心各类型基础库,比如综合人口库、综合法人库、电子证照库等的历史基层数据中的历史表头和历史字段名称作为训练样本,并为每个训练样本设置用于标记历史基层数据对应的业务类型的样本标签;将训练样本输入文本分类模型,得到文本分类模型的输出结果,并依据训练样本对应的样本标签与输出结果构建损失函数;最后将多个训练样本依次输入文本分类模型进行迭代训练,通过最小化损失函数的方法调整文本分类模型的模型参数,从而完成对文本分类模型的训练。
其中,损失函数为交叉熵损失函数,且交叉熵损失函数的表达式为:
Figure BDA0004018311420000071
举例而言,首先将历史表头:2022年兰新县城乡居民社会养老保险死亡人员花名册,和历史字段名称:姓名、所在村组、年龄、身份证号、死亡日期、审核人、电话号码作为训练样本,即将上述样例数据写作[[CLS],"2","0","2","2","年","兰","新","县","城","乡","居","民","社","会","养","老","保","险","死","亡","人","员","花","名","册","[SEP]","姓","名","所","在","村","组","年","龄","身","份","证","号","死","亡","日","期","审","核","人","电","话","号","码","[SEP]","乡","镇","(","街","道",")","和","县","城","乡","居","民","社","会","养","老","保","险","经","办","机","构","各","留","存","一","份","。"],并作为模型输入,记作X,对应的输出优化目标Y=“一网通办专题库”对应类别词典的索引,其中,[CLS]代表输入文本分类模型的起始符,而[SEP]代表不同类型输入的分隔符标志位;然后,依据初步文本特征X输入到文本分类神经网络模型和对应的输出优化目标Y计算交叉熵损失函数;最后,将输入X依次输入文本分类模型进行迭代训练,通过最小化损失函数的方法调整文本分类模型的模型参数,从而完成对文本分类模型的训练。
作为一种可选的实施方式,在本发明上述步骤S103提供的技术方案中,该方法包括:依据字段名称含义将多组第一基层数据中的多个第一字段名称划分至多个字段名称集合,其中,同一字段名称集合内的各个第一字段名称的字段名称含义相同;对于每个字段名称集合,确定字段名称集合中出现频率最高的第一字段名称为字段名称集合中各个第一字段名称的标准化字段名称。
在该实施例中,依据字段名称含义将多组第一基层数据中的多个第一字段名称划分至多个字段名称集合,并统计每个字段名称集合中的第一字段名称出现的频率,将出现的频率最高的第一字段名称作为字段名称集合中各个第一字段名称的标准化字段名称。
举例而言,由于“身份证号”在不同的第一基层数据的表格中有多种不同脚法,如“身份证号码“、“身份证件号码”、“身份证信息”、“身份证件信息”等,可以将出现的频率最高的字段名称作为标准化字段名称。
作为一种可选的实施方式,在本发明上述步骤S105提供的技术方案中,该方法包括:对于与目标业务类型对应的每组第一基层数据,将第一基层数据的第一表头与目标表头输入文本匹配模型,得到第一表头与目标表头的相似度,其中,文本匹配模型用于依据无监督的句嵌入的简单对比学习算法确定相似度;确定与目标表头的相似度最高的第一表头对应的第一基层数据为目标第一基层数据。
在该实施例中,对于与目标业务类型对应的每组第一基层数据,将第一基层数据的第一表头与目标表头输入文本匹配模型,采用图3所示的对比学习的框架,充分利用无监督的句嵌入的简单对比学习(Simple Contrastive Learning of Sentence Embedding,SCLSE)算法确定相似度。
具体地,可以依次第一表头与目标表头的编辑距离,并将编辑距离转换为相似度值,则相似度的计算公式可以写作:
Figure BDA0004018311420000081
其中,len1表示目标表头的长度,len2表示第一表头的长度。
进一步地,将编辑距离进行排序,得到最相似的目标表头,并确定与目标表头的相似度最高的第一表头对应的第一基层数据为目标第一基层数据。
举例而言,一个数据源中有两组基层数据,其中,每组基层数据的字段名称分别为:"身份证","年龄"。接着,将“身份证”作为文本分类模型的输入,通过文本分类模型可以得到得到“身份证”字段的两种向量表示,将“年龄”作为文本分类模型的输入,同样文本分类模型可以得到得到“年龄”字段的两种向量表示,接着,通过文本匹配模型使得“身份证”的两种向量表示尽量相似,并使得“年龄”的两种向量表示尽量相似,但文本匹配模型保证“年龄”的任何向量表示和“身份证”的任何向量尽量不相似。
作为一种可选的实施方式,在本发明上述步骤S105提供的技术方案中,该方法包括:对于目标基层数据中的各个目标采集项,确定目标第一基层数据中与目标采集项的目标字段名称相对应的第一字段名称的第一取值作为目标采集项的目标取值,将目标取值进行填报。
在该实施例中,依据目标第一基层数据中与目标采集项的目标字段名称与第一字段名称的第一取值建立词典,从而可以在每次用户进行输入时,可以直接从词典中通过编辑聚类搜索最相似的采集项,从而可以直接通过词典获取目标取值,并进行填报。
实施例2
根据本申请实施例,还提供了一种用于实现实施例1中的基层数据管理方法的基层数据管理装置,如图4所示,该基层数据管理装置中至少包括获取模块41,获取模块41,第二确定模块43,第三确定模块44和填报模块45,其中:
获取模块41,用于获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值。
第一确定模块42,用于对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型。
作为一种可选的实施方式,第一确定模块42可以同如下方式确定第一基层数据对应的业务类型:依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型,包括:将第一表头和第一字段名称输入预训练的文本分类模型,得到文本分类模型输出的用于反映第一基层数据对应的业务类型的分类结果;其中,文本分类模型为多层感知机模型,文本分类模型中至少包括:输入层、归一化层、通道映射层、激活函数层和交叉投影门控单元层。
可选地,在文本分类模型中,输入层输入的为字嵌入;归一化层采用层归一化方法;激活函数层采用高斯误差线性单元激活函数。
作为另一种可选的实施方式,文本分类模型的训练过程包括:获取训练样本集合,其中,训练样本集合中包括多个训练样本和每个训练样本对应的样本标签,每个训练样本中包括一组历史基层数据中的历史表头和历史字段名称,样本标签用于标记历史基层数据对应的业务类型;对于每个训练样本,将训练样本输入文本分类模型,得到文本分类模型的输出结果,依据训练样本对应的样本标签与输出结果构建损失函数;将多个训练样本依次输入文本分类模型进行迭代训练,通过最小化损失函数的方法调整文本分类模型的模型参数。
第二确定模块43,用于依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称。
作为一种可选的实施方式,第二确定模块43可以同如下方式确定每个第一字段名称的标准化字段名称:依据字段名称含义将多组第一基层数据中的多个第一字段名称划分至多个字段名称集合,其中,同一字段名称集合内的各个第一字段名称的字段名称含义相同;对于每个字段名称集合,确定字段名称集合中出现频率最高的第一字段名称为字段名称集合中各个第一字段名称的标准化字段名称。
第三确定模块44,用于确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称。
填报模块45,用于从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
可选地,对于与目标业务类型对应的每组第一基层数据,填报模块45将第一基层数据的第一表头与目标表头输入文本匹配模型,得到第一表头与目标表头的相似度,其中,文本匹配模型用于依据无监督的句嵌入的简单对比学习算法确定相似度;确定与目标表头的相似度最高的第一表头对应的第一基层数据为目标第一基层数据。
作为一种可选的实施方式,填报模块45可以通过如下方式完成填报:对于目标基层数据中的各个目标采集项,确定目标第一基层数据中与目标采集项的目标字段名称相对应的第一字段名称的第一取值作为目标采集项的目标取值,将目标取值进行填报。
需要说明的是,本申请实施例中的基层数据管理装置中的各模块与实施例1中的基层数据管理方法的各实施步骤一一对应,由于实施例1中已经进行了详尽的描述,本实施例中部分未体现的细节可以参考实施例1,在此不再过多赘述。
实施例3
根据本申请实施例,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,非易失性存储介质所在设备通过运行该程序执行实施例1中的基层数据管理方法。
可选地,非易失性存储介质所在设备通过运行该程序执行实现以下步骤:获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
根据本申请实施例,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行实施例1中的基层数据管理方法。
可选地,程序运行时执行实现以下步骤:获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
根据本申请实施例,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行实施例1中的基层数据管理方法。
可选地,处理器被配置为通过计算机程序执行实现以下步骤:获取来自多个数据源的多组第一基层数据,其中,每组第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;对于每组第一基层数据,依据第一基层数据中的第一表头和第一字段名称确定第一基层数据对应的业务类型;依据多组第一基层数据中的多个第一字段名称确定每个第一字段名称的标准化字段名称;确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,目标字段名称为标准化字段名称;从与目标业务类型对应的多组第一基层数据中确定第一表头与目标表头的相似度最高的目标第一基层数据,并依据目标第一基层数据中的第一取值确定目标基层数据中的各个目标采集项的目标取值进行填报。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基层数据管理方法,其特征在于,包括:
获取来自多个数据源的多组第一基层数据,其中,每组所述第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;
对于每组所述第一基层数据,依据所述第一基层数据中的所述第一表头和所述第一字段名称确定所述第一基层数据对应的业务类型;
依据多组所述第一基层数据中的多个所述第一字段名称确定每个所述第一字段名称的标准化字段名称;
确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,所述目标字段名称为所述标准化字段名称;
从与所述目标业务类型对应的多组第一基层数据中确定所述第一表头与所述目标表头的相似度最高的目标第一基层数据,并依据所述目标第一基层数据中的所述第一取值确定所述目标基层数据中的各个所述目标采集项的目标取值进行填报。
2.根据权利要求1所述的方法,其特征在于,依据所述第一基层数据中的所述第一表头和所述第一字段名称确定所述第一基层数据对应的业务类型,包括:
将所述第一表头和所述第一字段名称输入预训练的文本分类模型,得到所述文本分类模型输出的用于反映所述第一基层数据对应的业务类型的分类结果;
其中,所述文本分类模型为多层感知机模型,所述文本分类模型中至少包括:输入层、归一化层、通道映射层、激活函数层和交叉投影门控单元层。
3.根据权利要求2所述的方法,其特征在于,在所述文本分类模型中,
所述输入层输入的为字嵌入;
所述归一化层采用层归一化方法;
所述激活函数层采用高斯误差线性单元激活函数。
4.根据权利要求2所述的方法,其特征在于,所述文本分类模型的训练过程包括:
获取训练样本集合,其中,所述训练样本集合中包括多个训练样本和每个所述训练样本对应的样本标签,每个所述训练样本中包括一组历史基层数据中的历史表头和历史字段名称,所述样本标签用于标记所述历史基层数据对应的业务类型;
对于每个所述训练样本,将所述训练样本输入所述文本分类模型,得到所述文本分类模型的输出结果,依据所述训练样本对应的所述样本标签与所述输出结果构建损失函数;
将多个所述训练样本依次输入所述文本分类模型进行迭代训练,通过最小化损失函数的方法调整所述文本分类模型的模型参数。
5.根据权利要求1所述的方法,其特征在于,依据多组所述第一基层数据中的多个所述第一字段名称确定每个所述第一字段名称的标准化字段名称,包括:
依据字段名称含义将多组所述第一基层数据中的多个所述第一字段名称划分至多个字段名称集合,其中,同一字段名称集合内的各个第一字段名称的字段名称含义相同;
对于每个所述字段名称集合,确定所述字段名称集合中出现频率最高的第一字段名称为所述字段名称集合中各个第一字段名称的标准化字段名称。
6.根据权利要求1所述的方法,其特征在于,从与所述目标业务类型对应的多组第一基层数据中确定所述第一表头与所述目标表头的相似度最高的目标第一基层数据,包括:
对于与所述目标业务类型对应的每组第一基层数据,将所述第一基层数据的所述第一表头与所述目标表头输入文本匹配模型,得到所述第一表头与所述目标表头的相似度,其中,所述文本匹配模型用于依据无监督的句嵌入的简单对比学习算法确定所述相似度;
确定与所述目标表头的相似度最高的第一表头对应的第一基层数据为所述目标第一基层数据。
7.根据权利要求1所述的方法,其特征在于,依据所述目标第一基层数据中的所述第一取值确定所述目标基层数据中的各个所述目标采集项的目标取值进行填报,包括:
对于所述目标基层数据中的各个所述目标采集项,确定所述目标第一基层数据中与所述目标采集项的目标字段名称相对应的第一字段名称的第一取值作为所述目标采集项的目标取值,将所述目标取值进行填报。
8.一种基层数据管理装置,其特征在于,包括:
获取模块,用于获取来自多个数据源的多组第一基层数据,其中,每组所述第一基层数据中至少包括:第一表头、各个第一采集项的第一字段名称和第一取值;
第一确定模块,用于对于每组所述第一基层数据,依据所述第一基层数据中的所述第一表头和所述第一字段名称确定所述第一基层数据对应的业务类型;
第二确定模块,用于依据多组所述第一基层数据中的多个所述第一字段名称确定每个所述第一字段名称的标准化字段名称;
第三确定模块,用于确定待填报的目标基层数据的目标业务类型、目标表头和各个目标采集项的目标字段名称,其中,所述目标字段名称为所述标准化字段名称;
填报模块,用于从与所述目标业务类型对应的多组第一基层数据中确定所述第一表头与所述目标表头的相似度最高的目标第一基层数据,并依据所述目标第一基层数据中的所述第一取值确定所述目标基层数据中的各个所述目标采集项的目标取值进行填报。
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,所述非易失性存储介质所在设备通过运行所述程序执行权利要求1至7中任意一项所述的基层数据管理方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被配置为通过所述计算机程序执行权利要求1至7中任意一项所述的基层数据管理方法。
CN202211675961.3A 2022-12-26 2022-12-26 基层数据管理方法及装置 Pending CN115936624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211675961.3A CN115936624A (zh) 2022-12-26 2022-12-26 基层数据管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211675961.3A CN115936624A (zh) 2022-12-26 2022-12-26 基层数据管理方法及装置

Publications (1)

Publication Number Publication Date
CN115936624A true CN115936624A (zh) 2023-04-07

Family

ID=86698950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211675961.3A Pending CN115936624A (zh) 2022-12-26 2022-12-26 基层数据管理方法及装置

Country Status (1)

Country Link
CN (1) CN115936624A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561327A (zh) * 2023-07-11 2023-08-08 北京全景智联科技有限公司 基于聚类算法的政务数据管理方法
CN116662434A (zh) * 2023-06-21 2023-08-29 河北维嘉信息科技有限公司 一种多源异构大数据处理***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662434A (zh) * 2023-06-21 2023-08-29 河北维嘉信息科技有限公司 一种多源异构大数据处理***
CN116662434B (zh) * 2023-06-21 2023-10-13 河北维嘉信息科技有限公司 一种多源异构大数据处理***
CN116561327A (zh) * 2023-07-11 2023-08-08 北京全景智联科技有限公司 基于聚类算法的政务数据管理方法
CN116561327B (zh) * 2023-07-11 2023-09-08 北京全景智联科技有限公司 基于聚类算法的政务数据管理方法

Similar Documents

Publication Publication Date Title
WO2019200752A1 (zh) 基于语义理解的兴趣点查询方法、装置和计算机设备
CN115936624A (zh) 基层数据管理方法及装置
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN113535963B (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN112000801A (zh) 基于机器学习的政务文本分类、热点问题挖掘方法及***
CN114003721A (zh) 矛盾纠纷事件类型分类模型的构建方法、装置及应用
CN109597892A (zh) 一种数据库中数据的分类方法、装置、设备及存储介质
CN113064992A (zh) 投诉工单结构化处理方法、装置、设备及存储介质
CN111899090A (zh) 企业关联风险预警方法及***
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN113946657A (zh) 一种基于知识推理的电力业务意图自动识别方法
CN114491084B (zh) 基于自编码器的关系网络信息挖掘方法、装置及设备
CN115599885A (zh) 文档全文检索方法、装置、计算机设备、存储介质及产品
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
CN113220885B (zh) 一种文本处理方法和***
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
CN114048854B (zh) 一种深度神经网络大数据内部数据文件的管理方法
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN116306974A (zh) 问答***的模型训练方法、装置、电子设备及存储介质
CN113538011B (zh) 一种电力***中非在册联系信息与在册用户的关联方法
CN115934927A (zh) 一种安全知识的推送方法、***、存储介质和电子设备
KR20210001649A (ko) 기업 부실 예측 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination