CN115952770B - 一种数据标准化的处理方法、装置、电子设备及存储介质 - Google Patents
一种数据标准化的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115952770B CN115952770B CN202310245882.7A CN202310245882A CN115952770B CN 115952770 B CN115952770 B CN 115952770B CN 202310245882 A CN202310245882 A CN 202310245882A CN 115952770 B CN115952770 B CN 115952770B
- Authority
- CN
- China
- Prior art keywords
- data
- service data
- mapping relation
- original
- original service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据标准化的处理方法、装置、电子设备及存储介质。包括:获取待进行标准化处理的原始业务数据;检测原始业务数据的数据关键信息,并利用数据关键信息获取与原始业务数据相匹配的目标映射关系,其中,目标映射关系为原始业务数据结构与标准业务数据结构之间的映射关系;基于目标映射关系中的标准业务数据结构将原始业务数据映射为标准业务数据;将标准业务数据进行存储。本申请实施例提供的方法充分利用机器学习功能,将复杂的、海量的多源异构数据转化成唯一的、一致的标准化数据,减轻人工工作量,提升数据标准化治理效率,同时利用标准化后的业务数据还能解决数据应用过程中数据不一致、数据歧义问题。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种数据标准化的处理方法、装置、电子设备及存储介质。
背景技术
数据标准化是保障数据的内外部使用和交换的致性和准确性的规范性约束。数据标准管理是规范数据标准的制定和实施的一系列活动,是数据资产管理的核心活动之一,对于提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。
当前用户大多使用多个不同厂家开发的业务***、管理***。数据多源异构问题、数据歧义问题严重,同样的数据在不同业务***之间存储名称、类型、长度、精度等数据属性各不相同,导致用户数据很难在各个业务***之间流动,数据统计分析效率低,数据集成难度大,数据预测结果不等问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种数据标准化的处理方法、装置、电子设备及存储介质。
根据本申请实施例的一个方面,提供了一种数据标准化的处理方法,包括:
获取待进行标准化处理的原始业务数据;
检测所述原始业务数据的数据关键信息,并利用所述数据关键信息获取与所述原始业务数据相匹配的目标映射关系,其中,所述目标映射关系为原始业务数据结构与标准业务数据结构之间的映射关系;
基于所述目标映射关系中的标准业务数据结构将所述原始业务数据映射为标准业务数据;
将所述标准业务数据进行存储。
进一步的,所述获取待进行标准化处理的原始业务数据,包括:
获取数据标准化处理任务,其中,所述数据标准化处理任务携带业务类型以及数据需求信息;
查询所述业务类型相对应的目标业务***,并利用所述数据需求信息从所述目标业务***中提取所述原始业务数据。
进一步的,所述检测所述原始业务数据的数据关键信息,包括:
将所述原始业务数据的数据内容输入预先训练的检测模型,以使所述检测模型对所述数据内容进行检测,得到所述数据内容所携带的至少一个关键词;
将所述关键词作为所述数据关键信息。
进一步的,所述利用所述数据关键信息获取与所述原始业务数据相匹配的目标映射关系,包括:
调用预先训练好的最大熵模型,其中,所述最大熵模型包括:卷积网络以及预测网络;
将所述数据关键信息输入至最大熵模型,并利用所述最大熵模型的卷积网络提取所述数据关键信息的数据特征,以及确定所述数据特征对应的特征等级,将所述数据特征以及所述特征等级输入至所述预测网络;
利用所述预测网络基于所述数据特征以及所述特征等级确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值;
将所述推荐概率值最大的候选映射关系确定为所述目标映射关系。
进一步的,所述利用所述预测网络基于所述数据特征以及所述特征等级确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值,包括:
利用所述预测网络确定所述数据特征被标记为所述特征等级的评分值,基于所述数据特征,特征等级以及评分值生成特征序列,基于所述特征序列从预设资源库中确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
进一步的,所述方法还包括:
利用所述原始业务数据以及所述标准业务数据对所述最大熵模型进行优化训练,得到优化训练后的最大熵模型。
进一步的,在基于所述目标映射关系中的标准业务数据结构将所述原始业务数据映射为标准业务数据之前,所述方法还包括:
发送所述目标映射关系至指定终端,以使所述指定终端确定所述目标映射关系有效性;
接收所述指定终端发送的指示信息;
在所述指示信息用于指示所述目标映射关系有效的情况下,基于所述目标映射关系将所述原始业务数据映射为标准业务数据。
根据本申请实施例的另一个方面,还提供了一种数据标准化的处理装置,包括:
获取模块,用于获取待进行标准化处理的原始业务数据;
检测模块,用于检测所述原始业务数据的数据关键信息,并利用所述数据关键信息获取与所述原始业务数据相匹配的目标映射关系,其中,所述目标映射关系为原始业务数据结构与标准业务数据结构之间的映射关系;
处理模块,用于基于所述目标映射关系中的标准业务数据结构将所述原始业务数据映射为标准业务数据;
存储模块,用于将所述标准业务数据进行存储。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的方法充分利用机器学习功能,将复杂的、海量的多源异构数据转化成唯一的、一致的标准化数据,减轻人工工作量,提升数据标准化治理效率,同时利用标准化后的业务数据还能解决数据应用过程中数据不一致、数据歧义问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据标准化的处理方法的流程图;
图2为本申请实施例提供的数据治理平台的示意图;
图3为本申请实施例提供的最大熵模型的结构示意图;
图4为本申请实施例提供的一种数据等级的示意图;
图5为本申请实施例提供的一种映射关系的示意图;
图6为本申请实施例提供的一种数据标准化的处理装置的框图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种数据标准化的处理方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
根据本申请实施例的一方面,提供了一种数据标准化的处理方法的方法实施例。图1为本申请实施例提供的一种数据标准化的处理方法的流程图,如图1所示,该方法包括:
步骤S11,获取待进行标准化处理的原始业务数据。
本申请实施例提供的方法应用于数据治理平台,如图2所示,数据治理平台对接有多个业务***,数据治理平台包括ODS层,处理层以及标准层。其中,ODS层用于对接业务***,调用业务***中的业务数据,处理层用于为业务数据推荐映射关系,标准层用于将业务数据按照映射关系转换成标准数据。
在本申请实施例中,获取待进行标准化处理的原始业务数据,包括以下步骤A1-A2:
步骤A1,获取数据标准化处理任务,其中,数据标准化处理任务携带业务类型以及数据需求信息。
步骤A2,查询业务类型相对应的目标业务***,并利用数据需求信息从目标业务***中提取原始业务数据。
在本申请实施例中,用户以基于数据治理平台触发数据标准化处理任务,具体的,数据治理平台可以接收用户触发的任务创建请求,基于任务创建任务请求获取用户输入的业务类型以及数据需求信息,然后数据治理平台可以利用业务类型以及数据需求信息生成数据标准化处理任务,然后查询业务类型相对应的目标业务***,并利用数据需求信息从目标业务***中提取原始业务数据。其中,业务类型可以是销售业务,人力资源业务,生产业务等等。数据需求信息可以是用户指定的数据筛选条件,不同的业务类型对应不同的数据需求信息,例如:销售业务对应的数据需求信息包括:销售日期,销售金额,客户信息等等。
步骤S12,检测原始业务数据的数据关键信息,并利用数据关键信息获取与原始业务数据相匹配的目标映射关系,其中,目标映射关系为原始业务数据结构与标准业务数据结构之间的映射关系。
在本申请实施例中,检测原始业务数据的数据关键信息,包括:将原始业务数据的数据内容输入预先训练的检测模型,以使检测模型对数据内容进行检测,得到数据内容所携带的至少一个关键词;将关键词作为数据关键信息。例如:数据关键信息可以是姓名,身份标识,职称等级等等,然后可以利用数据关键信息确定原始业务数据结构。
在本申请实施例中,检测模型可以是预先训练的关键词检测模型,检测模型的训练过程如下:首先,获取训练样本,训练样本为业务数据的数据内容。其次,对训练样本进行分词处理,得到多个词组。将训练样本中的词组输入预设神经网络模型,通过预设神经网络模型对词组中每个字符对应的类别进行识别,得到各个词组对应类别的预测结果;同时,确定词组中每个字符对应的标注信息,得到词组对应的训练标签,词组可以是数据标准所属的分类名称,数据标准的中文名称,数据类型等等。其中,标注信息用于指示词组中的字符是否为关键词的起始字符或者终止字符;最终,根据词组对应的预测结果和训练标签,计算损失函数值;基于损失函数值对预设神经网络模型进行优化训练,得到用于检测关检词的检测模型。
在本申请实施例中,利用数据关键信息获取与原始业务数据相匹配的目标映射关系,包括以下步骤B1-B4:
步骤B1,调用预先训练好的最大熵模型,其中,最大熵模型包括:卷积网络以及预测网络。
在本申请实施例中,最大熵模型是基于当前已有数据字典,行业相关数据标准资源,企业内部制定的数据标准、元数据、数据血缘分析等资料,通过自然语言处理词汇级语义分析领域的监督的语义消歧方法、半监督的学习方法、无监督的学习方法进行训练得到的。最大熵模型的结构如图3所示,最大熵模型包括:RNN卷积网络以及CRF预测网络(即条件随机场)。
步骤B2,将数据关键信息输入至最大熵模型,并利用最大熵模型的卷积网络提取数据关键信息的数据特征,以及确定数据特征对应的特征等级,将数据特征以及特征等级输入至预测网络。
在本申请实施例中,将数据关键信息输入至最大熵模型中的卷积网络,卷积网络提取数据关键信息的数据特征,然后利用数据特征确定确对应的特征等级,如图4所示,X1的特征等级包括:优,良,中,差。X2的特征等级包括:优,良,中,差。
然后,将数据特征以及特征等级(将特征等级作为数据特征的标签)直接输入最大熵模型,最大熵模型的公式如下:
式中,是卷积网络输出的数据特征x和特征等级后输出y的最大概率,为特征函数,x是数据特征,即数据关键信息中的元素,例如:数据标准名称,所属分类,业务分类,数据类型,数据长度等。λi是特征函数的***参数,该参数对每个不同的x,y有不同的值,/>为归一化因子,/>的计算公式为:/>。
步骤B3,利用预测网络基于数据特征以及特征等级确定与原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
在本申请实施例中,利用预测网络基于数据特征以及特征等级确定与原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值,包括:利用预测网络确定数据特征被标记为特征等级的评分值,基于数据特征,特征等级以及评分值生成特征序列,基于特征序列从预设资源库中确定与原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
在本申请实施例中,卷积网络的输出是一个n×k矩阵,表示了每个位置对每个特征等级的评分值(x的序列长度为 n ,每个位置有k种标签,k = 4)。同时,在卷积网络输出的基础上,又堆叠了一层CRF预测网络,CRF预测网络的实现过程如下:
式中,预测x对应每个y的推荐概率值,/>为归一化因子,/>为第k个标签对应的权重,/>为结点特征函数,λj是特征函数的***参数,/>为边特征函数,i和j均为常数。
需要说明的是,在CRF预测网络中利用边特征函数规避不合理标注问题。卷积网络中每个输出单元之间的边特征函数可以用一个k×k矩阵描述,表示了由每个特征等级到其他特征等级的转移打分。最终,基于数据特征,特征等级以及评分值生成特征序列,基于特征序列从预设资源库中确定与原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
步骤B4,将推荐概率值最大的候选映射关系确定为目标映射关系。
在本申请实施例中,将候选映射关系按照推荐概率值由高到低进行排列,将推荐概率值最大的候选映射关系确定为目标映射关系。
需要说明的是,同一业务的不同业务数据中采用不同的业务数据结构,例如:人事业务中包括两个部门的原始业务数据,分别为原始业务数据A以及原始业务数据B,原始业务数据A的业务数据结构如下:“人员名字”,“身份证号/ID”,“是否在职”等,原始业务数据B的业务数据结构为“姓名”,“工号”,“职务等级”等。通过上述检测模型检测原始业务数据中的数据关键信息,然后利用数据关键信息可以确定原始业务数据结构,同时利用最大熵模型输出与原始业务数据结构对应的目标映射关系,目标映射关系即为原始业务数据结构与标准业务数据结构之间的映射。
其中,原始业务数据A的目标映射关系如下:“人员名字”—“YGXM(员工姓名)”,“身份证号/ID”—“YGBH(员工编号)”,“是否在职”—“RGZT(员工状态)”。原始业务数据B的目标映射关系如下:“姓名”—“YGXM(员工姓名)”,“工号”—“YGBH(员工编号)”,“职务”—“ZWDJ(职务等级)”。
可以理解的,本申请实施例提供的数据标准化方法,是针对不同的业务数据中的组成元素进行标准化,组成元素可以是:数据名称,数据类型,长度,精度等等。最终通过推荐的映射关系将原始业务数据转换为标准业务数据,不改变具体的数据内容,只是改变数据存储形式。
步骤S13,基于目标映射关系中的标准业务数据结构将原始业务数据映射为标准业务数据。
在本申请实施例中,在基于所述目标映射关系中的标准业务数据结构将所述原始业务数据映射为标准业务数据之前,方法还包括以下步骤C1-C3:
步骤C1,发送目标映射关系至指定终端,以使指定终端确定目标映射关系有效性。
步骤C2,接收指定终端发送的指示信息。
步骤C3,在指示信息用于指示目标映射关系有效的情况下,基于目标映射关系将原始业务数据映射为标准业务数据。
在本申请实施例中,为了确定映射关系的准确性,数据治理平台在得到目标映射关系后,会将目标映射关系发送至指定终端,指定终端在接收到目标映射关系后,生成提示信息,并将目标映射关系进行展示,便于用户进行审核。如果用户审核无误的情况下,则会通过指定终端下发相应的指示信息,数据治理平台指示信息用于指示目标映射关系有效的情况下,基于目标映射关系将原始业务数据映射为标准业务数据。
作为一个示例,如图5所示,人事***在缺乏数据字典的情况下,机器学习(自然语言处理、监督学习、无监督学习)在结合数据内容情况、以及数据标准库资源的情况,校验数据标准,推荐映射关系。如人事***的ID字段映射成标准名称YGBH(员工编号);XM字段映射成YGXM(员工姓名),而财务***中ID字段映射成SFZH(身份证号),name映射成YGXM(员工姓名)。通过机器学习实现将不同***中,名称一样但含义不一样的字段(ID),标准化成唯一的、一致的标准名称(YGBH,SFZH);将不同***含义一样,但名称不一样的字段(XM,name)标准化成唯一的名称(YGXM)。
步骤S14,将标准业务数据进行存储。
在本申请实施例中,将标准业务数据存储至数据治理平台中的数据库,当后续有数据应用方想要应用标准数据的情况下,可以向数据治理平台发送数据调用请求,数据调用请求携带数据应用方的数据需求。数据需求可以理解为数据应用方在处理某一业务时的业务类型,例如:业务类型为财务类型,人力资源业务等等。数据治理平台根据数据需求查找相应的标准业务数据,并将查找到的标准业务数据反馈给数据应用方。
在本申请实施例中,方法还包括:利用原始业务数据以及标准业务数据对最大熵模型进行优化训练,得到优化训练后的最大熵模型。
本申请实施例提供的方法充分利用机器学习功能,将复杂的、海量的多源异构数据转化成唯一的、一致的数据标准,减轻人工工作量,提升数据标准化治理效率,解决数据应用过程中数据不一致、数据歧义问题。
图6为本申请实施例提供的一种数据标准化的处理装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,该装置包括:
获取模块51,用于获取待进行标准化处理的原始业务数据;
检测模块52,用于检测原始业务数据的数据关键信息,并利用数据关键信息获取与原始业务数据相匹配的目标映射关系,其中,目标映射关系为原始业务数据结构与标准业务数据结构之间的映射关系,原始业务数据结构与数据关键信息关联;
处理模块53,用于基于目标映射关系中的标准业务数据结构将原始业务数据映射为标准业务数据;
发送模块54,用于将标准业务数据进行存储。
在本申请实施例中,获取模块51,用于获取数据标准化处理任务,其中,数据标准化处理任务携带业务类型以及数据需求信息;查询业务类型相对应的目标业务***,并利用数据需求信息从目标业务***中提取原始业务数据。
在本申请实施例中,检测模块52,用于将原始业务数据的数据内容输入预先训练的检测模型,以使检测模型对数据内容进行检测,得到数据内容所携带的至少一个关键词;将关键词作为数据关键信息。
在本申请实施例中,检测模块52,用于调用预先训练好的最大熵模型,其中,最大熵模型包括:卷积网络以及预测网络;将数据关键信息输入至最大熵模型,并利用最大熵模型的卷积网络提取数据关键信息的数据特征,以及确定数据特征对应的特征等级,将数据特征以及特征等级输入至预测网络;利用预测网络基于数据特征以及特征等级确定与原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值;将推荐概率值最大的候选映射关系确定为目标映射关系。
在本申请实施例中,检测模块52,用于利用预测网络确定数据特征被标记为特征等级的评分值,基于数据特征,特征等级以及评分值生成特征序列,基于特征序列从预设资源库中确定与原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
在本申请实施例中,装置还包括:训练模块,用于利用原始业务数据以及标准业务数据对最大熵模型进行优化训练,得到优化训练后的最大熵模型。
在本申请实施例中,装置还包括:校验模块,用于发送目标映射关系至指定终端,以使指定终端确定目标映射关系有效性;接收指定终端发送的指示信息;在指示信息用于指示目标映射关系有效的情况下,基于目标映射关系将原始业务数据映射为标准业务数据。
本申请实施例还提供一种电子设备,如图7所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例的步骤。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据标准化的处理方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据标准化的处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk)等。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种数据标准化的处理方法,其特征在于,包括:
获取待进行标准化处理的原始业务数据;
检测所述原始业务数据的数据关键信息,并利用所述数据关键信息获取与所述原始业务数据相匹配的目标映射关系,其中,所述目标映射关系为原始业务数据结构与标准业务数据结构之间的映射关系,所述原始业务数据结构与所述数据关键信息关联;
基于所述目标映射关系中的标准业务数据结构将所述原始业务数据映射为标准业务数据;
将所述标准业务数据进行存储;
其中,所述利用所述数据关键信息获取与所述原始业务数据相匹配的目标映射关系,包括:
调用预先训练好的最大熵模型,其中,所述最大熵模型包括:卷积网络以及预测网络,所述预测网络的公式如下:
,式中,/>预测数据特征x对应每个候选映射关系y的推荐概率值,/>为归一化因子,k为标签的类别数量,为第k个类别标签对应的权重,/>为结点特征函数,λ j是特征函数的***参数,为边特征函数,i和j均为常数;
将所述数据关键信息输入至最大熵模型,并利用所述最大熵模型的卷积网络提取所述数据关键信息的数据特征,以及确定所述数据特征对应的特征等级,将所述数据特征以及所述特征等级输入至所述预测网络;
利用所述预测网络基于所述数据特征以及所述特征等级确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值;
将所述推荐概率值最大的候选映射关系确定为所述目标映射关系;
所述利用所述预测网络基于所述数据特征以及所述特征等级确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值,包括:
利用所述预测网络确定所述数据特征被标记为所述特征等级的评分值,基于所述数据特征,特征等级以及评分值生成特征序列,基于所述特征序列从预设资源库中确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
2.根据权利要求1所述的方法,其特征在于,所述获取待进行标准化处理的原始业务数据,包括:
获取数据标准化处理任务,其中,所述数据标准化处理任务携带业务类型以及数据需求信息;
查询所述业务类型相对应的目标业务***,并利用所述数据需求信息从所述目标业务***中提取所述原始业务数据。
3.根据权利要求1所述的方法,其特征在于,所述检测所述原始业务数据的数据关键信息,包括:
将所述原始业务数据的数据内容输入预先训练的检测模型,以使所述检测模型对所述数据内容进行检测,得到所述数据内容所携带的至少一个关键词;
将所述关键词作为所述数据关键信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述原始业务数据以及所述标准业务数据对所述最大熵模型进行优化训练,得到优化训练后的最大熵模型。
5.根据权利要求1所述的方法,其特征在于,在基于所述目标映射关系中的标准业务数据结构将所述原始业务数据映射为标准业务数据之前,所述方法还包括:
发送所述目标映射关系至指定终端,以使所述指定终端确定所述目标映射关系有效性;
接收所述指定终端发送的指示信息;
在所述指示信息用于指示所述目标映射关系有效的情况下,基于所述目标映射关系将所述原始业务数据映射为标准业务数据。
6.一种数据标准化的处理装置,其特征在于,包括:
获取模块,用于获取待进行标准化处理的原始业务数据;
检测模块,用于检测所述原始业务数据的数据关键信息,并利用所述数据关键信息获取与所述原始业务数据相匹配的目标映射关系,其中,所述目标映射关系为所述原始业务数据与标准业务数据之间的映射关系;
处理模块,用于基于所述目标映射关系将所述原始业务数据映射为标准业务数据;
存储模块,用于将所述标准业务数据进行存储;
其中,所述检测模块,具体用于调用预先训练好的最大熵模型,其中,所述最大熵模型包括:卷积网络以及预测网络,所述预测网络的公式如下:
,式中,/>预测数据特征x对应每个候选映射关系y的推荐概率值,/>为归一化因子,k为标签的类别数量,为第k个类别标签对应的权重,/>为结点特征函数,λ j是特征函数的***参数,为边特征函数,i和j均为常数;
将所述数据关键信息输入至最大熵模型,并利用所述最大熵模型的卷积网络提取所述数据关键信息的数据特征,以及确定所述数据特征对应的特征等级,将所述数据特征以及所述特征等级输入至所述预测网络;利用所述预测网络基于所述数据特征以及所述特征等级确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值;将所述推荐概率值最大的候选映射关系确定为所述目标映射关系;
所述检测模块,具体利用所述预测网络确定所述数据特征被标记为所述特征等级的评分值,基于所述数据特征,特征等级以及评分值生成特征序列,基于所述特征序列从预设资源库中确定与所述原始业务数据相匹配的至少一个候选映射关系,以及每个候选映射关系对应的推荐概率值。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至5中任一项所述的方法步骤。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至5中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310245882.7A CN115952770B (zh) | 2023-03-15 | 2023-03-15 | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310245882.7A CN115952770B (zh) | 2023-03-15 | 2023-03-15 | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115952770A CN115952770A (zh) | 2023-04-11 |
CN115952770B true CN115952770B (zh) | 2023-07-25 |
Family
ID=85891483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310245882.7A Active CN115952770B (zh) | 2023-03-15 | 2023-03-15 | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952770B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390170B (zh) * | 2023-12-12 | 2024-03-08 | 恩核(北京)信息技术有限公司 | 数据标准的对标方法、装置、电子设备和可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945053A (zh) * | 2017-12-29 | 2018-04-20 | 广州思泰信息技术有限公司 | 一种多源配电网数据融合分析平台及其控制方法 |
CN115439015A (zh) * | 2022-10-20 | 2022-12-06 | 国家电投集团科学技术研究院有限公司 | 基于数据中台的局域电网数据管理方法、装置及设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10237310B4 (de) * | 2002-08-14 | 2006-11-30 | Wismüller, Axel, Dipl.-Phys. Dr.med. | Verfahren, Datenverarbeitungseinrichtung und Computerprogrammprodukt zur Datenverarbeitung |
CN110349639B (zh) * | 2019-07-12 | 2022-01-04 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化*** |
US11520784B2 (en) * | 2019-10-25 | 2022-12-06 | Accenture Global Solutions Limited | Utilizing neural network and machine learning models to generate a query after migrating data from a source data structure to a target data structure |
CN111340062A (zh) * | 2020-02-04 | 2020-06-26 | 恩亿科(北京)数据科技有限公司 | 一种映射关系确定方法及装置 |
CN112364880B (zh) * | 2020-11-30 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
CN113157930A (zh) * | 2020-12-30 | 2021-07-23 | 上海科技发展有限公司 | 基于多源异构数据的知识图谱构建方法、***以及终端 |
CN113326380B (zh) * | 2021-08-03 | 2021-11-02 | 国能大渡河大数据服务有限公司 | 基于深度神经网络的设备量测数据处理方法、***及终端 |
CN115330540A (zh) * | 2022-10-11 | 2022-11-11 | 凯美瑞德(苏州)信息科技股份有限公司 | 一种处理交易数据的方法和装置 |
-
2023
- 2023-03-15 CN CN202310245882.7A patent/CN115952770B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945053A (zh) * | 2017-12-29 | 2018-04-20 | 广州思泰信息技术有限公司 | 一种多源配电网数据融合分析平台及其控制方法 |
CN115439015A (zh) * | 2022-10-20 | 2022-12-06 | 国家电投集团科学技术研究院有限公司 | 基于数据中台的局域电网数据管理方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
基于异构模型映射的配电网信息交互方法;谢婧 等;电网技术;第40卷(第11期);第3559-3565页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115952770A (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362660B (zh) | 一种基于知识图谱的电子产品质量自动检测方法 | |
CN110727779A (zh) | 基于多模型融合的问答方法及*** | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN113641833B (zh) | 服务需求匹配方法及装置 | |
CN115952770B (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN112650858A (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN116415564B (zh) | 基于知识图谱的功能点扩增方法和*** | |
CN111782793A (zh) | 智能客服处理方法和***及设备 | |
CN111191153A (zh) | 一种信息技术咨询服务展示装置 | |
CN116151967A (zh) | 一种基于交易知识图谱的欺诈团伙识别*** | |
CN111126073B (zh) | 语义检索方法和装置 | |
CN116258204A (zh) | 基于知识图谱的工业安全生产违规处罚管理方法及*** | |
CN113742474B (zh) | 一种基于知识图谱的智能问答方法和装置 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理*** | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN106055702B (zh) | 一种面向互联网的数据服务统一描述方法 | |
CN111930919B (zh) | 一种面向企业在线教育app语音交互的实现方法 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN112685623B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
Zhao | The Application of Semantic Analysis Technology in the Analysis of Chinese and Korean Literature Mutual Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |