CN113420077B - 一种数据处理方法、装置、设备及介质 - Google Patents
一种数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113420077B CN113420077B CN202110645542.4A CN202110645542A CN113420077B CN 113420077 B CN113420077 B CN 113420077B CN 202110645542 A CN202110645542 A CN 202110645542A CN 113420077 B CN113420077 B CN 113420077B
- Authority
- CN
- China
- Prior art keywords
- metadata
- standard
- data
- sample
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 177
- 230000015654 memory Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理领域,提供一种数据处理方法、装置、设备及介质,用于数据标准化过程中的数据处理效率较低的问题。该方法包括:获取待处理的第一元数据,若确定第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,获得第二元数据,而生成模型是基于多个第一样本数据、以及每个第一样本数据对应的第一样本标准元数据进行训练得到的,也就是说,本申请实施例中可以自动将不满足条件的第一元数据转换为标准的数据,相较于人工处理数据的方式,可以提高数据标准化过程中的数据处理效率。
Description
技术领域
本申请涉及数据处理领域,提供一种数据处理方法、装置、设备及介质。
背景技术
数据标准化是指将非标准的数据转换为标准的数据,非标准的数据即针对相同含义的字段,在不同数据表中表达不同或格式不同。数据标准化对于数据分析、数据挖掘等具有重要意义。
目前,主要通过人工手动将非标准的数据逐个转换为标准的数据。然而这种人工处理数据的方式的效率较低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及介质,用于数据标准化过程中的数据处理效率较低的问题。
第一方面,提供一种数据处理方法,包括:
获取待处理的第一元数据,其中,所述第一元数据为数据表的表项中的文本;
若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据,其中,所述第二元数据为标准的数据,所述生成模型是基于样本数据集进行训练得到的,所述样本数据集包括多个第一样本数据,以及每个第一样本数据对应的第一样本标准元数据。
本申请实施例中,若确定数据表中的待处理的第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,由于生成模型是基于多个样本数据、以及每个样本数据对应的样本标准元数据进行训练得到的,因此生成模型可以自动基于第一元数据,输出标准的第二元数据,相较于手动将第一元数据转换为标准元数据的方式,可以减少大量的人力成本,提高数据标准化过程中的数据处理效率。且,本申请实施例将数据表中的第一元数据转换为标准的第二元数据,标准的第二元数据更有利于后续的数据分析等工作。
在一种可能的实施例中,若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据,包括:
所述第一元数据包括第一数据元,若所述第一数据元与标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将所述第一数据元输入已训练的生成模型,获得标准的第二数据元,其中,所述第二元数据包括所述第二数据元;和/或,
所述第一元数据包括用于限定所述第一数据元的第一限定文本,若所述第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将所述第一限定文本输入已训练的生成模型,获得标准的第二限定文本,其中,所述第二元数据包括所述第二限定文本。
本申请实施例中,第一元数据中可能包括不标准的数据元,或者可能包括不标准的限定文本,本申请实施例可以根据实际情况,灵活地将不标准的数据元转换为标准的数据元,或者将不标准的限定文本转换为标准的限定文本,在将第一元数据转换为标准的元数据的基础上,仅将不满足匹配度阈值条件的第一元数据输入已训练的生成模型,还能够适当地减少生成模型的处理量。
在一种可能的实施例中,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本;在若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据之前,所述方法还包括:
分别提取所述标准元数据中的标准数据元和所述第一数据元的特征向量,获得第一参考向量和第一向量,并确定所述第一参考向量与所述第一向量之间的相关度,将所述相关度作为所述第一数据元与标准元数据之间的匹配度;和/或,
分别提取所述标准元数据中的标准限定文本和所述第一限定文本的特征向量,获得第二参考向量和第二向量,并确定所述第二参考向量与所述第二向量之间的相关度,将所述相关度作为所述第一限定文本与标准元数据之间的匹配度。
本申请实施例中,分别将第一数据元和标准数据元转换为向量,通过计算两个向量之间的相关度,可以准确地获得第一数据元与标准元数据之间的匹配度,还可以分别将第一限定文本和标准限定本文转换为向量,通过计算两个向量之间的相关度,可以准确地获得第一限定文本和标准元数据之间的匹配度。
在一种可能的实施例中,分别提取所述标准元数据中的标准数据元和所述第一数据元的特征向量,获得第一参考向量和第一向量,包括:
将所述标准数据元输入第一匹配子网络,获得第一参考向量,将所述第一数据元输入第二匹配子网络,获得第一向量;和/或,
分别提取所述标准元数据中的标准限定文本和所述第一限定文本的特征向量,获得第二参考向量和第二向量,包括:
将所述标准限定文本输入第一匹配子网络,获得第二参考向量,将所述第一数据元输入第二匹配子网络,获得第二向量;
其中,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行联合训练得到的,其中,每个样本对包括第二样本元数据和第二样本标准元数据,所述第二样本元数据中第二样本数据元与所述第二样本标准数据元中的第二样本标准数据元之间的第一匹配度,以及所述第二样本元数据中第二样本限定文本与所述第二样本标准元数据中的第二样本标准限定文本之间的第二匹配度。
本申请实施例中,第一元数据可能包括第一数据元,还可能包括第一限定文本,可以根据实际情况灵活地提取第一数据元对应的第一向量或第一限定文本对应的第二向量,提高第一元数据和标准元数据匹配的准确性。
在一种可能的实施例中,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行多次迭代训练得到,其中一次迭代训练包括以下步骤:
在所述多个样本对中选取第一样本对;
将所述第一样本对中的第二样本标准元数据中的第二样本标准数据元输入第一匹配子网络,获得第三参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第三向量;
确定所述第三参考向量和所述第三向量之间的第三匹配度;
基于所述第三匹配度与所述第一匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数;
将所述第一样本对中的第二样本标准元数据中的第二样本限定文本输入第一匹配子网络,获得第四参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第四向量;
确定所述第四参考向量和所述第四向量之间的第四匹配度;
基于所述第四匹配度与所述第二匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数。
本申请实施例中,基于多个样本对的多次迭代训练,获得第一匹配子网络和第二匹配子网络,训练好的第一匹配子网络和第二匹配子网络可以各自输出更准确的向量,进而可以得到的第一元数据和标准元数据之间的匹配度更准确。
在一种可能的实施例中,在获取待处理的第一元数据之后,所述方法还包括:
若确定所述第一元数据与标准元数据之间的匹配度满足匹配度阈值条件,则将所述标准元数据,作为所述第一元数据的标准的数据。
本申请实施例中,在获取第一元数据之后,将与第一元数据匹配的标准元数据,作为第一元数据的标准的数据,可以快速地获得第一元数据对应的标准元数据,进一步提高数据标准化过程中的数据处理效率。
在一种可能的实施例中,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本,所述数据表还包括与所述第一数据元关联的第一存储数据,以及与所述第一限定文本关联的第二存储数据,所述标准元数据包括标准数据元与所述标准数据元对应的标准限定文本,所述标准数据元关联有第一格式,所述标准限定文本关联有第二格式;
在若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据之后,所述方法还包括:
将所述第一存储数据转换为所述第一格式,获得转换后的第一存储数据,以及将所述第二存储数据转换为所述第二格式,获得转换后的第二存储数据;
将所述第二元数据中的第二数据元与所述转换后的第一存储数据关联,以及将所述第二元数据中的第二限定文本与转换后的第二存储数据关联,获得处理后的数据表。
本申请实施例中,将与第一元数据关联的存储数据转换为预定格式,获得转换后的存储数据,也就是将第一元数据关联的存储数据转换为标准的存储数据,将标准的第二元数据和标准的存储数据关联,获得处理后的数据表,以便后续根据处理后的数据表中的标准的数据进行数据分析等工作,进而提高后续工作的效率。
第二方面,提供一种数据处理装置,所述装置包括:
获取模块,用于获取待处理的第一元数据,其中,所述第一元数据为数据表的表项中的文本;
获得模块,用于若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据,其中,所述第二元数据为标准的数据,所述生成模型是基于样本数据集进行训练得到的,所述样本数据集包括多个样本数据,以及每个样本数据对应的样本标准元数据。
在一种可能的实施例中,所述获得模块具体用于:
所述第一元数据包括第一数据元,若所述第一数据元与标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将所述第一数据元输入已训练的生成模型,获得标准的第二数据元,其中,所述第二元数据包括所述第二数据元;和/或,
所述第一元数据包括用于限定所述第一数据元的第一限定文本,若所述第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将所述第一限定文本输入已训练的生成模型,获得标准的第二限定文本,其中,所述第二元数据包括所述第二限定文本。
在一种可能的实施例中,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本;所述装置包括确定模块,所述确定模块用于:
在若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据之前,分别提取所述标准元数据中的标准数据元和所述第一数据元的特征向量,获得第一参考向量和第一向量,并确定所述第一参考向量与所述第一向量之间的相关度,将所述相关度作为所述第一数据元与标准元数据之间的匹配度;和/或,
分别提取所述标准元数据中的标准限定文本和所述第一限定文本的特征向量,获得第二参考向量和第二向量,并确定所述第二参考向量与所述第二向量之间的相关度,将所述相关度作为所述第一限定文本与标准元数据之间的匹配度。
在一种可能的实施例中,所述获得模块具体用于:
分别提取所述标准元数据中的标准数据元和所述第一数据元的特征向量,获得第一参考向量和第一向量,包括:
将所述标准数据元输入第一匹配子网络,获得第一参考向量,将所述第一数据元输入第二匹配子网络,获得第一向量;和/或,
分别提取所述标准元数据中的标准限定文本和所述第一限定文本的特征向量,获得第二参考向量和第二向量,包括:
将所述标准限定文本输入第一匹配子网络,获得第二参考向量,将所述第一数据元输入第二匹配子网络,获得第二向量;
其中,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行联合训练得到的,其中,每个样本对包括第二样本元数据和第二样本标准元数据,所述第二样本元数据中第二样本数据元与所述第二样本标准数据元中的第二样本标准数据元之间的第一匹配度,以及所述第二样本元数据中第二样本限定文本与所述第二样本标准元数据中的第二样本标准限定文本之间的第二匹配度。
在一种可能的实施例中,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行多次迭代训练得到,所述装置还包括训练模块,所述训练模块用于:
在所述多个样本对中选取第一样本对;
将所述第一样本对中的第二样本标准元数据中的第二样本标准数据元输入第一匹配子网络,获得第三参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第三向量;
确定所述第三参考向量和所述第三向量之间的第三匹配度;
基于所述第三匹配度与所述第一匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数;
将所述第一样本对中的第二样本标准元数据中的第二样本限定文本输入第一匹配子网络,获得第四参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第四向量;
确定所述第四参考向量和所述第四向量之间的第四匹配度;
基于所述第四匹配度与所述第二匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数。
在一种可能的实施例中,所述确定模块还用于:
在获取待处理的第一元数据之后,若确定所述第一元数据与标准元数据之间的匹配度满足匹配度阈值条件,则将所述标准元数据,作为所述第一元数据的标准的数据。
在一种可能的实施例中,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本,所述数据表还包括与所述第一数据元关联的第一存储数据,以及与所述第一限定文本关联的第二存储数据,所述标准元数据包括标准数据元与所述标准数据元对应的标准限定文本,所述标准数据元关联有第一格式,所述标准限定文本关联有第二格式;所述获得模块还用于:
在若确定所述第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将所述第一元数据输入已训练的生成模型,获得第二元数据之后,将所述第一存储数据转换为所述第一格式,获得转换后的第一存储数据,以及将所述第二存储数据转换为所述第二格式,获得转换后的第二存储数据;
将所述第二元数据中的第二数据元本与所述转换后的第一存储数据关联,以及将所述第二元数据中的第二限定文本与转换后的第二存储数据关联,获得处理后的数据表。
第三方面,提供一种数据处理设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任一项所述的方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面中任一项所述的方法。
附图说明
图1为本申请实施例提供的一种数据处理方法的应用场景图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3为本申请实施例提供的匹配模型的结构示意图;
图4为本申请实施例提供的一种数据处理装置的结构图;
图5为本申请实施例提供的一种数据处理设备的结构图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
由于用户操作不规范或操作习惯不同等情况,导致不同用户创建的不同数据表中的表示相同含义的字段对应表示方法不一致,例如,身份证号在有的数据表中是“公民身份证号”,在有的数据表中是“身份证号码”。而这些表示方法不同,不便于后续数据分析或处理。
为了便于后续的数据分析,一般需要对数据进行标准化处理,例如,将“公民身份证号”和“身份证号码”统一为“身份证号”。目前,主要通过人工进行数据标准化工作,逐个检查数据表中的原始数据是否为非标准的数据,并将其中非标准的数据转换为标准的数据,然而这种人工处理数据的方式的效率较低。
鉴于此,本申请实施例提供一种数据处理方法,该方法可以由数据处理设备执行。数据处理设备可以通过终端或服务器实现,终端例如个人计算机、手机、或嵌入式设备等,服务器例如实体服务器或虚拟服务器等。
下面对该数据处理设备的应用场景示意图进行说明。请参照图1,为本申请实施例提供的数据处理方法的应用场景示意图,该应用场景包括待处理的数据表110,以及数据处理设备120。
数据处理设备120获取待处理的数据表110之后,对该数据表110进行处理,将数据表110中的元数据转换为标准的元数据,获得包括标准元数据的数据表。其中,对数据表110进行处理的具体过程将在下文中进行介绍。
基于图1论述的应用场景,下面以图1中数据处理设备执行数据处理方法为例进行介绍。
请参照图2,为本申请实施例提供的一种数据处理方法的流程示意图,该流程示意图包括:
S210,获取待处理的第一元数据。
数据处理设备获取待处理的数据表,待处理的数据表可以是任何需要进行数据标准化的数据表,数据表是指数据的一种呈现形式,数据表可以有多种,例如excel表或MYSQL表。该数据表包括第一元数据,以及与第一元数据关联的存储数据,例如,第一元数据为数据表的表项中的文本,存储数据为该表项下对应的具体内容。第一元数据包括第一数据元和/或第一限定文本,其中,第一数据元为表项中的主项,第一限定文本为表项中的辅项,辅项用于扩充或解释主项,对应地,第一限定文本用于限定第一数据元。其中,主项可以是任意设置的,例如可以将表格中的第一个表项作为主项。例如,第一数据元为用户A的“身份证号”,第一限定文本为用户A的“父亲”或用户A的“母亲”。
由于数据表中第一元数据的内容不同,其关联的存储数据的内容也不同,下面分别进行示例介绍:
第一种,第一元数据包括第一数据元,则与第一元数据关联的存储数据包括与第一数据元关联的第一存储数据。
例如,第一数据元为“身份证号”,与“身份证号”关联的第一存储数据为“XXXXXXXXXXXXXXXXXX”。
第二种,第一元数据包括第一限定文本,则与第一元数据关联的存储数据包括与第一限定文本关联的第二存储数据。
例如,第一限定文本为“父亲”,与“父亲”关联的第二存储数据为“张三”。
第三种,第一元数据包括第一数据元和第一限定文本,则与第一元数据关联的存储数据包括:与第一数据元关联的第一存储数据,以及与第一限定文本关联的第二存储数据。
例如,第一元数据为“父亲_身份证号”,第一数据元为“身份证号”,第一限定文本为“父亲”,与“身份证号”关联的第一存储数据为“XXXXXXXXXXXXXXXXXX”,与“父亲”关联的第二存储数据为张三”。
数据处理设备在获取待处理的第一元数据之后,可以先确定第一元数据与标准元数据之间的匹配度,以便确定是否存在该第一元数据的标准的数据,进而确定是否需要生成标准的数据。
其中,标准元数据可以是已经发布的标准元数据库中的数据,还可以是用户自己标定的数据。标准元数据包括标准数据元与标准数据元对应的标准限定文本。标准数据元例如公安数据元,具体例如:GAT 543.1-2011~GAT543.18-2019,标准限定文本例如公安数据元限定词,具体例如:GAT1054.1-2013~GAT 1054.12。标准数据元关联有第一格式,标准限定文本关联有第二格式。例如,标准数据元为“出生日期”,则关联的第一格式例如“年-月-日”或者“年/月/日”,标准限定文本为“父亲”,则关联的第二格式例如中文格式或者英文格式。
其中,涉及到如何确定第一元数据与标准元数据之间的匹配度,由于第一元数据的内容不同,获得的匹配度不同,下面分别进行介绍:
一,第一元数据包括第一数据元。
数据处理设备提取标准元数据中的标准数据元的特征向量,获得第一参考向量,提取第一数据元的特征向量,获得第一向量,将第一参考向量与第一向量之间的相关度作为第一数据元与标准元数据之间的匹配度。计算相关度的方式有多种,可以是计算余弦相似度、欧式距离等,本申请实施例不做具体限制。
二,第一元数据包括第一限定文本。
数据处理设备提取标准元数据中的标准限定本文的特征向量,获得第二参考向量,提取第一限定文本的特征向量,获得第二向量,将第二参考向量与第二向量之间的相关度作为第一限定文本与标准元数据之间的匹配度。
三,第一元数据包括第一数据元和第一限定文本。
数据处理设备提取标准元数据中的标准数据元的特征向量,获得第一参考向量,提取第一数据元的特征向量,获得第一向量,将第一参考向量与第一向量之间的相关度作为第一数据元与标准元数据之间的匹配度。以及提取标准元数据中的标准限定本文的特征向量,获得第二参考向量,提取第一限定文本的特征向量,获得第二向量,将第二参考向量与第二向量之间的相关度作为第一限定文本与标准元数据之间的匹配度。
第一元数据和标准元数据可能是对齐的,也可能是不对齐的,对齐是指第一元数据包括的信息类型与标准元数据包括的信息类型一一对应,对齐的情况例如:第一元数据包括第一数据元,标准元数据也包括标准数据元,或者第一元数据包括第一限定文本,标准元数据也包括标准限定文本,或者第一元数据包括第一数据元和第一限定文本,标准元数据也包括标准数据元和标准限定文本。不对齐是指第一元数据包括的信息类型无法与标准元数据包括的信息类型一一对应。不对齐是指第一元数据包括的信息类型多于标准元数据的信息类型,不对齐的情况例如:第一元数据包括第一数据元和第一限定文本,标准元数据包括标准数据元。
考虑到第一元数据和标准元数据可能不对齐的情况,此时第一元数据无法与标准元数据匹配,因此在本申请实施例中可以基于第一匹配子网络、第二匹配子网络,确定第一元数据和标准元数据之间的匹配度。
第一匹配子网络和第二匹配子网络可以组成匹配模型,请参照图3,为本申请实施例提供的匹配模型的结构示意图,其中该匹配模型包括第一匹配子网络310、第二匹配子网络320和匹配模块330。
第一匹配子网络310可以根据标准元数据生成第一参考向量或第二参考向量,第二匹配子网络320可以分别输出第一元数据的第一向量和第二向量。这样,即使在第一元数据和标准元数据不对齐的情况下,匹配模块330也能确定出第一元数据和标准元数据的匹配度。
具体的,数据处理设备可以将标准数据元输入第一匹配子网络310,通过第一匹配子网络310的池化层输出第一参考向量,将包括第一数据元和第一限定文本的第一元数据输入第二匹配子网络320,通过第二匹配子网络320的池化层输出第一向量,匹配模块330确定第一参考向量与第一向量之间的相关度,将第一参考向量与第一向量之间的相关度作为第一数据元与标准元数据之间的匹配度。
或者,数据处理设备将标准限定文本输入第一匹配子网络310,通过第一匹配子网络310的池化层输出第二参考向量,将包括第一数据元和第一限定文本的第一元数据输入第二匹配子网络320,通过第二匹配子网络320的池化层输出第二向量,匹配模块330确定第二参考向量与第二向量之间的相关度,将第二参考向量与第二向量之间的相关度作为第一限定文本与标准元数据之间的匹配度。
作为一种实施例,第一匹配子网络310可以通过深度神经网络(Deep NeuralNetworks,DNN)实现。
作为另一个实施例,第二匹配子网络320可以通过压缩和激励网络(Squeeze-and-Excitation Networks,SENet)实现,本申请实施例中可以采用SENet网络获得第一向量或第二向量,由于SENet网络可以预先学习了区分数据元与限定文本,因此SENet网络可以根据第一元数据的具体组成,灵活地输出第一向量或第二向量。
下面对第一匹配子网络310和第二匹配子网络320的训练过程进行介绍:
数据处理设备可以基于多个样本对,对匹配模型中的第一匹配子网络310和第二匹配子网络320进行多次迭代训练,最终获得训练好的匹配模型。其中,每个样本对包括第二样本元数据和第二样本标准元数据,第二样本元数据中第二样本数据元与第二样本标准数据元中的第二样本标准数据元之间的第一匹配度,以及第二样本元数据中第二样本限定文本与第二样本标准元数据中的第二样本标准限定文本之间的第二匹配度。下面对其中一次迭代训练过程进行介绍:
数据处理设备在多个样本对中选取第一样本对,将第一样本对中的第二样本标准元数据中的第二样本标准数据元输入第一匹配子网络310,获得第三参考向量,以及将第一样本对中的第一样本元数据输入第二匹配子网络320,获得第三向量,通过匹配模块330计算第三参考向量和第三向量之间的第三匹配度,基于第三匹配度与第一匹配度之间的差异,分别调整第一匹配子网络310的模型参数和第二匹配子网络320的模型参数。
数据处理设备将第一样本对中的第二样本标准元数据中的第二样本限定文本输入第一匹配子网络310,获得第四参考向量,以及将第一样本对中的第一样本元数据输入第二匹配子网络320,获得第四向量,通过匹配模块330计算第四参考向量和第四向量之间的第四匹配度,基于第四匹配度与第二匹配度之间的差异,分别调整第一匹配子网络310的模型参数和第二匹配子网络320的模型参数。
作为一个实施例,标准元数据可以包括多个,分别计算第一元数据与多个标准元数据之间的匹配度,获得多个匹配度,将其中最大的匹配度确定为第一元数据与标准元数据之间的匹配度。
数据处理设备在确定第一元数据与标准元数据之间的匹配度之后,若该匹配度满足匹配度阈值条件,则将该标准元数据,作为第一元数据的标准的数据。
具体的,第一元数据的内容不同,第一元数据的标准的数据的内容也不同,下面分别进行介绍:
第一,第一元数据包括第一数据元。
数据处理设备计算第一数据元与标准元数据中的标准数据元之间的匹配度,若该匹配度大于第一预设阈值,则将标准数据元,作为第一数据元的标准的数据。
第二,第一元数据包括第一限定文本。
数据处理设备计算第一限定文本与标准元数据中的标准限定文本之间的匹配度,若该匹配度大于第二预设阈值,则将标准限定文本,作为第一限定文本的标准的数据。
第三,第一元数据包括第一数据元和第一限定文本。
数据处理设备计算第一数据元与标准元数据中的标准数据元之间的匹配度,若该匹配度大于第一预设阈值,则将该标准数据元,作为第一数据元的标准的数据。以及计算第一限定文本与标准元数据中的标准限定文本之间的匹配度,若该匹配度大于第二预设阈值,则将标准限定文本,作为第一限定文本的标准的数据。其中,第一预设阈值和第二预设阈值是根据多次试验后预先设置的,第一预设阈值和第二预设阈值可以相同或者不同。
S220,若确定第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,获得第二元数据。
数据处理设备在获得第一元数据与标准元数据之间的匹配度之后,若确定该匹配度不满足匹配度阈值条件,可以将第一元数据输入已训练的生成模型,获得第二元数据。
其中,第二元数据为标准的数据,生成模型是基于样本数据集进行训练得到的,样本数据集包括多个第一样本数据,以及每个第一样本数据对应的第一样本标准元数据。样本数据集可以是已经发布的标准数据库中的数据集合,还可以是手动标定的数据集合。生成模型可以是各类神经网络模型,例如生成式的预训练(Generative Pre-Training,GPT)模型、长短期记忆人工神经网络(Long Short-Term Memory,LSTM)模型等。生成模型中的模型参数可以是随机取值,或者从其他设备获得的,或者是取经验值,或者是数据处理设备训练得到的。下面以数据处理设备训练获得生成模型的模型参数为例,对获得生成模型的模型参数的来源进行示例介绍:
具体的,数据处理设备将样本数据作为生成模型的输入,将生成模型输出的目标数据,以及该样本数据对应的样本标准元数据作为生成模型的反馈数据,通过反馈数据,不断调整模型参数的取值。经过大量的样本数据的训练,不断更新生成模型的模型参数,使生成模型确定出的目标数据与样本标准元数据的误差在预设范围内,从而获得已训练的生成模型。
由于第一元数据包含的内容不同,则将第一元数据输入已训练的生成模型,对应生成模型的输出也不同,下面分别进行介绍:
第一种,第一元数据包括第一数据元。
若确定第一数据元与标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将第一数据元输入已训练的生成模型,获得标准的第二数据元。此时,第二元数据包括第二数据元。
第二种,第一元数据包括用于限定第一数据元的第一限定文本。
若确定第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将第一限定文本输入已训练的生成模型,获得标准的第二限定文本。此时,第二元数据包括第二限定文本。
第三种,第一元数据包括第一数据元和第一限定文本。
若确定第一数据元与标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将第一数据元输入已训练的生成模型,获得标准的第二数据元。以及若确定第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将第一限定文本输入已训练的生成模型,获得标准的第二限定文本。此时,第二元数据包括标准的第二数据元和标准的第二限定文本。
在一种可能的实施例中,考虑到上述中的样本数据集可能与待处理的数据表所涉及的业务不同。在本申请实施例中,数据处理设备可以采用本业务的样本数据集对该已训练的生成模型进行微调,获得调整后的生成模型。通过调整后的生成模型,输出第二数据,由于采用了更具有针对性的业务数据对生成模型进行微调,因此可以提升生成模型的使用效果,以获得更准确的第二数据。其中,本业务是指待处理的数据表对应的业务,例如均为公共安全业务。
在一种可能的实施例中,数据处理设备在获得第二元数据之后,可以将第二元数据写入标准元数据所在的标准数据库,从而扩展标准数据库,以便下次能够尽可能匹配到标准数据库中的数据,不用重复生成标准的数据,进而提高后续的数据处理效率。
在一种可能的实施例中,数据处理设备还可以将第一元数据关联的存储数据转换为预设格式,获得转换后的存储数据,进而获得处理后的数据表,由于处理后的数据表中均是标准的数据,以便后续根据处理后的数据表进行数据分析等。
第一元数据包括的内容有多种情况,因此,处理后的的数据表中的内容也有多种情况,下面分别进行介绍:
情况一:第一元数据包括第一数据元。
数据处理设备将与第一数据元关联的第一存储数据转换为第一格式,获得转换后的第一存储数据,将第二元数据中的第二数据元与转换后的第一存储数据关联,获得处理后的数据表。
具体的,数据处理设备将第二元数据中的第二数据元作为处理后的数据表的表项,将转换后的第一存储数据作为该表项下的具体内容。其中,当第一元数据与标准元数据的匹配度满足匹配度阈值条件时,第二元数据为与第一数据元匹配的标准数据元,当第一元数据与标准元数据的匹配度不满足匹配度阈值条件时,第二元数据为第一数据元通过已训练的生成模型,获得的标准的第二数据元。
情况二:第一元数据包括第一限定文本。
数据处理设备将与第一限定文本关联的第二存储数据转换为第二格式,获得转换后的第二存储数据,将第二元数据中的第二限定文本与转换后的第二存储数据关联,获得处理后的数据表。
具体的,数据处理设备将第二元数据中的第二限定文本作为处理后的数据表的表项,将转换后的第二存储数据作为该表项下的具体内容。其中,当第一元数据与标准元数据的匹配度满足匹配度阈值条件时,第二元数据为与第一限定文本匹配的标准限定文本,当第一元数据与标准元数据的匹配度不满足匹配度阈值条件时,第二元数据为第一限定文本通过已训练的生成模型,获得的标准的第二限定文本。
情况三:第一元数据包括第一数据元和第一限定文本。
数据处理设备将与第一数据元关联的第一存储数据转换为第一格式,获得转换后的第一存储数据,以及将与第一限定文本关联的第二存储数据转换为第二格式,获得转换后的第二存储数据,将第二元数据中的第二数据元与转换后的第一存储数据关联,以及将第二元数据中的第二限定文本与转换后的第二存储数据关联,获得处理后的数据表。
具体的,数据处理设备将第二元数据中的第二数据元作为处理后的数据表的第一表项,将转换后的第一存储数据作为该第一表项下的具体内容,以及将第二元数据中的第二限定文本作为处理后的数据表的第二表项,将转换后的第二存储数据作为该第二表项下的具体内容。其中,当第一元数据与标准元数据的匹配度满足匹配度阈值条件时,第二元数据为与第一元数据匹配的标准元数据,当第一元数据与标准元数据的匹配度不满足匹配度阈值条件时,第二元数据为第一元数据通过已训练的生成模型,获得的标准的第二元数据。
需要说明的是,图2中实施例中待处理的数据表例如为图1中的待处理的数据表110、数据处理设备例如为图1中的数据处理设备120。
基于同一发明构思,本申请实施例提供一种数据处理装置,请参照图4,该装置相当于设置在前文论述的数据处理设备120中,该装置包括:
获取模块401,获取待处理的第一元数据,其中,第一元数据为数据表的表项中的文本;
获得模块402,用于若确定第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,获得第二元数据,其中,第二元数据为标准的数据,生成模型是基于样本数据集进行训练得到的,样本数据集包括多个样本数据,以及每个样本数据对应的样本标准元数据。
在一种可能的实施例中,获得模块402具体用于:
第一元数据包括第一数据元,若第一数据元与标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将第一数据元输入已训练的生成模型,获得标准的第二数据元,其中,第二元数据包括第二数据元;和/或,
第一元数据包括用于限定第一数据元的第一限定文本,若第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将第一限定文本输入已训练的生成模型,获得标准的第二限定文本,其中,第二元数据包括第二限定文本。
在一种可能的实施例中,第一元数据包括第一数据元和用于限定第一数据元的第一限定文本;该装置还包括确定模块403,确定模块403用于:
在若确定第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,获得第二元数据之前,提取第一数据元的特征向量,获得第一向量,并确定第一向量与第一参考向量之间的相关度,将相关度作为第一数据元与标准元数据之间的匹配度,其中,第一参考向量是基于标准元数据中的标准数据元获得的;和/或,
提取第一限定文本的特征向量,获得第二向量,并确定第二向量与第二参考向量之间的相关度,将相关度作为第一限定文本与标准元数据之间的匹配度,其中,第二参考向量是基于标准元数据中的标准限定本文获得的。
在一种可能的实施例中,获得模块402具体用于:
第一元数据包括第一数据元,若第一数据元与标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将第一数据元输入已训练的生成模型,获得标准的第二数据元,其中,第二元数据包括第二数据元;和/或,
第一元数据包括用于限定第一数据元的第一限定文本,若第一限定文本与标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将第一限定文本输入已训练的生成模型,获得标准的第二限定文本,其中,第二元数据包括第二限定文本。
在一种可能的实施例中,第一元数据包括第一数据元和用于限定第一数据元的第一限定文本;确定模块403还用于:
在若确定第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,获得第二元数据之前,分别提取标准元数据中的标准数据元和第一数据元的特征向量,获得第一参考向量和第一向量,并确定第一参考向量与第一向量之间的相关度,将相关度作为第一数据元与标准元数据之间的匹配度;和/或,
分别提取标准元数据中的标准限定文本和第一限定文本的特征向量,获得第二参考向量和第二向量,并确定第二参考向量与第二向量之间的相关度,将相关度作为第一限定文本与标准元数据之间的匹配度。
在一种可能的实施例中,获得模块402具体用于:
将标准数据元输入第一匹配子网络,获得第一参考向量,将第一数据元输入第二匹配子网络,获得第一向量;和/或,
将标准限定文本输入第一匹配子网络,获得第二参考向量,将第一数据元输入第二匹配子网络,获得第二向量;
其中,第一匹配子网络和第二匹配子网络是基于多个样本对进行联合训练得到的,其中,每个样本对包括第二样本元数据和第二样本标准元数据,第二样本元数据中第二样本数据元与第二样本标准数据元中的第二样本标准数据元之间的第一匹配度,以及第二样本元数据中第二样本限定文本与第二样本标准元数据中的第二样本标准限定文本之间的第二匹配度。
在一种可能的实施例中,第一匹配子网络和第二匹配子网络是基于多个样本对进行多次迭代训练得到,该装置还包括训练模块404,训练模块404用于:
在多个样本对中选取第一样本对;
将第一样本对中的第二样本标准元数据中的第二样本标准数据元输入第一匹配子网络,获得第三参考向量,以及将第一样本对中的第一样本元数据输入第二匹配子网络,获得第三向量;
确定第三参考向量和第三向量之间的第三匹配度;
基于第三匹配度与第一匹配度之间的差异,分别调整第一匹配子网络的模型参数和第二匹配子网络的模型参数;
将第一样本对中的第二样本标准元数据中的第二样本限定文本输入第一匹配子网络,获得第四参考向量,以及将第一样本对中的第一样本元数据输入第二匹配子网络,获得第四向量;
确定第四参考向量和第四向量之间的第四匹配度;
基于第四匹配度与第二匹配度之间的差异,分别调整第一匹配子网络的模型参数和第二匹配子网络的模型参数。
在一种可能的实施例中,确定模块403还用于:
在获取待处理的第一元数据之后,若确定第一元数据与标准元数据之间的匹配度满足匹配度阈值条件,则将标准元数据,作为第一元数据的标准的数据。
在一种可能的实施例中,第一元数据包括第一数据元和用于限定第一数据元的第一限定文本,数据表还包括与第一数据元关联的第一存储数据,以及与第一限定文本关联的第二存储数据,标准元数据包括标准数据元与标准数据元对应的标准限定文本,标准数据元关联有第一格式,标准限定文本关联有第二格式;获得模块402还用于:
在若确定第一元数据与标准元数据之间的匹配度不满足匹配度阈值条件,则将第一元数据输入已训练的生成模型,获得第二元数据之后,将第一存储数据转换为第一格式,获得转换后的第一存储数据,以及将第二存储数据转换为第二格式,获得转换后的第二存储数据;
将第二元数据中的第二数据元本与转换后的第一存储数据关联,以及将第二元数据中的第二限定文本与转换后的第二存储数据关联,获得处理后的数据表。
基于同一发明构思,本申请实施例提供一种数据处理设备,该设备相当于前文论述的数据处理设备120,请参照图5,该设备包括:
至少一个处理器501,以及
与至少一个处理器501通信连接的存储器502;
其中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令实现如前文论述的数据处理方法。
处理器501可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元、或为图像处理器等中的一种或多种组合。存储器502可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器502也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flashmemory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器502可以是上述存储器的组合。
作为一种实施例,图5中的处理器501可以实现前文论述的数据处理方法,处理器501还可以实现前文图4论述的数据处理装置的功能。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,当计算机指令在计算机上运行时,使得计算机执行如前文论述的数据处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种数据处理方法,其特征在于,包括:
获取待处理的第一元数据,其中,所述第一元数据为数据表的表项中的文本,其中,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本;
将标准元数据中的标准数据元输入第一匹配子网络,获得第一参考向量,将所述第一元数据输入第二匹配子网络,获得第一向量,并确定所述第一参考向量与所述第一向量之间的相关度,将所述第一参考向量与所述第一向量之间的相关度作为所述第一数据元与所述标准元数据之间的匹配度;和/或,将所述标准元数据中的标准限定文本输入所述第一匹配子网络,获得第二参考向量,将所述第一元数据输入所述第二匹配子网络,获得第二向量,并确定所述第二参考向量与所述第二向量之间的相关度,将所述第二参考向量与所述第二向量之间的相关度作为所述第一限定文本与所述标准元数据之间的匹配度,其中,所述第一匹配子网络为深度神经网络,所述第二匹配子网络为压缩和激励网络;
若所述第一数据元与所述标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将所述第一数据元输入调整后的生成模型,获得第二元数据包括的标准的第二数据元,若所述第一限定文本与所述标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将所述第一限定文本输入调整后的生成模型,获得所述第二元数据包括的标准的第二限定文本;
其中,所述生成模型为神经网络模型,所述第二元数据为标准的数据,所述调整后的生成模型是采用本业务的数据集对已训练的生成模型进行微调后获得的,所述本业务为所述数据表对应的业务,所述已训练的生成模型是基于样本数据集进行训练得到的,所述样本数据集包括多个第一样本数据,以及每个第一样本数据对应的第一样本标准元数据。
2.如权利要求1所述的方法,其特征在于,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行联合训练得到的,其中,每个样本对包括第二样本元数据和第二样本标准元数据,所述第二样本元数据中第二样本数据元与所述第二样本标准元数据中的第二样本标准数据元之间的第一匹配度,以及所述第二样本元数据中第二样本限定文本与所述第二样本标准元数据中的第二样本标准限定文本之间的第二匹配度。
3.如权利要求2所述的方法,其特征在于,所述第一匹配子网络和所述第二匹配子网络是基于多个样本对进行多次迭代训练得到,其中一次迭代训练包括以下步骤:
在所述多个样本对中选取第一样本对;
将所述第一样本对中的第二样本标准元数据中的第二样本标准数据元输入第一匹配子网络,获得第三参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第三向量;
确定所述第三参考向量和所述第三向量之间的第三匹配度;
基于所述第三匹配度与所述第一匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数;
将所述第一样本对中的第二样本标准元数据中的第二样本标准限定文本输入第一匹配子网络,获得第四参考向量,以及将所述第一样本对中的第一样本元数据输入第二匹配子网络,获得第四向量;
确定所述第四参考向量和所述第四向量之间的第四匹配度;
基于所述第四匹配度与所述第二匹配度之间的差异,分别调整所述第一匹配子网络的模型参数和所述第二匹配子网络的模型参数。
4.如权利要求1-3任一项所述的方法,其特征在于,在获取待处理的第一元数据之后,所述方法还包括:
确定所述第一数据元和所述标准元数据中的标准数据元之间的匹配度大于所述第一预设阈值,则将所述标准数据元作为所述第一数据元的标准的数据;以及确定所述第一限定文本与所述标准元数据中的标准限定文本之间的匹配度大于所述第二预设阈值,则将所述标准限定文本作为所述第一限定文本的标准的数据。
5.如权利要求1-3任一项所述的方法,其特征在于,所述数据表还包括与所述第一数据元关联的第一存储数据,以及与所述第一限定文本关联的第二存储数据,所述标准元数据包括标准数据元与所述标准数据元对应的标准限定文本,所述标准数据元关联有第一格式,所述标准限定文本关联有第二格式;
在获得第二元数据之后,所述方法还包括:
将所述第一存储数据转换为所述第一格式,获得转换后的第一存储数据,以及将所述第二存储数据转换为所述第二格式,获得转换后的第二存储数据;
将所述第二元数据中的第二数据元与所述转换后的第一存储数据关联,以及将所述第二元数据中的第二限定文本与转换后的第二存储数据关联,获得处理后的数据表。
6.一种数据处理装置,其特征在于,所述装置包括:
获取模块,获取待处理的第一元数据,其中,所述第一元数据为数据表的表项中的文本,其中,所述第一元数据包括第一数据元和用于限定所述第一数据元的第一限定文本;
获得模块,用于将标准元数据中的标准数据元输入第一匹配子网络,获得第一参考向量,将所述第一元数据输入第二匹配子网络,获得第一向量,并确定所述第一参考向量与所述第一向量之间的相关度,将所述第一参考向量与所述第一向量之间的相关度作为所述第一数据元与所述标准元数据之间的匹配度;和/或,将所述标准元数据中的标准限定文本输入所述第一匹配子网络,获得第二参考向量,将所述第一元数据输入所述第二匹配子网络,获得第二向量,并确定所述第二参考向量与所述第二向量之间的相关度,将所述第二参考向量与所述第二向量之间的相关度作为所述第一限定文本与所述标准元数据之间的匹配度,其中,所述第一匹配子网络为深度神经网络,所述第二匹配子网络为压缩和激励网络;
所述获得模块,还用于若所述第一数据元与所述标准元数据中的标准数据元之间的匹配度小于第一预设阈值,则将所述第一数据元输入调整后的生成模型,获得第二元数据包括的标准的第二数据元,若所述第一限定文本与所述标准元数据中的标准限定文本之间的匹配度小于第二预设阈值,则将所述第一限定文本输入调整后的生成模型,获得所述第二元数据包括的标准的第二限定文本;
其中,所述生成模型为神经网络模型,所述第二元数据为标准的数据,所述调整后的生成模型是采用本业务的数据集对已训练的生成模型进行微调后获得的,所述本业务为所述数据表对应的业务,所述已训练的生成模型是基于样本数据集进行训练得到的,所述样本数据集包括多个第一样本数据,以及每个第一样本数据对应的第一样本标准元数据。
7.一种数据处理设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-5中任一项所述的数据处理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-5中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645542.4A CN113420077B (zh) | 2021-06-10 | 2021-06-10 | 一种数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645542.4A CN113420077B (zh) | 2021-06-10 | 2021-06-10 | 一种数据处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420077A CN113420077A (zh) | 2021-09-21 |
CN113420077B true CN113420077B (zh) | 2024-01-30 |
Family
ID=77788184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110645542.4A Active CN113420077B (zh) | 2021-06-10 | 2021-06-10 | 一种数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420077B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766376A (zh) * | 2016-08-19 | 2018-03-06 | 华为技术有限公司 | 数据对齐方法及装置 |
CN109410069A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 结算数据处理方法、装置、计算机设备和存储介质 |
CN111061833A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件***有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
CN111078776A (zh) * | 2019-12-10 | 2020-04-28 | 北京明略软件***有限公司 | 数据表的标准化方法、装置、设备及存储介质 |
CN112149419A (zh) * | 2020-09-30 | 2020-12-29 | 中国工商银行股份有限公司 | 字段的规范化自动命名方法、装置及*** |
CN112181949A (zh) * | 2020-10-10 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种在线数据建模的方法及装置 |
CN112527970A (zh) * | 2020-12-24 | 2021-03-19 | 上海浦东发展银行股份有限公司 | 数据字典标准化处理方法、装置、设备及存储介质 |
CN112749558A (zh) * | 2020-09-03 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2449125A (en) * | 2007-05-11 | 2008-11-12 | Sony Uk Ltd | Metadata with degree of trust indication |
-
2021
- 2021-06-10 CN CN202110645542.4A patent/CN113420077B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766376A (zh) * | 2016-08-19 | 2018-03-06 | 华为技术有限公司 | 数据对齐方法及装置 |
CN109410069A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 结算数据处理方法、装置、计算机设备和存储介质 |
CN111061833A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件***有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
CN111078776A (zh) * | 2019-12-10 | 2020-04-28 | 北京明略软件***有限公司 | 数据表的标准化方法、装置、设备及存储介质 |
CN112749558A (zh) * | 2020-09-03 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
CN112149419A (zh) * | 2020-09-30 | 2020-12-29 | 中国工商银行股份有限公司 | 字段的规范化自动命名方法、装置及*** |
CN112181949A (zh) * | 2020-10-10 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种在线数据建模的方法及装置 |
CN112527970A (zh) * | 2020-12-24 | 2021-03-19 | 上海浦东发展银行股份有限公司 | 数据字典标准化处理方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
John Adolph Palinski.Oracle8 数据库构造工具实用指南.《Oracle8 数据库构造工具实用指南》.1998, * |
刘巍 ; 王思丽 ; 祝忠明 ; 吴志强 ; .基于自然语言处理技术的定题监测功能实现研究.图书与情报.2018,(第03期),第135-140页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113420077A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
WO2021174717A1 (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
WO2021151270A1 (zh) | 图像结构化数据提取方法、装置、设备及存储介质 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
US11734341B2 (en) | Information processing method, related device, and computer storage medium | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN109685668B (zh) | 订单批量处理方法、装置、计算机设备及存储介质 | |
CN110807472B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111553151A (zh) | 一种基于字段相似度计算的问题推荐方法、装置和服务器 | |
CN112783825A (zh) | 数据归档方法、装置、计算机装置及存储介质 | |
CN105653548A (zh) | 一种电子文档页面类型识别方法和*** | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN116361552A (zh) | 校园图书检索方法、装置、设备及可读存储介质 | |
CN103177105A (zh) | 一种图像检索方法及装置 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN113268597B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN117235546B (zh) | 多版本文件比对方法、装置、***及存储介质 | |
CN106776543A (zh) | 新词发现方法、装置、终端及服务器 | |
CN113420077B (zh) | 一种数据处理方法、装置、设备及介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN115994232B (zh) | 在线多版本文献同一性鉴别方法、***及计算机设备 | |
CN105843890B (zh) | 基于知识库面向大数据及普通数据的数据采集方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |