CN109783611A

CN109783611A - 一种字段匹配的方法、装置、计算机存储介质及终端

Info

Publication number: CN109783611A
Application number: CN201811631758.XA
Authority: CN
Inventors: 堵新政; 张毅然
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-21

Abstract

一种字段匹配的方法、装置、计算机存储介质及终端，包括：确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。

Description

一种字段匹配的方法、装置、计算机存储介质及终端

技术领域

本文涉及但不限于数据处理技术，尤指一种字段匹配的方法、装置、计算机存储介质及终端。

背景技术

如何有效地保证数据的完整性，实现数据的规范化、标准化，提高数据质量和治理效率，对当今的数据治理任务来说至关重要。数据治理的源数据可以包括不同种类、***的数据。其中，关系型数据库的源数据可能存在几百甚至上千张表，每张表可能有几十到上百的字段。在源数据提取前，建立大量的原始字段与目标字段间的一一映射是一件很繁琐的工作。通常，在数据抽取过程中，原始字段到目标字段的匹配有三种方式：第一种方式，是直接人工定义目标字段，建立原始字段与目标字段的映射关系；第二种方式是基于提前构建好的标准字段库，在字段映射阶段，从标准字段库查找对应的原始字段，如果存在则建立映射，如果不存在，则需要人工创建目标字段，建立映射关系。

上述原始字段与目标字段的匹配方式中：第一种方式准确度灵活性高，但效率低下，对于大量表的情况并不是适用，并且手动建立的字段在命令上并不是规范的；第二种方式属于半自动匹配，效率比第一种有所提高，但还是需要人工创建映射字段，对于表多的情况，效率依然很低。

目前，如何在建立原始字段与目标字段之间的映射关系时，提高原始表全字段的匹配准确度和效率，是技术人员需要面对的问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种字段匹配的方法、装置、计算机存储介质及终端，能够提高原始表全字段的匹配准确度和效率。

本发明实施例提供了一种字段匹配的方法，包括：

确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；

根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；

建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；

根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。

可选的，确定待匹配的各第一标准表的第二特征向量之前，所述方法还包括：

按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类；

将与原始表相同种类的标准表，确定为待匹配的所述第一标准表。

可选的，所述确定原始表的第一特征向量包括：

对所述原始表的中文表名进行分词，获得第一关键词；

根据分词获得的第一关键词构建第一词库；

对第一词库中的第一关键词进行预处理后，通过词频统计确定所述第一特征向量；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，所述确定待匹配的各第一标准表的第二特征向量包括：

对各所述第一标准表的对中文表名进行分词，获得对应于各第一标准表的第二关键词；

根据分词获得的所有所述第二关键词构建第二词库；

对第二词库中的第二关键词进行预处理后，通过词频统计确定各所述第一标准表的所述第二特征向量；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，所述确定与原始表成映射关系的第二标准表包括：

计算所述第一特征向量和各所述第二特征向量的表相似度；

从所述表相似度排序在前的预设数值个第一标准表中，确定一个与所述原始表成映射关系的所述第二标准表；

其中，所述表相似度包括：通过余弦相似度计算获得的相似度。

可选的，所述确定一个与所述原始表成映射关系的所述第二标准表包括：

从所述表相似度排序在前的第一预设数值个第一标准表中，将与所述原始表表相似度数值最大的第一标准表确定为所述第二标准表；或，

根据接收到的第一外部指令，从所述表相似度排序在前的第一预设数值个第一标准表中，选择一个第一标准表作为所述第二标准表；

其中，所述第一预设数值为大于等于2且小于等于5的整数。

可选的，所述原始字段包括原始中文字段和原始英文字段；所述标准字段包括标准中文字段和标准英文字段；所述建立原始表的原始字段与确定的第二标准表的标准字段的字段映射包括：

建立各所述原始中文字段与所述标准中文字段的映射关系；

建立各所述原始英文字段与所述标准英文字段的映射关系。

可选的，所述根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段包括：

计算建立映射关系的所述原始中文字段与所述标准中文字段的第一文本相似度，和建立映射关系的所述原始英文字段与所述标准英文字段的第二文本相似度；

根据计算获得的所述第一文本相似度和所述第二文本相似度，结合预设的加权系数，确定建立映射的原始字段与标准字段的字段相似度；

根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段。

可选的，所述根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段包括：

一个或一个以上建立映射的原始字段与标准字段的字段相似度大于所述相似度阈值时，从字段相似度大于相似度阈值的第二预设数值个标准字段中，按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段；

确定的所述字段相似度均小于或等于所述相似度阈值时，确定所述原始字段为用于字段匹配的所述目标字段。

可选的，所述按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

从所述字段相似度排序在前的第二预设数值个标准字段中，将与所述原始字段的字段相似度数值最大的标准字段确定为所述目标字段；或，

根据接收到的第二外部指令，从所述字段相似度排序在前的第二预设数值个标准字段中，选择一个标准字段作为所述目标字段；

其中，所述第二预设数值为大于等于2且小于等于5的整数。

另一方面，本发明实施例还提供一种字段匹配的装置，包括：向量单元、表映射单元、字段映射单元和匹配字段确认单元；其中，

向量单元用于：确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；

表映射单元用于：根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；

字段映射单元用于：建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；

匹配字段确认单元用于：根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。

可选的，所述装置还包括分类单元和类型确定单元；其中，

分类单元用于：按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类；

类型确定单元用于：将与原始表相同种类的标准表，确定为待匹配的所述第一标准表。

可选的，所述向量单元包括第一向量模块，用于：

对所述原始表的中文表名进行分词，获得第一关键词；

根据分词获得的第一关键词构建第一词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，所述向量单元包括第二向量模块，用于：

根据分词获得的所有所述第二关键词构建第二词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，所述表映射单元具体用于：

计算所述第一特征向量和各所述第二特征向量的表相似度；

可选的，所述表映射单元用于确定一个与所述原始表成映射关系的所述第二标准表包括：

其中，所述第一预设数值为大于等于2且小于等于5的整数。

可选的，所述原始字段包括原始中文字段和原始英文字段；所述标准字段包括标准中文字段和标准英文字段；所述字段映射单元具体用于：

建立各所述原始中文字段与所述标准中文字段的映射关系；

建立各所述原始英文字段与所述标准英文字段的映射关系。

可选的，所述匹配字段确认单元具体用于：

可选的，所述匹配字段确认单元用于根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段包括：

可选的，所述匹配字段确认单元用于按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

其中，所述第二预设数值为大于等于2且小于等于5的整数。

再一方面，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述字段匹配的方法。

还一方面，本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

与相关技术相比，本申请技术方案包括：确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例字段匹配的方法的流程图；

图2为本发明实施例字段匹配的装置的结构框图；

图3为本发明应用示例的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例字段匹配的方法的流程图，如图1所示，包括：

步骤101、确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；

可选的，确定待匹配的各第一标准表的第二特征向量之前，本发明实施例方法还包括：

可选的，本发明实施例原始表的所属种类根据接收到的外部指令进行确定。其他可以用于分析确定原始表所述种类的方法也可以应用于本发明实施例。

可选的，本发明实施例确定原始表的第一特征向量包括：

对所述原始表的中文表名进行分词，获得第一关键词；

根据分词获得的第一关键词构建第一词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，本发明实施例确定待匹配的各第一标准表的第二特征向量包括：

根据分词获得的所有所述第二关键词构建第二词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

步骤102、根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；

可选的，本发明实施例确定与原始表成映射关系的第二标准表包括：

计算所述第一特征向量和各所述第二特征向量的表相似度；

可选的，本发明实施例确定一个与所述原始表成映射关系的所述第二标准表包括：

其中，所述第一预设数值为大于等于2且小于等于5的整数。

步骤103、建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；

可选的，本发明实施例原始字段包括原始中文字段和原始英文字段；所述标准字段包括标准中文字段和标准英文字段；所述建立原始表的原始字段与确定的第二标准表的标准字段的字段映射包括：

建立各所述原始中文字段与所述标准中文字段的映射关系；

建立各所述原始英文字段与所述标准英文字段的映射关系。

步骤104、根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。

可选的，本发明实施例根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段包括：

需要说明的是，本发明实施例第一文本相似度和第二文本相似度可以采用最小编辑距离算法计算确定。

可选的，本发明实施例根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段包括：

可选的，本发明实施例按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

其中，所述第二预设数值为大于等于2且小于等于5的整数。

需要说明的是，本发明实施例确定目标字段后，可以参照相关技术实现原始字段与目标字段的映射；本发明实施例根据特性向量实现原始表和目标表的映射；基于字段的相似度实现目标字段的确定，以自动化方式提升了全字段匹配的效率，基于相似度判断处理，提升了全字段匹配的准确度。

图2为本发明实施例字段匹配的装置的结构框图，如图2所示，包括：向量单元、表映射单元、字段映射单元和匹配字段确认单元；其中，

可选的，本发明实施例装置还包括分类单元和类型确定单元；其中，

可选的，本发明实施例向量单元包括第一向量模块，用于：

对所述原始表的中文表名进行分词，获得第一关键词；

根据分词获得的第一关键词构建第一词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，本发明实施例向量单元包括第二向量模块，用于：

根据分词获得的所有所述第二关键词构建第二词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

可选的，本发明实施例表映射单元具体用于：

计算所述第一特征向量和各所述第二特征向量的表相似度；

可选的，本发明实施例表映射单元用于确定一个与所述原始表成映射关系的所述第二标准表包括：

其中，所述第一预设数值为大于等于2且小于等于5的整数。

可选的，本发明实施例原始字段包括原始中文字段和原始英文字段；所述标准字段包括标准中文字段和标准英文字段；所述字段映射单元具体用于：

建立各所述原始中文字段与所述标准中文字段的映射关系；

建立各所述原始英文字段与所述标准英文字段的映射关系。

可选的，本发明实施例匹配字段确认单元具体用于：

可选的，本发明实施例匹配字段确认单元用于根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段包括：

可选的，本发明实施例匹配字段确认单元用于按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

其中，所述第二预设数值为大于等于2且小于等于5的整数。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述字段匹配的方法。

本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

以下通过应用示例对本发明实施例方法进行清楚详细的说明，应用示例仅用于陈述本发明，并不用于限定本发明的保护范围。

应用示例

以下通过应用示例对本发明实施例方法进行说明，本应用示例假设标准库中有N张标准表，用t₁，t₂，t₃，…，t_n(n∈[1，N])分别表示N张标准表中的每一张表，t_i表示第i张标准表。根据相关技术中已有的行业标准划分为预设个种类；本应用示例假设表有M种种类，用c₁，c₂，c₃，…，c_m(m∈[1,M])分别表示M种类别中的每一种类别。分类的行业标准可以依据行业或者国标、部标等权威标准，如公安、交通、司法、教育等；假设有需要进行字段匹配的原始表o；图3为本发明应用示例的方法流程图，如图3所示，包括：

步骤301、对标准库中所有标准表的中文表名进行分词，对每个种类的标准表，分别根据分词获得的关键字建立相应的词库；

步骤302、对各词库中的关键词进行预处理后，通过词频统计确定各标准表的特征向量；预处理包括：去除重复词、和/或去除停用词。

本应用示例对每个表类别m∈[1,M]的中文表名的所有关键词单独构建词库，去除重复词和停用词，并采用词频统计的方法提取特征向量其中，特征向量中上标m表示当前标准表所属种类为第m中，下标i表示当前标准表为当前种类标准表中的第i个，Li表示当前标准表特征向量项的排序；假设根据第m个种类的标准表提取的第i张标准表的中文名称，经过分词获得关键字并进行处理后表示为经过则第m个种类的标准表的词库进行预处理后，可以表示为划分的第m个种类包含的所有标准表的特征向量可以表示为最后将M个类别向量整合成标准表的特征向量V＝{v¹v²,...,v^M}；

步骤303、确定原始表的特征向量；本发明应用示例可以包括：对原始表的中文表名进行分词，获得关键词，根据分词获得的关键词构建词库；对词库中的关键词进行预处理后，通过词频统计确定原始表的特征向量；

本发明应用示例原始表的特征向量可以表示为：其中，j表示原始表特征向量的项数；本发明实施例可以设置j小于等于N；

步骤304、根据原始表的特征向量和标准表的特征向量，计算原始表与标准表的表相似度；本发明应用示例通过余弦相似度原理计算原始表与标准表的表相似度similarity

需要说明的是，本发明实施例根据预设的交互指令确定原始表的所属种类，在确定原始表的所属种类后，表相似度的运算可以缩小到原始表与、与原始表所属种类相同的标准表的相似度计算。

步骤305、将计算获得的表相似度进行排序后，从表相似度排序在前的第一数值个标准表中，确定为与原始表成映射关系的标准表；可选的，本发明应用示例可以通过以下方式确定为与原始表成映射关系的标准表：

从表相似度排序在前的第一预设数值个标准表中，将与所述原始表表相似度数值最大的标准表确定为与原始表成映射关系的标准表；或，

根据接收到的第一外部指令，从表相似度排序在前的第一预设数值个第一标准表中，选择一个标准表作为与原始表成映射关系的标准表；

其中，本发明应用示例第一预设数值为大于等于2且小于等于5的整数。

需要说明的是，本发明应用示例还可以设置表相似度阈值，以降低排序处理过程，

本发明应用示例根据确定的与原始表成映射关系的标准表后，可以建立原始表与标准表的映射K_o＝(o,t)；

步骤306、建立原始表的原始字段与确定的第二标准表的标准字段的字段映射，并计算建立映射的原始字段与标准字段的字段相似度；

本发明应用示例，假设原始表o有W个字段，用s₁,s₂,s₃,…，s_w(w∈[1，W])表示，原始表映射的标准表t有Z个字段，用u₁，u₂，u₃，…，u_z(z∈[1，Z])表示；本发明应用示例采用最小编辑距离(Levenshtein距离)算法，计算原始表o字段原始中文字段与标准表t标准中文字段原始表o的原始英文字段与标准表t标准英文字段的文本相似度；其中，上标c和e分别表示根据中文字段的文本相似度和/或英文字段的文本相似度，本发明应用示例计算确定字段相似度；假设最小转换距离是d_c，假设最小转换距离是d_e

原始中文字段和标准中文字段的文本相似度可以参照相关技术已有的运算公式计算：

原始英文字段和标准英文字段的文本相似度可以参照相关技术已有的运算公式计算：

本发明应用示例，假设设置原始中文字段和标准中文字段的文本相似度和原始英文字段和标准英文字段的文本相似度相同的加权系数，则字段相似度

本发明应用示例根据上述运算公式计算原始表o中每个字段与标准表t中每个字段的相似度(获得字段相似度)：

其中z∈[1，Z]，w∈[1，W]

步骤307、根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段。

可选的，本发明应用示例相似度阈值可以由本领域技术人员根据匹配度要求及经验进行设定，值越大，相似度越高，表示原始字段与标准字段的匹配度越高。

确定的字段相似度均小于或等于相似度阈值时，确定原始字段为用于字段匹配的所述目标字段。

可选的，本发明应用示例按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

从字段相似度排序在前的第二预设数值个标准字段中，将与原始字段的字段相似度数值最大的标准字段确定为目标字段；或，

根据接收到的第二外部指令，从字段相似度排序在前的第二预设数值个标准字段中，选择一个标准字段作为目标字段；

其中，第二预设数值为大于等于2且小于等于5的整数。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的每个模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种字段匹配的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定待匹配的各第一标准表的第二特征向量之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述确定原始表的第一特征向量包括：

对所述原始表的中文表名进行分词，获得第一关键词；

根据分词获得的第一关键词构建第一词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

4.根据权利要求2所述的方法，其特征在于，所述确定待匹配的各第一标准表的第二特征向量包括：

根据分词获得的所有所述第二关键词构建第二词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

5.根据权利要求1～4任一项所述的方法，其特征在于，所述确定与原始表成映射关系的第二标准表包括：

计算所述第一特征向量和各所述第二特征向量的表相似度；

6.根据权利要求5所述的方法，其特征在于，所述确定一个与所述原始表成映射关系的所述第二标准表包括：

其中，所述第一预设数值为大于等于2且小于等于5的整数。

7.根据权利要求1～4任一项所述的方法，其特征在于，所述原始字段包括原始中文字段和原始英文字段；所述标准字段包括标准中文字段和标准英文字段；所述建立原始表的原始字段与确定的第二标准表的标准字段的字段映射包括：

建立各所述原始中文字段与所述标准中文字段的映射关系；

建立各所述原始英文字段与所述标准英文字段的映射关系。

8.根据权利要求7所述的方法，其特征在于，所述根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段包括：

9.根据权利要求8所述的方法，其特征在于，所述根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段包括：

10.根据权利要求9所述的方法，其特征在于，所述按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

其中，所述第二预设数值为大于等于2且小于等于5的整数。

11.一种字段匹配的装置，其特征在于，包括：向量单元、表映射单元、字段映射单元和匹配字段确认单元；其中，

12.根据权利要求11所述的装置，其特征在于，所述装置还包括分类单元和类型确定单元；其中，

13.根据权利要求11所述的装置，其特征在于，所述向量单元包括第一向量模块，用于：

对所述原始表的中文表名进行分词，获得第一关键词；

根据分词获得的第一关键词构建第一词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

14.根据权利要求12所述的装置，其特征在于，所述向量单元包括第二向量模块，用于：

根据分词获得的所有所述第二关键词构建第二词库；

其中，所述预处理包括：去除重复词、和/或去除停用词。

15.根据权利要求11～14任一项所述的装置，其特征在于，所述表映射单元具体用于：

计算所述第一特征向量和各所述第二特征向量的表相似度；

16.根据权利要求15所述的装置，其特征在于，所述表映射单元用于确定一个与所述原始表成映射关系的所述第二标准表包括：

其中，所述第一预设数值为大于等于2且小于等于5的整数。

17.根据权利要求11～14任一项所述的装置，其特征在于，所述原始字段包括原始中文字段和原始英文字段；所述标准字段包括标准中文字段和标准英文字段；所述字段映射单元具体用于：

建立各所述原始中文字段与所述标准中文字段的映射关系；

建立各所述原始英文字段与所述标准英文字段的映射关系。

18.根据权利要求17所述的装置，其特征在于，所述匹配字段确认单元具体用于：

19.根据权利要求18所述的装置，其特征在于，所述匹配字段确认单元用于根据确定的字段相似度与预设的相似度阈值的比较结果，确定用于字段匹配的目标字段包括：

20.根据权利要求19所述的装置，其特征在于，所述匹配字段确认单元用于按照预设策略选择其中一个标准字段作为用于字段匹配的标准字段包括：

其中，所述第二预设数值为大于等于2且小于等于5的整数。

21.一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～10中任一项所述的字段匹配的方法。

22.一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：