CN113837307A

CN113837307A - 数据相似度计算方法、装置、可读介质及电子设备

Info

Publication number: CN113837307A
Application number: CN202111155090.8A
Authority: CN
Inventors: 胡晓辉; 徐胜平
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-24

Abstract

本申请属于数据处理技术领域，具体涉及一种数据相似度计算方法、装置、可读介质以及电子设备，本申请通过从标准数据库中召回和待计算参数相关的候选参数，然后分别计算待计算参数和候选参数名称语义相似度作为第一特征相似度和描述语义相似度作为第二特征相似度，利用第一特征相似度和第二特征相似度，得到待计算参数和候选参数的整体相似度，利用以上方法计算相似度，只召回相关的作为候选参数进行对比，提高了相似度对比的效率，而且，本申请在进行相似度时，综合考虑了参数的名称和参数的描述，将两者的综合作为待计算参数和候选参数的整体相似度，相似度计算的结果更准确，有利于数据对相似度高的参数进行加载。

Description

数据相似度计算方法、装置、可读介质及电子设备

技术领域

本申请属于数据处理技术领域，具体涉及一种数据相似度计算方法、数据相似度计算装置、计算机可读介质以及电子设备。

背景技术

参数指数据库或者应用程序编程接口中的字段信息，在日常生活中，判断两个参数是否一致，有着的重要的意义，若可以判断出两个参数之间或者一个参数与参数表中参数的相似关系，则可进行数据相应字段的加载，而无须人工进行判断。

由于两个参数的一致性牵扯到多种特征信息的融合，因此，目前对于参数的相似度计算所利用的简单的规则无法判断出两个参数是否表达一致，需要人工进行判断，耗时耗力。而且现有的参数相似度计算只考虑了参数的名称，导致相似度计算结果不准确的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种数据相似度计算方法、数据相似度计算装置、计算机可读介质以及电子设备，至少在一定程度上克服相关技术中参数相似度计算耗时耗力，效率低，而且计算结果不准确等技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种数据相似度计算方法，所述方法包括：

从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数，所述待计算参数包括参数名称和参数描述；

从标准数据库中召回与所述待计算参数相关的候选参数，获取所述候选参数的参数名称和参数描述；

计算所述待计算参数和所述候选参数的参数名称语义相似度，作为第一特征相似度，计算所述待计算参数和所述候选参数的参数描述语义相似度，作为第二特征相似度；

基于所述第一特征相似度和第二特征相似度，得到所述待计算参数和所述候选参数的整体相似度。

根据本申请实施例的一个方面，提供一种数据相似度计算装置，包括：

参数提取模块，被配置为从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数，所述待计算参数包括参数名称和参数描述；

候选模块，被配置为从标准数据库中召回与所述待计算参数相关的候选参数，获取所述候选参数的参数名称和参数描述；

特征相似度计算模块，被配置为计算所述待计算参数和所述候选参数的参数名称语义相似度，作为第一特征相似度，计算所述待计算参数和所述候选参数的参数描述语义相似度，作为第二特征相似度；

相似度计算模块，被配置为基于所述第一特征相似度和第二特征相似度，得到所述待计算参数和所述候选参数的整体相似度。

在本申请的一些实施例中，基于以上技术方案，所述候选模块被配置为分别从标准数据库中召回与所述待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。

在本申请的一些实施例中，基于以上技术方案，所述特征相似度计算模块包括：

名称拼接单元，被配置为将所述待计算参数和所述候选参数的参数名称进行拼接，拼接处用分隔符隔开，得到名称拼接特征；

描述拼接单元，被配置为将所述待计算参数和所述候选参数的参数描述进行拼接，拼接处用分隔符隔开，得到描述拼接特征；

向量化表示单元，被配置为将所述名称拼接特征输入第一预训练模型进行向量化表示，将所述描述拼接特征输入第二训练模型进行向量化表示。

在本申请的一些实施例中，基于以上技术方案，所述特征相似度计算模块还包括：

向量转化单元，被配置为将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行向量化表示，得到待计算参数名称向量和候选参数名称向量，将所述待计算参数和所述候选参数的参数描述输入第二预训练模型进行向量化表示，得到待计算参数描述向量和候选参数描述向量；

特征相似度计算单元，被配置为利用余弦相似度算法计算所述待计算参数名称向量和所述候选参数名称向量的相似度，得到第一特征相似度；利用余弦相似度算法计算所述待计算参数描述向量和所述候选参数描述向量的相似度，得到第二特征相似度。

在本申请的一些实施例中，基于以上技术方案，所述向量转化单元包括：

嵌入单元，被配置为将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行嵌入表示，所述嵌入表示用于将所述待计算参数和所述候选参数的参数名称分别转换成待计算名称三维向量和候选名称三维向量；

切分单元，被配置为对所述待计算名称三维向量和候选名称三维向量进行切分，得到待计算名称一维向量和候选名称一维向量；

建模单元，被配置为利用长短期记忆模型分别对待计算名称一维向量和候选名称一维向量进行序列化建模，得到待计算参数名称向量和候选参数名称向量。

激活单元，被配置为利用激活函数将所述第一特征相似度和第二特征相似度映射，所述激活函数用于将变量映射到0-1区间。

在本申请的一些实施例中，基于以上技术方案，所述装置还包括数据更新模块，所述数据更新模块包括：

映射单元，被配置为将所述相似度大于相似度阈值对应的待计算参数作为待映射参数，将所述待映射参数映射到所述候选参数中；

添加单元，被配置为将所述相似度小于相似度阈值对应的待计算参数作为添加参数，将所述添加参数添加到所述标准数据库中。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的数据相似度计算方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据相似度计算方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的数据相似度计算方法。

在本申请实施例提供的技术方案中，本申请通过从标准数据库中召回和待计算参数相关的候选参数，然后分别计算待计算参数和候选参数名称语义相似度作为第一特征相似度和描述语义相似度作为第二特征相似度，然后利用第一特征相似度和第二特征相似度，得到待计算参数和候选参数的整体相似度，利用以上方法计算相似度，由于进行相似度计算之前，只召回相关的作为候选参数进行对比，因此，可以节省相似度对比的时间，提高相似度对比的效率，避免了对所有的参数都进行相似度对比造成的耗时耗力问题，而且，本申请在进行相似度计算时，综合考虑了参数的名称和参数的描述，将两者的综合作为待计算参数和候选参数的整体相似度，相似度计算的结果更准确，有利于数据对相似度高的参数进行加载。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请技术方案的示例性***架构框图。

图2示意性地示出了本申请数据相似度计算方法的流程图。

图3示意性地示出了本申请名称的相似度和描述相似度的计算方法流程图。

图4示意性地示出了本申请将参数名称转换成向量表示的方法流程图。

图5示意性地示出了本申请标准数据库进行更新和管理的方法流程图。

图6示意性地示出了本申请实施例提供的数据相似度计算装置的结构框图。

图7示意性地示出了用于实现本申请实施例的电子设备的计算机***结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

参数指数据库或者应用程序编程接口中的字段信息，在日常生活中，如何判断两个字段表达是否一致，有着的重要的意义。例如，可以应用于数据仓库技术(ETL)。ETL是将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程，在数据仓库技术(ETL)中，如果可以自动判断两个表中各个字段之间的相似关系，则可以进行数据相应字段的加载，而无须人工进行判断。

而对于参数相似度计算，往往牵扯到多种特征信息的融合，简单的规则无法判断出两个参数是否表达一致，需要人工进行判断，耗时耗力。而且，仅仅使用字段名称是否一致的规则进行判断时，忽略了字段类型，字段描述等信息，会造成相似度判断不准确的问题。

为了解决以上的问题，本申请公开了一种数据相似度计算方法、数据相似度计算装置、计算机可读介质以及电子设备。接下来具体介绍本申请这几个方面的内容。

如图1所示，***架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的***架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，即本申请可以利用终端设备110或服务器130进行数据相似度计算，也可以同时利用终端设备110和服务器130共同进行数据相似度计算。本申请对此不做特殊限定。

以上部分介绍了应用本申请技术方案的示例性***架构的内容，接下来继续介绍本申请的数据相似度计算方法。

根据本申请实施例的一个方面，图2示意性地示出了本申请数据相似度计算方法的流程图。如图2所示，本申请还提供一种数据相似度计算方法，具体包括步骤S210-步骤S240。

在步骤S210中：从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数，待计算参数包括参数名称和参数描述。

参数是指数据库或者应用程序编程接口(API)中的字段信息，一般包含字段名称、字段类型、默认值和字段描述。例如人口信息表中姓名(name)字段，它的字段名称为姓名(name)，字段类型为字符型(char型)，默认值为张三，字段描述为居民姓名。

而对于本申请待计算参数的获取，具体包括从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数；提取表格数据或JS对象简谱数据中的字段信息，作为待计算参数。

数据的形式有很多种，本申请需要进行相似度计算的数据主要来自两种类型，第一种是数据库形式的表格数据，该表格数据由有多个参数以及参数的属性组成。第二种是应用程序编程接口(API)形式的JS对象简谱数据(Json数据)，Json数据也由多个参数以及参数的属性组成。

本申请在接收数据时会自动切分表格数据和Json数据，然后分别从表格数据和Json数据中提取字段信息，得到待计算参数。例如，从表格信息中提取姓名(name)字段作为待计算参数，或从Json数据中提取对象字段，Json数据是一串使用特定的符号标注的字符串，其中，{}双括号表示对象，[]中括号表示数组。例如，{"name":"Michael"}可以理解为是一个包含name为Michael的对象。

通过以上步骤获得待计算参数之后，可以通过待计算参数获取到待计算参数的参数名称参数描述，继续步骤S220。

在步骤S220中：从标准数据库中召回与待计算参数相关的候选参数，获取候选参数的参数名称和参数描述。

标准数据库是预先定义好的参数的集合，是预先设定的一种数据标准体系。而进行相似度计算的一个具体应用场景就是将待计算的参数和标准数据库中的参数进行对比，如果相似度高，就可以直接将待计算参数映射到标准数据库中。映射完成之后，在利用ETL的过程中，可以将业务***的数据经过抽取、清洗转换之后加载到数据仓库中，实现将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。下面举一个例子进一步说明标准数据库的内容。

在银行的金融管理中，可以预先定义一个银行金融数据标准体系对应的标准数据库，该标准数据库中包括了用户的多类金融数据，例如，可以包括用户的贷款信息、存款信息、抵押信息或保险信息等，而以上各类信息都是以参数的形式保存在标准数据库中，例如，一条贷款信息对应的参数可以是：{字段名称：贷款姓名(loanName)，字段类型：字符型(char型)，默认值：张三，字段描述：贷款客户名称}；而一条存款信息对应的参数可以是{字段名称：存款姓名(depositName)，字段类型：字符型(char型)，默认值：李四，字段描述：存款客户名称}。构建完成标准数据库后，此时就可以对将待计算的参数和标准数据库中的参数进行对比，如果相似度高，就可以直接将待计算参数映射到标准数据库对应的类别中，例如，通过相似度计算，发现待计算参数与贷款信息对应类别相似度最高，此时就可以将该待计算参数映射到贷款信息对应的分类中。映射完成之后，在利用ETL的过程中，如果需要加载贷款信息对应的数据，此时就可以将业务***的数据经过抽取、清洗转换之后加载到数据仓库中，加载时，由于待计算参数已经被映射到贷款信息对应类别中，因此也可以将待计算参数一起加载出来。利用该方法可以实现将企业中的分散、零乱、标准不统一的数据整合到一起，方便企业对数据进行处理和归类。

而本申请进行相似度对比的基础并非是标准数据库中的所有参数，因为对于标准数据库而言，存在较多的数据类型，如果将标准数据库中的所有参数与待计算参数都进行对比，将大大的占用计算机的算力，同时会导致相似度计算时间变长，耗时耗力，而且效率还很低下。因此，本申请在进行相似度对比时，需要从标准数据库中召回与待计算参数相关的候选参数作为对比的对象，具体的召回方法如下。

在本申请的一个实施例中，从标准数据库中召回与待计算参数相关的候选参数的方法，包括：

分别从标准数据库中召回与待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。

本申请从标准数据库召回时，采用的是多路召回的方式，一般采用三路召回，即召回与待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。

参数类型指的是字段的类型，具体包括整型(int型)、字符型(char型)、浮点型(float型)、Java中的字符串类型(string型)等。本申请在召回时，会召回与待计算参数类型相同的参数，例如，待计算参数的类型是字符型(char型)。那么本申请会召回标准数据库所有类型是字符型(char型)的参数作为候选参数。

示例值同默认值，是字段的一个默认表示。本申请在召回时，会召回与待计算参数示例值相同的参数，例如，待计算参数的示例值是“张三”，那么，本申请会召回标准数据库所有示例值是“张三”的参数作为候选参数。

名称编辑距离，是指两个名称字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。对应本申请就是待计算参数的参数名称与标准数据库中参数的参数名称进行名称标记距离的计算，可以默认的将标准数据库中参数的参数名称通过编辑操作次数得到待计算参数的参数名称所需的最小编辑操作次数。将标准数据库中参数的最小编辑操作次数小于设定阈值的参数都召回。

通过以上的步骤，就可以召回多个参数作为与待计算参数进行相似度对比的候选参数，通过候选参数获取候选参数名称和候选参数描述。继续步骤S230。

在步骤S230中：计算待计算参数和候选参数的参数名称语义相似度，作为第一特征相似度，计算待计算参数和候选参数的参数描述语义相似度，作为第二特征相似度。

本申请计算相似度的方法是先将名称和描述转换成向量表示，然后再进行相似度计算，具体的方法如下：

图3示意性地示出了本申请名称的相似度和描述相似度的计算方法流程图。如图3所示，在本申请的一个实施例中，计算待计算参数和候选参数名称的参数名称语义相似度，以及计算待计算参数和候选参数的参数描述语义相似度的方法，包括步骤S310-步骤S320。

在步骤S310中：将待计算参数和候选参数的参数名称输入第一预训练模型进行向量化表示，得到待计算参数名称向量和候选参数名称向量，将待计算参数和候选参数的参数描述输入第二预训练模型进行向量化表示，得到待计算参数描述向量和候选参数描述向量。

本申请在步骤S220从标准数据库中召回与待计算参数相关的候选参数之后，并在步骤S310的向量化阶段之前，需要将单个的参数名称和参数描述分别输入到预训练模型中进行向量化，因此，每次都输入单个的参数名称和参数描述，例如，需要分别输入待计算参数名称和候选参数名称；这将会导致数据的输入和传输效率低，因此，为了提高数据的输入和传输的效率，还包括如下步骤。

在本申请的一个实施例中，本申请在步骤S220从标准数据库中召回与待计算参数相关的候选参数之后，本申请的方法还包括：

将待计算参数的参数和候选参数的参数名称进行拼接，拼接处用分隔符隔开，得到名称拼接特征；

将待计算参数的参数和候选参数的参数描述进行拼接，拼接处用分隔符隔开，得到描述拼接特征；

将名称拼接特征输入第一预训练模型进行向量化表示，将描述拼接特征输入第二训练模型进行向量化表示。

利用分隔符分隔，将拼接完成的将待计算参数的参数名称和候选参数的参数名称输入到预训练模型中，就可以有效的提高输入的效率，同时有利于将待计算参数的参数和候选参数的参数名称以及待计算参数和候选参数的参数描述转换成向量表示，而且由于有分隔符的存在，将名称拼接特征转换成向量之后，还可以通过分隔符将待计算参数的参数和候选参数对应的向量分开。本申请具体的转换向量表示的方法如下。

在本申请的一个实施例中，如图4所示，图4示意性地示出了本申请将参数名称转换成向量表示的方法流程图。将待计算参数和候选参数的参数名称输入第一预训练模型进行向量化表示，得到待计算参数名称向量和候选参数名称向量的方法，包括步骤S410-步骤S430。

步骤S410：将待计算参数和候选参数的参数名称输入第一预训练模型进行嵌入表示，嵌入表示用于将待计算参数和候选参数的参数名称分别转换成待计算名称三维向量和候选名称三维向量。

本申请的第一预训练模型可以使用Bert模型这一深度学习模型，BERT是“Bidirectional Encoder Representations from Transformers”的首字母缩写，整体是一个自编码语言模型(Autoencoder LM)，代表Transformer的双向编码器表示。与最近的其他语言表示模型不同，BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。而本申请将待计算参数名称和候选参数名称输入第一预训练模型进行嵌入(embedding)表示。对于Bert模型，可以通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示。即本申请利用Bert模型的嵌入表示，可以将待计算参数名称和候选参数名称映射到一个向量上，而向量是在在低维的嵌入空间中，因此向量对应的待计算参数名称和候选参数名称之间可以计算相似度。

本申请利用Bert模型的进行深度学习的任务就是把高维原始数据(图像，句子)映射到低维流形，使得高维的原始数据被映射到低维流形之后变得可分，而这个映射就叫嵌入(Embedding)。例如，单词嵌入(Word Embedding)，就是把单词组成的句子映射到一个表征向量。而本申请是利用Bert模型将待计算参数名称和候选参数名称利用分隔符拼接后转换成一个B*L*D的三维矩阵向量的形式，其中B代表训练的BatchSize(批量大小)，L代表SeqLen，即文本的长度，D代表dim，向量的维度，可以为768。因此，通过Bert模型的嵌入表示，就可以将待计算参数的参数名称和候选参数的参数名称转换成三维矩阵向量的形式，得到三维矩阵向量继续进行步骤S420。

步骤S420：对待计算名称三维向量和候选名称三维向量进行切分，得到待计算名称一维向量和候选名称一维向量。

本申请具体的切分方法是将B*L*D的三维矩阵向量在L维度进行切分，分别得到待计算名称一维向量和候选名称一维向量。在L维度进行切分，即通过文本的长度方向进行切分，所得到的一维向量更有利于计算相似度，而且在L维度进行切分，得到的向量更能体现待计算参数名称或候选参数名称的特征，因此，本申请为了提高相似度计算的效率，将通过Bert模型嵌入表示得到的三维矩阵向量切分为一维向量，再进行步骤S430。

步骤S430：利用长短期记忆模型分别对待计算名称一维向量和候选名称一维向量进行序列化建模，得到待计算参数名称向量和候选参数名称向量。

长短期记忆模型(LSTM模型)是一种深度学习模型，它的特点是具有时间循环结构，可以很好地刻画具有时空关联的序列数据，包括时间序列数据(气温、车流量、销量等)、文本、事件(购物清单、个人行为)等等。可以这样简单地理解LSTM：它是一种基于神经网络的自回归模型。而本申请利用LSTM模型分别对待计算名称一维向量和候选名称一维向量进行序列化建模。序列化建模的作用是保存对象在内存中的状态也可以说是实例化变量，在本申请中，系列化建模即保存了计算参数名称一维向量和候选名称一维向量的状态，得到待计算参数名称向量和候选参数名称向量。而进行序列化建模之后，后续需要读取时，可以直接将待计算参数名称和候选参数名称的向量状态直接读取出来。

通过以上步骤就可以实现将待计算参数名称和候选参数名称向量化，而对于待计算参数描述和候选参数描述向量化的方式同步骤S410-步骤S430。只是其中运用的Bert模型不同，对于参数来说，其名称和描述经常是英文和中文的关系，在此情况下，本申请在进行待计算参数描述和候选参数描述向量化的过程中，可以将以上Bert模型替换成中文的Bert模型，以实现对待计算参数描述和候选参数描述向量化，当然，对于某些描述信息较长，描述代表参数的含义特征等，此时可以利用其它的Bert模型来进行预训练，实现待计算参数描述和候选参数描述的向量化。

通过以上步骤就可以得到待计算参数名称向量和候选参数名称向量以及待计算参数描述向量和候选参数描述向量，可以继续步骤S320。

在步骤S320中：利用余弦相似度算法计算待计算参数名称向量和候选参数名称向量的相似度，得到第一特征相似度；利用余弦相似度算法计算待计算参数描述向量和候选参数描述向量的相似度，得到第二特征相似度。

其中，余弦相似度算法对应的公式如下：

其中similarity代表相似度，A代表待计算参数名称向量，B代表候选参数名称向量，|A|代表A的绝对长度，利用以上公式就可以分别计算出待计算参数名称向量和候选参数名称向量的相似度和待计算参数描述向量和候选参数描述向量的相似度，得到第一特征相似度和第二特征相似度。

由于第一特征相似度和第二特征相似度分别对应的是待计算参数和候选参数名称和描述之间的相似度，而名称和描述两者本身差异较大，因此，本申请为了使第一特征相似度和第二特征相似度的区别减小，本申请得到第一特征相似度和第二特征相似度之后，还包括如下步骤，

在本申请的一个实施例中，将第一特征相似度和第二特征相似度通过Sigmoid函数(激活函数)进行映射，Sigmoid函数常被用作神经网络的激活函数，其作用是将变量映射到0-1区间，该值即为两个数据的相似度概率值，该值越接近于1，代表两个数据越相似。其中Sigmoid函数公式如下：

本申请分别将第一特征相似度和第二特征相似度利用Sigmoid函数进行映射，得到两个位于0-1区间的值，此时，这两个值相比步骤S320计算得到的值更为接近，更有利于得到待计算参数和候选参数的相似度。当然，本申请利用Sigmoid函数映射是一种替代方案，即本申请可以不经过Sigmoid函数映射而直接进行步骤S240。

通过以上方法分别得到第一特征相似度和第二特征相似度，就可以继续步骤S240。

在步骤S240中：基于第一特征相似度和第二特征相似度，得到待计算参数和候选参数的整体相似度。

通过步骤S230获得了第一特征相似度和第二特征相似度两个数值，其中，如果通过Sigmoid函数映射，得到的是两个0-1区间的值，此时就可以通过将第一特征相似度和第二特征相似度进行数学运算得到待计算参数和候选参数的整体相似度。其中可以通过将第一特征相似度和第二特征相似度求和或求平均数或求方差的方法得到待计算参数和候选参数的整体相似度。

通过以上方法就可以得到待计算参数和候选参数的整体相似度，基于该相似度就可以获得与待计算参数相似的候选参数的信息。

在本申请的一个实施例中，在基于第一特征相似度和第二特征相似度，得到待计算参数和候选参数的整体相似度之后，所述方法还包括将候选参数按照相似度排序。

通过步骤S240得到相似度后，就可以将候选参数按相似度大小，从上到下排序，将与待计算参数最相似的放在最前面，因此，就可以得到与待计算参数相似的若干候选参数，实现从标准数据库中寻找待计算参数相似的参数的功能。

本申请在获得待计算参数与候选参数的相似度之后，还会对标准数据库进行更新和管理具体的方法如下。

在本申请的一个实施例中，如图5所示，图5示意性地示出了本申请标准数据库进行更新和管理的方法流程图。在基于第一特征相似度和第二特征相似度，得到待计算参数和候选参数的整体相似度之后，方法还包括步骤S510-步骤S520：

步骤S510：将相似度大于相似度阈值对应的待计算参数作为待映射参数，将待映射参数映射到候选参数中。

相似度阈值可以根据标准数据库中数据分类的多少或数据分类的精细程度来决定，如果标准数据库需要更少的数据分类，即每一类数据之间相似度极大，此种情况下，数据分类比较不精确，因此，此时的相似度阈值就设定的较小，只要满足一定的相似度，都可以将待计算参数进行归类。例如，标注数据库中有一个贷款信息类别的参数集合，若将相似度阈值设置的很小，通过步骤S240的计算得到的相似度如果大于该相似度阈值，那么就将待计算参数作为贷款信息类别的一部分。相反的，本申请的标准数据库如果需要更多的分类，而且每一类相对较为精确，即标准数据库中不同类的参数都存在一定的相似度，此时，就需要将相似度阈值设定较大，以提高区别。

本申请对于标准数据库更新的方法是对于相似度大于相似度阈值对应的待计算参数作为待映射参数，直接将待映射参数映射到候选参数中。通过该步骤，后期数据库在进行加载时，同样会加载本申请新映射到候选参数对应类别中的待映射参数，因此，通过该步骤就实现了数据的自动归类，实现将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

其中，本申请在进行映射时，如果满足条件的相似度较多时，可以同时将待计算参数映射到多个候选参数对应类别中。例如，通过相似度排序得到了前三个相似度都大于相似度阈值，此时，就可以将待计算参数同时映射到前三个候选参数对应的分类中。

而本申请也可以直接映射到相似度最高的候选参数对应的类别中，实现一个待计算参数一次映射，对此本申请不做限制。

步骤S510是对应的是相似度大于相似度阈值的步骤，而当相似度小于相似度阈值时，具体如步骤S520。

步骤S520：将相似度小于相似度阈值对应的待计算参数作为添加参数，将添加参数添加到标准数据库中。

本申请对于相似度小于相似度阈值对应的待计算参数作为添加参数，添加到标准数据库中，此时，对应的添加参数就可以自成一类，作为后续的参数进行相似度计算的基础，而通过后续重复的进行参数相似度计算，本申请的标准数据库中的分类也会不断的丰富，而且每个分类中的参数数量也会不断增多，从而实现标准数据库的不断更新和完善。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本申请实施例提供的技术方案中，本申请通过从标准数据库中召回和待计算参数相关的候选参数，然后分别计算待计算参数和候选参数名称语义相似度作为第一特征相似度和描述语义相似度作为第二特征相似度，然后利用第一特征相似度和第二特征相似度，得到待计算参数和候选参数的相似度，利用以上方法计算相似度，由于进行相似度计算之前，只召回相关的作为候选参数进行对比，因此，可以节省相似度对比的时间，提高相似度对比的效率，避免了对所有的参数都进行相似度对比造成的耗时耗力问题，而且，本申请在进行相似度计算时，综合考虑了参数的名称和参数的描述，将两者的综合作为待计算参数和候选参数的整体相似度，相似度计算的结果更准确，有利于数据对相似度高的参数进行加载。利用本申请的技术方案可以实现将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

以上部分介绍了本申请数据相似度计算方法的内容，接下来继续介绍本申请数据相似度计算装置的内容。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的数据相似度计算方法。图6示意性地示出了本申请实施例提供的数据相似度计算装置的结构框图。如图6所示，

根据本申请实施例的一个方面，提供一种数据相似度计算装置600，包括：

参数提取模块610，被配置为从数据库形式的表格数据或应用程序编程接口形式的JS对象简谱数据中获取待计算参数，待计算参数包括参数名称和参数描述；

候选模块620，被配置为从标准数据库中召回与待计算参数相关的候选参数，获取候选参数的参数名称和参数描述；

特征相似度计算模块630，被配置为计算待计算参数和候选参数的参数名称语义相似度，作为第一特征相似度，计算待计算参数和候选参数的参数描述语义相似度，作为第二特征相似度；

相似度计算模块640，被配置为基于第一特征相似度和第二特征相似度，得到待计算参数和候选参数的整体相似度。

在本申请的一些实施例中，基于以上技术方案，候选模块620被配置为分别从标准数据库中召回与待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。

在本申请的一些实施例中，基于以上技术方案，特征相似度计算模块630包括：

名称拼接单元，被配置为将待计算参数和候选参数的参数名称进行拼接，拼接处用分隔符隔开，得到名称拼接特征；

描述拼接单元，被配置为将待计算参数和候选参数的参数描述进行拼接，拼接处用分隔符隔开，得到描述拼接特征；

向量化表示单元，被配置为将名称拼接特征输入第一预训练模型进行向量化表示，将描述拼接特征输入第二训练模型进行向量化表示。

在本申请的一些实施例中，基于以上技术方案，特征相似度计算模块630还包括：

向量转化单元，被配置为将待计算参数和候选参数的参数名称输入第一预训练模型进行向量化表示，得到待计算参数名称向量和候选参数名称向量，将待计算参数和候选参数的参数描述输入第二预训练模型进行向量化表示，得到待计算参数描述向量和候选参数描述向量；

特征相似度计算单元，被配置为利用余弦相似度算法计算待计算参数名称向量和候选参数名称向量的相似度，得到第一特征相似度；利用余弦相似度算法计算待计算参数描述向量和候选参数描述向量的相似度，得到第二特征相似度。

在本申请的一些实施例中，基于以上技术方案，向量转化单元包括：

嵌入单元，被配置为将待计算参数和候选参数的参数名称输入第一预训练模型进行嵌入表示，嵌入表示用于将待计算参数和候选参数的参数名称分别转换成待计算名称三维向量和候选名称三维向量；

切分单元，被配置为对待计算名称三维向量和候选名称三维向量进行切分，得到待计算名称一维向量和候选名称一维向量；

激活单元，被配置为利用激活函数将第一特征相似度和第二特征相似度映射，激活函数用于将变量映射到0-1区间。

在本申请的一些实施例中，基于以上技术方案，数据相似度计算装置600还包括数据更新模块，数据更新模块包括：

映射单元，被配置为将相似度大于相似度阈值对应的待计算参数作为待映射参数，将待映射参数映射到候选参数中；

添加单元，被配置为将相似度小于相似度阈值对应的待计算参数作为添加参数，将添加参数添加到标准数据库中。

本申请各实施例中提供的数据相似度计算装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

以上部分介绍了本申请数据相似度计算装置的内容，接下来继续介绍本申请其它方面的内容。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器被配置为经由执行可执行指令来执行如以上技术方案中的数据相似度计算方法。

需要说明的是，图7示出的电子设备的计算机***700仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理器701(Central Processing Unit，CPU)，其可以根据存储在只读存储器702(Read-Only Memory，ROM)中的程序或者从存储部分708加载到随机访问存储器703(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器703中，还存储有***操作所需的各种程序和数据。中央处理器701、在只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705(Input/Output接口，即I/O接口)也连接至总线704。

以下部件连接至输入/输出接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种数据相似度计算方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据相似度计算方法，其特征在于，从标准数据库中召回与所述待计算参数相关的候选参数，包括：

分别从标准数据库中召回与所述待计算参数类型相同、示例值相同或名称编辑距离小于设定阈值的参数作为候选参数。

3.根据权利要求1所述的数据相似度计算方法，其特征在于，在从标准数据库中召回与所述待计算参数相关的候选参数之后，所述方法还包括：

将所述待计算参数和所述候选参数的参数名称进行拼接，拼接处用分隔符隔开，得到名称拼接特征；

将所述待计算参数和所述候选参数的参数描述进行拼接，拼接处用分隔符隔开，得到描述拼接特征；

将所述名称拼接特征输入第一预训练模型进行向量化表示，将所述描述拼接特征输入第二训练模型进行向量化表示。

4.根据权利要求1所述的数据相似度计算方法，其特征在于，计算所述待计算参数和所述候选参数的参数名称语义相似度，作为第一特征相似度，计算所述待计算参数和所述候选参数的参数描述语义相似度，作为第二特征相似度，包括：

将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行向量化表示，得到待计算参数名称向量和候选参数名称向量，将所述待计算参数和所述候选参数的参数描述输入第二预训练模型进行向量化表示，得到待计算参数描述向量和候选参数描述向量；

利用余弦相似度算法计算所述待计算参数名称向量和所述候选参数名称向量的相似度，得到第一特征相似度；

利用余弦相似度算法计算所述待计算参数描述向量和所述候选参数描述向量的相似度，得到第二特征相似度。

5.根据权利要求4所述的数据相似度计算方法，其特征在于，将所述待计算参数名称和所述候选参数名称输入第一预训练模型进行向量化表示，得到待计算参数名称向量和候选参数名称向量，包括：

将所述待计算参数和所述候选参数的参数名称输入第一预训练模型进行嵌入表示，所述嵌入表示用于将所述待计算参数和所述候选参数的参数名称分别转换成待计算名称三维向量和候选名称三维向量；

对所述待计算名称三维向量和所述候选名称三维向量进行切分，得到待计算名称一维向量和候选名称一维向量；

利用长短期记忆模型分别对待计算名称一维向量和候选名称一维向量进行序列化建模，得到待计算参数名称向量和候选参数名称向量。

6.根据权利要求4所述的数据相似度计算方法，其特征在于，在得到第一特征相似度和第二特征相似度之后，所述方法还包括：

利用激活函数将所述第一特征相似度和第二特征相似度映射，所述激活函数用于将变量映射到0-1区间。

7.根据权利要求1所述的数据相似度计算方法，其特征在于，在基于所述第一特征相似度和第二特征相似度，得到所述待计算参数和所述候选参数的整体相似度之后，所述方法还包括：

将所述相似度大于相似度阈值对应的待计算参数作为待映射参数，将所述待映射参数映射到所述候选参数中；

将所述相似度小于相似度阈值对应的待计算参数作为添加参数，将所述添加参数添加到所述标准数据库中。

8.一种数据相似度计算装置，其特征在于，包括：

9.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的数据相似度计算方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的数据相似度计算方法。