CN105893349A

CN105893349A - 类目标签匹配映射方法及装置

Info

Publication number: CN105893349A
Application number: CN201610195707.1A
Authority: CN
Inventors: 方庆安; 范羽; 崔世起
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-24
Anticipated expiration: 2036-03-31
Also published as: CN105893349B

Abstract

本发明实施例提供一种类目标签匹配映射方法及装置，该方法包括：获取源类目标签的标签信息和目标类目标签的标签信息；根据标签字符串，分别确定各源类目标签和各目标类目标签的字面相似度；根据标签信息得到标签的向量化信息，结合标签路径信息，分别确定各源类目标签和各目标类目标签的语义相似度；根据标签路径信息，分别确定各源类目标签和各目标类目标签的结构相似度；根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出相似度符合设定条件的源类目标签和目标类目标签，建立映射关系。能够实现快速、准确的标签相似度匹配和标签映射，匹配映射的效率高，不需要人工参与，节约人力物力财力。

Description

类目标签匹配映射方法及装置

技术领域

本发明涉及互谅网数据处理技术领域，尤指一种用于数据管理平台(DataManagementPlatform，DMP)的类目标签匹配映射方法及装置。

背景技术

在大数据时代，数据管理平台(DMP)成为互联网广告领域、个性化推荐领域必不可少一部分，主要用于存储用户浏览行为、用户兴趣以及物品属性等，以便提供更好的个性化服务。然而由于DMP技术的复杂性，大部分需要处理这些用户数据的网站或企业等，会将数据提供给第三方数据管理平台进行加工处理，以方便应用。

因此，第三方数据管理平台会接受来自不同网站或者企业的用户数据，统一提供数据处理服务。而这些用户数据来自不同的网站和企业，即使相同性质或类别的用户数据，其标签可能也不尽相同，因此，对标签进行归一化则成为需要解决的问题。第三方数据管理平台接收到企业或网站的用户数据时会进行加工处理，将用户数据统一映射到相同的类目体系下，以便提供更精准的服务；

目前实现标签归一化的解决方案有：

1)通过字面相似度或者近义词扩展进行标签映射；

2)给定两个类目树结构，人工逐一映射。

现有标签归一化的解决方案存在以下问题：

1)通过字面相似度或者近义词表进行标签映射，召回率比较低，而且没有考虑到语义信息可能会导致匹配错误，例如手机品牌-苹果与水果-苹果，两个苹果标签进行映射时，就会发送错误。

2)通过人工映射缺点消耗人力，比如两个1000节点的标签树，就需要人工映射100W次。

可见，现有的标签归一化解决方案容易出现匹配错误，匹配映射的准确度低，且耗时耗力，匹配映射的速度和效率低。

发明内容

本发明实施例提供一种类目标签匹配映射方法及装置，用以解决现有技术中存在的标签归一化过程中匹配准确度低，耗时耗力，匹配映射速度和效率低的问题，能够实现快速、准确的标签相似度匹配及标签映射，节约人力物力财力。

一方面，本发明实施例提供一种类目标签匹配映射方法，包括：

获取源类目标签的标签信息和目标类目标签的标签信息；

根据标签信息中包括的标签字符串，分别确定各源类目标签和各目标类目标签的字面相似度；

根据标签信息得到标签的向量化信息，根据标签的向量化信息和标签信息中包括的标签路径信息，分别确定各源类目标签和各目标类目标签的语义相似度；

根据标签信息中包括的标签路径信息，结合字面相似度和语义相似度，分别确定各源类目标签和各目标类目标签的结构相似度；

根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出相似度符合设定条件的源类目标签和目标类目标签，建立映射关系。

在一些可选的实施例中，通过下列方式中的至少一种确定源类目标签和目标类目标签的字面相似度：

根据标签信息中包括的标签字符串是否相同或相近，确定两个标签的字面相似度；

根据标签信息中包括的标签字符串中的分词是否是同义词，确定两个标签的字面相似度；

根据标签信息中包括的标签字符串前缀的相似比例，确定两个标签的字面相似度；

计算两个标签字符串的N元文法N-gram相似度，得到两个标签的字面相似度；

计算两个标签的编辑距离相似度，得到两个标签的字面相似度；

根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子串LCS相似度。

在一些可选的实施例中，通过下列方式中的至少一种确定源类目标签和目标类目标签的语义相似度：

计算源类目标签和目标类目标签的杰卡德Jaccard相似度：获取源类目标签的向量化信息和目标类目标签的向量化信息，计算两个向量Jaccard相似度，作为所述语义相似度；

计算源类目标签和目标类目标签的余弦相似度：获取源类目标签的向量化信息和目标类目标签的向量化信息，计算两个向量余弦相似度，作为所述语义相似度；

计算源类目标签和目标类目标签的向量点互信息相似度，作为所述语义相似度；

基于源类目标签和目标类目标签的词向量，计算源类目标签和目标类目标签的语义相似度；

基于主题模型，计算源类目标签和目标类目标签的语义相似度；

基于机器学习算法，确定源类目标签和目标类目标签的语义相似度。

在一些可选的实施例中，确定源类目标签和目标类目标签的结构相似度的过程，具体包括：

根据源类目标签的标签路径信息和目标类目标签的标签路径信息，获取标签路径信息中的父节点信息、子节点信息和兄弟节点信息；以及根据字面相似度和语义相似度确定基础相似度；

基于父节点信息，根据基础相似度计算源类目标签和目标类目标签的祖先节点相似度；

基于子节点信息，根据基础相似度计算源类目标签和目标类目标签的子孙节点相似度；

基于兄弟节点信息，根据基础相似度计算源类目标签和目标类目标签的兄弟节点相似度；

根据祖先节点相似度、子孙节点相似度和兄弟节点相似度，采用设定的加权规则或选择规则，确定源类目标签和目标类目标签的结构相似度。

在一些可选的实施例中，根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出相似度符合设定条件的目标类目标签，建立映射关系，具体包括：

针对每个源类目标签，获取与该源类目标签字面相似度最大的第一设定数量的目标类目标签；从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定数量的目标类目标签，第二设定数量小于第一设定数量；从获取到的目标类目标签中获取与该源类目标签结构相似度最大的目标类目标签，并建立映射关系；或

针对每个源类目标签，获取与该源类目标签结构相似度最大的目标类目标签，建立映射关系；或

获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值，且结构相似度大于第三相似度阈值的标签对，为标签对中包括的源类目标签和目标类目标签建立映射关系；或

获取结构相似度大于第三相似度阈值的标签对，为标签对中包括的源类目标签和目标类目标签建立映射关系。

在一些可选的实施例中，获取源类目标签的标签信息和目标类目标签的标签信息之后，还包括：

对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作，过滤掉无用词。

另一方面，本发明实施例提供一种类目标签匹配映射装置，包括：

信息获取模块，用于获取源类目标签的标签信息和目标类目标签的标签信息；

第一确定模块，用于根据标签信息中包括的标签字符串，分别确定各源类目标签和各目标类目标签的字面相似度；

第二确定模块，用于根据标签信息得到标签的向量化信息，根据标签的向量化信息和标签信息中包括的标签路径信息，分别确定各源类目标签和各目标类目标签的语义相似度；

第三确定模块，用于根据标签信息中包括的标签路径信息，结合字面相似度和语义相似度，分别确定各源类目标签和各目标类目标签的结构相似度；

匹配映射模块，根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出相似度符合设定条件的源类目标签和目标类目标签，建立映射关系。

在一些可选的实施例中，所述第一确定模块，具体用于通过下列方式中的至少一种确定源类目标签和目标类目标签的字面相似度：

计算两个标签字符串的N-gram相似度，得到两个标签的字面相似度；

在一些可选的实施例中，所述第二确定模块，具体用于通过下列方式中的至少一种确定源类目标签和目标类目标签的语义相似度：

在一些可选的实施例中，所述第三确定模块，具体用于：

在一些可选的实施例中，所述匹配映射模块，具体用于：

在一些可选的实施例中，所述信息获取模块，还用于：

获取源类目标签的标签信息和目标类目标签的标签信息之后，对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作，过滤掉无用词。

上述技术方案具有如下有益效果：通过源类目标签的标签信息和目标类目标签的标签信息，分别确定源类目标签和目标类目标签的字面相似度、语义相似度和结构相似度，综合考虑字面相似度、语义相似度和结构相似度选择相似度匹配最好的源类目标签和目标类目标签，进行归一化映射，从而使得匹配映射的准确性更好，有效的去处歧义保证准确率；此外该方法能够自动化的实现标签的匹配映射不需要人工处理，省时省力，处理速度和效率也比较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中源类目标签和目标类目标签映射的树状结构示例图；

图2是本发明实施例一中类目标签匹配映射方法的流程图；

图3是本发明实施例二中类目标签匹配映射方法的流程图；

图4是本发明实施例语义相似度确定一种可选流程图；

图5是本发明实施例结构相似度确定一种可选流程图；

图6是本发明实施例中类目标签匹配映射装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中标签归一化过程中存在的匹配准确度低，耗时耗力的问题，本发明实施例提供一种类目标签匹配映射方法，该方法能够实现自动化的标签归一化处理，快速、准确的实现标签相似度匹配及标签的映射。下面通过具体的实施例进行详细描述。

先介绍一下类目标签的类目体系架构。如图1所示为源类目标签和目标类目标签映射的树状结构图示例。

图1中源类目标签体系的结构和目标类目标签体系的结构分别示意为树状结构。比如：其中一个标签体系，假设源类目标签体系，根节点下，有“Mobile”和“蔬菜”两个标签；“Mobile”标签下，有“Iphone”和“XiaoMi”两个标签；“蔬菜”标签下，有“苹果”这一个标签。另一个标签体系，假设目标类标签体系，根节点下，有“手机”和“水果”两个标签；“手机”标签下，有“苹果”和“小米”两个标签；“水果”标签下，有“苹果”这一个标签。

标签归一化映射的输出为源类目标签结构体系中的标签一一映射或者一对多映射到目标类目标签结构体系中的标签上。如图1中，“Mobile”映射到“手机”、“Mobile”下边的“Iphone”映射到“手机”下边的“苹果”、“Mobile”下边的“XiaoMi”映射到“手机”下边的“小米”、“蔬菜”下边的“苹果”映射到“水果”下边的“苹果”、……等等。

实施例一

本发明实施例提供一种类目标签相似度匹配方法，其流程如图2所示，包括如下步骤：

步骤S101：获取源类目标签的标签信息和目标类目标签的标签信息。

获取源类目标签体系中和目标类目标签中各标签的标签信息，其中标签信息至少包括下列信息之一：标签字符串、标签的向量化信息、标签路径信息、标签的节点信息。标签的节点信息可以包括子节点信息、父节点信息、兄弟节点信息等信息中的一个或多个。

步骤S102：根据标签信息中包括的标签字符串，分别确定各源类目标签和各目标类目标签的字面相似度。

该步骤主要针对标签数据进行初级或者第一层标签相似度计算，主要是基于标签的字面相似度算法，产出各个源类目标签到目标类目标签的字面相似度。属于第一层级的相似度确定。

通过下列方式中的至少一种确定源类目标签和目标类目标签的字面相似度：

根据标签信息中包括的标签字符串中的分词是否是同义词，确定两个标签的字面相似度：

计算两个标签字符串的N元文法(N-gram)相似度，得到两个标签的字面相似度；

根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子串(Longest Common Subsequence，LCS)相似度。

步骤S103：根据标签信息得到标签的向量化信息，根据标签的向量化信息和标签信息中包括的标签路径信息，分别确定各源类目标签和各目标类目标签的语义相似度。

该步骤主要针对标签数据进行中级或者第二层标签相似度计算，主要是基于标签的语义相似度算法，产出各个源类目标签到目标类目标签的语义相似度。属于第二层级的相似度确定。

通过下列方式中的至少一种确定源类目标签和目标类目标签的语义相似度：

计算源类目标签和目标类目标签的杰卡德(Jaccard)相似度，具体包括：获取源类目标签的向量化信息和目标类目标签的向量化信息，计算两个向量Jaccard相似度，作为所述语义相似度；此处一般可以计算两个标签向量的直接的Jaccard相似度；

计算源类目标签和目标类目标签的余弦相似度，具体包括：获取源类目标签的向量化信息和目标类目标签的向量化信息，计算两个向量余弦相似度；此处一般可以计算两个标签向量的直接的余弦相似度，作为所述语义相似度；

计算源类目标签和目标类目标签的向量点互信息相似度(PointwiseMutual Information，PMI)，作为所述语义相似度；

步骤S104：根据标签信息中包括的标签路径信息，结合字面相似度和语义相似度，分别确定各源类目标签和各目标类目标签的结构相似度。

该步骤主要针对标签数据进行高级或者第三层标签相似度计算，主要是基于标签的结构相似度算法，产出各个源类目标签到目标类目标签的结构相似度。属于第三层级的相似度确定。结构相似度计算的可选确定方式可以通过下列结构相似度中的至少一个进行确定：祖先节点相似度、子孙节点相似度和兄弟节点相似度。

一种可选的确定结构相似度的方案如下：

上述基础相似度可以从语义相似度和字面相似度中选择其一，例如选择较大的一个；也可以两者加权计算得到，例如各自乘以加权系数求和。

基于标签父节点的相似度进行加权，即标签节点对的祖先节点相似度越大，该标签节点对相似度越大；基于标签子节点相似度进行加权，即标签节点对的子孙节点相似度越大，该标签节点对相似度越大；基于标签兄弟节点相似度进行加权，即标签节点对的兄弟节点相似度越大，该标签节点对相似度越大。

上述可选方式，对祖先节点相似度、子孙节点相似度和兄弟节点相似度进行加权处理，可以设定每个相似度的加权比例，确定一个综合的结构相似度，也可以选择其中西安四度最大的作为结构相似度。其中设定每个相似度的加权比例时，其加权比例可以为0，比如说兄弟节点相似度加权比例为0，此时其实意味着仅通过祖先节点相似度、子孙节点相似度来进行加权确定标签的结构相似度。

上述可选方式，也可以根据选择规则，选择祖先节点相似度、子孙节点相似度和兄弟节点相似度较大的一个作为结构相似度。

步骤S105：根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出符合设定条件的源类目标签和目标类目标签，建立映射关系。

该步骤中，可以根据设定的选择规则，根据字面相似度、语义相似度和结构相似度中的一个或几个选择符合条件的源类目标签和目标类目标签。较优选的，根据各源类目标签与各目标类目标签的结构相似度，或根据结构相似度并结合字面相似度和语义相似度中的至少一个，选择出相似度符合设定条件的源类目标签和目标类目标签，建立映射关系。

根据该源类目标签与每个目标类目标签的字面相似度、语义相似度和结构相似度建立标签映射关系时，可以根据设定的规则实现映射，规则可以根据需要设定筛选相似度最好的两个标签的收敛条件，当收敛条件满足时，确定两个标签之间的映射关系。例如：可以对字面相似度、语义相似度和结构相似度进行加权，确定综合相似度最大的标签对，也可以设定一定的筛选规则，选择其中某一个相似度最大的标签对，等等，当然不限于该步骤中所述的方式，具体可以根据需要设定不同的规则，实现建立映射关系。

建立源类目标签和目标类目标签的映射关系时，具体可以采用下列过滤原理中的一种或多种，以输出标签映射关系：

可以根据专家知识进行标签对过滤，得到符合条件的标签对，建立映射关系；

可以根据规则进行标签对过滤，得到符合条件的标签对，建立映射关系；

可以根据阈值进行标签对过滤，得到符合条件的标签对，建立映射关系；

也可以选择相似度最好的标签对作为最后映射关系的输出。

具体实现过程中，建立映射关系的一些可选实现方式如下：

实施例二

本发明实施例二提供的类目标签匹配映射方法，其流程如图3所示，包括如下步骤。

步骤S201：获取源类目标签的标签信息和目标类目标签的标签信息。

步骤S202：对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作，过滤掉无用词。

对获取的源类目标签的标签信息和目标类目标签的标签信息进行数据预处理，以便减少后续的不必要处理，进一步提高后续处理的速度。对标签信息进行分词操作，将复杂的短语结构分解为单个词级别，例如手机品牌，分解为手机、品牌两个词；对分词进行过滤，将无用的词过滤掉，比如：一些垃圾词或无意义的词，例如“的”、“地”、“我”等都可以过滤去掉；

可选的，也可以在该步骤中将标签的各个节点信息提炼出来，例如将标签的父节点信息、兄弟节点信息以及子节点信息等计算确定出来，例如图2中的标签“手机”的子节点包括“苹果”和“小米”。

可选的，该步骤中还可以进行其他初始化操作，比如：加载词向量词典、主题模型等。

步骤S203：确定源类目标签和目标类目标签的字面相似度。

参考步骤S103，分别确定出源类目标签体系中每个源类目标签与目标类目标签体系中每个目标类目标签的字面相似度。

步骤S204：确定源类目标签和目标类目标签的语义相似度。

参考步骤S104，分别确定出源类目标签体系中每个源类目标签与目标类目标签体系中每个目标类目标签的语义相似度。

步骤S205：确定源类目标签和目标类目标签的结构相似度。

参考步骤S105，分别确定出源类目标签体系中每个源类目标签与目标类目标签体系中每个目标类目标签的结构相似度。

确定源类目标签和目标类目标签的结构相似度时，可以根据基础相似度，建立标签之间的相似度对应表，根据对应表中的基础相似度分别确定源类目标签和目标类目标签的结构相似度，若计算结构相似度时，由于其父节点、子节点或兄弟节点的相似度暂时不存在而不能得到符合收敛条件的结果时，可以在一轮结构相似度结算完毕，用已得到源类目标签和目标类目标签的结构相似度更新对应表中的基础相似度。进行下一轮的结构相似度计算，直到得到满足收敛条件的结果。

例如下表1所示：

表1

表1中，“/”表示未知，数值表示基础相似度。

步骤S206：针对每个源类目标签，执行如下步骤：

步骤S207：筛选出与该源类目标签字面相似度最大的第一设定数量的目标类目标签。

步骤S208：获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定数量的目标类目标签。

步骤S209：从获取到的目标类目标签中获取与该源类目标签结构相似度最大的目标类目标签。

步骤S210：建立源类目标签和目标类目标签的映射关系。

通过上述过程可以针对源类目标签体系中的标签和目标类目标签体系中的标签建立起一对一或一对多的映射关系，形成若干具有映射关系的标签对。

本发明实施例中计算标签分布式表示的一种可选方法，考虑标签语义和标签结构化信息，其流程如图4所示，可以将标签的分布式表示结果用于语义相似度确定。该标签分布式表示的实现过程包括如下步骤：

步骤S301：获取源类目体系和目标类目体系中的各个标签，将各个标签向量化表示，得到标签的向量化信息。

该步骤获取输入数据，输入数据为两个标签类目体系中的各个标签，最终给出这些标签的一个向量化表示，例如手机表示为向量(0.1，0.3，0.25，0.25，0.1)，当计算标签的语义相似度时，以余弦相似度为例，最终计算两个标签的语义相似度转换为计算两个向量的余弦相似度。

步骤S302：加载基础词语向量化词典，得到标签的基础词向量表示。

该词典的获取可能包括下列方式之一：

基于神经网络训练词向量模型，即word2vector模型；

基于词语全局统计信息得到词向量模型，即Global2Vector；

基于主题模型得到词语在主题上分布，也是一种向量化表示，主题模型可能基于潜在语义索引(Latent Semantic Indexing，LSI)、概率潜在语义索引(Probabilistic LatentSemanticIndexing，PLSI)或者潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)、深度学习等中的一种。

步骤S303：生成标签的节点信息。

根据类目标签中的标签信息，获取每个标签节点的所有父节点，可以采用深度优先、宽度优先遍历算法获取，即标签节点表示为“【根节点、手机、苹果】”类似这样的节点信息。

步骤S304：计算标签的分布式表示。

以基于祖先节点加权方式计算标签分布式表示为例，采用下列公式进行计算：

X_{t a g} = \underset{p &Element; π}{Σ} - w_{p} v_{p}, \underset{p &Element; π}{Σ} w_{p} = 1

其中，X_tag为目标类目标签的向量表示；

p表示路径信息中的一个节点；

v为标签的基础词向量表示；

π为该标签节点的路径信息；

w为祖先节点加权值。

步骤S305：将标签节点的分布式表示结果用于语义相似度计算。

上述步骤最终输出各个标签节点的分布式表示结果，用于语义相似度计算，该分布式表示优势是将语义相似度和结构相似度进行简单结合，能有效解决标签歧义问题。

上述实施例中确定结构相似度的一种可选实现流程如图5所示，包括如下步骤：

步骤S401：获取确定出的字面相似度和语义相似度，得到每个源类目标签和各目标类标签的基础相似度。

参见上表1。

步骤S402：根据标签的父节点信息和基础相似度，计算源类目标签和目标类目标签的祖先节点相似度。

可选的计算思路如下，从标签路径自身节点向前追溯，分别计算两两节点标签相似度，并加权求和。即至少追溯上一层祖先节点，根据源类目标签和目标类目标签的至少一个祖先节点的基础相似度、该源类目标签和目标类目标签的基础相似度，加权得到祖先节点相似度。

以源类目标签S1和目标类目标签T2为例，两个标签的相似度计算公式如下：

S i m (S 1, T 2) = \underset{p &Element; (π (s 1) I π (T 2))}{Σ} w_{p} s i m (p_{s}, p_{t})

其中：Sim(S1，T2)为源类目标签S1和目标类目标签T2之间的相似度；

sim(p_s，p_t)为路径信息中源类目标签路径节点P_S和目标类目标签路径节点Pt之间相似度；

w为节点之间的基础相似度加权系数；

p为源类目标签路径和目标类目标签路径的交集中的节点；

S1为源类目标签；

T2为目标类目标签；

π(s1)表示源类目标签的路径信息；

π(t2)表示目标类目标签的路径信息；

s为源类目标签节点下标，表示第s个源类目标签节点；

t为目标类目标签节点下标，表示第t个源类目标签节点。

举例如下，两个节点标签分别为<A1，B1，C1>，<A2，D2，C2>，则标签C1和C2的相似度Sim(C1，C2)为：

Sim(C1，C2)＝0.7*base_sim(c1，c2)+0.2*base_sim(B1，D2)+0.1*base_sim(A1，A2)

其中：base_sim(C1，C2)为标签对(C1，C2)的基础相似度

base_sim(B1，D2)为标签对(B1，D2)的基础相似度

base_sim(A1，A2)为标签对(A1，A2)的基础相似度。

步骤S403：根据标签的子孙节点信息和基础相似度，计算源类目标签和目标类目标签的子孙节点相似度。

可选的计算思路如下，计算源标签每一个子孙节点到每一个目标标签子孙相似度，取最大值作为该节点到目标子孙节点相似度，并加权求和。

S i m (S 1, T 2) = \underset{p &Element; π (s 1)}{Σ} w_{p} M a x ({&ForAll;}_{t &Element; π (s 1)} s i m (p_{s}, p_{t}))

其中：Sim(S1，T2)为源类目标签S1和目标类目标签T2的相似度；

sim(p_s，p_t)为路径信息中源类目标签路径节点Ps和目标类目标签路径节点Pt相似度；

表示遍历各个目标类目标签节点；

w为节点之间的基础相似度加权系数；

p为源类目标签节点到根节点路径节点集合；

S1为要求解的源类目标签；

T2为要求解的目标类目标签；

π(s1)表示源类目标签的路径信息；

s为源类目标签节点路径下标，表示第s个源类目标签节点；

t为目标类目标签节点路径下标，表示第t个源类目标签节点。

举例如下，两个节点标签C1和C2的子孙节点分别为<A1，B1>，<A2，D2>，则标签C1和C2的相似度为：

Sim(C1，C2)＝0.7*base_sim(c1，c2)+0.2*Max(base_sim(A1，A2)，base_sim(A1，D2))+0.1*Max(base_sim(B1，A2)，base_sim(B1，D2))

步骤S404：根据标签的兄弟节点信息和基础相似度，计算源类目标签和目标类目标签的兄弟节点相似度。

可选的计算思路如下，计算源标签每一个兄弟节点到每一个目标标签兄弟节点相似度，取最大值作为该节点到目标兄弟节点相似度，并加权求和，计算思路和步骤S403类似。

步骤S405：根据祖先节点相似度、子孙节点相似度和兄弟节点相似度采用设定的加权规则或选择规则，确定源类目标签和目标类目标签的结构相似度。

选择规则策略可选方式：选取其中相似度值最大的一个作为结构相似度。

加权规则策略可选方式：根据设定的加权比例，对祖先节点相似度、子孙节点相似度和兄弟节点相似度进行加权求和，即祖先节点相似度、子孙节点相似度和兄弟节点相似度分别乘以对应的加权比例后求和，或求和后在平均，得到结构相似度。

基于同一发明构思，本发明实施例还提供一种类目标签匹配映射装置，该装置可以设置在实现第三方数据处理的服务器上，也可以设置在提供数据给第三方数据处理服务器的其他网站或企业的数据服务器上。该类目标签匹配映射装置的结构如图6所示，包括：信息获取模块101、第一确定模块102、第二确定模块103、第三确定模块104和匹配映射模块105。

信息获取模块101，用于获取源类目标签的标签信息和目标类目标签的标签信息。

第一确定模块103，用于根据标签信息中包括的标签字符串，分别确定各源类目标签和各目标类目标签的字面相似度.

第二确定模块104，用于根据标签信息得到标签的向量化信息，根据标签的向量化信息和标签信息中包括的标签路径信息，分别确定各源类目标签和各目标类目标签的语义相似度。

第三确定模块105，用于根据标签信息中包括的标签路径信息，结合字面相似度和语义相似度，分别确定各该源类目标签和各目标类目标签的结构相似度。

匹配映射模块106，根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出相似度符合设定条件的源类目标签和目标类目标签，建立映射关系。

优选的，上述第一确定模块103，具体用于通过下列方式中的至少一种确定源类目标签和目标类目标签的字面相似度：

优选的，上述第二确定模块104，具体用于通过下列方式中的至少一种确定源类目标签和目标类目标签的语义相似度：

计算源类目标签和目标类目标签的杰卡德Jaccard相似度：获取源类目标签的向量化信息和目标类目标签的向量化信息，计算两个向量Jaccard相似度，作为语义相似度；

计算源类目标签和目标类目标签的余弦相似度：获取源类目标签的向量化信息和目标类目标签的向量化信息，计算两个向量余弦相似度，作为语义相似度；

计算源类目标签和目标类目标签的向量点互信息相似度，作为语义相似度；

优选的，上述第三确定模块105，具体用于：

优选的，上述匹配映射模块106，具体用于针对每个源类目标签，获取与该源类目标签字面相似度最大的第一设定数量的目标类目标签；从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定数量的目标类目标签，第二设定数量小于第一设定数量；从获取到的目标类目标签中获取与该源类目标签结构相似度最大的目标类目标签，并建立映射关系；或

优选的，上述信息获取模块101，还用于获取源类目标签的标签信息和目标类目标签的标签信息之后，对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作，过滤掉无用词。

本发明实施例提供的上述类目标签匹配映射方法及装置，能够基于本体对齐技术对类目标签分布式表示并进行归一化映射，该方法是一套自动化标签归一化处理技术，完全自动进行类目标签映射；可以基于词向量模型、主题模型等语义模型，计算标签语义分布式表示，并基于标签语义相似度、结构相似度等本体对齐技术，进行类目标签语义层面归一化。经过信息预处理和多层级的标签相似度计算，融合标签字面相似度、语义相似度以及结构化相似度等多种本体对齐技术，求解标签相似度，考虑了标签结构化和语义信息，能够有效去除歧义保证准确率，最终得到比较准确的相似度匹配结果，实现较佳的归一化映射。该方法可以自动化实现，有效解放人力，节约人力物力财力，提高处理速度和效率。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrativecomponents)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种类目标签匹配映射方法，其特征在于，包括：

获取源类目标签的标签信息和目标类目标签的标签信息；

2.如权利要求1所述的方法，其特征在于，通过下列方式中的至少一种确定源类目标签和目标类目标签的字面相似度：

3.如权利要求1所述的方法，其特征在于，通过下列方式中的至少一种确定源类目标签和目标类目标签的语义相似度：

4.如权利要求1所述的方法，其特征在于，确定源类目标签和目标类目标签的结构相似度的过程，具体包括：

5.如权利要求1所述的方法，其特征在于，根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个，选择出相似度符合设定条件的目标类目标签，建立映射关系，具体包括：

6.如权利要求1-5任一所述的方法，其特征在于，获取源类目标签的标签信息和目标类目标签的标签信息之后，还包括：

7.一种类目标签匹配映射装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述第三确定模块，具体用于：

9.如权利要求7所述的装置，其特征在于，所述匹配映射模块，具体用于：

10.如权利要求7-9任一所述的方法，其特征在于，所述信息获取模块，还用于：