CN105740404A

CN105740404A - 标签关联方法及装置

Info

Publication number: CN105740404A
Application number: CN201610060688.1A
Authority: CN
Inventors: 汤奇峰; 叶峰
Original assignee: Shanghai Zamplus Technology Development Co Ltd
Current assignee: Shanghai Zamplus Technology Development Co Ltd
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2016-07-06

Abstract

一种标签关联方法及装置，所述方法包括：对待进行标签关联的目标数据进行匹配处理，以得到目标关键词，所述匹配处理参照关键词词典进行，所述关键词词典中包含映射至一个或多个标签的关键词；计算候选标签的权重，所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签；基于所述候选标签的权重选取目标标签，建立所述目标标签与所述目标数据之间的关联关系。所述方法及装置可以提高标签关联方法的效率。

Description

标签关联方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种标签关联方法及装置。

背景技术

随着网络技术的发展，可以通过网络获取越来越多的数据，并依托这些数据进行进一步的分析，这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析，将数据关联至不同的标签往往是必不可少的步骤。

但是，现有的标签关联方法的效率有待提高。

发明内容

本发明解决的技术问题是提高标签关联方法的效率。

为解决上述技术问题，本发明实施例提供一种标签关联方法，包括：

对待进行标签关联的目标数据进行匹配处理，以得到目标关键词，所述匹配处理参照关键词词典进行，所述关键词词典中包含映射至一个或多个标签的关键词；

计算候选标签的权重，所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签；

基于所述候选标签的权重选取目标标签，建立所述目标标签与所述目标数据之间的关联关系。

可选的，所述参照关键词词典对所述目标数据进行匹配处理，得到目标关键词，包括：

对所述目标数据进行分词处理，以得到多个词语；

去除所述关键词词典中未包含的词语，剩余的词语为目标关键词。

可选的，参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。

可选的，若所述候选标签对应多个目标关键词，则所述计算所述候选标签的权重包括：分别计算所述候选标签对应每个关键词的得分，基于候选标签对应每个关键词的得分得到所述候选标签的权重。

可选的，所述标签关联方法还包括建立关键词词典，所述建立所述关键词词典包括：

获取分类体系数据；

参照所述分类体系数据得到标签和所述标签对应的数据；

对所述标签对应的数据和所述标签进行分词处理，将分词处理得到的关键词映射至所述标签，以得到所述关键词词典。

可选的，所述建立关键词词典的方法包括：对所述关键词词典进行去重。

可选的，所述建立关键词词典的方法包括：

检测所述关键词词典中每个关键词映射的标签的数量；

去除映射的标签的数量大于阈值的关键词。

本发明实施例还提供一种标签关联装置，包括：

匹配处理单元，对待进行标签关联的目标数据进行匹配处理，以得到目标关键词，所述匹配处理参照关键词词典进行，所述关键词词典中包含映射至一个或多个标签的关键词；

标签权重计算单元，适于计算候选标签的权重，所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签；

关联单元，适于基于所述候选标签的权重选取目标标签，建立所述目标标签与所述目标数据之间的关联关系。

可选的，所述匹配处理单元包括：

分词处理单元，适于对所述目标数据进行分词处理，以得到多个词语；

过滤单元，适于去除所述关键词词典中未包含的词语，剩余的词语为目标关键词。

可选的，所述标签权重计算单元参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。

可选的，若所述候选标签对应多个目标关键词，则所述标签权重计算单元分别计算所述候选标签对应每个关键词的得分，基于候选标签对应每个关键词的得分得到所述候选标签的权重。

可选的，所述标签关联装置还包括：关键词词典建立单元，所述关键词词典建立单元包括：

分类体系获取单元，适于获取分类体系数据；

数据提取单元，适于参照所述分类体系数据得到标签和所述标签对应的数据；

映射单元，适于对所述标签对应的数据进行分词处理，并将分词处理得到的关键词映射至所述标签，以得到所述关键词词典。

可选的，所述关键词词典建立单元包括：去重单元，适于对所述关键词词典进行去重。

可选的，所述关键词词典建立单元包括：

数量检测单元，适于检测所述关键词词典中每个关键词映射的标签的数量；

整理单元，适于去除映射的标签的数量大于阈值的关键词。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

关键词词典中包含映射至一个或多个标签的所述关键词，利用关键词词典对将目标数据进行匹配处理得到目标关键词，通过计算与目标关键词存在映射关系的标签的权重，可以选取目标标签，建立目标标签与目标数据之间的关联关系。本发明实施例通过利用关键词词典进行匹配处理生成目标关键词，使得后续计算仅需要针对与目标关键词存在关联关系的标签进行，可以有效的减小标签关联方法的计算量，从而提升标签关联方法的效率。

附图说明

图1是本发明实施例中一种标签关联方法的流程图；

图2是本发明实施例中一种得到目标关键词的方法流程图；

图3是本发明实施例中一种关键词词典的建立方法的流程图；

图4是本发明实施例中一种标签关联装置的结构示意图；

图5是本发明实施例中一种匹配处理单元的结构示意图；

图6是本发明实施例中一种关键词词典建立单元的结构示意图。

具体实施方式

如前所述，随着网络技术的发展，可以通过网络获取越来越多的数据，并依托这些数据进行进一步的分析，这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析，将数据关联至不同的标签往往是必不可少的步骤。但是，现有的标签关联方法的效率有待提高。

经发明人研究发现，很多的网站提供的服务很相似。例如，提供视频浏览服务的网站有QQ，爱奇艺，搜狐视频等；提供旅游服务的网站有去哪儿，携程，艺龙等；提供新闻服务的网站有搜狐网、凤凰网等等。不同的网站可能会对同一个内容进行标记，例如，新闻的种类信息、商品的类别信息等，但是不同网站对同一内容的描述在很多时候是有差异的。另一种情况是，有个别网站没有明显地给出一类标签。这对综合分析不同网站的内容造成了一定的困难。

传统的标签整理技术往往采用机器学习的思路来处理。首先人工整理关键信息和标签作为训练和测试样本，接着通过训练机器学习模型，来达到预测一个未知目标数据属于哪个标签的目的。但是由于训练和测试样本很难整理，机器学习模型本身是一个黑盒，很难控制学习的过程，模型优化困难等原因，导致标签关联方法的效率和准确性较低，进而会影响到数据处理整体过程的效率和准确性，例如会影响到在对象进行聚类处理时的效率和准确性，或影响到大数据处理过程中数据整合分析的效率和准确性。

在本发明实施例中，关键词词典中包含映射至一个或多个标签的所述关键词，利用关键词词典对将目标数据进行匹配处理得到目标关键词，通过计算与目标关键词存在映射关系的标签的权重，可以选取目标标签，建立目标标签与目标数据之间的关联关系。本发明实施例通过利用关键词词典进行匹配处理生成目标关键词，使得后续计算仅需要针对与目标关键词存在关联关系的标签进行，可以有效的减小标签关联方法的计算量，从而提升标签关联方法的效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中一种标签关联方法的流程图。

在步骤S11中，对待进行标签关联的目标数据进行匹配处理，以得到目标关键词，所述匹配处理参照关键词词典进行，所述关键词词典中包含映射至一个或多个标签的关键词。

其中，目标数据可以是来自于网页、数据库等数据源的数据，例如在进行大数据处理、分析的过程中，需要从网页、数据库等各种数据源获取相应的目标数据，然后对其进行标签关联，将目标数据与适当的目标标签关联在一起，也就是给目标数据“贴上”目标标签。获取目标数据的方式可以是通过爬虫爬取，或由数据库导入，也可以是通过其他外部输入的方式获取。

关键词词典中包含映射至一个或多个标签的关键词，进一步而言，关键词词典中可以包括多个关键词，每一关键词映射至一个或多个标签的标签。关键词与标签的映射方法(也即关键词词典的建立方法)将在下文中进行详细说明。利用关键词词典对目标数据进行匹配处理，可以得到目标数据中与关键词词典中均包含的词语，也就是目标关键词。

在具体实施中，参照关键词词典对所述目标数据进行匹配处理，得到目标关键词的过程可以参见图2。

在步骤S111中，对所述目标数据进行分词处理，以得到多个词语。

在具体实施中，若已知关键词词典的产生过程中使用的分词方法和词库，在对目标数据进行分词处理时可以采用相同的分词方法和词库，以便目标关键词的选取。

在步骤S112中，去除所述关键词词典中未包含的词语，剩余的词语为目标关键词。

在具体实施中，可以在关键词词典中检索目标数据经过分词处理得到的词语，若未找到匹配项，则去除该词语。在遍历目标数据经过分词处理得到的所有词语后，剩余的词语为目标关键词。

仍然参照图1，在步骤S12中，计算候选标签的权重，所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签。

计算候选标签的权重可以根据关键词词典中关键词与标签之间的映射关系进行计算，候选标签的权重表征该候选标签和目标数据的相关度。

在本发明一实施例中，标签i在关键词j(j＝1…n)中出现，而关键词j中有cnt_j个标签，则标签i在关键词j上的得分为1/cnt_j。将所有得分相加，作为标签i的权重。候选标签的权重的计算公式如下：

{score}_{i} = Σ_{j = 0}^{n} 1 / {cnt}_{j} - - - (1)

在一具体实施中，候选标签的权重可以参照与所述目标关键词存在映射关系的标签的数量计算。在关键词词典中，每个关键词可以对应一个或多个标签，可以理解的是：若目标关键词只对应一个标签，则可以视为目标关键词与该标签的相关度较高；若目标关键词对应海量的标签，则可以视为目标关键词与该多个标签的相关度均不是太高。

故所述目标关键词存在映射关系的标签的数量可以反映出目标关键词语候选标签的相关度。参照与所述目标关键词存在映射关系的标签的数量计算候选标签的权重，可以有效的反映候选标签与目标数据之间的相关度，可以在减少计算量的同时为后续准确的进行标签关联提供依据。

在另一具体实施中，若所述候选标签对应多个目标关键词，则所述计算所述候选标签的权重包括：分别计算所述候选标签对应每个关键词的得分，基于候选标签对应每个关键词的得分得到所述候选标签的权重。

由于一个候选标签可能对应于多个目标关键词，候选标签的权重需全面考虑其余对应的所有目标关键词的相关度。分别计算候选标签对应每个关键词的得分，对候选标签对应所有关键词的得分进行综合处理，最终得到候选标签的权重，可以更加准确的表征候选标签对应目标数据的相关度，以提升标签关联方法的准确性。

在步骤S13中，基于所述候选标签的权重选取目标标签，建立所述目标标签与所述目标数据之间的关联关系。

由于候选标签的权重表征候选标签与目标数据之间的相关度，故根据候选标签的权重可以选取与目标数据相关度最高的候选标签作为目标标签。

在本发明一实施例中，候选标签的权重通过公式(1)得到，此时选取权重值最大的候选标签作为目标标签。

在具体实施中，标签关联方法还可以包括建立在步骤S11中使用的关键词词典。

图3是本发明实施例中一种关键词词典的建立方法的流程图。

在步骤S31中，获取分类体系数据。

分类体系可以利用已有的分类体系，也可以根据需要进行设定，或者也可以通过爬虫从适当的网站爬取，例如可以通过爬虫按照面包屑导航的层级爬取，爬取的过程可以按照不同网站的特点，指定不同的路径，已获得更多的数据支持。分类体系数据是记录上述分类体系的数据。

在步骤S32中，参照所述分类体系数据得到标签和所述标签对应的数据。

标签可以是某种信息或数据类别，例如可以是新闻的类别：政治、经济、生活等；或者也可以是商品的类别：服饰、家电、卫浴等。标签可以是单层类别标签，也可以是诸如面包屑导航格式的多层类别标签，例如经济>股市分析，或者家电>大家电>平板电视等。标签对应的数据可以是标题数据等数据，可以根据需要在爬取的数据中筛选。

例如，当标签属于新闻中某个类别时，标签对应的数据可以是新闻的标题、内容关键词等；当标签数据商品的某个类别时，标签对应的数据可以是商品名称、商品参数等数据。

在步骤S33中，对所述标签对应的数据和所述标签进行分词处理，将分词处理得到的关键词映射至所述标签，以得到所述关键词词典。

例如，对于电商行业，可以将数据整理成如下表的形式：

进行分词处理的方法可以根据需要进行选择，例如可以采用字典双向最大匹配法、HMM方法、CRF方法或者其他分词方法进行分词处理。

由于数据和标签之间存在对应关系，对应不同标签的数据在经过分词处理后可能产生相同的词语，故关键词词典中会存在一个关键词对应多个标签的情况。例如，关键词词典中“图书”可能对应如下标签：“图书、音像、电子书刊>电子书刊>电子书”，或标签“图书、音像、电子书刊>电子书刊>网络原创”。

在具体实施中，建立关键词词典的方法可以包括：对所述关键词词典进行去重。对关键词进行去重时，对不同数据分词得到的同样词语只保留一个，但需要保留该同样词语对标签的映射关系。

例如，在未进行去重之前，关键词词典中包含两个词语“图书”，其中一个词语“图书”映射至标签“图书、音像、电子书刊>电子书刊>电子书”，另一个词语“图书”映射至标签“图书、音像、电子书刊>电子书刊>网络原创”，在去重处理后，仅保留一个词语“图书”，但保留“图书”与标签“图书、音像、电子书刊>电子书刊>电子书”和标签“图书、音像、电子书刊>电子书刊>网络原创”间的映射关系。

得到的映射关系可以如下表所示。

通过去重处理，可以使得关键词词典更加合理，使得在利用关键词词典对候选标签进行权重计算时的结果更加准确，进而使得标签关联方法的准确率更高。

在具体实施中，建立关键词词典的方法可以包括：检测所述关键词词典中每个关键词映射的标签的数量；去除映射的标签的数量大于阈值的关键词。

若关键词映射至海量的标签，说明该关键词太通用，识别度较差，例如，“电子”一词可能会映射至大量的标签，既有电子书的标签，又有各类电子产品的标签。阈值的设定可以根据需要进行，也可以根据标签关联的反馈结果进行。

去除映射的标签的数量大于阈值的关键词，可以强化识别度较高的关键词的在标签关联过程中的作用，增加标签关联的准确度。阀值的确定可以根据如下算法确定：将每个关键词对应的标签进行计数，统计关键词对应标签数量的累计分布，将在累计分布中等于95％对应的标签数量作为阀值。

本发明实施例还提供一种标签关联装置，其结构示意图参见图4。

标签关联装置可以包括：

匹配处理单元41，对待进行标签关联的目标数据进行匹配处理，以得到目标关键词，所述匹配处理参照关键词词典进行，所述关键词词典中包含映射至一个或多个标签的关键词；

标签权重计算单元42，适于计算候选标签的权重，所述候选标签是在所述关键词词典中与所述目标关键词存在映射关系的标签；

关联单元43，适于基于所述候选标签的权重选取目标标签，建立所述目标标签与所述目标数据之间的关联关系。

结合图5，在具体实施中，所述匹配处理单元41可以包括：

分词处理单元51，适于对所述目标数据进行分词处理，以得到多个词语；

过滤单元52，适于去除所述关键词词典中未包含的词语，剩余的词语为目标关键词。

仍然参考图4，在具体实施中，所述标签权重计算单元42参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。

在具体实施中，若所述候选标签对应多个目标关键词，则所述标签权重计算单元42可以分别计算所述候选标签对应每个关键词的得分，基于候选标签对应每个关键词的得分得到所述候选标签的权重。

在具体实施中，标签关联装置还可以包括：关键词词典建立单元，适于建立所述关键词词典。

参见图6，在具体实施中，所述关键词词典建立单元可以包括：

分类体系获取单元61，适于获取分类体系数据；

数据提取单元62，适于参照所述分类体系数据得到标签和所述标签对应的数据；

映射单元63，适于对所述标签对应的数据进行分词处理，并将分词处理得到的关键词映射至所述标签，以得到所述关键词词典。

在具体实施中，所述关键词词典建立单元可以包括：去重单元，适于对所述关键词词典进行去重。

在具体实施中，所述关键词词典建立单元可以包括：数量检测单元，适于检测所述关键词词典中每个关键词映射的标签的数量；整理单元，适于去除映射的标签的数量大于阈值的关键词。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种标签关联方法，其特征在于，包括：

2.根据权利要求1所述的标签关联方法，其特征在于，所述参照关键词词典对所述目标数据进行匹配处理，得到目标关键词，包括：

对所述目标数据进行分词处理，以得到多个词语；

3.根据权利要求1所述的标签关联方法，其特征在于，参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。

4.根据权利要求3所述的标签关联方法，其特征在于，若所述候选标签对应多个目标关键词，则所述计算所述候选标签的权重包括：分别计算所述候选标签对应每个关键词的得分，基于候选标签对应每个关键词的得分得到所述候选标签的权重。

5.根据权利要求1所述的标签关联方法，其特征在于，还包括：建立关键词词典，所述建立所述关键词词典包括：

获取分类体系数据；

参照所述分类体系数据得到标签和所述标签对应的数据；

6.根据权利要求5所述的标签关联方法，其特征在于，所述建立关键词词典的方法包括：对所述关键词词典进行去重。

7.根据权利要求5所述的标签关联方法，其特征在于，所述建立关键词词典的方法包括：

检测所述关键词词典中每个关键词映射的标签的数量；

去除映射的标签的数量大于阈值的关键词。

8.一种标签关联装置，其特征在于，包括：

9.根据权利要求8所述的标签关联装置，其特征在于，所述匹配处理单元包括：

10.根据权利要求8所述的标签关联装置，其特征在于，所述标签权重计算单元参照与所述目标关键词存在映射关系的标签的数量计算所述候选标签的权重。

11.根据权利要求10所述的标签关联装置，其特征在于，若所述候选标签对应多个目标关键词，则所述标签权重计算单元分别计算所述候选标签对应每个关键词的得分，基于候选标签对应每个关键词的得分得到所述候选标签的权重。

12.根据权利要求8所述的标签关联装置，其特征在于，还包括：关键词词典建立单元，所述关键词词典建立单元包括：

分类体系获取单元，适于获取分类体系数据；

13.根据权利要求12所述的标签关联装置，其特征在于，所述关键词词典建立单元包括：去重单元，适于对所述关键词词典进行去重。

14.根据权利要求12所述的标签关联装置，其特征在于，所述关键词词典建立单元包括：

整理单元，适于去除映射的标签的数量大于阈值的关键词。