CN104199838B

CN104199838B - 一种基于标签消歧的用户模型建构方法

Info

Publication number: CN104199838B
Application number: CN201410380265.9A
Authority: CN
Inventors: 魏建良; 琚春华; 肖亮; 刘东升
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2014-08-04
Filing date: 2014-08-04
Publication date: 2017-09-29
Anticipated expiration: 2034-08-04
Also published as: CN104199838A

Abstract

本发明提供一种基于标签消歧的用户模型建构方法，包括步骤：从标签网站获取网站用户标注数据，建立标注资源信息数据库；构建用户模型与资源模型；对用户模型进行多义标签的识别；确定多义标签的义项及邻居标签集；生成消歧后的用户模型；将用户模型嵌入标签网站后台，根据用户模型与资源模型的余弦相似度进行资源推送。本发明考虑到标签的多义性，及其对准确信息推荐形成的阻碍，实现用户模型中多义标签的消歧，使得用户模型的语义更为明确，克服了由于标签歧义而产生误导性信息推荐，从而为众多标注网站更好的个性化信息推荐服务提供支撑。

Description

一种基于标签消歧的用户模型建构方法

技术领域

本发明涉及社会化标注技术，具体涉及一种基于标签消歧的用户模型建构方法。

背景技术

随着电子商务以及Delicious、YouTube、Flickr、Movielens等社交网站的兴起，用户信息空前丰富，但如何为用户更为有效的个性化推荐服务也日益成为一个挑战。社会化标注为个性化研究中用户模型的构建提供了新的思路，研究者们提出了多种推荐算法，在提升了推荐效率的同时也丰富了个性化服务领域的研究。但社会化标注也存在若干不完善之处，标签所用的词汇存在的多义性便是其中典型问题之一。在缺失语境的情况下，人们往往无法对多义标签的确切含义进行正确的理解，使得在推荐过程中往往得到不相关的结果。

在现有的关键词或标签消歧的研究中，较多针对的是对Google、百度等搜索引擎或者某一网站内检索的扩展，因此往往只需对非常少量的检索词进行分析，由于检索组合一般具有语义关联，通过检索词提供的语境就基本能判断多义词的具体含义，或者是通过用户的参与来消歧，最后将获得的消歧信息吸纳到检索中便能有效的克服多义词所产生的问题。但在Delicious、YouTube等标注网站的个性化服务中，无论是用户模型和资源模型，一方面，模型中都涉及到数量较多的标签，因此也就可能会存在多个多义标签，而如果为每一个标签都补充额外信息到模型中，极有可能淹没模型中原有的信息，并产生新的无法预料的语境；另一方面，用户模型中标签间的语义信息较弱，无法通过相互间的关联产生明确的语义，造成了多义词消歧的困难。这么模型的不足，使得标签网站在推荐过程中，由于无法对apple、SF等标签的正确含义的识别，而将毫不相关但却词形一致的资源推荐给用户，无法对标签网站的个性化推荐起到准确的引导作用。

发明内容

本发明所要解决的技术问题是提供一种基于标签消歧的用户模型建构方法，能够为现有的推荐***提供具有多义和语境判断功能的用户模型，提高推荐***的准确性和推荐效率。

本发明为了解决上述技术问题采用的技术方案为：

一种基于标签消歧的用户模型建构方法，包括以下步骤：

1)从标签网站提供的API端口爬取网站用户标注数据，对用户添加过标签的资源信息(URLs)进行统计，建立标注资源信息数据库；

其中，标签网站是指允许普通用户为资源添加标签的网站。

2)根据标注资源信息数据库中的用户、资源、标签信息，构建用户模型与资源模型；

3)对步骤2)中生成的用户模型进行多义标签r_p的识别；

4)确定步骤3)中多义标签r_p的义项及邻居标签集；

5)基于步骤4)生成消歧后的用户模型；

6)将步骤5)生成的用户模型嵌入标签网站后台，根据用户模型与资源模型的余弦相似度进行资源推送。

在采用上述技术方案的同时，本发明还可以采用或者组合采用以下进一步的技术方案：

所述步骤2)具体包括以下步骤：

2.1)：选取任一个标签网站中的用户，从标注资源信息数据库中获取其标注的所有资源信息，建立相应的资源集合R；

2.2)：根据资源集合R中每一资源r的标签出现频率，应用TF-IDF算法计算r中各标签的权值w_x，其对应的标签记为t_x；

TF-IDF的权值计算方法，根据目标标签频率与反向频率来确定其权值。

2.3)：加总资源集合R中所有资源r的t_x及w_x，提取权值最大的m个标签记为t_y，对应的权值为w_y；

2.4)：构建用户模型u＝u(t_y,w_y)，其中，t_y表示用户模型中第y个标签，w_y为对应的权值；

2.5)：对该用户的每一资源r，构建资源模型r＝r(t_x,w_x)，其中，表示资源模型中的第x个标签，w_x为对应的权值。

所述步骤3)具体包括以下步骤：

3.1)：对于标签网站中被收藏次数大于阈值z的资源R与被标注次数大于阈值z的标签T，构建资源-标签矩阵M(R,T)；

3.2)：基于M(R,T)，形成标签的共现矩阵C(t_i,t_j)，进而形成标签共现网络N(t_i,t_j)；

其中，标签共现网络是指以标签为点，两两标签有共现关系的为边的网络。共现关系可以基于用户，也可以基于资源，即同一用户是否使用了这两个标签，标签是否被标注在同一资源中。

3.3)：应用派系过滤算法的社团发现算法对N(t_i,t_j)进行聚类，将类与类重叠处的标签t_p定义为多义标签，得到其集合Set(t_p)，及每个t_p相应的邻居标签集Nei(t_p)。

邻居标签集是指多义标签所属的各个不同类别中具有直接共现关系的标签的集合，邻居标签集也包括了这些标签的权重，其值为与目标多义标签的共现次数。邻居标签集的数量与类别数相对应，邻居标签集的作用是在后面的步骤中为了进行标签消岐而补充到用户模型中。

所述步骤4)具体包括以下步骤：

4.1)：统计用户模型u(t_y,w_y)与资源模型r(t_x,w_x)中的重合标签Same(t)，核对Same(t)与Set(t_p)是否存在重合的多义标签Same(t_p)；若有，继续；若无，转到步骤6)；

4.2)：对Same(t_p)的每一多义标签t_p，计算每一对应的资源类别中与其他标签的共现次数，在每一类别中取m个共现次数最高的标签作为邻居标签集，以共现次数为权值，将其转为向量模型的形式，得到d个邻居标签集的向量模型；

4.3)：计算u(t_y,w_y)和d个的余弦相似度，得到相似度最高的邻居标签集向量模型，记为；

4.4)：查验t_p在用户模型u(t_y,w_y)中的权值，记为w_p；

4.5)：查找Same(t_p)中下一个多义标签t_p+1，若有，则转到4.2；若无，则继续。

所述步骤5)具体包括以下步骤：

5.1)：依据步骤4.4)，加总

5.2)：将依据向量运算添加到用户模型u(t_y,w_y)中，得到消歧后的用户模型u＝u(t_y+p,w_y+p)。

所述步骤6)具体包括以下步骤：

6.1)：将用户模型嵌入标签网站后台，根据步骤2.5)生成待推荐资源的资源模型；

6.2)：计算用户模型与资源模型间的余弦相似度，推送相似度最高的k个资源给用户。

本发明的有益效果主要表现在：本发明通过建立基于资源的标签共现网络，对标注网站中的标签进行聚类分析，进而确定标签的多义性并建立多义标签集，在此基础上，结合用户模型确定相应的扩展标签集，并将其吸收到用户模型中，提出一种消除用户模型中标签歧义的建模方法，使得用户模型的语义更为明确，从而为标注网站更为有效的信息推荐提供支持。与现有技术相比，本发明考虑到标签的多义性，及其对准确信息推荐形成的阻碍，通过对标签共现矩阵所映射的共现网络进行聚类分析，将不同子网络重合节点定义为多义标签，并利用多义标签的邻居标签集，结合相似度计算确定多义标签义项，最后将对应邻居标签集吸收到用户模型，实现用户模型中多义标签的消歧，使得用户模型的语义更为明确，克服了由于标签歧义而产生误导性信息推荐，从而为众多标注网站更好的个性化信息推荐服务提供支撑。

附图说明

图1是本发明方法的具体实现流程图。

图2是多义标签识别与邻居标签构建示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1、图2，一种基于标签消歧的用户模型建构方法，包括以下步骤：

2.2)：根据资源集合R中每一资源r的标签出现频率，应用TF-IDF算法计算r中各标签的权值w_x，取权值最大的m个标签记为t_x；

2.3)：加总R中所有r的t_x及w_x，提取权值最大的m个标签记为t_y，对应的权值为w_y；

2.4)：基于向量空间模型构建用户模型u＝u(t_y,w_y)，其中，t_y表示用户模型中第y个标签，w_y为对应的权值；

2.5)：对该用户的每一资源r，基于向量空间模型构建资源模型r＝r(t_x,w_x)，其中，表示资源模型中的第x个标签，w_x为对应的权值。

3)多义标签r_p的识别，包括以下过程；

3.1)：对于标签网站中被收藏次数大于阈值z的资源R，与被标注次数大于阈值z的标签T，构建资源-标签矩阵M(R,T)；

本表为示例表。用“1”表示矩阵中位于行的标签在列对应的资源中进行了标注，“0”则表示没有标注，数字累加计算。如Tag1与R1对于的单元值“8”表示标签Tag1在资源R1中一共被标注了8次，阈值z可以是某一人为设定值。

3.2)：基于M(R,T)，形成标签的共现矩阵C(t_i,t_j)，将矩阵单元值大于阈值b的加以映射，形成标签共现网络N(t_i,t_j)；

其中，本矩阵为演示，其中的数字为虚构，表示对应的两个标签在所有资源R中共现次数的总和。

邻居标签集是指多义标签所属的各个不同类别中具有直接共现关系的标签的集合，邻居标签集也包括了这些标签的权重，其值为与目标多义标签的共现次数。邻居标签集的数量与类别数相对应。

4)确定多义标签r_p的义项及邻居标签集

4.2)：对Same(t_p)的每一多义标签t_p，计算每一所属类别中与其他标签的共现次数，在每一类别中取m个共现次数最高的标签作为邻居标签集，以共现次数为权值，将其转为向量模型的形式，得到d个；

其中，d为多义标签t_p所属的类别数，此处的类别为根据标签的共现网络依据派系过滤算法所划分的类别。

4.3)：计算u(t_y,w_y)和d个的余弦相似度，得到相似度最高的，记为；

4.4)：查验t_p在用户模型u(t_y,w_y)中的权值，记为w_p；

5)生成用户模型

5.1)：依据步骤4.4)，加总即将Same(t_p)中所有多义标签所对应义项的进行加总；

6)将用户模型嵌入标签网站后台，根据用户模型与资源模型的余弦相似度进行资源推送

6.2)：计算用户模型与资源模型间的余弦相似度，推送余弦相似度最高的k个资源给用户。

Claims

1.一种基于标签消歧的用户模型建构方法，其特征在于：包括以下步骤：

3)对步骤2)中生成的用户模型进行多义标签r_p的识别；

4)确定步骤3)中多义标签r_p的义项及邻居标签集；

5)基于步骤4)生成消歧后的用户模型；

6)将步骤5)生成的用户模型嵌入标签网站后台，根据用户模型与资源模型的余弦相似度进行资源推送；

所述步骤2)具体包括以下步骤：

2.1)：选取任一个标签网站中的用户，从标签资源信息数据库中获取其标注的所有资源信息，建立相应的资源集合R；

2.3)：汇总资源集合R中所有r的t_x及w_x，提取权值最大的m个标签记为t_y，对应的权值为w_y；

2.5)：对该用户的每一资源r，构建资源模型r＝r(t_x,w_x)，其中，x表示资源模型中的第x个标签，w_x为对应的权值。

2.如权利要求1所述的一种基于标签消歧的用户模型建构方法，其特征在于：所述步骤4)具体包括以下步骤：

4.2)：对Same(t_p)的每一多义标签t_p，计算每一对应的资源类别中与其他标签的共现次数，在每一类别中取m个共现次数最高的标签作为邻居标签集以共现次数为权值，将其转为向量模型的形式，得到d个邻居标签集的向量模型

4.3)：计算u(t_y,w_y)和d个的余弦相似度，得到相似度最高的邻居标签集向量模型记为

4.4)：查验t_p在用户模型u(t_y,w_y)中的权值，记为w_p；

3.如权利要求2所述的一种基于标签消歧的用户模型建构方法，其特征在于：所述步骤5)具体包括以下步骤：

5.1)：依据步骤4.4)，加总

4.如权利要求1所述的一种基于标签消歧的用户模型建构方法，其特征在于：所述步骤6)具体包括以下步骤：