CN104216993A

CN104216993A - 一种标签共现的标签聚类方法

Info

Publication number: CN104216993A
Application number: CN201410457010.8A
Authority: CN
Inventors: 李鹏; 王娅丹; 金瑜; 刘宇; 何亨
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2014-12-17

Abstract

本发明提出一种标签共现的标签聚类方法，为了提高聚类有效性，定义标注矩阵、共同标注矩阵、标签重要度矩阵、相似度矩阵，用于通过对标签共现信息的提取，确定标签的特征向量；通过特征向量的提取计算相似度，将传统聚类算法中用几何距离计算对象与中心对象的距离改为用皮尔森相关系数计算；提出结合K-means聚类算法对标签进行聚类的标签共现聚类方法。本发明所提供聚类方法效果要好于其它的聚类方法，具有良好的有效性和可行性。

Description

一种标签共现的标签聚类方法

技术领域

本发明涉及网络标签聚类技术领域，具体涉及一种标签共现的标签聚类方法。

背景技术

标签是用户对信息的主观理解，是联系客观信息和主观认识的中介。在社会网络中信息通过相同的标签联系在一起，用户也通过使用标签与其他资源及用户联系在一起，这样人与人之间就可以通过标签进行联系、交友等操作。标签作为在线社会化网络的一部分，已得到了广泛的研究，Flickr、del.icio.us、豆瓣网和Youtobe等网站都采用了标签的协同标注及聚类研究，但目前针对标签之间相关联系的研究比较少。现阶段对标签***进行优化的研究主要集中于标签云，标签的有序化组织。标签之间关联度的研究有助于对信息进行分类检索与浏览，同时也可以挖掘出用户之间的相似性，从而可以对用户进行个性化推荐。标签的聚类就可以形成一个个的社区网络，随着标签的不断增多网络也会随之扩大。

参考文献：Golder S A,Huberman B A.Usage patterns of collaborative tagging systems[J].Journal of information science,2006,32(2):198～208；Kaser O,Lemire D.Tag-cloud drawing:Algorithms for cloud visualization[J].ArXiv preprint cs/0703109,2007.3～5；易明,毛进,邓卫华.基于社会化标签网络的细粒度用户兴趣建模[J].现代图书情报技术,2011,4:008；Lin Y R,ChiY,Zhu S,Sundaram H,Tseng B.Analyzing communities and their evolutions in dynamic socialnetwork[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2009,3(2):1～31；孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48～61.

大众分类(folksonomy)是典型的Web2.0***，允许所有互联网用户为网络资源添加标签。folksonomy是VanderWal和Smith于2004年首先提出，其含义是由大众的一致意见而产生的基于用户的分类体系。此分类法根据用户个人的使用习惯，以自定义的词对网络资源进行标注和分类。这些自定义的词称为标签(tag)，也就是指描述信息资源的字、词或者短语。

Folksonomy使得传统的分类法摆脱了固化的现象，并且跟大众的认知程度密切的结合起来，同时这种分类方法也为群体用户和信息之间建立了一个联系的桥梁。然而正是因为用户参与的广泛性，标注的随意性，使得大众标注过于自由，个性化。因此会导致一系列的问题，标签的意义可能混淆，***的推荐很不合理，用户标签时存在错误等。

目前，国外对于大众分类中的标签聚类问题的研究已从理论研究向实际应用过渡，且更加注重在潜在语义层面上的聚类研究。Heymann等提出将大量的标签转化为可导航的层次结构分类目，将标签所标注的资源次数表示成向量形式，计算标签的相似度，最后得到潜在层级分类法。Begelman等人提出采用聚类技术对大量标签进行自动聚类的方法来改善自由分类法的检索和浏览。

参考文献：Sinclair J,Cardew-Hall M.The folksonomy tag cloud:when is it useful？[J].Journal of Information Science,2008,34(1):15～29；Gruber T.Ontology of folksonomy:A mash-upof apples and oranges[J].International Journal on Semantic Web and Information Systems(IJSWIS),2007,3(1):1～11；Heymann P,Garcia-Molina H.Collaborative creation of communalhierarchical taxonomies in social tagging systems[J].2006.1～5；Begelman G,Keller P,Smadja F.Automated tag clustering:Improving search and exploration in the tag space[C]Collaborative WebTagging Workshop at WWW2006,Edinburgh,Scotland.2006:15～33.

国内也有专家提出了一些有关标签聚类的算法。武汉大学的曹高辉等人利用凝聚式层次聚类算法对标签聚类进行研究，利用相关标签的权重计算标签之间的相关度，从而实现标签的聚类。江南大学的吴志媛等人，引入PLSI模型来挖掘页面资源与标签间的潜在语义关系，并结合提出的HAK-mesiods聚类算法对潜在语义下的标签进行相似度聚类，最后得到潜在语义下的聚合标签集。

现有的研究成果表明，对标签进行合理的聚类有助于实现标签的有序化组织。

参考文献：曹高辉,焦玉英,成全.基于凝聚式层次聚类算法的标签聚类研究[J].现代图书情报技术,2008,51(4):23～27；吴志媛,钱雪忠.基于PLSI的标签聚类研究[J].计算机应用研究,2013,30(5):1316～1319.

发明内容

本发明在以上研究的基础上，基于对以往的标签聚类方法进行改进，解决了标签描述资源准确度低，组织混乱，存在语义模糊等问题。

为达到上述目的，本发明采用的技术方案提供一种标签共现的标签聚类方法，包括首先进行以下定义，

一、定义一个标注矩阵，该矩阵U_nxm是n×m型矩阵，n为标签个数，m为资源个数，矩阵中的元素u_iq表示标签t_i标注资源r_q的频度，此处的i取值为1,2,…,n，q取值为1,2,…,m；

二、定义一个共同标注矩阵，该矩阵C_n×n是n×n型矩阵，n为标签个数，矩阵中的元素c_ij表示标签t_i和标签t_j共现频度，如下式，

c_{ij} = \frac{W (t_{i}, t_{j})}{Σ_{j = 1}^{n} W (t_{i}, t_{j})} - - - (1)

此处的i取值为1,2,…,n，j取值为1,2,…,n；其中，W(t_i,t_j)表示标签t_i和标签t_j共同出现的次数，当i＝j时，W(t_i,t_j)为标签t_i标注过的资源数；

三、定义一个标签重要度矩阵，该矩阵A_n×n是n×n型矩阵，n为标签个数，矩阵中的元素a_ij表示标签t_i在所有m个资源内的重要度，即

a_{ij} = c_{ij} \times \lg (\frac{n}{1 + Γ (t_{i})}) - - - (2)

此处的i取值为1,2,…,n，j取值为1,2,…,n；其中，Γ(t_i)表示在m个资源中，与标签t_i共同出现过的标签的个数；

四、定义一个相似度矩阵，该矩阵S_n×n是n×n型矩阵，n为标签个数，矩阵中的元素s_ij表示标签t_i和标签t_j的特征向量相似度，即

s_{ij} = \frac{n \cdot Σ A_{i} \cdot A_{j} - Σ A_{i} \cdot Σ A_{j}}{\sqrt{n \cdot Σ {A^{2}}_{i} - {(Σ A_{i})}^{2}} \cdot \sqrt{n \cdot Σ {A_{j}}^{2} - {(Σ A_{j})}^{2}}} - - - (3)

其中，A_i、A_j表示标签重要度矩阵中的第i、j个行向量；

然后基于定义执行以下流程，

步骤1，输入聚类的类别数目K，标签个数n，标签集合T＝{t₁,t₂….t_n}，资源集合R，和标签标注资源的关系集合A；初始化当前处理标签序号i取值为1；转到步骤2；

步骤2，计算标注矩阵的元素u_iq，得到标签与资源之间的关联，进一步得到标签t_i和标签t_j共同出现的次数W(t_i,t_j)，转到步骤3；

步骤3，根据式(1)，计算表示共现频度的元素c_ij，转到步骤4；

步骤4，根据式(2)，计算表示重要度的元素a_ij，转到步骤5；

步骤5，得到标签t_i的特征向量A_i(a_i1,a_i2….a_in)，转到步骤6；

步骤6，令i＝i+1，判断t_i是否属于标签集合T，如果属于则返回步骤2，否则转到步骤7；

步骤7，选择K个标签作为初始的聚类中心，转到步骤8；

步骤8，初始定义变量newJ＝0，oldJ＝-1，转到步骤9；

步骤9，计算newJ-oldJ的绝对值，如果结果大于等于0.00001，.转到步骤10，否则转到步骤14；

步骤10，根据式(3)，计算每个标签与K个聚类中心分别的相似度s_ij，转到步骤11；

步骤11，根据计算出来的相似度，对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中，转到步骤12；

步骤12，计算每个类别中所有标签特征向量的平均值，作为该类别新的聚类中心，转到步骤13；

步骤13，令oldJ＝newJ，计算新的准则函数值赋值给newJ，转到步骤9；

步骤14，输出n个标签的聚类结果，结束。

而且，步骤13中，准则函数的计算式为n_j代表相应的类别中标签个数，d(A_j,Z_k)表示两个特征向量之间的偏差的平方，A_j为相应类别中的标签特征向量，Z_k为相应类的聚类中心。

本发明对标签之间的共现信息进行提取，然后用聚类方法对标签进行聚类。同时从聚类有效性进行比较可以发现不同的分类最后聚类效果有很大的差别，由此可见选择有效的聚类方法对于标签的聚类是很必要的。本发明的特点：综合标签共现信息计算标签特征向量；将传统K-means中用几何距离计算对象与中心对象之间的相似度改为利用皮尔森相关系数去计算。本发明实现的聚类方法更为有效快捷，可自动化得到可靠的聚类结果，***资源要求低，实用价值高。

附图说明

图1为本发明实施例的流程图。

图2为本发明实现的聚类方法与其它两种聚类方法在不同标签个数的情况下Purity的对比示意图；

图3为本发明实现的聚类方法与其它两种聚类方法在不同标签个数的情况下精确度的对比示意图；

图4为本发明实现的聚类方法与其它两种聚类方法在不同标签个数的情况下召回率的对比示意图；

图5为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为5的情况下稳定性的对比示意图；

图6为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为10的情况下稳定性的对比示意图；

图7为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为15的情况下稳定性的对比示意图；

图8为用本发明提取的标签特征向量和用标签资源的关联提取的特征向量去计算标签与标注主题相似度在标签个数为20的情况下稳定性的对比示意图。

具体实施方式

本发明技术方案可采用软件技术实现自动流程运行。下面结合附图和实施例对本发明技术方案进一步详细说明。

本发明是对标签聚类方法进行研究，提出标签共现的标签聚类方法，该方法的实现主要有两个部分的创新：特征向量的提取；用改进的K-means进行聚类。

特征向量的提取基于如下定义：

一、定义一个标注矩阵，该矩阵U_nxm是n×m型矩阵，n为标签个数，m为资源个数，矩阵中的元素u_iq表示标签t_i标注资源r_q的频度，此处的i取值为1,2,…,n，q取值为1,2,…,m。

二、定义一个共同标注矩阵，该矩阵C_n×n是n×n型矩阵，n为标签个数，矩阵中的元素c_ij表示标签t_i和标签t_j共现频度，即

c_{ij} = \frac{W (t_{i}, t_{j})}{Σ_{j = 1}^{n} W (t_{i}, t_{j})} - - - (1)

此处的i取值为1,2,…,n，j取值为1,2,…,n。当i取值为一个确定值时，表示j从1取到n时，对W(t_i,t_j)进行求和。

其中W(t_i,t_j)表示标签t_i和标签t_j共同出现的次数，当i＝j时，W(t_i,t_j)为标签t_i标注过的资源数。在一定程度上，这个度量越大说明标签t_i和标签t_j共同出现的几率越高，即标签t_i与标签t_j之间的关系就越密切。

a_{ij} = c_{ij} \times \lg (\frac{n}{1 + Γ (t_{i})}) - - - (2)

此处的i取值为1,2,…,n，j取值为1,2,…,n。

其中，Γ(t_i)表示在m个资源中，与标签t_i共同出现过的标签的个数，c_ij表示标签t_i和标签t_j同出现的频度，可由式(1)得到。在式中，分母加1防止分母为0的情况。这个度量的物理含义代表在m个资源内标签出现的高频率，以及该标签在整个资源集合中的低共现频率，可以产生出高权重的a_ij，该值越大说明标签t_i在整个资源集合中越重要。

通过式(2)的计算得到的标签重要度矩阵中，每个行向量A_i(a_i1,a_i2….a_in)即代表该标签t_i的特征向量。

s_{ij} = \frac{n \cdot Σ A_{i} \cdot A_{j} - Σ A_{i} \cdot Σ A_{j}}{\sqrt{n \cdot Σ {A^{2}}_{i} - {(Σ A_{i})}^{2}} \cdot \sqrt{n \cdot Σ {A_{j}}^{2} - {(Σ A_{j})}^{2}}} - - - (3)

其中，A_i、A_j表示标签重要度矩阵中的第i、j个行向量，即A_i对应标签的特征向量A_i(a_i1,a_i2….a_in)，通过计算(3)式后得到两个向量A_i(a_i1,a_i2….a_in)、A_j(a_j1,a_j2….a_jn)之间的相似度。该式反映了两个变量线性相关程度的统计量。

特征向量提取完成后用改进的K-means对标签进行聚类。

K-means聚类算法用欧氏距离作为相似性度量和距离计算，计算各数据点到其类别中心的距离平方和。本文提出的标签共现的标签聚类方法(可简称Tag co-occurrence方法)，首先根据式(1)，式(2)计算出标签特征向量，然后对K-means的相似性和距离度量进行了改进，用式(3)来进行两个向量相似度计算，就可以对标签集合进行聚类，得到最终聚类结果。具体实施时，本领域技术人员可采用计算机软件技术实现聚类流程的自动运行。

见附图1所示，实施例的流程包括步骤如下：

Step1：输入聚类的类别数目K，标签个数n，标签集合T＝{t₁,t₂….t_n}，资源集合R和标签标注资源的关系集合A；初始化当前处理标签序号i取值为1；转到Step2；

Step2：计算标注矩阵的元素u_iq，标签t_i标注资源r_q的频度，得到标签与资源之间的关联，从而可以进一步得到标签t_i和标签t_j共同出现的次数W(t_i,t_j)，转到Step3；

Step3：根据式(1)，计算表示共现频度的元素c_ij，转到Step4；

Step4：根据式(2)，计算表示重要度的元素a_ij，转到Step5；

Step5：得到标签t_i的特征向量A_i(a_i1,a_i2….a_in)，转到Step6；

Step6：令i＝i+1，判断t_i是否属于标签集合T(即判断i是否小于等于n)，如果属于则返回Step2，基于当前处理标签序号i执行Step2～Step6，否则转到Step7；具体流程实现时，按照习惯，也可统一在执行步骤2之前就判断t_i是否属于标签集合T，如图1中初始化当前处理标签序号i取值为1后进行判断，然后每次i++后返回判断；

Step7：选择K个标签对象作为初始的聚类中心，具体实施时，本领域技术人员可以自行选择初始的聚类中心，转到Step8；

Step8：初始定义变量newJ＝0，oldJ＝-1，转到Step9；

Step9：计算fabs(newJ-oldJ)，fabs是C语言数学函数，相当于计算绝对值。如果fabs(newJ-oldJ)>＝1e-5，转到Step10，否则转到Step14；

其中，fabs(newJ-oldJ)>＝1e-5表示newJ-oldJ的绝对值大于等于0.00001，用于循环控制条件；

Step10：根据式(3)，计算每个标签与这K个聚类中心分别的相似度s_ij，转到Step11；

Step11：根据计算出来的相似度，对每个标签分别判断与哪个聚类中心的相似度最大并将该标签划分到相应的类别中，转到Step12；

Step12：重新计算每个聚类的均值(计算每个类别中所有标签特征向量的平均值，该平均值就是该类别新的聚类中心)，转到Step13；

Step13：令oldJ＝newJ，计算新的准则函数值赋值给newJ(准则函数的计算公式n_j代表相应的类别中标签个数，d(A_j,Z_k)表示两个特征向量之间的偏差的平方，A_j为相应类别中的标签特征向量，Zk为相应类别的聚类中心)，转到Step9；

Step14：输出n个标签的聚类结果(每个类别有哪些标签)，结束。

进行相关实验说明该聚类方法聚类效果良好，从两个方面进行了实验。

一方面是对三种聚类方法的有效性进行了对比。这三种聚类方法如下：

仅仅考虑标签共现次数的聚类(Frequency of co-occurrence)：仅仅考虑了共现次数，即随机选取K个标签为聚类中心，标签与哪个中心标签共现次数多就把它归为其中；

传统的K-means方法：在仅仅考虑共现次数的基础上先确定标签特征向量即矩阵X_nxn，元素x_ij表示标签t_i和标签t_j共同出现的次数，X_nxn矩阵中每个行向量表示对应标签的特征向量，然后用欧式距离确定相似度K-means进行聚类；

本文提出的Tag co-occurrence方法：综合了共现信息，根据式(1)，式(2)确定特征向量，然后利用式(3)计算向量相似度再进行聚类。

有效性评价指标有三个Purity(纯度)、Precision(精确度)与Recall(召回率)：

Purity来评价聚类有效性，只需计算正确聚类的标签数占总标签数的比例。这是一种极为简单的评价方法。

Purity (W, T) = \frac{1}{n} \underset{k}{Σ} \max_{j} | w_{k} \cap t_{j} | - - - (4)

其中W＝{w₁.......w_K}是聚类的集合，w_k表示其中第k个类别的集合，k的取值为1,2,…,K。T

是标签集合，t_j表示在聚类结果中被划分到第k个类别中的标签，n表示标签总数。

精确度与召回率是常用的指标下面介绍一下要求出精确度与召回率需要确定的几个参数：TP(True Positives)，FP(False Positives)，TN(True Negatives)，FN(False Negatives)。

(1)TP:聚类方法将一对标签分在了同一类别中，并且在先验类别中它们也在相同的类别中。

(2)FP:聚类方法将一对标签分在了同一类别中，但在先验类别中它们属于不同的类别。

(3)TN:聚类方法将一对标签分在了不同类别中，并且在先验类别中它们也属于不同类别。

(4)FN:聚类方法将一对标签分在了不同类别中，但在先验类别中它们属于相同的类别。

精确率为：

Precision = \frac{TP}{TP + FP} - - - (5)

召回率为：

Recall = \frac{TP}{TP + FN} - - - (6)

另一方面是分别用本发明所涉及到的标签共现信息的关联和标签资源的关联中去计算标签与其标注主题的相似度。

首先引入两个概念：

质心O_t用来表示标签t标注主题的质心。

o_{t} = \frac{1}{U (t)} \underset{u_{p} &Element; U (t)}{Σ} u_{p} - - - (7)

在用标签资源的关联去进行计算时，u_p表示定义1中标注矩阵的列向量，U(t)表示标签t标注的资源个数。在用标签与标签共现信息关联去计算时，u_p表示定义3中标签重要度矩阵的列向量，即u_p(a_1p,a_2p....a_np)，U(t)表示与标签t有关联的标签个数。

Tcs = \frac{1}{U (t)} \underset{u_{p} &Element; U (t)}{Σ} \cos (u_{p}, o_{t}) - - - (8)

Tcs表示标签与主题的相似性，cos(u_p,o_t)表示两个向量之间余弦值，同样在用标签资源的关联去进行计算时，u_p表示定义1中标注矩阵的列向量，U(t)表示标签t标注的资源个数。在用标签与标签共现信息关联去计算时，u_p表示定义3中标签重要度矩阵的列向量，U(t)表示与标签t有关联的标签个数。

聚类有效性实验结果图见附图2、3、4，横坐标为标签数，从纵坐标所提供Purity，精确度和召回率的比较来看，本发明提出的标签共现的聚类方法聚类效果更好。

相似性计算的实验结果见附图5、6、7、8，横坐标为标签序号，纵坐标为相似度，由图可以直观的看出根据综合标签共现信息计算出的标签与它标注主题的相似度相对比较平稳。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似方式替代，但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims

1.一种标签共现的标签聚类方法，其特征在于：包括首先进行以下定义，

二、定义一个共同标注矩阵，该矩阵C_n×n是n×n型矩阵，n为标签个数，矩阵中的元素ci_j表示标签t_i和标签t_j共现频度，如下式，

c_{ij} = \frac{W (t_{i}, t_{j})}{Σ_{j = 1}^{n} W (t_{i}, t_{j})} - - - (1)

a_{ij} = c_{ij} \times \lg (\frac{n}{1 + Γ (t_{i})}) - - - (2)

s_{ij} = \frac{n \cdot Σ A_{i} \cdot A_{j} - Σ A_{i} \cdot Σ A_{j}}{\sqrt{n \cdot Σ {A^{2}}_{i} - {(Σ A_{i})}^{2}} \cdot \sqrt{n \cdot Σ {A_{j}}^{2} - {(Σ A_{j})}^{2}}} - - - (3)