CN108427769A

CN108427769A - 一种基于社交网络的人物兴趣标签提取方法

Info

Publication number: CN108427769A
Application number: CN201810271591.4A
Authority: CN
Inventors: 韩月辉; 赵雷
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-08-21
Anticipated expiration: 2038-03-29
Also published as: CN108427769B

Abstract

本发明公开了一种基于社交网络的人物兴趣标签提取方法，包括以下步骤：步骤A：数据预处理，用于对人物的社交网络数据进行清洗、筛选和替换，形成包括多个单词的集合；步骤B：候选标签的导出，依次对所述集合内的单词进行读入并判断，形成包括话题标签、单词候选标签和词组候选标签的候选标签集；步骤C：兴趣标签的提取，包括候选标签TF值的确定；候选标签IDF值的计算；根据候选标签的TFIDF值进行排序，导出部分话题标签至兴趣标签集中；候选标签之间的权值计算；候选标签的得分计算；兴趣标签集的获取。本发明至少具有以下优点：既考虑了兴趣标签在文档库和文档中的频率，又考虑了文档结构对兴趣标签的影响，可以得到更精确的效果。

Description

一种基于社交网络的人物兴趣标签提取方法

技术领域

本发明涉及标签提取技术领域，尤其涉及一种基于社交网络的人物兴趣标签提取方法。

背景技术

随着互联网应用的迅猛发展，社交网络对用户的影响力越来越大。人们越来越依赖社交网络进行信息的交流与共享，带来了互联网数据的***式增长，同时用户对个性化的需求也越来越强烈，例如推荐用户喜欢的商品、游戏、音乐、电影或者新闻资讯等等。人物兴趣标签通常用于描述人物的身份属性、兴趣属性，对于人物检索与推荐、人物行为分析、发现人物兴趣爱好和建立人物画像模型都有很大的帮助。

常用的兴趣标签提取技术有TFIDF、TextRank等。TFIDF是一种用于信息检索与数据挖掘的常用加权技术。其中，TF(term-frequency)指词频，表示某个词在文档中出现的频率。IDF(inverse-document-frequency)指逆文档频率，由文档库中的所有文件总数除以包含某个词的文件数并取对数计算得到。可以看出，某个词在其他文档中出现的次数越多，其IDF的值越小。TFIDF的值由TF乘以IDF得到，其含义是如果某个词在一篇文档中出现的次数越多，并且在其它文档中出现的次数越少，则这个词越能反映该文档的主题，对应到社交网络，就是指社交网络中人物的兴趣标签。

TextRank算法是一种关键词提取算法(Mihalcea R,Tarau P.TextRank:Bringingorder into texts[C].Association for Computational Linguistics,2004.)，可以提取文本中的关键词或摘要。其基本思想是将每个候选词看作图中的一个节点，出现在同一段文本中的词之间建立边，同时出现的次数为节点之间的边上的权重。以Twitter为例，如果a和b两个单词出现在同一条tweet中，那么节点a和节点b之间就存在一条边，边上的权值为a、b两个单词同时出现的tweet条数。然后我们初始化每个候选词的得分为1，根据候选词之间的关系迭代计算每个候选词的得分直至收敛，得分越高的词越能反映出文档的主题。

现有的兴趣标签提取算法，大多将单个词作为兴趣标签，而忽略了词组以及社交网络中特有的话题标签。另外，前面讲到的TFIDF算法仅仅考虑了单词在文档和文档库中的频率，而没有考虑文档的文本结构。相反的，TextRank算法仅仅考虑了候选词在文档结构中的作用，而忽略了候选词在整个语料库中的代表性，这样容易受无意义词(例如停用词等)的影响。

发明内容

本发明要解决的技术问题是提供一种基于社交网络的人物兴趣标签提取方法，其既考虑了兴趣标签在语料库和该文档中的频率，又考虑了文档结构对兴趣标签的影响，可以得到更加精确的效果。另外，将词组和社交网络话题标签作为兴趣标签提取结果，能够更加准确地反映人物的兴趣爱好。

为了解决上述技术问题，本发明提供了一种基于社交网络的人物兴趣标签提取方法，包括以下步骤：

步骤A：数据预处理，用于对人物的社交网络数据进行清洗、筛选和替换，形成包括多个单词的集合；

步骤B：候选标签的导出，依次对所述集合内的单词进行读入并判断，形成包括话题标签、单词候选标签和词组候选标签的候选标签集；

步骤C：兴趣标签的提取，包括以下步骤，

-C1：候选标签TF值的确定：依次对每个所述话题标签、单词候选标签和词组候选标签进行读入并统计相同候选标签出现的次数，作为该候选标签的TF值；

-C2：候选标签IDF值的计算：读入文档库，设文档库中有n篇文档，对于每个候选标签w，文档库中有m篇文档包含候选标签w，则候选标签w的IDF值为：IDF＝log(n/m+1)；候选标签w的TFIDF值为：TFIDF＝TF×IDF；

-C3：根据候选标签的TFIDF值进行排序，若TFIDF值最高的前H个候选标签中有h个话题标签，则将该h个话题标签导出至兴趣标签集中；(H为需提取的兴趣标签数量)；

-C4：候选标签之间的权值计算：计算出候选标签之间的权值矩阵；

-C5：候选标签的得分计算：初始化每个所述候选标签w的得分S(w)为1，根据以下公式迭代计算每个候选标签的得分，直至收敛，

O(j)＝∑_e(j,k)∈Ew(j,k)

其中，表示w(i,j)候选标签i和j之间的权值，O(j)表示以节点j为端点的边的权值和；λ为阻尼系数，一般取值0.85；e(i,j)表示以节点i和节点j为端点的边；E为边集；TFIDF(i)表示节点i代表的候选标签的TFIDF值；

-C6：兴趣标签集的获取：对每个所述候选标签的S(i)进行降序排列，并将前H-h个所述候选标签导出至兴趣标签集，与所述h个话题标签形成完成的兴趣标签集。

进一步地，所述步骤A中的数据预处理，依次包括大小写转换、分词、词性打标、删除停用词、删除俚语、删除链接、删除表情词、删除转发标识。

进一步地，所述大小写转换包括：统一将所述人物的社交网络数据转换成小写；所述分词包括：将输入的所述人物的社交网络数据分割成多个单词；所述词性打标包括：用于对每个所述单词进行词性打标，便于选择指定词性的所述单词作为候选标签；所述停用词包括：没有实际含义的词；所述俚语包括：非正式、较口语的语句。

进一步地，所述步骤B中的候选标签导出，具体包括以下步骤：步骤B1：若第一个读入的单词或词组为话题标签(Twitter中以#开头)，则将所述话题标签导出至候选标签集中；步骤B2：若第一个读入的单词为名词，则将所述单词导出至所述候选标签集中；步骤B3：B31：若第一个读入的单词为动词或形容词，则继续判断后端相邻的第二个单词属性，反之则删除该单词；B32：若第二个读入的单词为名词，则将所述第一个单词和第二个单词形成的词组导入候选标签集中；若第二个读入的单词为形容词，则继续判断后端相邻的第三个单词；反之则删除所述第一个单词和第二个单词；B33：若第三个读入的单词为名词，则判断该名词是否在候选标签集中存在，若存在，则删除候选标签集中的该名词，并将所述第一个单词、第二个单词和第三个单词形成的词组导入候选标签集中；若不存在，则直接将所述词组导入候选标签集中；反之，则删除所述第一个单词、第二个单词和第三个单词。

进一步地，所述B32中还包括：判断该名词是否在候选标签集中存在，若存在，则删除标签集中的该名词，再将所述第一个单词和第二个单词形成的词组导入候选标签集中；若不存在，则将所述词组直接导入候选标签集中。

进一步地，所述词组包括：动词-名词、形容词-名词、动词-形容词-名词。

进一步地，其中步骤C4：候选标签之间的权值计算包括：将所述候选标签集作为一张无向有权图，每个所述候选标签看做图中的一个节点，若两个候选标签出现在同一条tweet中，则在两个候选标签代表的节点之间建立边，边上的权值为两个候选标签同时出现的tweet的条数。

借由上述技术方案，本发明的融合了现有的两种社交网络兴趣标签提取方法，提取的兴趣标签包含社交网络话题标签、单词、词组。融合后的算法既考虑了兴趣标签在文档库和文档中的频率，又考虑了文档结构对兴趣标签的影响，可以得到更加精确的效果。另外，将词组和社交网络话题标签作为兴趣标签提取结果，能够更加准确地反映人物的兴趣爱好。

附图说明

图1是本发明的整体流程框图；

图2是本发明兴趣标签的提取的流程框图；

图3是本发明数据预处理的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

结合图1至图3所示，本发明公开了一种基于社交网络的人物兴趣标签提取方法，包括以下步骤：步骤A：数据预处理；步骤B：候选标签的导出；步骤C：兴趣标签的提取。

所述步骤A：数据预处理，用于对人物的社交网络数据进行清洗、筛选和替换，形成包括多个单词的集合；所述数据预处理依次包括大小写转换、分词、词性打标、删除停用词、删除俚语、删除链接、删除表情词、删除转发标识。其中，所述大小写转换包括：统一将所述人物的社交网络数据转换成小写。所述分词包括：将输入的所述人物的社交网络数据分割成多个单词。所述词性打标包括：用于对每个所述单词进行词性打标，打标的目的是对每个所述单词和词组标注词性，便于选择指定词性的所述单词作为候选标签。所述停用词包括：没有实际含义的词。所述俚语包括：在社交网络中出现的非正式、较口语的语句，这样的语句不能作为候选标签。此外，采集的所述人物的社交网络数据中可能会包含链接(例如用户发布的图片)、表情词、转发标识等，上述的数据对候选标签的提取没有任何作用，因而在候选标签确定时，首先将上述数据进行删除。

步骤B：候选标签的导出，依次对所述集合内的单词和词组进行读入并判断，形成包括话题标签、单词候选标签和词组候选标签的候选标签集。本发明中，优选地所述词组包括动词-名词、形容词-名词、动词-形容词-名词三种形式。结合图3，所述候选标签的导出具体包括以下步骤：步骤B1：若第一个读入的单词为话题标签(Twitter中以#开头)，则将所述话题标签导出至候选标签集中；步骤B2：若第一个读入的单词为名词，则将所述单词导出至所述候选标签集中；步骤B3：B31：若第一个读入的单词为动词或形容词，则继续判断后端相邻的第二个单词属性，反之则删除该单词；B32：若第二个读入的单词为名词，判断该名词是否在候选标签集中存在，若存在，则删除标签集中的该名词，再将所述第一个单词和第二个单词形成的词组导入候选标签集中；若不存在，则将所述词组直接导入候选标签集中；若第二个读入的单词为形容词，则继续判断后端相邻的第三个单词；反之则删除所述第一个单词和第二个单词；B33：若第三个读入的单词为名词，则判断该名词是否在候选标签集中存在，若存在，则删除候选标签集中的该名词，并将所述第一个单词、第二个单词和第三个单词形成的词组导入候选标签集中；若不存在，则直接将所述词组导入候选标签集中；反之，则删除所述第一个单词、第二个单词和第三个单词。

结合图2，步骤C：兴趣标签的提取，包括以下步骤，

C1：候选标签TF值的确定：依次对每个所述单词候选标签和词组候选标签进行读入并统计相同候选标签出现的次数，作为该候选标签的TF值。

C2：候选标签IDF值的计算：读入文档库，设文档库中有n篇文档，对于每个候选标签w，文档库中有m篇文档包含候选标签w，则候选标签w的IDF值为：IDF＝log(n/m+1)；候选标签w的TFIDF值为：TFIDF＝TF×IDF。

C3：根据候选标签的TFIDF值进行排序，若TFIDF值最高的前H个候选标签中有h个话题标签，则将该h个话题标签导出至兴趣标签集中；(H为需提取的兴趣标签数量)。

C4：候选标签之间的权值计算：计算出候选标签之间权值矩阵。具体包括：将所述候选标签集作为一张无向有权图，每个所述候选标签看做图中的一个节点，若两个候选标签出现在同一条tweet中(以Twitter为例)，则在两个候选标签代表的节点之间建立边，边上的权值为两个候选标签同时出现的tweet的条数。

C5：候选标签的得分计算：初始化每个所述候选标签w的得分S(w)为1，根据以下公式迭代计算每个候选标签的得分，直至收敛，

O(j)＝∑_e(j,k)∈Ew(j,k)

其中，表示w(i,j)候选标签i和j之间的权值，O(j)表示以节点j为端点的边的权值和；λ为阻尼系数，一般取值0.85；e(i,j)表示以节点i和节点j为端点的边；E为边集；TFIDF(i)表示节点i代表的候选标签的TFIDF值。

C6：兴趣标签集的获取：对每个所述候选标签的S(i)进行降序排列，并将前H-h个所述候选标签导出至兴趣标签集，与所述h个话题标签形成完成的兴趣标签集。

通过上述公开的技术方案，本发明的融合了现有的两种社交网络兴趣标签提取方法，提取的兴趣标签包含社交网络话题标签、单词、词组。融合后的算法既考虑了兴趣标签在文档库和文档中的频率，又考虑了文档结构对兴趣标签的影响，可以得到更加精确的效果。另外，将词组和社交网络话题标签作为兴趣标签提取结果，能够更加准确地反映人物的兴趣爱好。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于社交网络的人物兴趣标签提取方法，其特征在于，包括以下步骤：

步骤C：兴趣标签的提取，包括以下步骤，

O(j)＝∑_e(j,k)∈Ew(j,k)

2.如权利要求1所述的基于社交网络的人物兴趣标签提取方法，其特征在于，所述步骤A中的数据预处理，依次包括大小写转换、分词、词性打标、删除停用词、删除俚语、删除链接、删除表情词、删除转发标识。

3.如权利要求2所述的基于社交网络的人物兴趣标签提取方法，其特征在于，所述大小写转换包括：统一将所述人物的社交网络数据转换成小写；所述分词包括：将输入的所述人物的社交网络数据分割成多个单词；所述词性打标包括：用于对每个所述单词进行词性打标，便于选择指定词性的所述单词作为候选标签；所述停用词包括：没有实际含义的词；所述俚语包括：非正式、较口语的语句。

4.如权利要求1所述的基于社交网络的人物兴趣标签提取方法，其特征在于：所述步骤B中的候选标签导出，具体包括以下步骤：

步骤B1：若第一个读入的单词为话题标签(Twitter中以#开头)，则将所述话题标签导出至候选标签集中；

步骤B2：若第一个读入的单词为名词，则将所述单词导出至所述候选标签集中；

步骤B3：B31：若第一个读入的单词为动词或形容词，则继续判断后端相邻的第二个单词属性，反之则删除该单词；B32：若第二个读入的单词为名词，则将所述第一个单词和第二个单词形成的词组导入候选标签集中；若第二个读入的单词为形容词，则继续判断后端相邻的第三个单词；反之则删除所述第一个单词和第二个单词；B33：若第三个读入的单词为名词，则判断该名词是否在候选标签集中存在，若存在，则删除候选标签集中的该名词，并将所述第一个单词、第二个单词和第三个单词形成的词组导入候选标签集中；若不存在，则直接将所述词组导入候选标签集中；反之，则删除所述第一个单词、第二个单词和第三个单词。

5.如权利要求4所述的基于社交网络的人物兴趣标签提取方法，其特征在于，所述B32中还包括：判断该名词是否在候选标签集中存在，若存在，则删除标签集中的该名词，再将所述第一个单词和第二个单词形成的词组导入候选标签集中；若不存在，则将所述词组直接导入候选标签集中。

6.如权利要求4所述的基于社交网络的人物兴趣标签提取方法，其特征在于，所述词组包括：动词-名词、形容词-名词、动词-形容词-名词。

7.如权利要求1所述的基于社交网络的人物兴趣标签提取方法，其特征在于，其中步骤C4：候选标签之间的权值计算包括：将所述候选标签集作为一张无向有权图，每个所述候选标签看做图中的一个节点，若两个候选标签出现在同一条tweet中，则在两个候选标签代表的节点之间建立边，边上的权值为两个候选标签同时出现的tweet的条数。