CN106097113A

CN106097113A - 一种社交网络用户动静兴趣挖掘方法

Info

Publication number: CN106097113A
Application number: CN201610453921.2A
Authority: CN
Inventors: 仲兆满; 管燕
Original assignee: Individual
Current assignee: Lianyungang Chuanshang Network Technology Co Ltd
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2016-11-09
Anticipated expiration: 2036-06-21
Also published as: CN106097113B

Abstract

本发明公开了一种社交网络用户动静兴趣挖掘方法，其步骤如下：从社交媒体采集获取用户user的背景信息profile和生成内容content；从用户user的背景信息profile中提取静态兴趣SI＝{SI₁，SI₂，…，SI_m}，每个兴趣点SI_i是一个二元组SI_i＝(kw_i，w_i)，1≤i≤m，其中，kw_i为关键词，w_i为用户对kw_i的喜好权重；从用户user的生成内容content中提取动DI＝{DI₁，DI₂，…，DI_n}，每个兴趣点为一个三元组DI_i＝(topic_i，w_i，T)，1≤i≤n，其中，topic_i是由多个关键词组成的，w_i为用户对topic_i的喜好权重，T＝{t₁，t₂，…，t_s}，t_i(1≤i≤s)为用户讨论topic_i的各个时间点，即在不同时间点的分布情况。该方法能更合理的描述社交媒体用户的兴趣特征，更适合社交媒体用户的兴趣特征的后续深入分析。

Description

一种社交网络用户动静兴趣挖掘方法

技术领域

本发明涉及一种信息挖掘技术，具体地说，涉及一种社交媒体用户动态和静态兴趣挖掘方法。

背景技术

社交网络中的个性化推荐、领域专家的发现、社区划分是当前社会计算的研究热点，而有效的挖掘出社交媒体用户的兴趣取向，是此类研究的基础工作。而已有的研究没能区分社交网络用户兴趣的动态和静态特性，使用了统一的用户兴趣表示模型，用户兴趣UI＝{Int₁，Int₂，…，Int_m}，每个兴趣点是一个二元组Int_i＝(topic_i，w_i)，topic_i为话题，通常由多个关键词组成；w_i为用户对topic_i的喜好权重。

在2011年美国出版的会议论文集：2011年可视化信息通信-交互会议(Proceedings of 2011Visual Information Communication-InternationalSymposium)，题目为：社交网络中基于兴趣的朋友发现和推荐(Sfviz：interest-basedfriends exploration and recommendation in social networks)，作者是：Gou L，YouF，Guo J，Wu L，Zhang XL，该文提出了使用用户的社交标签作为用户的兴趣。

在2014年德国出版的期刊：Social Network Analysis and Mining，，题目为：Exploration of methodologies to improve job recommender systems on socialnetworks，作者是：Diaby M，Viennet E，Launay T，该文研究社交网络推荐时，考虑的是用户的背景信息，对不同的社交媒体，选取了不同的背景信息，主要包括工作、教育、简历、标签、职位等。

在2014年中国出版的期刊：软件学报，题目为：微博网络上的重叠社群发现与全局表示，作者是：胡云，王崇骏，吴骏，谢俊元，李慧，该文基于微博媒体的用户和用户生成的内容将微博网络表示为用户-话题的模式，没有考虑用户的背景信息。

在2016年中国出版的期刊：计算机学报，题目为：微博中特定用户的相似用户发现方法，作者是：仲兆满，胡云，李存华，刘宗田，该文在计算微博媒体用户的相似度时，考虑了用户背景和生成内容，但生成内容没有考虑到话题在不同时间点的分布情况。

发明内容

本发明要解决的技术问题是针对现有技术存在的问题和不足，提供一种新的社交媒体的用户动静兴趣挖掘方法，该方法可以更全面的挖掘用户的兴趣，更适合于社交媒体的用户兴趣分析。

发明人发现现有技术在社交媒体挖掘用户兴趣时，使用了统一的表示模型，不能体现社交媒体的动态特性，所以提出了社交媒体中基于背景的用户静态兴趣表示和和挖掘方法，以及基于内容的用户动态兴趣表示和挖掘方法，能更合理的描述社交媒体用户的兴趣特征，更适合社交媒体用户的兴趣特征的后续深入分析，比如用户相似度计算、用户推荐、社区推荐等等。

本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种社交网络用户动静兴趣挖掘方法，其特点是，其步骤如下：

A、从社交媒体采集获取用户user的背景信息profile和生成内容content；

B、从用户user的背景信息profile中提取静态兴趣SI＝{SI₁，SI₂，…，SI_m}，每个兴趣点SI_i是一个二元组SI_i＝(kw_i，w_i)，1≤i≤m，其中，kw_i为关键词，w_i为用户对kw_i的喜好权重；

C、从用户user的生成内容content中提取动态兴趣DI＝{DI₁，DI₂，…，DI_n}，每个兴趣点为一个三元组DI_i＝(topic_i，w_i，T)，1≤i≤n，其中，topic_i是由多个关键词组成的，w_i为用户对topic_i的喜好权重，T＝{t₁，t₂，…，t_s}，t_i(1≤i≤s)为用户讨论topic_i的各个时间点，即在不同时间点的分布情况。

本发明所述的社交网络用户动静兴趣挖掘方法，进一步优选的技术方案是，步骤A中所述的从社交媒体采集获取用户user的背景信息profiile和生成内容content，其具体步骤如下：

A1、使用采集工具获取用户user的背景信息profile＝{tag，bi，job}，其中tag为用户的标签，tag＝{tag₁，tag₂，…，tag_e}，bi为用户的简介，bi＝{bi₁，bi₂，…，bi_f}，job为用户的职位，job＝{job₁，job₂，…，job_g}；

A2、使用采集工具获取用户user的在时间范围内容生成的内容content。

本发明所述的社交网络用户动静兴趣挖掘方法，进一步优选的技术方案是，步骤B中所述的从用户user的背景信息profile中提取静态兴趣SI＝{SI₁，SI₂，…，SI_m}，其具体步骤如下：

B1、把采集到的用户的标签形成一个库，在分词时，将其作为一个整体识别，用户user的标签记为tag＝{tag₁，tag₂，…，tag_c}；

B2、对用户的简介分词，因为内容较短，不进行词频统计，得到用户user的简介词集为bi＝{bi₁，bi₂，…，bi_f}；

B3、对用户的职位分词，因为内容较短，不进行词频统计，得到用户user的职位词集为job＝{job₁，job₂，…，job_g}。

B4、统计tag、bi及job中各个词出现的次数，作为词的权重，权重参考最大值进行归一化，按照权重降序排列，根据需求选取m个词作为用户的静态兴趣，记为SI＝{(kw₁，w₁)，(kw₂，w₂)，…，(kw_m，w_m)}。

本发明所述的社交网络用户动静兴趣挖掘方法，进一步优选的技术方案是，上述步骤C中所述的从用户user的生成内容content中提取动态兴趣DI＝{DI₁，DI₂，…，DI_n}，其具体步骤如下：

C1、对用户user的生成内容content中的每一条信息c_i(假设content有x条信息，1#i x)进行分词，从分词结果中选出频率大于一定阈值ζ₁的词作为候选的动态兴趣集合CDI₁；

C2、对CDI₁中相邻的、且满足一定共现阈值ζ₂的词进行合并，得到候选的动态兴趣集合CDI₂；

C3、计算CDI₂中每个候选兴趣的上下文邻接类别来衡量其语用多样性，选取满足一定的上下文邻接类别阈值ζ₃的作为候选的动态兴趣集合CDI₃；

C4、计算CDI₃中每个兴趣点的重要度W(topie_i)，其中，T＝{t₁，t₂，…，t_s}，t_i(1≤i≤s)为用户讨论topic_i的各个时间点，对兴趣点的权重参考最大值进行归一化，按照兴趣点权重降序排列，根据需求选取n个兴趣点作为用户的最终动态兴趣，记为DI＝{(topic₁，w₁，T₁)，(topic₂，w₂，T₂)，…，(topic_m，w_m，T_m)}。

与现有技术相比，本发明的社交媒体用户动静兴趣挖掘方法，能更合理的描述社交媒体用户的兴趣特征，更适合社交媒体用户的兴趣特征的后续深入分析。

附图说明

图1是本发明的社交媒体用户动静兴趣挖掘方法的流程图；

图2是图1中步骤102所述的从用户user的背景信息profile中提取静态兴趣SI＝{SI₁，SI₂，…，SI_m}的流程图；

图3是图1中步骤103所述的从用户user的生成内容content中提取动态兴趣DI＝{DI₁，DI₂，…，DI_n}的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。

参照图1，本发明的社交网络用户动静兴趣挖掘方法，步骤如下：

步骤102、从用户user的背景信息profile中提取静态兴趣SI＝{SI₁，SI₂，…，SI_m}，每个兴趣点SI_i是一个二元组SI_i＝(kw_i，w_i)，1≤i≤m，其中，kw_i为关键词，w_i为用户对kw_i的喜好权重，参照图2，其具体步骤如下：

步骤201、用户在社会网络上定义自己的标签时，既可以在标签库中选取，也可以人工输入。标签可以理解为是有意义的字符串，把采集到的用户标签形成一个库，在分词时，将其作为一个整体识别，用户user的标签记为tag＝{tag₁，tag₂，…，tag_e}；

步骤202、对用户的简介分词，因为内容较短，不进行词频统计，得到用户user的简介词集为bi＝{bi₁，bi₂，…，bi_f}；

步骤203、对用户的职位分词，因为内容较短，不进行词频统计，得到用户user的职位词集为job＝{job₁，job₂，…，job_g}。

步骤204、统计tag、bi及job中各个词出现的次数，作为词的权重，权重参考最大值进行归一化，按照权重降序排列，根据需求选取m个词作为用户的静态兴趣，记为SI＝{(kw₁，w₁)，(kw₂，w₂)，…，(kw_m，w_m)}。

步骤103、从用户user的生成内容content中提取动态兴趣DI＝{DI₁，DI₂，…，DI_n}，参照图3，其具体步骤如下：

步骤301、对用户user的生成内容content中的每一条信息c_i(假设content有x条信息，1#i x)进行分词，从分词结果中选出频率大于一定阈值ζ₁的词作为候选的动态兴趣集合CDI₁。为提取出现频率不高，但有实际意义的词，该阈值不宜过大；

步骤302、对CDI₁中相邻的、且满足一定共现阈值ζ₂的词进行合并，得到候选的动态兴趣集合CDI₂。该过程需经过多次迭代统计，由原先的单个词，逐渐合并得到越来越长的候选动态兴趣，直到最终没有可合并的串为止；

步骤303、计算CDI₂中每个候选兴趣的上下文邻接类别来衡量其语用多样性，选取满足一定的上下文邻接类别阈值ζ₃的作为候选的动态兴趣集合CDI₃。邻接类别越大，表明其使用越灵活，成为有意义串的概率就越大。

步骤304、计算CDI₃中每个兴趣点的重要度W(topic_i)，其中，T＝{t₁，t₂，…，t_s}，t_i(1≤i≤s)为用户讨论topic_i的各个时间点，对兴趣点的权重参考最大值进行归一化，按照兴趣点权重降序排列，根据需求选取n个兴趣点作为用户的最终动态兴趣，记为DI＝{(topic₁，w₁，T₁)，(topic₂，w₂，T₂)，…，(topic_m，w_m，T_m)}。虽然社交网络包含了海量用户，其动态兴趣也涉及现实社会生活各个领域，但从统计学角度看，社交网络用户的动态兴趣符合幂律分布，即少量兴趣吸引了大量用户，而大量兴趣只被少数人关注。因此，可以提取用户的核心动态兴趣进行相似度计算，一方面可以解决社交网络特征稀疏的问题，另一方面还可以减少计算的工作量。

使用三种不同的社交网络用户兴趣挖掘方法用于相似用户的计算，比较用户动静兴趣挖掘方法的有效性。三种方法如下：

(1)方法1-SU-profile，基于用户背景挖掘用户的兴趣，使用用户背景中的简介、标签及职位等信息；

(2)方法2-SU-content，基于用户生成的内容挖掘用户的兴趣，不考虑用户兴趣的按时间的动态分布特性；

(3)方法3-SU-pc，本发明提出的方法，分别从用户背景中挖掘用户的静态兴趣，从用户生成的内容中挖掘用户的动态兴趣，考虑兴趣按时间的动态分布特性。

用户u₁，u₂的静态兴趣相似度计算使用Jaccard方式，如式(1)所示：

USISim (u_{1} . SI, u_{2} . SI) = \frac{| u_{1} . SI \cap u_{2} . SI |}{| u_{1} . SI \cup u_{2} . SI |} - - - (1)

用户u₁，u₂的动态兴趣中的两个兴趣点Int_i，Int_j的相似度计算如式(6)所示：

UDISim (u_{1} . {Int}_{i}, u_{2} . {Int}_{j}) = \frac{{Int}_{i} . KW \cdot {Int}_{j} . KW}{| | {Int}_{i} . KW | | \cdot | | {Int}_{j} . KW | |} * \frac{\min ({Int}_{i} . | T |, {Int}_{j} . | T |)}{\max ({Int}_{i} . | T |, {Int}_{j} . | T |)} - - - (2)

式(2)既考虑了兴趣点内容的相似度(余弦距离计算方法)，又考虑了兴趣点的时间周期。在计算时间持续度时，并没有限定兴趣点的时间一致性问题，这是因为即使对同一个兴趣点，不同用户获取信息的时间不同，不同用户的认知能力不同，都可能导致时间的偏差现象。

用户u₁和u₂的动态兴趣中的n个兴趣点的总相似度计算如式(3)所示：

UDISim (u_{1} . DI, u_{2} . DI) = Σ_{i = 1}^{n} Σ_{j = 1}^{n} UDISim (u_{1} . {Int}_{i}, u_{2} . {Int}_{j}) - - - (3)

对用户的静态兴趣相似度USISim(u₁.SI，u₂.SI)和动态兴趣相似度UDISim(u₁.DI，u₂.DI)进行整合，得到最终的用户兴趣相似度，如式(4)所示：

UISim(u₁，u₂)＝α*USISim(u₁.SI，u₂.SI)+(1-α)*UDISim(u₁.DI，u₂.DI) (4)

式(8)中α是静态兴趣和动态兴趣权重的调节系数，0≤α≤1，当α＝0时，只使用用户的微博内容计算兴趣相似度；当α＝1时，只使用用户的背景计算兴趣相似度。本发明中经过实验确定α＝0.6。

目前，还没有公开的用于社交网络用户兴趣挖掘、用户兴趣相似度计算的标准数据集。本发明以新浪微博为例，选取了时尚、企业管理、教育、军事、文化5个领域进行实验数据的采集、用户兴趣挖掘的分析。

在新浪微博搜索框中输入领域关键词进行检索，然后点击“找人”按钮，最多只能获取前50页用户，每页20个，共计1000个用户。5个领域使用的检索关键词及获取的用户数如表1所示。

表1 5个领域的关键词及获取用户数

对表1获取的6684个用户，进一步采集的信息包括：①对6684个用户进行1层关注、粉丝的扩展，新浪微博为防止他人获取用户的关注、粉丝进行恶意关注或广告骚扰，对非本人的关注、粉丝的访问量进行了限制，只能获取前5页内容，每页20个用户，关注和粉丝最多分别能获取100个用户，实际采集的用户总数为714472个；②采集714472个用户的背景(简介、标签及职位)、发表的微博(包括原创、转发或评论)，由于有些用户发表的微博过多，限制每个用户微博的发表时间是2014年1月1日-2014年12月31日，共计采集微博4206751条。

数据集中用户u₁的关注集记为u₁.follower，作为标准答案，通过方法SU-profile计算用户间的兴趣相似度选取出的关注集记为u₁.follower-SU-profile，令|u₁.follower|＝|u₁.follower-SU-profile|，方法SU-profile选取的关注的准确率计算如式(5)：

RUA = \frac{| u_{1} . follower \cap u_{1} . follower - SU - profile |}{| u_{1} . follower \cup u_{1} . follower - SU - profile |} - - - (5)

其他2种方法计算获取关注准确率的方式类似。

5个领域的8个检索关键词，每个随机选取100个用户，共计800个用户，7种方法得到的平均准确率RUA如表2所示。

表2 3种方法得到的平均RUA

由表2可见，3种方法得到的平均准确率都不高，主要原因是即使计算出的用户兴趣相似度较高，但该用户并不一定成为他的关注对象。方法SU-profile要好于方法SU-content的效果，说明从用户的背景挖掘用户的静态兴趣比从用户生成的内容中挖掘用户的动态兴趣更有效。主要原因是：一方面微博中用户产生的文本信息中常常包含大量的口语、省略语、符号，这些文本的语义信息很难挖掘；另一方面微博上有大量的非活跃用户，发表微博很少。方法SU-pc得到的效果最为理想，验证了将微博用户的兴趣分为静态兴趣和动态兴趣，采用不同的策略分别计算的优势所在。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种社交网络用户动静兴趣挖掘方法，其特征在于，其步骤如下：

2.根据权利要求1所述的社交网络用户动静兴趣挖掘方法，其特征在于，上述步骤A的具体步骤如下：

3.根据权利要求1所述的所述的社交网络用户动静兴趣挖掘方法，其特征在于，步骤B的具体步骤如下：

B1、把采集到的用户的标签形成一个库，在分词时，将其作为一个整体识别，用户user的标签记为tag＝{tag₁，tag₂，…，tag_e}；

B3、对用户的职位分词，因为内容较短，不进行词频统计，得到用户user的职位词集为job＝{job₁，job₂，…，job_g}；

4.根据权利要求1所述的所述的社交网络用户动静兴趣挖掘方法，其特征在于，上述步骤C中，所述从用户user的生成内容content中提取动态兴趣DI＝{DI₁，DI₂，…，DI_n}的具体步骤如下：

C4、计算CDI₃中每个兴趣点的重要度W(topic_i)，其中，T＝{t₁，t₂，…，t_s}，t_i(1≤i≤s)为用户讨论toptc_i的各个时间点，对兴趣点的权重参考最大值进行归一化，按照兴趣点权重降序排列，根据需求选取n个兴趣点作为用户的最终动态兴趣，记为DI＝{(topic₁，w₁，T₁)，(topic₂，w₂，T₂)，…，(topic_m，w_m，T_m)}。