CN105045822A

CN105045822A - 一种微博中特定用户的相似用户监控方法

Info

Publication number: CN105045822A
Application number: CN201510363990.XA
Authority: CN
Inventors: 仲兆满; 管燕
Original assignee: Huaihai Institute of Techology
Current assignee: Huaihai Institute of Techology
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2015-11-11

Abstract

本发明是一种微博中特定用户的相似用户监控方法，其步骤如下：(1)根据输入的特定用户su得到扩展自我网络EEN(Extended？Ego？Network)的用户集，记为EEN(su)＝FollowerCS(su)UFansCS(su)UVisitorCS(su)，其中FollowerCS(su)为su的关注集，FansCS(su)为su的粉丝集，VisitorCS(su)为su的访客集；(2)基于用户的关注、粉丝和动态微博的相似度及用户间的动态交互相互性，从EEN(su)中发现与su相似的用户集SimUser(su)íEEN(su)。本发明方法引入了访客类用户，增加了发现相似用户的全面性和多样性；引入了时间的动态划分，能更好的体现微博的动态性，使得发现的相似用户更为准确。

Description

一种微博中特定用户的相似用户监控方法

技术领域

本发明涉及一种信息挖掘技术，具体地说，涉及一种微博中特定用户的相似用户监控方法。

背景技术

当今，社交媒体被认为是Web上最有价值的信息资源之一。微博作为众多社交媒体中的一种，由于其传播性强、操作便利，很多用户在微博形成了类似于现实社会的交往圈子。传统媒体用户和话题之间是二部网络，微博由于引入了关注和粉丝，使得用户和话题之间是多模网络。由于微博信息传播性强、具有复杂的网络结构，近几年引起了学术界和产业界的高度重视。

微博中的相似用户是指在微博媒体上具有若干共同属性的用户群，这些属性主要包括用户的背景、关注、粉丝、微博、交互等信息。社交媒体上用户的信息总体上分为两类：一类是用户的背景(比如地点、教育、职业、兴趣等)和发表的微博信息；另一类是基于关注和粉丝构建的社交网络。基于这两类信息，已有的用户相似度计算方法大体上可以分为三类：(1)基于用户的背景和微博信息的方法，简记为SUDByText；(2)基于关注和粉丝的社交网络的方法，简记为SUDBySN；(3)混合方法，即对方法SUDByText和SUDBySN的融合计算，简记为SUDByTSN。当前，SUDByTSN是主流的研究方法。

在2011年美国出版的会议论文集：2011年可视化信息通信-交互会议(Proceedingsof2011VisualInformationCommunication-InternationalSymposium)，题目为：社交网络中基于兴趣的朋友发现和推荐(Sfviz:interest-basedfriendsexplorationandrecommendationinsocialnetworks)，作者是：GouL,YouF,GuoJ,WuL,ZhangXL,该文提出了使用用户的社交标签及网络的拓扑结构计算用户的相似度，网络拓扑包括用户的关注和粉丝，没有利用访客类用户。

在2013年德国出版的期刊：UserModelingandUser-AdaptedInteraction，题目为：Exploringsocialtaggingforpersonalizedcommunityrecommendations，作者是：KimHN,SaddikAE，该文从一个用户出发，基于社交标签寻找到他感兴趣的社区。社区的社交标签通过社区成员的标签提取，包括成员的兴趣、情感、地理位置、时间等。

在2014年中国出版的期刊：中文信息学报，题目为：基于排序学习的微博用户推荐，作者是：彭泽环,孙乐,韩先培,石贝，该文在进行微博用户推荐时，利用了用户的微博、个人信息、交互信息、社交拓扑信息等四类因素，认为用户的交互信息对相似用户的推荐性能影响最大。

在2014年中国出版的期刊：计算机学报，题目为：微博用户的相似性度量及其应用，作者是：徐志明,李栋,刘挺,李生,王刚,袁树仑，该文在度量用户的相似度时，考虑了用户的背景信息、微博、社交和交互信息。以50个用户作为种子节点，爬取了1层关联的粉丝、关注类用户，并认为社交信息在计算用户的相似度时最有价值。

发明内容

本发明所要解决的技术问题是针对以上所述现有技术存在的问题和不足，提供一种微博媒体监控相似用户方法，该方法可以增加发现相似用户的全面性和多样性，提高发现相似用户的准确性。

本发明所要解决的技术问题是通过以下的技术方案来产现的。本发明是一种微博中特定用户的相似用户监控方法，其特点是，其步骤如下：

A、根据输入的特定用户su得到扩展自我网络EEN——ExtendedEgoNetwork的用户集，记为EEN(su)＝FollowerCS(su)UFansCS(su)UVisitorCS(su)，其中FollowerCS(su)为su的关注集，FansCS(su)为su的粉丝集，VisitorCS(su)为su的访客集；

其具体步骤如下：

A1、获取时间片TimeSpan内用户su的所有微博集MB-su，包括原创、转发、评论的微博；

A2、获取su的关注集FollowerCS(su)和粉丝集FansCS(su)；

A3、根据su的微博集MB-su提取访客集VisitorCS(su)，将三类用户记为EEN(su)＝FollowerCS(su)UFansCS(su)UVisitorCS(su)；

B、基于用户的关注、粉丝和动态微博的相似度，以及用户间的动态交互相互性，从EEN(su)中发现与su相似的用户集SimUser(su)íEEN(su)，其具体步骤如下：

B1、获取每个用户user_i EEN(su)在时间片TimeSpan内的微博集MB-user_i、关注集FollowerCS(user_i)、粉丝集FansCS(user_i)；

B2、计算用户su与user_i EEN(su)的动态微博相似度，记为MBSim(su,user_i)，其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，l为指数衰减参数，用户user_i在T_j时间片的微博向量化表示为：

K W - {user}_{i}^{T_{j}} = {< {kw}_{1} - {user}_{i}^{T_{j}}, w_{1} - {user}_{i}^{T_{j}} >, < {kw}_{2} - {user}_{i}^{T_{j}},

w_{2} - {user}_{i}^{T_{j}} >, L, < {kw}_{y} - {user}_{i}^{T_{j}}, w_{y} - {user}_{i}^{T_{j}} >,

其中，为特征项权重，使用TF*IDF方式计算，在时间片Tj两个用户su,user_i的微博相似度使用余弦夹角方式计算：

M B S i n ({su}^{T_{j}}, {user}_{i}^{T_{j}}) = \frac{K W - {su}^{T_{j}} \cdot K W - {user}_{i}^{T_{j}}}{| | K W - {su}^{T_{j}} | | \cdot | | K W - {user}_{i}^{T_{j}} | |};

B3、计算用户su与user_i EEN(SpecUser)的动态交互相关性，记为RC(su,user_i)，其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，l为指数衰减参数，在时间片Tj两个用户su,user_i的交互相关性为他们的交互次数，记为m个时间片的最大交互次数记为RCmax，以RC_max为参考对用户的交互相关性进行归一化：

R C ({su}^{T_{j}}, {user}_{i}^{T_{j}}) = \frac{R C ({su}^{T_{j}}, {user}_{i}^{T_{j}})}{{RC}_{\max}};

B4、计算用户su与user_i EEN(SpecUser)的关注相似度，记为FollowerSim(su,user_i)，

F o l l o w e r S i m (s u, {user}_{i}) = \frac{| F o l l o w e r C S (s u) I F o l l o w e r C S ({user}_{i}) |}{| F o l l o w e r C S (s u) U F o l l o w e r C S ({user}_{i}) |};

B5、计算用户su与user_i EEN(SpecUser)的粉丝相似度，记为FansSim(su,user_i)，

F a n s S i m (s u, {user}_{i}) = \frac{| F a n s C S (s u) I F a n s C S ({user}_{i}) |}{| F a n s C S (s u) U F a n s C S ({user}_{i}) |};

B6、最终得到用户su与user_i EEN(SpecUser)的相似度Sim(su,user_i)，

S i m (s u, {user}_{i}) = {\log_{2}}^{2 + R C (s u, {user}_{i}))} * (l_{1} * F o l l o w e r S i m (s u, {user}_{i}) + l_{2} * F a n s S i m (s u, {user}_{i}) + l_{3} * M B S i m (s u, {user}_{i})) .

本发明方法与现有技术相比较，具有以下效果：该方法引入了访客类用户，增加了发现相似用户的全面性和多样性；引入了时间的动态划分，能更好的体现微博的动态性，使得发现的相似用户更为准确。

附图说明

图1是本发明方法的一种流程图；

图2是图1中步骤101所述的得到扩展自我网络的用户集EEN(su)的流程图；

图3是图1中步骤102所述的从EEN(su)中发现与su相似的用户集SimUser(su)的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。

实施例1，一种微博中特定用户的相似用户监控方法，其步骤如下：

其具体步骤如下：

A2、获取su的关注集FollowerCS(su)和粉丝集FansCS(su)；

B2、计算用户su与user_i EEN(su)的动态微博相似度，记为MBSim(su,user)，其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，I为指数衰减参数，用户user_i在T_j时间片的微博向量化表示为：

K W - {user}_{i}^{T_{j}} = {< {kw}_{1} - {user}_{i}^{T_{j}}, w_{1} - {user}_{i}^{T_{j}} >, < {kw}_{2} - {user}_{i}^{T_{j}},

w_{2} - {user}_{i}^{T_{j}} >, L, < {kw}_{y} - {user}_{i}^{T_{j}}, w_{y} - {user}_{i}^{T_{j}} >,

其中，为特征项权重，使用TF*IDF方式计算，在时间片T_j两个用户su,user_i的微博相似度使用余弦夹角方式计算：

M B S i m ({su}^{T_{j}}, {user}_{i}^{T_{j}}) = \frac{K W - {su}^{T_{j}} \cdot K W - {user}_{i}^{T_{j}}}{| | K W - {su}^{T_{j}} | | \cdot | | K W - {user}_{i}^{T_{j}} | |};

B3、计算用户su与user_i EEN(SpecUser)的动态交互相关性，记为RC(su,user_i)，其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，I为指数衰减参数，在时间片T_j两个用户su,user_i的交互相关性为他们的交互次数，记为m个时间片的最大交互次数记为RC_max，以RC_max为参考对用户的交互相关性进行归一化：

R C ({su}^{T_{j}}, {user}_{i}^{T_{j}}) = \frac{R C ({su}^{T_{j}}, {user}_{i}^{T_{j}})}{{RC}_{\max}};

F o l l o w e r S i m (s u, {user}_{i}) = \frac{| F o l l o w e r C S (s u) I F o l l o w e r C S ({user}_{i}) |}{| F o l l w e r C S (s u) U F o l l o w e r C S ({user}_{i}) |};

F a n S i m (s u, {user}_{i}) = \frac{| F a n s C S (s u) I F a n s C S ({user}_{i}) |}{| F a n s C S (s u) U F a n s C S ({user}_{i}) |};

B6、最终得到用户su与user_i EEN(SpecUser)的相似度Sim(su,user_i)，

S i m (s u, {user}_{i}) = {\log_{2}}^{2 + R C (s u, {user}_{i})} * (l_{2} * F o l l o w e r S i m (s u, {user}_{i}) + l_{2} * F a n s S i m (s u, {user}_{i}) + l_{3} * M B S i m (s u, {user}_{i})) .

实施例2，参照图1，一种微博中特定用户的相似用户发现方法，该方法包括如下步骤：

步骤101、得到扩展自我网络的用户集EEN(su)，参照图2，其具体步骤如下：

步骤201、获取时间片TimeSpan内用户su的所有微博集MB-su，包括原创、转发、评论的微博；使用HtmlUnit包，模拟浏览器的模式获取用户su的所有微博，如果一次搜索显示的微博过多，可以采用时间约束的方法，分时间逐次获取；

步骤202、获取su的关注集FollowerCS(su)和粉丝集FansCS(su)；同样使用HtmlUnit包，模拟浏览器的模式获取用户su的关注和粉丝；

步骤203、根据用户su的微博集MB-su提取访客集VisitorCS(su)，如果某用户user_p对用户su的微博进行了转发/评论，并且user_p不是su的关注、粉丝，则将user_p添加到用户访客集VisitorCS(su)。最终得到EEN(su)＝FollowerCS(su)UFansCS(su)UVisitorCS(su)。

步骤102、从EEN(su)中发现与su相似的用户集SimUser(su)，参照图3，其具体步骤如下：

步骤301、获取每个用户user_i EEN(su)在时间片TimeSpan内的微博集MB-user_i、关注集FollowerCS(user_i)、粉丝集FansCS(user_i)；同样使用HtmlUnit包，模拟浏览器的模式获取用户su的微博、关注和粉丝。

步骤302、计算用户su与user_i EEN(su)的动态微博相似度，记为MBSim(su,user_i)。

用户的很多博文过于短小，比如“赞了”、“好的”、“喜欢”、“期待中”等内容，对微博中常用的口头语进行了整理，目前整理的微博口头语词库共包括173条。基于这些词库对微博内容进行过滤，过滤掉的微博不再参与后期的特征提取及微博的相似度计算，但可以作为用户之间的交互行为，用于用户间的交互相关性的计算。

因为微博样本的特征稀疏，采用互信息的方法从微博中选取最有代表性的若干个特征，用于后期的微博相似度计算。

一个用户user_i在时间片T_j发表的所有微博记为基于互信息的微博特征词提取如下：

●对进行分词、过滤通用词后，获取的特征词集合为

{WS}_{i}^{T_{j}} = {W_{i 1}^{T_{j}}, W_{i 2}^{T_{j}}, L, W_{i x}^{T_{j}}}

(假设x个特征词)；

●计算两个词的互信息，计算方法如下：

M I (w_{i u}^{T_{j}}, w_{i v}^{T_{j}}) = \frac{f (w_{i u}^{T_{j}}, w_{i v}^{T_{j}})}{f (w_{i u}^{T_{j}}) + f (w_{i v}^{T_{j}}) - f (w_{i u}^{T_{j}}, w_{i v}^{T_{j}})},

其中，为在某个窗口范围内词和共同出现的次数，由于微博比较短小，将窗口定义为每条微博范围内。对x个特征词，进行两两计算得到的互信息矩阵MIM(对称矩阵，同一个特征词互信息不做计算，值设为0)为：

[\begin{matrix} w_{i 1}^{T_{j}} & w_{i 1}^{T_{j}} & ... & w_{i w}^{T_{j}} \\ w_{i 1}^{T_{j}} & 0 & M I (w_{i 1}^{T_{j}}, w_{i 2}^{T_{j}}) & ... & M I (w_{i 1}^{T_{j}}, w_{i w}^{T_{j}}) \\ w_{i 2}^{T_{j}} & ... & 0 & ... & M I (w_{i 2}^{T_{i}}, w_{i w}^{T_{i}}) \\ ... & ... & ... & ... & ... \\ w_{i w}^{T_{j}} & ... & ... & ... & 0 \end{matrix}];

●从MIM中选取互信息度大的y个词作为的最终特征

用户user_i的微博可向量化表示为：

K W - {user}_{i}^{T_{j}} = {< {kw}_{1} - {user}_{i}^{T_{j}}, - {user}_{i}^{T_{j}} >, < {kw}_{2} - {user}_{i}^{T_{j}}, w_{2} - {user}_{i}^{T_{j}} >, L, < {kw}_{y} - {user}_{i}^{T_{j}}, w_{y} - {user}_{i}^{T_{j}} >,

其中，为特征项的权重，使用TF*IDF方式计算。

在时间片T_i内两个用户su,user_i的微博相似度计算方法使用经典的余弦相似度计算方法如下：

M B S i m ({su}^{T_{j}}, {user}_{i}^{T_{j}}) = \frac{K W - {su}^{T_{j}} \cdot K W - {user}_{i}^{T_{j}}}{| | K W - {su}^{T_{j}} | | \cdot | | K W - {user}_{i}^{T_{j}} | |} .

步骤303、计算用户su与user_i EEN(SpecUser)的动态交互相关性，记为RC(su,user_i)。

在时间片T_j两个用户su,user_i的交互相关性为他们的交互次数，记为m个时间片的最大交互次数记为RC_max，以RC_max为参考对用户的交互相关性进行归一化，

R C ({su}^{T_{j}}, {user}_{i}^{T_{j}}) = \frac{R C ({su}^{T_{j}}, {user}_{i}^{T_{j}})}{{RC}_{\max}} .

借鉴微博用户圈子的短时平滑性现象，在计算用户动态交互相关性时，引入指数衰减来刻画这种关系，得到：其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，l为指数衰减参数。

步骤304、计算用户su与user_i EEN(SpecUser)的关注相似度，记为FollowerSim(su,user_i)，使用Jaccard方法，

F o l l o w e r S i m (s u, {user}_{i}) = \frac{| F o l l o w e r C S (s u) I F o l l o w e r C S ({user}_{i}) |}{| F o l l o w e r C S (s u) U F o l l o w e r C S ({user}_{i}) |} .

步骤305、计算用户su与user_i EEN(SpecUser)的粉丝相似度，记为FansSim(su,user_i)，同样使用Jaccard方法，

F a n s S i m (s u, {user}_{i}) = \frac{| F a n C S (s u) I F a n s C S ({user}_{i}) |}{| F a n s C S (s u) U F a n s C S ({user}_{i}) |} .

步骤306、最终得到用户su与user_i EEN(SpecUser)的相似度Sim(su,user_i)，

S i m (s u, {user}_{i}) = {\log_{2}}^{2 + R C (s u, {user}_{i}))} * (l_{1} * F o l l o w e r S i m (s u, {user}_{i}) + l_{2} * F a n s S i m (s u, {user}_{i}) + l_{3} * M B S i m (s u, {user}_{i})) .

使用四种不同的相似用户发现方法，比较相似用户发现的准确性及分布情况。四种方法如下：

(1)方法1-SUDByText，基于用户的背景和微博计算用户的相似度。根据新浪微博的特点，选取的用户背景信息包括简介、标签、教育、职业信息。背景信息的相似度计算采用了Jaccard方法。微博的相似度计算没有按时间片划分考虑微博的动态性。背景及微博相似度线性整合时的取值分别为0.3和0.7。

(2)方法2-SUDBySN，基于关注和粉丝的社交网络计算用户的相似度。关注和粉丝的相似度计算采用了Jaccard方法。最终的相似度对关注和粉丝的相似度进行了线性整合，关注相似度的权重为0.6，粉丝相似度的权重为0.4。用户间的交互相关性计算没有考虑交互的动态性。

(3)方法3-SUDByTSN，已有的混合方法，基于用户的文本信息和社交网络计算用户的相似度。文本信息包括微博及简介、标签、教育、职业信息等背景信息，社交网络仅利用了关注和粉丝，没有考虑访客。背景信息及微博的相似度计算和方法1-SUDByText相同；关注和粉丝的相似度计算和方法2-SUDBySN相同。

(4)方法4-SUDByTSN-Zhong，本发明提出的混合方法，该方法仅选取了用户的微博信息，社交网络构建时利用了关注、粉丝和访客三类用户。为了减少统计分析量，对用户扩展的自我网络涉及的三类用户，第1层扩展时采集了关注和粉丝的基本信息及其在2015年1月-5月发表的所有微博，并从微博中提取出访客，第2层扩展时仅采集了关注和粉丝的用户名。时间片的指数衰减参数I＝0.3，计算用户相似度时，关注、粉丝及微博相似度的权重分别为I₁＝0.5,I₂＝0.2,I₃＝0.3，时间片按周划分。

以新浪微博为例，选取了学术研究、企业管理、教育、文化、军事5个领域的50个种子用户进行实验数据的采集与分析。

在新浪微博搜索框中输入领域关键字进行检索，然后点击“找人”按钮，选取了“个人认证”及“普通用户”两类用户，使用HtmlUnit进行采集。有些领域用户的关注或者粉丝过多，超过几万、甚至是上百万，为了分析的方便，对获取的用户进行了筛选，关注及粉丝数限定在5000以内。从每个领域中随机选取10个种子用户进行实验分析，微博的采集时间限定在2015年1月1日-2015年5月28日，共计5个月。5个领域获取的认证及普通用户情况见表1所示。

表1.实验选用的5个领域

序号	领域	关键字	认证及普通用户数
				1	学术研究	信息检索	490
2	企业管理	互联网高管	45
				3	教育	幼儿教育	6049
4	文化	谍战	876
				5	军事	歼20	728

目前，新浪微博为防止他人获取用户的关注、粉丝进行恶意关注或广告骚扰，对非本人的关注、粉丝的访问量进行了限制，只能获取前5页内容，大约100个关注、100个粉丝。从统计分析的角度而言，抽取100个关注和100个粉丝样本进行统计分析也是有代表性的。

5个领域50个用户的关注、粉丝、访客及微博数量如表2所示。

表2.50个用户的关注、粉丝、访客及微博数

为了计算特定用户与每个关注、粉丝及访客的相似度，需扩展下一层采集关注、粉丝及访客三类用户的关注、粉丝及微博。同样的，每个用户的关注和粉丝的个数都为100，采集微博的时间限定在2015年1月1日-2015年5月28日。

用户的微博内容一方面是原创的，另一方面是转发/评论的，将转发/评论的微博同样作为用户的微博内容，但转发/评论同一微博多次时仅算1次。

最终获取的用于实验分析的关注类用户总数为2157843、粉丝类用户总数为2086613、微博总数为932531。

●发现相似用户的准确性比较

由于微博用户的海量性，发现相似用户的常用评价指标是Pn，即取排名前n的相似用户，判断是真正相似用户的比例。对微博用户而言，由于每个用户涉及的信息较杂，包括关注、粉丝、微博、交互等要素，靠人工判断难度很大。所以，对Pn进行改进，提出了Sn的评价指标，即计算每种方法得到的前n个相似用户的得分。

假设有m种评价方法，方法Method_i(1￡i￡m)得到的前n个相似用户的集合为：Method_i＝{user_i1,user_i2,L,user_in}，将user_i1在每种方法得到的相似用户集出现的总次数记为Count(user_i1)，则方法Method_i的该方法不需要人工干预，容易实现，且相对客观。

要注意的是，本发明提出的方法SUDByTSN-Zhong的相似用户由于扩展到了访客类，而这些访客在方法1、方法2和方法3中是无法得到的。因此，在计算SUDByTSN-Zhong的Sn指标时，对访客进行如下处理：对其他三种方法，分别计算访客与指定用户的相似度，对方法Method_j {SUDByText,SUDBySN,SUDByTSN}而言，如果访客visitor_i的相似度值可以进入前n，则认为visitor_i存在于Method_j的相似用户集中。

对50个微博用户，四种方法得到的平均Sn如表3所示。

表3.四种方法得到的50个微博用户的Sn

由表3可见，对50个用户的平均Sn而言，方法SUDByTSN-Zhong得分最高，为34.8，方法SUDByText得分最低，为29.4。在四种方法中，SUDByTSN与SUDByTSN-Zhong相比，方法SUDByTSN-Zhong的Sn得分高于方法SUDByTSN，这是因为SUDByTSN-Zhong引入时间的动态约束，使得发现的用户更为准确。同时，SUDByTSN与SUDByTSN-Zhong的得分都较高，这进一步验证了，混合型社交网络分析的优势所在。方法SUDByText仅利用了用户的背景和微博信息，方法SUDBySN仅使用了微博的社交网络信息，包括关注及粉丝，这两种方法都有一定的缺陷。就SUDByText和SUDBySN而言，方法SUDBySN要优于SUDByText，这也进一步验证了用户的社交信息比用户的其他信息更有利用价值。

对5个领域而言，“学术研究”和“军事”两个领域得分较高，主要原因是获取该领域用户时使用了“信息检索”、“歼20”进行搜索，关键词的范围限定比较具体，得到种子用户的朋友圈比较窄小，所发表的微博比较专业，每个用户的相似用户得分比较平稳。而对于另外三个领域(“企业管理”、“教育”和“文化”)的用户而言，他们的朋友圈往往过大，粉丝都可能达到几十万人，日常所发微博也比较发散，对相似用户的计算干扰较大。这说明，用户所属的领域范围越是狭小、专业化程度高，在发现相似用户时的效果越好。

此外，对50个用户发现的500个相似用户(每个用户取排名靠前的10个相似用户)的活跃性进行统计，发现在5个月的时间段内，500个用户中，95％以上的用户都有100次以上的转发、评论或者发表微博的行为，只有5％的用户不太活跃。不太活跃的用户之所以排名靠前，原因是计算相似度时的关注、粉丝指标得分较高。这说明，本发明提出的方法更有利于发现微博中的活跃用户。

●发现相似用户的分布比较

已有方法发现的相似用户仅分布于关注和粉丝两类，本发明提出的方法SUDByTSN-Zhong发现的相似用户分布于关注、粉丝和访客三类。

相似用户的分布评价指标包括三个：

(1)关注比例，(2)粉丝比例，(3)访客比例，

对5个领域的用户，四种方法得到的p_follower、p_fans和p_visitor结果如表4所示。表4中，发现的相似用户可能同时属于多类用户(关注和粉丝)，计算指标时，需重复统计。比如一个相似用户既是关注，又是粉丝，在统计关注和粉丝的分布比例时，需各自计算1次。

表4.四种方法得到的相似用户的分布情况

由表4可见，方法SUDByTSN-Zhong通过扩展传统的自我网络，引入了访客类用户，增加了获取的相似用户的多样性。同时，由于获取的用户都是按照相似度排名的，引入访客后，获取到了更加相似的用户。对四种方法而言，p_follower普遍较大，SUDByText的平均p_follower＝74％，SUDBySN的平均p_follower＝75％，SUDByTSN的平均p_follower＝78％，SUDByTSN-Zhong的平均p_follower＝56％，这说明了微博的相似用户在关注类用户中比例最大。对方法SUDByTSN-Zhong而言，访客的比例(32％)稍大于粉丝的比例(30％)。实验的过程中，发现访客类用户的相似度之所以能够排在前面，主要是用户间的微博相似度比较大，有很多用户对某个用户user_i的微博进行了转发或者评论，但这些用户其实并不是用户user_i的关注或者粉丝。这也进一步说明了在相似用户发现的过程中，访客类用户利用的优势。再加上有些微博(比如新浪)开始限制用户获取非本人的关注和粉丝的个数，借助访客发现相似用户的思路更是值得借鉴的。

对5个领域发现的相似粉丝类用户及访客类用户而言，由于“学术研究”和“军事”选取的用户领域比较狭小，“学术研究”和“军事”的粉丝类相似用户的比例分别为34％和36％，访客类相似用户的比例分别为36％和38％。这同样说明了，对于领域范围较窄的用户，粉丝/访客既然对某用户进行了转发/评论，表明该粉丝/访客在朋友圈或者微博话题方面与此用户有较高的相似度。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种微博中特定用户的相似用户监控方法，其特征在于，其步骤如下：

其具体步骤如下：

A2、获取su的关注集FollowerCS(su)和粉丝集FansCS(su)；

B1、获取每个用户在时间片TimeSpan内的微博集MB-user_i、关注集FollowerCS(user_i)、粉丝集FansCS(user_i)；

B2、计算用户su与的动态微博相似度，记为MBSim(su,user_i)，其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，l为指数衰减参数，用户user_i在T_j时间片的微博向量化表示为：其中，为特征项权重，使用TF*IDF方式计算，在时间片T_j两个用户su,user_i的微博相似度使用余弦夹角方式计算：

B3、计算用户su与的动态交互相关性，记为RC(su,user_i)，其中，T_j为某个时间片，T_j-T₁的计算结果为时间片相差个数，l为指数衰减参数，在时间片T_j两个用户su,user_i的交互相关性为他们的交互次数，记为m个时间片的最大交互次数记为RC_max，以RC_max为参考对用户的交互相关性进行归一化：

B4、计算用户su与的关注相似度，记为FollowerSim(su,user_i)，

B5、计算用户su与的粉丝相似度，记为FansSim(su,user_i)，

B6、最终得到用户su与的相似度Sim(su,user_i)，