CN111026976B

CN111026976B - 微博特定事件关注群体识别方法

Info

Publication number: CN111026976B
Application number: CN201911282150.5A
Authority: CN
Inventors: 黄改娟; 刘浩天; 王寒茹; 张仰森; 段瑞雪
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2024-01-09
Anticipated expiration: 2039-12-13
Also published as: CN111026976A

Abstract

一种微博特定事件关注群体识别方法，通过改进PageRank算法对特定事件的重点用户进行识别，在对特定事件的重点关注用户进行识别的基础上，对重点关注用户进行特征抽取，采用基于特征映射的方式对用户属性特征进行向量表征，然后采用模糊c‑means聚类算法对特定事件关注用户进行聚类，识别出某个特定事件下重点关注的人群层次。本发明的方法能够很好的识别出特定事件的重点关注用户，同时采用特征映射的方法对用户群体聚类分析，在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。

Description

微博特定事件关注群体识别方法

技术领域

本发明涉及一种微博特定事件关注群体识别方法，属于群体识别方法技术领域。

背景技术

随着互联网的高速发展，社交媒体因其方便性、时效性迅速成为人们表达意见、抒发观点的重要载体。微博以用户交互为核心，用户更倾向于关注与自己有相同兴趣爱好、或有现实社会关系的用户，具有相同或相似的属性的用户往往形成一个群体。群体现象在社交网络中普遍存在，对于特定的群体而言，内部成员紧密联系，而群体内成员与外部的关系则相对稀疏。

微博中活跃着形形色色的用户群体，内部成员往往是某一特定事件的发布者、传播者、关注者。当一个事件发生之后，迅速会在微博上传播开来，吸引一大批特定人群去关注事件的发展与走向，这一庞大群体中，大多数人持旁观者角度，以数量优势默默影响事件的发展趋势，而事件的发布者和传播者往往是事件的当事人或者有影响力的社交账号，能够对事件的发展起到关键性乃至决定性的作用。识别微博中特定事件的关注群体这对于微博用户来说，有助于扩大社交圈，发现更多与自己有相同兴趣爱好的人；对于微博运营商来说，实现群体划分有助于实现精准营销；对于社会而言，由于发现潜在热点话题并及时追踪，便于决策者更好地对社会舆论实现监督和管理。

发明人在对群体发现的研究进行详细调研的基础上，同时对社团发现领域的相关研究加以调研，以求能对关注群体识别提供借鉴参考作用。

在社团发现的研究中，Xiu等人针对COPRA算法的随机更新和稳定性差的缺点，提出了一种基于标签传播的重叠社区发现算法。该算法通过遍历每个节点来计算节点的值，并找到参考节点以确定划分的社区数。然后参考节点用于更新相邻节点的标签以标识重叠节点，并且在找到所有重叠节点时可以对重叠社区进行划分。李孔文等人提出NCC算法，利用聚集系数对局部社团进行划分，该算法不需要考虑全局信息，在时间复杂度上具有一定的优势，然而，该算法的缺点在于最终解可能不是全局最优解。Gulmera和Amaral提出的采用基于模拟退火算法的GA算法解决了NCC算法的缺点。王雪梅和王义和将模拟退火算法(SA)与遗传算法(GA)进行结合应用在群体发现的研究上，提出了两种改进算法SSB1和SSB2来分析和测试他们的探索能力。该算法主要有两个缺陷：(1)无法准确的找到社团的边界；(2)算法复杂度高。

在面向微博特定群体发现的研究领域中，李蕾提出了基于TF-IDF算法的群体特征抽取算法，该算法对语义相似度进行了改进并且提出了用户主体相关度的概念，结合微博文本分析方法和关系分析方法对特定群体进行识别，结果提高搜索特定群体的效率和时间。王越提出了基于微博用户自定义兴趣标签的动态网络模型，该算法以差分分析的方式识别社群归属变化的节点，然后计算这些节点的社区隶属度，以实现动态网络的社区划分。Shen和Cheng等人提出了一种同时检测复杂群体结构重叠性和层次性的算法(Eagle)，该算法采用凝聚框架使得Jaccard系数较大的两个类簇合成一个社团，扩展了模块性的质量函数，该算法在实际网络结构中的应用实例取得了很好的效果，但未考虑网络交互特征。

综上所述，关于社团发现和微博特定事件关注群体识别方面的研究，有了很大的进步，对群体识别和社团划分领域具有推动性的贡献。但是面向微博特定事件的关注群体识别的相关研究还是有限的，而且现有的社团发现算法的时间复杂度高，同时忽略了网络交互特征。

发明内容

为了解决现有技术存在的问题，本发明通过改进PageRank算法对重点用户进行识别，在基于网络特征的特定重点用户识别算法基础上，对识别出的重点用户进行特征抽取，采用基于特征映射的方式对用户属性特征进行向量表征，然后采用模糊c-means聚类算法对特定事件关注用户进行聚类，识别出某个特定事件下重点关注的人群层次。

本发明为了实现上述的技术目的，采用如下的技术方案。

一种微博特定事件关注群体的识别方法，包括如下步骤：

S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法，识别特定事件的重点关注用户。

S2对S1识别出的重点关注用户进行特征抽取，采用基于特征映射的方式对用户属性特征进行向量表征。

S3采用模糊c-means聚类算法对重点关注用户进行聚类，识别重点关注用户的人群层次。

进一步的，本发明提供一种微博特定事件关注群体的识别方法，S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法，识别特定事件的重点关注用户，其具体方法如下。

S11构建特定事件的微博用户网络结构图，即有向加权图G＝(V，E，P，W)

将整个微博社交平台看成一张图，图节点是微博用户自身，微博用户的交互关系构成边，而特定事件的关注群体之间的交互可以视为其中的子图，该图为特定事件的微博用户网络结构图，用有向加权图G＝(V，E，P，W)表示。

其中，V为特定事件下关注用户的集合V＝{v₁，v₂，v₃，v₄，…，v_n}，其中v_i为某个微博用户，当微博用户v_i对特定事件进行了发表、转发或者评论操作时，将微博用户v_i加入到特定事件关注用户集合中，其中v_i∈V。

E为特定事件下相关微博用户交互的集合E＝{e₁₁，e₁₂，e₁₃，e₁₄，…，e_mn}，其中e_ij为微博用户v_i与微博用户v_j对特定事件进行了交互操作，具体为微博用户v_i转发或者评论了微博用户v_j在特定事件下的相关微博，该交互具有方向性，即

P为特定事件下相关微博用户权重的集合P＝{p₁，p₂，p₃，p₄，…，p_n}，其中p_i为微博用户v_i的权重，满足p_i∈P。

W为特定事件下用户交互关系权重的集合，W＝{w₁₁，w₁₂，w₁₃，…，w_mn}，其中w_ij为微博用户v_i与微博用户v_j之间的交互关系e_ij的权重，满足w_ij∈W。

S12结合用户属性权重和用户交互属性权重构建DLRank排序算法，迭代收敛后，将DLR值排名靠前的用户当作该事件的重点关注用户。

识别特定事件的重点关注用户类似于寻找微博用户网络结构图中的核心节点，关于对微博影响力的研究中，像PageRank以及复杂网络中心性分析法，大多以互粉关系以及自身属性构建模型，基本忽略了用户自身属性的权重和用户交互关系的权重。

而事实上，每个微博用户都具有一定的影响力，影响力越大的用户越容易带动特定事件的观点走向，本申请在PageRank网页排名算法的基础上，增加了用户属性权重和用户交互属性权重值的特征，构建了基于网络结构特征的特定事件的重点关注用户识别算法DeepLeaderRank(DLRank)。

具体的，微博用户之间相互评论或者转发微博构成微博用户网络结构图的边，一条有向边表示一次投票策略，边的权重值采用微博用户之间的交互属性权重值衡量，边的权重值的大小表示用户之间互动的紧密度，同时节点自身具有权重值即用户自身属性权重。用户自身属性权重值越大，说明用户影响力越大；用户交互关系权重值越大，说明用户间的影响力越大。本申请结合用户属性权重和用户交互属性权重构建DLRank排序算法。

具体的，DLRank算法的迭代公式如下：

π^(k+1)T＝(1-α)e^T+απ^(k)TG (1)

其中，π^(k)T为迭代更新前的所有微博用户的DLR值，π^(k+1)T为迭代更新后的所有微博用户的DLR值，α为阻尼系数，e^T为投票矩阵的单位行向量，G为投票矩阵，其中的元素gij为投票权重，其计算方法公式为：

由于在微博用户网络结构图中会出现一些出度为0的节点，也就是该微博用户没有任何与其他人进行交互，这类节点称为死节点(仅原创微博，没有评论或者转发他人微博)，这些死节点会影响算法的效果。因此，引入阻尼系数α来解决图稀疏的问题，本申请阻尼系数α设置为α＝0.85。

DLRank是迭代式的算法，算法收敛后的矩阵为π^*，收敛的条件是矩阵A满足可逆条件，迭代算法的解如公式(3)所示，矩阵A如公式(4)所示：

π^*＝(1-α)e^T+απ^(*)G (3)

A＝E-αG (4)

按照迭代公式计算所有节点的DLR值，最终迭代收敛后，将DLR值排名靠前的用户当作该特定事件的重点关注用户。

进一步的，本发明的一种微博特定事件关注群体的识别方法，S2，具体的，对S1识别出的重点关注用户进行特征抽取，采用基于特征映射的方式对用户属性特征进行向量表征。

S21对S1识别出的特定事件的重点关注用户进行信息采集，抽取其标签和认证信息。

具体的，对特定事件的重点关注用户进行信息采集，所述信息包括微博用户的ID、昵称、标签、认证信息、关注数、粉丝数、微博数、微博内容、会员等级、所在省/市等，提取其认证信息和标签作为用户特征。

S22对用户特征进行预处理和格式化。

具体的，采用NLPIR分词***对认证信息和标签的长词条进行分词，将该认证信息或者标签用词的集合来表示。

S23构建重点关注用户特征集合。

构建用户特征集合，具体的，用户特征集合表示为F_u＝{uw₁,uw₂,uw₃,…,uw_m}，其中m表示当前用户特征包含的特征词数目；

特征维集合表示为F_d＝{dw₁,dw₂,dw₃,…,dw_n}，其中n表示特征维所包含的词数目。

S24获得重点关注用户特征初始特征值。

重点关注用户初始特征值计算公式为：

其中，X为微博用户u_i的特征集合数量，x为每个特征在该用户特征集合出现的次数。

S25计算用户特征与特征维之间的平均语义相似度。

用户特征集合与特征维集合之间的语义相似度计算公式为：

其中，f_u为用户特征集合，f_d为特征维集合，Sim(uw_i,dw_j)为用户特征与特征维之间的平均语义相似度，uw_i为包含i个词的用户特征的集合，dw_j为包含j个词的特征维集合。

词语相似度利用HowNet进行计算，其公式为：

其中，词语W₁、W₂在HowNet中分别有n和m个义原，S_1i为W₁的第i个义原，S_2j为W₂的第j个义原，Sim(S₁,S₂)表示两个义原S_1i、S_2j之间的相似度，其公式为：

其中，β_i(1≤i≤4)为调节参数，且满足β₁+β₂+β₃+β₄＝1,β₁≥β₂≥β₃≥β₄，本申请中，β_i分别取值为：0.5、0.2、0.17和0.13。

S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量，将特征的特征值与最大相似度的乘积作为特征维的特征值。

具体的，特征维对应的特征值的计算公式为，

其中，max{SF((f_u)_a,f_d)}表示用户的X个特征分别与特征维中f_d计算后的最大语义相似度值，f_d((f_u)_a)表示当取得最大相似度时该特征自身的特征值，T(f_d)为特征维f_d对应的特征值。

将每个重点用户用m维的向量进行表征，实现用户特征到特征维的特征映射。

进一步的，本发明的一种微博特定事件关注群体的识别方法，S3采用模糊c-means聚类算法对特定事件关注用户进行聚类，识别出某个特定事件下重点关注的人群层次，其具体方法如下。

模糊c-means聚类算法(Fuzzy c-means Clustering Algorithm)，简称FCMA，该算法的目标是计算每个元素对所有簇类中心的隶属程度，从而将数据归类为隶属程度值最高的簇类。FCMA算法是无监督的模糊聚类算法，在聚类的过程中无须人为干预。因此，本申请采用此算法，对特定事件关注用户进行群体聚类。

S31抽取特定事件的重点关注用户，构建待聚类的微博用户集合，得到微博用户原始数据矩阵。

待聚类的微博用户特征集合公式为：

C_u＝{x₁,x₂,x₃,…,x_n}

其中n表示待聚类的用户数量；

每个微博用户通过m维的特征向量进行表征，公式为：

x_i＝(x_i1,x_i2,x_i3,…,x_im)；

其中，i为用户，m为特征维数。

基于以上特征得到重点关注用户的原始数据矩阵，公式为：

其中，i为用户，m为特征维数。

S32标准差规格化方法数据矩阵平滑转换，得到规格化的重点用户特征向量

由于不同微博用户数据有不同的量纲，不同量纲下的数据无法横向比较，为了比较不同量纲下的数据，本申请采用标准差规格化方法数据矩阵进行平滑转换，公式为：

其中i＝1,2,3,...,n；k＝1,2,3,...,m；表示样本数据的平均值，表示样本数据的标准差，x′_ik表示经过规格化后的微博用户特征向量。

S33计算重点用户间相似程度

r_ij＝R(xi,x_j)表示数据矩阵中用户x_i与用户x_j之间的相似度，基于所有用户相似度值构建模糊相似矩阵，其中r_ij的值采用模糊数学中的指数相似系数法定值，公式为：

其中，m表示用户特征维度，表示数据标准差的平方，基于上述公式得到用户间相似程度，最后构建模糊相似矩阵进行聚类分析。

S34构建模糊相似矩阵进行聚类分析

基于模糊c-means聚类分析中，核心在于找到最佳聚类阈值ξ∈[0,1]，不同的聚类阈值，数据会聚到不同的簇类中，因此，本申请引入F统计量来确定最优聚类参数ξ。

第i个簇类中用户第k个特征的平均值的公式为：

其中，UN_i为第i个簇类中微博用户的数量，k＝(1，2，3，…，m)为微博用户x的第k个特征，所有微博用户第k个特征的平均值的公式为：

设CN表示当聚类阈值取值为ξ时对应的簇类数量，采用F统计量来衡量聚类阈值ξ的好坏，F统计量公式为：

统计量F服从(CN-1,UN-CN)的F分布，公式(15)计算F统计量中分子表示不同簇类之间的距离，分母表示同一簇类中元素间的距离，因此，分子值越大，F值就越大，不同簇类间的距离也就越大，说明聚类效果越好。

依据数理统计方差分析理论，若F≥F_α(CN-1，UN-CN)(α＝0.05)，则聚类结果合理；再取max{F_α}所对应的ξ作为模糊聚类的最佳阈值，聚类阈值为ξ时也就是最佳聚类结果。

本发明采用上述的技术方案，取得了如下的技术效果。

本发明的方法能够很好的识别出特定事件的重点关注用户，同时采用特征映射的方法对用户群体聚类分析，在平均聚类准确度上要比基于硬匹配规则高出至少0.06个百分点。

本发明的方法，可以得到微博中特定事件的关注群体，这对于微博用户来说，有助于扩大社交圈，发现更多与自己有相同兴趣爱好的人；对于微博运营商来说，实现群体划分有助于实现精准营销；对于社会而言，由于发现潜在热点话题并及时追踪，便于决策者更好地对社会舆论实现监督和管理，具有较强的有效性和进步性。

附图说明

图1为用户动态交互关系图；

图2为PageRank算法排名结果；

图3为DLRank算法排名结果；

图4为引入特征映射与基于规则硬匹配的平均聚类准确度对比图；

图5为模糊聚类结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本发明提供一种微博特定事件关注群体的识别方法，包括如下步骤：

一种微博特定事件关注群体的识别方法，包括如下步骤：

具体的，本发明提供一种微博特定事件关注群体的识别方法，S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法，识别特定事件的重点关注用户，其具体方法如下。

S12结合用户属性权重和用户交互属性权重构建DLRank排序算法，迭代收敛后，将DLR值排名靠前的用户当作该事件下的重点关注用户。

具体的，微博用户之间相互评论或者转发微博构成微博用户网络结构图的边，一条有向边表示一次投票策略，边的权重值采用微博用户之间的交互属性权重值衡量，边的权重值的大小表示用户之间互动的紧密度，同时节点自身具有权重值即用户自身属性权重。本申请结合用户属性权重和用户交互属性权重构建DLRank排序算法。用户自身属性权重值越大，说明用户影响力越大；用户交互关系权重值越大，说明用户间的影响力越大。

具体的，DLRank算法的迭代公式如下：

π^(k+1)T＝(1-α)e^T+απ^(k)TG (1)

由于在微博用户网络结构图中会出现一些出度为0的节点，也就是该微博用户没有任何与其他人进行交互，这类节点称为死节点(仅原创微博，没有评论或者转发他人微博)，这些死节点会影响算法的效果。因此，引入阻尼系数α来解决图稀疏的问题，本实施例阻尼系数α设置为α＝0.85。

π^*＝(1-α)e^T+απ^(*)G (3)

A＝E-αG (4)

S22对用户特征进行预处理和格式化。

S23构建重点关注用户特征集合。

S24获得重点关注用户特征初始特征值。

重点关注用户初始特征值计算公式为：

S25计算用户特征与特征维之间的平均语义相似度。

用户特征集合与特征维集合之间的语义相似度计算公式为：

词语相似度利用HowNet进行计算，其公式为：

具体的，特征维对应的特征值的计算公式为，

待聚类的微博用户特征集合公式为：

C_u＝{x₁,x₂,x₃,…,x_n}

其中n表示待聚类的用户数量；

每个微博用户通过m维的特征向量进行表征，公式为：

x_i＝(x_i1,x_i2,x_i3,…,x_im)；

其中，i为用户，m为特征维数。

基于以上特征得到重点关注用户的原始数据矩阵，公式为：

其中，i为用户，m为特征维数。

S33计算重点用户间相似程度

r_ij＝R(x_i,x_j)表示数据矩阵中用户x_i与用户x_j之间的相似度，基于所有用户相似度值构建模糊相似矩阵，其中r_ij的值采用模糊数学中的指数相似系数法定值，公式为：

S34构建模糊相似矩阵进行聚类分析

第i个簇类中用户第k个特征的平均值的公式为：/>

依据数理统计方差分析理论，若F＞F_α(CN-1，UN-CN)(α＝0.05)，则聚类结果合理；再取max{F_α}所对应的ξ作为模糊聚类的最佳阈值，聚类阈值为ξ时也就是最佳聚类结果。

实施实验例

本实施实验例采集2018年11月4日至2019年01月01日的“重庆万州公交车坠江事件”下的402185条微博数据以及706392条用户评论数据，然后对发表微博和评论的1108577名用户的个人信息进行采集，抽取了微博用户的ID、昵称、标签、认证信息、关注数、粉丝数、微博数、微博内容、会员等级、所在省/市等18个特征，用于本实施实验例的特定事件关注群体的识别。

1、特定事件的重点关注用户标识结果

本实施实验例抽取了100名对上述特定事件关注用户，对用户的属性权重和交互属性权重进行计算，对活跃度阈值高于30的关注用户抽取动态交互关系特征，选出了相互转发、评论交互频度较高的10名用户进行展示分析，构建有向加权图G＝(V，E，P，W)，结合用户属性权重和用户交互属性权重构建DLRank排序算法，迭代收敛后，最终对用户的DLR值进行排名展示，这10名用户的数据信息如表1所示：

表1用户实验数据信息表

编号	用户ID	用户属性权重	动态交互关系	用户交互关系权重
					1	5736XX1989	86.1504	1→(4,6,7,8)	(0.0804,0.6000,0.4020,0.0000)
2	1150XX2194	80.3849	2→(3,9,10)	(0.4020,0.6000,00804)
					3	2808XX0071	72.3025	3→(7,9,10)	(1.002,1.8000,0.0804
4	2706XX4154	70.9248	4→(2,10)	(0.4020,0.4020)
					5	2803XX6363	68.0875	5→(1,7,10)	(1.0020,0.4020,0.0000)
6	6749XX5843	66.3573	6→(3,7,10)	(1.4040,1.0002,0.0000)
					7	1618XX1664	65.1734	7→(4,8)	(0.4040,0.4040)
8	6837XX1033	58.0652	8→(5,10)	(0.4040,0.6000)
					9	5948XX7894	52.3602	9→(1,2,7)	(0.1980,0.8040,10800)
10	1704XX1601	41.0679	10→(8)	(0.4020)

(为保护隐私，将用户ID做了模糊处理)

使用编号代替用户ID，对用户之间的动态交互关系进行可视化表征，边表示用户i评论或者转发了用户j的微博，构建的用户动态交互关系图如图1所示：

此处，采用PageRank算法和DLRank算法分别对10名用户进行排名，排序结果分别如图2、图3所示。

从图2和图3的实验结果对比可以直观看出用户影响力的排名变化，在PageRank算法中，仅考虑了用户交互关系，没有将用户属性考虑在内，因此用户活跃度高、粉丝数高的用户排名相对靠前，因此用户10排名第一，在DLRank算法中，加入了用户属性权重和用户交互属性权重，因此用户排名相对也发生了变化，用户7的交互关系虽然没有用户10频度高，但是在特定事件下用户7的属性特征权重和其他用户与用户7的交互属性权重值都非常高，因此在DLRank算法排名中，用户7跃居第一名。

经过人工对数据分析显示，用户10(ID＝1704XX1601)为名人明星，而用户7(ID＝1618XX1664)为头条新闻的官方微博，因此用户的活跃度以及对特定事件的关注程度要远远高于普通微博用户。同理，受到用户属性权重和用户交互属性权重的影响，其他用户的重要程度也发生了不同程度的变化，因此本申请构建的DLRank算法效果要优于PageRank算法。

2、特定事件的关注群体聚类结果

本实施实验例对1108577名用户的进行信息采集，抽取其认证信息和标签，对其预处理和格式化后，构建关注用户特征集合，然后对关注用户特征集合中特征出现的频次进行从大到小排序，然后取TOP 100作为用户向量的特征维，最后为每个用户构建100维的用户属性特征向量进行聚类分析。

为了验证引入特征映射思想能对提升关注群体用户的聚类效果，做了对比试验，采用不同的方式构建用户属性特征向量：(1)基于特征映射的用户属性特征向量表征；(2)基于硬匹配规则构建用户属性特征向量。采用同样的数据集进行实验分析，用平均聚类准确度作为评价标准，平均聚类准确度计算公式如下：

其中n为聚类数量，p_i为各聚类的准确度即簇类中相似元素的最大值与簇类总元素值之比，平均聚类准确度数值的大小，表示聚类效果的好坏。

对比结果如图4所示。通过实验结果分析发现，在构建用户属性特征向量时考虑语义相似度并且引入特征映射思想，相对于基于硬匹配规则构建用户属性特征向量，在平均聚类准确度上有明显提升效果。

为了便于聚类效果展示，本申请从1108577名用户中抽取出了102名领域差别明显领域内相似度高的用户进行聚类效果展示，同时对聚类阈值采用F统计量计算得到ξ＝0.5812，本申请抽取了10名用户认证信息和标签数据进行展示，数据如表2所示。

对用户认证信息和标签进行分词，构建用户属性特征词集合，然后采用特征映射的策略构建关注用户特征集合，计算用户属性特征与特征维集合内特征之间的相似度，选取相似度最大的特征并计算对应的特征值构建用户特征向量，经规格化后计算数据矩阵中的元素相似程度，同时基于元素相似度值构建模糊相似矩阵，对分类阈值取0.5812时的数据进行模糊聚类，聚类结果如图5所示。

图5的聚类结果分析显示，102名用户共分为5类事件关注群体，其中五角星为噪音点，忽略不计，手动对各个簇类的用户进行分析发现，小圆点簇Cluster1的用户特征可以定义为官方微博群体；“+”号簇Cluster2的用户特征可以定义为微博博主群体；“×”号簇Cluster3的用户特征可以定义为爱好体育群体；下三角簇Cluster4的用户特征可以定义为爱好旅游群体；方块sss簇Cluster5的用户特征可以定义为爱好美食群体。经验证，本申请提出的用户群体聚类模型聚类效果明显，模型具有的可行性。

表2用户认证信息与标签数据采集样例表

用户ID	认证信息	标签
			2357XX2555	重庆某律师事务所专职律师	科技,时尚
1706XX6081	某铁路公安局某公安处民警	健康,美食,军事
			3122XX4691	某健身会所某店店长	体育,心理
2303XX8657	知名科学科普博主	好性格,吃,天蝎座
			5936XX7005	某小主持人	做梦
3127XX7673	某市某医院骨科副主任医师	宠物
			1882XX6220	知名音乐博主	美容服饰,美食
5579XX7215	头条文章作者	军事,娱乐,体育
			2279XX5507	天津某文化传播有限公司法人代表	星座命理,旅行,音乐
5899XX7098	某品牌官方微博	时尚,潮流,美容护肤

(为保护隐私，将用户ID及认证信息做了模糊处理)

本发明提供的技术方案，不受上述实施例的限制，凡是利用本发明的结构和方式，经过变换和代换所形成的技术方案，都在本发明的保护范围内。

Claims

1.一种微博特定事件关注群体的识别方法，其特征在于，包括如下步骤：

S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法，识别特定事件的重点关注用户；

S2对S1识别出的重点关注用户进行特征抽取，采用基于特征映射的方式对用户属性特征进行向量表征；

S3采用模糊c-means聚类算法对重点关注用户进行聚类，识别重点关注用户的人群层次；

其中，

S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法，识别特定事件的重点关注用户，其方法为，

S11构建特定事件的微博用户网络结构图，即有向加权图G＝(V,E,P,W)，

其中，V为特定事件下关注用户的集合V＝{v₁,v₂,v₃,v₄,…,v_n}，其中v_i为某个微博用户，当微博用户v_i对特定事件进行了发表、转发或者评论操作时，将微博用户v_i加入到特定事件关注用户集合中，其中v_i∈V；

E为特定事件下相关微博用户交互的集合E＝{e₁₁,e₁₂,e₁₃,e₁₄,…,e_mn}，其中e_ij为微博用户v_i与微博用户v_j对特定事件进行了交互操作，具体为微博用户v_i转发或者评论了微博用户v_j在特定事件下的相关微博，该交互具有方向性，即

P为特定事件下用户属性权重的集合P＝{p₁,p₂,p₃,p₄,…,p_n}，其中p_i为微博用户v_i的权重，满足p_i∈P；

W为特定事件下用户交互属性权重的集合，W＝{w₁₁,w₁₂,w₁₃,…,w_mn}，其中w_ij为微博用户v_i与微博用户v_j之间的交互关系e_ij的权重，满足w_ij∈W；

S12结合用户属性权重和用户交互属性权重构建DLRank排序算法，迭代收敛后，将DLR值排名靠前的用户当作该事件下的重点关注用户；

DLRank算法的迭代公式为，π^(k+1)T＝(1-α)e^T+απ^(k)TG，

其中，π^(k)T为迭代更新前的所有微博用户的DLR值，π^(k+1)T为迭代更新后的所有微博用户的DLR值，α为阻尼系数，为0.85，e^T为投票矩阵的单位行向量，G为投票矩阵，其中的元素gij为投票权重，其计算方法公式为：

,DLRank是迭代式的算法，算法收敛后的矩阵为π^*，收敛的条件是矩阵A满足可逆条件，迭代算法的解和矩阵A公式分别为，

π^*＝(1-α)e^T+απ^(*)G

A＝E-αG；

按照迭代公式计算所有节点的DLR值，最终迭代收敛后，将DLR值排名靠前的用户当作该特定事件的重点关注用户；

S2对S1识别出的重点关注用户进行特征抽取，采用基于特征映射的方式对用户属性特征进行向量表征，包括以下步骤，

S21对S1识别出的特定事件的重点关注用户进行信息采集，抽取其标签和认证信息；

S22对用户特征进行预处理和格式化；

S23构建重点关注用户特征集合；

S24获得重点关注用户特征初始特征值；

S25计算用户特征与特征维之间的平均语义相似度；

S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量，将特征的特征值与最大相似度的乘积作为特征维的特征值；

将每个重点用户用m维的向量进行表征，实现用户特征到特征维的特征映射；

S23构建重点关注用户特征集合的方法为，用户特征集合表示为F_u＝{uw₁,uw₂,uw₃,…,uw_m}，其中m表示当前用户特征包含的特征词数目；

特征维集合表示为F_d＝{dw₁,dw₂,dw₃,…,dw_n}，其中n表示特征维所包含的词数目；

重点关注用户初始特征值计算公式为：

其中，X为微博用户u_i的特征集合数量，x为每个特征在该用户特征集合出现的次数；

S25计算用户特征与特征维之间的平均语义相似度的方法为，

其中，f_u为用户特征集合，f_d为特征维集合，Sim(uw_i,dw_j)为用户特征与特征维之间的平均语义相似度，uw_i为包含i个词的用户特征的集合，dw_j为包含j个词的特征维集合，

词语相似度利用HowNet进行计算，其公式为：

其中，β_i(1≤i≤4)为调节参数，且满足β₁+β₂+β₃+β₄＝1,β₁≥β₂≥β₃≥β₄，β_i分别取值为：0.5、0.2、0.17和0.13；

S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量，将特征的特征值与最大相似度的乘积作为特征维的特征值的方法为，

特征维对应的特征值的计算公式为，

T(f_d)＝f_d((f_u)_a)×max{SF((f_u)_a,f_d)},

α＝1,2,3,…,X，

2.根据权利要求1所述的一种微博特定事件关注群体的识别方法，其特征在于：

S22对用户特征进行预处理和格式化的方法为采用NLPIR分词***对认证信息和标签的长词条进行分词，将该认证信息或者标签用词的集合来表示。

3.根据权利要求1所述的一种微博特定事件关注群体的识别方法，其特征在于：

S3采用模糊c-means聚类算法对特定事件关注用户进行聚类，识别出某个特定事件下重点关注的人群层次，包括如下步骤，

S31抽取特定事件的重点关注用户，构建待聚类的微博用户集合，得到微博用户原始数据矩阵；

S32标准差规格化方法数据矩阵平滑转换，得到规格化的重点用户特征向量；

S33计算重点用户间相似程度；

S34构建模糊相似矩阵进行聚类分析。

4.根据权利要求3所述的一种微博特定事件关注群体的识别方法，其特征在于：

S31抽取特定事件的重点关注用户，构建待聚类的微博用户集合，得到微博用户原始数据矩阵方法为，

待聚类的微博用户特征集合公式为：

C_u＝{x₁,x₂,x₃,…,x_n}

其中n表示待聚类的用户数量；

每个微博用户通过m维的特征向量进行表征，公式为：

x_i＝(x_i1,x_i2,x_i3,…,x_im)；

其中，i为用户，m为特征维数；

基于以上特征得到重点关注用户的原始数据矩阵，公式为：

其中，i为用户，m为特征维数；

S32标准差规格化方法数据矩阵平滑转换，得到规格化的重点用户特征向量方法为，

采用标准差规格化方法数据矩阵进行平滑转换，公式为：

其中i＝1,2,3,...,n；k＝1,2,3,...,m；表示样本数据的平均值，表示样本数据的标准差，x′_ik表示经过规格化后的微博用户特征向量；

S33计算重点用户间相似程度方法为，

其中，m表示用户特征维度，表示数据标准差的平方，基于上述公式得到用户间相似程度；

S34构建模糊相似矩阵进行聚类分析方法为，

引入F统计量来确定最优聚类参数ξ，

第i个簇类中用户第k个特征的平均值的公式为：

其中，UN_i为第i个簇类中微博用户的数量，k＝(1,2,3,…,m)为微博用户x的第k个特征，所有微博用户第k个特征的平均值的公式为：

统计量F服从(CN-1,UN-CN)的F分布，若F>F_α(CN-1,UN-CN)(α＝0.05)，则聚类结果合理；再取max{F_α}所对应的ξ作为模糊聚类的最佳阈值，聚类阈值为ξ时也就是最佳聚类结果。