CN111125486B

CN111125486B - 一种基于多特征的微博用户属性分析方法

Info

Publication number: CN111125486B
Application number: CN201911340531.4A
Authority: CN
Inventors: 程克非; 单凤池
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-11-25
Anticipated expiration: 2039-12-23
Also published as: CN111125486A

Abstract

本发明涉及一种基于多特征的微博用户属性分析方法，属于智能媒体计算和大数据分析技术领域。该方法包括：S1利用爬虫软件爬取用户微博博文信息并清洗、打标；S2通过word2vec模型构造微博博文信息的词向量，在此基础上根据集成学习的组合策略，得出用户微博文本特征；S3从用户微博数据中构造出用于微博属性分析的多特征体系，并通过基础特征构造出符合用户属性分析的复合特征；S4采用Stacking模型融合技术将多个基分类器进行融合，构造微博用户属性分析模型，输入待检测数据，得到最终的微博用户属性分析结果。本发明提高了微博用户属性分类的准确率，为商家给用户提供更高效的个性化推荐提供技术支持。

Description

一种基于多特征的微博用户属性分析方法

技术领域

本发明属于智能媒体计算和大数据分析技术领域，涉及一种基于多特征的微博用户属性分析方法。

背景技术

随着在线社交媒体的日益普及，网络信息变得庞大而驳杂。借助计算机技术，深入地理解个人和群体的基本信息、挖掘社会心理和行为模式，快速、精准地提供个性化、多方面的决策支持，辅助解决实际的社会问题，已经成为当今学术界与工业界共同关注的重要课题。对用户信息和用户行为的深度理解是其中的核心内容之一。由于个人属性数据往往涉及到隐私问题，用户经常选择不填写或填写虚假信息等方式隐藏其个人信息，导致用户相关的基本信息通常无法直接获取。用户属性分析可解决此类问题。

目前，国内外在用户属性分析方面的研究工作，通常从有监督学习、半监督学习、无监督学习三个方面入手。相对于半监督学习数据稀疏和无监督学习准确度较低，有监督学习在构造出多特征体系的情况下，结合新型的复合特征更适用于用户属性的分析。又由于现有的微博用户属性分析方法考虑的特征不够完善，从而导致得到的分析结果准确率不高。

发明内容

有鉴于此，本发明的目的在于提供一种基于多特征的微博用户属性分析方法，旨在提高微博用户属性分类的准确率，以便商家为用户提供更高效的个性化推荐。

为达到上述目的，本发明提供如下技术方案：

一种基于多特征的微博用户属性分析方法，具体包括以下步骤：

S1：利用爬虫软件爬取用户微博博文信息并清洗、打标；

S2：通过word2vec模型构造微博博文信息的词向量，在此基础上根据集成学习的组合策略，得出用户微博文本特征；

S3：从用户微博数据中构造出用于微博属性分析的多特征体系，并通过基础特征构造出符合用户属性分析的复合特征；

S4：采用Stacking模型融合技术将多个基分类器进行融合，构造微博用户属性分析模型，输入待检测数据，得到最终的微博用户属性分析结果。

进一步，所述步骤S2中，用户微博文本特征的具体构造步骤包括：

S21：通过利用Jieba分词工具对样本进行分词处理，去停用词，将每个用户的微博进行合并，得到用户博文集合

m_i表示用户ID为i的微博集合，

表示单个用户的微博集合，

w_t表示单条微博的词；

S22：通过Skip-Gram模型训练微博用户微博，得到微博中300维的词向量，并计算出每个用户的微博向量，计算公式如下：

其中，u_i表示ID为i的用户，K表示用户u_i的微博词数，Wvec_k表示第k个单词的词向量；

S23：通过Stacking模型作为集成学习的组合策略，以支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为初级分类器，其预测结果由作为二层分类器的逻辑回归(Logistic)组合得到，最后得到用户微博文本特征。

进一步，所述步骤S3中，构造的复合特征包括：用户活跃度、用户微博时间分布和用户行为习惯；

所述用户活跃度特征f_useractive(u_i)的计算公式如下：

其中，u_i表示ID为i的用户，f_sum(u_i)表示用户u_i的微博总数，f_transpond(u_i)表示用户u_i的微博转发数量，f_time(u_i)表示用户u_i所发布的第一条微博和最后一条微博的时间间隔；

所述用户微博时间分布

的计算公式如下：

其中，

表示位于时间段j的ID为i的用户，

表示用户u_i在时刻j所发布微博数，

表示用户u_i在时刻j所转发微博数；

所述用户行为习惯f_userBehavior(u_i)的计算公式如下：

f_userBehavior(u_i)＝f_textBehavior(u_i)+f_textSource(u_i)+f_{inforIntegrity}(u_i)

其中，f_textBehavior(u_i)表示用户u_i的文本行为习惯，f_textSource(u_i)表示用户u_i的博文源信息，f_{inforIntegrity}(u_i)表示用户u_i的基本信息完整度。

进一步，用户的文本行为习惯是根据用户微博中表情符号和图片的比例计算得到，具体计算公式如下：

其中，f_emoticons(text_n)表示第n条微博中表情符号数，f_picture(text_n)表示第n条微博中图片数，N表示用户u_i的微博数。

进一步，用户博文源信息是根据男性惯用文本源f_mSource(u_i)和女性惯用文本源f_fSource(u_i)计算得到，具体计算公式为：f_textSource(u_i)＝f_mSource(u_i)-f_fSource(u_i)。

进一步，所述的男性惯用文本源f_mSource(u_i)的计算公式如下：

其中，N表示用户u_i的微博数，f_mSourceNum(text_j)表示第n条微博来源是男性文本源，sourceNum表示文本源总数。

进一步，所述的女性惯用文本源的计算公式如下：

其中，N表示用户u_i的微博数，f_fSourceNum(text_j)表示第n条微博来源是女性文本源，sourceNum表示文本源总数。

进一步，用户信息完整度具体包括：f_{inforIntegrity}表示用户的基本信息完整度，基本信息包括用户昵称、注册所在地、性别、生日、简介、教育信息和头像信息，计算公式如下：

其中，f_name表示是否有昵称，f_location表示是否有注册所在地，f_birthday表示是否有生日信息，f_introduction表示是否有个人简介，f_education表示是否有受教育信息，f_headPhoto表示是否有头像信息，m表示基本信息的总数。

进一步，所述步骤S4中，采用Stacking模型融合技术将多个基分类器进行融合构建微博用户属性分析模型的具体包括：使用支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为初级分类器，逻辑回归(Logistic)作为二层分类器构建微博用户属性分析模型。

本发明的有益效果在于：本发明充分考虑了用户微博的各项特征，并根据构建微博用户属性分析模型来训练得到微博用户的各项个性数据，提高了微博用户属性分类的准确率，为商家给用户提供更高效的个性化推荐提供技术支持。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述微博用户属性分析的总体流程图；

图2为本发明中微博用户属性分析文本特征构造及提取的流程图；

图3为本发明中微博用户属性分析非文本特征构造及提取的流程图；

图4为本发明中微博用户属性分析模型构建的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图1为本发明优选的一种实施例的微博用户属性分析方法的总体流程图，本实施例所述微博用户属性分析方法可以作为计算机程序来执行，也可作为插件在其他程序中执行，具体执行过程为：

步骤S1：对数据预处理。

数据预处理包括数据清洗和打标两个阶段。在清洗阶段，对数据中异常值、空值进行处理，保证样本数据的完整性。打标阶段，根据先验知识对采集的数据进行人工打标，将数据分为男性和女性两类，其中0代表男性，1代表女性。

步骤S2：通过word2vec构造微博博文信息的词向量，在此基础上根据集成学习的组合策略，得出微博文本特征。具体包括：

步骤S3：从用户微博数据中构造出用于微博属性分析的多特征体系，并通过基础特征构造出符合用户属性分析的复合特征；

步骤S4：采用Stacking模型融合技术将多个基分类器进行融合，得到最终的微博用户属性分析结果。

具体的，如图2所示，步骤S2具体包括以下包括：

步骤S21：对用户的每条微博进行分词处理，去停用词，在此基础上将每个用户的微博进行合并，得到了用户博文集合

m_i表示用户ID为i的微博集合，

表示单个用户的微博集合，

w_t表示单条微博的词。

步骤S22：通过Skip-Gram模型训练爬取的微博用户微博，得到了微博中300维的词向量，并通过公式计算出每个用户的微博向量，公式如下：

步骤S23：采取stacking模型作为集成学习的策略，以支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为基分类器，逻辑回归(Logistic)作为元分类器构建微博用户属性分析模型。

步骤S24，将训练集输入模型中进行拟合，通过网格搜索的方法进行参数调优，得到最佳模型。

步骤S25，将训练集输入到S24得到的模型中，得到文本特征。

如图3所示，步骤S3具体包括以下步骤：

步骤S31：从用户微博数据中构造出用于微博属性分析的多特征体系，包括文本特征、时间特征、统计特征、数值特征、内容特征，如表1所示：

表1多特征体系表

步骤S32：在提取出的多特征体系基础上，构造用户活跃度、微博时间分布、用户行为习惯三个复合特征。

具体的，用户活跃度特征的计算公式如下：

其中，u_i表示ID为i的用户，f_sum(u_i)表示用户u_i的微博总数，f_transpond(u_i)表示用户u_i的微博转发数量，f_time(u_i)表示用户u_i所发布的第一条微博和最后一条微博的时间间隔。

用户微博时间分布特征的计算公式如下：

其中，

表示位于时间段j(0≤j≤23)的ID为i的用户，

表示ID为i用户在时刻j所发布微博数，

表示ID为i的用户在时刻j所转发微博数。

用户行为习惯特征：根据用户文本行为习惯f_textBehavior、用户博文源信息f_textSource和用户信息完整度f_{inforIntegrity}计算得到，具体计算公式如下：

f_userBehavior(u_i)＝f_textBehavior+f_textSource+f_{inforIntegrity}

其中，用户文本行为习惯是根据用户微博中表情符号和图片的比例计算得到，其计算公式如下：

其中，f_textBehavior(u_i)表示用户u_i的发文习惯，u_i表示ID为i的用户，N表示用户u_i的微博数，f_emoticons(text_j)表示第n条微博中表情符号数，f_picture(text_n)表示第n条微博中图片数。

用户博文源信息：根据男性惯用文本源f_mSource(u_i)和女性惯用文本源f_fSource(u_i)计算得到用户博文源信息，其计算公式如下：

f_textSource(u_i)＝f_mSource(u_i)-f_fSource(u_i)

男性惯用文本源：根据用户的微博来源为男性文本源、文本源数得到男性惯用文本源f_mSource(u_i)，公式如下：

其中，f_mSourceNum(text_j)表示第n条微博来源是男性文本源，sourceNum表示文本源总数。

女性惯用文本源：根据用户的微博来源为女性文本源、文本源数得到女性惯用文本源f_fSource(u_i)，公式如下：

其中，f_fSourceNum(text_j)表示第n条微博来源是女性文本源，sourceNum表示文本源总数。

用户信息完整度具体包括：f_{inforIntegrity}表示用户的基本信息完整度，基本信息包括用户昵称、所在地、性别、生日、简介、教育信息、头像信息，具体公式如下：

如图4所示，步骤S4包括：

步骤S41：采用Stacking方法作为集成学习的组合策略构建谣言识别模型，使用支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为Stacking模型的初级分类器，逻辑回归(Logistic)模型作为二层分类器。

步骤S42：将训练集输入模型中进行拟合，通过网格搜索的方法进行参数调优，得到最佳模型。

步骤S43：将测试集输入到拟合模型中，得到最终的用户属性分析结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多特征的微博用户属性分析方法，其特征在于，该方法具体包括以下步骤：

S1：利用爬虫软件爬取用户微博博文信息并清洗、打标；

所述多特征体系包括文本特征、时间特征、统计特征、数值特征和内容特征；其中，文本特征是基于用户博文的分析结果；时间特征包括各时间段的微博数、用户活跃度和一周七天中各天的微博数目；数值特征包括转发最大数、转发最小数、转发平均值、转发中位数、评论最大数、评论最小数、评论均值、评论中位数、微博评论率、微博平均字数和微博最小字数；统计特征包括微博数、关注数、粉丝数、互关数、评论数和转发数；内容特征包括微博长度、是否有照片、是否有URL、用户名长度、注册所在地、生日、个人简介、受教育信息、昵称和头像；

S4：采用Stacking模型融合技术将多个基分类器进行融合，构造微博用户属性分析模型，输入待检测用户微博数据的复合特征，得到最终的微博用户属性分析结果。

2.根据权利要求1所述的基于多特征的微博用户属性分析方法，其特征在于，所述步骤S2中，用户微博文本特征的构造具体包括以下步骤：

S21：通过利用Jieba分词工具对样本进行分词处理，去停用词，将每个用户的微博进行合并，得到集合

m_i表示用户ID为i的微博集合，

表示用户ID为i的第n条微博中词的集合，

w_t表示单条微博中的第t个词；

S23：通过Stacking模型作为集成学习的组合策略，以支持向量机、决策树、逻辑回归、光梯度提升机和极端梯度提升作为初级分类器，其预测结果由作为二层分类器的逻辑回归组合得到，最后得到用户微博文本特征。

3.根据权利要求1所述的基于多特征的微博用户属性分析方法，其特征在于，所述步骤S3中，构造的复合特征包括：用户活跃度、用户微博时间分布和用户行为习惯；

所述用户活跃度特征f_useractive(u_i)的计算公式如下：

所述用户微博时间分布

的计算公式如下：

其中，

表示位于时间段j的ID为i的用户，

表示用户u_i在时刻j所发布微博数，

表示用户u_i在时刻j所转发微博数；

所述用户行为习惯f_userBehavior(u_i)的计算公式如下：

4.根据权利要求3所述的基于多特征的微博用户属性分析方法，其特征在于，用户的文本行为习惯是根据用户微博中表情符号和图片的比例计算得到，具体计算公式如下：

5.根据权利要求3所述的基于多特征的微博用户属性分析方法，其特征在于，用户博文源信息是根据男性惯用文本源f_mSource(u_i)和女性惯用文本源f_fSource(u_i)计算得到，具体计算公式为：f_textSource(u_i)＝f_mSource(u_i)-f_fSource(u_i)。

6.根据权利要求5所述的基于多特征的微博用户属性分析方法，其特征在于，所述的男性惯用文本源f_mSource(u_i)的计算公式如下：

7.根据权利要求5所述的基于多特征的微博用户属性分析方法，其特征在于，所述的女性惯用文本源的计算公式如下：

8.根据权利要求3所述的基于多特征的微博用户属性分析方法，其特征在于，用户信息完整度具体包括：f_{inforIntegrity}表示用户的基本信息完整度，基本信息包括用户昵称、注册所在地、性别、生日、简介、教育信息和头像信息，计算公式如下：

9.根据权利要求1所述的基于多特征的微博用户属性分析方法，其特征在于，所述步骤S4中，采用Stacking模型融合技术将多个基分类器进行融合构建微博用户属性分析模型的具体包括：使用支持向量机、决策树、逻辑回归、光梯度提升机和极端梯度提升作为初级分类器，逻辑回归作为二层分类器构建微博用户属性分析模型。