CN104778283B

CN104778283B - 一种基于微博的用户职业分类方法及***

Info

Publication number: CN104778283B
Application number: CN201510236383.7A
Authority: CN
Inventors: 李寿山; 戴斌; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-05-11
Filing date: 2015-05-11
Publication date: 2018-05-01
Anticipated expiration: 2035-05-11
Also published as: CN104778283A

Abstract

本发明提供的一种基于微博的用户职业分类方法和***，包括：获取预设数量的第一用户，第一用户为已经提供职业信息的微博用户；获取每个第一用户的职业信息和微博文本；依据第一用户的职业信息对第一用户进行分类，利用分类后得到的结果确定每个第一用户的职业类型；将每个第一用户的微博文本分别进行分词处理，得到第一文本词组；利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，并利用第一用户的职业类型及第一特征向量构建最大熵分类器；利用最大熵分类器对第二特征向量进行处理，得到与第二特征向量对应的微博文本所属的第二用户的职业类型。由此，能够准确获知未知职业信息的微博用户的职业类型。

Description

一种基于微博的用户职业分类方法及***

技术领域

本发明涉及自然语言处理和社交网络技术领域，更具体地说，涉及一种基于微博的用户职业分类方法及***。

背景技术

互联网的开放性、虚拟性与共享性，使其渐渐成为人们表达观点、态度、感觉、情绪等的公共平台；同时，产生了大量基于互联网的社交网站，其中就包括微型博客(Microblog)，即微博。越来越多的研究工作开始关注微博，其中重要的一类研究就是微博用户特征分析。

所谓微博用户特征分析，就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征，并根据这些用户特征进行用户分类、用户挖掘及影响力探测等。其中，微博用户职业是微博用户特征分析的一项基本内容，具体来讲，其主要为根据微博用户的职业进行特定分类，比如可以将用户的职业划分为学生、自由职业、计算机类和销售类等。

但是，现有技术中并不存在基于微博对微博用户进行职业分类的技术方案，即，现有技术中缺少一种基于微博对微博用户进行职业分类的技术方案。

发明内容

本发明的目的是提供一种基于微博的用户职业分类方法及***，以通过微博用户的微博文本确定其职业类型。

为了实现上述目的，本发明提供如下技术方案：

一种基于微博的用户职业分类方法，包括：

获取预设数量的第一用户，所述第一用户为已经提供职业信息的微博用户；

获取每个第一用户的职业信息和微博文本；

依据所述第一用户的职业信息对所述第一用户进行分类，利用分类后得到的结果确定所述每个第一用户的职业类型；

将所述每个第一用户的微博文本分别进行分词处理，得到分别与所述每个第一用户的微博文本对应的第一文本词组；

利用所述第一文本词组构成分别与所述每个第一用户的微博文本对应的第一特征向量，并利用所述第一用户的职业类型及所述第一特征向量构建最大熵分类器；

利用所述最大熵分类器对第二特征向量进行处理，得到与所述第二特征向量对应的微博文本所属的第二用户的职业类型。

优选的，所述依据所述第一用户的职业信息对所述第一用户进行分类，利用分类后得到的结果确定所述每个第一用户的职业类型，包括：

通过所述第一用户的职业信息确定所述每个第一用户的职业性质；

根据所述每个第一用户的职业性质按照预设标准将所述第一用户的职业类型分为第一类和第二类；所述第一类为脑力劳动的职业类型，所述第二类为体力劳动的职业类型。

优选的，获取所述第一用户的职业信息，包括：

通过所述第一用户提供的个人资料获取其职业标号；

确定与所述职业标号对应的职业为所述第一用户的职业信息。

优选的，所述方法还包括：

构建一个第一用户列表，并将预设数量的第一用户存储至所述第一用户列表中，以供查询。

优选的，所述利用所述最大熵分类器对第二特征向量进行处理，得到与所述第二特征向量对应的微博文本所属的第二用户的职业类型，包括：

获取第二用户，所述第二用户为未提供职业信息的微博用户；

获取所述第二用户的微博文本；

对所述第二用户的微博文本进行分词处理，得到第二文本词组；

依据所述第二文本词组和所述第一文本词组构建第二特征向量；

将所述第二特征向量作为所述最大熵分类器的输入值，得到分类结果；

利用所述分类结果确定所述第二用户的职业类型。

一种基于微博的用户职业分类***，包括第一用户获取模块、职业类型确定模块、第一文本词组获取模块、分类器构建模块及分类模块，其中：

所述第一用户获取模块，用于获取预设数量的第一用户，以及每个第一用户的职业信息和微博文本，所述第一用户为已经提供职业信息的微博用户；

所述职业类型确定模块，用于依据所述第一用户的职业信息对所述第一用户进行分类，利用分类后得到的结果确定所述每个第一用户的职业类型；

所述第一文本词组获取模块，用于将所述每个第一用户的微博文本分别进行分词处理，得到分别与所述每个第一用户的微博文本对应的第一文本词组；

所述分类器构建模块，用于利用所述第一文本词组构成分别与所述每个第一用户的微博文本对应的第一特征向量，并利用所述第一用户的职业类型及所述第一特征向量构建最大熵分类器；

所述分类模块，用于利用所述最大熵分类器对第二特征向量进行处理，得到与所述第二特征向量对应的微博文本所属的第二用户的职业类型。

本发明提供的一种基于微博的用户职业分类方法和***，包括：获取预设数量的第一用户，第一用户为已经提供职业信息的微博用户；获取每个第一用户的职业信息和微博文本；依据第一用户的职业信息对第一用户进行分类，利用分类后得到的结果确定每个第一用户的职业类型；将每个第一用户的微博文本分别进行分词处理，得到分别与每个第一用户的微博文本对应的第一文本词组；利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，并利用第一用户的职业类型及第一特征向量构建最大熵分类器；利用最大熵分类器对第二特征向量进行处理，得到与第二特征向量对应的微博文本所属的第二用户的职业类型。由此，基于已知职业信息的第一用户的职业信息和微博文本构建最大熵分类器，利用最大熵分类器通过未知职业信息的第二用户的微博文本对其进行职业分类，确定第二用户的职业类型，即，能够准确获知未知职业信息的微博用户的职业类型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于微博的用户职业分类方法的流程图；

图2为本发明实施例提供的一种基于微博的用户职业分类***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种基于微博的用户职业分类方法的流程图，可以包括以下步骤：

S11：获取预设数量的第一用户，第一用户为已经提供职业信息的微博用户。

需要说明的是，现有的微博都提供有供微博用户填写个人资料的特定位置或网页，个人资料就包括职业信息，用户可根据需要进行选填。

S12：获取每个第一用户的职业信息和微博文本。

可以利用微博提供的API(Application Programming Interface,应用程序编程接口)获取第一用户的微博文本，微博文本即可以为第一用户发表过的文本。

S13：依据第一用户的职业信息对第一用户进行分类，利用分类后得到的结果确定每个第一用户的职业类型。

S14：将每个第一用户的微博文本分别进行分词处理，得到分别与每个第一用户的微博文本对应的第一文本词组。

本实施例中的分词处理均可以采用分词软件ICTCLAS来实现。

S15：利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，并利用第一用户的职业类型及第一特征向量构建最大熵分类器。

利用第一用户的职业类型对第一特征向量进行标注，可以基于第一用户的职业类型和第一特征向量利用Mallet提供的最大熵工具包构建最大熵分类器。

S16：利用最大熵分类器对第二特征向量进行处理，得到与第二特征向量对应的微博文本所属的第二用户的职业类型。

由此，基于已知职业信息的第一用户的职业信息和微博文本构建最大熵分类器，利用最大熵分类器通过未知职业信息的第二用户的微博文本对其进行职业分类，确定第二用户的职业类型，即，能够准确获知未知职业信息的微博用户的职业类型。

最大熵分类器作为机器学习分类方法中的一种，其是基于最大熵信息理论的一种分类器。最大熵分类器的基本思想是：为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，假设p(y|X)代表样本X属于类别y的概率，最大熵模型要求p(y|X)满足一定约束条件，同时必须使依据以下公式计算得到的熵取得最大值：

这里H(p)代表条件熵H(y|X)，H(y|X)是一种度量条件概率p(y|X)均匀性的方法，强调对概率分布p的依赖。上述约束条件是指所有已知事实，可用以下方式表述：

其中，f(X,y)为最大熵模型的特征。可以看到：这些特征描述了向量X与类别y的联系，最终概率输出为：

其中，

称为归一化因子；λ_i为特征的权重。

通过实验证明，采用本发明实施例提供的一种基于微博文本的用户职业分类方法对微博用户进行分类的准确率可以达到0.56以上。

需要说明的是，上述实施例中利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，具体可以为：

提取全部第一文本词组中的所有词作为特征空间集，并对每个微博文本的第一文本词组，根据向量空间模型(Vector Space Model，VSM)构建训练特征向量。其中，向量空间模型的具体实现方法如下：

首先，将每个第一文本词组表示成由该第一文本词组中含有的所有词(每个词为一个特征项)组成的集合，即第一文本词组集：Document＝D(t₁,t₂,...,t_n)，其中t_k(1≤k≤n)是其中的特征项。例如，若一个第一文本词组包含s、t、m、n四个特征项，则此第一文本词组集可表示为Document＝D(s,t,m,n)。然后，提取第一文本词组集中的所有特征项作为特征空间。例如，若第一文本词组集共包含N个特征项，则特征空间可表示为N维坐标系：Vector＝V(t₁,t₂,t₃,...,t_N)。最后，根据得到的特征空间构建每个第一文本词组的特征向量表示。即，若第一文本词组中包含特征空间中的特征项，则将该特征项对应的坐标值设置为1，否则为0。

获取预设数量的第一用户的过程，具体可以为：

(1)构建一个第一用户列表，在第一用户列表中添加微博中的任一微博用户作为当前的第一用户；该第一用户可以为官方的或人气较高的微博用户；

(2)获取与当前的第一用户存在一定联系的关联用户，可以是当前的第一用户为其发表的微博文本做出评论或者其为该第一用户发表的微博文本做出评论的微博用户，将这些关联用户确定为第一用户，并加入第一用户列表中；

(3)由上述关联用户中选取任一微博用户作为当前的第一用户，返回执行(2)，直至第一用户列表中的第一用户的数量达到预设数量为止。

其中，就包括：构建一个第一用户列表，并将预设数量的第一用户存储至第一用户列表中，由此，能够方便工作人员在有需要时对其进行查询。

需要说明的是，上述实施例提供一种基于微博的用户职业分类方法中获取第一用户的职业信息，可以包括：

通过第一用户提供的个人资料获取其职业标号；

确定与职业标号对应的职业为第一用户的职业信息。

现有的微博中提供的个人资料中可能出现用户根据统一的职业标号填写个人资料的情况，此时，则需要确定与职业标号对应的职业为职业信息。由此，能够保证上述实施例提供的一种基于微博的职业分类方法的相关步骤的顺利进行。

另外，上述实施例提供的一种基于微博的用户职业类型分类方法中，利用最大熵分类器对第二特征向量进行处理，得到与第二特征向量对应的微博文本所属的第二用户的职业类型，可以包括：

获取第二用户，第二用户为未提供职业信息的微博用户；

获取第二用户的微博文本；

对第二用户的微博文本进行分词处理，得到第二文本词组；

依据第二文本词组和第一文本词组构建第二特征向量；

将第二特征向量作为最大熵分类器的输入值，得到分类结果；

利用分类结果确定第二用户的职业类型。

依据第二文本词组和第一文本词组构建第二特征向量的过程可以参考上述对于构成第一特征向量的过程的论述。由此，能够利用最大熵分类器以及第二用户的微博文本确定第二用户的职业类型。

上述实施例提供一种基于微博的用户职业分类方法中，依据第一用户的职业信息对第一用户进行分类，利用分类后得到的结果确定每个第一用户的职业类型，可以包括：

通过第一用户的职业信息确定每个第一用户的职业性质；

根据每个第一用户的职业性质按照预设标准将第一用户的职业类型分为第一类和第二类；第一类为脑力劳动的职业类型，第二类为体力劳动的职业类型。

此处只是一个示例，即将职业类型分为脑力劳动的职业类型和体力劳动的职业类型，在实际实施的过程中，职业类型的分类及类型的数量均可以由工作人员根据实际需要进行设定，不仅仅局限于本发明实施例中涉及到的职业类型的分类。

另外，在利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，并利用第一用户的职业类型及第一特征向量构建最大熵分类器时，可以利用第一用户的职业类型对第一特征向量进行标注，根据不同的职业类型可确定不同的标注号，进一步根据该标注号对第一特征向量进行标注；如表1所示，其示出了一种职业类型的分类方式及与之对应的标注号的示例。

表1职业类型说明

与上述方法实施例相对应，本发明还提供了一种基于微博的用户职业分类***，如图2所示，该***可以包括第一用户获取模块21、职业类型确定模块22、第一文本词组获取模块23、分类器构建模块24及分类模块25，其中：

第一用户获取模块21，用于获取预设数量的第一用户，以及每个第一用户的职业信息和微博文本，第一用户为已经提供职业信息的微博用户；

职业类型确定模块22，用于依据第一用户的职业信息对第一用户进行分类，利用分类后得到的结果确定每个第一用户的职业类型；

第一文本词组获取模块23，用于将每个第一用户的微博文本分别进行分词处理，得到分别与每个第一用户的微博文本对应的第一文本词组；

分类器构建模块24，用于利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量，并利用第一用户的职业类型及第一特征向量构建最大熵分类器；

分类模块25，用于利用最大熵分类器对第二特征向量进行处理，得到与第二特征向量对应的微博文本所属的第二用户的职业类型。

由此，利用上述***实现：基于已知职业信息的第一用户的职业信息和微博文本构建最大熵分类器，利用最大熵分类器通过未知职业信息的第二用户的微博文本对其进行职业分类，确定第二用户的职业类型，即，能够准确获知未知职业信息的微博用户的职业类型。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于微博的用户职业分类方法，其特征在于，包括：

获取每个第一用户的职业信息和微博文本；

利用所述最大熵分类器对第二特征向量进行处理，得到与所述第二特征向量对应的微博文本所属的第二用户的职业类型；

其中，获取预设数量的第一用户包括：

构建一个第一用户列表，在所述第一用户列表中添加微博中的任一微博用户作为当前的第一用户；

获取与当前的第一用户存在联系的关联用户，并将获取的每个关联用户作为第一用户加入至所述第一用户列表中；其中，与当前的第一用户存在联系的关联用户包括为当前的第一用户发表的微博文本做出评论的微博用户及当前的第一用户为其发表的微博文本做出评论的微博用户；

依次将获取的每个关联用户作为当前的第一用户，返回执行所述获取与当前的第一用户存在联系的关联用户的步骤，直至所述第一用户列表中的第一用户的数量达到预设数量为止。

2.根据权利要求1所述的方法，其特征在于，所述依据所述第一用户的职业信息对所述第一用户进行分类，利用分类后得到的结果确定所述每个第一用户的职业类型，包括：

3.根据权利要求2所述的方法，其特征在于，获取所述第一用户的职业信息，包括：

通过所述第一用户提供的个人资料获取其职业标号；

4.根据权利要求1所述的方法，其特征在于，所述利用所述最大熵分类器对第二特征向量进行处理，得到与所述第二特征向量对应的微博文本所属的第二用户的职业类型，包括：

获取所述第二用户的微博文本；

利用所述分类结果确定所述第二用户的职业类型。

5.一种基于微博的用户职业分类***，其特征在于，包括第一用户获取模块、职业类型确定模块、第一文本词组获取模块、分类器构建模块及分类模块，其中：

所述第一用户获取模块，用于获取预设数量的第一用户，以及每个第一用户的职业信息和微博文本，所述第一用户为已经提供职业信息的微博用户；其中，所述第一用户获取模块获取预设数量的第一用户包括：构建一个第一用户列表，在所述第一用户列表中添加微博中的任一微博用户作为当前的第一用户；获取与当前的第一用户存在联系的关联用户，并将获取的每个关联用户作为第一用户加入至所述第一用户列表中；其中，与当前的第一用户存在联系的关联用户包括为当前的第一用户发表的微博文本做出评论的微博用户及当前的第一用户为其发表的微博文本做出评论的微博用户；依次将获取的每个关联用户作为当前的第一用户，返回执行所述获取与当前的第一用户存在联系的关联用户的步骤，直至所述第一用户列表中的第一用户的数量达到预设数量为止；