CN106126605A

CN106126605A - 一种基于用户画像的短文本分类方法

Info

Publication number: CN106126605A
Application number: CN201610453205.4A
Authority: CN
Inventors: 张旭; 赵志云; 刘春阳; 庞琳; 李雄; 王卿; 王萌
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2016-11-16
Anticipated expiration: 2036-06-21
Also published as: CN106126605B

Abstract

本发明公开了一种基于用户画像的短文本分类方法。本方法为：1)基于用户发出的短文本数据生成对应用户的用户画像；其中，用户u_i的用户画像为用户u_i属于类别c_i的值；2)采用分类器对该用户u_i的短文本T_S进行分类，得到该短文本T_S所属类别的可能性F＝{f₁,...,f_i,...,f_m}；3)根据用户u_i的用户画像与F＝{f₁,...,f_i,...,f_m}计算该短文本T_S属于各类别的值，选出最大的类别结果作为该短文本T_S的类别标签。本发明大大增加了分类的准确率。

Description

一种基于用户画像的短文本分类方法

技术领域

本发明属于计算机数据挖掘领域中的文本挖掘领域，涉及海量文本数据分类方法分析，本发明着重解决的问题是在海量数据环境中基于用户画像的短文本分类。

背景技术

分类是一种重要的信息组织方式，研究的目标是对文本自动归类。互联网正悄然无息地影响着人们的生活习惯，由于社交网络的出现，短文本形式的信息大量涌入人们的生活中。面对大规模的短文本形式的数据，如何快速而准确地从中获取所需的关键信息，进行文本挖掘或商业挖掘，短文本分类技术发挥着非常重要的作用，并且在用户兴趣挖掘、热点话题追踪、流行语分析等领域都有着广泛的应用前景。目前的文本分类技术多是针对长文本进行，虽然性能较好但由于短文本字数少、数量庞大，并多数依存于网络，并不一定适用。国内针对短文本的研究多集中在语义扩展、特征处理等方面，并没有特别深入***的研究。据此，基于用户画像的短文本分类方法具有极其重要的研究意义：

从理论上看，文本分类作为一种有效的组织和管理方法，得到了广泛应用和快速发展。文本分类是信息处理的主要研究方向，有着极其重要的应用价值。由于其能快速、全面、准确地处理各种杂乱信息，在信息检索、信息过滤、搜索引擎、数字图书馆管理和文本管理等领域中有着广泛的应用。

从商业活动上来看，将产品评论中的产品特征、观点词作为语义内容，并将语义内容数量和评论文本长度等加入分类特征进行产品评论的挖掘，进而获得产品相关的反馈以改进产品质量的针对性意见。

从文化生活的角度看，分类技术可以挖掘世界各地用户对生活中的各类人文地理文化自动分类，有利于用户按照分类信息快速浏览查阅自己想知道的内容。此外分类技术还可以用于社交网络中的个性化推荐功能，比如根据用户好友平时经常浏览的类别信息对用户进行图书、电影、音乐等推荐。

通常情况下，文本经过预处理、降维、向量化后文本被转换为向量,先对训练集通过某种分类方法训练得到一分类器,再用分类器对测试集数据进行分类。通常的分类方法有两类：第一类是借助外部文本如搜索引擎结果，扩展短文本；第二类是借助知识库挖掘短文本中词语之间的内在联系。第一类方法不是很理想，一方面消耗较长时间，另一方面对搜索引擎的结果非常依赖；第二类方法利用知识库可以发现大部分分词之间的语义关系，但对于知识库中不存在的词无能为力。

分类的准确率一直都是大家关注的重点，短文本由于其长度较短，特征较少，使得其分类准确率一直很难提升。有些方法比如扩展短文本的特征，其方法的准确率受限于扩展的方法，也不能很好的解决短文本分类问题。

短文本分类主要存在以下问题：短文本本身含有的特征太少。在一篇短文本中，词的数量非常有限，而拓展词汇虽然扩展了短文本的特征，但其扩展方法的准确性仍然有待考证。

综上所述，为了解决短文本分类，提高判断短文本分类的准确率，本发明提出了一种基于用户画像的短文本分类方法。

发明内容

为了解决上述问题，我提出使用用户历史数据来预测当前文本。本发明的目的在于提供一种短文本分类处理方法及***，使用人工标注的用户历史数据，来预测该用户一条新的短文本所属类别，既使用用户画像辅助分类。

本发明主要包含两个方面：(1)首先，定义并使用用户画像。(2)其次，综合用户画像与分类器结果进行分类。

用户发出来的短文本有这样一个现象，这些短文本往往属于一个或几个类别，而该用户的一条新的短文本，往往很大程度上在这些类别之中。因此，我们可以使用历史数据来刻画用户画像，进而辅助分类。

令U＝{u₁,...,u_k}表示一个用户集合，对于该集合中的任意一个用户u_i，假设该用户u_i的历史短文本信息集合是每条短文本信息对应的类别标签是其中C是类别集合，共有m＝|C|个类别，那么对于所有类别C＝{c₁,...,c_j,...,c_m}，用户u_i的用户画像是：其中，num(c_i)是用户u_i短文本信息的集合中标签的个数。

对于分类器给出的短文本T_S所属类别的可能性F＝{f₁,...,f_m}，进行归一化，得到G＝{g₁,...,g_m}，与用户画像结合得到所属可能性为P＝{p₁,...,p_m}，p_i＝g_i*pf_i，即相对应类别的可能性与画像相乘，选出最大的类别结果作为该短文本的类别标签。

基于此，本发明的技术方案为：

一种基于用户画像的短文本分类方法，其步骤为：

1)基于用户发出的短文本数据生成对应用户的用户画像；其中，用户u_i的用户画像为用户u_i属于类别c_i的值；

2)采用分类器对该用户u_i的短文本T_S进行分类，得到该短文本T_S所属类别的可能性F＝{f₁,...,f_i,...,f_m}；

3)根据用户u_i的用户画像与F＝{f₁,...,f_i,...,f_m}计算该短文本T_S属于各类别的值，选出最大的类别结果作为该短文本T_S的类别标签。

进一步的，生成该用户u_i的用户画像的方法为：设该用户u_i的历史短文本信息集合是每条短文本信息对应的类别标签是其中，C是类别集合，共有m＝|C|个类别；那么对于所有类别C＝{c₁,...,c_j,...,c_m}，用户u_i的用户画像是其中，num(c_i)是用户u_i短文本信息的集合中标签的个数。

进一步的，步骤2)中，对该短文本T_S所属类别的可能性F＝{f₁,...,f_i,...,f_m}进行归一化，得到G＝{g₁,...,g_i,...,g_m}，其中，f_i为该短文本T_S属于类别c_i的可能性。

进一步的，步骤3)中，根据用户u_i的用户画像与F＝{f₁,...,f_i,...,f_m}计算该短文本T_S属于各类别的值的方法为：将用户u_i的用户画像与F＝{f₁,...,f_i,...,f_m}相乘，得到P＝{p₁,...,p_i,...,p_m}，其中，p_i＝g_i*pf_i。

进一步的，步骤1)中，对该用户画像进行一次平滑操作，然后进行步骤2)。

进一步的，所述分类器为SVM或朴素贝叶斯分类器。

进一步的，所述类别包括体育、娱乐、教育。

本发明使用历史数据对用户刻画用户画像，根据用户画像，结合分类器分类结果，给出短文本的分类结果。

与现有技术向，本发明的积极效果为：

本发明提出的基于用户画像的短文本分类方法，综合考虑了句子的文本和用户历史信息，增加了分类的准确率。实验证明，见表1，将用户画像与传统的SVM方法进行融合后效果有明显提升。

表1为实验结果对比表

Method	Accuracy
		SVM	81.4％
SVM-PR	85.6％

附图说明

图1为本发明的方法流程图。

具体实施方式

本发明公开了一种有监督的短文本分类方法，其流程如图1所示，其包括如下步骤：

对于每个用户和用户的历史数据，选出20条进行人工标注。

假设短文本共有三类(体育，娱乐，教育)。如对于用户A，选取历史短文本数据20条，经过人工标注后，共有5条体育类别，15条娱乐类别的短文本数据。那么用户A的历史数据就是(5，15，0)。

根据上述公式计算每个用户的用户画像。

对于用户A，体育类别的用户画像概率就是log(5)＝2.32，娱乐类别的用户画像概率就是log(15)＝3.91，以此可得用户A的用户画像是(2.32，3.91，0)，经过一次平滑的操作，得到用户A的用户画像(2.32，3.91，1)

预测：

给出一个短文本，计算分类器(如SVM，朴素贝叶斯等)给出的结果。

如有两条用户A的短文本a、b，经过SVM分类后，属于三个类别的概率分别为a：(0.8，0.1，0.1)，b：(0.4，0.3，0.3)。

综合用户画像与分类器分出来的结果，计算，并选出p总最大的值的类别标签作为该短文本的类别。

对于a，将用户A的用户画像与分类器分类结果进行相乘，得到(0.8*2.32，0.1*3.91，0.1*1)，得到(1.856，0.391，0.01)，则得出结论短文本a属于第一类；对于短文本b，经过同样的运算，得到(0.928，1.173，0.03)，则我们认为短文本b属于第二类。

Claims

1.一种基于用户画像的短文本分类方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，生成该用户u_i的用户画像的方法为：设该用户u_i的历史短文本信息集合是每条短文本信息对应的类别标签是其中，C是类别集合，共有m＝|C|个类别；那么对于所有类别C＝{c₁,...,c_j,...,c_m}，用户u_i的用户画像是其中，num(c_i)是用户u_i短文本信息的集合中标签的个数。

3.如权利要求1或2所述的方法，其特征在于，步骤2)中，对该短文本T_S所属类别的可能性F＝{f₁,...,f_i,...,f_m}进行归一化，得到G＝{g₁,...,g_i,...,g_m}，其中，f_i为该短文本T_S属于类别c_i的可能性。

4.如权利要求3所述的方法，其特征在于，步骤3)中，根据用户u_i的用户画像与F＝{f₁,...,f_i,...,f_m}计算该短文本T_S属于各类别的值的方法为：将用户u_i的用户画像与F＝{f₁,...,f_i,...,f_m}相乘，得到P＝{p₁,...,p_i,...,p_m}，其中，p_i＝g_i*pf_i。

5.如权利要求1所述的方法，其特征在于，步骤1)中，对该用户画像进行一次平滑操作，然后进行步骤2)。

6.如权利要求1所述的方法，其特征在于，所述分类器为SVM或朴素贝叶斯分类器。

7.如权利要求1所述的方法，其特征在于，所述类别包括体育、娱乐、教育。