CN109344252A

CN109344252A - 基于优质主题扩展的微博文本分类方法及***

Info

Publication number: CN109344252A
Application number: CN201811064231.3A
Authority: CN
Inventors: 张曦元; 孙福权
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-02-15
Anticipated expiration: 2038-09-12
Also published as: CN109344252B

Abstract

本发明提供一种基于优质主题扩展的微博文本分类方法及***。适用于微博等短文本分类中文本的特征扩展，能够实现微博有效分类。将训练集微博数据作为LDA模型的输入，得到主题概率分布与词概率分布；利用信息熵提取出的高表征性主题根据主题的相似度提取出优质主题；对测试集微博进行主题推断；选取优质主题特征词对微博文本进行特征扩展；对扩展后的微博文本使用支持向量机算法进行分类预测。本方法适用于解决利用主题模型扩展微博文本特征时主题词混杂所致文本特征扩展不精确问题。

Description

基于优质主题扩展的微博文本分类方法及***

技术领域

本发明涉及于文本分类技术领域，具体而言，尤其涉及一种基于优质主题扩展的微博文本分类方法及***。

背景技术

作为新兴媒介之一，微博至今已有上亿的用户群，在中国社交网络平台中占据领先地位。微博操作简单、内容更新迅速，具有较高的研究价值。过去的几十年里，文本分类已经有较多研究，但对于微博这类短文本分类的效果始终不理想。针对微博文本篇幅短小、特征稀疏，再经分词和停用词处理，过滤掉一些词语，再次经过特征选择之后更是保留了极少的特征，这虽然降低了计算的复杂性，但使得分类的准确率明显下降所以为了更好地进行分类，需要对微博文本的进行扩展特征。

LDA模型是由单词、主题和文档构成的三层贝叶斯概率模型。假设每篇文档由多个隐含主题构成，依据词汇间的共现关系挖掘潜在主题，将文本表示为主题的概率分布，将主题表示为一系列单词构成的概率分布。利用主题分布实现短文本的特征扩展是提升短文本分类的有效方式，但主题模型训练出的主题并非所有主题都能完整表述一个主题内容，存在主题混杂及主题不明确现象，直接进行短文本扩充可能引入其他不相符特征。

发明内容

根据上述提出的利用主题模型进行微博文本扩充存在的技术问题，而提供一种基于优质主题扩展的微博文本分类方法及***。本发明该方法有效提取出优质的主题，用于微博特征扩展后有效解决了特征稀疏导致的分类效果较差的缺点。

本发明采用的技术手段如下：

一种基于优质主题扩展的微博文本分类方法，包括如下步骤：

S1、对微博文本进行数据预处理并进行特征选择，通过预处理后的文本构建训练集与测试集；

S2、将预处理后的训练集数据作为LDA模型的输入，得到训练集数据的主题的概率分布及主题词的概率分布；

S3、将信息熵应用于主题词的概率分布计算出主题熵，同时计算相对熵和主题的平均相似度，从而计算主题优质系数，设定阈值筛选出优质主题；

S4、分别对训练集与测试集进行主题划分，通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对于主题的主题词，将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中；

S5、利用向量空间模型对扩展后的文本进行文本表示，并用TF-IDF计算每个特征词的权重，将训练数据与测试数据文档转变为向量，选取有用特征，通过分类器SVM训练训练集，继而对测试集进行分类预测，产生分类结果。

进一步地，所述对微博文本进行数据预处理并进行特征选择包括如下步骤：

S11、对文本进行中文分词预处理，将完整的句子划分成词汇，从而得到文本语料特征集；

S12、剔除分词后文本中的常见的连词、代词类停用词，利用中文停用词表进行预处理操作，若特征词存在停用词表则删除该特征词，再对标点符号进行剔除；

S13、将预处理后文本根据所属类别划分构建词典，统计不同类别词的信息，对特征词出现总次数进行降序排列，选择每类排在前n的词作为该类的特征词，进行汇总后作为分类的总体特征。

进一步地，所述步骤S2中，通过如下步骤得到训练集数据的主题的概率分布：

S21、设置主题模型参数α，主题数目K，从参数为α的Dirichlet分布中抽取出微博的主题分布doc-topic矩阵θ_m，θ_m～Dir(α),m∈[1,M]，θ_m表示文档m的主题概率分布

其中n_m,k表示第m篇微博的第k号主题词的个数。

进一步地，所述步骤S2中，通过如下步骤得到训练集数据的主题词的概率分布：

S22、设置主题模型参数β，主题数目K，从参数为β的Dirichlet分布中抽取出主题的词分布topic-word矩阵表示主题k的词的概率分布

其中n_k,v表示主题k下词v出现的次数。

进一步地，所述步骤S3具体包括：

S31、计算主题信息熵TE，具体为：

TE(k)＝-∑P(w|k)*lnP(w|k)

其中，P(w|k)表示词w出现在主题k下的概率；

S32、计算主题的相对熵，具体为：

其中，P、Q表示待度量分布，当两个随机分布相同时，相对熵为零，当两个随机分布的差别增大时，相对熵也会增大；

S33、计算主题的平均相似度，具体为：

利用相对熵计算出主题的JS距离，用于度量主题间相似度，具体为：

平均相似度是用来计算某一分布相对其他分布的独立性，主题的平均相似度计算方法具体为：

其中j不等于K

其中K表示主题总数；

S34、筛选优质主题

根据主题熵与平均相似度计算主题优质系数，计算方法具体为：

若主题优质系数满足G(k)>μ，μ是阈值，则判定该主题属于优质主题，作为扩展备选，否则不是优质主题，进而得到优质主题集S。

进一步地，所述步骤S4中，对训练集进行主题划分具体为：

S41、对训练集训练出的主题模型得到的主题分布，选择每篇微博所在优质主题中概率最大值所属主题，将所属主题对应的主题词选择概率排名最高的λ个特征词w＝{w₁,w₂,…w_λ}作为扩展词添加至训练集的文本特征中，若原文档中不存在扩展词则将词w并入到文档中。

进一步地，所述步骤S4中，测试集进行主题推断并进行特征扩展具体为：

S42、利用训练集训练出的主题模型对测试集进行主题推断，得到测试文本的文档-主题分布矩阵；对每篇测试文本选择在优质主题集S中概率最大值所属主题选择概率排名最高的λ个特征词w＝{w₁,w₂,…w_λ}作为扩展词添加至测试集的文本特征中。

进一步地，所述步骤S5具体为：

S51、将步骤S41得到的扩展文本使用向量空间模型进行文本表示，将文档d看作向量空间中的n维向量，利用TF-IDF计算出特征的权重，向量v＝(ε₁,ε₂,…,ε_n),ε_i表示第i个词的权重，权重的计算具体为：

其中，tf_ij是指某个特征词在某篇文本中出现的频率，df_i表示语料中包含特征词的文本数，M是语料文本总数；

S52、使用LIBSVM工具进行文本分类，文档转换的数据格式为label 1：value 2：value…，其中，label为类别标识，1、2为特征值即tf-idf计算权值；

S53、记录训练集类别标签Y＝{y1,y2,…,yn}，对训练集训练模型后对测试集进行分类预测。

本发明还提供了一种基于优质主题扩展的微博文本分类***，包括：

文本采集单元，用于对自行采集的微博文本数据进行采集，构建训练集与测试集；

文本数据预处理单元，用于对原始文本样本进行预处理并进行特征选择，其包括：

中文分词模块，用于将完整的句子划分成词汇，并剔除文本中的停用词，

中文停用词表模块，用于删除文本中出现的停用词表中的特征词，并剔除标点符号，

词典构建模块，用于对文本中特征词进行排序，并对特征词进行汇总；

LDA模型训练单元，用于通过训练集数据得出文档主题分布及主题词分布情况，其包括：

数据处理模块，用于通过主题词分布数据计算优质系数，通过设定阈值划分出优质主题；

所述LDA模型训练单元还用于将优质特征词作为训练集的文本扩展和测试集的文本扩展；

文本分类单元，用于通过LIBSVM工具对文本扩展后的训练集进行文本分类，同时对测试集的待测数据进行分类，产生分类结果。

较现有技术相比，本发明具有以下优点：

本方法通过基于优质主题扩展的微博文本分类方法，有效提取出优质的主题，用于微博特征扩展后有效解决了特征稀疏导致的分类效果较差的缺点，与现有技术相比，准确率更高，更加适用于微博等短文本分类中文本的特征扩展，能够实现微博有效分类。有效地解决了解决利用主题模型扩展微博文本特征时主题词混杂所致文本特征扩展不精确问题。

基于上述理由本发明可在文本分类技术领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于优质主题扩展的微博文本分类方法的流程图。

图2为本发明基于优质主题扩展的微博文本分类方法的LDA概率模型。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种基于优质主题扩展的微博文本分类方法，包括如下步骤：

S3、通过信息熵应用于主题词的概率分布计算出主题熵，相对熵和主题的平均相似度，从而计算主题优质系数，设定阈值筛选出优质主题；

所述对微博文本进行数据预处理并进行特征选择包括如下步骤：

如图2所示，设置主题模型参数α、β，主题数目K，利用Gibbs采样的方式进行参数估计。

其中n_m,k表示第m篇微博的第k号主题词的个数。

其中n_k,v表示主题k下词v出现的次数。

S31、利用信息熵应用于主题分布计算出主题熵进而划分出优质主题，计算主题信息熵TE，具体为：

TE(k)＝-∑P(w|k)*lnP(w|k)

其中，P(w|k)表示词w出现在主题k下的概率，TE的值越小,分布差距越悬殊。从每个主题来看，分布中少量特征词以较大概率出现，其他词以小概率出现，此时主题表征性较强，主题噪声较小。

S32、计算主题的相对熵，相对熵，是用来衡量概率分布之间差异性的指标，具体为：

S33、计算主题的平均相似度，具体为：

其中j不等于K

其中K表示主题总数；

S34、筛选优质主题

本发明所述的基于优质主题扩展的微博文本分类方法，与单独svm方法和LDA结合SVM方法相比较，经过实验验证准确率有明显提高，如表1所示：

表1

特征	召回率	准确率
			SVM	0.754	0.760
LDA+SVM	0.831	0.822
			优质主题+SVM	0.863	0.857

一种基于优质主题扩展的微博文本分类***，包括：

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于优质主题扩展的微博文本分类方法，其特征在于，包括如下步骤：

S4、分别对训练集与测试集进行主题划分，通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对应主题的主题词，将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中；

2.根据权利要求1所述的基于优质主题扩展的微博文本分类方法，其特征在于，所述对微博文本进行数据预处理并进行特征选择包括如下步骤：

3.根据权利要求1所述的基于优质主题扩展的微博文本分类方法，其特征在于，所述步骤S2中，通过如下步骤得到训练集数据的主题的概率分布：

其中n_m,k表示第m篇微博的第k号主题词的个数；

通过如下步骤得到训练集数据的主题词的概率分布：

其中n_k,v表示主题k下词v出现的次数。

4.根据权利要求1所述的基于优质主题扩展的微博文本分类方法，其特征在于，所述步骤S3具体包括：

S31、计算主题信息熵TE，具体为：

TE(k)＝-∑P(w|k)*lnP(w|k)

其中，P(w|k)表示词w出现在主题k下的概率；

S32、计算主题的相对熵，具体为：

S33、计算主题的平均相似度，具体为：

其中j不等于K

其中K表示主题总数；

S34、筛选优质主题

5.根据权利要求1所述的基于优质主题扩展的微博文本分类方法，其特征在于，所述步骤S4中，对训练集进行主题划分具体为：

6.根据权利要求5所述的基于优质主题扩展的微博文本分类方法，其特征在于，所述步骤S4中，测试集进行主题推断并进行特征扩展具体为：

7.根据权利要求1所述的基于优质主题扩展的微博文本分类方法，其特征在于，所述步骤S5具体为：

8.一种基于优质主题扩展的微博文本分类***，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时，执行所述权利要求1至7中任一项权利要求所述的方法。

10.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序运行执行所述权利要求1至7中任一项权利要求所述的方法。