CN105912525A

CN105912525A - 基于主题特征的半监督学习情感分类方法

Info

Publication number: CN105912525A
Application number: CN201610226711.XA
Authority: CN
Inventors: 喻梅; 赵永伟; 高洁; 于健; 王建荣; 吕方
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-04-11
Filing date: 2016-04-11
Publication date: 2016-08-31

Abstract

一种基于主题特征的半监督学习情感分类方法，包括：将数据文本进行预处理、文本分词及词性标注；进行特征选择，抽取文本的传统特征，还利用LDA建模技术抽取文本的主题特征；在保留半监督学习框架下，将得到的文本的传统特征和文本的主题特征作为数据集，分别用SVM算法和最大熵算法进行分类训练。本发明可以实现更精确的情感特征分类。为电子商务和社交网络的文本情感分类技术提供了一种新的思路。用户能更有效的寻找适合自己的服务。

Description

基于主题特征的半监督学习情感分类方法

技术领域

本发明涉及一种短文本情感分类技术、文本主题建模技术和半监督学习技术。特别是涉及一种基于主题特征的半监督学习情感分类方法。

背景技术

文本情感分析技术包括：基于情感词典的文本情感分析、基于机器学习的文本情感分析。基于情感词典的文本情感分析方法是采用现有的情感词典，通过对词语与词语之间的关系进行研究得到用户的情感信息。基于机器学习的文本情感分析方法一般为收集数据，然后分割出部分数据集作为训练集，并人工标记训练集，使用人工标记的训练集来训练构造分类器，使用未经标记的数据来检测分类器准确度。基于机器学习的文本情感分析方法十分依赖训练集，如果训练集的规模并未超过一定阈值，训练得到的分类器的准确性将会受到影响，同时其应用的领域也受到限制。即便如此，基于机器学习的文本情感分析方法的应用效果还是比较好，因此有许多研究人员深入探索。机器学习中的文本分类方法有多种，如决策树算法、贝叶斯算法、支持向量机和最大熵算法等。

特征提取是指从收集到的数据集中将有用的信息提取出来，并转换成独立的单词或者词组，为进一步分析处理数据打下基础。特征提取通常包括情感表达者识别、评价对象识别、情感观点词识别等任务。

主题模型主要有两种模型，一种是pLSA和LDA。LSA是处理这类问题的著名技术。其主要思想就是映射高维向量到潜在语义空间，使其降维。LSA的目标就是要寻找到能够很好解决实体间词法和语义关系的数据映射。正是由于这些特性，使得LSA成为相当有价值并被广泛应用的分析工具。PLSA是以统计学的角度来看待LSA，相比于标准的LSA，他的概率学变种有着更巨大的影响。

LDA(Latent Dirichlet Allocation)是用于识别大规模文档集中所隐含的主题信息的主题模型。LDA算法与其它主题模型相比，认为每个不同主题中的词语服从概率分布，每个文档中的不同主题也服从概率分布，因此每篇不同的文档所属的主题不止一个，是属于多个主题的。

传统的情感分析分类算法只考虑了文本的传统特征(词汇特征，句法特征等)，未从文本主题的角度把握文本的总体含义，本发明通过对文本进行主题建模，将主题特征和传统特征相结合，在半监督学习框架下，使用分类算法进行情感分类，相较于传统的情感分类算法，提高了情感分类的准确度。

发明内容

本发明所要解决的技术问题是，提供一种能够解决传统无文本主题特征情感分类算法准确率的问题，从而可以实现更精确的情感特征分类的基于主题特征的半监督学习情感分类方法。

本发明所采用的技术方案是：一种基于主题特征的半监督学习情感分类方法，包括如下步骤：

1)将数据文本进行预处理、文本分词及词性标注；

2)进行特征选择，抽取文本的传统特征，还利用LDA建模技术抽取文本的主题特征。

3)在保留半监督学习框架下，将得到的文本的传统特征和文本的主题特征作为数据集，分别用SVM算法和最大熵算法进行分类训练。

步骤1)所述的进行预处理，是对文本中非文本信息进行精简，去除数据中的无用信息。

步骤1)所述的文本分词，是采用单词生成模型进行的，具体如下：

W S e q * = \arg \underset{W S e q}{m a x} P (W S e q | c_{1}^{n})

其中W Seq≡ω₁ ^m＝[ω₁,ω₂,...ω_m]表示含有m个词语ω的一组序列，表示含有n个字的句子，P表示概率。

步骤1)所述的词性标注，是对文本中每个词确定一个最为合适的词性。

步骤3)包括如下步骤：

(1)使用保留半监督学习算法进行迭代，具体是将数据集划分为训练集和测试集，使用SVM算法和最大熵算法对训练集进行分类训练，得到分类模型；

(2)使用分类模型对测试集进行分类预测，将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中；

(3)重复执行步骤S0501和步骤S0502，直到达到了预定的迭代次数，分类完成。

本发明的基于主题特征的半监督学***、用户能更有效的寻找适合自己的服务。

附图说明

图1是本发明基于主题特征的半监督学习情感分类方法的流程图；

图2是不同分类算法的F值实验对比结果。

具体实施方式

下面结合实施例和附图对本发明的基于主题特征的半监督学习情感分类方法做出详细说明。

如图1所示，本发明的基于主题特征的半监督学习情感分类方法，包括如下步骤：

1)将文本数据进行预处理、文本数据分词及词性标注；其中，

(1)对于原始的文本数据，不能直接使用，需要进行预处理，先对原始文本数据中非文本信息进行精简，去除数据中的无用信息，然后才能进行分词和词性分析。

(2)文本情感分析过程中，首先要进行文本数据的分词处理，所述的文本数据分词，可以采用单词生成模型进行的，具体如下：

W S e q * = \arg \underset{W S e q}{m a x} P (W S e q | c_{1}^{n})

(3)所述的词性标注，是对文本中每个词确定一个最为合适的词性。

2)进行特征选择，抽取文本数据的传统特征，还利用LDA建模技术抽取文本数据的主题特征，即对步骤1)抽取的文本数据的传统特征，进行最大似然估计，利用LDA建模技术抽取文本数据的主题特征。

3)在保留半监督学习框架下，将得到的文本数据的传统特征和文本数据的主题特征作为数据集，分别用SVM算法和最大熵算法进行分类训练。包括如下步骤：

(1)使用保留半监督学习算法进行迭代，具体是将所述的数据集划分为训练集和测试集，使用SVM算法和最大熵算法对训练集进行分类训练，得到分类模型；

(3)重复执行步骤(1)和步骤(2)，直到达到了预定的迭代次数，分类完成。

如图2所示，TF-RSA为本发明的方法，Reserved Self-training为传统的方法，无论是采用SVM分类算法还是MaxEnt分类算法，本发明的方法得到的分类准确度均高于ReservedSelf-training传统的方法得到的分类准确度。据此可以看到本发明的优点。

Claims

1.一种基于主题特征的半监督学习情感分类方法，其特征在于，包括如下步骤：

1)将数据文本进行预处理、文本分词及词性标注；

2)进行特征选择，抽取文本的传统特征，还利用LDA建模技术抽取文本的主题特征；

2.根据权利要求1所述的基于主题特征的半监督学习情感分类方法，其特征在于，步骤1)所述的进行预处理，是对文本中非文本信息进行精简，去除数据中的无用信息。

3.根据权利要求1所述的基于主题特征的半监督学习情感分类方法，其特征在于，步骤1)所述的文本分词，是采用单词生成模型进行的，具体如下：

W S e q * = \arg \underset{W S e q}{m a x} P (W S e q | c_{1}^{n})

4.根据权利要求1所述的基于主题特征的半监督学习情感分类方法，其特征在于，步骤1)所述的词性标注，是对文本中每个词确定一个最为合适的词性。

5.根据权利要求1所述的基于主题特征的半监督学习情感分类方法，其特征在于，步骤3)包括如下步骤：