CN105912525A - 基于主题特征的半监督学习情感分类方法 - Google Patents
基于主题特征的半监督学习情感分类方法 Download PDFInfo
- Publication number
- CN105912525A CN105912525A CN201610226711.XA CN201610226711A CN105912525A CN 105912525 A CN105912525 A CN 105912525A CN 201610226711 A CN201610226711 A CN 201610226711A CN 105912525 A CN105912525 A CN 105912525A
- Authority
- CN
- China
- Prior art keywords
- text
- semi
- supervised learning
- classification
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于主题特征的半监督学习情感分类方法,包括:将数据文本进行预处理、文本分词及词性标注;进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征;在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。本发明可以实现更精确的情感特征分类。为电子商务和社交网络的文本情感分类技术提供了一种新的思路。用户能更有效的寻找适合自己的服务。
Description
技术领域
本发明涉及一种短文本情感分类技术、文本主题建模技术和半监督学习技术。特别是涉及一种基于主题特征的半监督学习情感分类方法。
背景技术
文本情感分析技术包括:基于情感词典的文本情感分析、基于机器学习的文本情感分析。基于情感词典的文本情感分析方法是采用现有的情感词典,通过对词语与词语之间的关系进行研究得到用户的情感信息。基于机器学习的文本情感分析方法一般为收集数据,然后分割出部分数据集作为训练集,并人工标记训练集,使用人工标记的训练集来训练构造分类器,使用未经标记的数据来检测分类器准确度。基于机器学习的文本情感分析方法十分依赖训练集,如果训练集的规模并未超过一定阈值,训练得到的分类器的准确性将会受到影响,同时其应用的领域也受到限制。即便如此,基于机器学习的文本情感分析方法的应用效果还是比较好,因此有许多研究人员深入探索。机器学习中的文本分类方法有多种,如决策树算法、贝叶斯算法、支持向量机和最大熵算法等。
特征提取是指从收集到的数据集中将有用的信息提取出来,并转换成独立的单词或者词组,为进一步分析处理数据打下基础。特征提取通常包括情感表达者识别、评价对象识别、情感观点词识别等任务。
主题模型主要有两种模型,一种是pLSA和LDA。LSA是处理这类问题的著名技术。其主要思想就是映射高维向量到潜在语义空间,使其降维。LSA的目标就是要寻找到能够很好解决实体间词法和语义关系的数据映射。正是由于这些特性,使得LSA成为相当有价值并被广泛应用的分析工具。PLSA是以统计学的角度来看待LSA,相比于标准的LSA,他的概率学变种有着更巨大的影响。
LDA(Latent Dirichlet Allocation)是用于识别大规模文档集中所隐含的主题信息的主题模型。LDA算法与其它主题模型相比,认为每个不同主题中的词语服从概率分布,每个文档中的不同主题也服从概率分布,因此每篇不同的文档所属的主题不止一个,是属于多个主题的。
传统的情感分析分类算法只考虑了文本的传统特征(词汇特征,句法特征等),未从文本主题的角度把握文本的总体含义,本发明通过对文本进行主题建模,将主题特征和传统特征相结合,在半监督学习框架下,使用分类算法进行情感分类,相较于传统的情感分类算法,提高了情感分类的准确度。
发明内容
本发明所要解决的技术问题是,提供一种能够解决传统无文本主题特征情感分类算法准确率的问题,从而可以实现更精确的情感特征分类的基于主题特征的半监督学习情感分类方法。
本发明所采用的技术方案是:一种基于主题特征的半监督学习情感分类方法,包括如下步骤:
1)将数据文本进行预处理、文本分词及词性标注;
2)进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征。
3)在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。
步骤1)所述的进行预处理,是对文本中非文本信息进行精简,去除数据中的无用信息。
步骤1)所述的文本分词,是采用单词生成模型进行的,具体如下:
其中W Seq≡ω1 m=[ω1,ω2,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。
步骤1)所述的词性标注,是对文本中每个词确定一个最为合适的词性。
步骤3)包括如下步骤:
(1)使用保留半监督学习算法进行迭代,具体是将数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;
(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;
(3)重复执行步骤S0501和步骤S0502,直到达到了预定的迭代次数,分类完成。
本发明的基于主题特征的半监督学***、用户能更有效的寻找适合自己的服务。
附图说明
图1是本发明基于主题特征的半监督学习情感分类方法的流程图;
图2是不同分类算法的F值实验对比结果。
具体实施方式
下面结合实施例和附图对本发明的基于主题特征的半监督学习情感分类方法做出详细说明。
如图1所示,本发明的基于主题特征的半监督学习情感分类方法,包括如下步骤:
1)将文本数据进行预处理、文本数据分词及词性标注;其中,
(1)对于原始的文本数据,不能直接使用,需要进行预处理,先对原始文本数据中非文本信息进行精简,去除数据中的无用信息,然后才能进行分词和词性分析。
(2)文本情感分析过程中,首先要进行文本数据的分词处理,所述的文本数据分词,可以采用单词生成模型进行的,具体如下:
其中W Seq≡ω1 m=[ω1,ω2,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。
(3)所述的词性标注,是对文本中每个词确定一个最为合适的词性。
2)进行特征选择,抽取文本数据的传统特征,还利用LDA建模技术抽取文本数据的主题特征,即对步骤1)抽取的文本数据的传统特征,进行最大似然估计,利用LDA建模技术抽取文本数据的主题特征。
3)在保留半监督学习框架下,将得到的文本数据的传统特征和文本数据的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。包括如下步骤:
(1)使用保留半监督学习算法进行迭代,具体是将所述的数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;
(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;
(3)重复执行步骤(1)和步骤(2),直到达到了预定的迭代次数,分类完成。
如图2所示,TF-RSA为本发明的方法,Reserved Self-training为传统的方法,无论是采用SVM分类算法还是MaxEnt分类算法,本发明的方法得到的分类准确度均高于ReservedSelf-training传统的方法得到的分类准确度。据此可以看到本发明的优点。
Claims (5)
1.一种基于主题特征的半监督学习情感分类方法,其特征在于,包括如下步骤:
1)将数据文本进行预处理、文本分词及词性标注;
2)进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征;
3)在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。
2.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的进行预处理,是对文本中非文本信息进行精简,去除数据中的无用信息。
3.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的文本分词,是采用单词生成模型进行的,具体如下:
其中W Seq≡ω1 m=[ω1,ω2,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。
4.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的词性标注,是对文本中每个词确定一个最为合适的词性。
5.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤3)包括如下步骤:
(1)使用保留半监督学习算法进行迭代,具体是将数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;
(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;
(3)重复执行步骤S0501和步骤S0502,直到达到了预定的迭代次数,分类完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610226711.XA CN105912525A (zh) | 2016-04-11 | 2016-04-11 | 基于主题特征的半监督学习情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610226711.XA CN105912525A (zh) | 2016-04-11 | 2016-04-11 | 基于主题特征的半监督学习情感分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105912525A true CN105912525A (zh) | 2016-08-31 |
Family
ID=56746640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610226711.XA Pending CN105912525A (zh) | 2016-04-11 | 2016-04-11 | 基于主题特征的半监督学习情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105912525A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528538A (zh) * | 2016-12-07 | 2017-03-22 | 竹间智能科技(上海)有限公司 | 智能识别情绪的方法及装置 |
CN108416032A (zh) * | 2018-03-12 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及存储介质 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN108920508A (zh) * | 2018-05-29 | 2018-11-30 | 福建新大陆软件工程有限公司 | 基于lda算法的文本分类模型训练方法及*** |
CN111160037A (zh) * | 2019-12-02 | 2020-05-15 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN113688241A (zh) * | 2021-08-31 | 2021-11-23 | 重庆大学 | 一种基于融合多级别主题情感模型的文本分类方法及装置 |
CN114238627A (zh) * | 2021-11-22 | 2022-03-25 | 西北工业大学 | 一种基于albert和lda的跨域情感分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析***及方法 |
CN103903164A (zh) * | 2014-03-25 | 2014-07-02 | 华南理工大学 | 基于领域信息的半监督方面自动提取方法及其*** |
CN104484437A (zh) * | 2014-12-24 | 2015-04-01 | 福建师范大学 | 一种网络短评情感挖掘方法 |
-
2016
- 2016-04-11 CN CN201610226711.XA patent/CN105912525A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析***及方法 |
CN103903164A (zh) * | 2014-03-25 | 2014-07-02 | 华南理工大学 | 基于领域信息的半监督方面自动提取方法及其*** |
CN104484437A (zh) * | 2014-12-24 | 2015-04-01 | 福建师范大学 | 一种网络短评情感挖掘方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528538A (zh) * | 2016-12-07 | 2017-03-22 | 竹间智能科技(上海)有限公司 | 智能识别情绪的方法及装置 |
CN108416032A (zh) * | 2018-03-12 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及存储介质 |
CN108416032B (zh) * | 2018-03-12 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及存储介质 |
CN108492118A (zh) * | 2018-04-03 | 2018-09-04 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN108492118B (zh) * | 2018-04-03 | 2020-09-29 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN108920508A (zh) * | 2018-05-29 | 2018-11-30 | 福建新大陆软件工程有限公司 | 基于lda算法的文本分类模型训练方法及*** |
CN111160037A (zh) * | 2019-12-02 | 2020-05-15 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN113688241A (zh) * | 2021-08-31 | 2021-11-23 | 重庆大学 | 一种基于融合多级别主题情感模型的文本分类方法及装置 |
CN113688241B (zh) * | 2021-08-31 | 2023-08-29 | 重庆大学 | 一种基于融合多级别主题情感模型的文本分类方法及装置 |
CN114238627A (zh) * | 2021-11-22 | 2022-03-25 | 西北工业大学 | 一种基于albert和lda的跨域情感分类方法 |
CN114238627B (zh) * | 2021-11-22 | 2024-04-12 | 西北工业大学 | 一种基于albert和lda的跨域情感分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN106202032B (zh) | 一种面向微博短文本的情感分析方法及其*** | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测*** | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
US20170091318A1 (en) | Apparatus and method for extracting keywords from a single document | |
CN104331506A (zh) | 一种面向双语微博文本的多类情感分析方法与*** | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN102289522A (zh) | 一种对于文本智能分类的方法 | |
CN105609116B (zh) | 一种语音情感维度区域的自动识别方法 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN103474061A (zh) | 基于分类器融合的汉语方言自动辨识方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN104834918A (zh) | 一种基于高斯过程分类器的人体行为识别方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN109471932A (zh) | 基于学习模型的谣言检测方法、***及存储介质 | |
CN110427458A (zh) | 基于双门lstm的社交网络双语的五分类情感分析方法 | |
CN111159332A (zh) | 一种基于bert的文本多意图识别方法 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160831 |