CN104809232A - 一种基于句子间情绪转移概率的句子级情绪分类方法 - Google Patents

一种基于句子间情绪转移概率的句子级情绪分类方法 Download PDF

Info

Publication number
CN104809232A
CN104809232A CN201510236584.7A CN201510236584A CN104809232A CN 104809232 A CN104809232 A CN 104809232A CN 201510236584 A CN201510236584 A CN 201510236584A CN 104809232 A CN104809232 A CN 104809232A
Authority
CN
China
Prior art keywords
sentence
mood
marked
level
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510236584.7A
Other languages
English (en)
Other versions
CN104809232B (zh
Inventor
李寿山
汪蓉
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201510236584.7A priority Critical patent/CN104809232B/zh
Publication of CN104809232A publication Critical patent/CN104809232A/zh
Application granted granted Critical
Publication of CN104809232B publication Critical patent/CN104809232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于句子间情绪转移概率的句子级情绪分类方法,该方法包括利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;利用预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。本申请公开的方法中,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。

Description

一种基于句子间情绪转移概率的句子级情绪分类方法
技术领域
本发明涉及自然语言处理及机器学习技术领域,特别涉及一种基于句子间情绪转移概率的句子级情绪分类方法。
背景技术
随着互联网的高速发展,人们越来越倾向于在社交网站上发表自己的情感,从微博、微信上的一句短句,到长篇的博客,这些大量的文本信息中蕴含着作者大量的情绪信息。
目前按照情绪标签对文本信息进行分类的研究开始逐渐增多,但普遍都是对文本信息自身的情绪特征进行分析。由于人类对语言文字的组织运用是带有主观性和多样性的,使得不少文本信息自身的表面情绪特征往往与作者真实的情绪是不一致的。所以,如果仅仅是对文本信息自身的情绪特征进行分析,便有可能造成错误的分类结果。
综上所述可以看出,在按照情绪标签对文本信息进行分类时,如何改善文本信息的情绪分类效果是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于句子间情绪转移概率的句子级情绪分类方法,在按照情绪标签对文本信息进行分类时,改善了文本信息的情绪分类效果。其具体方案如下:
一种基于句子间情绪转移概率的句子级情绪分类方法,
利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;
利用预先基于所述已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对所述预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。
优选的,所述已标注情绪标签的句子级文本集包括N组已标注情绪标签的句子级文本,其中,N为正整数,每组所述已标注情绪标签的句子级文本均包括两个已标注情绪标签的文本句子。
优选的,所述N组已标注情绪标签的句子级文本为不小于1000组的已标注情绪标签的句子级文本。
优选的,用于对所述已标注情绪标签的文本句子进行标注的情绪标签包括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子只被标注上一种情绪标签。
优选的,所述M种情绪标签为8种情绪标签,所述8种情绪标签为高兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。
优选的,基于所述已标注情绪标签的句子级文本集计算所述句子间情绪转移概率的过程包括:
记录每组所述已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系;
按照所述情绪对应关系的种类对所述N组已标注情绪标签的句子级文本进行分类,得到多类句子级文本类;每一类所述句子级文本类包括一组或多组所述已标注情绪标签的句子级文本;
计算每类所述句子级文本类中含有的句子级文本的数量占所述句子级文本集中含有的句子级文本的总量的比例,得到每类所述句子级文本类的所述句子间情绪转移概率。
优选的,基于所述已标注情绪标签的句子级文本集建立所述分类器的过程为:
在所述已标注情绪标签的句子级文本集上执行机器学习分类算法,得到所述分类器。
优选的,所述机器学习分类算法为最大熵分类算法。
本发明中,在利用分类器对待标注情绪标签的句子级文本进行预分类后,也即,在对待标注情绪标签的句子级文本自身的情绪特征进行分析后,还利用预先计算的句子间情绪转移概率对预标注情绪标签的句子级文本进行优化分类,从而得到最终的优化分类结果,可见,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种基于句子间情绪转移概率的句子级情绪分类方法流程图;
图2为本发明实施例公开的一种句子间情绪转移概率的计算方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于句子间情绪转移概率的句子级情绪分类方法,参见图1所示,上述方法包括:
步骤S101:利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本。
本实施例中,已标注情绪标签的句子级文本集包括N组已标注情绪标签的句子级文本,其中,N为正整数,每组已标注情绪标签的句子级文本均包括两个已标注情绪标签的文本句子。优选的,上述N组已标注情绪标签的句子级文本为不小于1000组的已标注情绪标签的句子级文本。上述已标注情绪标签的句子级文本可以是从相关已有的文本数据库中获取,也可以通过自行标注的方式获得。
另外,用于对已标注情绪标签的文本句子进行标注的情绪标签包括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子只被标注上一种情绪标签。优选的,M种情绪标签为8种情绪标签,8种情绪标签为高兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。
本实施例中,基于已标注情绪标签的句子级文本集建立分类器的过程为:在已标注情绪标签的句子级文本集上执行机器学习分类算法,得到分类器。优选的机器学习分类算法为最大熵分类算法。最大熵分类算法适合融合各种不一样的情绪特征,而无需考虑情绪特征之间的影响。由于最大熵分类算法是一种现有技术,在此不再对其进行赘述。
在步骤S101中,利用分类器对待标注情绪标签的句子级文本进行预分类,例如,待标注情绪标签的句子级文本包括呈上下句关系的文本句子A和文本句子B。文本句子A经过分类器的预分类处理后,被标上“渴望”的概率为100%,文本句子B经过分类器的预分类处理后,被标上“喜欢”的概率为55%,而被标上“讨厌”的概率为45%。那么,经过预分类后得到的预标注情绪标签的句子级文本包括被标上“渴望”的概率为100%的文本句子A以及被标上“喜欢”的概率为55%和被标上“讨厌”的概率为45%的文本句子B。此时文本句子B的情绪标签还未最终确定,需要经过后续的优化分类处理才能最终确定。
步骤S102:利用预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。
同样以上述步骤S101中提到的例子为例,如果预先基于已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率中,文本句子间的情绪标签从“渴望”转移到“喜欢”的概率为40%,而从“渴望”转移到“讨厌”的概率为60%,那么,利用上述句子间情绪转移概率,对文本句子A和文本句子B进行优化分类,通过比较文本句子B最终被标上“喜欢”的概率和最终被标上“讨厌”的概率之间的大小来判断出文本句子B最终会被标上哪个情绪标签。其中,文本句子B最终被标上“喜欢”的概率的计算方法是利用文本句子间的情绪标签从“渴望”转移到“喜欢”的概率乘以文本句子B经过分类器的预分类处理后被标上“喜欢”的概率,也即40%乘以55%;文本句子B最终被标上“讨厌”的概率的计算方法是利用文本句子间的情绪标签从“渴望”转移到“讨厌”的概率乘以文本句子B经过分类器的预分类处理后被标上“讨厌”的概率,也即60%*45%;由上可知,上述例子中文本句子B最终被标上“讨厌”的概率大于最终被标上“喜欢”的概率,所以文本句子B最终会被标上“讨厌”的情绪标签。
参见图2所示,基于已标注情绪标签的句子级文本集计算句子间情绪转移概率的过程包括:
步骤S201:记录每组已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系。
例如,当某组已标注情绪标签的句子级文本中的前后两个文本句子的情绪标签分别为“渴望”和“喜欢”,那么,该组已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系为“渴望-喜欢”。其中,“渴望-喜欢”是一种情绪对应关系,而“渴望-讨厌”则是另一种情绪对应关系,为了简便起见,在此就不对所有的情绪对应关系进行一一列举了。
步骤S202:按照情绪对应关系的种类对N组已标注情绪标签的句子级文本进行分类,得到多类句子级文本类;每一类句子级文本类包括一组或多组已标注情绪标签的句子级文本。
例如,将上述N组已标注情绪标签的句子级文本中情绪对应关系为“渴望-喜欢”的句子级文本分成一类,将“渴望-讨厌”的句子级文本分成另一类,以此类推。
步骤S203:计算每类句子级文本类中含有的句子级文本的数量占句子级文本集中含有的句子级文本的总量的比例,得到每类句子级文本类的句子间情绪转移概率。
例如,计算上述N组已标注情绪标签的句子级文本中情绪对应关系为“渴望-喜欢”的句子级文本的数量占句子级文本集中含有的句子级文本的总量的比例,从而得到句子情绪从“渴望”到“喜欢”的句子间情绪转移概率。
本发明实施例中,在利用分类器对待标注情绪标签的句子级文本进行预分类后,也即,在对待标注情绪标签的句子级文本自身的情绪特征进行分析后,还利用预先计算的句子间情绪转移概率对预标注情绪标签的句子级文本进行优化分类,从而得到最终的优化分类结果,可见,最终的优化分类结果是在既考虑了文本信息自身的情绪特征对文本分类的影响,又考虑到了前后两个句子间的情绪转移概率对文本分类的影响的情况下得到的,从而改善了文本信息的情绪分类效果。
最后,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种基于句子间情绪转移概率的句子级情绪分类方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,
利用预先基于已标注情绪标签的句子级文本集建立的分类器,对待标注情绪标签的句子级文本进行预分类,得到预标注情绪标签的句子级文本;
利用预先基于所述已标注情绪标签的句子级文本集计算得到的句子间情绪转移概率,对所述预标注情绪标签的句子级文本进行优化分类,得到优化分类结果。
2.根据权利要求1所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述已标注情绪标签的句子级文本集包括N组已标注情绪标签的句子级文本,其中,N为正整数,每组所述已标注情绪标签的句子级文本均包括两个已标注情绪标签的文本句子。
3.根据权利要求2所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述N组已标注情绪标签的句子级文本为不小于1000组的已标注情绪标签的句子级文本。
4.根据权利要求2所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,用于对所述已标注情绪标签的文本句子进行标注的情绪标签包括M种情绪标签,其中,M为不小于2的正整数;且每一个已标注情绪标签的文本句子只被标注上一种情绪标签。
5.根据权利要求4所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述M种情绪标签为8种情绪标签,所述8种情绪标签为高兴、讨厌、喜欢、悲伤、焦虑、惊奇、生气和渴望。
6.根据权利要求4或5所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,基于所述已标注情绪标签的句子级文本集计算所述句子间情绪转移概率的过程包括:
记录每组所述已标注情绪标签的句子级文本中的两个文本句子的情绪对应关系;
按照所述情绪对应关系的种类对所述N组已标注情绪标签的句子级文本进行分类,得到多类句子级文本类;每一类所述句子级文本类包括一组或多组所述已标注情绪标签的句子级文本;
计算每类所述句子级文本类中含有的句子级文本的数量占所述句子级文本集中含有的句子级文本的总量的比例,得到每类所述句子级文本类的所述句子间情绪转移概率。
7.根据权利要求1所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,基于所述已标注情绪标签的句子级文本集建立所述分类器的过程为:
在所述已标注情绪标签的句子级文本集上执行机器学习分类算法,得到所述分类器。
8.根据权利要求7所述的基于句子间情绪转移概率的句子级情绪分类方法,其特征在于,所述机器学习分类算法为最大熵分类算法。
CN201510236584.7A 2015-05-11 2015-05-11 一种基于句子间情绪转移概率的句子级情绪分类方法 Active CN104809232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510236584.7A CN104809232B (zh) 2015-05-11 2015-05-11 一种基于句子间情绪转移概率的句子级情绪分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510236584.7A CN104809232B (zh) 2015-05-11 2015-05-11 一种基于句子间情绪转移概率的句子级情绪分类方法

Publications (2)

Publication Number Publication Date
CN104809232A true CN104809232A (zh) 2015-07-29
CN104809232B CN104809232B (zh) 2018-06-01

Family

ID=53694054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510236584.7A Active CN104809232B (zh) 2015-05-11 2015-05-11 一种基于句子间情绪转移概率的句子级情绪分类方法

Country Status (1)

Country Link
CN (1) CN104809232B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202181A (zh) * 2016-06-27 2016-12-07 苏州大学 一种情感分类方法、装置及***
CN106202243A (zh) * 2016-06-29 2016-12-07 苏州大学 一种句子级文本情绪分类方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323944A (zh) * 2011-09-02 2012-01-18 苏州大学 基于极性转移规则的情感分类方法
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及***
CN103345525A (zh) * 2013-07-22 2013-10-09 苏州大学 文本分类方法、装置及处理器
CN103514279A (zh) * 2013-09-26 2014-01-15 苏州大学 一种句子级情感分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323944A (zh) * 2011-09-02 2012-01-18 苏州大学 基于极性转移规则的情感分类方法
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及***
CN103345525A (zh) * 2013-07-22 2013-10-09 苏州大学 文本分类方法、装置及处理器
CN103514279A (zh) * 2013-09-26 2014-01-15 苏州大学 一种句子级情感分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHOU-SHAN LI ETAL: "Multi-Domain Sentiment Classification with Classifer Combination", 《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》 *
李寿山 等: "基于情绪相关事件上下文的隐含情绪分类方法研究", 《中文信息学报》 *
李寿山: "基于Stacking 组合分类方法的中文情感分类研究", 《中文信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202181A (zh) * 2016-06-27 2016-12-07 苏州大学 一种情感分类方法、装置及***
CN106202243A (zh) * 2016-06-29 2016-12-07 苏州大学 一种句子级文本情绪分类方法和装置

Also Published As

Publication number Publication date
CN104809232B (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
Schulz et al. A fine-grained sentiment analysis approach for detecting crisis related microposts.
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
CN102567304B (zh) 一种网络不良信息的过滤方法及装置
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
Hassan et al. Extracting signed social networks from text
CN104933130A (zh) 评论信息的标注方法及装置
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
CN106202481A (zh) 一种感知数据的评价方法和***
CN105205043A (zh) 一种新闻读者情绪的分类方法与***
CN109446423B (zh) 一种新闻以及文本的情感判断***及方法
CN104536953A (zh) 一种文本情绪极性的识别方法及装置
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
Van Hee et al. Monday mornings are my fave:)# not exploring the automatic recognition of irony in english tweets
CN112287100A (zh) 文本识别方法、拼写纠错方法及语音识别方法
Mittal et al. A hybrid approach for twitter sentiment analysis
CN106055633A (zh) 一种中文微博主客观句分类方法
Winarko et al. Recognizing the sarcastic statement on WhatsApp Group with Indonesian language text
CN103309851B (zh) 短文本的垃圾识别方法及***
CN106202047A (zh) 一种基于微博文本的人物性格刻画方法
CN104809232A (zh) 一种基于句子间情绪转移概率的句子级情绪分类方法
CN101470699A (zh) 信息提取模型训练装置、信息提取装置和信息提取***及其方法
CN104572613A (zh) 数据处理装置、数据处理方法和程序
CN109299007A (zh) 一种缺陷修复者自动推荐方法
CN105159905B (zh) 基于转发关系的微博聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant