CN101894102A - 一种主观性文本情感倾向性分析方法和装置 - Google Patents

一种主观性文本情感倾向性分析方法和装置 Download PDF

Info

Publication number
CN101894102A
CN101894102A CN2010102290119A CN201010229011A CN101894102A CN 101894102 A CN101894102 A CN 101894102A CN 2010102290119 A CN2010102290119 A CN 2010102290119A CN 201010229011 A CN201010229011 A CN 201010229011A CN 101894102 A CN101894102 A CN 101894102A
Authority
CN
China
Prior art keywords
polarity
speech
emotion
text
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102290119A
Other languages
English (en)
Inventor
厉小军
施寒潇
庄毅
谢波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN2010102290119A priority Critical patent/CN101894102A/zh
Publication of CN101894102A publication Critical patent/CN101894102A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种主观性文本情感倾向性分析方法,它包括如下步骤:预先建立一个可扩展的、倾向度定量的极性词典;对待分析文本进行预处理;利用语义角色标注工具,对预处理的文本语义角色进行标注;采用指代消解方法,对代词等对象实体进行还原;建立领域特征库;利用极性词典和特征库分别完成情感词识别和特征词识别,计算每个特征的情感倾向性值,然后统计计算每句中相关特征的情感倾向值,最后得出每一特征的整体情感倾向值。本发明还提供了一种主观性文本情感倾向性分析装置和极性词典的建立与自动扩展方法。本发明能解决文本情感倾向性分析中遇到的瓶颈性问题,以及提高倾向性分析结果的准确性。

Description

一种主观性文本情感倾向性分析方法和装置
技术领域
本发明涉及一种主观性文本情感倾向性分析方法和装置,属于计算机应用技术领域,可应用于商务网站的商品评论、企业或政府部门的网络舆情分析。
背景技术
随着互联网的飞速发展,特别是Web2.0技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第25次中国互联网络发展状况统计报告》(CNNIC,2010)的数据显示,截至2009年12月31日,我国网络用户总数量已经达到3.84亿,网民规模较2008年底增长8600万人,位居世界第一位。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。随着电子商务的发展,主观性评论文章越来越多,在一定程度上帮助了潜在消费者购买抉择,同时也对产品的商家提供了很好的反馈意见。如果评论信息只有几十条,普通浏览者还能应付,但如果是数以千计的信息量,就难以全部浏览。再加上一些枪文等噪音的出现,并往往穿插在前几页,这都将会影响浏览者信息获取的全面性和判断的正确性。另外,产品的商家也非常需要从评论中获取到顾客评价的第一手资料,以帮助其提高产品质量或改进服务。文本倾向性分析,就是对这些信息进行有效的分析和挖掘,识别出其情感趋向——高兴、伤悲,或得出其观点是“赞同”还是“反对”,甚至情感随时间的演化规律。这样就可以更好地理解用户的消费习惯,分析热点事件的舆情,为企业、政府等机构提供重要的决策依据。另外,倾向性分析技术还可以有效地推进和改善很多自然语言研究课题,如自动文摘和问答***等。
目前文本倾向性分析的方法大致有两类。第一种是基于一般性统计方法。主要对所有情感项进行简单的倾向性统计,统计方法有求和法和向量空间模型法,根据最终得分与事先设定阈值比较得出倾向评价,一般用于篇章级的倾向性分析。第二种是基于机器学习的方法。通过对大量标注语料的训练,生成倾向分类器,用来对测试文本进行分类。
(1)基于一般性统计方法。目前的方法主要是通过适当的词语提取和倾向计算后,对倾向值进行简单统计求得文本的整体倾向度,该方法更多的应用于篇章的情感分析。另外,通过计算词语的语义倾向,综合考虑极性元素分布、密度和语义强度对文本语义倾向进行统计。
(2)基于机器学习的方法。这种方法主要使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征,使用基于机器学习的分类方法进行情感/倾向性分析。机器学习主要依赖标注语料库,目前专门应用于情感/倾向性分析的语料库非常少,更多的还是基于传统的语料库或对其进行简单修正后的数据集,如WordNet、MPQA、SentiWordNet。常用的分类方法有:中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。
这两类方法进行文本倾向性分析时,无论是句子,还是篇章,都强依赖于极性词典,因此,极性词典的好坏直接影响情感倾向性判断的正确性,而目前极性词典的构建都是通过手工进行的,工作量大且建立的极性词典不完备。另一方面,现有的方法一般只考虑词的特性,对句子分词、词性标注后,利用词性的特点进行属性和情感词的识别,而缺乏对句子的整体语义理解。
发明内容
本发明的目标是针对现有倾向性分析方法存在的问题,提出一种主观性文本情感倾向性分析方法和装置。该方法和装置建立一个可扩展的、倾向度定量的极性词库,解决了文本情感倾向性分析中遇到的瓶颈性问题;合理的采用自然语言技术应用于不同规模大小的文本情感倾向性分析,提高倾向性分析结果的准确性。
为此,本发明的第一目的是提出一种主观性文本情感倾向性分析方法,它包括如下步骤:
步骤1)预先建立一个可扩展的、倾向度定量的极性词典;
步骤2)对待分析文本进行预处理,包括标签过滤、消重和停顿词消除处理;
步骤3)利用语义角色标注工具,对预处理的文本进行分词、词性标注、句法分析和语义分析等自然语言处理,对文本语义角色进行标注;
步骤4)采用指代消解方法,对代词等对象实体进行还原;
步骤5)建立领域特征库,供倾向性分析的特征识别使用;
步骤6)进行文本情感倾向性分析,即利用极性词典和特征库分别完成情感词识别和特征词识别,计算每个特征的情感倾向性值,然后统计计算每句中相关特征的情感倾向值,最后得出每一特征的整体情感倾向值。
1、关于极性词典的建立与自动扩展
(1)极性词典的建立
通过对现有的一些情感语料库,抽取出部分表达正面评价和情感的词和部分表达负面评价和情感的词构成基本极性词表。另外,考虑到情感表达中,修辞词的重要性,在极性词典里开辟一块内容建立专门的程度级别词和否定词,程度级别词和否定词的收集通过人工方式收集。
(2)极性词汇倾向程度的定量计算方法
首先,从基本极性词表中人工抽取出一定代表性的若干个极性基准词,可以是褒义词和贬义词各占一半,并通过多人判定、人工打分,最后统计得出每个词的平均分,输出一个-1至+1的实数来表示倾向程度,其中正数表示肯定(正面)的评价,负数表示否定(负面)的评价,绝对值越大越肯定(否定)。
针对余下的极性词,可以利用朱嫣岚等人在2006年中文信息学报上公开发表的方法计算剩余极性词的倾向度SOsim(w),具体计算公式为:
用公式(1)计算出极性词表中每个极性词的倾向度。
SOsim(w)=Max(similarity(w,ti))    (1)
其中:SOsim(w)表示词语w的观点倾向值;ti为基准词表中的第i个词;similarity(w,ti)为HowNet中公开的计算词语语义相似性算法。
(3)极性词汇的自动获取与定量分类
首先利用上节内容中已生成的极性词表,参考Ku L.W.等人在AAAI’2006上提出的算法,为极性词表中出现的每个字计算出两个值fpci,fnci,其中fpci为字ci出现在褒义词表中的概率,fnci为字ci出现在贬义词表中的概率。然后利用公式(2)、(3)计算出每个字作为褒义词和否定词的权重。
P ci = fp ci / Σ j = 1 n fp cj fp ci / Σ j = 1 n fp cj + fn ci / Σ j = 1 m fn cj - - - ( 2 )
N ci = fn ci / Σ j = 1 m fn cj fp ci / Σ j = 1 n fp cj + fn ci / Σ j = 1 m fn cj - - - ( 3 )
其中,Pci为字ci作为褒义词的权重,Nci为字ci作为贬义词的权重。n为褒义词表中出现的所有字的个数,m为贬义词表中出现的所有字的个数。这样利用公式(4)就可以算出字ci的情感倾向度Sci。如果Sci的值为正数,ci是褒义字,负数则是贬义字,接近于0的话,说明ci趋向于是中性。
Sci=(Pci-Nci)                (4)
当极性词表扩展时,计算新加入的词汇中每个字的平均倾向度值Sw,见公式(5),其中u为词w中字的个数。如果没有该字的情感倾向度,默认为0。
SO character ( w ) = Σ j = 1 u S cj u - - - ( 5 )
最后利用公式(1)的词汇语义倾向计算的方法,与上述方法通过加权平均来获得词汇w的最终情感倾向度SO(w),见公式(6)。
SO(w)=α*SOsim(w)+(1-α)*SOcharacter(w)    (6)
其中:0<α<1为权重系数,具体取值通过实验来确定。
通过SO(w)的值获得词w的最后情感倾向值,根据其极性及倾向值在极性词表里选择相应的位置进行存放,从而完成极性词表的自动扩展。
2、指代消解技术的应用
指代(Anaphora)是自然语言中广泛存在的一种现象。在语言学中,把指代语(Anaphor)所指的对象和内容称为先行语(Antecedent),并把确定指代语的先行语的过程称为指代消解(Anaphora Resolution)。指代语对先行语的依赖存在多种关系,如等价关系、上下位关系和整体部分关系等。
通常,相同信息会在同一文本中出现若干次,为了保证文本的简练减少冗余,文本的概念关联性往往通过指代关系来刻画。因此,需要把这些指代互相联系起来,实现相关信息的融合,获得相应信息在该文本中的完整描述。本方法采用的指代消解技术侧重于等价关系,即同指消解(Coreference Resolution),如人称代词的消解,并只考虑两个词或短语是否指称现实世界中同一实体的问题。
例如,以电子商务网站有关“索尼DSC-H9P”数码相机评论中的一个句子为例:
“佳能A530P的镜头比它的好,价格还比它便宜”
利用指代消解技术实现指代关系的信息抽取,生成相应的指代关系链,这样就可以正确分析找出“它”和前面“索尼DSC-H9P”的指代关系,也就是说“它”和“索尼DSC-H9P”指向同一对象,从而在分析比较关系时双方的对象实体得以真实还原。
3、语义角色标注技术的应用
所谓语义角色标注,就是对于给定句子,对句中的每个谓词(动词、名词等)分析出其在句中的相应语义成分,并作相应的语义标记,如施事、受事、工具或附加语等。具体而言,即标注句子中的一些成分为给定动词谓词的语义角色,这些成分作为此谓词框架的一部分被赋予一定的语义含义。
本方法利用语义角色标注技术实现对句子的整体语义理解。同样以2)中的例句为例,通过语义角色标注(Semantic Role Labeling,SRL)处理后,
[佳能A530P的镜头Arg0][比它的ARGM-ADV][好V],[价格Arg0][还ARGM-ADV][比它ARGM-ADV][便宜V].
只要对“ARGM-ADV”这一语义角色所对应的内容进行指代消解处理,然后通过对比较级的正确分析,可抽取出两个特征的情感倾向性。
通过对大量评论语句进行语义角色标注后,我们得出了表1的概率表,发现特征概率最大的角色为“Arg0”,其次是“Arg1”。含有情感倾向的概率最大的角色为“V”。这里的标记是按照宾州大学的PropBank标注规则来进行标注。表1的结果成为本方法判断属性和计算情感的重要依据。
表1角色为特征的概率和角色为带情感倾向的概率表
a.角色为特征的概率
  Arg 0   Arg 1   V   ARGM-TMP
  0.76   0.14   0.06   0.04
b.角色为带情感倾向的概率表
  V   Arg 1   Arg 0   ARGM-ADV   Arg 2
  0.77   0.16   0.04   0.02   0.01
4、文本情感倾向性分析
首先面向常规的领域建立特征库,并根据词语相似度计算,以及利用现有的资源和工具,丰富每个特征类的相关词汇。如果是用户提出的领域不属于常规领域,通过双方协商确定基本特征类,并利用现有的资源和工具针对每个特征类进行词汇扩充。此处,特征库的建立可以采用Honglei Guo等人在CIKM’09上公开发表的方法建立,在此不再赘述。
然后,按句子具体分析每个特征的情感倾向,统计计算每句评论中所含特征的情感倾向值,最后给出针对每一特征类的整体情感倾向值。
本发明的另一目的在于提出一种主观性文本倾向性分析装置,该装置包括:
文本采集单元,用于获取原始文本;
文本预处理单元,用于对文本进行标签过滤、消重和停顿词消除处理,排除干扰信息,提高文本处理速率。
语义角色标注单元,用于对文本进行分词、词性标注、句法分析和语义分析等自然语言处理,对文本语义角色进行标注;
指代消解单元,用于实现代词等对象实体还原;
角色抽取单元,用于实现特征抽取、极性项(词)抽取,抽取顺序分别参考角色为特征概率值、角色为极性项(词)概率值;
极性值计算单元,用于实现极性项(词)倾向值计算。
所述角色抽取单元包括:极性词典训练单元,用于实现极性词典建立与自动扩充;特征库训练单元,用于实现特征收集与特征库生成;角色概率统计单元,用于得到各语义角色为特征、极性项(词)的概率值。
所述极性词典训练单元包括:极性词典建立与对应倾向值定量计算单元,用于实现极性词典初始化建立;极性词汇自动获取与定量分类单元,用于实现极性词典自动扩展与倾向值生成。
所述特征库训练单元包括:特征收集单元,用于实现特征收集;特征库生成单元,用于实现特征库初始化建立和维护。
所述角色概率统计单元包括:语料收集单元,用于实现角色概率统计所需原始语料收集;语料标注单元,用于对语料进行语义角色标注;角色为特征项概率统计单元,用于对角色为特征项概率进行统计分析,得出统计概率值;角色为极性项(词)概率统计单元,用于对角色为极性项(词)概率进行统计分析,得出统计概率值。
附图说明
图1是本发明实施例的主观性文本情感倾向性分析流程图;
图2是本发明实施例的主观性文本情感倾向性分析装置结构框图。
具体实施方式
图1为本发明实施例的主观性文本情感倾向性分析流程图。
待分析语句通过设计相应的爬虫工具对目标网页的内容采集而来。采集途径可分为两类:1)基于直接目标网页的采集。采集的对象包括各种网络媒体的网页,如门户网站、论坛、博客等。采集过程主要包括网页抓取,HTML内容解析、提取,并抽取出与评论相关的信息内容,如发布时间,发布人信息,发布URL地址等,并与评论内容一起映射为结构化的数据信息存储到数据库,为下一步工作的打好基础。2)基于搜索引擎方法。通过对指定话题(关键词)进行自动化的搜索,根据搜索获得的结果(URL信息、内容信息)进行下一步的网页抓取或者语料整理分析。
预处理过程主要针对文本进行停顿词消除、文本断句、分词、句子词性标注等。在预处理结果基础上,采用指代消解方法进行命名实体识别、名词短语识别、名词短语中心词获取等操作,同时为了提高消解处理的效果,设计一些规则,如单复数必须一致,名词短语的性别必须一致等,先把一些明显不符合的待消解对先过滤掉,缩小候选词的范围。然后进行特征向量的抽取,确定消解项。最后利用先前基于机器学习方法生成的分类器对消解项进行预测,得出各名词对间是否具有指代关系。利用这个结果实现对语句中的代词进行还原。
另外利用语义角色标注工具,分析出句子中的各个语义角色,然后利用极性词典和特征库分别完成情感词识别和特征词识别,最后进行细粒度情感倾向性分析。具体以句子为处理单元,以每个评论者的评论信息(含多句的情况)的语义角色标注结果为单位进行统一分析和处理,得到每个评论者的评价信息,统一汇总处理后获得所有评价者对每个特征的情感倾向性分布值。针对不同句子结构,采用不同的计算方法,具体见公式(7)如下:
Figure BSA00000194152400081
当Sfi是褒义词时,α=1;当Sfi是贬义词时,α=-1;
Sfi是当前评论句中有关特征fi的的情感倾向值,Dfi是与Sfi相关的程度级别词的数值,SOfi是当前评论句中考虑相关程度级别词和否定词后所得关于特征fi的情感倾向值,β为倾向值权重,其值与Sfi有关,利用语言学知识以及大量语句的分析,我们总结出了相应的关系,具体见公式如下:
为了保证β的作用性,它的值域为0.1到0.9。
Figure BSA00000194152400092
其中SOfi是当前评论句中关于特征fi的情感倾向值,
Figure BSA00000194152400093
为所有评论中SOfi的平均值,也是关于fi的最终值。通过这个公式计算出所有特征的最终情感倾向值 ( SO f 1 ‾ , SO f 2 ‾ , SO f 3 ‾ , . . . , SO fn ‾ ) .
以上描述了本发明所述的一种主观性文本情感倾向性分析方法实施例,在下面的实施例中,以句子为分析单位,对本发明所述的一种主观性文本情感倾向性分析装置实施例进行描述,如图2所示。
所述装置包括:
文本采集单元,用于获取原始文本。包括基于目标网页采集文本和基于搜索引擎采集文本两种方式。
文本预处理单元,用于对文本进行标签过滤、消重和停顿词消除处理,排除干扰信息,提高文本处理速率。
语义角色标注单元,用于对文本进行分词、词性标注、句法分析和语义分析等自然语言处理,对文本语义角色进行标注。
指代消解单元,用于实现代词等对象实体还原。
极性词典训练单元,用于实现极性词典建立与自动扩充。包括极性词典建立与对应倾向值定量计算、极性词汇自动获取与定量分类两个部分,见公式(1)、(2)、(3)、(4)、(5)、(6)。
特征库训练单元,用于实现特征收集与特征库生成。包括特征收集单元和特征库生成单元。特征库实现了特征间关系表示。如相机特征“成像效果”、“成像质量”将其统一为特征“成像”。
角色概率统计单元,用于得到各语义角色为特征、极性项(词)的概率值。包括语料收集单元、语料标注单元、角色为特征项概率统计单元以及角色为极性项(词)概率统计单元。语料收集单元实现原始语料收集。语料标注单元实现语料的语义角色标注。角色为特征项概率统计单元实现各角色为特征项的统计概率值,角色为极性项(词)概率统计单元实现各角色为极性项(词)的统计概率值。概率值的大小分别决定某角色作为特征和极性项(词)抽取的先后顺序。
角色抽取单元,用于实现特征抽取、极性项(词)抽取,抽取顺序分别参考角色为特征概率值、角色为极性项(词)概率值。
极性值计算单元,用于实现极性项(词)倾向值计算,并通过极性项(词)与特征的相关性识别得出各特征对应的极性值,见公式(7)、(8)、(9)。
应用所述主观性文本倾向性分析装置,对于一个文本,
首先,文本预处理单元对文本进行预处理;然后,语义角色标注单元对文本进行语义角色标注,指代消解单元对文本代词实现对象实体还原。
针对大量训练语料,实现极性词典建立、特征库建立以及角色概率统计表建立。极性词典实现各极性词与其极性值的对应关系的建立,如:
好0.8
一般0.5
便宜0.3
差-0.8
...
基于角色概率统计表,角色抽取单元实现各角色抽取,包括特征项抽取和极性项(词)抽取。然后,参考极性词典和特征库,得到对应项极性值和特征识别。最后,通过极性值计算单元算出各特征对应的极性值。如:
佳能A530P的镜头比它的好,价格还比它便宜.
语义角色标注后为:
[佳能A530P的镜头Arg0][比它的ARGM-ADV][好V],[价格Arg0][还ARGM-ADV][比它ARGM-ADV][便宜V].
根据表1所示角色概率统计表,抽取特征时首先抽取Arg0,其次依次为Arg1,由于V及其之后角色作为特征的概率过低,不对角色V及其之后角色进行特征抽取。同样,抽取极性项(词)时首先抽取V,其次依次为Arg1、Arg0等,由于在本统计中Arg1、Arg0及其之后角色作为极性项(词)概率过低,不对Arg1、Arg0及其之后角色进行极性项(词)抽取。因此,依次抽取出特征“佳能A530P的镜头“、”价格“,极性项”好“、”便宜“,然后搜索极性词典和特征库,得到对应特征和极性值,综合公式(7)、(8)、(9)最终得到特征极性值。

Claims (10)

1.一种极性词典的建立与自动扩展方法,其特征在于包括如下步骤:
1)从现有情感语料库中抽取出表达正面评价和情感的词、部分表达负面评价和情感的词,构成基本极性词表,并在极性词表中开辟一块内容建立专门的程度级别词和否定词;
2)从基本极性词表中抽取出一部分有代表性的极性基准词,并通过人工判定打分,统计得出每个词的平均分,输出一个-1至+1的实数来表示其倾向程度;
3)计算极性词表中剩余极性词的倾向程度SOsim(w);
4)利用待分析词汇中每个字在现有基本极性词表中的分布情况进行极性统计与定量计算获得其极性和倾向值;
5)根据其极性及倾向值在极性词表里选择相应的位置进行存放,从而完成极性词表的自动扩展。
2.如权利要求1所述的极性词典的建立与自动扩展方法,其特征在于:在步骤3)中,剩余极性词的倾向度SOsim(w)的计算公式为:
SOsim(w)=Max(similarity(w,ti))
其中:SOsim(w)表示词语w的观点倾向值;ti为基准词表中的第i个词;similarity(w,ti)为HowNet中公开的计算词语语义相似性算法。
3.如权利要求2所述的极性词典的建立与自动扩展方法,其特征在于:所述步骤4)中极性统计与定量计算的方法为:
1)计算出在极性词表中出现的每个字ci出现在褒义词表中的概率fpci和出现在贬义词表中的概率fnc,然后计算出每个字ci作为褒义词的权重Pci和否定词的权重Nci
P ci = fp ci / Σ j = 1 n fp cj fp ci / Σ j = 1 n fp cj + fn ci / Σ j = 1 m fn cj
N ci = fn ci / Σ j = 1 m fn cj fp ci / Σ j = 1 n fp cj + fn ci / Σ j = 1 m fn cj
2)利用公式Sci=(Pci-Nci)计算出字ci的情感倾向度Sci
3)当极性词表扩展时,计算新加入的词汇中每个字w的平均倾向度值SOcharacter(w),该倾向度值SOcharacter(w),表示公式如下:
Figure FSA00000194152300021
其中u为词w中字的个数;
4)按照如下公式计算获得词汇w的最终情感倾向度SO(w)
SO(w)=α*SOsim(w)+(1-α)*SOcharacter(w),其中<α<1,为权重系数。
4.一种主观性文本情感倾向性分析方法,其特征在于包括如下步骤:
1)预先按权利要求1-3所述的方法建立一个可扩展的、倾向度定量的极性词典;
2)对待分析文本进行预处理,包括标签过滤、消重和停顿词消除处理;
3)利用语义角色标注工具,对预处理的文本进行分词、词性标注、句法分析和语义分析等自然语言处理,对文本语义角色进行标注;
4)采用指代消解方法,对代词等对象实体进行还原;
5)建立领域特征库,供倾向性分析的特征识别使用;
6)进行文本情感倾向性分析,即利用极性词典和特征库分别完成情感词识别和特征词识别,计算每个特征的情感倾向性值,然后统计计算每句中相关特征的情感倾向值,最后得出每一特征的整体情感倾向值。
5.如权利要求4所述的主观性文本情感倾向性分析方法,其特征在于,步骤6)中每个特征的情感倾向性值的计算方法如下:
1)按如下公式计算特征fi的情感倾向值:
Figure FSA00000194152300022
当Sfi是褒义词时,α=1;当Sfi是贬义词时,α=-1;
Sfi是当前评论句中有关特征fi的情感倾向值,Dfi是与Sfi相关的程度级别词的数值,SOfi是当前评论句中考虑相关程度级别词和否定词后所得关于特征fi的情感倾向值,β为倾向值权重,其计算公式如下:
Figure FSA00000194152300031
2)按如下公式计算出所有特征的最终情感倾向值
Figure FSA00000194152300033
(j为评论句子数,i为对应的特征编号)
Figure FSA00000194152300034
为所有评论中SOfi的平均值。
6.一种主观性文本倾向性分析装置,其特征在于,所述装置包括:
文本采集单元,用于获取原始文本;
文本预处理单元,用于对文本进行标签过滤、消重和停顿词消除处理,排除干扰信息,提高文本处理速率。
语义角色标注单元,用于对文本进行分词、词性标注、句法分析和语义分析等自然语言处理,对文本语义角色进行标注;
指代消解单元,用于实现代词等对象实体还原;
角色抽取单元,用于实现特征抽取、极性项(词)抽取,抽取顺序分别参考角色为特征概率值、角色为极性项(词)概率值;
极性值计算单元,用于实现极性项(词)倾向值计算。
7.根据权利要求6所述装置,其特征在于,所述角色抽取单元包括:
极性词典训练单元,用于实现极性词典建立与自动扩充;
特征库训练单元,用于实现特征收集与特征库生成;
角色概率统计单元,用于得到各语义角色为特征、极性项(词)的概率值。
8.根据权利要求7所述装置,其特征在于,所述极性词典训练单元包括:
极性词典建立与对应倾向值定量计算单元,用于实现极性词典初始化建立;
极性词汇自动获取与定量分类单元,用于实现极性词典自动扩展与倾向值生成。
9.根据权利要求7所述装置,其特征在于,所述特征库训练单元包括:
特征收集单元,用于实现特征收集;
特征库生成单元,用于实现特征库初始化建立和维护。
10.根据权利要求7所述装置,其特征在于,所述角色概率统计单元包括:
语料收集单元,用于实现角色概率统计所需原始语料收集;
语料标注单元,用于对语料进行语义角色标注;
角色为特征项概率统计单元,用于对角色为特征项概率进行统计分析,得出统计概率值;
角色为极性项(词)概率统计单元,用于对角色为极性项(词)概率进行统计分析,得出统计概率值。
CN2010102290119A 2010-07-16 2010-07-16 一种主观性文本情感倾向性分析方法和装置 Pending CN101894102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102290119A CN101894102A (zh) 2010-07-16 2010-07-16 一种主观性文本情感倾向性分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102290119A CN101894102A (zh) 2010-07-16 2010-07-16 一种主观性文本情感倾向性分析方法和装置

Publications (1)

Publication Number Publication Date
CN101894102A true CN101894102A (zh) 2010-11-24

Family

ID=43103294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102290119A Pending CN101894102A (zh) 2010-07-16 2010-07-16 一种主观性文本情感倾向性分析方法和装置

Country Status (1)

Country Link
CN (1) CN101894102A (zh)

Cited By (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567304A (zh) * 2010-12-24 2012-07-11 北大方正集团有限公司 一种网络不良信息的过滤方法及装置
CN102609424A (zh) * 2011-01-21 2012-07-25 日电(中国)有限公司 评价信息抽取方法和设备
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析***及方法
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测***及其工作方法
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和***
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103064971A (zh) * 2013-01-05 2013-04-24 南京邮电大学 一种基于评分和中文情感分析的垃圾评论检测方法
CN103106211A (zh) * 2011-11-11 2013-05-15 ***通信集团广东有限公司 客户咨询文本的情感识别方法及装置
CN103123633A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 评价参数的生成方法以及基于评价参数的信息搜索方法
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103562907A (zh) * 2011-05-10 2014-02-05 日本电气株式会社 用于评估同义表达的设备、方法和程序
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN104008289A (zh) * 2014-05-26 2014-08-27 沈苹 一种评价艺术作品的方法及装置
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN104182387A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种文本情感倾向分析***
CN104272301A (zh) * 2012-04-25 2015-01-07 国际商业机器公司 基于评价极性而对文本分类的方法、计算机程序产品和计算机
CN104281694A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种文本情感倾向分析***
CN104462061A (zh) * 2014-12-05 2015-03-25 北京国双科技有限公司 词语提取方法及提取装置
CN104536972A (zh) * 2014-12-03 2015-04-22 北京邮电大学 基于cdn的网页内容感知***及方法
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN104809103A (zh) * 2015-04-29 2015-07-29 北京京东尚科信息技术有限公司 一种人机对话的语义分析方法及***
CN105022805A (zh) * 2015-07-02 2015-11-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与***
CN105427858A (zh) * 2015-11-06 2016-03-23 科大讯飞股份有限公司 实现语音自动分类的方法及***
CN106250363A (zh) * 2016-07-15 2016-12-21 合肥指南针电子科技有限责任公司 一种舆情监控分析方法
CN106569996A (zh) * 2016-03-30 2017-04-19 广东工业大学 一种面向中文微博的情感倾向分析方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106776551A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文情感观点的分析方法
CN106776570A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称标注方法
CN106776566A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 情感词汇的识别方法及装置
CN106886580A (zh) * 2017-01-23 2017-06-23 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN107133835A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种分析商品质量的方法及装置
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示***和展示、生成方法及电子设备
CN107832297A (zh) * 2017-11-09 2018-03-23 电子科技大学 一种面向特征词粒度的领域情感词典构建方法
CN108009297A (zh) * 2017-12-27 2018-05-08 广州市云润大数据服务有限公司 基于自然语言处理的文本情感分析方法与***
CN108021548A (zh) * 2016-10-28 2018-05-11 北京国双科技有限公司 一种情感特征的识别方法及装置
CN108519976A (zh) * 2018-04-04 2018-09-11 郑州大学 基于神经网络生成大规模情感词典的方法
CN108710654A (zh) * 2018-05-10 2018-10-26 新华智云科技有限公司 一种舆情数据可视化方法及设备
CN108827452A (zh) * 2018-03-27 2018-11-16 江苏大学 一种永磁同步轮毂电机的噪声评价方法
CN109657158A (zh) * 2018-11-29 2019-04-19 山西大学 一种基于社交网络数据的药品不良事件信息提取方法
CN110222341A (zh) * 2019-06-10 2019-09-10 北京百度网讯科技有限公司 文本分析方法及装置
CN110399595A (zh) * 2019-07-31 2019-11-01 腾讯科技(成都)有限公司 一种文本信息标注的方法以及相关装置
CN111125312A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种文本标注方法及***
CN111651987A (zh) * 2020-05-18 2020-09-11 北京金堤科技有限公司 身份判别方法及装置、计算机可读存储介质、电子设备
CN111986702A (zh) * 2020-07-31 2020-11-24 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法
CN112464646A (zh) * 2020-11-23 2021-03-09 中国船舶工业综合技术经济研究院 一种面向国防领域防务智库的文本情感分析方法
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN113378578A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食药舆情分析方法

Cited By (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567304A (zh) * 2010-12-24 2012-07-11 北大方正集团有限公司 一种网络不良信息的过滤方法及装置
CN102567304B (zh) * 2010-12-24 2014-02-26 北大方正集团有限公司 一种网络不良信息的过滤方法及装置
CN102609424A (zh) * 2011-01-21 2012-07-25 日电(中国)有限公司 评价信息抽取方法和设备
CN102609424B (zh) * 2011-01-21 2014-10-08 日电(中国)有限公司 评价信息抽取方法和设备
US9262402B2 (en) 2011-05-10 2016-02-16 Nec Corporation Device, method and program for assessing synonymous expressions
CN103562907B (zh) * 2011-05-10 2016-12-07 日本电气株式会社 用于评估同义表达的设备、方法和程序
CN103562907A (zh) * 2011-05-10 2014-02-05 日本电气株式会社 用于评估同义表达的设备、方法和程序
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析***及方法
CN103106211A (zh) * 2011-11-11 2013-05-15 ***通信集团广东有限公司 客户咨询文本的情感识别方法及装置
CN103106211B (zh) * 2011-11-11 2017-05-03 ***通信集团广东有限公司 客户咨询文本的情感识别方法及装置
CN103123633A (zh) * 2011-11-21 2013-05-29 阿里巴巴集团控股有限公司 评价参数的生成方法以及基于评价参数的信息搜索方法
CN103365867B (zh) * 2012-03-29 2017-07-21 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN103365867A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种对用户评价进行情感分析的方法和装置
CN104272301B (zh) * 2012-04-25 2018-01-23 国际商业机器公司 用于提取一部分文本的方法、计算机可读介质和计算机
CN104272301A (zh) * 2012-04-25 2015-01-07 国际商业机器公司 基于评价极性而对文本分类的方法、计算机程序产品和计算机
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN102708096B (zh) * 2012-05-29 2014-10-15 代松 一种基于语义的网络智能舆情监测***及其工作方法
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测***及其工作方法
CN102929861B (zh) * 2012-10-22 2015-07-22 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和***
CN102929861A (zh) * 2012-10-22 2013-02-13 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和***
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103049435B (zh) * 2013-01-04 2015-10-14 浙江工商大学 文本细粒度情感分析方法及装置
CN103064971A (zh) * 2013-01-05 2013-04-24 南京邮电大学 一种基于评分和中文情感分析的垃圾评论检测方法
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103646088B (zh) * 2013-12-13 2017-03-15 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与***
CN104008091B (zh) * 2014-05-26 2017-03-15 上海大学 一种基于情感值的网络文本情感分析方法
CN104008289A (zh) * 2014-05-26 2014-08-27 沈苹 一种评价艺术作品的方法及装置
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN104182387A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种文本情感倾向分析***
CN104133916B (zh) * 2014-08-14 2019-01-15 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN104281694A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种文本情感倾向分析***
CN104536972A (zh) * 2014-12-03 2015-04-22 北京邮电大学 基于cdn的网页内容感知***及方法
CN104536972B (zh) * 2014-12-03 2018-08-14 北京邮电大学 基于cdn的网页内容感知***及方法
CN104462061A (zh) * 2014-12-05 2015-03-25 北京国双科技有限公司 词语提取方法及提取装置
CN104462061B (zh) * 2014-12-05 2017-10-27 北京国双科技有限公司 词语提取方法及提取装置
CN104809103B (zh) * 2015-04-29 2018-03-30 北京京东尚科信息技术有限公司 一种人机对话的语义分析方法及***
CN104809103A (zh) * 2015-04-29 2015-07-29 北京京东尚科信息技术有限公司 一种人机对话的语义分析方法及***
CN105022805B (zh) * 2015-07-02 2018-05-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
CN105022805A (zh) * 2015-07-02 2015-11-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
CN105427858A (zh) * 2015-11-06 2016-03-23 科大讯飞股份有限公司 实现语音自动分类的方法及***
CN107133835A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种分析商品质量的方法及装置
CN106569996B (zh) * 2016-03-30 2019-06-21 广东工业大学 一种面向中文微博的情感倾向分析方法
CN106569996A (zh) * 2016-03-30 2017-04-19 广东工业大学 一种面向中文微博的情感倾向分析方法
CN106250363A (zh) * 2016-07-15 2016-12-21 合肥指南针电子科技有限责任公司 一种舆情监控分析方法
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示***和展示、生成方法及电子设备
CN108021548A (zh) * 2016-10-28 2018-05-11 北京国双科技有限公司 一种情感特征的识别方法及装置
CN106598944B (zh) * 2016-11-25 2019-03-19 中国民航大学 一种民航安保舆情情感分析方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106776551B (zh) * 2016-12-06 2020-05-08 桂林电子科技大学 一种英语作文情感观点的分析方法
CN106776551A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文情感观点的分析方法
CN106776566B (zh) * 2016-12-22 2019-12-24 东软集团股份有限公司 情感词汇的识别方法及装置
CN106776566A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 情感词汇的识别方法及装置
CN106776570A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称标注方法
CN106886580A (zh) * 2017-01-23 2017-06-23 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN106886580B (zh) * 2017-01-23 2020-01-17 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN107832297A (zh) * 2017-11-09 2018-03-23 电子科技大学 一种面向特征词粒度的领域情感词典构建方法
CN107832297B (zh) * 2017-11-09 2021-02-02 电子科技大学 一种面向特征词粒度的领域情感词典构建方法
CN108009297B (zh) * 2017-12-27 2020-09-04 云润大数据服务有限公司 基于自然语言处理的文本情感分析方法与***
CN108009297A (zh) * 2017-12-27 2018-05-08 广州市云润大数据服务有限公司 基于自然语言处理的文本情感分析方法与***
CN108827452A (zh) * 2018-03-27 2018-11-16 江苏大学 一种永磁同步轮毂电机的噪声评价方法
CN108827452B (zh) * 2018-03-27 2020-07-31 江苏大学 一种永磁同步轮毂电机的噪声评价方法
CN108519976A (zh) * 2018-04-04 2018-09-11 郑州大学 基于神经网络生成大规模情感词典的方法
CN108710654B (zh) * 2018-05-10 2021-03-26 新华智云科技有限公司 一种舆情数据可视化方法及设备
CN108710654A (zh) * 2018-05-10 2018-10-26 新华智云科技有限公司 一种舆情数据可视化方法及设备
CN109657158A (zh) * 2018-11-29 2019-04-19 山西大学 一种基于社交网络数据的药品不良事件信息提取方法
CN110222341A (zh) * 2019-06-10 2019-09-10 北京百度网讯科技有限公司 文本分析方法及装置
CN110399595B (zh) * 2019-07-31 2024-04-05 腾讯科技(成都)有限公司 一种文本信息标注的方法以及相关装置
CN110399595A (zh) * 2019-07-31 2019-11-01 腾讯科技(成都)有限公司 一种文本信息标注的方法以及相关装置
CN111125312A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种文本标注方法及***
CN111651987A (zh) * 2020-05-18 2020-09-11 北京金堤科技有限公司 身份判别方法及装置、计算机可读存储介质、电子设备
CN111651987B (zh) * 2020-05-18 2023-10-20 北京金堤科技有限公司 身份判别方法及装置、计算机可读存储介质、电子设备
CN111986702A (zh) * 2020-07-31 2020-11-24 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法
CN111986702B (zh) * 2020-07-31 2022-11-04 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法
CN112464646A (zh) * 2020-11-23 2021-03-09 中国船舶工业综合技术经济研究院 一种面向国防领域防务智库的文本情感分析方法
CN112528672B (zh) * 2020-12-14 2021-07-30 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN112528672A (zh) * 2020-12-14 2021-03-19 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置
CN113378578A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食药舆情分析方法

Similar Documents

Publication Publication Date Title
CN101894102A (zh) 一种主观性文本情感倾向性分析方法和装置
Chinsha et al. A syntactic approach for aspect based opinion mining
Devi et al. A feature based approach for sentiment analysis by using support vector machine
Basiri et al. A framework for sentiment analysis in persian
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
Ghag et al. Comparative analysis of the techniques for sentiment analysis
CN106951530B (zh) 一种事件类型抽取方法和装置
Rehman et al. Lexicon-based sentiment analysis for Urdu language
CN102866989A (zh) 基于词语依存关系的观点抽取方法
US9015168B2 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
CN102096680A (zh) 信息有效性分析的方法和装置
Krishna et al. A feature based approach for sentiment analysis using SVM and coreference resolution
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
Chinsha et al. Aspect based opinion mining from restaurant reviews
Khan et al. Summarizing customer review based on product feature and opinion
CN104915443A (zh) 一种中文微博评价对象的抽取方法
Ojokoh et al. A feature–opinion extraction approach to opinion mining
Manke et al. A review on: opinion mining and sentiment analysis based on natural language processing
Pandey et al. A study of sentiment analysis task and it's challenges
Singh et al. Sentiment analysis using lexicon based approach
Singh et al. Sentiment analysis approaches on different data set domain: survey
Zhao et al. Collocation polarity disambiguation using web-based pseudo contexts
Jha et al. Hsas: Hindi subjectivity analysis system
Khan et al. Sentiment analysis at sentence level for heterogeneous datasets
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20101124