CN101894102A

CN101894102A - 一种主观性文本情感倾向性分析方法和装置

Info

Publication number: CN101894102A
Application number: CN2010102290119A
Authority: CN
Inventors: 厉小军; 施寒潇; 庄毅; 谢波
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2010-07-16
Filing date: 2010-07-16
Publication date: 2010-11-24

Abstract

本发明公开了一种主观性文本情感倾向性分析方法，它包括如下步骤：预先建立一个可扩展的、倾向度定量的极性词典；对待分析文本进行预处理；利用语义角色标注工具，对预处理的文本语义角色进行标注；采用指代消解方法，对代词等对象实体进行还原；建立领域特征库；利用极性词典和特征库分别完成情感词识别和特征词识别，计算每个特征的情感倾向性值，然后统计计算每句中相关特征的情感倾向值，最后得出每一特征的整体情感倾向值。本发明还提供了一种主观性文本情感倾向性分析装置和极性词典的建立与自动扩展方法。本发明能解决文本情感倾向性分析中遇到的瓶颈性问题，以及提高倾向性分析结果的准确性。

Description

一种主观性文本情感倾向性分析方法和装置

技术领域

本发明涉及一种主观性文本情感倾向性分析方法和装置，属于计算机应用技术领域，可应用于商务网站的商品评论、企业或政府部门的网络舆情分析。

背景技术

随着互联网的飞速发展，特别是Web2.0技术的逐渐普及，广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第25次中国互联网络发展状况统计报告》(CNNIC，2010)的数据显示，截至2009年12月31日，我国网络用户总数量已经达到3.84亿，网民规模较2008年底增长8600万人，位居世界第一位。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用，使网络内容的数量和网络信息的访问量都以前所未有的速度增长，互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样，如新闻、博客文章、产品评论、论坛帖子等等。随着电子商务的发展，主观性评论文章越来越多，在一定程度上帮助了潜在消费者购买抉择，同时也对产品的商家提供了很好的反馈意见。如果评论信息只有几十条，普通浏览者还能应付，但如果是数以千计的信息量，就难以全部浏览。再加上一些枪文等噪音的出现，并往往穿插在前几页，这都将会影响浏览者信息获取的全面性和判断的正确性。另外，产品的商家也非常需要从评论中获取到顾客评价的第一手资料，以帮助其提高产品质量或改进服务。文本倾向性分析，就是对这些信息进行有效的分析和挖掘，识别出其情感趋向——高兴、伤悲，或得出其观点是“赞同”还是“反对”，甚至情感随时间的演化规律。这样就可以更好地理解用户的消费习惯，分析热点事件的舆情，为企业、政府等机构提供重要的决策依据。另外，倾向性分析技术还可以有效地推进和改善很多自然语言研究课题，如自动文摘和问答***等。

目前文本倾向性分析的方法大致有两类。第一种是基于一般性统计方法。主要对所有情感项进行简单的倾向性统计，统计方法有求和法和向量空间模型法，根据最终得分与事先设定阈值比较得出倾向评价，一般用于篇章级的倾向性分析。第二种是基于机器学习的方法。通过对大量标注语料的训练，生成倾向分类器，用来对测试文本进行分类。

(1)基于一般性统计方法。目前的方法主要是通过适当的词语提取和倾向计算后，对倾向值进行简单统计求得文本的整体倾向度，该方法更多的应用于篇章的情感分析。另外，通过计算词语的语义倾向，综合考虑极性元素分布、密度和语义强度对文本语义倾向进行统计。

(2)基于机器学习的方法。这种方法主要使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征，使用基于机器学习的分类方法进行情感/倾向性分析。机器学习主要依赖标注语料库，目前专门应用于情感/倾向性分析的语料库非常少，更多的还是基于传统的语料库或对其进行简单修正后的数据集，如WordNet、MPQA、SentiWordNet。常用的分类方法有：中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。

这两类方法进行文本倾向性分析时，无论是句子，还是篇章，都强依赖于极性词典，因此，极性词典的好坏直接影响情感倾向性判断的正确性，而目前极性词典的构建都是通过手工进行的，工作量大且建立的极性词典不完备。另一方面，现有的方法一般只考虑词的特性，对句子分词、词性标注后，利用词性的特点进行属性和情感词的识别，而缺乏对句子的整体语义理解。

发明内容

本发明的目标是针对现有倾向性分析方法存在的问题，提出一种主观性文本情感倾向性分析方法和装置。该方法和装置建立一个可扩展的、倾向度定量的极性词库，解决了文本情感倾向性分析中遇到的瓶颈性问题；合理的采用自然语言技术应用于不同规模大小的文本情感倾向性分析，提高倾向性分析结果的准确性。

为此，本发明的第一目的是提出一种主观性文本情感倾向性分析方法，它包括如下步骤：

步骤1)预先建立一个可扩展的、倾向度定量的极性词典；

步骤2)对待分析文本进行预处理，包括标签过滤、消重和停顿词消除处理；

步骤3)利用语义角色标注工具，对预处理的文本进行分词、词性标注、句法分析和语义分析等自然语言处理，对文本语义角色进行标注；

步骤4)采用指代消解方法，对代词等对象实体进行还原；

步骤5)建立领域特征库，供倾向性分析的特征识别使用；

步骤6)进行文本情感倾向性分析，即利用极性词典和特征库分别完成情感词识别和特征词识别，计算每个特征的情感倾向性值，然后统计计算每句中相关特征的情感倾向值，最后得出每一特征的整体情感倾向值。

1、关于极性词典的建立与自动扩展

(1)极性词典的建立

通过对现有的一些情感语料库，抽取出部分表达正面评价和情感的词和部分表达负面评价和情感的词构成基本极性词表。另外，考虑到情感表达中，修辞词的重要性，在极性词典里开辟一块内容建立专门的程度级别词和否定词，程度级别词和否定词的收集通过人工方式收集。

(2)极性词汇倾向程度的定量计算方法

首先，从基本极性词表中人工抽取出一定代表性的若干个极性基准词，可以是褒义词和贬义词各占一半，并通过多人判定、人工打分，最后统计得出每个词的平均分，输出一个-1至+1的实数来表示倾向程度，其中正数表示肯定(正面)的评价，负数表示否定(负面)的评价，绝对值越大越肯定(否定)。

针对余下的极性词，可以利用朱嫣岚等人在2006年中文信息学报上公开发表的方法计算剩余极性词的倾向度SO_sim(w)，具体计算公式为：

用公式(1)计算出极性词表中每个极性词的倾向度。

SO_sim(w)＝Max(similarity(w，ti)) (1)

其中：SO_sim(w)表示词语w的观点倾向值；ti为基准词表中的第i个词；similarity(w，ti)为HowNet中公开的计算词语语义相似性算法。

(3)极性词汇的自动获取与定量分类

首先利用上节内容中已生成的极性词表，参考Ku L.W.等人在AAAI’2006上提出的算法，为极性词表中出现的每个字计算出两个值fp_ci，fn_ci，其中fp_ci为字ci出现在褒义词表中的概率，fn_ci为字ci出现在贬义词表中的概率。然后利用公式(2)、(3)计算出每个字作为褒义词和否定词的权重。

P_{ci} = \frac{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj}}{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj} + {fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}} - - - (2)

N_{ci} = \frac{{fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}}{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj} + {fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}} - - - (3)

其中，P_ci为字ci作为褒义词的权重，N_ci为字ci作为贬义词的权重。n为褒义词表中出现的所有字的个数，m为贬义词表中出现的所有字的个数。这样利用公式(4)就可以算出字ci的情感倾向度S_ci。如果S_ci的值为正数，ci是褒义字，负数则是贬义字，接近于0的话，说明ci趋向于是中性。

S_ci＝(P_ci-N_ci) (4)

当极性词表扩展时，计算新加入的词汇中每个字的平均倾向度值S_w，见公式(5)，其中u为词w中字的个数。如果没有该字的情感倾向度，默认为0。

{SO}_{character} (w) = \frac{Σ_{j = 1}^{u} S_{cj}}{u} - - - (5)

最后利用公式(1)的词汇语义倾向计算的方法，与上述方法通过加权平均来获得词汇w的最终情感倾向度SO(w)，见公式(6)。

SO(w)＝α*SO_sim(w)+(1-α)*SO_character(w) (6)

其中：0＜α＜1为权重系数，具体取值通过实验来确定。

通过SO(w)的值获得词w的最后情感倾向值，根据其极性及倾向值在极性词表里选择相应的位置进行存放，从而完成极性词表的自动扩展。

2、指代消解技术的应用

指代(Anaphora)是自然语言中广泛存在的一种现象。在语言学中，把指代语(Anaphor)所指的对象和内容称为先行语(Antecedent)，并把确定指代语的先行语的过程称为指代消解(Anaphora Resolution)。指代语对先行语的依赖存在多种关系，如等价关系、上下位关系和整体部分关系等。

通常，相同信息会在同一文本中出现若干次，为了保证文本的简练减少冗余，文本的概念关联性往往通过指代关系来刻画。因此，需要把这些指代互相联系起来，实现相关信息的融合，获得相应信息在该文本中的完整描述。本方法采用的指代消解技术侧重于等价关系，即同指消解(Coreference Resolution)，如人称代词的消解，并只考虑两个词或短语是否指称现实世界中同一实体的问题。

例如，以电子商务网站有关“索尼DSC-H9P”数码相机评论中的一个句子为例：

“佳能A530P的镜头比它的好，价格还比它便宜”

利用指代消解技术实现指代关系的信息抽取，生成相应的指代关系链，这样就可以正确分析找出“它”和前面“索尼DSC-H9P”的指代关系，也就是说“它”和“索尼DSC-H9P”指向同一对象，从而在分析比较关系时双方的对象实体得以真实还原。

3、语义角色标注技术的应用

所谓语义角色标注，就是对于给定句子，对句中的每个谓词(动词、名词等)分析出其在句中的相应语义成分，并作相应的语义标记，如施事、受事、工具或附加语等。具体而言，即标注句子中的一些成分为给定动词谓词的语义角色，这些成分作为此谓词框架的一部分被赋予一定的语义含义。

本方法利用语义角色标注技术实现对句子的整体语义理解。同样以2)中的例句为例，通过语义角色标注(Semantic Role Labeling，SRL)处理后，

[佳能A530P的镜头_Arg0][比它的_ARGM-ADV][好_V]，[价格_Arg0][还_ARGM-ADV][比它_ARGM-ADV][便宜_V].

只要对“ARGM-ADV”这一语义角色所对应的内容进行指代消解处理，然后通过对比较级的正确分析，可抽取出两个特征的情感倾向性。

通过对大量评论语句进行语义角色标注后，我们得出了表1的概率表，发现特征概率最大的角色为“Arg0”，其次是“Arg1”。含有情感倾向的概率最大的角色为“V”。这里的标记是按照宾州大学的PropBank标注规则来进行标注。表1的结果成为本方法判断属性和计算情感的重要依据。

表1角色为特征的概率和角色为带情感倾向的概率表

a.角色为特征的概率

Arg 0	Arg 1	V	ARGM-TMP
				0.76	0.14	0.06	0.04

b.角色为带情感倾向的概率表

V	Arg 1	Arg 0	ARGM-ADV	Arg 2
					0.77	0.16	0.04	0.02	0.01

4、文本情感倾向性分析

首先面向常规的领域建立特征库，并根据词语相似度计算，以及利用现有的资源和工具，丰富每个特征类的相关词汇。如果是用户提出的领域不属于常规领域，通过双方协商确定基本特征类，并利用现有的资源和工具针对每个特征类进行词汇扩充。此处，特征库的建立可以采用Honglei Guo等人在CIKM’09上公开发表的方法建立，在此不再赘述。

然后，按句子具体分析每个特征的情感倾向，统计计算每句评论中所含特征的情感倾向值，最后给出针对每一特征类的整体情感倾向值。

本发明的另一目的在于提出一种主观性文本倾向性分析装置，该装置包括：

文本采集单元，用于获取原始文本；

文本预处理单元，用于对文本进行标签过滤、消重和停顿词消除处理，排除干扰信息，提高文本处理速率。

语义角色标注单元，用于对文本进行分词、词性标注、句法分析和语义分析等自然语言处理，对文本语义角色进行标注；

指代消解单元，用于实现代词等对象实体还原；

角色抽取单元，用于实现特征抽取、极性项(词)抽取，抽取顺序分别参考角色为特征概率值、角色为极性项(词)概率值；

极性值计算单元，用于实现极性项(词)倾向值计算。

所述角色抽取单元包括：极性词典训练单元，用于实现极性词典建立与自动扩充；特征库训练单元，用于实现特征收集与特征库生成；角色概率统计单元，用于得到各语义角色为特征、极性项(词)的概率值。

所述极性词典训练单元包括：极性词典建立与对应倾向值定量计算单元，用于实现极性词典初始化建立；极性词汇自动获取与定量分类单元，用于实现极性词典自动扩展与倾向值生成。

所述特征库训练单元包括：特征收集单元，用于实现特征收集；特征库生成单元，用于实现特征库初始化建立和维护。

所述角色概率统计单元包括：语料收集单元，用于实现角色概率统计所需原始语料收集；语料标注单元，用于对语料进行语义角色标注；角色为特征项概率统计单元，用于对角色为特征项概率进行统计分析，得出统计概率值；角色为极性项(词)概率统计单元，用于对角色为极性项(词)概率进行统计分析，得出统计概率值。

附图说明

图1是本发明实施例的主观性文本情感倾向性分析流程图；

图2是本发明实施例的主观性文本情感倾向性分析装置结构框图。

具体实施方式

图1为本发明实施例的主观性文本情感倾向性分析流程图。

待分析语句通过设计相应的爬虫工具对目标网页的内容采集而来。采集途径可分为两类：1)基于直接目标网页的采集。采集的对象包括各种网络媒体的网页，如门户网站、论坛、博客等。采集过程主要包括网页抓取，HTML内容解析、提取，并抽取出与评论相关的信息内容，如发布时间，发布人信息，发布URL地址等，并与评论内容一起映射为结构化的数据信息存储到数据库，为下一步工作的打好基础。2)基于搜索引擎方法。通过对指定话题(关键词)进行自动化的搜索，根据搜索获得的结果(URL信息、内容信息)进行下一步的网页抓取或者语料整理分析。

预处理过程主要针对文本进行停顿词消除、文本断句、分词、句子词性标注等。在预处理结果基础上，采用指代消解方法进行命名实体识别、名词短语识别、名词短语中心词获取等操作，同时为了提高消解处理的效果，设计一些规则，如单复数必须一致，名词短语的性别必须一致等，先把一些明显不符合的待消解对先过滤掉，缩小候选词的范围。然后进行特征向量的抽取，确定消解项。最后利用先前基于机器学习方法生成的分类器对消解项进行预测，得出各名词对间是否具有指代关系。利用这个结果实现对语句中的代词进行还原。

另外利用语义角色标注工具，分析出句子中的各个语义角色，然后利用极性词典和特征库分别完成情感词识别和特征词识别，最后进行细粒度情感倾向性分析。具体以句子为处理单元，以每个评论者的评论信息(含多句的情况)的语义角色标注结果为单位进行统一分析和处理，得到每个评论者的评价信息，统一汇总处理后获得所有评价者对每个特征的情感倾向性分布值。针对不同句子结构，采用不同的计算方法，具体见公式(7)如下：

当S_fi是褒义词时，α＝1；当S_fi是贬义词时，α＝-1；

S_fi是当前评论句中有关特征fi的的情感倾向值，D_fi是与S_fi相关的程度级别词的数值，SO_fi是当前评论句中考虑相关程度级别词和否定词后所得关于特征fi的情感倾向值，β为倾向值权重，其值与S_fi有关，利用语言学知识以及大量语句的分析，我们总结出了相应的关系，具体见公式如下：

为了保证β的作用性，它的值域为0.1到0.9。

其中SO_fi是当前评论句中关于特征fi的情感倾向值，

为所有评论中SO_fi的平均值，也是关于fi的最终值。通过这个公式计算出所有特征的最终情感倾向值

(\overset{&OverBar;}{{SO}_{f 1}}, \overset{&OverBar;}{{SO}_{f 2}}, \overset{&OverBar;}{{SO}_{f 3}}, . . ., \overset{&OverBar;}{{SO}_{fn}}) .

以上描述了本发明所述的一种主观性文本情感倾向性分析方法实施例，在下面的实施例中，以句子为分析单位，对本发明所述的一种主观性文本情感倾向性分析装置实施例进行描述，如图2所示。

所述装置包括：

文本采集单元，用于获取原始文本。包括基于目标网页采集文本和基于搜索引擎采集文本两种方式。

语义角色标注单元，用于对文本进行分词、词性标注、句法分析和语义分析等自然语言处理，对文本语义角色进行标注。

指代消解单元，用于实现代词等对象实体还原。

极性词典训练单元，用于实现极性词典建立与自动扩充。包括极性词典建立与对应倾向值定量计算、极性词汇自动获取与定量分类两个部分，见公式(1)、(2)、(3)、(4)、(5)、(6)。

特征库训练单元，用于实现特征收集与特征库生成。包括特征收集单元和特征库生成单元。特征库实现了特征间关系表示。如相机特征“成像效果”、“成像质量”将其统一为特征“成像”。

角色概率统计单元，用于得到各语义角色为特征、极性项(词)的概率值。包括语料收集单元、语料标注单元、角色为特征项概率统计单元以及角色为极性项(词)概率统计单元。语料收集单元实现原始语料收集。语料标注单元实现语料的语义角色标注。角色为特征项概率统计单元实现各角色为特征项的统计概率值，角色为极性项(词)概率统计单元实现各角色为极性项(词)的统计概率值。概率值的大小分别决定某角色作为特征和极性项(词)抽取的先后顺序。

角色抽取单元，用于实现特征抽取、极性项(词)抽取，抽取顺序分别参考角色为特征概率值、角色为极性项(词)概率值。

极性值计算单元，用于实现极性项(词)倾向值计算，并通过极性项(词)与特征的相关性识别得出各特征对应的极性值，见公式(7)、(8)、(9)。

应用所述主观性文本倾向性分析装置，对于一个文本，

首先，文本预处理单元对文本进行预处理；然后，语义角色标注单元对文本进行语义角色标注，指代消解单元对文本代词实现对象实体还原。

针对大量训练语料，实现极性词典建立、特征库建立以及角色概率统计表建立。极性词典实现各极性词与其极性值的对应关系的建立，如：

好0.8

一般0.5

便宜0.3

差-0.8

...

基于角色概率统计表，角色抽取单元实现各角色抽取，包括特征项抽取和极性项(词)抽取。然后，参考极性词典和特征库，得到对应项极性值和特征识别。最后，通过极性值计算单元算出各特征对应的极性值。如：

佳能A530P的镜头比它的好，价格还比它便宜.

语义角色标注后为：

根据表1所示角色概率统计表，抽取特征时首先抽取Arg0，其次依次为Arg1，由于V及其之后角色作为特征的概率过低，不对角色V及其之后角色进行特征抽取。同样，抽取极性项(词)时首先抽取V，其次依次为Arg1、Arg0等，由于在本统计中Arg1、Arg0及其之后角色作为极性项(词)概率过低，不对Arg1、Arg0及其之后角色进行极性项(词)抽取。因此，依次抽取出特征“佳能A530P的镜头“、”价格“，极性项”好“、”便宜“，然后搜索极性词典和特征库，得到对应特征和极性值，综合公式(7)、(8)、(9)最终得到特征极性值。

Claims

1.一种极性词典的建立与自动扩展方法，其特征在于包括如下步骤：

1)从现有情感语料库中抽取出表达正面评价和情感的词、部分表达负面评价和情感的词，构成基本极性词表，并在极性词表中开辟一块内容建立专门的程度级别词和否定词；

2)从基本极性词表中抽取出一部分有代表性的极性基准词，并通过人工判定打分，统计得出每个词的平均分，输出一个-1至+1的实数来表示其倾向程度；

3)计算极性词表中剩余极性词的倾向程度SO_sim(w)；

4)利用待分析词汇中每个字在现有基本极性词表中的分布情况进行极性统计与定量计算获得其极性和倾向值；

5)根据其极性及倾向值在极性词表里选择相应的位置进行存放，从而完成极性词表的自动扩展。

2.如权利要求1所述的极性词典的建立与自动扩展方法，其特征在于：在步骤3)中，剩余极性词的倾向度SO_sim(w)的计算公式为：

SO_sim(w)＝Max(similarity(w，ti))

3.如权利要求2所述的极性词典的建立与自动扩展方法，其特征在于：所述步骤4)中极性统计与定量计算的方法为：

1)计算出在极性词表中出现的每个字ci出现在褒义词表中的概率fp_ci和出现在贬义词表中的概率fn_c，然后计算出每个字ci作为褒义词的权重P_ci和否定词的权重N_ci；

P_{ci} = \frac{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj}}{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj} + {fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}}

N_{ci} = \frac{{fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}}{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj} + {fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}}

2)利用公式S_ci＝(P_ci-N_ci)计算出字ci的情感倾向度S_ci；

3)当极性词表扩展时，计算新加入的词汇中每个字w的平均倾向度值SO_character(w)，该倾向度值SO_character(w)，表示公式如下：

其中u为词w中字的个数；

4)按照如下公式计算获得词汇w的最终情感倾向度SO(w)

SO(w)＝α*SO_sim(w)+(1-α)*SO_character(w)，其中＜α＜1，为权重系数。

4.一种主观性文本情感倾向性分析方法，其特征在于包括如下步骤：

1)预先按权利要求1-3所述的方法建立一个可扩展的、倾向度定量的极性词典；

2)对待分析文本进行预处理，包括标签过滤、消重和停顿词消除处理；

3)利用语义角色标注工具，对预处理的文本进行分词、词性标注、句法分析和语义分析等自然语言处理，对文本语义角色进行标注；

4)采用指代消解方法，对代词等对象实体进行还原；

5)建立领域特征库，供倾向性分析的特征识别使用；

6)进行文本情感倾向性分析，即利用极性词典和特征库分别完成情感词识别和特征词识别，计算每个特征的情感倾向性值，然后统计计算每句中相关特征的情感倾向值，最后得出每一特征的整体情感倾向值。

5.如权利要求4所述的主观性文本情感倾向性分析方法，其特征在于，步骤6)中每个特征的情感倾向性值的计算方法如下：

1)按如下公式计算特征fi的情感倾向值：

当S_fi是褒义词时，α＝1；当S_fi是贬义词时，α＝-1；

S_fi是当前评论句中有关特征fi的情感倾向值，D_fi是与S_fi相关的程度级别词的数值，SO_fi是当前评论句中考虑相关程度级别词和否定词后所得关于特征fi的情感倾向值，β为倾向值权重，其计算公式如下：

2)按如下公式计算出所有特征的最终情感倾向值

(j为评论句子数，i为对应的特征编号)

为所有评论中SO_fi的平均值。

6.一种主观性文本倾向性分析装置，其特征在于，所述装置包括：

文本采集单元，用于获取原始文本；

指代消解单元，用于实现代词等对象实体还原；

极性值计算单元，用于实现极性项(词)倾向值计算。

7.根据权利要求6所述装置，其特征在于，所述角色抽取单元包括：

极性词典训练单元，用于实现极性词典建立与自动扩充；

特征库训练单元，用于实现特征收集与特征库生成；

角色概率统计单元，用于得到各语义角色为特征、极性项(词)的概率值。

8.根据权利要求7所述装置，其特征在于，所述极性词典训练单元包括：

极性词典建立与对应倾向值定量计算单元，用于实现极性词典初始化建立；

极性词汇自动获取与定量分类单元，用于实现极性词典自动扩展与倾向值生成。

9.根据权利要求7所述装置，其特征在于，所述特征库训练单元包括：

特征收集单元，用于实现特征收集；

特征库生成单元，用于实现特征库初始化建立和维护。

10.根据权利要求7所述装置，其特征在于，所述角色概率统计单元包括：

语料收集单元，用于实现角色概率统计所需原始语料收集；

语料标注单元，用于对语料进行语义角色标注；

角色为特征项概率统计单元，用于对角色为特征项概率进行统计分析，得出统计概率值；

角色为极性项(词)概率统计单元，用于对角色为极性项(词)概率进行统计分析，得出统计概率值。