CN106919551B - 一种情感词极性的分析方法、装置及设备 - Google Patents

一种情感词极性的分析方法、装置及设备 Download PDF

Info

Publication number
CN106919551B
CN106919551B CN201510999561.1A CN201510999561A CN106919551B CN 106919551 B CN106919551 B CN 106919551B CN 201510999561 A CN201510999561 A CN 201510999561A CN 106919551 B CN106919551 B CN 106919551B
Authority
CN
China
Prior art keywords
emotion
feature
probability
words
comments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510999561.1A
Other languages
English (en)
Other versions
CN106919551A (zh
Inventor
郑继川
白瑞峰
张光磊
姜珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201510999561.1A priority Critical patent/CN106919551B/zh
Priority to JP2016247375A priority patent/JP6323545B2/ja
Publication of CN106919551A publication Critical patent/CN106919551A/zh
Application granted granted Critical
Publication of CN106919551B publication Critical patent/CN106919551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种情感词极性的分析方法、装置及设备,其中,所述情感词极性的分析方法包括:获取一目标领域内的具有对应评分的多个评论;根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征‑情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征‑情感词对为正向情感的概率的加权和,计算所述特征‑情感词对的正向情感概率;根据所述特征‑情感词对的正向情感概率,判定所述特征‑情感词对中情感词的极性。本发明的方案,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响。

Description

一种情感词极性的分析方法、装置及设备
技术领域
本发明涉及情感词的分析技术,特别是涉及一种情感词极性的分析方法、装置及设备。
背景技术
随着互联网技术的发展,网络上出现了越来越多的用户原创内容(UserGenerated Content,UGC),例如网络商店中用户对商品或卖家的评论、用户借助微博、博客等发表的评论等,是用户对一些领域内的具体对象的看法和意见。其中,这些看法和意见通常借助情感词表述出来,可能是正向情感、负向情感或中性情感,且情感词的极性一般在相同领域内相同,在不同领域而不同。这样,通过分析评论中的情感词,就能够确定用户对相应对象的认可程度。
当前,常采用以下两种方式分析情感词:
方式一:基于机器学习,利用人工标注数据对情感词进行分析;但为了准确分析情感词,这种方式需要大量的人工标注数据,且需要对人工标注数据进行训练,耗时耗力。
方式二:基于情感词典和语言规则,根据情感词在情感词典中的情感倾向以及一些语言规则,例如句子中的修饰词、否定词等,对情感词进行分析;但是,情感词在不同的领域和与不同的特征词搭配时,往往具有不同的情感倾向,特别是对有歧义的情感词,即这种方式的分析结果可能不准确。
发明内容
本发明的目的在于提供一种情感词极性的分析方法、装置及设备,以解决现有技术中的分析情感词的方法耗时耗力,且分析结果可能不准确的问题。
为解决上述技术问题,本发明实施例提供一种情感词极性的分析方法,包括:
获取一目标领域内的具有对应评分的多个评论;
根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;
抽取所述多个评论中的特征-情感词对;
根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;
根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
另一方面,本发明实施例还提供一种情感词极性的分析装置,包括:
获取模块,用于获取一目标领域内的具有对应评分的多个评论;
确定模块,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;
抽取模块,用于抽取所述多个评论中的特征-情感词对;
计算模块,用于根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;
判定模块,用于根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
又一方面,本发明实施例又提供一种情感词极性的分析设备,包括:
输入单元,用于获取一目标领域内的具有对应评分的多个评论;
处理器,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征-情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
与现有技术相比,本发明实施例提供的情感词极性的分析方法,通过获取一目标领域内的具有对应评分的多个评论,根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率,抽取所述多个评论中的特征-情感词对,根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率,并根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响。
附图说明
图1表示本发明实施例的情感词极性的分析方法的流程图。
图2表示本发明实施例的抽取评论中的特征-情感词对的流程图。
图3表示本发明实施例的情感词极性的分析装置的功能结构示意图。
图4表示本发明实施例的情感词极性的分析设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,本发明实施例提供一种情感词极性的分析方法,包括以下步骤:
步骤101:获取一目标领域内的具有对应评分的多个评论。
其中,所述目标领域例如是电视机、手机、相机、服装等领域。所述评论是用户对目标领域内的产品对象的看法和意见。为了体现用户的情感倾向,通常情况下,每个评论都有用户给定的评分。
随着越来越多的用户开始在网络上发表自己的观点,网络上用户评论的日益增长,本发明具体实施例中,获取评论的方式可以是:利用网络爬虫从网络上获取一目标领域内的具有对应评分的多个评论。这样,能够得到海量的、有参考价值的评论信息。
步骤102:根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率。
具体的,评论的评分用于表示用户对所评价内容的总体满意度,且一般情况下,满意度越高,评分越高,正向情感概率越高。例如,当用户对产品A的满意度较高时,可以给出评分5星(评分标准为1~5星)或10分(评分标准为1~10分),即正向情感概率为100%;当用户对产品A的不太满意时,可以给出评分3星或5分,即正向情感概率为60%或50%。这样,根据评论的评分,就能够确定出相应评论的正向情感概率。
步骤103:抽取所述多个评论中的特征-情感词对。
通常情况下,针对一个目标领域内的对象的评论中,会涉及到与所述对象相关的多个特征,分别采用特征词描述。以相机领域内的数码相机为例,针对其的评论常涉及到的特征(特征词)包括快门速度、电池待机时间、显示屏、防水外壳等。
本发明实施例中,所述特征-情感词对就是评论中的特征词和与其对应的情感词的组合。以上述数码相机为例,针对其的评论涉及到的特征-情感词对可能为快门速度-快、快门速度-非常快、快门速度-慢、电池待机时间-长、电池待机时间-短、显示屏-暗等。
步骤104:根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率。
本发明实施例中,可以假定所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,以建立回归模型,计算出特征-情感词对的正向情感概率。具体的,对于一个评论来说,所述评论中的特征-情感词对的权重是相同的,等于1/评论中所有特征-情感词对的个数。例如,评论B中有5个特征-情感词对,那么,每个特征-情感词对的权重都是1/5。
基于上述内容,建立的回归模型可如等式一所示:
Figure BDA0000892451390000041
等式一
其中,等式一针对的是k个评论,所述k个评论中共有n个特征-情感词对(本发明针对的是大数据统计,通常情况下k>n),Pi是待求解量。
等式一中的参数定义如下:
Pi:表示特征-情感词对i的正向情感概率,取值范围为0<Pi<1;
Yi:表示评论Ri的正向情感概率,取值范围为0<Yi<1;
Aij:表示特征-情感词对i是否出现在评论Rj中,等于0或1;其中,0表示未出现,1表示出现;
Qj:表示评论Rj中的特征-情感词对的个数。
例如,等式一赋值后可如等式二所示:
Figure BDA0000892451390000051
等式二
这样,求解等式二,就可以计算特征-情感词对的正向情感概率P1~Pn
步骤105:根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
具体的,特征-情感词对的正向情感概率的大小能够反应出其中情感词的极性,即表达的是正向情感、负向情感或中性情感,体现用户的满意度。
本发明实施例中,在判定所述特征-情感词对中情感词的极性时,可采用如下方式实现:首先,比较所述正向情感概率与第一预设阈值和第二预设阈值的大小关系,其中,所述第一预设阈值小于所述第二预设阈值;当所述正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感。
实际应用中,通过对实际评论的观察发现,并不是5星或10分评论包含的所有情感词都是正向情感。虽然对目标领域内的某个对象的个别特征不满意,但当对主要特征非常满意时,用户往往会给出综合5星或10分的评价。这样,如果仅仅依据评论当前的评分确定其正向情感概率,会出现偏差。并且,不同网站可能会采用不同的评分标准,例如评分标准为1~5星、1~5分、1~10分等,给依据评论当前的评分确定其正向情感概率带来不便。
为了方便准确的确定评论的正向情感概率,本发明实施例中,步骤102可采用如下方式实现:首先,基于同一评分标准,规范所述多个评论中每一个评论的评分,再根据预先存储的规范评分和正向情感概率的映射关系,确定所述每一个评论的正向情感概率。
举例来说,需要规范评论C、D、E和F的评分,其中,评论C的评分为2星(评分标准1~5星),评论D的评分为4分(评分标准1~5分),评论E的评分为4星(评分标准1~5星),评论F的评分为6分(评分标准1~10分),而选择的评分标准是1~10分。这样,经过规范处理后,评论C的规范评分为4分,评论D的规范评分为8分,评论E的规范评分为8分,评论F的规范评分为6分。
其中,预先存储的规范评分和正向情感概率的映射关系可通过对小部分评论数据进行统计分析得到。这的分析方法可采用现有技术,例如基于机器学习的方法,或基于情感词典和语言规则的方法,或基于语句模板(例如,模版1:虽然/尽管+特征词+负向情感词,…好评/5星)的方法,或计算比例关系的方法(映射后的正向情感概率=正向特征-情感词对个数/总特征-情感词对个数)等等,本发明不对其进行限制。
例如,预先存储的规范评分和正向情感概率的映射关系(选择的统一评分标准为1-5分)可如下表1所示:
规范评分 正向情感概率
5 0.9
4 0.8
3 0.6
2 0.4
1 0.2
0 0
表1
此外,由于评论中的用词偏口语化、比较随意,因此,同一目标领域内的多个评论中,所述目标领域内的对象的某一个特征可能会有多种表达方法,分别采用不同的特征词描述。这样,如果直接抽取评论中的特征-情感词对,可能会有重复抽取的情况发生。
为了避免抽取重复的特征-情感词对,参见图2所示,步骤103可包括如下步骤:
步骤1031:获取所述多个评论中的特征词;
步骤1032:对表示同一含义的特征词进行规范,得到规范后的特征词;
步骤1033:基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对。
其中,对特征词进行规划就是要利用一个特征词对同一特征进行描述。而规范方式可以是利用情感词典对表示同一含义的特征词进行规范,也可以是利用词相似度对表示同一含义的特征词进行规范,本发明不对其进行限制。
对特征词进行规范的例子,可参见如下表2所示:
Figure BDA0000892451390000071
表2
实际应用中,用户在发表评论时,常常利用关联词例如尽管、但是等,来表达情感倾向。当一评论中包含关联词(尤其是包含转折或否定等意思的关联词)时,所述评论中的特征-情感词所体现的情感倾向,可能会与评论所体现的情感倾向相反。
所以,当所述多个评论中的特征词与关联词连接时,所述步骤1033在抽取特征-情感词对时,可以基于所述规范后的特征词和与之连接的关联词,抽取所述多个评论中的特征-情感词对,即抽取的特征-情感词对例如为虽然-显示屏-暗、快门速度-慢-但是等,以体现出评论的情感倾向。
本发明实施例的情感词极性的分析方法,通过获取一目标领域内的具有对应评分的多个评论,根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率,抽取所述多个评论中的特征-情感词对,根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率,并根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响;进一步的,在分析过程中,通过规范评论评分和特征词,能够提高分析结果的准确性。
参见图3所示,本发明实施例还提供一种情感词极性的分析装置,与图1所示的情感词极性的分析方法相对应,所述情感词极性的分析装置包括:
获取模块31,用于获取一目标领域内的具有对应评分的多个评论;
确定模块32,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;
抽取模块33,用于抽取所述多个评论中的特征-情感词对;
计算模块34,用于根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;
判定模块35,用于根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
进一步的,本发明实施例中,所述确定模块32包括:
第一规范子模块,用于基于同一评分标准,规范所述多个评论中每一个评论的评分;
确定子模块,用于根据预先存储的规范评分和正向情感概率的映射关系,确定所述每一个评论的正向情感概率。
为了避免抽取重复的特征-情感词对,所述抽取模块33包括:
获取子模块,用于获取所述多个评论中的特征词;
第二规范子模块,用于对表示同一含义的特征词进行规范,得到规范后的特征词;
抽取子模块,用于基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对。
具体的,当所述多个评论中的特征词与关联词连接时,所述抽取子模块具体用于基于所述规范后的特征词和与之连接的关联词,抽取所述多个评论中的特征-情感词对。
本发明实施例中,所述获取模块具体用于利用网络爬虫从网络上获取一目标领域内的具有对应评分的多个评论。
由于特征-情感词对的正向情感概率的大小能够反应出其中情感词的极性,即表达的是正向情感、负向情感或中性情感,所以,所述判定模块35包括:
比较子模块,用于比较所述正向情感概率与第一预设阈值和第二预设阈值的大小关系,其中,所述第一预设阈值小于所述第二预设阈值;
判定子模块,用于当所述正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感。
参见图4所示,本发明实施例还提供一种情感词极性的分析设备,包括:
输入单元41,用于获取一目标领域内的具有对应评分的多个评论;
处理器42,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征-情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率;根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
其中,所述输入单元(INPUT UNIT)41获取的评论例如是分析设备利用网络爬虫从网络上获取的。所述处理器42例如为CPU,是分析设备的核心部件,承担着分析情感词的主要工作。
进一步的,所述情感词极性的分析设备还包括:
存储单元43,用于存储规范评分和正向情感概率的映射关系、第一预设阈值和第二预设阈值等;具体的,所述存储单元43包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘(HARD DISK)等,还用于存储处理器42的中间处理结果等。
输出单元44,用于输出特征-情感词对及对应情感词的极性等信息;具体的,所述输出单元44可以使显示屏(DISPLAY)等部件。
本发明实施例的情感词极性的分析装置及设备,通过获取一目标领域内的具有对应评分的多个评论,根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率,抽取所述多个评论中的特征-情感词对,根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,计算所述特征-情感词对的正向情感概率,并根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性,不仅能够避免利用大量的人工标注数据对情感词进行分析,还能够避免因词歧义问题,对情感词的分析结果造成的影响。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种情感词极性的分析方法,其特征在于,包括:
获取一目标领域内的具有对应评分的多个评论;
根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;
抽取所述多个评论中的特征-情感词对;
根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,以建立回归模型,并基于回归模型计算所述特征-情感词对的正向情感概率;
根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
2.根据权利要求1所述的情感词极性的分析方法,其特征在于,所述根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率的步骤包括:
基于同一评分标准,规范所述多个评论中每一个评论的评分;
根据预先存储的规范评分和正向情感概率的映射关系,确定所述每一个评论的正向情感概率。
3.根据权利要求1所述的情感词极性的分析方法,其特征在于,所述抽取所述多个评论中的特征-情感词对的步骤包括:
获取所述多个评论中的特征词;
对表示同一含义的特征词进行规范,得到规范后的特征词;
基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对。
4.根据权利要求3所述的情感词极性的分析方法,其特征在于,当所述多个评论中的特征词与关联词连接时,所述基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对的步骤包括:
基于所述规范后的特征词和与之连接的关联词,抽取所述多个评论中的特征-情感词对。
5.根据权利要求1所述的情感词极性的分析方法,其特征在于,所述获取一目标领域内的具有对应评分的多个评论的步骤包括:
利用网络爬虫从网络上获取一目标领域内的具有对应评分的多个评论。
6.根据权利要求1所述的情感词极性的分析方法,其特征在于,所述根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性的步骤包括:
比较所述特征-情感词对的正向情感概率与第一预设阈值和第二预设阈值的大小关系,其中,所述第一预设阈值小于所述第二预设阈值;
当所述特征-情感词对的正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述特征-情感词对的正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述特征-情感词对的正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感。
7.一种情感词极性的分析装置,其特征在于,包括:
获取模块,用于获取一目标领域内的具有对应评分的多个评论;
确定模块,用于根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;
抽取模块,用于抽取所述多个评论中的特征-情感词对;
计算模块,用于根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,以建立回归模型,并基于回归模型计算所述特征-情感词对的正向情感概率;
判定模块,用于根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
8.根据权利要求7所述的情感词极性的分析装置,其特征在于,所述确定模块包括:
第一规范子模块,用于基于同一评分标准,规范所述多个评论中每一个评论的评分;
确定子模块,用于根据预先存储的规范评分和正向情感概率的映射关系,确定所述每一个评论的正向情感概率。
9.根据权利要求7所述的情感词极性的分析装置,其特征在于,所述抽取模块包括:
获取子模块,用于获取所述多个评论中的特征词;
第二规范子模块,用于对表示同一含义的特征词进行规范,得到规范后的特征词;
抽取子模块,用于基于所述规范后的特征词,抽取所述多个评论中的特征-情感词对。
10.根据权利要求9所述的情感词极性的分析装置,其特征在于,当所述多个评论中的特征词与关联词连接时,所述抽取子模块具体用于基于所述规范后的特征词和与之连接的关联词,抽取所述多个评论中的特征-情感词对。
11.根据权利要求7所述的情感词极性的分析装置,其特征在于,所述获取模块具体用于利用网络爬虫从网络上获取一目标领域内的具有对应评分的多个评论。
12.根据权利要求7所述的情感词极性的分析装置,其特征在于,所述判定模块包括:
比较子模块,用于比较特征-情感词对的所述正向情感概率与第一预设阈值和第二预设阈值的大小关系,其中,所述第一预设阈值小于所述第二预设阈值;
判定子模块,用于当所述特征-情感词对的正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述特征-情感词对的正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述特征-情感词对的正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感。
13.一种存储用于分析情感词极性的计算机程序的记录介质,其特征在于,所述计算机程序执行以下操作:
获取一目标领域内的具有对应评分的多个评论;
根据所述多个评论中每一个评论的评分,确定所述每一个评论的正向情感概率;抽取所述多个评论中的特征-情感词对;根据所述多个评论中每一个评论的正向情感概率等于所述每一个评论中的特征-情感词对为正向情感的概率的加权和,以建立回归模型,并基于回归模型计算所述特征-情感词对的正向情感概率;根据所述特征-情感词对的正向情感概率,判定所述特征-情感词对中情感词的极性。
14.根据权利要求13所述的记录介质,其特征在于,所述计算机程序还执行以下操作:
存储规范评分和每一个评论的正向情感概率的映射关系、第一预设阈值和第二预设阈值,其中所述第一预设阈值小于所述第二预设阈值;当所述特征-情感词对的正向情感概率小于等于所述第一预设阈值时,判定所述特征-情感词对中情感词的极性为负向情感;当所述特征-情感词对的正向情感概率大于所述第一预设阈值、且小于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为中性情感;当所述特征-情感词对的正向情感概率大于等于所述第二预设阈值时,判定所述特征-情感词对中情感词的极性为正向情感;
输出特征-情感词对及对应情感词的极性。
CN201510999561.1A 2015-12-28 2015-12-28 一种情感词极性的分析方法、装置及设备 Active CN106919551B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510999561.1A CN106919551B (zh) 2015-12-28 2015-12-28 一种情感词极性的分析方法、装置及设备
JP2016247375A JP6323545B2 (ja) 2015-12-28 2016-12-21 情感語極性の分析方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510999561.1A CN106919551B (zh) 2015-12-28 2015-12-28 一种情感词极性的分析方法、装置及设备

Publications (2)

Publication Number Publication Date
CN106919551A CN106919551A (zh) 2017-07-04
CN106919551B true CN106919551B (zh) 2020-08-18

Family

ID=59272494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510999561.1A Active CN106919551B (zh) 2015-12-28 2015-12-28 一种情感词极性的分析方法、装置及设备

Country Status (2)

Country Link
JP (1) JP6323545B2 (zh)
CN (1) CN106919551B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6796384B2 (ja) * 2016-02-19 2020-12-09 株式会社アイスタイル 辞書構築装置、情報処理装置、評価語辞書の生産方法、情報処理方法、およびプログラム
CN109977392B (zh) * 2017-12-28 2024-02-09 北京京东尚科信息技术有限公司 一种文本特征分析的方法和装置
CN108959247B (zh) * 2018-06-19 2022-09-09 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109657045B (zh) * 2018-12-20 2021-01-05 东软集团股份有限公司 一种获取词汇情感值的方法、装置、存储介质及处理器
CN112651237B (zh) * 2019-10-11 2024-03-19 武汉渔见晚科技有限责任公司 一种基于用户情绪立场的用户画像建立方法及装置、用户画像的可视化方法
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN113536805B (zh) * 2021-07-09 2023-07-14 北京奇艺世纪科技有限公司 热点事件的舆情分析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012003572A (ja) * 2010-06-18 2012-01-05 Nomura Research Institute Ltd 感性分析システム及びプログラム
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622140B1 (en) * 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP3962382B2 (ja) * 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
JP5438603B2 (ja) * 2010-06-18 2014-03-12 株式会社野村総合研究所 感性辞書編集支援システム及びプログラム
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US10706367B2 (en) * 2013-09-10 2020-07-07 Facebook, Inc. Sentiment polarity for users of a social networking system
JP5646026B2 (ja) * 2013-10-03 2014-12-24 株式会社パラダイムシフト 口コミ情報管理システム、口コミ情報管理方法、および口コミ情報管理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012003572A (ja) * 2010-06-18 2012-01-05 Nomura Research Institute Ltd 感性分析システム及びプログラム
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Research on the Sentiment Analysis of Customer Reviews Based on the Ontology of Phone;Can YANG et al.;《International Conference on Education, Management and Computing Technology》;20150630;第275-278页 *
基于潜在狄利克雷分布模型的多文档情感摘要;荀静 等;《计算机应用》;20140610;第34卷(第6期);第1636-1640页 *

Also Published As

Publication number Publication date
JP2017120634A (ja) 2017-07-06
JP6323545B2 (ja) 2018-05-16
CN106919551A (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN106919551B (zh) 一种情感词极性的分析方法、装置及设备
CN108073568B (zh) 关键词提取方法和装置
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN108376129B (zh) 一种纠错方法及装置
US10223442B2 (en) Prioritizing survey text responses
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
Shirsat et al. Document level sentiment analysis from news articles
CN107102993B (zh) 一种用户诉求分析方法和装置
Nair et al. SentiMa-sentiment extraction for Malayalam
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
Rohini et al. Domain based sentiment analysis in regional Language-Kannada using machine learning algorithm
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与***
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN107797981B (zh) 一种目标文本识别方法及装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
KR102410715B1 (ko) 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법
CN112528703A (zh) 一种识别表格结构的方法、装置及电子设备
CN107783958B (zh) 一种目标语句识别方法及装置
US20220292587A1 (en) Method and apparatus for displaying product review information, electronic device and storage medium
CN112199500A (zh) 针对评论的情感倾向识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant