CN103207855A - 针对产品评论信息的细粒度情感分析***及方法 - Google Patents

针对产品评论信息的细粒度情感分析***及方法 Download PDF

Info

Publication number
CN103207855A
CN103207855A CN2013100360341A CN201310036034A CN103207855A CN 103207855 A CN103207855 A CN 103207855A CN 2013100360341 A CN2013100360341 A CN 2013100360341A CN 201310036034 A CN201310036034 A CN 201310036034A CN 103207855 A CN103207855 A CN 103207855A
Authority
CN
China
Prior art keywords
emotion
module
user
model
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100360341A
Other languages
English (en)
Other versions
CN103207855B (zh
Inventor
蔡瑞初
郝志峰
王鸿飞
温雯
杜慎芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201310036034.1A priority Critical patent/CN103207855B/zh
Publication of CN103207855A publication Critical patent/CN103207855A/zh
Application granted granted Critical
Publication of CN103207855B publication Critical patent/CN103207855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公布了一种针对产品评论信息的细粒度化情感分析***及方法。该***包括:用户接口,产品评论信息训练样本数据库,情感词典等相关词典加载模块,文本预处理模块,特征抽取模块,特征抽取模块,情感分析模型训练模块,情感倾向性判断模块,反馈模块。用户可以通过该***存储和管理各种已标注的产品评论信息训练样本,并对之进行分句、分词、词性标注和句法分析等处理。用户还可以添加自定义情感词典对处理好的本文信息进行特征抽取和向量化,训练情感分析模型,利用情感分析模型对向量化的文本信息进行情感倾向性判断。***将情感分析结果反馈给用户,支持用户对分析结果进行修正和保存。

Description

针对产品评论信息的细粒度情感分析***及方法
技术领域
本发明涉及中文文本情感分析领域,特别涉及一种针对产品评论信息的实体级别细粒度情感分析***及方法。
背景技术
产品评论信息通常是指用户或者消费者就某一产品或者该产品的某一属性所发表的评价或者意见。这些评论信息往往带有较强的主观情感色彩,体现了用户对于产品或其某一属性的主观感受。
一方面随着Web2.0的蓬勃发展,互联网用户由被动地接收互联网信息向主动创造互联网信息转变;另一方面电商的迅速发展改变着人们的购物习惯,开始由线下转为线上,网络购物的普及带来的是这类产品评论信息的的迅速膨胀,这些海量信息无论是对于商家设计改进产品还是消费者做出购物选择都有巨大价值,然而仅靠人工的方法难以应对海量信息的处理。因此迫切需要自动的情感识别技术。情感识别技术的主要任务是对文本信息是否具有情感色彩以及情感色彩的倾向性即正面或负面做出判断。
目前已有情感分析***及技术从分析的粒度上看主要集中于篇章级别以及句子级别的情感分析,而极少数的实体级别的情感分析技术将实体识别和情感分析分为两个独立的任务来进行。从分析的对象来看目前的***及技术要针对新闻、微博等评论信息,关注于社会舆情的分析。
目前已有的篇章级别及句子级别情感分析技术主要有:西北工业大学的申请号为CN200910219161.9、发明名称为“基于混合模型的WEB文本情感主题识别方法”的专利;中国科学院计算技术研究所的申请号为CN200910083522.1、发明名称为“文本情感倾向性分析方法”的专利申请;中国科学院自动化研究所的申请号为CN201210088366.X、发明名称为“一种面向微博短文本的情感分析方法”的专利申请;富士通株式会社的申请号为CN201010157784.0、发明名称为“情感倾向性分析方法和装置”的专利申请。
上述情感分析技术主要包括训练和情感判断两个步骤,下面以为西北工业大学的“基于混合模型的WEB文本情感主题识别方法”为例介绍其在训练和情感判断的主要步骤,其余相关技术基本类似。该方法主要包括以下几个步骤:1、对训练集中的文本进行手工标注,估计出两类情感模型:“褒义”模型和“贬义”模型;同时根据不同主题文本的语言表达方式,分别估计各类主题语言模型;2、采用最大似然估计(MLE)方法对于步骤1建立的情感模型和主题模型分别进行参数估计;3、对于待处理的文本,计算其语言模型与两类情感模型的距离,从而对文本的情感倾向性以及主题进行判断。
目前的情感倾向性技术主要集中于篇章级别以及句子级别,实体级别的情感倾向性技术仍十分少,该类技术目前只有北京大学的申请号为CN200910086542.4、专利名称为“一种基于新闻评论网页的情感倾向性分析***”的专利申请。下面介绍该项技术的基本流程:1、输入新闻网页集合和情感分析规则;2、从新闻评论网页中提取有效实体,并建立实体层次关系图;3、在实体层次关系图中定位参考实体,建立由情感关系树组成的实体情感关系图;4、获取新闻评论网页中的中间实体,并输出中间实体的情感分析数据;5、判断中间实体是否存在于实体情感关系图和情感关系树中,根据判断结果采取相应策略输出情感判断结果。
现有的情感分析技术主要存在一下几个方面的不足:A)情感分析的粒度较大,只对整条句子或者整篇文章的情感倾向性做出分析判断,这类方法直接忽略了句中更细粒度的信息,造成文本中大量根据有价值的信息的丢失,不能充分利用文本中蕴含的信息;B)现有少数的实体级别的情感分析技术将实体的识别和情感倾向性的判断分割为独立的两个步骤进行,忽略了实体识别与情感倾向性判断间的联系,使得最终的联合精度不高;C)需要人工对训练数据集中的文本进行标注,这会耗费大量的时间以及人力资源,并且由于标记者的认知不同,在标注过程中也不可避免的会出现相互矛盾的标记结果,影响训练的效果;D)缺乏反馈机制以及自动学习机制,现有***及技术对于判断结果直接输出给用户,而并不做后续的处理,缺少对错误的判断结果进行再次学习的过程;E)缺少集中于产品评论信息情感分析的研究,而这类信息在网络上非常丰富也极易获取,同时也蕴含着巨大的商业价值和商机,合理充分使用这些信息能够为商家和社会创造巨大的价值和收益。
发明内容
为了解决上述问题,本发明提出了一种针对于产品评论信息的细粒度情感分析***及方法。
本发明的情感分析***包括:用户接口,用于***与用户的交互,用户可以通过该模块提交产品评论信息集合;产品评论信息爬取模块,该模块会定期对京东商城、亚马逊等指定的购物网站进行产品评论信息爬取,这些网站上的产品评论信息或分为好评和差评或有星级标注,根据这些信息转化为标注的训练样本数据存储在数据库中;产品评论信息训练样本数据库,用于存储各种已标注的产品评论信息训练样本;文本预处理模块,该模块用于对用户输入的文本信息以及原始训练样本数据进行分句、分词、词性标注以及句法分析等预处理工作;词典加载模块,用于在特征抽取或预处理过程中加载情感词词典等相关资源;特征抽取模块,用于对预处理后的文本信息进行特征抽取,结合加载的情感词词典等资源将文本信息向量化,转化为规定的训练数据格式;情感分析模型训练模块,使用转化后的训练数据调整模型参数,对情感分析模型进行训练,输出训练好的情感分析模型;情感分析模块,将向量化的文本信息输入已训练好的情感分析模型中进行情感倾向性判断,输出情感分析结果;反馈模块,用户在得到分析结果后可以修正分析结果,并通过该模块反馈给***,经过管理员人工检验确认后加入训练样本数据库。
本发明还提出了一种细粒度的情感分析方法,该方法包括:1)爬取对网络上带星级标注的产品评论信息,减少人工标注;2)以词为最小分析粒度,构造了一种具有Two-Level结构的DCRF模型,同时进行实体识别以及情感倾向性判断两个任务,能够引入丰富的特征信息帮助分析效果的提高,并且能对新的情感词以及搭配组合进行识别,自动更新词典数据;3)引入反馈机制,模型能够对判断错误的样本数据进行学习。
使用本发明的***与方法具有一下几方面的优点:1)情感分析的粒度小。能够进行实体级别的细粒度情感分析工作,对文本进行更全面、准确、细致的分析,充分获取评论文本中的信息,大大增加了获取的信息量,提高了信息的价值和真实性;2)情感分析的准确率高。一方面在情感分析工作中首次引入具有Two-Level结构的DCRF模型,实现实体识别工作与情感分析工作同时进行,其优点在于建立两个工作间的联系,以及词间关系信息和句间上下文信息,这些丰富有效信息的引入,一定程度上实现了从语义上进行情感分析,能够帮助提高情感分析的精度。而这些有价值的信息在已有方法框架下并不能得到有效的利用,往往被忽略。另一方面,能对新的情感词以及搭配组合进行有效识别,加上尽量少的人工审核,对词典资源进行更新,保证这些资源的实时性;3)人工干预少。通过抓取网上带有星级的评论信息等类似信息,一方面减少人工标注中人的主观因素对情感词的标注的影响,另一方面减少了训练数据的人工标注,节省了时间并降低了人力成本,并能够定期地更新训练语料;4)***具有自动学习机制。反馈机制的引入能够帮助模型学习判断错误的样本信息,使得模型能够不断地学习,提高精度,达到越用越准确的效果。
附图说明
图1为本发明的针对产品信息的细粒度化情感分析***架构图;
图2为本发明的细粒度化情感分析方法的流程图;
图3为本发明的细粒度化情感分析方法中训练样本数据收集步骤的实现原理图;
图4为本发明的细粒度化情感分析方法中情感分析模型训练步骤的实现原理图;
图5为以命名实体任务为例的Linear-CRF模型的图结构;
图6为本发明的细粒度化情感分析方法中采用的Two-Level CRF模型的图结构示例图;
图7为本发明的细粒度化情感分析方法中产品评论信息情感分析步骤的实现原理图。
具体实施方案
根据附图一张张详细说明,并详细介绍情感分析算法及使用的模型为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1示出了本发明针对产品信息的细粒度化情感分析***的架构图。
参照图1,本发明的情感分析***包括用户接口、产品评论信息爬取模块、产品评论信息训练样本数据库、词典数据库、文本预处理模块、词典加载模块、特征抽取模块、情感分析模型训练模块、情感分析模块、管理员接口、***管理模块以及数据库接口。
用户接口,用于实现情感分析***与用户的各种通信,包括获取用户输入的产品评论相关文本信息并将信息传递给文本预处理模块;将情感分析模块最终得到的情感分析结果返回给用户;如果用户认为情感分析结果有误,接口将会把用户反馈的修正结果传递给***管理模块让管理员进行审核。
产品评论信息爬取模块,用于按照一定时间间隔对京东、亚马逊等大型购物网站上带有星级标注等类似具有情感倾向性标注信息的网页进行爬取,抽取其中的产品评论信息并对正负面信息进行整理,通过数据库接口与产品评论信息训练数据样本数据库建立联接,将处理好的格式化数据存入训练样本数据库中。
文本预处理模块,通过数据库接口与产品评论信息训练样本数据库建立联接,获取训练样本数据,并从用户接口获取用户输入的文本数据,对这些文本数据进行分词、POS标注(词性标注)、停用词处理以及句法分析等预处理,并将处理好的数据传递给词加载模块。
词典加载模块,通过数据库接口与词典数据库建立连接,获取情感词典、搭配组合词典、否定词词典等词典数据,用于特征抽取模块的特征抽取。
特征抽取模块,借助词典加载模块加载的词典数据对与处理后的数据进行预先定义特征的抽取,将文本向量化,转化为情感分析模型训练模块能够处理的格式,并传递给情感分析模型训练模块。
情感分析模型训练模块,用于按一定时间间隔对本***核心的情感分析模型进行训练。从特征抽取模块获取转化为要求格式的训练数据,使用L-BFGS算法对根据训练数据构建的Two-Level DCRF模型进行训练。本发明使用的Two-Level DCRF模型是在Linear CRF(线性条件随机场)模型的基础上演变而来,是CRF(条件随机场)模型中的一种,是第一次在情感分析领域进行应用。以往的方法普遍将这两部分工作人为独立起来,忽略了两者间的联系,该模型通过构造两层结构,将评价对象及情感词识别与情感倾向性判断统一到一个模型中同时进行,实现了两个工作间信息的互通,引入了两者间的联系信息,帮助最终精度的提高。该模块将训练好的模型传递给情感分析模块。
情感分析模块,加载训练好的情感分析模块,对格式转化后的用户输入文本信息进行细粒度的情感分析,即得出对指定评价对象的情感倾向性判断。例如:“触摸屏非常酷,声音也很清楚,只是电池不耐用”这句话将得到的情感分析结果为(触摸屏,正面)、(声音,正面)以及(电池,负面),将分析结果通过用户接口提供给用户。同时将识别的词典中不存在的情感词以及搭配组合传递给***管理模块供管理员进行审核,上例中识别出的情感词为(酷,正面)、(清楚,正面)以及(不耐用,负面),识别出的搭配组合为(触摸屏,酷,正面)、(声音,清楚,正面)以及(电池,不耐用,负面)。
管理员接口,用于***管理员对情感分析模块识别的新的情感词及搭配组合和用户反馈的错误分析结果进行人工审核确认。
***管理模块,用于***管理员通过数据库接口与数据库建立连接,更新数据库。如果新的情感词或搭配组合正确则将其存入相应的词典数据库,反之则舍弃;同样用户修正后的反馈结果如果正确则将被存入训练样本数据库,反之则舍弃。
数据库接口,实现训练样本数据、词典数据的存取、更新等数据库操作的统一接口及访问权限控制。
产品评论信息训练样本数据库,用于存储产品评论信息爬取模块传递的格式化训练样本数据。
词典数据库,用于存储情感词词典、搭配组合词典等词典数据。
综上,本发明的反垃圾邮件网关由用户接口、产品评论信息爬取模块、产品评论信息训练样本数据库、词典数据库、文本预处理模块、词典加载模块、特征抽取模块、情感分析模型训练模块、情感分析模块、管理员接口、***管理模块以及数据库接口等部分组成。上述模块一起完成细粒度的情感分析、用户信息反馈信息收集、训练文本数据自动收集和词典数据库数据实时更新这四个功能。在细粒度的情感分析功能中,本发明情感分析***通过使用训练模块训练好的Two-Level CRF模型,在情感分析模块中对用户输入的文本信息中的评价对象、评价词以及用户对每个评价对象的情感倾向性进行识别和判断,将判断结果通过用户接口提供给用户;在用户反馈信息收集功能中,用户将反馈信息传递给***管理模块,在***管理模块中管理员对反馈信息进行人工审核后通过数据库接口存入训练样本数据库成为新的学习样本;在训练文本数据自动收集功能中,本发明情感分析***通过信息爬取模块对网络上的带星级标注等类似标注的产品评论信息进行收集,格式化处理,通过数据库接口存入训练样本数据库中;在词典数据库数据实时更新功能中,管理员在信息管理模块对情感分析模块输出的词典数据库中未收录的情感词以及搭配组合进行人工审核后,通过数据库接口存入词典数据库。
本发明采用有监督的算法对文本情感进行细粒度的分析。而有监督的算法需要大量的标注数据作为训练样本,人工标注需要耗费大量人力以及时间并带来标注过程中的主观因素影响,这也是阻碍有监督算法在现实中应用的主要原因。本***通过自动收集并抽取带有星级标注的评论信息作为训练语料,减少了人工的干预和成本,并能定时有效对训练数据进行更新。
本发明引入反馈机制对错误分析信息进行学习。现有方法对于误分结果一般不作处理,但这些反馈信息包含了大量有用信息,如何能够充分利用这些信息成了***实现自我学习的关键。反馈机制的引入使得模型能够对错误分析的结果进行再次学习,使得***越用越准。
图2为本发明提出的细粒度情感分析方法的流程图。
参照图2,该方法包括一下步骤:1.产品评论信息爬取模块响应信息爬取请求,定期从网络上获取产品评论信息并进行信息抽取,以及获取用户反馈信息,通过与训练样本数据建立连接将这些信息存储到训练样本样本数据库;2.响应模型训练请求,与训练样本数据建立连接,获取训练数据,对训练数据进行分句、分词以及词性标注等预处理;3.对预处理后的数据,通过词典加载模块以及特征抽取模块进行特征抽取,转换为向量化数据;4.利用特征抽取后的特征数据对本发明提出的情感分析模型——Two-Level CRF Model进行训练;5.获取用户输入待分析的产品评论信息,并进行与2-3步相同的预处理以及特征抽取工作;6.加载训练好的情感分析模型对特征数据进行情感分析;7.与用户接口建立连接,将情感分析结果输出给用户。
综上所述,该方法主要包括了训练样本数据收集步骤、情感分析模型训练步骤和产品评论信息情感分析步骤。
图3为训练样本数据收集步骤的实现原理图。参照图3,该步骤实现从网络以及用户反馈这两个来源获取产品评论信息训练样本,并将这些样本数据分别通过产品评论信息爬取模块和***管理模块处理后进入产品评论信息样本数据库。在有监督的分类算法中,训练数据对模型的最终效果有着巨大的影响,而传统对训练数据进行人工标注的方法需要大量人力以及时间,在现实应用中的可行性不高。因此在这一步骤中,一方面***产品评论信息爬取模块对网络上的带星级标注或已有好差评标注的评论信息进行爬取和抽取;另一方面在***管理模块中管理员对用户的反馈信息进行正确性审核,将合理的反馈信息作为训练样本数据进行存储。通过这两方面的工作,实现对训练数据全面有效的自动收集。
图4为情感分析模型训练步骤的实现原理图。参照图4,在该步骤中,***首先从训练样本数据库中提取最近一段时间内的训练样本数据,然后***的预处理模块、词典加载模块以及特征抽取模块对这些训练样本数据进行一系列处理得到向量化的特征数据,并输出到模型训练模块进行情感分析模型的训练。
本发明在对大量产品评论信息进行分析后,根据其组成结构等特点首次通过构造一种具有Two-Level结构的DCRF模型对评论信息进行细粒度的实体级别情感分析。该模型是本发明细粒度情感分析方法的关键所在,因此,下面将详细介绍Two-Level CRF Model的结构、原理及优点。
细粒度的实体级别情感分析工作目的在于分析文本信息中针对具体对象的情感倾向性。因此就必然涉及实体的识别和情感倾向性分析两部分工作。以往的实体级别情感分析工作通常将上述两部分工作看作是独立的,即先对句中的实体进行识别之后,再对具体实体的情感进行分析,忽略了两者间的联系。Two-Level CRF不仅能够句中词间结构进行建模,而且将两部分工作联系起来,同时进行,通过两者间信息的交互提高最终的联合精度。
Two-Level CRF是一种特殊的CRF模型。CRF是一种无向图模型,它在给定的特征集合基础上,对序列标记的条件概率分布进行建模。以最基本的Linear-CRF为例,给定观察序列的条件下,标记序列的条件概率可以形式化描述为以下形式:
P ( Y | X ) = 1 Z ( X ) Π i = 1 I ψ i ( y i , y i - 1 , X )
其中,ψi是无向图模型概念中的势函数,
Figure BSA00000853283600082
是长度为I的所有可能标记序列下的正则化因子。势函数ψi可以分解为以下形式,其中fk为定义的特征函数。
ψ i ( y i , y i - 1 , X ) = exp { Σ k λ k * f k ( y i , y i - 1 , X , i ) }
其对应的图模型结构如图5所示,这里以命名实体识别任务为例,输入预处理后的文本信息,建立其对应的Linear-CRF模型。与传统的分类方法如朴素贝叶斯、逻辑回归模型等不同,Linear-CRF将分类问题看作是序列标记问题即不但能够利用传统分类模型采用的特征,还通过做适当的马尔科夫假设,来引入不同类别间的位置特征信息,例如在本例中,命名实体通常在情感词附近出现。而这些不同类别间的联系信息是传统分类模型难以表现的。同时Linear-CRF直接对标记序列的条件概率进行建模,区别于有向图模型如HMM(隐马模型),它不需要对特征间做独立性假设就能够引入丰富的特征;另一方面,它也可看作是全局正则化的MEMM(最大熵马尔科夫模型),并避免了MEMM中的标记偏移问题。因此,Linear-CRF在解决序列标记问题如命名实体的识别时,不管是相较传统分类模型还是有向图模型,都能够取得更好的效果。
Two-Level CRF可以看作是两个Linear-CRF的结合。如图6中Two-LevelCRF的图模型所示,它的结构包含了两条标记的线性链以及观察序列,同时在相同时间点的不同层次的标记节点相互连接。在图6示例中,给定一段预处理后的产品评论实例,我们以词为节点,展开成相应的Two-Level CRF。第一层标记序列对句中的产品实体以及情感词进行识别,即对应有三种标记T、S和O,分别代表产品实体名、情感词以及其他词。在第二层标记序列中对实体的情感倾向以及情感词的情感倾向性进行分析,即对应有三种标记P、N和O,分别代表正面情感、负面情感以及没有情感。可以看出,Two-Level CRF不但具有Linear-CRF的特点,还将不同的标记工作融合在一起,引入不同标记工作的联系信息,这也是目前已有方法中难以做到的。
Two-Level CRF的形式化描述如下:
P ( y | x ) = 1 Z ( x ) ( Π t = 1 T - 1 Π l = 1 L Ψ l ( y l , t , y l , t + 1 , x , t ) ) ( Π t = 1 T Π l = 1 L - 1 φ l ( y l , t , y l + 1 , t , x , t ) )
其中,Ψ1表示在同一标记序列上的势函数,φ1表示两条标记序列间的势函数。T表示同一标记序列上的结点个数,L表示标记序列的个数,在本发明的模型中L=2。同样势函数可分别表示为以下两种形式,其中fk(yl,t,yl,t+1,x,t)和fk(yl,t,yl+1,t,x,t)分别为定义在同一标记序列和不同标记序列间的特征函数:
Ψl(yl,t,yl,t+1,x,t)=exp{Σkλk*fk(yl,t,yl,t+1,x,t)}
φl(yl,t,yl+1,t,x,t)=exp{Σkλk*fk(yl,t,yl+1,t,x,t)}
对比Linear-CRF和Two-Level CRF的形式化描述可以看出,两者问的区别在于Two-Level CRF中势函数φl(yl,t,yl+1,t,x,t)的引入。势函数φl(yl,t,yl+1,t,x,t)是对实体识别和情感倾向性分析两个任务间联系的形式化描述。与Linear-CRF在同一层不同位置上的标记做马尔科夫假设类似,Two-Level CRF在Linear-CRF的基础上,进一步对不同层中相同时间节点位置的标记做马尔科夫假设,引入了不同标记序列上的不同标记间的联系信息,再根据最大熵准则,将这一联系信息形式化描述为势函数φl(yl,t,yl+1,t,x,t),其为定义在不同层而相同时间节点上特征函数的加权。这也就是Two-Level CRF的关键所在,通过引入势函数φl(yl,t,yl+1,t,x,t),建立起了不同标记序列间的信息交互,将以往研究中认为相互独立、没有信息交互的两条标记序列有效的联系在一起。因此,Two-Level CRF不但具有上述Linear-CRF的优点,还在其基础上进一步引入了更加丰富、被以往研究所忽视或难以利用的不同标记序列间的特征,在序列标记问题尤其是需要进行两次序列标记的问题,例如本发明解决的细粒度化的情感分析问题中,最终能够取得比Linear-CRF更好的效果。
在模型训练模块中,我们使用L-BFGS算法对展开的Two-Level CRF模型进行训练,学习模型中的参数λk
图7为产品评论信息情感分析步骤的实现原理图。参照图7,在该步骤中,用户接口传递用户输入的产品评论信息,经过预处理模块、词典加载模块以及特征抽取模块处理,输出向量化的特征数据到情感分析模块,情感分析模块中调用训练好的情感分析模型对数据中的实体以及情感进行分析,并将结果通过用户接口提供给用户。在该模块中,我们使用TRP算法对标记序列中的标记进行推导。在情感词识别过程中识别的新的情感词将在***管理模块管理员审核后通过数据库接口,存入词典数据库中,保证了词典资源的实时自动更新。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对产品评论信息的细粒度化情感分析***,其包括: 
用户接口,用于***与用户的交互,用户可以通过该模块提交产品评论信息集合; 
产品评论信息训练样本数据库,用于存储各种已标注的产品评论信息训练样本,并定期进行更新; 
情感词典等相关词典加载模块,用于在特征抽取或预处理过程中加载相应的词典资源; 
文本预处理模块,用于对用户输入的文本信息以及训练样本数据进行分句、分词、词性标注以及句法分析等预处理工作; 
特征抽取模块,用于对预处理后的文本信息进行特征抽取,将文本信息向量化; 
情感分析模型训练模块,用于根据数据库中已有的训练语料训练情感分析模型; 
情感倾向性判断模块,将向量化的文本信息输入已训练好的情感分析模型中进行情感倾向性判断; 
反馈模块,用于将情感分析结果反馈给用户,同时用户能够对判断结果进行修正,并将修正后的结果存入训练样本数据库。 
2.如权利要求1所述的针对产品评论信息的细粒度化情感分析***,其特征在于在一个阶段同时实现实体的识别和情感倾向性分析,并建立实体与细粒度化情感倾向之间的关系。 
3.如权利要求1所述的针对产品评论信息的细粒度化情感分析***,其特征在于,通过构造一种具有Two-Level结构的DCRF模型对评论信息进行细粒度的实体级别情感分析。 
4.如权利要求3所述的Two-Level CRF,其特征在于它的结构包含了两条标记的线性链以及观察序列,同时在相同时间点的不同层次的标记节点相互连接。其中第一层标记序列对句中的产品实体以及情感词进行识别,即对应有三种标记T、S和O,分别代表产品实体名、情感词以及其他词。在第二层标记序列中对实体的情感倾向以及情感词的情感倾向性进行分析,即对应有三种标记P、N和O,分别代表正面情感、负面情感以及没有情感。 
5.如权利要求3所述的Two-Level CRF,其特征在于其形式化描述如下: 
Figure FSA00000853283500021
其中,Ψl表示在同一标记序列上的势函数,φl表示两条标记序列间的势函数。,其中fk(yl,t,yl,t+1,x,t)和fk(yl,t,yl+1,t,x,t)分别为定义在同一标记序列和不同标记序列间的特征函数: 
Ψl(yl,t,yl,t+1,x,t)=exp{Σkλk*fk(yl,t,yl,t+1,x,t)} 
φl(yl,t,yl+1,t,x,t)=exp{Σkλk*fk(yl,t,yl+1,t,x,t)} 
6.一种针对产品评论信息的细粒度化情感分析方法,该方法包括步骤: 
1)爬取对网络上带星级标注的产品评论信息,减少人工标注; 
2)采用样本数据,以词为最小分析粒度,训练了一种具有Two-Level结构的DCRF模型,同时进行实体识别以及情感倾向性判断两个任务 
3)产品评论经过进行分句、分词、词性标注以及句法分析,采用训练好的Two-Level结构的DCRF模型实现实体信息识别及感情倾向判断 
4)引入反馈机制,模型能够对判断错误的样本数据进行学习。 
7.如权利要求6所述的方法,其特征在于以词的最小分析粒度训练Two-Level结构的DCRF模型,训练过程中包含同时进行实体识别以及情感倾向性判断两个任务。 
8.如权利要求7所述的方法,其特征在于,针对进行分句、分词、词性标注以及句法分析后的数据,使用训练好的Two-Level结构的DCRF模型实现实体信息识别及感情倾向判断。 
CN201310036034.1A 2013-04-12 2013-04-12 针对产品评论信息的细粒度情感分析***及方法 Active CN103207855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310036034.1A CN103207855B (zh) 2013-04-12 2013-04-12 针对产品评论信息的细粒度情感分析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310036034.1A CN103207855B (zh) 2013-04-12 2013-04-12 针对产品评论信息的细粒度情感分析***及方法

Publications (2)

Publication Number Publication Date
CN103207855A true CN103207855A (zh) 2013-07-17
CN103207855B CN103207855B (zh) 2019-04-26

Family

ID=48755080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310036034.1A Active CN103207855B (zh) 2013-04-12 2013-04-12 针对产品评论信息的细粒度情感分析***及方法

Country Status (1)

Country Link
CN (1) CN103207855B (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559174A (zh) * 2013-09-30 2014-02-05 东软集团股份有限公司 语义情感分类特征值提取方法及***
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104484437A (zh) * 2014-12-24 2015-04-01 福建师范大学 一种网络短评情感挖掘方法
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN105005560A (zh) * 2015-08-26 2015-10-28 苏州大学张家港工业技术研究院 一种基于最大熵模型的评价类型情绪分类方法及***
CN105787461A (zh) * 2016-03-15 2016-07-20 浙江大学 基于文本分类和条件随机场的中药文献不良反应实体识别方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN105930503A (zh) * 2016-05-09 2016-09-07 清华大学 基于组合特征向量和深度学习的情感分类方法及装置
TWI553573B (zh) * 2014-05-15 2016-10-11 財團法人工業技術研究院 面向口碑分析與檢視系統、裝置及方法
CN106021391A (zh) * 2016-05-11 2016-10-12 广东工业大学 基于Storm的产品评论信息实时采集方法
CN106062809A (zh) * 2014-03-10 2016-10-26 Kddi株式会社 用于基于评论文本对投稿者的心理状态转变进行分析的装置、程序和方法
CN106127507A (zh) * 2016-06-13 2016-11-16 四川长虹电器股份有限公司 一种基于用户评价信息的商品舆情分析方法及***
CN106649270A (zh) * 2016-12-19 2017-05-10 四川长虹电器股份有限公司 舆情监测分析方法
CN106874363A (zh) * 2016-12-30 2017-06-20 北京光年无限科技有限公司 智能机器人的多模态输出方法及装置
CN107038609A (zh) * 2017-04-24 2017-08-11 广州华企联信息科技有限公司 一种基于深度学习的商品推荐方法及***
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107102980A (zh) * 2016-02-19 2017-08-29 北京国双科技有限公司 情感信息的提取方法及装置
CN107451116A (zh) * 2017-07-14 2017-12-08 中国地质大学(武汉) 一种移动应用内生大数据统计分析方法
CN107562816A (zh) * 2017-08-16 2018-01-09 深圳狗尾草智能科技有限公司 用户意图自动识别方法及装置
CN107895027A (zh) * 2017-11-17 2018-04-10 合肥工业大学 个性情感知识图谱建立方法及装置
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警***
CN108073703A (zh) * 2017-12-14 2018-05-25 郑州云海信息技术有限公司 一种评论信息获取方法、装置、设备及存储介质
CN108549692A (zh) * 2018-04-13 2018-09-18 重庆邮电大学 Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法
CN108763210A (zh) * 2018-05-22 2018-11-06 华中科技大学 一种基于自动化数据收集的情感分析与预测***
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及***
CN109460940A (zh) * 2018-11-26 2019-03-12 北京香侬慧语科技有限责任公司 一种基于情感分析的预警方法及装置
CN109857837A (zh) * 2019-01-16 2019-06-07 苏宁易购集团股份有限公司 一种可自定义的词典加载方法及装置
CN110069625A (zh) * 2017-09-22 2019-07-30 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器
CN110134765A (zh) * 2019-05-05 2019-08-16 杭州师范大学 一种基于情感分析的餐厅用户评论分析***及方法
CN110309959A (zh) * 2019-06-19 2019-10-08 广州市高速公路有限公司营运分公司 一种突发事件处理方法、***和存储介质
CN110413773A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质
CN110717325A (zh) * 2019-09-04 2020-01-21 北京三快在线科技有限公司 文本的情感分析方法、装置、电子设备及存储介质
CN110766435A (zh) * 2018-12-19 2020-02-07 北京嘀嘀无限科技发展有限公司 向量训练方法、装置、电子设备以及计算机可读存储介质
CN110990565A (zh) * 2019-11-20 2020-04-10 广州商品清算中心股份有限公司 一种用于舆情分析的可扩展文本分析***及方法
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理***及方法
CN111143559A (zh) * 2019-12-24 2020-05-12 北京明略软件***有限公司 基于三元组的词云展示方法及装置
CN111241842A (zh) * 2018-11-27 2020-06-05 阿里巴巴集团控股有限公司 文本的分析方法、装置和***
CN111339253A (zh) * 2020-02-25 2020-06-26 中国建设银行股份有限公司 一种抽取物品信息的方法和装置
US10824812B2 (en) 2016-06-07 2020-11-03 International Business Machines Corporation Method and apparatus for informative training repository building in sentiment analysis model learning and customization
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112364605A (zh) * 2020-11-27 2021-02-12 智业软件股份有限公司 一种基于双数组Trie的文本标注方法、终端设备及存储介质
CN112667886A (zh) * 2020-12-02 2021-04-16 浙江学海教育科技有限公司 不当评论检测方法、装置、设备及介质
CN113343714A (zh) * 2021-07-02 2021-09-03 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN113627969A (zh) * 2021-06-21 2021-11-09 杭州盟码科技有限公司 一种基于电商平台用户评论的产品问题分析方法和***
CN114510555A (zh) * 2022-02-24 2022-05-17 平安普惠企业管理有限公司 业务策略的制定方法、装置及相关设备
WO2022267454A1 (zh) * 2021-06-24 2022-12-29 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792841B2 (en) * 2006-05-30 2010-09-07 Microsoft Corporation Extraction and summarization of sentiment information
CN101876985A (zh) * 2009-11-26 2010-11-03 西北工业大学 基于混合模型的web文本情感主题识别方法
CN101882136A (zh) * 2009-05-08 2010-11-10 中国科学院计算技术研究所 文本情感倾向性分析方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792841B2 (en) * 2006-05-30 2010-09-07 Microsoft Corporation Extraction and summarization of sentiment information
CN101882136A (zh) * 2009-05-08 2010-11-10 中国科学院计算技术研究所 文本情感倾向性分析方法
CN101876985A (zh) * 2009-11-26 2010-11-03 西北工业大学 基于混合模型的web文本情感主题识别方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHARLES SUTTON等: "Dynamic Conditional Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data", 《PROCEEDING ICML’04 PROCEEDINGS OF THE TWENTY-FIRST INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
刘宁: "客户评价挖掘算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
史鹏治: "基于CRFs的产品评论情感分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
来亮等: "文本情感分析综述", 《计算机光盘软件与应用》 *

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104268197B (zh) * 2013-09-22 2017-11-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103559174A (zh) * 2013-09-30 2014-02-05 东软集团股份有限公司 语义情感分类特征值提取方法及***
CN103559174B (zh) * 2013-09-30 2016-03-09 东软集团股份有限公司 语义情感分类特征值提取方法及***
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN104765733B (zh) * 2014-01-02 2018-06-15 华为技术有限公司 一种社交网络事件分析的方法和装置
CN106062809A (zh) * 2014-03-10 2016-10-26 Kddi株式会社 用于基于评论文本对投稿者的心理状态转变进行分析的装置、程序和方法
TWI553573B (zh) * 2014-05-15 2016-10-11 財團法人工業技術研究院 面向口碑分析與檢視系統、裝置及方法
CN104484437B (zh) * 2014-12-24 2018-07-20 福建师范大学 一种网络短评情感挖掘方法
CN104484437A (zh) * 2014-12-24 2015-04-01 福建师范大学 一种网络短评情感挖掘方法
CN105005560A (zh) * 2015-08-26 2015-10-28 苏州大学张家港工业技术研究院 一种基于最大熵模型的评价类型情绪分类方法及***
CN107102980A (zh) * 2016-02-19 2017-08-29 北京国双科技有限公司 情感信息的提取方法及装置
CN105787461A (zh) * 2016-03-15 2016-07-20 浙江大学 基于文本分类和条件随机场的中药文献不良反应实体识别方法
CN105787461B (zh) * 2016-03-15 2019-07-23 浙江大学 基于文本分类和条件随机场的文献不良反应实体识别方法
CN105930503A (zh) * 2016-05-09 2016-09-07 清华大学 基于组合特征向量和深度学习的情感分类方法及装置
CN106021391A (zh) * 2016-05-11 2016-10-12 广东工业大学 基于Storm的产品评论信息实时采集方法
CN106021391B (zh) * 2016-05-11 2019-06-21 广东工业大学 基于Storm的产品评论信息实时采集方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
US10824812B2 (en) 2016-06-07 2020-11-03 International Business Machines Corporation Method and apparatus for informative training repository building in sentiment analysis model learning and customization
CN106127507A (zh) * 2016-06-13 2016-11-16 四川长虹电器股份有限公司 一种基于用户评价信息的商品舆情分析方法及***
CN106649270A (zh) * 2016-12-19 2017-05-10 四川长虹电器股份有限公司 舆情监测分析方法
CN106874363A (zh) * 2016-12-30 2017-06-20 北京光年无限科技有限公司 智能机器人的多模态输出方法及装置
CN107918633A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警***
CN107918633B (zh) * 2017-03-23 2021-07-02 广州思涵信息科技有限公司 基于语义分析技术的敏感舆情内容识别方法和预警***
CN107038609A (zh) * 2017-04-24 2017-08-11 广州华企联信息科技有限公司 一种基于深度学习的商品推荐方法及***
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107451116A (zh) * 2017-07-14 2017-12-08 中国地质大学(武汉) 一种移动应用内生大数据统计分析方法
CN107451116B (zh) * 2017-07-14 2020-05-22 中国地质大学(武汉) 一种移动应用内生大数据统计分析方法
CN107562816A (zh) * 2017-08-16 2018-01-09 深圳狗尾草智能科技有限公司 用户意图自动识别方法及装置
CN110069625B (zh) * 2017-09-22 2022-09-23 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器
CN110069625A (zh) * 2017-09-22 2019-07-30 腾讯科技(深圳)有限公司 一种内容分类方法、装置及服务器
CN107895027A (zh) * 2017-11-17 2018-04-10 合肥工业大学 个性情感知识图谱建立方法及装置
CN108073703A (zh) * 2017-12-14 2018-05-25 郑州云海信息技术有限公司 一种评论信息获取方法、装置、设备及存储介质
CN108549692A (zh) * 2018-04-13 2018-09-18 重庆邮电大学 Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法
CN108549692B (zh) * 2018-04-13 2021-05-11 重庆邮电大学 Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法
CN108763210A (zh) * 2018-05-22 2018-11-06 华中科技大学 一种基于自动化数据收集的情感分析与预测***
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及***
CN109460940A (zh) * 2018-11-26 2019-03-12 北京香侬慧语科技有限责任公司 一种基于情感分析的预警方法及装置
CN111241842B (zh) * 2018-11-27 2023-05-30 阿里巴巴集团控股有限公司 文本的分析方法、装置和***
CN111241842A (zh) * 2018-11-27 2020-06-05 阿里巴巴集团控股有限公司 文本的分析方法、装置和***
CN110766435A (zh) * 2018-12-19 2020-02-07 北京嘀嘀无限科技发展有限公司 向量训练方法、装置、电子设备以及计算机可读存储介质
CN109857837A (zh) * 2019-01-16 2019-06-07 苏宁易购集团股份有限公司 一种可自定义的词典加载方法及装置
CN110134765A (zh) * 2019-05-05 2019-08-16 杭州师范大学 一种基于情感分析的餐厅用户评论分析***及方法
CN110309959A (zh) * 2019-06-19 2019-10-08 广州市高速公路有限公司营运分公司 一种突发事件处理方法、***和存储介质
CN110413773B (zh) * 2019-06-20 2023-09-22 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质
CN110413773A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质
CN110717325A (zh) * 2019-09-04 2020-01-21 北京三快在线科技有限公司 文本的情感分析方法、装置、电子设备及存储介质
CN110990565B (zh) * 2019-11-20 2023-12-08 广州商品清算中心股份有限公司 一种用于舆情分析的可扩展文本分析***及方法
CN110990565A (zh) * 2019-11-20 2020-04-10 广州商品清算中心股份有限公司 一种用于舆情分析的可扩展文本分析***及方法
CN111143559A (zh) * 2019-12-24 2020-05-12 北京明略软件***有限公司 基于三元组的词云展示方法及装置
CN111091000A (zh) * 2019-12-24 2020-05-01 深圳视界信息技术有限公司 一种抽取用户细粒度典型意见数据处理***及方法
CN111339253A (zh) * 2020-02-25 2020-06-26 中国建设银行股份有限公司 一种抽取物品信息的方法和装置
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112069311B (zh) * 2020-08-04 2024-06-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112364605A (zh) * 2020-11-27 2021-02-12 智业软件股份有限公司 一种基于双数组Trie的文本标注方法、终端设备及存储介质
CN112667886A (zh) * 2020-12-02 2021-04-16 浙江学海教育科技有限公司 不当评论检测方法、装置、设备及介质
CN113627969A (zh) * 2021-06-21 2021-11-09 杭州盟码科技有限公司 一种基于电商平台用户评论的产品问题分析方法和***
WO2022267454A1 (zh) * 2021-06-24 2022-12-29 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质
CN113343714B (zh) * 2021-07-02 2022-06-07 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN113343714A (zh) * 2021-07-02 2021-09-03 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN114510555A (zh) * 2022-02-24 2022-05-17 平安普惠企业管理有限公司 业务策略的制定方法、装置及相关设备

Also Published As

Publication number Publication date
CN103207855B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN103207855A (zh) 针对产品评论信息的细粒度情感分析***及方法
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐***及其方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN112417880B (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN109446331B (zh) 一种文本情绪分类模型建立方法及文本情绪分类方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN109684440A (zh) 基于层级标注的地址相似度度量方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索***
CN109992782A (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108182295A (zh) 一种企业知识图谱属性抽取方法及***
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN103176963B (zh) 基于crf++汉语句义结构模型自动标注方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN102314417A (zh) 基于统计模型的Web命名实体识别方法
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN104484380A (zh) 个性化搜索方法及装置
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN111177322A (zh) 一种领域知识图谱的本体模型构建方法
CN112199512B (zh) 面向科技服务的事理图谱构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant