CN102236722B - 一种基于三元组的用户评论摘要的生成方法与*** - Google Patents

一种基于三元组的用户评论摘要的生成方法与*** Download PDF

Info

Publication number
CN102236722B
CN102236722B CN201110236683.7A CN201110236683A CN102236722B CN 102236722 B CN102236722 B CN 102236722B CN 201110236683 A CN201110236683 A CN 201110236683A CN 102236722 B CN102236722 B CN 102236722B
Authority
CN
China
Prior art keywords
feature
tlv triple
decision
comment
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110236683.7A
Other languages
English (en)
Other versions
CN102236722A (zh
Inventor
石忠民
徐亚波
杜伟夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201110236683.7A priority Critical patent/CN102236722B/zh
Publication of CN102236722A publication Critical patent/CN102236722A/zh
Application granted granted Critical
Publication of CN102236722B publication Critical patent/CN102236722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于三元组的用户评论摘要的生成方法与***,该方法包括如下步骤:建立对象的特征词库、映射词表与情感词库,并根据特征词库构建特征树;抓取用户评论网页;接收用户评论;对每一个用户评论逐一进行处理,生成各自基于评论三元组的评论摘要;归纳整合所有用户评论的评论三元组,生成决策三元组;计算特征和情感词极性相同的决策三元组的数量;抽取所有的决策三元组生成决策摘要。利用本方法或***,为每个用户评论生成评论摘要,以便于用户查看参考,并且将所有的评论三元组归纳整合,生成具有指导意义的决策三元组,并抽取全部决策三元组生成能反映总体评价结果、具有决策辅助作用的决策摘要,从而辅助用户快速地做出正确决策。

Description

一种基于三元组的用户评论摘要的生成方法与***
技术领域
本发明涉及计算机信息挖掘技术领域,尤其涉及一种基于三元组的用户评论摘要的生成方法与***,主要用于从对象的大量用户评论中生成一个能客观反映所有用户评论的总体评价结果的决策摘要。
背景技术
目前,随着互联网的普及,用户在消费前都希望通过互联网去了解其他用户对消费对象所发表的评论,以此来确定消费对象是否值得自己去消费,这种对象可以是商家或产品,也可以是服务,比如用户想去某个餐馆或商场消费,只看该餐馆或商场的宣传信息是不够的,因为这些宣传信息很难客观的描述其真实的产品质量和服务水平,用户自然很想知道在这个餐馆或商场消费过的其他用户对其评价如何。然而,当针对对象的用户评论非常多的时候,用户很难从大规模的用户评论中获知这个对象某个自己非常关注的特征的正面评价和负面评价各占多少,也很难得知所有用户评论的总体结果是正面评价居多还是负面评价居多,比如用户想去一个餐馆吃饭,非常关注这个餐馆的食物和环境,但是涉及食物和环境的用户评论在所有用户评论中的分布是无规律的,用户要想查看所有涉及食物和环境的用户评论必须得将全部的用户评论一个一个看完,自己还要对正面评价和负面评价做统计,这显然耗时又耗力,极其不方便,而且花费如此大的代价看完全部的用户评论,获知的也仅仅只是食物和环境这个两个特征的评价结果,要想知道其它特征的评价结果和所有用户评论的总体评价结果,其工作量是难以想象的。并且,一个用户评论的文字篇幅有长有短,其中用户所关注的信息只是对象的特征和描述特征的情感词,其它信息都是无用的,但用户在查看时却不能只查看自己所关注的信息。
综上所述,目前用户在查看对象的用户评论时有如下两个重大问题:
1.用户评论中充斥着大量无用信息,导致查看时浪费时间;
2.不能直接查看特征的正面评价和负面评价各占多少,不能得知所有用户评论的总体评价结果,因此虽然有大规模的用户评论作为参考,却不能直观地辅助用户快速地做出正确决策。
发明内容
针对现有技术的不足,本发明的主要目的旨在于提供一种基于三元组的用户评论摘要的生成方法。
本发明的另一目的是提供一种基于三元组的用户评论摘要的生成***。
为实现上述目的本发明采用如下技术方案:
一种基于三元组的用户评论摘要的生成方法,包括:
步骤1.建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;
步骤2.从互联网定向抓取对象的用户评论网页;
步骤3.接收用户评论网页中对象所有的用户评论;
步骤4.对每一个用户评论逐一进行如下处理,生成各自的评论摘要:
步骤41.根据特征词库和映射词表抽取对象的特征;
步骤42.根据情感词库识别情感词;
步骤43.搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;
步骤44.抽取评论三元组生成该用户评论的评论摘要;
以及,该方法还包括:
步骤5.归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;
步骤6.计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;
步骤7.以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
作为一种优选方案,所述步骤41包括:
步骤411.将用户评论分成句子;
步骤412.遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征。
作为一种优选方案,所述步骤42包括:
步骤421.将用户评论分成句子;
步骤422.遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词;
步骤423.根据情感词库的极性判断抽取出来的情感词的极性。
作为一种优选方案,所述步骤43包括:
步骤431.从训练样本中提取三元组的特征模板;
步骤432.使用SVM分类方法根据特征模板训练一个分类器;
步骤433.利用语法规则对特征和情感词进行组合,生成三元组;
步骤434.利用分类器对特征和情感词进行搭配,生成三元组;
步骤435.利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组。
作为一种优选方案,所述步骤6还包括计算正面决策三元组的数量和负面决策三元组的数量,所述步骤7还包括抽取该正面决策三元组的数量和负面决策三元组的数量作为所述决策摘要的内容。
一种基于三元组的用户评论摘要的生成***,包括:
预处理装置,用于建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;
爬虫装置,用于从互联网定向抓取对象的用户评论网页;
接收装置,用于接收用户评论网页中对象所有的用户评论;
处理装置,用于对每一个用户评论逐一进行处理,生成各自的评论摘要,该处理装置包括:特征抽取装置,用于根据特征词库和映射词表抽取对象的特征;
情感词识别装置,用于根据情感词库识别情感词;
评论三元组生成装置,用于搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;
评论摘要生成装置,用于抽取评论三元组生成该用户评论的评论摘要;
以及,该***还包括:
决策三元组生成装置,用于归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;
计算装置,用于计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;
决策摘要生成装置,用于以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
作为一种优选方案,所述特征抽取装置包括:
将用户评论分成句子的装置;
遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征的装置。
作为一种优选方案,所述情感词识别装置包括:
将用户评论分成句子的装置;
遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词的装置;
根据情感词库的极性判断抽取出来的情感词的极性的装置。
作为一种优选方案,所述评论三元组生成装置包括:
从训练样本中提取三元组的特征模板的装置;
使用SVM分类方法根据特征模板训练一个分类器的装置;
利用语法规则对特征和情感词进行组合,生成三元组的装置;
利用分类器对特征和情感词进行搭配,生成三元组的装置;
利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组的装置。
作为一种优选方案,所述计算装置还用于计算正面决策三元组的数量和负面决策三元组的数量,所述决策摘要生成装置还用于抽取该正面决策三元组的数量和负面决策三元组的数量作为所述决策摘要的内容。
本发明所阐述的一种基于三元组的用户评论摘要的生成方法与***,其有益效果在于:利用本方法或***,将每个用户评论中的特征、情感词抽取出来生成基于对象、特征、情感词的评论三元组,为每个用户评论生成其基于评论三元组的评论摘要,实现了将用户评论中用户所关注的信息单独抽取出来形成简洁直观的摘要信息,以便于用户查看参考,并且,通过将评论三元组进行归纳整合,生成具有指导意义的决策三元组,并以决策三元组和数量组合的表示形式抽取全部决策三元组生成能反映总体评价结果、具有决策辅助作用的决策摘要,在决策摘要中,用户能直接查看自己所关注的特征以及其它特征的正面评价和负面评价各占多少,也能获知所有用户评论的总体评价结果,从而辅助用户快速地做出正确决策。
附图说明
图1是本发明一种基于三元组的用户评论摘要的生成方法的流程示意图。
图2是一个特征树的结构示图。
图3是一个用户评论及其评论摘要的示图。
图4是一个决策摘要示图。
具体实施方式
下面结合附图与具体实施例来对本发明作进一步描述。
请参照图1所示,其显示出了本发明一种基于三元组的用户评论摘要的生成方法的总体流程。在步骤(1)中,建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中:
对象可以是产品、商家或服务,特征词库是从大规模语料中收集到的可以作为对象特征的词的集合。特征词库的建立可以使用基于统计的方法来实现,具体实现过程可为:首先,从大规模语料中收集一个包含了所有名词的种子特征词库;接着,统计种子特征词库中所有名词在大规模语料中出现的频率;然后,将出现频率低于预设阀值的名词作为停用词去掉,生成初始特征词库;最后,对初始特征词库中的词进行过滤,生成最终的特征词库。
映射词表中的映射词与特征词库中的特征映射对应,建立映射词表的目的是为了挖掘出用户评论中可能存在的潜在特征,潜在特征的定义是相对显式特征而言,如果在用户评论中出现了特征词库中的特征则该特征在这个用户评论中是显式特征,而由于汉语的灵活性以及用户的表达问题,用户在发表评论时可能虽然评价了对象的某个特征,但文字里却没有写出这个特征,则该特征在这个用户评论中为潜在特征,比如针对对象为某餐馆的某个用户评论,用户在评论中写了“吃倒是好吃,就是太贵”,这句话里就没有写出特征,但是“吃”这个动词里却隐含了“食物”这个特征,因此在这里“吃”是映射词,“食物”是与该映射词对应的潜在特征。映射词表就是从大规模语料中收集到的包含了潜在特征的映射词的集合,映射词表中的映射词如何选择特征词库中的特征作为潜在特征可以通过计算特征和映射词之间的PMI(Point-wise Mutual Information,逐点互信息)来确定,计算公式为:PMI(f,d)=hits(f,d)/hits(f)hits(d),其中f为特征,d为映射词,PMI值越高表明这个特征作为这个映射词潜在特征的可能性就越大,因此一般是搭配PMI值最高的映射词和特征来建立映射词表和特征词库的对应关系。
情感词库包括正面情感词库和负面情感词库,情感词库是一个从大规模语料中收集到的带有明显情感倾向的情感词的集合,情感词库只收集两种情感极性的情感词,一种是正面的,例如“好”、“满意”就是两个正面的情感词,还有一种是负面的,例如“差劲”就是一个负面的情感词,因为这两种截然相反的情感极性最能为用户提供参考价值,而比较中立的情感词对用户来说意义并不大,情感词库的建立可使用基于统计的方法。
特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征。特征树定义了当前对象的特征和特征之间的关系,这种关系是分层次的树状结构,在特征树中越上层的节点越是泛化的概念,父特征是对其所有子特征的属性的概括,子特征是从不同角度对其父特征的细化,同一父特征的所有子特征之间形成平等关系。为便于说明,以餐饮领域的一个餐馆为例,请参照图2所示,图2是一个以“餐馆”为对象的特征树的简图,图2中处于特征树顶端根节点的是“餐馆”这个对象,第一层叶子节点中的“食物”、“服务”、“性价比”、“环境”是最能概括“餐馆”属性的特征,第二层叶子节点中的“营养”是“食物”的子特征,“氛围”、“餐具”与“装修”是“环境”的子特征,“门面”、“色调”、“风格”又是“装修”的子特征,特征树的构建可使用结合统计机器学习与基于规则的方法对特征词库中的特征进行归类整合,抽象出不同的概念层次,生成所需的特征树。
进行到步骤(2),从互联网定向抓取对象的用户评论网页。这涉及到网络爬虫,为了高效的爬取与主题相关的网络资源,一般可采用的爬取策略和相关算法有:基于文字内容的启发式方法;基于web超链图评价的方法;基于分类器预测的方法;其他主题爬取方法。
进行到步骤(3),接收用户评论网页中对象所有的用户评论。这涉及到网页文本信息抽取技术,可采用基于分装器的网页文本信息抽取、基于统计的网页正文抽取、基于视觉的网页块分析、基于数据挖掘思想的网页正文抽取等技术来实现,还可采用一种分阶段的方案:第一阶段仍然是基于分装器的技术路线,然而与普通基于分装器的信息抽取技术不同的是,对于分装器部分,每条分装器抽取规则都是可配置化的,利用xml解析技术来实现,更特别的是,抽取规则是基于xpath查询的,使得抽取非常方便灵活,而对于具体每个xpath的生成,则是运用autopager浏览器插件的方式,辅助生成,具有一定的半自动化特点;第二阶段运用机器学习的方法,对于待抽取的结构化信息web网页,根据待抽取的结构化信息的特点,运用启发式算法自动识别其对应的xpath,并生成相应的xpath配置文件,实现封装器规则的自动提取。
进行到步骤(4),对每一个用户评论逐一进行处理,抽取用户评论中用户关注的信息:特征、情感词,并将特征和情感词按照一定的规则合理地搭配起来,生成各自的基于对象、特征、情感词的评论三元组,由每个用户评论的评论三元组生成各自的评论摘要,评论三元组反映了这个用户评论的观点,评论摘要则简洁直观地说明这个用户评论所表达的评价结果,在UI界面上,评论摘要可显示在用户评论的右侧,请参照图3所示,其显示出了一个用户评论和其评论摘要,图3中,用户“abc”在2009年5月1日发表了一个评价某餐馆的评论,评论内容是“这里的服务好,并且人气也比较多,环境也不错,而且价格是比较划算的!我一个星期要来两次,大家可以多来这里消费啦!包你乘兴而来,乘兴而回。”,根据这个用户评论生成了其评论摘要,评论摘要的内容是“环境不错人气多服务好价格划算”,其中有四个评论三元组,分别是<餐馆环境不错>、<餐馆人气多>、<餐馆服务好>、<餐馆价格划算>,当然,在UI界面上显示时,由于所有评论三元组和决策三元组的对象都是相同的,因此可以将对象隐藏,使界面更简洁,图3中评论摘要的四个评论三元组就隐藏了其共同的对象“餐馆”,从图3可看出,该用户评论中用户所关注的信息已经被单独抽取出来形成了包含四个评论三元组的评论摘要,非常便于用户获知这个用户评论所做出的评价。该步骤(4)处理每个用户评论的具体过程为:步骤(41),根据特征词库和映射词表抽取对象的特征,特征是对象的属性,能反映对象的基本状况,例如,对于“餐馆”这个对象,其特征就有“食物”、“服务”、“性价比”、“环境”等;步骤(42),根据情感词库识别情感词,情感词是用来表达观点倾向性的词语,带有明显的主观性,用户用其来评价某个特征的好坏,例如,对于餐饮评论来说,“高”、“低”、“满意”、“差劲”等词就是一些常见的情感词;步骤(43),搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;步骤(44),抽取评论三元组生成该用户评论的评论摘要。其中,在进行步骤(41)时,可首先通过标点符号将用户评论分成句子,接着遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,将其作为显式特征抽取出来,如果没有出现在特征词库中但出现在映射词表中,则将与该映射词映射对应的特征作为潜在特征抽取出来,映射词一般是情感词或动词;在进行步骤(42)时,同样可先通过标点符号将用户评论分成句子,接着遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词,然后根据情感词库的极性判断抽取出来的情感词的极性;在进行步骤(43)时,可使用机器学习的方法,并且融合句法特征对特征词和情感词之间的关系进行判断,具体方法为:首先,从训练样本中提取三元组的特征模板;接着,使用SVM分类方法根据特征模板训练一个分类器;然后,利用语法规则对特征和情感词进行组合,生成三元组,利用分类器对特征和情感词进行搭配,生成三元组;最后,利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组。候选三元组集是预先定义好的当前对象所有可能存在的合理三元组集合,没有出现在候选三元组集合中的三元组都属于特征和情感词搭配不合理的三元组,可直接过滤掉,比如特征是“环境”,情感词是“贵”,则明显是个不合理搭配,不可能存在于候选三元组集合中。
进行到步骤(5),归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组。对于一个对象来说,可能有很多用户对它做了评论,而不同评论的观点可能相同,也可能不同,甚至完全相反。相应地,不同的评论三元组可能对同一特征的评价既有正面的,也有负面的,造成的结果是用户看了这些评论三元组信息后不知道已有评论对这些特征的评价究竟是正面居多还是负面居多,再者,用户对某一特征的评价相对分散,比如,对“环境”这一特征来说,用户可能会从“装修”、“卫生”、“氛围”等各个角度进行评论。这些相对分散的特征评价不利于用户快速准确地对某一特征做出直观判断。决策三元组就是为了辅助用户能了解到最能概括对象属性的特征的评价情况,而特征树第一层叶子节点的特征无疑是对象最具代表性的特征,因此选用第一层叶子节点作为决策三元组的特征,其它所有特征都归结到这些特征上去。比如“环境”是一个第一层叶子节点,用来作为决策三元组的特征,评论三元组中所有有关环境的特征,都要归结到“环境”这一特征上去,从而生成决策三元组,例如一个对象是“餐馆”、特征是“氛围”、情感词是“好”的评论三元组<餐馆氛围好>,将其特征“氛围”归结到“环境”后就生成了一个<餐馆环境好>的决策三元组,当然,如果本来就是以特征树第一层叶子节点为特征的评论三元组,则生成了与该评论三元组相同的决策三元组,和前述评论三元组一样,具有相同对象的所有决策三元组在UI界面上也可不显示出对象。
进行到步骤(6),计算特征和情感词极性相同的决策三元组的数量,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组。当然,如果数量等于1,说明没有其它的决策三元组和这个决策三元组具有相同的特征和情感词极性,那么和数字组合的决策三元组就没有其它选择,只能用这个决策三元组和数量组合来表示这个决策三元组。在这个步骤中,还可计算正面决策三元组的数量和负面决策三元组的数量。
进行到步骤(7),以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要,还可抽取正面决策三元组的数量和负面决策三元组的数量作为决策摘要的内容。在决策摘要里,用户能直接查看自己所关注的特征以及其它特征的正面评价和负面评价各占多少,也能获知所有用户评论的总体评价结果,从而辅助用户快速地做出正确决策。如图4所示,其显示出了“A餐馆”的所有用户评论的决策摘要,从图4可看出以“食物”、“环境”、“服务”、“口味”、“性价比”为特征的正面决策三元组和负面决策三元组各有多少,还示出了所有正面决策三元组和负面决策三元组的数量,该决策摘要为用户做出快速决策提供了非常有用的参考信息。
需指出的是,以上多次以餐饮领域举例,只是为了便于理解本发明,并不是限定本发明的应用领域,本发明可广泛应用于任何有关产品、商家、服务的领域。
本发明在抽取特征和情感词时,都需要对用户评论进行分词,分词性能的好坏对三元组的生成有着非常重要的影响。本发明采用隐马尔科夫模型(HMM)进行分词和词性标注,使用基于Delimiter的方法进行分词获取。并且对本发明的分词性能进行了评测,评测沿用自然语言处理中常见的评价方法:
准确率:P=C3/C2;
召回率:R=C3/C1;
F值:F=2*P*R/(P+R);
其中,C1为语料中实际的词的个数;C2为分词器分出来的词的个数;C3为分词器正确分出来的词的个数,评测的语料来自于淘宝网和京东商城中关于化妆品的评论,这些评论语料通过爬虫装置和接收装置获得,然后随机抽出251条评论,经过人工分词和校正,形成评测标准语料。评测结果如下表所示:
准确率 召回率 F值 C1 C2 C3
0.93 0963 0.946 7025 7279 6769
从上表可以看出,本发明分词的F值达到了94.6%,取得了较高的性能,为生成高质量的三元组打下了一个坚实的基础。
本发明在特征抽取方面的性能也很优异,特征抽取的性能指标用覆盖率(coverage)来计算,计算公式为:coverage=Four/Fall,Four是本发明在特征抽取时识别出来的特征总数,而Fall是通过人工标注后的特征总数。我们的实验语料来自于淘宝网和京东商城中关于化妆品的评论中,这些评论信息通过爬虫装置和接收装置获取,然后随机抽出1745条评论作为评测语料。这些语料经过人工标注后的特征总数为398个,本发明抽取出来的特征总数为338个,覆盖率达到了84.9%,显示了较高的特征覆盖率。
评论三元组的生成是本发明的核心和难点,本发明使用机器学习的方法判断特征词和情感词是否能组成合理的搭配。为了评测评论三元组生成的效果,从化妆品领域的评论中随机抽取出133条评论作为测试集。这些测试集经过人工抽取评论三元组和校正后,形成评测标准语料。评测的标准采用P-R-F的方式。其中C1为语料中实际评论三元组的个数;C2为分类器识别出来的评论三元组个数;C3为分类器正确识别出来的三元组的个数。评测结果如下表所示:
准确率 召回率 F值 C1 C2 C3
80.4% 67.5% 73.95% 949 797 641
从上表可以看出,评论三元组识别的准确率达到了80.4%,召回率达到了67.5%,这对于不规整的评论语料来说已经是相当不错的结果。
本发明还提供了一种基于三元组的用户评论摘要的生成***,该***包括:预处理装置,用于建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;爬虫装置,用于从互联网定向抓取对象的用户评论网页;接收装置,用于接收用户评论网页中对象所有的用户评论;处理装置,用于对每一个用户评论逐一进行处理,生成各自的评论摘要,该处理装置包括:特征抽取装置,用于根据特征词库和映射词表抽取对象的特征;情感词识别装置,用于根据情感词库识别情感词;评论三元组生成装置,用于搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;评论摘要生成装置,用于抽取评论三元组生成该用户评论的评论摘要;以及,该***还包括:决策三元组生成装置,用于归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;计算装置,用于计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;决策摘要生成装置,用于以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
所述特征抽取装置包括:将用户评论分成句子的装置;遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征的装置。
所述情感词识别装置包括:将用户评论分成句子的装置;遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词的装置;根据情感词库的极性判断抽取出来的情感词的极性的装置。
所述评论三元组生成装置包括:从训练样本中提取三元组的特征模板的装置;使用SVM分类方法根据特征模板训练一个分类器的装置;利用语法规则对特征和情感词进行组合,生成三元组的装置;利用分类器对特征和情感词进行搭配,生成三元组的装置;利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组的装置。
并且,所述计算装置还用于计算正面决策三元组的数量和负面决策三元组的数量,所述决策摘要生成装置还用于抽取该正面决策三元组的数量和负面决策三元组的数量作为所述决策摘要的内容。
本***所采用的相关方法与上述基于三元组的用户评论摘要的生成方法的实施方式相同,在此不再重复。
本发明的设计重点在于:利用本方法或***,将每个用户评论中的特征、情感词抽取出来生成基于对象、特征、情感词的评论三元组,为每个用户评论生成其基于评论三元组的评论摘要,实现了将用户评论中用户所关注的信息单独抽取出来形成简洁直观的摘要信息,以便于用户查看参考,并且,通过将评论三元组进行归纳整合,生成具有指导意义的决策三元组,并以决策三元组和数量组合的表示形式抽取全部决策三元组生成能反映总体评价结果、具有决策辅助作用的决策摘要,在决策摘要中,用户能直接查看自己所关注的特征以及其它特征的正面评价和负面评价各占多少,也能获知所有用户评论的总体评价结果,从而辅助用户快速地做出正确决策。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种基于三元组的用户评论摘要的生成方法,其特征在于,包括:
步骤1.建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;
步骤2.从互联网定向抓取对象的用户评论网页;
步骤3.接收用户评论网页中对象所有的用户评论;
步骤4.对每一个用户评论逐一进行如下处理,生成各自的评论摘要:
步骤41.根据特征词库和映射词表抽取对象的特征;
步骤42.根据情感词库识别情感词;
步骤43.搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;
步骤44.抽取评论三元组生成该用户评论的评论摘要;
以及,该方法还包括:
步骤5.归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;
步骤6.计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;
步骤7.以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
2.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤41包括:
步骤411.将用户评论分成句子;
步骤412.遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征。
3.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤42包括:
步骤421.将用户评论分成句子;
步骤422.遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词;
步骤423.根据情感词库的极性判断抽取出来的情感词的极性。
4.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤43包括:
步骤431.从训练样本中提取三元组的特征模板;
步骤432.使用SVM分类方法根据特征模板训练一个分类器;
步骤433.利用语法规则对特征和情感词进行组合,生成三元组;
步骤434.利用分类器对特征和情感词进行搭配,生成三元组;
步骤435.利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组。
5.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤6还包括计算正面决策三元组的数量和负面决策三元组的数量,所述步骤7还包括抽取该正面决策三元组的数量和负面决策三元组的数量作为所述决策摘要的内容。
6.一种基于三元组的用户评论摘要的生成***,其特征在于,包括:
预处理装置,用于建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;
爬虫装置,用于从互联网定向抓取对象的用户评论网页;
接收装置,用于接收用户评论网页中对象所有的用户评论;
处理装置,用于对每一个用户评论逐一进行处理,生成各自的评论摘要,该处理装置包括:
特征抽取装置,用于根据特征词库和映射词表抽取对象的特征;
情感词识别装置,用于根据情感词库识别情感词;
评论三元组生成装置,用于搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;
评论摘要生成装置,用于抽取评论三元组生成该用户评论的评论摘要;
以及,该***还包括:
决策三元组生成装置,用于归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;
计算装置,用于计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;
决策摘要生成装置,用于以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
7.根据权利要求6所述的一种基于三元组的用户评论摘要的生成***,其特征在于,所述特征抽取装置包括:
将用户评论分成句子的装置;
遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征的装置。
8.根据权利要求6所述的一种基于三元组的用户评论摘要的生成***,其特征在于,所述情感词识别装置包括:
将用户评论分成句子的装置;
遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词的装置;
根据情感词库的极性判断抽取出来的情感词的极性的装置。
9.根据权利要求6所述的一种基于三元组的用户评论摘要的生成***,其特征在于,所述评论三元组生成装置包括:
从训练样本中提取三元组的特征模板的装置;
使用SVM分类方法根据特征模板训练一个分类器的装置;
利用语法规则对特征和情感词进行组合,生成三元组的装置;
利用分类器对特征和情感词进行搭配,生成三元组的装置;
利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组的装置。
10.根据权利要求6所述的一种基于三元组的用户评论摘要的生成***,其特征在于,所述计算装置还用于计算正面决策三元组的数量和负面决策三元组的数量,所述决策摘要生成装置还用于抽取该正面决策三元组的数量和负面决策三元组的数量作为所述决策摘要的内容。
CN201110236683.7A 2011-08-17 2011-08-17 一种基于三元组的用户评论摘要的生成方法与*** Active CN102236722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110236683.7A CN102236722B (zh) 2011-08-17 2011-08-17 一种基于三元组的用户评论摘要的生成方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110236683.7A CN102236722B (zh) 2011-08-17 2011-08-17 一种基于三元组的用户评论摘要的生成方法与***

Publications (2)

Publication Number Publication Date
CN102236722A CN102236722A (zh) 2011-11-09
CN102236722B true CN102236722B (zh) 2014-08-27

Family

ID=44887368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110236683.7A Active CN102236722B (zh) 2011-08-17 2011-08-17 一种基于三元组的用户评论摘要的生成方法与***

Country Status (1)

Country Link
CN (1) CN102236722B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377262B (zh) * 2012-04-28 2017-09-12 国际商业机器公司 对用户进行分组的方法和装置
CN102890707A (zh) * 2012-08-28 2013-01-23 华南理工大学 一种基于条件随机场的网络短评论情感倾向性挖掘***
CN103678371B (zh) * 2012-09-14 2017-10-10 富士通株式会社 词库更新装置、数据整合装置和方法以及电子设备
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及***
CN103970784A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 检索方法及设备
CN103970783A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 基于lbs的信息获取方法及设备
CN103970786A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 基于lbs的信息获取方法及设备
CN103399916A (zh) * 2013-07-31 2013-11-20 清华大学 基于产品特征的互联网评论观点挖掘方法及***
CN104375739B (zh) * 2013-08-12 2019-07-26 联想(北京)有限公司 信息处理的方法及电子设备
CN104375977B (zh) * 2013-08-14 2018-11-23 腾讯科技(深圳)有限公司 问答社区中答复信息的处理方法及装置
CN104462132A (zh) * 2013-09-23 2015-03-25 华为技术有限公司 评论信息的显示方法及装置
CN105512333A (zh) * 2015-12-28 2016-04-20 上海电机学院 基于情感倾向的产品评论主题搜索方法
CN105761152A (zh) * 2016-02-07 2016-07-13 重庆邮电大学 社交网络中一种基于三元组的参与话题预测方法
CN105760502A (zh) * 2016-02-23 2016-07-13 常州普适信息科技有限公司 一种基于大数据文本挖掘的商品质量情感词典构建***
CN105912644A (zh) * 2016-04-08 2016-08-31 国家计算机网络与信息安全管理中心 一种网络评论产生式摘要方法
CN106055542B (zh) * 2016-08-17 2019-01-22 山东大学 一种基于时间知识抽取的文本摘要自动生成方法及***
CN106469145A (zh) * 2016-09-30 2017-03-01 中科鼎富(北京)科技发展有限公司 文本情感分析方法及装置
CN108133014B (zh) * 2017-12-22 2022-03-22 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN109992661A (zh) * 2019-03-05 2019-07-09 广发证券股份有限公司 一种面向证券行业的智能舆情监控方法及***
CN109948031A (zh) * 2019-03-12 2019-06-28 南京航空航天大学 带有情感倾向的网评语句自动生成***
CN110134765B (zh) * 2019-05-05 2021-06-29 杭州师范大学 一种基于情感分析的餐厅用户评论分析***及方法
CN110349620B (zh) * 2019-06-28 2020-06-19 南方医科大学 一种准确识别分子相互作用及其极性和方向性方法
CN114116989B (zh) * 2022-01-28 2022-04-15 京华信息科技股份有限公司 一种基于ocr识别的格式化文档生成方法及***
CN114724010B (zh) * 2022-05-16 2022-09-02 中译语通科技股份有限公司 一种待训练样本的确定方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和***
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和***
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
产品评论挖掘研究综述;郗亚辉等;《山东大学学报(理学版)》;20110531;第46卷(第5期);16-22 *
郗亚辉等.产品评论挖掘研究综述.《山东大学学报(理学版)》.2011,第46卷(第5期),16-22.

Also Published As

Publication number Publication date
CN102236722A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN102236722B (zh) 一种基于三元组的用户评论摘要的生成方法与***
CN110175325A (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN105956052A (zh) 一种基于垂直领域的知识图谱的构建方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN102663139B (zh) 一种情感词典构建方法及***
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及***
CN110633373A (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN103577989B (zh) 一种基于产品识别的信息分类方法及信息分类***
CN103399916A (zh) 基于产品特征的互联网评论观点挖掘方法及***
CN107977798A (zh) 一种电子商务产品质量的风险评价方法
CN101609459A (zh) 一种情感特征词提取***
CN103870973A (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN101599071A (zh) 对话文本主题的自动提取方法
Claster et al. Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN102945268A (zh) 产品特征评论挖掘方法及***
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN104376010A (zh) 用户推荐方法和装置
CN102096680A (zh) 信息有效性分析的方法和装置
CN106776574A (zh) 用户评论文本挖掘方法及装置
CN107943909A (zh) 基于评论数据的用户需求趋势挖掘方法及装置、存储介质
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant