CN101667194A - 基于用户评论文本特征的自动摘要方法及其自动摘要*** - Google Patents

基于用户评论文本特征的自动摘要方法及其自动摘要*** Download PDF

Info

Publication number
CN101667194A
CN101667194A CN200910093409A CN200910093409A CN101667194A CN 101667194 A CN101667194 A CN 101667194A CN 200910093409 A CN200910093409 A CN 200910093409A CN 200910093409 A CN200910093409 A CN 200910093409A CN 101667194 A CN101667194 A CN 101667194A
Authority
CN
China
Prior art keywords
comment
feature
sentence
user
user comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910093409A
Other languages
English (en)
Inventor
张铭
章彦星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN200910093409A priority Critical patent/CN101667194A/zh
Publication of CN101667194A publication Critical patent/CN101667194A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于用户评论文本特征的自动摘要方法及其自动摘要***,该方法包括以下步骤:爬取并解析用户评论网页,并对用户评论进行一系列预处理;从用户评论中识别出被用户评价的特征;将用户评论句按其评价的特征进行分类,并根据评论句分类的结果过滤特征;以及计算评论句的得分,抽取若干文摘句生成摘要。本发明能够从大量用户评论中准确地识别用户关注的特征,根据评论的特征进行评论句分类,然后使用基于句子抽取的文本摘要方法自动生成简洁、全面的摘要,从而帮助用户显著提高获取知识的效率和质量;本发明应用于电子商务领域能够缩短用户挑选商品的时间,提高购物效率,改善购物体验。

Description

基于用户评论文本特征的自动摘要方法及其自动摘要***
技术领域
本发明涉及一种针对用户评论的文本特征进行文本自动摘要的自动摘要方法及其自动摘要***,属于知识挖掘技术领域。
背景技术
基于文本特征的自动摘要技术是使用计算机技术自动地为电子文档生成“一段较原文短小且涵盖了原文中重要信息的文本”。随着互联网的深入发展,信息***式增长使得文本自动摘要技术的应用越来越广泛。根据处理对象的不同,文本摘要可分为单文档自动摘要和多文档自动摘要两类。
单文档自动摘要技术是为单一文档自动生成摘要的技术,主要采用基于句子抽取的方法,即首先依据词频、句子的位置、句法结构、文档结构等因素计算句子的得分,然后选取得分最高的若干句子作为文摘句,将所有文摘句按它们在原文中的顺序组织成文摘。此外,单文档自动摘要还可以采用基于自然语言理解的文摘生成方法,利用语言学知识分析文本的深层语言结构,并且利用领域知识对语义进行判断、推理,得到文档的语义表示,然后根据文档的语义表示生成摘要。相较而言,句子抽取的方法较简单,适用范围广;而基于自然语言理解的文摘生成方法十分复杂,且依赖于领域知识库,具有严格领域受限的特性。因此,目前主流的单文档自动摘要仍然采取基于句子抽取的方法。
多文档自动摘要是为同一主题下的多个文档自动生成摘要,需要考虑不同文档内容上的冗余与冲突。多文档自动摘要主要有三类方法:(1)使用信息抽取技术抽取各个文档中的重要信息,人工定制或半自动地生成摘要的模板,将抽取的信息填入模板生成摘要;(2)首先使用单文档文摘技术为各个文档生成摘要,然后过滤其中冗余和冲突的内容,将剩余内容组织生成摘要;(3)首先对组成文档的所有句子进行分类或聚类,然后从各个集合中选取表现主题的句子组织成文摘。采用第三种方法的一个典型工具是MEAD,具体参见Radev D R,Jing H,Stys M,et al.Centroid-based summarization of multiple documents.Information Processing and Management,2004,40:919-938。MEAD是一个基于文档聚类和文档集合特征的多文档自动摘要***,MEAD先对多文档中的句子进行聚类,使用统计方法选取各个句子集合中词频最高的词和短语组成伪句子作为集合的“质心”,然后计算集合中其他句子与质心的相似度作为句子的得分,最后选取各个集合中得分最高的句子作为文摘句,将文摘句组织起来生成文档摘要。
随着Web2.0的发展,互联网逐渐成为一个人们可以自由发表言论的平台,网络上开始出现大量的包含丰富的主观见解的文本,如用户评论等。目前,文本自动摘要的研究对象主要是科技文献和新闻等具有严谨的文档结构、语言风格相对统一、陈述客观事实的文本;而用户评论往往是针对事物特定方面表达主观见解的文本,其具有结构灵活松散、语言风格多样化特点。考虑到用户评论的以上特点,本发明采用了基于特征的分类方法,即首先分析大量评论,从中识别出用户评论的所有特征,然后根据句子评价的特征对单个评论句进行分类。目前情感分析领域提出了一些从用户评论中识别特征的方法,如频繁项集挖掘方法,基于概率语言模型的方法,模式发现与模式匹配的方法,以及基于启发式规则的无监督学习方法等。
这些主观性本文数量巨大且分布比较分散,所以要获得其中包含的丰富的知识往往要花费大量的时间和精力。本发明主要采用第三类方法为用户评论生成摘要,提出一种特征识别与过滤算法,通过对比实验说明特征识别的查准率和F1值都有较大的提高。
发明内容
为了克服现有技术结构的不足,本发明提供一种基于用户评论文本特征的自动摘要方法及其自动摘要***,其能够自动为大量的用户评论生成简洁、全面的摘要,以帮助人们更快更好地从用户评论中获取知识。本发明特征识别的查准率和F1值都有较显著的提高。本发明解决其技术问题所采用的技术方案是:
一种基于用户评论文本特征的自动摘要方法,其包括以下步骤:
步骤1,用户评论预处理:爬取并解析用户评论网页,得到用户评论,然后对所述用户评论进行预处理,得到预处理后的用户评论;
步骤2,特征识别:通过分析所述预处理后的用户评论,从中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
步骤3,评论句分类:将所述预处理后的用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;
步骤4,特征过滤:根据所述评论句类对候选特征进行过滤,从而得到最终特征及其所对应的候选评论句类;
步骤5,摘要生成:计算所述候选评论句类中每个句子的得分,抽取若干文摘句生成摘要。
上述步骤1中进一步包括,所述爬取并解析用户评论网页是指,针对选取的特定的事物爬取该事物的所有用户评论网页,得到爬取的用户评论,然后解析所述爬取的用户评论,获得用户评论文本。
上述步骤1中,对所述用户评论进行预处理是指,标注用户评论中的所所有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到预处理后的用户评论文本。
上述步骤2中,所述被用户评价的特征是指是用户在评价某件事物时着眼的某个侧面、某个细节、某个属性或者某个组成部分。
上述步骤2中,所述使用统计方法识别出候选特征是指:提取所述被用户评价的特征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任意两个名词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词作为候选特征。
上述步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评论句中出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无意义和冗余的候选特征。
上述步骤5中进一步包括:采用统计方法计算出表现各个评论句类主题的关键词,然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇评论中出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的若干原评论句组织生成摘要。
一种基于用户评论文本特征的自动摘要方法,进一步包括所述采用统计方法计算出表现各个评论句类主题的关键词是指,在对评论句分类的基础上,使用统计的方法找出每个类的关键词,构造表示该评论句类主题的伪句子一质心,计算基于评论句与质心的相似度;所述评论句内容与主题的契合度是指评论句与质心的相似度。
一种基于用户评论文本特征的自动摘要***,其包括:
用户评论预处理模块:其用于爬取并解析用户评论,然后对所述用户评论进行预处理;
特征识别模块:其通过分析所述预处理后的用户评论,从用户评论中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征。
评论句分类模块:其将用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;
特征过滤模块:其根据评论句分类的结果对候选特征进行进一步过滤,从而得到感兴趣的候选特征作为最终特征,以及得到所对应的候选评论句类;
摘要生成模块:其用来计算所述候选评论句类的得分,抽取若干文摘句生成摘要。
其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别出的候选特征,将经过所述用户评论模块预处理后的用户评论文本和特征识别模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述候选特征进行过滤得到最终特征及其对应的候选评论句类;摘要生成模块以所述候选评论句类和所述最终特征作为输入进行统计分析并生成摘要。
本发明的有益效果:
本发明提出了一种基于用户评论文本的自动摘要方法,第一次将文本自动摘要技术应用于包含丰富主观信息的用户评论,并且针对用户评论的特点提出了基于特征的分类方法。
本发明方法能够生成简洁、全面的用户评论摘要,大大缩短用户阅读评论获取有用信息的时间,提高知识利用率;基于特征的本方法是切合用户评论自身特点的,本发明提出的特征识别与特征过滤算法的查准率可达81%以上,查全率可达52%,查准率和F1值较选取的对比算法都有较大的提高。在网络时代信息***式增长的背景下,根据本发明的用户评论自动摘要方法具有重大的意义,可以广泛应用于电子商务等诸多领域,能够显著提高从海量信息中获取知识的质量和效率。
附图说明
图1为根据本发明的基于用户评论文本特征的自动摘要方法的总流程图;
图2为根据本发明方法的评论句分类的流程图;
图3为根据本发明方法的摘要生成的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述:
实施例1:
以下结合一个在电子商务中为用户评论生成摘要的例子,详细描述本发明的具体实施方式。
电子商务是互联网上重要的Web应用,电子商务网站往往允许用户对商品发表评论,这些包含着用户对商品购买和使用的主观性体验的评论,常常可以作为其他用户挑选商家和商品的参考,也可以作为商家改进服务的依据。大型网站上的热门商品往往包含成百上千条用户评论,阅读十分耗时。本发明可以为大量用户评论自动生成简洁、全面的摘要,大大提高知识获取的效率。
如图1所示,基于特征的用户评论自动摘要方法主要包括以下几个步骤:
步骤1用户评论预处理:爬取并解析用户评论,然后对所述用户评论进行预处理。
为电子商务中商品的用户评论生成摘要,首先需要从电子商务网站上爬取针对该商品的所有用户评论网页。在本实施例中,从www.amazon.com上爬取针对商品Apple iPod touch的所有用户评论网页,解析网页得到939条用户评论。
在开始自动摘要之前,需要对用户评论进行一系列预处理。使用StanfordPart-of-Speech Tagger对用户评论进行词性标注,Stanford Part-of-SpeechTagger是一个使用最大熵模型的词性标注器,准确率可达96.86%。此外,删除用户评论中的删除停用词,使用Porter Stemmer为剩余的词语抽取词干。处理后的评论句采用向量空间模型表示和存储。
步骤2特征识别:通过分析大量用户评论,从用户评论中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征。
如前所述,事物的特征是用户在评价某件事物时着眼的某个侧面、某个细节或者某个属性、某个组成部分。在电子商务领域中,用户着眼的往往是商品本身的属性或组成部分,或者购物过程中的某个侧面或细节,这些被统称为特征。这些特征往往是名词或者两个名词组成的词组;因为不同用户采用相同的词语表示特征,而往往用不同的词语表达他们的购物和用户体验,所以表示特征的词语出现的频率较其他词语更高。基于此,本发明采用一种基于频繁项集挖掘的统计方法进行特征识别,能够自适应地识别各种商品的特征。
频繁项集挖掘的问题描述是:D=<S1,S2,...,SN>是一个含N个项集的集合,其中i=1,2,...,N是一个Ni项集,tj,j=1,2,...,ni是一个项。给定一个参数最小支持度minsupport,频繁项集挖掘是为了找出所有满足以下条件的项集S:D中至少存在N*minsupport个项集Sk,使得
Figure A20091009340900112
Apriori算法是频繁项集挖掘的经典算法之一。它采用宽度优先搜索策略,利用Apriori性质,即满足最小支持度要求的m项集一定是所有满足要求的n项集的并集的子集(m>n),有效地缩小了搜索空间。
与Apriori算法不同,本文的特征算法仅识别单字和双字特征,即1-项集和2-项集,尤其特别为两者指定了不同的最小支持度minsupport1和minsupport2。之所以如此,是因为组成双字特征两个词语共现的频率要远低于单字特征出现的频率。若两者采用同样的最小支持度,则参数太大会导致无法有效识别双字特征,参数太小会导致识别大量错误的单字特征。该算法步骤如下:
1)抽取用户评论中所有名词生成事务文件,文件每行为一个评论句中出现的名词;
2)遍历事务文件,统计每个名词的支持度;事务文件的总行数,即评论句总数为N;
3)选取支持度不小于minsupport1的名词为单字特征;
4)以所有支持度不小于minsupport2的名词作为双字特征候选集;
5)遍历事务文件,统计任意两个名词所组成的词组的支持度,选取支持度不小于minsupport2的词组作为双字特征。
如算法步骤4)所示,选取支持度不小于minsupport2的名词而不是所有名词作为双字特征候选集,是利用Apriori性质以缩小搜索空间。算法中的两个参数minsupport1和minsupport2通过一些列实验学习得到,其中单字特征支持度minsupport1为0.012,双字特征支持度minsupport2为0.005。
步骤3评论句分类:将用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类。
识别出商品的所有被评价的特征后,依次分析每一个评论句评价的特征,将评论句分到该特征对应的评论句类中。于是得到一系列评论句类,其中每一个类对应一个特征,包含评价该特征的所有评论句。
步骤4特征过滤:根据评论句分类的结果对候选特征进行过滤,从而得到感兴趣的候选特征及其所对应的候选评论句。
完成评论句分类后,需要根据分类的结果,考虑组成双字特征的两个词语在评论句中出现的位置以及出现的次数,过滤无意义的双字特征;然后根据候选单字特征在概念上与双字特征的包含关系过滤冗余的单字特征。
对于双字特征过滤,观察到组成双字特征的两个词语在评论句中的出现往往距离较近,而且保持一致的相对顺序。为此定义了有效的双字特征的概念。
定义1一个有效的双字特征f=<w1,w2>应满足以下条件:
(1)f=<w1,w2>在评论句s中共现,w1和w2保持w1在前w2在后的相对顺序,且两者出现位置的距离小于给定阈值windowsize;
(2)更新双字特征的支持度为满足条件(1)的评论句的数目,双字特征的支持度必须大于给定阈值minsupp。
若双字特征f=<w1,w2>的支持度小于给定阈值,则该双字特征是无意义的。
对于单字特征过滤,定义了单字特征的纯支持度(pure support)的概念。
定义2已知所有双字特征f1,f2,...,
Figure A20091009340900121
一个单字特征w的纯支持度,是指w出现且f1,f2,...,
Figure A20091009340900122
不出现的评论句的总数。
有效的单字特征是指纯支持度不小于给定阈值minpsupp的单字特征,纯支持度小于minpsupp的单字特征是冗余的。
例如,battery life和life为算法1识别出的特征,battery life的支持度为20,life的支持度为30,则life的纯支持度为30-20=10。若给定minpsupp=20,则life是冗余的单字特征。
评论句分类与特征过滤算法的具体描述如下:
输入:经过预处理的用户评论,以及算法1识别出的候选特征
输出:经过过滤的特征,以及各个特征对应的评论句类
过程:Classifier(windowsize,minsupp,minpsupp)
Figure A20091009340900131
2while读入一个评论句si
3for si中的每一个词语wj
4if wj是算法1识别出的一个单字特征then
5offj=wj在si中出现的位置
6nouns=nouns∪(wj,offj)
7将评论句si分到单字特征wj对应的评论句类cj
8for nouns中的每一对名词(wj,offj),(wk,offk)
9if<wj,wk>是双字特征&&offk-offj<windowsize then
10将si分到双字特征<wj,wk>对应的评论句类cjk
11else if<wk,wj>是双字特征&&offj-offk<windowsize then
12将si分到双字特征<wk,wj>对应的评论句类ckj
13for每一个双字特征<wj,wk>
14根据定义1更新<wj,wk>的支持度suppjk
15if suppjk<minsupp then
16删除双字特征<wj,wk>
17for在双字特征中出现的每一个名词wj
18根据定义1计算wj的纯支持度psuppj
19if psuppj<minpsupp then
20删除早字特征wj
算法2第1-12行成评论句分类,如图2所示,给定一个评论句,算法先判断其中出现的每一个名词是否是单字特征,然后判断每两个单字特征组成的名词对是否是双字特征,然后将该评论句分到相应的单字特征或双字特征对应的评论句类。具体评论句分类过程如下:
(1)读入一个评论句s,记录其中出现的名词w1,w2,...,wt,判断wi(i=1,…t)是单字特征?如果不是,继续处理s中下一个名词wi+1直到处理完s中出现的所有名词;(2)如果wi是单字特征,则将s分到wi对应的类ci,将wi加入nouns;对nouns中的每一对名词<wj,wk>,判断<wj,wk>是双字特征?如果是,那么将s分到<wj,wk>对应的类cjk;否则,继续回到(1)继续处理s中下一个名词。
算法2第13-16行根据定义1进行双字特征过滤,第17-20行根据定义2完成单字特征过滤。三个参数windowsize,minsupp和minpsupp分别表示组成双字特征的两个名词在评论句中出现位置间的最大距离,双字特征的最小支持度,和单字特征的最小纯支持度。经过系列实验学习,windowsize取值为2,minsupp和minpsupp的取值分别与minsupport2和minsupport1相同,为0.005和0.012。
步骤5摘要生成:计算所述候选评论句的得分,抽取若干文摘句生成摘要。
在评论句分类的基础上,本发明使用句子抽取的方法生成摘要。图3为摘要生成的流程图。如图3所示,对于每一个评论句类,先计算组成评论句词语的权重,抽取若干权重最高的关键词组成表示该评论句类主题的质心向量;然后基于评论句与质心的相似度、评论句长度以及句子在整篇评论中的位置计算评论句的得分,按照压缩率抽取得分最高的若干评论句作为该分类的文摘句;最后按照一定顺序排列各个评论句类的文摘句生成摘要。
d=<s1,s2,...,sN>为某种产品某个特征的评论句分类,N是d中评论句的数目。
Figure A20091009340900151
i=1,2,...,N是评论句si的向量模型表示,n是整个评论句分类中出现的词语的总数,wij中i是评论句的标识符,而j是词语的全局标识符。
Figure A20091009340900152
i=1,2,...,N,j=1,2,...,n是词语wj的权值。特别地,当wj没有在si中出现时
Figure A20091009340900153
评论句分类d的质心是一个能反映该分类的主题的伪句子,同样采用向量模型表示,
Figure A20091009340900154
其中
Figure A20091009340900155
为关键词wk的权重,计算方法为: v w k = v w k * &Sigma; j = 1 n v w j * 2 , j=1,2,...,n  ,而 v w k * = tf w k * idf w k , tf w k = &Sigma; i = 1 N tf w k , s i ,
Figure A20091009340900159
对于每个评论句,计算以下三种得分:
(1)基于质心的得分如下:
scor e c ( s i ) = &Sigma; k = 1 n ( v w ik * w k ) , 0 &le; score c ( s i ) &le; 1
即表示评论句的向量与质心向量的余弦相似度。因为质心是表示文档集合主题的伪句子,与质心越相似的评论句越能反映文档集合的主题,故而得分越高。
(2)基于评论句长度的得分如下:
Figure A200910093409001511
长度越短的句子得分越高,可以使相同长度的摘要包含更多的句子,从而包含更加丰富的信息。
(3)基于段落首句的得分如下:
Figure A20091009340900161
根据Baxendale的研究,句子在文档中的位置对句子重要性的影响重大,段落首句是该段落中心句的概率为85%。因此,段落首句得分为1。
对于一个评论句si,其初始得分为基于质心和基于长度的得分的线性和,即
score0(si)=α*scorec(si)+β*scorel(si)+γ*scoref(si)
其中α为基于质心得分的权值,β是基于评论句长度的得分的权值,γ是基于段落首句的得分的权值,0<α,β,γ<1且α+β+γ=1。通过一系列实验考量生成摘要的质量和实际的应用需求,选取α=0.5,β=0.3,γ=0.2。
得到评论句的初始得分后,依次从各分类中抽取得分最高的句子加入摘要;若摘要长度未达到压缩率的限制,则在每次迭代后重新计算各分类中剩余评论句的得分,然后抽取得分最高的句子加入摘要,直到摘要长度达到限制时迭代结束。第(k+1)次迭代时,评论句si的得分计算方法为:
score k + 1 ( s i ) = score k ( s i ) - 1 N score k ( s k * )
其中sk *是第k次迭代后选取的得分最高的评论句。每次迭代后重新计算句子得分的目的是为了为与已选取的句子内容不相似的句子赋予更高的得分,以降低所生成的摘要的冗余度。
最终生成摘要时需要考虑从各个评论句类中选取的文摘句之间的相对顺序。这里先将特征按支持度的降序排列,依次各个特征对应的评论句类中选取一个文摘句加入摘要。
性能评测
基于特征的用户评论自动摘要方法首先需要分析用户评论识别出被评价的特征,然后将所有评论句按照所评价的特征进行分类,使用句子抽取的方法从各个评论句类中抽取文摘生成摘要。因此,特征识别的质量对于生成摘要的质量至关重要。
评测特征识别的质量的指标主要有以下三个:
查全率(Recall)
查准率(Precision)
Figure A20091009340900172
F1值(F1-measure)
Figure A20091009340900173
在用户评论摘要的应用中,有些特征往往只被很少的用户评价,而在摘要篇幅受限的情况下应该优先考虑被用户普遍关注的特征,所以特征识别的查准率比查全率更重要。
实验选定的对比算法是Hu&Liu在情感分析***FBS研究中采用的Apriori算法(Hu Minqing,Liu Bing.Mining and Summarizing Customer Reviews.SIGKDD,2004,168-177)。实验数据是从电子商务网站amazon、cnet、和epinions上收集的5种商品的英文用户评论,包括2款移动电话、1款笔记本电脑、1款MP3播放器和1款数码相机,每种商品有数百条用户评论。
首先选取一个标注者阅读所有用户评论,人工标注出其中的特征,表1第2列为各种商品人工标注的特征数。然后比较算法识别的特征与人工标注特征,第3列和第7列分别为算法识别出的特征数;统计算法识别正确的特征数,计算查准率、查全率和F1值。实验结果表明,本发明采用的特征识别与过滤算法的查全率为51.9%,查准率为81.0%,而F1值为62.7%,相较于对比算法查准率提高了24%,F1值提高了6%。
表1特征识别的质量评测
Figure A20091009340900181
在准确的特征识别的前提下,给定压缩率(实验中取1%),基于特征的用户评论自动摘要方法能够生成覆盖所有被识别出的特征(查全率为51.9%)的摘要,而且能够大大缩短阅读时间(1%),从而显著提高用户从海量用户评论中获取有用信息的效率,这在信息***式增长的网络时代具有重大的实践意义和应用前景。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,本发明方法同样适用于电子产品、电子书籍、手机和提高用户关联度的扩大销售领域。此外,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于用户评论文本特征的自动摘要方法,其包括以下步骤:
步骤1,用户评论预处理:爬取并解析用户评论网页,得到用户评论,然后对所述用户评论进行预处理,得到预处理后的用户评论;
步骤2,特征识别:通过分析所述预处理后的用户评论,从中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
步骤3,评论句分类:将所述预处理后的用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;
步骤4,特征过滤:根据所述评论句类对所述候选特征进行过滤,从而得到最终特征及其所对应的候选评论句类;
步骤5,摘要生成:计算所述候选评论句类中每个句子的得分,抽取若干文摘句生成摘要。
2.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征是:步骤1中,所述爬取并解析用户评论网页是指,针对选取的特定的事物爬取该事物的所有用户评论网页,得到爬取的用户评论,然后解析所述爬取的用户评论,获得用户评论文本。
3.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征是:步骤1中,对所述用户评论进行预处理是指,标注所述用户评论中的所有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到所述预处理后的用户评论。
4.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征是,步骤2中所述被用户评价的特征是指是用户在评价某件事物时着眼的某个侧面、某个细节、某个属性或者某个组成部分。
5.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征是,步骤2中所述使用统计方法识别出候选特征是指:提取所述被用户评价的特征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任意两个名词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词作为候选特征。
6.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征是:步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评论句中出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无意义和冗余的候选特征。
7.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征是:步骤5中所述计算所述候选评论句的得分是指根据所述候选评论句的长度、位置和内容计算所述候选评论句的得分。
8.根据权利要求1或7所述的基于用户评论文本特征的自动摘要方法,其特征是:步骤5进一步包括:采用统计方法计算出表现各个评论句类主题的关键词,然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇评论中出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的若干原评论句组织生成摘要。
9.根据权利要求8所述的基于用户评论文本特征的自动摘要方法,其特征是:所述采用统计方法计算出表现各个评论句类主题的关键词是指,在对评论句分类的基础上,使用统计的方法找出每个类的关键词,构造作为表示该评论句类主题的伪句子的质心,计算基于评论句与质心的相似度;所述评论句内容与主题的契合度是指评论句与质心的相似度。
10.一种基于用户评论文本特征的自动摘要***,其包括:
用户评论预处理模块:其用于爬取并解析用户评论网页,得到用户评论,然后对所述用户评论进行预处理,得到预处理后的用户评论;
特征识别模块:其通过分析所述预处理后的用户评论,从中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
评论句分类模块:其将所述预处理后的用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;
特征过滤模块:其根据所述评论句分类对所述候选特征进行过滤,从而得到最终特征及其所对应的候选评论句类;
摘要生成模块:计算所述候选评论句类中每个句子的得分,抽取若干文摘句生成摘要,
其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别出的候选特征;将经过所述用户评论模块预处理后的用户评论文本和特征识别模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述候选特征进行过滤得到最终特征及其对应的候选评论句类;摘要生成模块以所述候选评论句类和所述最终特征作为输入进行统计分析并生成摘要。
CN200910093409A 2009-09-29 2009-09-29 基于用户评论文本特征的自动摘要方法及其自动摘要*** Pending CN101667194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910093409A CN101667194A (zh) 2009-09-29 2009-09-29 基于用户评论文本特征的自动摘要方法及其自动摘要***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910093409A CN101667194A (zh) 2009-09-29 2009-09-29 基于用户评论文本特征的自动摘要方法及其自动摘要***

Publications (1)

Publication Number Publication Date
CN101667194A true CN101667194A (zh) 2010-03-10

Family

ID=41803810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910093409A Pending CN101667194A (zh) 2009-09-29 2009-09-29 基于用户评论文本特征的自动摘要方法及其自动摘要***

Country Status (1)

Country Link
CN (1) CN101667194A (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214201A (zh) * 2010-04-08 2011-10-12 微软公司 从产品或服务评论中得出陈述
CN102236722A (zh) * 2011-08-17 2011-11-09 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与***
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及***
CN103164473A (zh) * 2011-12-08 2013-06-19 易搜比控股公司 文件群集的自动摘要判断方法
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN103389971A (zh) * 2013-07-04 2013-11-13 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN103778235A (zh) * 2014-01-26 2014-05-07 北京京东尚科信息技术有限公司 一种处理商品评价信息的方法和装置
CN103870973A (zh) * 2012-12-13 2014-06-18 阿里巴巴集团控股有限公司 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN103970786A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 基于lbs的信息获取方法及设备
CN103970783A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 基于lbs的信息获取方法及设备
CN104182780A (zh) * 2014-08-21 2014-12-03 五八同城信息技术有限公司 一种自动生成就餐点评的方法及终端设备
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN105760471A (zh) * 2016-02-06 2016-07-13 北京工业大学 基于组合凸线性感知器的两类文本分类方法
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN106294425A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及***
CN106663087A (zh) * 2014-10-01 2017-05-10 株式会社日立制作所 文章生成***
CN106933864A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 一种搜索引擎***及其搜索方法
WO2017147785A1 (en) * 2016-03-01 2017-09-08 Microsoft Technology Licensing, Llc Automated commentary for online content
CN107302474A (zh) * 2017-07-04 2017-10-27 四川无声信息技术有限公司 网络数据应用的特征提取方法及装置
CN107749032A (zh) * 2017-09-06 2018-03-02 广东中标数据科技股份有限公司 一种基于内容分析的议题管理平台、方法及装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108280688A (zh) * 2018-01-29 2018-07-13 京东方科技集团股份有限公司 目标物的评论信息分析方法、装置及***
CN108550380A (zh) * 2018-04-12 2018-09-18 北京深度智耀科技有限公司 一种基于公共网络的药品安全信息监测方法和装置
CN108681977A (zh) * 2018-03-27 2018-10-19 成都律云科技有限公司 一种律师信息处理方法和***
CN109035074A (zh) * 2018-06-29 2018-12-18 贵安新区搜床科技有限公司 一种物业状态管理方法、终端设备及计算机可读存储介质
CN109284504A (zh) * 2018-10-22 2019-01-29 平安科技(深圳)有限公司 利用深度学习模型的证券研报分析方法及装置
CN109388804A (zh) * 2018-10-22 2019-02-26 平安科技(深圳)有限公司 利用深度学习模型的证券研报核心观点提取方法及装置
CN109684473A (zh) * 2018-12-28 2019-04-26 丹翰智能科技(上海)有限公司 一种自动简报生成方法及***
CN109683946A (zh) * 2018-12-13 2019-04-26 南开大学 一种基于代码克隆技术的用户评论推荐方法
CN110019814A (zh) * 2018-07-09 2019-07-16 暨南大学 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN110019726A (zh) * 2017-12-22 2019-07-16 百度在线网络技术(北京)有限公司 图书书评的生成方法及装置、计算机设备及可读介质
CN110399547A (zh) * 2018-04-17 2019-11-01 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和存储介质
WO2019214236A1 (zh) * 2018-05-11 2019-11-14 北京三快在线科技有限公司 原创内容摘要确定和原创内容推荐
CN110597978A (zh) * 2018-06-12 2019-12-20 北京京东尚科信息技术有限公司 物品摘要生成方法、***、电子设备及可读存储介质
CN110704605A (zh) * 2018-06-25 2020-01-17 北京京东尚科信息技术有限公司 物品摘要自动生成方法、***、设备及可读存储介质
CN111046252A (zh) * 2019-11-20 2020-04-21 北京字节跳动网络技术有限公司 一种信息处理的方法、装置、介质、电子设备和***
CN111199151A (zh) * 2019-12-31 2020-05-26 联想(北京)有限公司 数据处理方法、及数据处理装置
CN112667812A (zh) * 2020-12-30 2021-04-16 云南电网有限责任公司 供电服务客户电量电费诉求识别方法
CN112818660A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于用户评价的产品说明生成方法
CN112883145A (zh) * 2020-12-24 2021-06-01 浙江万里学院 一种面向中文评论的情感多倾向分类方法
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
US11514242B2 (en) 2019-08-10 2022-11-29 Chongqing Sizai Information Technology Co., Ltd. Method for automatically summarizing internet web page and text information
CN115618852A (zh) * 2022-11-22 2023-01-17 山东天成书业有限公司 一种文本数字化自动校对***

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214201A (zh) * 2010-04-08 2011-10-12 微软公司 从产品或服务评论中得出陈述
CN102737017A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN102737017B (zh) * 2011-03-31 2015-03-11 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
CN102236722B (zh) * 2011-08-17 2014-08-27 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与***
CN102236722A (zh) * 2011-08-17 2011-11-09 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与***
CN103164473A (zh) * 2011-12-08 2013-06-19 易搜比控股公司 文件群集的自动摘要判断方法
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
CN103246687A (zh) * 2012-06-13 2013-08-14 苏州大学 基于特征信息的Blog自动摘要方法
CN103246687B (zh) * 2012-06-13 2016-08-17 苏州大学 基于特征信息的Blog自动摘要方法
CN102945268A (zh) * 2012-10-25 2013-02-27 北京腾逸科技发展有限公司 产品特征评论挖掘方法及***
CN103870973A (zh) * 2012-12-13 2014-06-18 阿里巴巴集团控股有限公司 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN103870973B (zh) * 2012-12-13 2017-12-19 阿里巴巴集团控股有限公司 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN103970786A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 基于lbs的信息获取方法及设备
CN103970783A (zh) * 2013-01-31 2014-08-06 百度在线网络技术(北京)有限公司 基于lbs的信息获取方法及设备
CN103389971A (zh) * 2013-07-04 2013-11-13 北京卓易讯畅科技有限公司 一种确定应用对应的评论内容的优质等级的方法与设备
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
CN103778235A (zh) * 2014-01-26 2014-05-07 北京京东尚科信息技术有限公司 一种处理商品评价信息的方法和装置
CN104182780A (zh) * 2014-08-21 2014-12-03 五八同城信息技术有限公司 一种自动生成就餐点评的方法及终端设备
CN104182780B (zh) * 2014-08-21 2018-07-03 五八同城信息技术有限公司 一种自动生成就餐点评的方法及终端设备
CN106663087A (zh) * 2014-10-01 2017-05-10 株式会社日立制作所 文章生成***
CN106663087B (zh) * 2014-10-01 2019-08-16 株式会社日立制作所 文章生成***
CN104462363A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN104462363B (zh) * 2014-12-08 2018-10-23 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN106294425A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及***
CN106294425B (zh) * 2015-05-26 2019-11-19 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及***
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN106933864A (zh) * 2015-12-30 2017-07-07 中国科学院深圳先进技术研究院 一种搜索引擎***及其搜索方法
CN105760471A (zh) * 2016-02-06 2016-07-13 北京工业大学 基于组合凸线性感知器的两类文本分类方法
CN105760471B (zh) * 2016-02-06 2019-04-19 北京工业大学 基于组合凸线性感知器的两类文本分类方法
US11922300B2 (en) 2016-03-01 2024-03-05 Microsoft Technology Licensing, Llc. Automated commentary for online content
WO2017147785A1 (en) * 2016-03-01 2017-09-08 Microsoft Technology Licensing, Llc Automated commentary for online content
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN107302474A (zh) * 2017-07-04 2017-10-27 四川无声信息技术有限公司 网络数据应用的特征提取方法及装置
CN107302474B (zh) * 2017-07-04 2020-02-04 四川无声信息技术有限公司 网络数据应用的特征提取方法及装置
CN107749032A (zh) * 2017-09-06 2018-03-02 广东中标数据科技股份有限公司 一种基于内容分析的议题管理平台、方法及装置
CN110019726A (zh) * 2017-12-22 2019-07-16 百度在线网络技术(北京)有限公司 图书书评的生成方法及装置、计算机设备及可读介质
CN108280688A (zh) * 2018-01-29 2018-07-13 京东方科技集团股份有限公司 目标物的评论信息分析方法、装置及***
US11017175B2 (en) 2018-01-29 2021-05-25 Boe Technology Group Co., Ltd. Method, device and system for analyzing comment data about target
CN108681977A (zh) * 2018-03-27 2018-10-19 成都律云科技有限公司 一种律师信息处理方法和***
CN108681977B (zh) * 2018-03-27 2022-05-31 成都律云科技有限公司 一种律师信息处理方法和***
CN108550380A (zh) * 2018-04-12 2018-09-18 北京深度智耀科技有限公司 一种基于公共网络的药品安全信息监测方法和装置
CN110399547A (zh) * 2018-04-17 2019-11-01 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和存储介质
WO2019214236A1 (zh) * 2018-05-11 2019-11-14 北京三快在线科技有限公司 原创内容摘要确定和原创内容推荐
CN110597978B (zh) * 2018-06-12 2023-12-08 北京京东尚科信息技术有限公司 物品摘要生成方法、***、电子设备及可读存储介质
CN110597978A (zh) * 2018-06-12 2019-12-20 北京京东尚科信息技术有限公司 物品摘要生成方法、***、电子设备及可读存储介质
CN110704605A (zh) * 2018-06-25 2020-01-17 北京京东尚科信息技术有限公司 物品摘要自动生成方法、***、设备及可读存储介质
CN109035074A (zh) * 2018-06-29 2018-12-18 贵安新区搜床科技有限公司 一种物业状态管理方法、终端设备及计算机可读存储介质
CN110019814A (zh) * 2018-07-09 2019-07-16 暨南大学 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN110019814B (zh) * 2018-07-09 2021-07-27 暨南大学 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN109388804A (zh) * 2018-10-22 2019-02-26 平安科技(深圳)有限公司 利用深度学习模型的证券研报核心观点提取方法及装置
CN109284504A (zh) * 2018-10-22 2019-01-29 平安科技(深圳)有限公司 利用深度学习模型的证券研报分析方法及装置
CN109683946B (zh) * 2018-12-13 2021-12-03 南开大学 一种基于代码克隆技术的用户评论推荐方法
CN109683946A (zh) * 2018-12-13 2019-04-26 南开大学 一种基于代码克隆技术的用户评论推荐方法
CN109684473A (zh) * 2018-12-28 2019-04-26 丹翰智能科技(上海)有限公司 一种自动简报生成方法及***
US11514242B2 (en) 2019-08-10 2022-11-29 Chongqing Sizai Information Technology Co., Ltd. Method for automatically summarizing internet web page and text information
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN111046252A (zh) * 2019-11-20 2020-04-21 北京字节跳动网络技术有限公司 一种信息处理的方法、装置、介质、电子设备和***
CN111199151A (zh) * 2019-12-31 2020-05-26 联想(北京)有限公司 数据处理方法、及数据处理装置
CN112883145A (zh) * 2020-12-24 2021-06-01 浙江万里学院 一种面向中文评论的情感多倾向分类方法
CN112667812A (zh) * 2020-12-30 2021-04-16 云南电网有限责任公司 供电服务客户电量电费诉求识别方法
CN112818660A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于用户评价的产品说明生成方法
CN115618852A (zh) * 2022-11-22 2023-01-17 山东天成书业有限公司 一种文本数字化自动校对***

Similar Documents

Publication Publication Date Title
CN101667194A (zh) 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN110008311B (zh) 一种基于语义分析的产品信息安全风险监测方法
Conrad et al. Opinion mining in legal blogs
Annett et al. A comparison of sentiment analysis techniques: Polarizing movie blogs
Tripathi et al. Feature selection and classification approach for sentiment analysis
CN109299865B (zh) 基于语义分析的心理测评***及方法、信息数据处理终端
Bhonde et al. Sentiment analysis based on dictionary approach
EP2410445A1 (en) A method for creating a dynamic relationship
Sharoff In the garden and in the jungle: Comparing genres in the BNC and Internet
Wang et al. Customer-driven product design selection using web based user-generated content
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
Hannan et al. Data Mining and Natural Language Processing Methods for Extracting Opinions from Customer Reviews
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Jayawickrama et al. Seeking sinhala sentiment: Predicting facebook reactions of sinhala posts
Qian et al. Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects
van Dalen et al. Profiling dutch authors on twitter: Discovering political preference and income level
Jardim et al. A Multilingual Lexicon-based Approach for Sentiment Analysis in Social and Cultural Information System Data
Setiawan et al. Implementation of Decision Tree C4. 5 for Big Five Personality Predictions with TF-RF and TF-CHI2 on Social Media Twitter
Ho-Dac et al. Exploring Wikipedia talk pages for conflict detection
Cheng et al. A model for age and gender profiling of social media accounts based on post contents
Sharma et al. A Study on Lexicon Based Techniques of Twitter Sentiment Analysis
Kuzár Clustering on social web
Kalaiarasu et al. Sentiment analysis using improved novel convolutional neural network (SNCNN)
Dziczkowski et al. Social network-an autonomous system designed for radio recommendation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100310