CN102163189B - 从评论性文本中提取评价性信息的方法和装置 - Google Patents

从评论性文本中提取评价性信息的方法和装置 Download PDF

Info

Publication number
CN102163189B
CN102163189B CN201010120101.4A CN201010120101A CN102163189B CN 102163189 B CN102163189 B CN 102163189B CN 201010120101 A CN201010120101 A CN 201010120101A CN 102163189 B CN102163189 B CN 102163189B
Authority
CN
China
Prior art keywords
evaluated
evaluation
sentence
candidate
evaluation vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010120101.4A
Other languages
English (en)
Other versions
CN102163189A (zh
Inventor
贾文杰
张姝
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201010120101.4A priority Critical patent/CN102163189B/zh
Publication of CN102163189A publication Critical patent/CN102163189A/zh
Application granted granted Critical
Publication of CN102163189B publication Critical patent/CN102163189B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。

Description

从评论性文本中提取评价性信息的方法和装置
技术领域
本发明总体上说涉及信息处理的技术领域,特别是涉及从信息源中提取特定信息的技术,具体而言,涉及从评论性文本中提取与被评价对象有关的评价性信息的方法、装置和程序产品。
背景技术
随着信息技术的不断演进和深化,通过互联网等途径能够从各种信息源获得海量信息。例如,很多用户在获得产品或服务之前,先对已有的与该产品或服务相关的评论信息进行查看。在互联网环境下,目前存在包含用户评论性意见的许多类型的通过自然语言表述内容的网页或文档等(下文可统称为评论性文本)。采用信息提取技术可以从中提取出用户对于产品或者服务的不同属性的评论,最终以更直观方式展现给用户,为客户的选择提供参考。在这些评论性文章中,提取评论性意见主要完成以下两个任务:1.提取与被评价对象相关的属性和评价词等。2.为提取出的属性和评价词匹配找到所对应的被评价对象。对于第一个任务,由于属性与对应的评价词通常在同一个句子中出现,采用就近匹配或根据短语结构进行判断的方法,就可以完成该任务。但是对于第二个任务来说,由于常见的省略主语、使用代词等语言现象,使得找到与被省略的主语所对应的被评价对象并非易事,导致从评论性文章中准确地、高效地提取评论性信息非常困难。
当前已知的信息提取或检索***包括从互联网上收集产品评价的***,提取产品评价词的***,或者专门的指代消解***。关于这方面的研究已发表多篇论文和专利,例如:
中国专利申请(以下称为专利文献1):申请号200580032865.5,发明人:托马斯·赫斯勒;海科·劳赫;延斯·赫瓦尔德,申请人:萨诺克斯·德公开股份有限公司,发明名称为“用于评价对象或从运营商获取信息的方法和***”;
中国专利申请(以下称为专利文献2):申请号200810243606.2,发明人:朱巧明;周国栋;孔芳;李培峰;钱龙华;李军辉;钱培德,申请人:苏州大学,发明名称为“一种中文处理中基于语义角色信息的指代消解方法”。
但是,上述专利文献1提出的方法仅仅是对于句子内的评价信息的一种提取方法,虽然可以检索出与某个特定产品有关的评价性信息,但是不能处理省略主语的评论性文本。上述专利文献2给出了一种通用的指代消解方法,但针对的是对于代词,专有名词,无定名词,有定名词和指示性词的消解。然而在评论性文本中,对于一般作为被评价对象的主语的省略通常是完全省略,没有代词,指示性词等代替词条,所以上述专利文献2的方法并不适用于解决上述提出的第二个任务。
可见,如何从信息源(例如评论性文本)中更为准确、有效地提取出与被评价对象有关的评价性信息仍然是亟待解决的问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这种概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于上述现有技术中存在的问题,根据本发明的实施例提出了一种提取与被评价对象有关的评价性信息的方法,该方法包括步骤:
预处理步骤,用于对所收集的评论性文本进行预处理,以便获得与该评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在所述评论性文本中的位置;
第一提取步骤,用于对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和
第二提取步骤,用于通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为上述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为上述的与被评价对象有关的评价性信息。
根据本发明的另外的实施例提出了一种用于提取与被评价对象有关的评价性信息的装置,该装置包括:
预处理单元,其被配置成对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;
第一提取单元,其被配置成对通过预处理单元预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和
第二提取单元,其被配置成通过扩展至少一个被评价对象的作用域来进行扩展的匹配处理,以便为上述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为上述的与被评价对象有关的评价性信息。
根据本发明的其他实施例又涉及一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行如上所述的根据本发明实施例的提取与被评价对象有关的评价性信息的方法。
根据本发明实施例的方法和装置能够在篇章级别,例如评论性文本中,为每个候选被评价对象划定作用范围(或称为“作用域”),并根据作用范围为提取出的属性词和评价词获取匹配的被评价对象。由此可获得的一个益处是可以更为准确地将被评价对象和与之相关的属性词和评价词等进行匹配。因为缺少被评价对象的评价向量对于使用者是没有意义的,所以根据本发明实施例的方法和装置可获得的又一个益处是能够使提取出的有意义的评价性信息的覆盖率得到提高,显著改善提取效率。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本发明实际制造的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出了根据本发明的实施例的提取与被评价对象有关的评价性信息的方法的流程简图;
图2是示出了图1所示的实施例的提取与被评价对象有关的评价性信息的方法的一个具体示例的流程简图;
图3是示出了根据本发明的实施例的提取与被评价对象有关的评价性信息的装置的简化框图;
图4是示出了根据图3的提取与被评价对象有关的评价性信息的装置中第二提取单元的一种实现形式的简化框图;和
图5示出可用于实施根据本发明实施例的方法和装置的计算机***的示意性框图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1示出了根据本发明的实施例的提取与被评价对象有关的评价性信息的方法100的流程简图。如图所示,该方法100从步骤S110开始。在预处理步骤S120,对所收集的评论性文本进行预处理,以便获得与该评论性文本中包含的至少一个被评价对象相关的评论性成分以及该至少一个被评价对象在该评论性文本中的位置。在第一提取步骤S130,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合。在第二提取步骤S140,通过扩展上述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。将该第二评价向量集合作为与被评价对象有关的评价性信息。
为了更好地理解根据本发明的实施例的方法的实现,下面将结合图2给出如上述图1所示的从评论性文本中提取与被评价对象有关的评价性信息的方法的一个具体示例。图中右侧的虚线框示出了各处理步骤的处理结果。
为描述清楚起见,假设需要从如下的包括用自然语言表述的产品评论评论性文本中提取与被评价对象有关的评价性信息:
“思域车头,车尾短,完全不符合中国人的审美。特别是车尾,又短又厚。因为是样车,至少连电瓶也是进口的,比花冠的加水电瓶好多了。进入车内,最大的亮点也就是前仪表盘。车子发动机噪音比花冠大。不过思域的那个蓝色双层仪表盘,真漂亮。”
上述评论性文本可以从各种信息源获得。例如通过互联网在线地获得,或者从存储有相关评论性文本的数据存储设备中获得。如果用户需要获得特定领域的被评价对象的评价性信息,则可以预先设定与领域有关的关键词汇表等,然后例如通过查询某一评论性文本中是否存在以及存在多少这样的关键词来确定该评论性文本是否为所需的评论性文本。在该示例的上下文中,被评价对象是各种品牌的车辆,但这并不是限制性的,例如,其他各种产品或者服务等也可以作为被评价对象,而不影响根据本发明实施例的评论性信息提取方法的实施。此外,虽然该示例中待处理的评论性文本是用中文的自然语言表示的,但是,根据本发明的实施例的这种方法也可以适用于从具有类似的语言现象(例如省略主语等)的任何其他语言构建的评论性文本中提取评价性信息。
如图2所示,该示例的方法开始于步骤S210。在步骤S220,针对上述的评论性文本进行预处理。主要是分词,词性标注等操作。分词、词性标注等是信息处理领域公知的技术,其具体操作在此不再赘述。作为例子但非限制,例如,关于分词的操作,可参见名称为“The First InternationalChinese Word Segmentation Bakeoff”,作者为Richard Sproat,发表于2nd SIGHAN workshop(2003)的文献中公开的方法;关于词性标注的操作,例如可参见名称为:“Chinese Lexical Analysis UsingHHMM-ACL2003\\HHMM-based Chinese Lexical Analyzer ICTCLAS”,作者为Hua-PingZhang等,发表于2nd SIGHAN workshop affiliated with41th ACL,Sapporo Japan,2003年7月,第184-187页等记载的方法。
通过这种预处理,可以获得与该评论性文本中包含的至少一个被评价对象(即,有关品牌的车辆“思域”,“花冠”)相关的评价性成分以及这些被评价对象在该评论性文本中的位置。下列的表1给出了对该评论性文本经过预处理之后得到的结果:
表1:
<,车头,短,1>
<,车尾,短,1>
<,车尾,短,1>
<,车尾,厚,1>
<,电瓶,好,1>
<,前仪表盘,亮点,1>
<,噪音,大,1>
<,仪表盘,漂亮,1>
可以看出,通过预处理提取出了评论性文本中的评价性成分,在该示例中,这种评价性成分包括属性词和评价词。属性词包括“车头”,“车尾”,“电瓶”,“前仪表盘”,“噪音”,评价词包括“短”,“厚”,“好”,“亮点”,“漂亮”。由属性词及其相关的评价词构成“属性词-评价词对”。在表1中包括八个分别由尖括号标记出的属性词-评价词对。在可替选的实施方式中,评价性成分还可以包括极性标志“1”和“-1”(下面将描述),这种极性标志可以表示评价性成分的评价性质是正面的还是负面的。通常,可规定极性标志“1”表示正面的评价性质,而“-1”表示负面的评价性质。而且,尽管在表1中没有示出,但是评价性成分中还可以包括表示评价词的评价程度的评价值。这种评价值可以通过各种其他公知的处理获得。作为一种示例,例如可利用作者为杨频,李涛,赵奎,名称为《一种网络舆情的定量分析方法》(《计算机应用研究》,2009年第3期)中公开的技术来获得,具体细节在此不再赘述。此外,由于省略现象,评价性成分中也可能仅仅包括评价词而不包括属性词(表1中未示出这种情况)。本示例的评论性文本中包含两个被评价对象,即,有关的车辆品牌“思域”和“花冠”,但是这并不构成对本发明的该实施例的方法的限制,待提取评价性信息的评论性文本还可以只包括一个被评价对象,或者包括两个以上的被评价对象,同样可以应用本发明的实施例的方法。
在上述预处理中,例如可使用机器学习技术、模板匹配技术来识别评论性文本中的被评价对象、属性词和评价词,然后通过最近匹配等技术来产生如上述表1中示出的属性词-评价词对。可通过各种公知的方法来实施这种预处理。作为示例而不是意欲对本发明构成限制,关于前面所提及的技术,例如可参见名称为“基于模式匹配提取技术的网上产品情报获取(Obtaining Product Information through Web Information ExtractionTechnique Based on Pattern Match)”,作者为马静,倪辉峰,发表于《情报理论与实践》(2007年第30卷第02期)的文献,以及名称为“中文实体关系提取中的特征选择研究Chinese Automatic Entity RelationExtraction”,作者为董静,孙乐,冯元勇,黄瑞红等,发表于《中文信息学报》(英文刊名:JOURNAL OF CHINESE INFORMATIONPROCESSING)(2007年第21卷第4期,分类号为TP391)的文献。
返回到图2,在步骤S230,对于在步骤S220经过预处理的评论性文本例如以句子为单位进行第一提取处理。为了使所获得的属性词-评价词对有用,需要对其添加被评价对象。为此,在该第一提取处理中,在每一个句子的范围内依据例如最近匹配等原则来为每一个属性词-评价词对确定相应的被评价对象。于是可以得到如下表2的提取结果:
表2
<思域,车头,短,1>
<思域,车尾,短,1>
<,车尾,短,1>
<,车尾,厚,1>
<花冠,电瓶,好,-1>
<,前仪表盘,亮点,1>
<花冠,噪音,大,-1>
<思域,仪表盘,漂亮,1>
可以根据预先存储的用于提取信息所需的相关资源,如词表,语法规则等来进行这种第一提取处理,这种提取处理例如可通过信息处理领域各种公知的方法来完成。作为一种示例而非限制,例如可通过作者为贾美英,杨炳儒,郑德权等,名称为《基于模式匹配的军事演习情报信息抽取》(现代图书情报技术,2009(9),P70-75)中公开的技术来进行这种处理,具体实现过程在此不再赘述。如上述表2所示,可将添加了被评价对象和属性词-评价词对定义为是一个评价向量,例如,评价向量<思域,车头,短,1>、<思域,车尾,短,1>和<花冠,电瓶,好,-1>。上面已经提到,这些评价向量中的极性标志“1”或“-1”表示的是评价向量中的评价成分的评价性质。另外,上述表2中没有添加被评价对象的属性词-评价词对<,车尾,短,1>、<,车尾,厚,1>、<,前仪表盘,亮点,1>也可以认为是评价向量,只不过这种评价向量的被评价对象为“空”。由此可见,每个评价向量可由被评价对象、评价属性(例如属性词),评价词,评价值(该示例中未示出)等部分组成,表达了与被评价对象相关的明确的评论内容。其中,评价属性(例如属性词),评价词,评价值等部分可以被认为是与被评价对象相关的评价性成分。
对于评价向量<花冠,电瓶,好,-1>,注意到其评价成分的极性标志为“-1”。从上述评论性文本中可看出,该评价向量所对应的句子为“因为是样车,至少连电瓶也是进口的,比花冠的加水电瓶好多了。”注意到这是一个比较句子,出现了表示比较的连接词“比”,而且,被评价对象“花冠”处这种比较关系中的被比较的位置,或者说,被评价对象“花冠”处比较关系中的被动比较地位。在这种情况下,如果依据一般的非比较句子那样利用最近匹配技术直接得到评价向量<花冠,电瓶,好,1>,则最终将得到相反的错误评价结论,即花冠的电瓶是好的。因此,在此将这样得到的评价向量的评价性成分的极性标志取反,即“1”变为“-1”,从而将得到正确的评价结论,即花冠的电瓶是相对不好的。同理,该评论性文本中的句子“车子发动机噪音比花冠大。”也是比较句子,可以进行类似处理,从而得到评价向量<花冠,噪音,大,-1>。
概括而言,例如可以将比较句子表示为“A的**比B好”,其中“**”表示与被评价对象A和B相关的属性词,评价词“好”在此只是一个示例。在该比较句子中,被评价对象A处于主动的比较地位,而被评价对象B处于被动的比较地位,则在进行第一提取处理时,可以得到评价向量<B,**,好,-1>而不是<B,**,好,1>。容易理解,在语法上表示比较句子的连接词还有其他多种,例如“相对于”,“不如”,等等,无需赘述。需要指出的是,如果表示比较句子的连接词包括诸如“不”等否定副词,还可以针对这种情况进行其他的特定处理。例如,如果比较句子为“A的**比B好”,则可以在上述步骤S220的预处理步骤中将否定副词“不”表达的意义体现出来,即,经过预处理得到与该比较句子相关的属性词-评价词对<,**,好,-1>。这样,在通过上述步骤S230中的第一提取处理后,将在比较句子中处于被动的比较地位的被评价对象B的评价成分的评价极性取反,于是得到评价向量<B,**,好,1>,该评价向量正确地反映了对被评价对象B的评价意见。可见,借助于将各种比较句子处理成例如上述的比较句子标准形式“A的**比B好”,就可以通过正确地识别出比较句子及其中处于被动比较地位的被评价对象来准确地提取出评价向量。上述的否定副词“不”只是一种列举而不是意欲进行限制。对于其他否定副词或者程度副词等,也可以类的地处理。例如,可以预先准备比较句子的模板或者比较句子中常见的影响评价成分的极性或性质的否定副词或者程度副词等,以便可以正确地确定评论性文本中的比较句子并相应地进行处理。
容易看到,由于对评论性文本中出现的比较句子进行了区别性的处理而不只是简单地利用最近匹配技术等进行匹配,因此可以获得明显更高的匹配准确性,在处理比较句子较多的评论性文本时尤为如此。
此外,虽然在该示例中是以评论性文本中的一个句子为单位进行第一提取处理,但是,也可以以具有任何合适的尺寸的文本片段为单位进行这种处理。有时从各种信息源获得的评论性文本并不是严格按照语法来写就的。举例而言,有的评论性文本通篇没有标点符号,或者通篇只有结尾处有一个句号。在这种情况下,进行第一提取处理的单位并不是严格语法意义上的以一个句号为结束标志的句子,而是例如可以根据预先经验值设定一个文本长度,依据该预定的文本长度将评论性文本划分成若干个提取单位;或者,可以根据机器学习获得的模板等来确定评论性文本中的句子。因此,在本公开的上下文环境中,术语“句子”并不仅仅指严格语法意义上的以句号结尾的语言单位,而是将可作为上述的第一提取处理以及下面将要详细描述的第二提取处理的处理对象的所有合适尺寸的文本片段都统称为句子。由此,根据本发明实施例的提取评价性信息的方法可具有更大的灵活性和自由度。
根据现有的信息提取方法,如果评论性文本中出现比较句子,则在提取评价向量时一般采取就近原则为属性词和评价词等评价性成分分配被评价对象。如上所述,由于比较句子结构特殊且形式多种多样,这样的简单处理方法往往容易获得表示错误的评价性信息的评价向量。根据本发明该实施例的方法,在确定了比较句子以及其中处于主动地位的比较对象和被动地位的比较对象的基础上进行匹配,可以有效地提高上述的第一信息提取处理的准确性。
此外,从上面的描述可以看到,由于在待处理的评论性文本中存在省略主语等现象,被评价对象和与其相关的属性词或评价词等评价性成分不一定在同一个句子中出现,因而根据现有的处理方式进行就近匹配或在句子一级的处理就不能准确地获得与所省略的被评价对象相关的评价向量。
为此,在图2示出的方法中,在后向扩展提取步骤S240,通过对被评价对象的作用域进行后向扩展来进行提取处理。如前所述,由于评论性文本中存在省略主语的现象,使得通过步骤S230的第一提取处理得到的评价向量集合包括缺少被评价对象的评价向量,即评价向量<,车尾,短,1>、<,车尾,厚,1>和<,前仪表盘,亮点,1>,如上述表2所示。为了描述方便起见,下面将通过上述第一提取步骤S230获得的表格2中的评价向量集合称为第一评价向量集合。此外,可以认为步骤S230进行的是一种初始的匹配处理。
在该后向扩展提取步骤中,对于评论性文本中包括的至少一个被评价对象中特定的被评价对象,将该特定的被评价对象的作用域从其当前所在的句子扩展到其后的不存在被评价对象的至少一个句子。这样,就可以为第一评价向量集合中上述的缺少被评价对象的评价向量获取相应的被评价对象。这种处理所基于的语法学原理是,通常一个句子中省略了主语是因为与在前面的句子中的主语相一致。对于单个句子中出现了单个被评价对象的情况,可以简单地将该句子作为此被评价对象的作用范围,或者称为“作用域”。对于单个句子中出现多个被评价对象的情况,如果该句子是比较句子,则可优先将该比较句子作为处于主动的比较地位的被评价对象的作用域。另外,由于通常比较句子的出现可能改变该比较句子之后的句子中的被评价对象,因此,在进行后向扩展提取步骤时,如果出现比较句子,则中断后向扩展提取处理。而且,对于作用域被进行后向扩展提取处理的被评价对象,其后面的句子中缺少或者说省略了被评价对象。可以看出,在该示例中,需要进行后向扩展提取处理的特定的被评价对象需要满足两个条件:第一是该特定的被评价对象不是比较句子中处于被动的比较地位的被评价对象;第二是该特定的被评价对象所在的句子之后的句子中缺少或者说省略了被评价对象或者说主语。
通过上述的后向扩展提取处理,为上述表2中给出的第一评价向量集合中的缺少被评价对象的评价向量<,车尾,短,1>、<,车尾,厚,1>和<,前仪表盘,亮点,1>确定了相应的被评价对象“思域”,从而扩大了评价性信息提取处理的覆盖率,有利于获得更多有意义的评价性信息,改善了信息提取的效率。下面的表3给出了经过这种后向扩展提取处理所获得的评价向量集合:
表3:
<思域,车头,短,1>
<思域,车尾,短,1>
<思域,车尾,短,1>
<思域,车尾,厚,1>
<花冠,电瓶,好,-1>
<,前仪表盘,亮点,1>
<花冠,噪音,大,-1>
<思域,仪表盘,漂亮,1>
虽然在该示例中仅对符合上述两个条件的一个被评价对象“思域”进行了后向扩展的提取处理,但是,这只是一种示例而不是为了对根据本发明该实施例的方法构成限制。本领域技术人员容易理解,对于评论性文本中出现多个符合上述两个条件的被评价对象的情况,可以对所有这些被评价对象,或者对这些被评价对象中的至少一个来进行上述的后向扩展提取处理。此外,虽然在该示例中在评论性文本的通篇范围内对于被评价对象“思域”的作用域进行了后向扩展,但是在一种可替选的实施方式中,也可以只在评论性文本的限定的范围内进行这种后向扩展,即,将满足条件的被评价对象“思域”的作用域从其当前所在的句子扩展到其后的至少一个句子。容易理解,上述这些可替选的实施方式也都能够从不同程度上实现扩大评价性信息提取处理的覆盖率和改善信息提取的效率的益处。
从上述表3中可以看到,由于评论性文本中比较句子“......,比花冠的加水电瓶好多了”的出现,使得步骤S240中的作用域后向扩展提取处理中断,因此仍然无法确定评价向量<,前仪表盘,亮点,1>中缺少的被评价对象。为此,可以在步骤S250中进行全局扩展提取处理。
在该全局扩展提取处理中,为第一评价向量集合中仍缺少被评价对象的评价向量获取相应的被评价对象。这通过以下方式来进行。首先从评论性文本中的缺少被评价对象的评价向量对应的评价向量<,前仪表盘,亮点,1>所对应句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第一候选被评价对象和第二候选被评价对象。需要注意,这种候选被评价对象不应为比较句子中处于被动的比较地位的被评价对象。在该示例中,第一候选被评价对象和第二候选被评价对象即为在前的一个非比较句子“特别是车尾,又短又厚。”中距离最近的被评价对象“思域”和在后的一个非比较句子“不过思域的那个蓝色双层仪表盘,真漂亮。”中距离最近的被评价对象“思域”。接着,分别计算表示第一候选被评价对象在该评论性文本中出现的统计概率的第一权重值W1和表示第二候选被评价对象在所述评论性文本中出现的统计概率的第二权重值W2。虽然在该示例中为了便于计算和说明所选择得到的第一候选被评价对象和第二候选被评价对象两者相同,但是对于这两者不同的情况,在此描述的全局扩展提取处理仍然也是适用的。由于第一候选被评价对象和第二候选被评价对象相同,因此表示它们在评论性文本中出现的概率的第一权重值W1和第二权重值W2将相同。可以不计算权重值而径直地选择“思域”作为评价向量<,前仪表盘,亮点,1>中缺少的被评价对象。或者,也可以预先确定一个第一阈值,如果所计算的相同权重值W1=W2大于或等于该预定的第一阈值,则将“思域”确定为是评价向量<,前仪表盘,亮点,1>中缺少的被评价对象。对于第一候选被评价对象和第二候选被评价对象不同但是具有相同的权重值的情况,也可以任选其一作为所需要的被评价对象,或者在权重值大于预定的第一阈值的情况下任选其一作为所需要的被评价对象。
在出现具有不同的权重值的候选被评价对象的情况下,可选择权重值较大的候选被评价对象作为评价向量<,前仪表盘,亮点,1>中缺少的被评价对象。
在上述的过程中,为缺少被评价对象的评价向量<,前仪表盘,亮点,1>选取两个距离最近的被评价对象作为候选的被评价对象,其中“距离最近”一般指在与该评价向量<,前仪表盘,亮点,1>距离最近的非比较句子中选取候选被评价向量,而且,如果该距离最近的非比较句子中有多个被评价对象的话,则优先选取与该评价向量距离最近的被评价向量。
虽然上述示例描述了在非比较句子中选择候选被评价对象的情形,但是,在一种可替选的实施方式中,也可以从与缺少被评价对象的评价向量距离最近的比较句子中选取处于主动的比较地位的被评价对象作为候选被评价向量。也就是说,只要被评价对象不是比较句子中处于被动的比较地位的被评价对象,其就可能在上述的全局扩展处理中被选择作为候选的被评价对象。
至于计算候选的被评价对象的权重值的方法,例如可以利用下面的公式(1)来计算:
Wi=(CVi-CPi)/(CPi+1)            (1)
其中,CVi是所述第i候选被评价对象在评论性文本中出现的次数,CPi是该第i候选被评价对象在评论性文本所包含的比较句子中作为处于被动的比较地位的被评价对象出现次数,i是自然数。
实际上,可以利用各种合适的公式来计算表示被评价对象在评论性文本中出现的统计概率的权重值,而不必限于上述给出的公式。
上述的全局扩展提取处理是通过利用候选的被评价对象在评论性文本中出现的统计信息来进行,因此也可以将这种扩展提取处理称之为“统计的扩展提取处理”。
下面的表4给出了通过上述全局扩展提取处理得到的评价向量集合:
表4
<思域,车头,短,1>
<思域,车尾,短,1>
<思域,车尾,短,1>
<思域,车尾,厚,1>
<花冠,电瓶,好,-1>
<思域,电瓶,好,1>
<思域,前仪表盘,亮点,1>
<花冠,噪音,大,-1>
<思域,噪音,大,1>
<思域,仪表盘,漂亮,1>
如表4所示,通过上述的全局扩展提取处理,确定评价向量<,前仪表盘,亮点,1>中缺少的被评价对象为“思域”,从而得到评价向量<思域,前仪表盘,亮点,1>。很明显,这种全局扩展处理进一步拓宽了根据本发明的实施例的评价性信息提取处理方法的覆盖率,有利于获取更多的有价值信息,改善了信息提取处理的效率。
此外,注意到表4的评价向量集合与表3的评价向量集合相比增加了两个评价向量<思域,电瓶,好,1>和<思域,噪音,大,1>。这也是通过与上述类似的全局扩展提取处理获得的。具体而言,在该示例中,包括两个比较句子“因为是样车,至少连电瓶也是进口的,比花冠的加水电瓶好多了。”。和“车子发动机噪音比花冠大。”,并且该两个比较句子中都缺少处于主动比较地位的被评价对象,这在该示例中是由于主语的省略引起的。为此,也可以借助于如上所述的全局扩展提取处理,通过选择候选被评价对象、计算候选被评价对象的权重值(例如可通过上述公式1或者其他类似方式来计算)、根据候选被评价对象的权重值选定所需的被评价对象等处理步骤,来为评论性文本中的、缺少处于主动的比较地位的被评价对象的比较句子获取相应的处于主动的比较地位的被评价对象。由于各个具体处理步骤与上述的全局扩展提取处理类似,具体细节可参见上述参照图2中步骤S250和表4描述的全局扩展提取处理的有关内容,在此不再赘述。结果,为上述两个比较句子确定的处于主动比较地位的被评价对象都是“思域”。相应地,针对所确定的被评价对象构造两个评价向量<思域,电瓶,好,1>和<思域,噪音,大,1>。注意,该两个构造的评价向量中评价成分的内容(包括属性词、评价词等)的内容与其各自对应的比较句子中处于被动比较地位的被评价对象(即“花冠”)的评价成分内容相同,而评价成分的评价极性为“1”而非“-1”,这是因为所确定的被评价对象是处于比较句子中的主动比较地位。可将所构造的这两个评价向量作为通过步骤S240的后向扩展提取处理和/或S250的全局扩展提取处理所获得的第二评价向量集合中的评价向量。
由于对一个比较句子可以准确地获得与处于主动的比较地位和被动的比较地位的被评价对象两者相应的被评价向量,因此可以在确保最大的准确率的前提下从评论性文本获得尽可能多的有价值信息,所以可改善评价性信息提取效率。本领域技术人员理解,这种为比较句子中处于主动的比较地位的被评价对象获得相应的被评价向量的处理并不是必需的,而是一种进一步提升提取处理性能的优选方案。
需要注意,虽然在图2中步骤S240与S250的处理是按照顺序依次示出的,但是可以根据情况任意选择其中之一或其组合。例如,在评论性文本中比较句子较少的情况下,可选择仅进行步骤S240的后向扩展提取处理,因为这样就已经可以将经过步骤S230的第一提取处理所得到的第一评价向量集合(如表2所示)中缺少被评价对象的多数评价向量获取相应的被评价对象。当然,也可选择在此基础上再进行步骤S250的全局扩展提取处理,则有利于进一步提高评价性信息提取处理的覆盖率,进一步改善提取效率。在评论性文本中包括较多比较句子的情况下,可选择先进行步骤S240的后向扩展提取处理,然后进行步骤S250的全局扩展提取处理;或者,可以选择仅进行步骤S250的全局扩展提取处理,因为如上所述,比较句子将中断后向扩展提取处理,因此后向扩展提取处理在比较句子校多的情况下所获得的有益效果有时不是很明显,据此,可以选择在评论性文本中比较句子较多的情况下仅进行步骤S250的全局扩展提取处理,则可以在确保改善评价性信息提取处理覆盖率的同时提高信息提取处理的速度。
容易理解,只要执行了步骤S240的后向扩展提取处理与步骤S250的全局扩展提取处理其中之一,就可以获得上述相应的有益效果。步骤S240与S250可统称为扩展提取处理步骤,都属于如图1中步骤S140的第二提取步骤的范畴,并与前述步骤S230或图1中示出的步骤S130的第一提取处理步骤或者初始提取处理步骤相区别。在此,“第一”和“第二”并不是意在表示特定的顺序或者重要性,而仅仅是为了对相关要素或组件进行识别。
此外,虽然在图2中没有示出,但是根据一种可替选实施方式,还可以包括对待处理的评论性文本以及如上述表1-4中示出的各种信息等进行存储的步骤。根据一种可替选实施方式,还可以包括对各步骤得到的信息,例如第一评价向量集合和第二评价向量集合进行输出的步骤。这种输出例如可以是将获得的各种信息呈现给用户以便其确定与所感兴趣的被评价对象相关的评论性意见。输出的方式没有特别的限制,例如可通过文本、图像、声音等方式进行输出。
按照上述根据本发明的实施例的提取与被评价对象有关的评价性信息的方法,可以将评论性文本中描述的事物(例如特定产品、服务等)及对其进行的评论、意见等相关信息按照向量形式提取出来,并且可以有效地处理跨句子的省略被评价对象的情况,从而一方面提高了提取评价向量的准确性,另一方面可扩展提取的覆盖率。
此外,本发明另外的实施例还提供了一种提取与被评价对象相关的评价性信息的装置。图3中示出了这种装置300的简化框图,其包括:预处理单元310,其被配置成对所收集的评论性文本进行预处理,以便获得与该评论性文本中包含的至少一个被评价对象相关的评论性成分以及该至少一个被评价对象在该评论性文本中的位置。第一提取单元320,其被配置成对通过预处理单元预310处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合。第二提取单元330,其被配置成通过扩展上述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为与被评价对象有关的评价性信息。
图4是示出了图3中的第二提取单元330的一种实现形式的简化框图。如图所示,第二提取单元330可以包括后向扩展提取子单元332和全局扩展提取子单元334,分别被配置成通过对特定评价向量中被评价对象的作用域进行后向扩展或者全局扩展来提升评价性信息提取处理的覆盖率,改善信息提取的准确性和效率。
根据本发明该实施例的提取与被评价对象相关的装置还可以包括相关资源存储单元(图中未示出),用于存储进行信息提取所需的相关资源,如词表,语法规则等。需要注意,这种存储单元既包括用于存储的物理介质,也包括存储不同内容时定义的逻辑结构,读写方法等。
类似地,上述存储单元或者另外设置的存储单元还可以用于存储上述各种信息提取单元进行提取处理所得到的信息,例如评价向量集合,属性词-评价词对,等。
根据一种可替选的实施方式,还可以包括对与评价性信息提取处理有关的各种信息,例如第一评价向量集合和第二评价向量集合等进行输出的输出单元(图中未示出)。这种输出单元例如可以用于将获得的各种信息呈现给用户以便于其确定与所感兴趣的被评价对象相关的评论性意见。输出单元例如可以是文本图像显示器、扬声器等。
上述图3和4中示出的装置300及其所包括的预处理单元310、第一提取单元320、第二提取单元330,第二提取单元330中包括的后向扩展提取子单元332和全局扩展提取子单元334,以及上述的存储单元、输出单元等,可以被配置成执行上面参照图1-2所描述的各种操作。关于这些操作的进一步细节,可以参考以上描述的各个实施例、具体实施方式和示例,在此不再逐一详细描述。
上面已通过框图、流程图和/或实施例进行了详细描述,阐明了根据本发明的实施例的装置和/或方法的不同实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机***上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
例如,上述装置300中各个组成模块、单元、子单元可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能。
图5示出了适于实现根据本发明实施例的方法和装置的计算机***500的意性框图。计算机***500只是一个示例,并非暗示对本发明的方法和装置的使用范围或者功能的局限。也不应将计算机***500解释为对示例性操作500中示出的任一组件或其组合具有依赖或需求。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件也连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡例如LAN卡、调制解调器等)。通信部分509经由网络例如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
因此,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的提取与被评价对象有关的评价性信息的方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。
在上面的描述中提及的各个参考文献,为了简明起见,通过引用将它们并入于此,这种引用如同在本说明书中对这些参考文献进行了详尽描述。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
此外,本发明的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
通过上面对本发明的实施例的描述可知,本发明涵盖的技术方案包括但不限于如下附记所描述的内容:
附记1、一种提取与被评价对象有关的评价性信息的方法,所述方法包括步骤:
预处理步骤,用于对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;
第一提取步骤,用于对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和
第二提取步骤,用于通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为所述的与被评价对象有关的评价性信息。
附记2、如附记1所述的方法,其中,每一个所述评价向量包括被评价对象和与该被评价对象相匹配的评价性成分或者仅仅包括评价性成分,以及其中,所述第一提取步骤包括在所述评论性文本的每一个句子的范围之内,按照最近匹配的原则为评价性成分分配与其相匹配的被评价对象。
附记3、如附记1或2所述的方法,其中,对于包含有处于主动的比较地位的被评价对象和处于被动的比较地位的被评价对象的比较句子,在所述第一提取步骤中进行初始匹配处理时,将与处于被动的比较地位的被评价对象相匹配的评价性成分的评价极性取反。
附记4、如附记1-3中任一项所述的方法,其中所述的与被评价对象相匹配的评价性成分包括与该被评价对象相关的属性词以及评价词,或者仅仅包括与该被评价对象相关的评价词。
附记5、如附记4所述的方法,其中所述的与被评价对象相匹配的评价性成分还包括与评价性成分的评价极性相关的极性标志,或者包括与评价性成分的评价极性相关的极性标志和与评价词的评价程度相关的评价值。
附记6、如附记1-5中任一项所述的方法,其中所述第二提取步骤包括后向扩展提取子步骤,用于针对所述至少一个被评价对象中特定的被评价对象,将该特定的被评价对象的作用域从其当前所在的句子扩展到紧随其后的不存在被评价对象的至少一个句子,以便为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象,其中,作用域被后向扩展的所述特定的被评价对象在比较句子中不处于被动的比较地位。
附记7、如附记1-6中任一项所述的方法,其中所述第二提取步骤包括全局扩展提取子步骤,用于通过以下方式,为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象:
从所述评论性文本中包含的、与所述缺少被评价对象的评价向量对应的句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第一候选被评价对象和第二候选被评价对象,其中所述第一候选被评价对象和第二候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示所述第一候选被评价对象在所述评论性文本中出现的统计概率的第一权重值W1和表示第二候选被评价对象在所述评论性文本中出现的统计概率的第二权重值W2;和
将第一权重值W1和第二权重值W2中较大的一个所对应的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象,或者在第一权重值W1和第二权重值W2相等时任选一个具有大于预定的第一阈值的权重值的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象。
附记8、如附记1-7中任一项所述的方法,其中所述第二提取步骤包括全局扩展提取子步骤,用于通过下面的方式为所述评论性文本中的、缺少处于主动的比较地位的被评价对象的比较句子获取相应的处于主动的比较地位的被评价对象以及与该被评价对象相关的评价向量:
从所述评论性文本中包含的、所述比较句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第三候选被评价对象和第四候选被评价对象,其中所述第三候选被评价对象和第四候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示第三候选被评价对象在所述评论性文本中出现的统计概率的第三权重值W3和表示第四候选被评价对象在所述评论性文本中出现的统计概率的第四权重值W4;和
将第三权重值W3和第四权重值W4中较大的一个所对应的被评价对象作为所述的处于主动的比较地位的被评价对象,或者在第三权重值W3和第四权重值W4相等时时任选一个具有大于预定的第二阈值的权重值的被评价对象作为所述处于主动的比较地位的被评价对象,
其中,为所获得的处于主动的比较地位的被评价对象构造评价向量并将所构造的评价向量作为所述第二评价向量集合中的评价向量,所述构造的评价向量中的评价成分与所述比较句子中处于被动比较地位的被评价对象的评价成分内容相同但极性相反。
附记9、如附记7或8所述的方法,其中,所述第i候选被评价对象的权重值Wi按照如下的被评价对象权重值计算公式来计算:
Wi=(CVi-CPi)/(CPi+1)
其中,CVi是所述第i候选被评价对象在所述评论性文本中出现的次数,CPi是所述第i候选被评价对象在所述评论性文本所包含的比较句子中作为处于被动的比较地位的被评价对象出现次数,i是自然数。
附记10、如附记1-9中任一项所述的方法,其中比较句子包括以下连接词中的至少之一:比,相对于,不如。
附记11、一种用于提取与被评价对象有关的评价性信息的装置,所述装置包括:
预处理单元,其被配置成对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;
第一提取单元,其被配置成对通过所述预处理单元预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和
第二提取单元,其被配置成通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为所述的与被评价对象有关的评价性信息。
附记12、如附记11所述的装置,其中,每一个所述评价向量包括被评价对象和与该被评价对象相匹配的评价性成分或者仅仅包括评价性成分,以及其中,所述第一提取单元被配置成在所述评论性文本的每一个句子的范围之内,按照最近匹配的原则为评价性成分分配与其相匹配的被评价对象。
13、如附记11或12所述的装置,其中,所述第一提取单元被配置成对于包含有处于主动的比较地位的被评价对象和处于被动的比较地位的被评价对象的比较句子,在进行初始匹配处理时,将与处于被动的比较地位的被评价对象相匹配的评价性成分的评价极性取反。
附记14、如附记11-13中任一项所述的装置,其中所述的与被评价对象相匹配的评价性成分包括与该被评价对象相关的属性词以及评价词,或者仅仅包括与该被评价对象相关的评价词。
附记15、如附记14所述的装置,其中所述的与被评价对象相匹配的评价性成分还包括与评价性成分的评价极性相关的极性标志,或者包括与评价性成分的评价极性相关的极性标志和与评价词的评价程度相关的评价值。
附记16、如附记11-15中任一项所述的装置,其中所述第二提取单元包括后向扩展提取子单元,其被配置成针对所述至少一个被评价对象中特定的被评价对象,将该特定的被评价对象的作用域从其当前所在的句子扩展到其后的不存在被评价对象的至少一个句子,以便为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象,其中,作用域被后向扩展的所述特定的被评价对象在比较句子中不处于被动的比较地位。
附记17、如附记11-16中任一项所述的装置,其中所述第二提取单元包括全局扩展提取子单元,其被配置成通过以下方式,为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象:
从所述评论性文本中包含的、与所述缺少被评价对象的评价向量对应的句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第一候选被评价对象和第二候选被评价对象,其中所述第一候选被评价对象和第二候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示所述第一候选被评价对象在所述评论性文本中出现的统计概率的第一权重值W1和表示第二候选被评价对象在所述评论性文本中出现的统计概率的第二权重值W2;和
将第一权重值W1和第二权重值W2中较大的一个所对应的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象,或者在第一权重值W1和第二权重值W2相等时任选一个具有大于预定的第一阈值的权重值的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象。
附记18、如附记11-17中任一项所述的装置,其中所述第二提取单元包括全局扩展提取子单元,其被配置成通过下面的方式为所述评论性文本中的、缺少处于主动的比较地位的被评价对象的比较句子获取相应的处于主动的比较地位的被评价对象以及与该被评价对象相关的评价向量:
从所述评论性文本中包含的、所述比较句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第三候选被评价对象和第四候选被评价对象,其中所述第三候选被评价对象和第四候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示第三候选被评价对象在所述评论性文本中出现的统计概率的第三权重值W3和表示第四候选被评价对象在所述评论性文本中出现的统计概率的第四权重值W4;和
将第三权重值W3和第四权重值W4中较大的一个所对应的被评价对象作为所述的处于主动的比较地位的被评价对象,或者在第三权重值W3和第四权重值W4相等时时任选一个具有大于预定的第二阈值的权重值的被评价对象作为所述处于主动的比较地位的被评价对象,
其中,为所获得的处于主动的比较地位的被评价对象构造评价向量并将所构造的评价向量作为所述第二评价向量集合中的评价向量,所述构造的评价向量中的评价成分与所述比较句子中处于被动比较地位的被评价对象的评价成分内容相同但极性相反。
附记19.一种存储有机器可读取的指令代码的程序产品,
所述指令代码由机器读取并执行时,可执行如附记1-10中任何一项所述的从评论性文本中提取与被评价对象有关的评价性信息的方法。
附记20.一种承载有如附记19所述的程序产品的存储介质。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims (17)

1.一种提取与被评价对象有关的评价性信息的方法,所述方法包括步骤:
预处理步骤,用于对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;
第一提取步骤,用于对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和
第二提取步骤,用于通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为所述的与被评价对象有关的评价性信息,
其中,所述第二提取步骤包括全局扩展提取子步骤,用于通过以下方式,为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象:
从所述评论性文本中包含的、与所述缺少被评价对象的评价向量对应的句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第一候选被评价对象和第二候选被评价对象,其中所述第一候选被评价对象和第二候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示所述第一候选被评价对象在所述评论性文本中出现的统计概率的第一权重值W1和表示第二候选被评价对象在所述评论性文本中出现的统计概率的第二权重值W2;和
将第一权重值W1和第二权重值W2中较大的一个所对应的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象,或者在第一权重值W1和第二权重值W2相等时任选一个具有大于预定的第一阈值的权重值的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象。
2.如权利要求1所述的方法,其中,每一个所述评价向量包括被评价对象和与该被评价对象相匹配的评价性成分或者仅仅包括评价性成分,以及其中,所述第一提取步骤包括在所述评论性文本的每一个句子的范围之内,按照最近匹配的原则为评价性成分分配与其相匹配的被评价对象。
3.如权利要求1或2所述的方法,其中,对于包含有处于主动的比较地位的被评价对象和处于被动的比较地位的被评价对象的比较句子,在所述第一提取步骤中进行初始匹配处理时,将与处于被动的比较地位的被评价对象相匹配的评价性成分的评价极性取反。
4.如权利要求2所述的方法,其中所述的与被评价对象相匹配的评价性成分包括与该被评价对象相关的属性词以及评价词,或者仅仅包括与该被评价对象相关的评价词。
5.如权利要求4所述的方法,其中所述的与被评价对象相匹配的评价性成分还包括与评价性成分的评价极性相关的极性标志,或者包括与评价性成分的评价极性相关的极性标志和与评价词的评价程度相关的评价值。
6.如权利要求1或2所述的方法,其中所述第二提取步骤包括后向扩展提取子步骤,用于针对所述至少一个被评价对象中特定的被评价对象,将该特定的被评价对象的作用域从其当前所在的句子扩展到其后的不存在被评价对象的至少一个句子,以便为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象,其中,作用域被后向扩展的所述特定的被评价对象在比较句子中不处于被动的比较地位。
7.如权利要求1或2所述的方法,其中所述全局扩展提取子步骤用于通过下面的方式为所述评论性文本中的、缺少处于主动的比较地位的被评价对象的比较句子获取相应的处于主动的比较地位的被评价对象以及与该被评价对象相关的评价向量:
从所述评论性文本中包含的、所述比较句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第三候选被评价对象和第四候选被评价对象,其中所述第三候选被评价对象和第四候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示第三候选被评价对象在所述评论性文本中出现的统计概率的第三权重值W3和表示第四候选被评价对象在所述评论性文本中出现的统计概率的第四权重值W4;和
将第三权重值W3和第四权重值W4中较大的一个所对应的被评价对象作为所述的处于主动的比较地位的被评价对象,或者在第三权重值W3和第四权重值W4相等时时任选一个具有大于预定的第二阈值的权重值的被评价对象作为所述处于主动的比较地位的被评价对象,
其中,为所获得的处于主动的比较地位的被评价对象构造评价向量并将所构造的评价向量作为所述第二评价向量集合中的评价向量,所述构造的评价向量中的评价成分与所述比较句子中处于被动比较地位的被评价对象的评价成分内容相同但极性相反。
8.如权利要求1所述的方法,其中,第i候选被评价对象的权重值Wi按照如下的被评价对象权重值计算公式来计算:
Wi=(CVi-CPi)/(CPi+1)
其中,CVi是所述第i候选被评价对象在所述评论性文本中出现的次数,CPi是所述第i候选被评价对象在所述评论性文本所包含的比较句子中作为处于被动的比较地位的被评价对象出现次数,i为1或2。
9.如权利要求7所述的方法,其中,第i候选被评价对象的权重值Wi按照如下的被评价对象权重值计算公式来计算:
Wi=(CVi-CPi)/(CPi+1)
其中,CVi是所述第i候选被评价对象在所述评论性文本中出现的次数,CPi是所述第i候选被评价对象在所述评论性文本所包含的比较句子中作为处于被动的比较地位的被评价对象出现次数,i为3或4。
10.如权利要求1或2所述的方法,其中比较句子包括以下连接词中的至少之一:比,相对于,不如。
11.一种用于提取与被评价对象有关的评价性信息的装置,所述装置包括:
预处理单元,其被配置成对所收集的评论性文本进行预处理,以便获得与所述评论性文本中包含的至少一个被评价对象相关的评论性成分以及所述至少一个被评价对象在所述评论性文本中的位置;
第一提取单元,其被配置成对通过所述预处理单元预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;和
第二提取单元,其被配置成通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合,作为所述的与被评价对象有关的评价性信息,
其中所述第二提取单元包括全局扩展提取子单元,其被配置成通过以下方式,为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象:
从所述评论性文本中包含的、与所述缺少被评价对象的评价向量对应的句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第一候选被评价对象和第二候选被评价对象,其中所述第一候选被评价对象和第二候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示所述第一候选被评价对象在所述评论性文本中出现的统计概率的第一权重值W1和表示第二候选被评价对象在所述评论性文本中出现的统计概率的第二权重值W2;和
将第一权重值W1和第二权重值W2中较大的一个所对应的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象,或者在第一权重值W1和第二权重值W2相等时任选一个具有大于预定的第一阈值的权重值的被评价对象作为所述的缺少被评价对象的评价向量中的被评价对象。
12.如权利要求11所述的装置,其中,每一个所述评价向量包括被评价对象和与该被评价对象相匹配的评价性成分或者仅仅包括评价性成分,以及其中,所述第一提取单元被配置成在所述评论性文本的每一个句子的范围之内,按照最近匹配的原则为评价性成分分配与其相匹配的被评价对象。
13.如权利要求11或12所述的装置,其中,所述第一提取单元被配置成对于包含有处于主动的比较地位的被评价对象和处于被动的比较地位的被评价对象的比较句子,在进行初始匹配处理时,将与处于被动的比较地位的被评价对象相匹配的评价性成分的评价极性取反。
14.如权利要求12所述的装置,其中所述的与被评价对象相匹配的评价性成分包括与该被评价对象相关的属性词以及评价词,或者仅仅包括与该被评价对象相关的评价词。
15.如权利要求14所述的装置,其中所述的与被评价对象相匹配的评价性成分还包括与评价性成分的评价极性相关的极性标志,或者包括与评价性成分的评价极性相关的极性标志和与评价词的评价程度相关的评价值。
16.如权利要求11或12所述的装置,其中所述第二提取单元包括后向扩展提取子单元,其被配置成针对所述至少一个被评价对象中特定的被评价对象,将该特定的被评价对象的作用域从其当前所在的句子扩展到其后的不存在被评价对象的至少一个句子,以便为第一评价向量集合中缺少被评价对象的评价向量获取相应的被评价对象,其中,作用域被后向扩展的所述特定的被评价对象在比较句子中不处于被动的比较地位。
17.如权利要求11或12所述的装置,其中所述全局扩展提取子单元被配置成通过下面的方式为所述评论性文本中的、缺少处于主动的比较地位的被评价对象的比较句子获取相应的处于主动的比较地位的被评价对象以及与该被评价对象相关的评价向量:
从所述评论性文本中包含的、所述比较句子的在前的一个句子以及在后的一个句子中各选取一个距离最近的被评价对象,分别作为第三候选被评价对象和第四候选被评价对象,其中所述第三候选被评价对象和第四候选被评价对象不是比较句子中处于被动的比较地位的被评价对象;
分别计算表示第三候选被评价对象在所述评论性文本中出现的统计概率的第三权重值W3和表示第四候选被评价对象在所述评论性文本中出现的统计概率的第四权重值W4;和
将第三权重值W3和第四权重值W4中较大的一个所对应的被评价对象作为所述的处于主动的比较地位的被评价对象,或者在第三权重值W3和第四权重值W4相等时时任选一个具有大于预定的第二阈值的权重值的被评价对象作为所述处于主动的比较地位的被评价对象,
其中,为所获得的处于主动的比较地位的被评价对象构造评价向量并将所构造的评价向量作为所述第二评价向量集合中的评价向量,所述构造的评价向量中的评价成分与所述比较句子中处于被动比较地位的被评价对象的评价成分内容相同但极性相反。
CN201010120101.4A 2010-02-24 2010-02-24 从评论性文本中提取评价性信息的方法和装置 Expired - Fee Related CN102163189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010120101.4A CN102163189B (zh) 2010-02-24 2010-02-24 从评论性文本中提取评价性信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010120101.4A CN102163189B (zh) 2010-02-24 2010-02-24 从评论性文本中提取评价性信息的方法和装置

Publications (2)

Publication Number Publication Date
CN102163189A CN102163189A (zh) 2011-08-24
CN102163189B true CN102163189B (zh) 2014-07-23

Family

ID=44464422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010120101.4A Expired - Fee Related CN102163189B (zh) 2010-02-24 2010-02-24 从评论性文本中提取评价性信息的方法和装置

Country Status (1)

Country Link
CN (1) CN102163189B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5607859B2 (ja) * 2012-04-25 2014-10-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
CN106528519B (zh) * 2015-09-09 2019-04-30 佳能信息技术(北京)有限公司 文本挖掘的方法和装置
CN110738056B (zh) * 2018-07-03 2023-12-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109063034B (zh) * 2018-07-16 2022-01-04 浙江大学 基于空间和社交多媒体数据的室内空间语义价值计算方法
CN110929175B (zh) * 2018-08-30 2024-07-16 北京京东尚科信息技术有限公司 对用户评价进行评估的方法、装置、***及介质
CN113420122B (zh) * 2021-06-24 2024-06-04 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
CN101436186B (zh) * 2007-11-12 2012-09-05 北京搜狗科技发展有限公司 一种提供相关搜索的方法及***

Also Published As

Publication number Publication date
CN102163189A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
CN102163189B (zh) 从评论性文本中提取评价性信息的方法和装置
Ferreira et al. Emergent: a novel data-set for stance classification
CN103207899B (zh) 文本文件推荐方法及***
Hamdan et al. lsislif: Feature extraction and label weighting for sentiment analysis in twitter
CN103150405B (zh) 一种分类模型建模方法、中文跨文本指代消解方法和***
CN106951530B (zh) 一种事件类型抽取方法和装置
CN101894102A (zh) 一种主观性文本情感倾向性分析方法和装置
CN104679728A (zh) 一种文本相似度检测方法
CN107357777B (zh) 提取标签信息的方法和装置
CN110334268B (zh) 一种区块链项目热词生成方法以及装置
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN111309910A (zh) 文本信息挖掘方法及装置
CN103885933A (zh) 用于评价文本的情感度的方法和设备
CN103678565A (zh) 一种基于自引导方式的领域自适应句子对齐***
CN104035918A (zh) 一种采用上下文特征匹配的中文机构名简称识别***
Chinsha et al. Aspect based opinion mining from restaurant reviews
Pla et al. Sentiment analysis in Twitter for Spanish
Ghoneim et al. Multiword expressions in the context of statistical machine translation
El-Halees Opinion mining from Arabic comparative sentences
Kanjirathinkal et al. Does similarity matter? The case of answer extraction from technical discussion forums
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management
CN107480197B (zh) 实体词识别方法及装置
CN104572613A (zh) 数据处理装置、数据处理方法和程序
CN105550292A (zh) 一种基于von Mises-Fisher概率模型的网页分类方法
CN111027312B (zh) 文本扩充方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140723

Termination date: 20180224

CF01 Termination of patent right due to non-payment of annual fee