CN109086340A

CN109086340A - 基于语义特征的评价对象识别方法

Info

Publication number: CN109086340A
Application number: CN201810748969.5A
Authority: CN
Inventors: 谢珺; 谷兴龙; 梁凤梅; 杨云云; 侯文丽; 续欣莹
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-25

Abstract

基于语义特征的评价对象识别方法，属于文本挖掘领域，其特征在于：将短文本评价对象提取的问题转化为信息提取的问题，先对短文本语料进行预处理，自定义特征模板，根据模板在短文本中提取相应的特征，利用条件随机场模型进行评价对象识别。本发明不仅考虑了词法特征，也引入语义特征，充分利用了上下文信息；本发明引入语义特征，并且结合词特征提高了评价对象提取的精确性。

Description

基于语义特征的评价对象识别方法

技术领域

本发明涉及一种基于语义特征(Semantic features)的评价对象识别方法，属于文本挖掘领域。

背景技术

近年来，随着互联网的普及以及电子商务的快速发展，越来越多的消费者喜欢在网上购买自己喜欢的商品，为了表达自己对于商品的态度，消费者会在电商平台上发表评论，这也导致网络评论急剧增加，形成了具有商业价值的大数据集。利用自然语言处理技术挖掘这些网络评论数据集中包含的情感，进行情感分析，对于商家与消费者都有一定的指导意义。伴随着情感分析的研究不断深入，细粒度的情感分析也被越来越多的学者所关注。细粒度情感分析就是以评价单元为基础的情感倾向性分析，所谓评价单元就是由评价对象与具有情感色彩的词语或短语构成的特征观点对。因此评价对象的识别是细粒度情感分析的基础。

评价对象一般为一个句子所讨论的主题，在评论文本中主要表现为评价词的修饰对象。评价对象识别最早是由Liu Bing提出，将有着较高频率的名词或者名词性短语视为评价对象。评价对象识别的研究，在初期一般是基于规则/模板的方法，制定的规则包括词序列规则、词性规则、句法规则等形式。Kim等借助制定的模板理解词与词之间的语义关系，从而将语义角色映入到框架中，以新闻文本作为数据集，识别出文中的观点、观点持有者、以及相关主题。除此之外，一些学者利用关联规则挖掘的方法找出频繁出现的候选评价对象，接着使用两种剪枝的方法去除候选对象中错误样例。

随着主题模型的兴起，越来越多的学者将其应用到情感分析领域，而且由于评价对象一般为句子中讨论的主题，因此可以使用主题模型来进行评价对象的识别。有学者使用多粒度的主题模型挖掘商品评论文本中的评价对象，并且zhang等在此基础上对相似的评价对象进行聚类，一定程度上提改了识别的召回率。接着，也有学者将主题模型与最大熵模型相结合，识别出评论中的评价对象、评价词。

近年来，随着条件随机场模型在中文分词、词性标注、命名实体识别等自然语言处理任务中取得的进展，有学者开始提出将其应用在评价对象识别上。Niklas Jako等提出将评价对象识别任务看作标记任务，使用单一特征、单一模板进行评价对象识别。国内一些学者根据中文文本的特点，提出基于句法结构或是基于词性特征与句法分析结合的评价对象识别方法，较好地利用了上下文信息。Ge Wang等利用条件随机场模型与词特征进行了跨领域的评价对象识别。

发明内容

本发明目的是为了能够充分利用短文本的上下文信息提高评价对象提取的精度，将短文本评价对象的识别问题转化为信息提取问题，引入短文本句子的语义特征从而引入更多的上下文信息，实现了一种基于语义特征的评价对象识别方法。

基于语义特征的评价对象识别方法，其特征在于：先对评论语料进行预处理；自定义特征模板，根据模板在评论语料中提取相应的特征；利用条件随机场模型进行评价对象识别。

所述评价对象识别方法包括下述步骤：

(1)数据预处理：即通过网络爬虫在电商网站的在线评论中获得文本语料，对评论语料进行分词、词性标注、情感词标注以及语义角色分析，从评论语料中获取词特征、词性特征、情感词特征、语义角色特征；

(2)训练模型：将数据预处理的评论语料中抽取五分之四作为训练集，从训练集中提取的特征来训练自定义的特征模板，根据训练结果得到每个特征的权重；

(3)评价对象识别：即将剩余的五分之一评论语料作为测试集，根据步骤(2)得到的特征模板，在测试集中提取与模板相对应的词特征、词性特征、情感词特征以及语义角色特征，然后利用条件随机场模型计算条件概率P(y|x)，x为输入序列，y为输出序列，将测试集中的特征作为输入序列，评价对象、评价词作为输出序列，从输入序列中获得最佳结果。

引入语义特征，所述语义特征包括情感词特征、语义角色特征，通过情感词特征估计评价对象的位置，并且通过语义角色特征捕捉句子中施事者与受事者。

通过引入语义特征，包括情感词特征、语义角色特征，从而充分利用短文本句子的上下文信息。

例句(1)：“手机外观很好看，发货很快。”

情感词特征(sen)：是指判断当前词是否属于情感词，如果当前是情感词，则其对应的特征为1，否则为0，属于布尔类型特征。情感词是用来修饰评价对象的，包含了评论者对商品的态度，在一个句子中情感词的附近会极有可能会存在评价对象，一定程度上反映了评价对象的位置特征，因此，引入情感词特征有利于评价对象的识别。例如：例句(1)中的“好看”、“快”均属于情感词。

语义角色特征(srl)：是指对句子中的各成分进行语义角色标注(SRL)，语义角色标注是一种浅层的语义分析技术，标注句子中某些短语为给定谓词(动词、形容词等)的论元(即语义角色)，如事件的施事者、受事者、时间、地点以及方式等。仍然对例句(1)进行语义角色分析，分析结果如图1所示，其中有两个谓词“好看”、“快”，以“好看”为例，“很”是它的程度或方式(一般用ADV表示)，而“手机外观”组成的名词短语是它的施事者(一般用A0表示)，也就是该句子单元包含的评价对象。因此，语义角色分析有助于信息的提取，对评价对象的识别有一定的指导意义，引入语义特征将会有助于评价对象的识别。

本发明引入语义特征，并且结合词特征提高了评价对象提取的精确性。

附图说明

图1为基于语义特征的评价对象识别方法的流程图。

具体实施方式

基于语义特征的评价对象识别***包括数据预处理、训练模型和识别三个阶段。

实验语料来自于网络爬虫，是从各大电商网站进行了手机评论的爬取，采集到的商品评论中一共有原始的单词数245221407个，一共4904600条评论，出现不同的汉字的个数为32757。训练语料取爬取语料的五分之四，剩余的语料作为测试语料。

步骤一、对实验语料进行预处理，预处理阶段包括以下几个方面：

1、分词，将分词任务建模为基于字序列的序列标注问题。对于输入句子的字序列，模型给句子中的每个字标注一个标识词边界的标记，通过调用语言技术平台(LTP)中的ltp_test主程序，其详细步骤如下：

1)语言技术平台(LTP)项目文件、模型文件下载；

2)新建一个项目文件夹D:\myprojects\LTP(可任选)；将模型文件解压后的ltp_data文件夹放入项目文件夹；将项目文件解压之后的dll、exe文件全部复制到项目文件夹下，最后完整的文件列表；

3)利用python程序调用在项目文件夹中已经配置好的ltp_test，在程序中设定参数last_stage的选项为ws(分词)，完成对文本语料的分词任务。

2、词性标注，类似于分词任务，将词性标注任务建模为基于词的序列标注问题，在进行词性标注的时候，参考对语料进行分词的方法，只需要在程序中将参数last_stage的选项设置为pos(词性标注)，即可完成词性标注任务。

3、情感词标注，在分词、词性标注之后，对文本中出现的情感词进行人工标注，如果该词属于情感词则将其标为1，否则标为0，情感词包括形容词情感词与动词情感词。

4、语义角色特征提取，语义角色的提取主要分为两个子任务，其一是谓词(一般为动词、形容词)的识别，其次就是论元(语义角色，如施事者A0、受事者A1等)的识别以及分类。将句子进行句法分析得到句法树，并对句法树进行剪枝，去掉不可能成为语义角色的标注单元，接着使用分类器给选出的论元，最后对论元进行分类，类别为所有的分类标签，返回的数据为xml格式，从中提取语义角色特征。语义角色标签列表如表1：

表1语义角色标签列表

步骤二、训练集标注，是对经过预处理之后的评论文本中的评价对象(CO)、评价词(CC)以及其他词(OT)进行标注，根据分词的粒度，进行分词的时候通常会将一些名词性短语分割开来，例如：手机评论中的“手机外观”经分词之后为“手机”、“外观”，酒店评论中的“行政间”与“大床房”等这类型的名词性短语经分词之后分别为“行政”、“间”与“大床”、“房”。在序列标注的时候，我们希望将这类型的评价对象标注到整个短语中，而不是将两个词分别标注，因此在本文我们采用BIO标注体系，BIO标注是将每个元素标注为“B-X”，代指X的开头，“I-X”，代指X的中间，“O”，代指其他词或者标点符号，标注示例如表1所示：

表1标注示例

步骤三、自定义特征模板，为了寻找最优的模板窗口，我们定义了7种模板temp1-temp7分别如下：

temp1＝(-1，0)，表示以当前词为中心，考虑该词的前一个词，窗口大小为2。

temp2＝(-1，0，1)，表示以当前词为中心，考虑该词的前一个词与后一个词，窗口大小为3。

temp3＝(0，1)，表示以当前词为中心，考虑该词的后一个词，窗口大小为2。

temp4＝(-2，-1，0)，表示以当前词为中心，考虑该词的前两个词，窗口大小为3。

temp5＝(-2，-1，0，1，2)，表示以当前词为中心，考虑该词的前两个词与后两个词，窗口大小为5。

temp6＝(0，1，2)，表示以当前词为中心，考虑该词的后两个词，窗口大小为3。

temp7＝(-3，-2，-1，0，1，2，3)，表示以当前词为中心，考虑该词的前三个词与后三个词，窗口大小为7。

模板的含义如表2所示：

表2特征模板含义

表2中U01的含义为第0列，第1行；U02的含义为第0列，第2行，其它几个的原理类似，以此类推。

步骤四、利用训练语料对特征模板进行训练，得到相关特征的权重参数。条件随机场模型一个主要的任务就是通过训练数据集来估计特征的权重λ，并且对数最大似然参数从独立训练数据中估计λ＝(λ₁,λ₂,...,λ_n)，其中λ_i是通过L-BFGS方法进行估计得到。

假设已知训练集D＝{(X₁,Y₁),(X₂,Y₂),...,(X_Γ,Y_Γ)}，根据最大熵模型使用最大似然的方法来估计参数，那么，对于条件概率模型p＝(y|x,λ)，训练集D的对数似然函数为式(1)所示：

是训练集样本的经验概率分布，其条件概率的公式为式(2)所示：

其中Z(x)是归一化因子。因此，经验分布的概率和条件概率的数学期望通过条件随机场模型求得，其表达式如式(3)、(4)所示：

根据对数最大似然函数，通过求其一阶导数可以得到相应的参数，L-BFGS法比传统的迭代尺度法、梯度下降法更加有效。该方法可以看作是一个黑盒子优化程序仅仅需要提供要优化函数的一阶导数，其表达式如式(5)所示：

根据最大熵模型原理，条件概率模型的特征分布期望等于经验分布的期望，那么参数估计的问题就可以通过优化方法来解决。

在上面的介绍中，给出了对数似然函数L(λ)的梯度计算表达式，即经验分布的数学期望减去条件概率p(y|λ,x)的数学期望，该条件概率是通过条件随机场模型得出。经验分布的数学期望是训练数据集中满足特征约束的随机变量(x,y)的数量，条件概率的数学期望本质上是计算p(y|λ,x)。

步骤四、评价对象识别，对测试集同样进行预处理、标注，预处理和标注的方法同训练集，目的是为了保证其一致性，提取训练语料文本的相关特征，结合步骤三训练好的模板，引入条件随机场模型进行评价对象的识别，对于输入的序列X(X₁,X₂,...,X_n)，输出序列Y(Y₁,Y₂,...,Y_n)的概率计算公式如(6)所示：

在这里Z(x)是归一化因子，它是所有Y状态的概率和，使用Z(x)作为分母，这样可以确保所求的概率小于1，n表示输入序列X的长度，X_i表示输入的各文本特征，Y_i表示输出序列的可能出现的状态，将文本特征X_i输入之后会得到一系列Y_i的概率值，我们取其最大值作为识别的结果，Z(x)的具体表达式为：

在这里y|_e和y|_v分别表示由注释序列组成的无向图的边和结点，t_i表示边e的传递特征函数，s_k是定义在结点v上的状态特征函数，μ_k和λ_i分别表示结点特征和边特征的权重。t_i和s_k都和位置有关系，是局部特征函数。通常，特征函数t_i和s_k取值为1或0；当满足特征条件时取值为1，否则为0。条件随机场完全由特征函数t_i、s_k和对应的权值λ_i、μ_k确定。

Claims

1.基于语义特征的评价对象识别方法，其特征在于：先对评论语料进行预处理；自定义特征模板，根据模板在评论语料中提取相应的特征；利用条件随机场模型进行评价对象识别。

2.根据权利要求1所述基于语义特征的评价对象识别方法，其特征在于：所述评价对象识别方法包括下述步骤：

（1）文本语料预获取以及评论语料预处理；即通过网络爬虫在电商网站的在线评论中获得文本语料，对评论语料进行分词、词性标注、情感词标注以及语义角色分析，并从评论语料中获取词特征、词性特征、情感词特征、语义角色特征；

（2）训练模型；即从评论语料中抽取五分之四的评论语料作为训练集，从训练集中提取的特征来训练自定义的特征模板，根据训练结果，得到每个特征的权重；

（3）评价对象识别；即将剩余的五分之一评论语料作为测试集，根据步骤（2）得到的特征模板，在测试集中提取与模板相对应的词特征、词性特征、情感词特征以及语义角色特征，然后利用条件随机场模型计算概率P（y|x），x为输入序列，y为输出序列，从输入序列中获得最佳结果。

3.根据权利要求1所述基于语义特征的评价对象识别方法，其特征在于：引入语义特征，所述语义特征包括情感词特征、语义角色特征，通过情感词特征估计评价对象的位置，并且通过语义角色特征捕捉句子中施事者与受事者。

4.根据权利要求1所述基于语义特征的评价对象识别方法，其特征在于：将测试集中的特征作为输入序列x，评价对象、评价词作为输出作为输出序列y，计算条件概率P（y|x），取条件概率P（y|x）的最大值作为最佳结果。