CN111858886B

CN111858886B - 一种机场评论的对象与观点抽取***

Info

Publication number: CN111858886B
Application number: CN202010666697.1A
Authority: CN
Inventors: 张日崇; 李肖杨; 孙凯; 胡志元
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2022-05-31
Anticipated expiration: 2040-07-13
Also published as: CN111858886A

Abstract

本发明涉及自然语言处理领域的一种机场评论的对象与观点抽取***，通过设置***逻辑架构上包括数据输入模块、数据预处理和数据划分模块、数据增强模块、评论对象抽取模块、评论内容提取模块、对象与内容匹配模块、评论结果输出模块，利用改进的基于BiLSTM‑CRF模型实现对基于中文的评论对象及评论内容的抽取，从而实现减小对情感分类进行数据标注时的人工成本、扩展标签体系进而关注新的评论对象、标准化展示对特定评论对象的情感倾向，并最终输出标准化的评论匹配结果。

Description

一种机场评论的对象与观点抽取***

技术领域

本发明涉及自然语言处理领域，尤其涉及一种机场评论的对象与观点抽取***。

背景技术

评论对象抽取是情感分析和意见挖掘领域中的一项基本任务，是进行细粒度情感分析的关键问题。它的目标是对文本中所评价的对象进行识别和抽取，这里的评价对象通常是名词或名词短语。评论对象抽取可分为显式抽取和隐式抽取，显式抽取是指评论对象直接出现在评论中，隐式抽取的对象在评论中未明显出现。通常有三种方法解决评论对象抽取的问题，分别是：基于规则的方法、基于线性统计的方法和基于深度学习的方法。近些年，深度学习的方法在许多情感分析的任务中往往有更好的表现。目前的深度学习方法通常是将评论对象抽取视为序列标注问题，通过对文本序列标注，得到其中的评价对象。

目前的抽取模型大多针对英文语系，并且抽取的对象通常是通用领域的数据，还没有针对特定领域，尤其是航空领域的评论对象抽取模型。航空领域的评论对象与日常评论对象有所不同，是具有专业特色的名词及短语。同时，点评和评论中的其他词汇通常为口语，没有完整的句法结构。以上原因导致航空领域评论对象抽取任务具有挑战性。

发明内容

本发明技术方案旨在实现一种机场评论的对象与观点抽取***，***逻辑架构上包括数据输入模块、数据预处理和数据划分模块、数据增强模块、评论对象抽取模块、评论内容提取模块、对象与内容匹配模块、评论结果输出模块；

其中，所述数据输入模块用于采集输入外部对于航班的点评和机场的评论，并将其数据输入至所述数据预处理和数据划分模块，所述数据预处理和数据划分模块包括数据预处理和数据划分两个步骤，所述数据预处理步骤通过对输入的未标注的航班的点评数据用现有标签体系进行关键词匹配，并将其作为评论对象抽取的标签，并对所述机场的评论数据进行分词，筛选出其中的名词和名词短语，然后通过人工过滤和修改，得到相应的抽取标签，并通过人工方式删除其中的异常数据；所述数据划分步骤选择标签重复率最低的数据组合，在多种方式中选择标签重复率最小的标签组合；

所述数据增强模块通过对数据和标注进行同义词替换的处理、去重处理、利用EDA算法进行数据增强三个步骤，得到新的标签集；

所述评论对象抽取模块利用改进的基于BiLSTM-CRF模型的抽取办法抽取评论对象，并将得到的评论对象发送至所述对象与内容匹配模块；所述评论内容提取模块利用情感词构成的情感词典，对评论文本进行匹配，得到具有情感倾向的评论内容并发送至所述对象与内容匹配模块；所述对象与内容匹配模块首先对评论对象抽取的结果做词性筛选，保留名词和动名词词性的评论对象，然后在每一个短句中，用所述评论对象抽取模块抽取出来的情感词与该短句中的评论对象拼接，最后，检查拼接结果是否出现在评论中，如果出现，则作为抽取的最终结果发送至评论结果输出模块，如果没有出现，直接将评论对象作为结果发送至所述评论结果输出模块；

所述评论结果输出模块用于将拼接后的评论结果输出。

所述数据划分步骤中所述多种方式中选择标签重复率最小的标签组合的方法具体为，首先预设目标重复率30%和目标训练集数据量，当前重复率小于预设的重复率时随机取一个词对应的评论数据加入测试集，重新计算重复率；当前重复率大于预设重复率，则取出现频率较少的词对应的句子加入测试集，保证训练集中不会出现该词，不断重复这一过程直到达到预设的测试集的数量；将上述过程整体重复10次，选最终重复率最小的一次作为划分结果，预设重复率设置为50%或40%或30%或20%。

所述数据增强模块的数据增强步骤采用EDA算法实现，所述EDA算法采用4种随机策略进行数据增强：同义词替换、随机***、随机交换、随机删除。

所述评论对象抽取模块的改进的基于BiLSTM-CRF模型对特征输入部分和辅助词典进行修改：在特征输入的部分，使用中文字符的字向量，并使用bert预训练模型，对字向量嵌入；位置和词性特征同时包含了两种特征：一是字符在所在词语中的位置，使用{B,M,E,S}标签，用NLP工具对字符标注特征，二是词性特征，将每个字所属的词的词性作为该字的词性特征，位置和词性特征通过双向LSTM；词典特征是基于4-gram的词典匹配特征，对现有语料进行分词，对分词得到的名词做n-gram的组合，将得到的名词和名词词组加入词典，对每个字符来说，词典特征就对该字前后的4-gram组合判断是否在词典中出现，得到的8维向量就是词典特征；上述三个特征进行拼接，将特征输入到双向LSTM层，然后再通过CRF层，得到最终的结果。

所述评论内容提取模块的情感词典分为积极情感词典、消极情感词典和副词词典，所述对评论文本进行匹配过程为：首先将整句文本按照标点符号分为多个短句，然后对每个短句从积极情感词典和消极情感词典中匹配出相应的情感词，最后根据副词词典对在每个情感词前后找到对应副词，组成评论内容。

技术效果：

本发明对航班和机场应用场景下的用户评论进行评论对象抽取。抽取出来的评论对象主要用于两个方面：一是可以减小对情感分类进行数据标注时的人工成本，二是可以在抽取出的评论对象中发现与固有标签体系不同的新标签，从而扩展标签体系，关注新的评论对象。在实际业务中，航空公司和机场比较关注客户对特定评论对象的情感倾向。所以在抽取出评论对象之后，对相关的观点也进行提取和匹配，以得到用户的完整评论。

上述技术效果作为***，则可以实现以下三点技术效果：

首先，当前还没有航空领域的评论对象及评论内容的抽取***，开发该***是航空公司的迫切需求。通过对航班和机场的评论进行对象抽取，可以帮助航空公司了解用户的关注点和需求，进而对旅客的主要意见做出进一步分析。其次，开发这样一个***，能够辅助情感分析相关数据集的标注，节省人工成本。在评论情感分析任务中，需要对大量的评论文本进行评论对象和情感极性的标注。通过评论对象抽取***，可以自动化地提取出评论对象，为情感分析的标注节约时间，并且不受既定标签体系的局限。最后，标签抽取***能够发现新的评论对象，不局限于抽取训练数据中出现过的评论对象。通过对新的评论文本抽取评论对象，往往会得到新的标签，这些新标签可以反映新问题，也可以用于丰富现有的标签体系。这样的***对航空公司及时地改进服务质量具有积极导向作用。

附图说明

图1：整体结构

图2：抽取模型结构

具体实施方式

为了实现上述发明目的，***逻辑架构上包括数据输入模块、数据预处理和数据划分模块、数据增强模块、评论对象抽取模块、评论内容提取模块、对象与内容匹配模块、评论结果输出模块，在模型方面，考虑到数据集规模，采取深度学习评论对象抽取模型和基于规则的评论内容提取结构，对两个模型的结果匹配后输出。在数据集方面，首先解决无标注的问题，然后为解决标签种数过少、避免过拟合，对数据进行同义词替换、去重、EDA等数据增强的处理。该模型的整体结构如图1所示。

数据预处理步骤

本发明的评论数据来源于航班点评和机场评论,其中包括30000条航班点评和2000条机场评论，初始数据均没有标注。航班点评的标注是通过关键词匹配的方式得到的，即用现有标签体系的187个标签与3万条航班点评匹配，作为评论对象抽取的标签。机场评论的标签是通过对评论分词，筛选出其中的名词和名词短语，然后通过人工过滤和修改，得到相应的抽取标签。无论是关键词匹配的标注方法，还是分词加人工过滤的方法，都是由于人工标注成本较高。

对于32000条评论，删除其中的异常数据，包括：(1)没有中文文本的评论；(2)没有匹配到标签的评论；(3)清除表情符号；(4)删除乱码符号。经过数据清洗后，剩下19926条数据，总标签种类数为163。

数据划分步骤

考虑到本发明的标签抽取的目的之一是发现新标签，所以训练集和测试集的抽取标签要尽量不重复，以保证模型在抽取新标签任务中的表现。所以在划分数据集的时候，需要选择标签重复率最低的数据组合。

在数据划分的时候，尝试多种划分方法，选择标签重复率最小的情况。具体地，首先预设目标重复率30%和目标训练集数据量。如果当前重复率小于预设的重复率，那么随机取一个词对应的评论数据加入测试集，重新计算重复率；如果当前重复率大于预设重复率，则取出现频率较少的词对应的句子加入测试集，保证训练集中不会出现该词。如此不断重复，直到达到预设的测试集的数量。重复10次上述过程，选最终重复率最小的一次作为划分结果。对于预设重复率，从50%以10%递减至20%，实验表明对于当前的评论数据，预设30%的划分效果是最好的。最终航班点评数据的训练集15896条数据，测试集4030条数据，标签重复率降到33%。对于2000条机场评论，通过分词加人工筛选的方法，去掉没有标签的特殊评论，得到1418条评论和708个新标签，加入到训练集中。

数据增强模块

数据预处理步骤和数据划分步骤对标签处理，得到的数据都有对应的抽取标签。但由于上述标签匹配方法的局限性，使得航班点评2万条数据对应的标签种数只有163种。得到的标签数量与训练数据相比规模太小，特别是航班点评部分，容易造成过拟合，以至于难以抽出新的标签。

首先，针对标签种数不够的问题，对数据和标注进行同义词替换的处理。具体地，利用中文同义词词典，对标签和评论文本中出现的标签按照同义词词典中的比例进行同义词替换，达到丰富标签种类的目的。对163个标签扩展为395个标签。

其次，由于评论数量过多，对数据进行去重处理，即控制每个标签对应的数据数量。对每个标签，保留4条左右的训练数据。

最后，考虑到该数据集的文本均为短文本，且构成较为简单，所以选择利用2019年提出的EDA（Easy Data Augmentation）算法进行数据增强。该算法被证明能够显著提高自然语言处理模型在小数据集上的性能，并降低过拟合程度。EDA算法的目的是通过已有文本产生与其语义相近的新文本，该算法采用了4种随机策略进行数据增强：(1)同义词替换，该方法从文本中随机选取出若干个非停用词的单词，利用同义词将其替换；(2)随机***，该方法从文本中随机找出一个非停用词的单词，获取其同义词，并将该同义词***到句子中的随机位置，重复若干次；(3)随机交换，该方法从文本中随机选择两个单词进行位置交换，重复若干次；(4)随机删除，以某个固定概率从句中移除单词。

经过上述处理，最终的训练集规模是2396条数据，测试集规模是1440条数据，总共1016个标签，训练集与测试集的标签重复率为33%。

评论对象抽取模块

通过数据增强，得到了适合于评论对象抽取的训练数据。在评论对象抽取的环节，使用2018年Yanzeng Li等人提出的基于BiLSTM-CRF模型的抽取办法，对特征输入部分和辅助词典做了修改。模型整体结构如下。

首先目前大多数抽取模型都是针对英文语系的模型，是基于单词的模型。而在中文里，字是是表示语义的基本单位，所以本模型是基于字的模型。在特征输入的部分，第一个特征就是中文字符的字向量。为了更好地提升模型效果，本发明使用bert预训练模型，对字向量嵌入。

位置和词性特征同时包含了两种特征。一是字符在所在词语中的位置，使用{B,M,E,S}标签，用NLP工具对字符标注特征。二是词性特征，词性特征本来是基于词的特征，这里将每个字所属的词的词性作为该字的词性特征。位置和词性特征通过双向LSTM。

词典特征是基于4-gram的词典匹配特征，本特征依赖于预定义的抽取词典。在本发明中，对现有语料进行分词，对分词得到的名词做n-gram的组合，将得到的名词和名词词组加入词典。对每个字符来说，词典特征就对该字前后的4-gram组合判断是否在词典中出现。得到的8维向量就是词典特征。

三个特征进行拼接，将特征输入到双向LSTM层，然后再通过CRF层，得到最终的结果。

评论内容提取模块

除了评论对象，实际中航空公司往往还关注评论对象对应的评论内容。而常见的情感词汇通常比较固定，如“很好”、“不错”、“太差”等等。利用这些情感词构成的情感词典，对评论文本进行匹配，可以得到具有情感倾向的评论内容。

具体地，情感词典分为积极情感词典、消极情感词典和副词词典。首先将整句文本按照标点符号分为多个短句。然后对每个短句从积极情感词典和消极情感词典中匹配出相应的情感词。最后根据副词词典对在每个情感词前后找到对应副词，组成评论内容。

评论	评论内容
		餐食可以，空姐颜值不错	可以、不错
机长的驾驶技术非常棒	非常棒

表1 评论内容抽取示例

评论对象与评论内容匹配模块

通过对评论文本的观察，可以发现，如果评论对象有比较明确的评论内容，那么该评论内容往往会出现在相应的评论对象附近。考虑到这种特性，在分别提取评论内容和和评论对象之后，将二者匹配即可得到完整的评论。

具体地，首先对评论对象抽取的结果做词性筛选，保留名词和动名词词性的评论对象。然后在每一个短句中，用评论对象抽取模型抽取出来的情感词与该短句中的评论对象拼接。最后，检查拼接结果是否出现在评论中。如果出现，则作为抽取的最终结果；如果没有出现，很可能是该评论对象没有对应的情感词汇，所以直接将评论对象作为结果输出。

评论	评论内容	评论对象	匹配结果
				餐食可以，空姐颜值不错	可以、不错	餐食、空姐颜值	餐食可以、空姐颜值不错
机长的驾驶技术非常棒	非常棒	驾驶技术	驾驶技术非常棒

表2 评论内容和评论对象匹配示例。

Claims

1.一种机场评论的对象与观点抽取***，其特征在于：***逻辑架构上包括数据输入模块、数据预处理和数据划分模块、数据增强模块、评论对象抽取模块、评论内容提取模块、对象与内容匹配模块、评论结果输出模块；

其中，所述数据输入模块用于采集输入外部对于航班的点评和机场的评论，并将其数据输入至所述数据预处理和数据划分模块，所述数据预处理和数据划分模块包括数据预处理和数据划分两个步骤，所述数据预处理步骤通过对输入的未标注的航班的点评数据用现有标签体系进行关键词匹配，将其作为评论对象抽取的标签，并对所述机场的评论数据进行分词，筛选出其中的名词和名词短语，然后通过人工过滤和修改，得到相应的抽取标签，并通过人工方式删除其中的异常数据；所述数据划分步骤选择标签重复率最低的数据组合，在多种方式中选择标签重复率最小的标签组合；

所述评论结果输出模块用于将拼接后的评论结果输出；

所述评论对象抽取模块的改进的基于BiLSTM-CRF模型对特征输入部分和辅助词典进行修改：在特征输入的部分，使用中文字符的字向量，并使用bert预训练模型，对字向量嵌入；位置和词性特征同时包含了两种特征：一是字符在所在词语中的位置，使用{B,M,E,S}标签，用NLP工具对字符标注特征，二是词性特征，将每个字所属的词的词性作为该字的词性特征，位置和词性特征通过双向LSTM；词典特征是基于4-gram的词典匹配特征，对现有语料进行分词，对分词得到的名词做n-gram的组合，将得到的名词和名词词组加入词典，对每个字符来说，词典特征就对该字前后的4-gram组合判断是否在词典中出现，得到的8维向量就是词典特征；上述字符在所在词语中的位置、词性特征、词典特征三个特征进行拼接，将特征输入到双向LSTM层，然后再通过CRF层，得到最终的结果。

2.如权利要求1所述一种机场评论的对象与观点抽取***，其特征在于：所述数据划分步骤中所述多种方式中选择标签重复率最小的标签组合的方法具体为，首先预设目标重复率30%和目标训练集数据量，当前重复率小于预设的重复率时随机取一个词对应的评论数据加入测试集，重新计算重复率；当前重复率大于预设重复率，则取出现频率较少的词对应的句子加入测试集，保证训练集中不会出现该词，不断重复这一过程直到达到预设的测试集的数量；将上述过程整体重复10次，选最终重复率最小的一次作为划分结果，预设重复率设置为50%或40%或30%或20%。

3.如权利要求2所述一种机场评论的对象与观点抽取***，其特征在于：所述数据增强模块的数据增强步骤采用EDA算法实现，所述EDA算法采用4种随机策略进行数据增强：同义词替换、随机***、随机交换、随机删除。

4.如权利要求3所述一种机场评论的对象与观点抽取***，其特征在于：