CN111144929A

CN111144929A - 面向汽车行业用户生成内容的评论对象及词联合抽取方法

Info

Publication number: CN111144929A
Application number: CN201911229735.0A
Authority: CN
Inventors: 丛聪; 郭伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-05-12

Abstract

本发明公开了一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，包括：获取用户数据并进行整合及预处理，使得用户数据的格式及命名方式统一，选取部分数据作为训练样本集进行人工标注；搭建汽车领域专业词词典；对预处理后的用户数据进行词性标注，设计用户数据评价特征词的提取规则，提取用户评价的特征词构建评价特征词词典；设计CRFs模板的特征，将构建的词典引入特征模板中；将训练和测试的数据转换为CRF++所需要的特征模板的格式，将特征按序列写入特征模板中，训练CRF++模板获得训练模型，利用训练模型进行测试实现多特征融合的评价对象及评价词的联合抽取。本发明减少了噪音内容对抽取结果的干扰，能够适应汽车领域用户生成内容的抽取。

Description

面向汽车行业用户生成内容的评论对象及词联合抽取方法

技术领域

本发明涉及文本挖掘与自然语言处理领域，尤其涉及一种面向汽车行业用户生成内容的评论对象及词联合抽取方法。

背景技术

汽车产品本身的结构比较复杂，用户难以从严谨的产品说明书或是官方配置信息中获得想要的信息。近些年汽车垂直网站快速发展，用户乐于在口碑、论坛包括投诉等渠道分享自己的购买决策经历和使用体验，用户主导的互联网服务模式产生了大量的用户生成内容，这些大规模的非结构化数据中蕴藏着丰富的用户需求信息，不仅为其他用户做出购买决策提供了依据，也为汽车产品的改进提供了参考，充分识别互联网上用户评论内容中的知识将更加准确了解用户的需求，推动汽车产品的更新迭代。

信息抽取的目的是将非结构化或半结构化描述的语言文本转化成结构化数据，用户评论内容的抽取主要从文本中识别出评论对象及评论词抽取出结构化的数据，结构化的数据对企业进行产品竞争及更新具有重要的意义。

评论对象及评论词的识别是进行信息抽取的关键，常用的识别方法主要分为三种，基于规则的方法、基于统计的方法以及规则和统计相结合的混合方法。其中，基于规则的实体识别方法需要人工制定规则，规则的制定依赖于极强的专业知识及文本格式。基于统计的方法，常用的算法有隐马尔可夫模型、最大熵模型、条件随机场等。

基于此，本研究立足互联网环境下的汽车领域产品信息的组织与挖掘，面向汽车垂直领域的网站平台，结合文本挖掘与自然语言处理技术，利用CRFs(条件随机场)的序列标注，对用户评论内容特征进行分析，构建一种能够准确对评论对象及评论词进行识别并联合抽取的方法。

现有研究中较多的抽取方法是对抽取评论对象及评论词进行单独识别，现有的技术在针对汽车领域的实体抽取进行分析时，存在如下问题：

1)信息抽取技术需要适应新的领域，目前在多个专业领域内都有相应的研究，而面向汽车用户生成内容的信息抽取技术的研究还十分欠缺。

2)对汽车专业领域词库广度与深度不够，缺少用户表达内容的部分。用户的表述通常使用功能属性的缩略词或者是在文字表述时出现错别字、功能的近义说法，这些情境会造成实体抽取结果的准确度降低。

3)用户生成内容千差万别，评论对象与评论词之间存在不同关系，如用户对于产品属性表示满意、抱怨等，对于评论对象及评论词的抽取，充分考虑评价词的特征及二者的关系，将减少抽取的难度提高准确度。

4)对于评论对象或相应评论词的单独抽取，不能很好的反应文本的上下文环境，并且由于网络评论中语言的不规范性、新兴网络词语的使用，单独进行抽取忽视了评论对象及评论词之间的关系，可能会使部分评价对象或评价词被过滤出去，导致抽取结果有所偏差。

发明内容

本发明提供了一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，本发明面向汽车行业用户生成内容，利用CRFs(条件随机场)的序列标注结合汽车领域专业词词典和评价特征词词典，融合多种特征进行知识的抽取，详见下文描述：

一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，所述方法包括：

获取用户数据并进行整合及预处理，使得用户数据的格式及命名方式统一，选取部分数据作为训练样本集进行人工标注；

搭建汽车领域专业词词典；对预处理后的用户数据进行词性标注，设计用户数据评价特征词的提取规则，提取用户评价的特征词构建评价特征词词典；

设计CRFs模板的特征，将构建的词典引入特征模板中；

将训练和测试的数据转换为CRF++所需要的特征模板的格式，将特征按序列写入特征模板中，训练CRF++模板获得训练模型，利用训练模型进行测试实现多特征融合的评价对象及评价词的联合抽取。

其中，所述汽车领域专业词词典包括：

汽车本体知识库、汽车领域用户生成内容中的谐音词、错别词、利用word2vec训练词向量提取产品属性的相似词。

进一步地，所述特征词词典包括：增加关系词典、满意词典及抱怨词典。

其中，所述将构建的词典引入特征模板中具体为：

特征包括词法特征、汽车领域专业词词典特征、评价特征词词典特征、评价对象及评价词的之间依存关系特征及相对位置特征。

本发明提供的技术方案的有益效果是：

1、本发明在利用评论内容特征及产品的功能应用角度所定义的关系类型的前提下，充分考虑评价对象和评价词之间的关系包括评论对象及评论词的依存关系及相对位置关系；

2、本发明构建汽车领域专业词词典及评价特征词词典将其引入CRF++(CRFs的实现***)模板之中，进行多种特征的融合；

3、本发明减少了噪音内容对抽取结果的干扰，能够适应汽车领域用户生成内容的抽取，保证抽取结果的准确性。

附图说明

图1为一种面向汽车行业用户生成内容的评论对象及词联合抽取方法的框架；

图2为汽车领域专业词词典的搭建示意图；

图3为CRFs(条件随机场)的抽取规则及模板设计图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，参见图1，该方法包括以下步骤：

101：获取汽车行业互联网的用户数据，存入本地数据库中，并对用户数据进行整合及预处理(去停用词、分词)，使得用户数据的格式及命名方式统一，随机选取部分数据作为训练样本集进行人工标注，标注形式为<评论对象，评论词>；

102：搭建汽车领域专业词词典；

其中，汽车领域专业词词典主要包括汽车本体知识库、加上汽车领域用户生成内容中的谐音词、错别词、利用word2vec训练词向量提取产品属性的相似词。

103：对步骤101中预处理后的用户数据进行词性标注，设计用户数据评价特征词的提取规则，提取用户评价的特征词构建评价特征词词典，主要包括：增加关系词典、满意词典及抱怨词典；

具体实现时，用户通常会使用“差”、“可靠”等词语描述对于汽车产品属性的看法，将此类词语定义为评价特征词。

增加关系词典：当汽车产品缺少某功能属性或用户对某功能属性有需求时，用户通常会使用“无”、“没有”、“缺少”等词语，将这些词语定义为增加关系的特征词，构建增加关系词典。

满意词典：用户对于汽车产品属性满意时，通常使用“不错”、“可靠”等相关表述，利用口碑数据中“最满意的点”提取上述类型的评价词构建满意词典。

抱怨词典：用户对于汽车产品属性不满意时，通常使用“不好”、“严重”等相关的抱怨词，利用口碑数据中“最不满意的点”及用户投诉数据提取上述类型的抱怨词构建抱怨词典。

104：设计CRFs(条件随机场)模板的特征，将步骤102、103步所构建的词典引入特征模板中，因此设计的特征主要包括词法特征(分词及词性标注的结果)、汽车领域专业词词典特征、评价特征词词典(增加关系词典、满意词典及抱怨词典)特征、评价对象及评价词的之间依存关系特征(评价对象与评价词之间往往存在直接的依存关系，如主谓关系、定中关系等)及相对位置特征；

105：将训练和测试的数据转换为CRF++(CRFs的实现***)所需要的特征模板的格式，将步骤104中所述的特征按序列写入特征模板中，训练CRF++模板获得训练模型，利用训练模型进行测试实现多特征融合的评价对象及评价词的联合抽取。

其中，CRF++是CRFs的一个实现***，运用的工具包为CRF++0.58，在CRF++0.58中训练CRFs模板。

综上所述，本发明实施例通过上述步骤101-步骤105实现了针对汽车行业用户生成内容评论对象及评论词的联合抽取。

实施例2

下面结合具体的方法、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：汽车垂直类网站口碑内容的获取；

1)具体数据主要包括：

①车型数据：车型所属品牌、车型类别、上市时间及“发动机”、“变速箱”、“安全气囊”、“胎压监测”等相应的配置。

②用户评论内容：购买车型、购买时间、“最满意的一点”、“最不满意的一点”、“空间”、“动力”、“操控”、“外观”、“内饰”、“油耗”、“舒适性”、“性价比”等各产品属性的用户的评论内容等。

2)对获取的数据进行清洗、整合及预处理

①对文本内容进行预处理，删除掉重复数据及内容不完整的数据。

②将获取到的文本内容进行整合，确保车型名称及各功能属性名称指代统一。

3)随机选取部分数据，进行人工标注

随机选取部分数据作为训练样本集，对其去停用词、分词并进行人工标注，设计相对简单的标记形式，以免标记过于复杂：文本内容评价对象标记为“CO”，评价词标记为“CW”，其他无关词语标记为“WU”，最后一列提取出<评价对象-评价词>，训练样本集用于后续CRF++(CRFs的实现***)模型的训练。

202：构建汽车领域专业词词典

汽车领域专业词词典主要用于作为分词的自定义词典增加分词的准确性以及引入特征模板进行指导。

其中，汽车领域专业词词典主要包括汽车本体知识库及对于汽车产品属性用户的相应表述词。汽车本体知识库包括：汽车***大类及各部分的功能、性能，如动力***、传动***、底盘、电气***、车身附件及电器等、各***具体的零部件以及评价汽车行驶、转向、制动等各性能评价指标；对于汽车产品属性用户的相应表述词包括利用word2vec训练词向量，获得用户生成内容的词向量模型，通过计算词语之间的相似度，提取产品属性的近义词，还包括一些用户在表述时的谐音词及错别词如：“后备箱”与“行李箱”、“座位”与“坐位”等。

203：设计评价特征词的提取规则进行提取，构建评价特征词词典

其中，评价特征词词典，主要包括：增加关系词典、满意词典及抱怨词典。具体的构建方法如下：

增加关系词典：当汽车产品没有某个功能或用户对某功能有需求时，用户通常会使用“无”、“没有”、“缺少”等词语，这些词语就是增加关系的特征词。主要利用word2vec找到类似的特征表达，加入到词典中，并进行人工的筛选和补充。

满意词典：利用口碑数据中“最满意的点”，删除重复异常内容将文本内容进行分词及词性标注，用户在表述时评价词大多为形容词及动词，设计的提取规则为：pos＝a，pos＝v。

抱怨词典：利用口碑数据中“最不满意的点”及“投诉”数据，设计规则同满意词典。在这里不对于评论特征词典中的评价词语或情感词语进行进一步的划分，将其都归为评论词，构建示例如下表：

Token	Pos	Result
			车身	n
生锈	v	加入抱怨词典
			漆面	n
起泡	v	加入抱怨词典
			开裂	v	加入抱怨词典
严重	a	加入抱怨词典

204：设计CRFs(条件随机场)特征模板的提取特征，将上述构建的词典引入特征模板中，所设计的特征包括词法特征、汽车领域专业词词典特征、评价特征词词典(增加关系词典、满意词典及抱怨词典)特征、句法特征及相对位置特征，具体设计如下：

词法特征：分为词特征及词性标注。词特征为分词结果，如“车门”、“锈蚀”、“严重”，词性特征为词性标注结果，词性特征表明了一个词在句子中的作用。评论对象往往是名词或名词短语，评价词语大部分是形容词、动词，如“生锈v”、“严重a”。

汽车领域专业词词典特征：依据步骤202构建的汽车领域专业词词典，如果测试的文本存在于汽车领域专业词词典中则标记为“zh”，否则为“nozh”；

评价特征词词典特征：依据步骤203构建的增加关系词典、满意词典及抱怨词典，对于测试的文本如果存在于上述三个词典中，则分别标记为“add”、“sa”、“unsa”，其他情况则为“no”。

句法特征：从句法分析结果中抽取出合适的依存关系特征信息。评价对象与评价词之间往往存在直接的依存关系，利用依存关系进行分析的核心思想具体为：首先依据汽车领域专业词典定位评价对象，以评价对象为中心寻找依存关系，筛选处理后获得相对应的评价词。评价对象往往为名词或名词短语，评价词大部分为形容词或动词也有小部分的名词，因此本发明主要利用的依存关系为SBV(主谓关系)以及ATT(定中关系)。

相对位置特征：评价对象与评价词的距离往往是比较近的，评价对象经常出现在评价词的前边或者后边。对于内容短小、撰写不规范的文本来说，当依存关系不存在时，相对位置特征就尤为重要。

CRFs模板的特征提取及相关说明如下：

205：定义CRF++(CRFs的实现***)模板，将训练和测试的数据转换为CRF++所需要的特征模板的格式，进行训练并利用训练模型实现评价对象及评价词的联合抽取。

具体实现时，选用目前综合性能最强的开源工具包CRF++0.58来进行训练，训练模板定义为图3，首先将数据转换为CRF++所需要的数据格式，将步骤204中所提取的特征按序列写入模板中，利用模板训练标记的数据集获得训练模型，最后利用训练好的模型进行测试，完成对于评论对象及评论词的抽取。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，其特征在于，所述方法包括：

设计CRFs模板的特征，将构建的词典引入特征模板中；

2.根据权利要求1所述的一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，其特征在于，所述汽车领域专业词词典包括：

3.根据权利要求1所述的一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，其特征在于，所述特征词词典包括：增加关系词典、满意词典及抱怨词典。

4.根据权利要求1所述的一种面向汽车行业用户生成内容的评论对象及词联合抽取方法，其特征在于，所述将构建的词典引入特征模板中具体为：