CN110442728A

CN110442728A - 基于word2vec汽车产品领域的情感词典构建方法

Info

Publication number: CN110442728A
Application number: CN201910580589.XA
Authority: CN
Inventors: 汪金亮; 郭伟; 邱泽成
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-12

Abstract

本发明公开了一种基于word2vec的汽车产品领域的情感词典构建方法，包括：利用python定向爬虫技术扒取汽车垂直类网站用户评论数据，解析得到以网站—车型—口碑为主体的结构化数据并存储到postgresql数据库中；对数据库中口碑数据进行数据清洗，包括数据缺失值的处理、噪声数据的清洗、简繁转换等；选取部分文本进行情感标注作为训练集，其中1为正向，0为负向；利用word2vec进行模型训练，将大批量文本数据导入训练模型进行相似度计算；基于现有情感词典对初始情感词典进行进一步扩充；输出文本得到情感词典，并最终进行人工反向情感词补充。本发明解决了基于人工和基于知识库的方法所构造的情感词典在处理汽车领域情感分析时分析不准确的问题。

Description

基于word2vec汽车产品领域的情感词典构建方法

技术领域

本发明涉及识别领域，尤其涉及一种基于word2vec的汽车产品领域的情感词典构建方法。

背景技术

2019年2月28日，中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》^[1]。截至2018年12月，我国网民规模达8.29亿，全年新增网民5653万，互联网普及率为59.6％，较2017年底提升3.8个百分点。随着网民规模的迅猛发展，数据也随着井喷式产生和急速积累。“科技预言帝”凯文·凯利说，到2050年，全球数据总量将达到100万ZB的天文量级。

随着互联网的普及，用户可随时随地通过互联网平台表达自己的情感和态度。通过对这些带有情感色彩的评论文本进行挖掘分析，可以有效地帮助商家聚焦用户最关心问题及商品属性，了解用户对产品满意度，从而有针对性的在下一代产品迭代中延续上一代产品优点，改进用户提出的问题点，提升市场竞争力。因此，挖掘隐含在产品评论背后的用户情感倾向，能够较为有效地帮助企业发现消费者集中抱怨的缺陷，以迎合消费者的需求^[2]。

在用户情感倾向分析中，情感词典作为最重要的分析工具不可或缺。但是，目前中文情感词典相对较少，各领域内情感词典并不兼容，且通用性较低，同一情感词在不同语境中亦有不同情感倾向，如“底盘高”与“油耗高”所表达的情感截然相反。

为帮助汽车厂商全面了解相关产品属性客户情感倾向，本发明面向汽车垂直领域的网站平台，结合文本挖掘、数据处理以及word2vec技术，建立汽车产品领域情感词典，为汽车厂商精准把控客户偏好奠定基础。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

1)人工整理情感词典，效率低；

2)以General Inquirer(GI)、SentiWordNet半自动方式创建情感词典，覆盖范围有限，领域适应性和可靠性较差^[3][4]，且需要大量的人工标注工作，效率较低，易受到主观性的影响，强度标注的细粒度与精确度也得不到保证；

3)利用语义知识库扩充情感词典，如WordNet、HowNet^[5][6]，过于依赖语义知识库，覆盖范围有限，领域适用性较差；

4)新词汇以及变种词汇的不断涌现，各种网络新词的不断涌现造成词典的滞后以及词典本身的质量等问题，使情感词典无法匹配到有效地情感词，造成分析失败，故需要对词典进行实时更新。

参考文献

[1]CNNIC发布第43次《中国互联网络发展状况统计报告》[J].网信军民融合,2019(02):37-38.

[2]Guo W,Liang R Y,Wang L,et al.Exploring sustained participation infirm-hosted communities in China:the effects of social capital and activedegree[J].Behaviour&Information Technology,2017,36(3):223-242.

[3]王科，夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(04):495-511.

[4]谢松县，刘博，王挺.应用语义关系自动构建情感词典[J].国防科技大学学报,2014,36(03):111-115.

[5]Kim S M，Hovy E.Determining the Sentiment of Opinions[C].Proceedings of the 20th International Conference on ComputationalLinguistics.Association for Computational Linguistics,2004.

[6]Hassan A，Radev D.Identifying Text Polarity Using Random Walks[C].Proceedings of the 48th

Annual Meeting of the Association for ComputationalLinguistics.Association for Computational Linguistics,2010:395-403.

发明内容

本发明面向互联网汽车垂直网站，结合文本挖掘、数据处理与word2vec技术，构建了一种基于word2vec的汽车产品领域的情感词典构建方法，解决了人工构建情感词典效率低、过于依赖WordNet、HowNet语义知识库、覆盖范围狭小、领域适用性差以及情感新词识别等问题，详见下文描述：

一种基于word2vec的汽车产品领域的情感词典构建方法，所述方法包括以下步骤：

利用python定向爬虫技术扒取汽车垂直类网站用户评论等数据，解析得到以网站—车型—口碑为主体的结构化数据并存储到数据库中；

对数据库中口碑数据进行数据清理，包括数据缺失值的处理、噪声数据的清洗、简繁转换等；

选取部分文本进行情感标注作为训练集；利用word2vec进行模型训练，将大批量文本数据导入训练模型进行相似度判断，基于输出文本得到最初情感词典；

结合现有情感词典对未能识别或相似度较小的词语进行语义相似度计算，对情感词典进行扩充；

对上述所得情感词典进行人工筛选并进行反向情感词补充，输出得到最终情感词典。

其中，所述抓取原始数据具体为：

1)车型数据，包括：垂直网站内的车型类别、车型品牌、以及车型价格区间；

2)口碑数据，包括：用户针对不同车型所做出的基于汽车属性的评价内容及相关评价时间。

进一步地，所述数据抓取方法具体为：

构造MRQ分布式数据采集框架，抓取多个汽车垂直类网站的用户评论模块，以“网站—车型—口碑”的树形结构存入postgresql数据库中，并定期对其进行增量抓取。

其中，所述数据训练集获取方法具体为：

对“最满意的一点”与“最不满意的一点”根据评论时间、车型价格区间赋予适当权重，基于此进行训练集的随机挑选，并将正负面情感语句进行标注。

进一步地，所述相似度计算方法具体为：

基于词向量余弦大小进行相似度判定，相关公式为：

其中，所述情感词典扩充方法具体为：

对大连理工大学中文情感词汇本体库、知网情感词典以及哈工大的同义词库进行去重和整理；

对训练出的词语进行过滤，筛选出未能识别或相似度较小的词语，将其同去重整理后的情感基准词词典进行语义相似度计算，最终确定其情感倾向；

对上述情感词典进行人工进一步筛选，并进行反向扩充，输出最终情感词典。

本发明提供的技术方案的有益效果是：

1、本发明解决了人工整理情感词典的效率低下，General Inquirer(GI)、SentiWordNet半自动方式创建情感词典领域适应性和可靠性较差、且需要大量的人工标注工作、效率较低的问题；

2、本发明解决了WordNet、HowNet过于依赖语义知识库，各种网络新词的不断涌现造成的词典滞后的问题；

3、本发明通过综合大连理工大学中文情感词汇本体库以及知网情感词典(HOWNET)，基于语义相似度对词典进行扩充，解决了传统方法所构造情感词典覆盖不全面的问题；

4、本发明解决了基于语义知识库所构造情感词典在处理汽车领域情感分析时分析不准确的问题，方便市场分析人员更加准确的把握用户描述的汽车属性的情感倾向。

附图说明

图1为一种基于word2vec的汽车产品领域的情感词典构建方法的流程图；

图2为数据存储结构的示意图；

图3为基于word2vec进行情感判别示意图；

图4为情感词典扩充示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于word2vec的汽车产品领域的情感词典构建方法，参见图1，该方法包括以下步骤：

101：利用MRQ(Python基于Redis、Mongo和gevent的分布式任务队列)分布式数据采集机制抓取多个汽车垂直类网站的用户评论模块，并以“网站—车型—口碑”的树形结构存入postgresql数据库中；

102：提取数据库中的口碑数据，口碑数据共包括“最满意的一点”、“最不满意的一点”、“空间”、“动力”、“操控”、“油耗”、“舒适性”、“外观”、“内饰”、“性价比”十部分，选取口碑数据中“最满意的一点”与“最不满意的一点”，对选取数据进行预处理：剔除异常评论，以标点符号为切割点进行切割，化长句为短句；

103：随机抽取评论数据作为训练样本集，其中所抽取样本需为有用评论：即同时包含情感词及属性词的完整语句。随后对其进行人工标注，其中正面评论标为1，负面评论标为0；

104：将训练样本集进行分词，去停用词处理，将处理后文本作为word2vec的输入文件并指定合适的训练参数，进行中文词向量的训练，并进行相似度计算；

105：对大连理工大学中文情感词汇本体库、知网情感词典(HOWNET)以及哈工大的同义词库进行去重和整理，形成情感基准词词典。对训练出的词语进行过滤，筛选出未能识别或相似度较小的词语，将其同去重整理后的情感基准词词典进行语义相似度计算，最终确定其情感倾向；

106：人工筛选训练结果，并进行反向情感词的补充。

综上所述，本发明实施例通过上述步骤101-步骤106实现了对汽车产品领域的情感词典的构建，提高了对汽车领域进行情感分析时的准确率。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：通过数据抓取获取多个汽车垂直网站的用户口碑数据并存储到数据库中；

其中，该步骤201具体为：

1)通过python语言基于MRQ分布式数据采集机制针对所要抓取的汽车垂直类网站进行程序编写，抓取所需信息网页源码，并基于正则表达式对网页源码进行解析得到具体车型信息以及该车型下评论数据。

上述抓取的数据包括网站链接、网页源码、用户信息、车型信息、发帖时间等，其中主要为用户口碑数据。用户口碑数据又分类为：“最满意的一点”、“最不满意的一点”、“空间”、“动力”、“操控”、“外观”、“内饰”、“油耗”、“舒适性”、“性价比”；

2)将抓取的数据以“网站—车型—口碑”的树形结构存入本地数据库中，如图2所示；

3)每周对上述数据进行增量抓取，以对应新出现的汽车属性及网络词汇。

202：实验数据准备

1)通过sql语句从数据库中读取口碑数据，随后将口碑数据按类型划分，分别得到“最满意的一点”以及“最不满意的一点”；

2)将长评论文本以标点为分割点进行分割，得到短评论文本；

3)对短评论文本进行进一步筛选，剔除无用信息及异常评论，降低噪声。

203：根据年份、车型等级及车型价格区间随机抽取评论文本；

1)为最小限度降低其他因素对实验结果的影响，对步骤202所得短评论文本，根据车型年份、车型等级及车型价格区间进行划分，根据恰当权重随机抽取评论文本，保证评论数据覆盖范围全面，增大普适性。其中正面评论共计200条，负面评论共计400条；

2)将所抽取评论文本进行人工标注，其中1为正向，0为负向，标注时，需由三位对汽车知识有基本了解的同学独立标注，选择三个标注结果中最大值作为标注结果。

204：标注文本的预处理及模型训练

1)载入jieba分词，对所标注文本进行分词，随后载入去停用词词库，去除非检索用词，如“的”，提高关键词密度，节省存储空间和提高搜索效率；

2)将处理后文本作为word2vec的输入文件并指定合适的训练参数，通过深度学习的思想进行中文词向量的训练，将文本内容映射到高维连续向量空间中，形成k维向量，再通过计算词向量余弦大小进行相似度判断，以此实现近义词的扩充以及新词的情感识别，如两个k维向量m(x₁₁,x₁₂,x₁₃,…,x_1k),n(x₂₁,x₂₂,x₂₃,…,x_2k)，余弦计算公式如下；

205：情感词库的扩展

1)由于评论中多错别字、网络词汇、谐音字等，所获得词库存在覆盖不全面的可能，因此需对步骤204所获得的情感词典进行扩充，即将上下文中未出现在现有情感词典中的词语进行情感识别并扩充。

首先对大连理工大学中文情感词汇本体库、知网情感词典(HOWNET)以及哈工大的同义词库进行去重和整理，得到全新的情感基准词词典。

2)对步骤204训练出的词语进行过滤，筛选出未能识别或相似度较小的词语，将其同去重后的情感基准词词典进行语义相似度计算最终确定其情感倾向。

206：对情感词典进行反向情感词扩充

1)首先将训练结果进行人工筛选，去除不符合语境的错误类型；

2)对筛选后结果进行反向情感词的扩充，上述词典形成后，存在部分属性只包含正向或负面情感，如“起步肉”、“底盘低”，此时需进行扩充，人工添加“起步快”、“底盘高”等，对于属性中既包含负面又包含正面的语句则不再进行处理。

综上所诉，本发明实施例通过上述步骤可得汽车产品领域的情感词典，所建造情感词典的高准确性及可用性，提高了对汽车领域进行情感分析时的准确率，方便市场分析人员更加准确的把握用户所描述的汽车属性的情感倾向。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于word2vec的汽车产品领域的情感词典构建方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于word2vec的汽车产品领域的情感词典构建方法，其特征在于，所述抓取原始数据具体为：

3.根据权利要求1所述的一种基于word2vec的汽车产品领域的情感词典构建方法，其特征在于，所述数据抓取方法具体为：

4.根据权利要求1所述的一种基于word2vec的汽车产品领域的情感词典构建方法，其特征在于，所述数据训练集获取方法具体为：

5.根据权利要求1所述的一种基于word2vec的汽车产品领域的情感词典构建方法，其特征在于，所述相似度计算方法具体为：

基于词向量余弦大小进行相似度判定，相关公式为：

6.根据权利要求1所述的一种基于word2vec的汽车产品领域的情感词典构建方法，其特征在于，所述情感词典扩充方法具体为：