CN110119443A

CN110119443A - 一种面向推荐服务的情感分析方法

Info

Publication number: CN110119443A
Application number: CN201810049911.1A
Authority: CN
Inventors: 盛益强; 王星凯; 赵震宇
Original assignee: Institute of Acoustics CAS
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2019-08-13
Anticipated expiration: 2038-01-18
Also published as: CN110119443B

Abstract

本发明涉及一种面向推荐服务的情感分析方法，该方法具体包括：步骤1)推荐服务***收集包括文本声调或语音音调在内的用户情感语料，并对所述用户情感语料进行处理，获得文本分类第一语料和第二语料；步骤2)采用卡方统计的方法，从第二语料中选出一部分词来构建同义词替换词库，并通过该同义词替换词库来扩展文本分类第一语料；步骤3)采用转换工具，将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料，并构建字母表对该拼音语料使用独热编码进行ONE‑HOT量化，输入基于卷积神经网络搭建好的分类器中进行分类，通过结合推荐算法和情感分类结果建模，为用户提供推荐服务。

Description

一种面向推荐服务的情感分析方法

技术领域

本发明属于推荐服务和情感分析技术领域，具体涉及一种面向推荐服务的情感分析方法。

背景技术

目前，推荐***如今已经成为了人们生活中必不可少的工具，帮助人们更方便的获取到自己想要的结果。当前，大多数的大型购物网站的推荐***是基于评分的推荐***，商家出于商业方面的考虑，往往会通过雇佣人的方式对大型购物网站进行刷分。因此，评分分数的高低并不能很好的帮助用户进行推荐。现实中，由于每个人评分标准不同，有的人倾向给高分，有的人倾向给低分；而评论往往是出自个人的心中所想，一般含有比较有价值的反馈，因而评论更能反映一个用户的个性化需求。

推荐***采用了两种推荐技术：协同过滤(Collaborative FilteringRecommendation，简写CFR)和内容过滤(Content Based Recommendation，简写为CBR)。其中，协同过滤已经被广泛应用于商业化的推荐***中，协同过滤进一步包括：基于用户的协同推荐和基于项目的协同推荐；根据用户的评分，计算用户或者项目之间的相似度，进而推荐相似邻居或者相似项目。

情感在人类智慧中发挥了重要作用；理性的决策、社交、创新和人类的生活都离不开情感。对于情感的分析，实际上就是对信息进行挖掘和分析，通过大众对媒体的评论了解人们对其内容的看法，得到他们的情感倾向。对文本的情感分析事实上也就是对文本中的主观信息进行倾向性分析和强度分析，这些主观信息都反映了大众的喜好以及个人的诉求。针对情感分析的研究已经成为国内外相关领域的研究热点。

在中文文本情感分析的研究上，2012年，王振宇等人提出了基于HowNet和PMI的词语情感极性计算，采用了基于同义词的SOPMI算法和HOWNET情感词典来计算语义相似度的算法。2014年，谢松县等人提出了应用语义关系自动构建情感词典，借鉴英文的情感词典资源SentWordNet，提出了根据语义模型自动构建情感词典算法，该方法通过词和义之间的关系进行情感值计算。在过去的研究中，基于词典的情感分析往往以构建情感词典为基础；而中文的情感词典资源很少且不够完善，加上中文语言的“一义多词”和“网络化”的影响，一部中文的情感词典往往很难去解决情感分析中的问题。

深度学习是机器学习中一种基于对数据进行表征学习的方法，用于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，例如图像，声音和文本。近年来，深度学习在图像处理和自然语言处理(Natural Language Processing，简写NLP)任务上都取得了不俗的成绩。通过神经网络可以完成多个词向量之间的语义合成计算，更能挖掘文本词之间的特性，从而更好地实现文本的情感分类。特别是在短文本分析任务中，由于句子句长的长度有限、结构紧凑、能够独立表达意思，使得卷积神经网络(Convolutionalneural networks，简写CNN)在处理这一类问题上成为可能。2014年，Kim等人将wordembedding与卷积网络结合，并应用在情感分析和文本分类等若干自然语言处理任务中，获得了非常好的效果。2015年，张翔等人提出了从字符层面使用CNN进行文本分类，不需要使用预先训练好的词向量和语法句法结构等信息，并且容易推广到所有语言。

中文是一种复杂的，带声调的语言。首先，从语音上来说，四声比西方语言中的重音更复杂。其次，汉字的信息量要比其他语言的信息量更大。目前，深度学习模型针对中文文本情感分类的效果一般。然而，包括协同过滤在内的现有推荐***没有充分考虑包括文本声调或语音音调在内的用户个人情感倾向。

发明内容

本发明的目的在于，为解决现有的情感分析方法存在上述缺陷，本发明提供出了一种面向推荐服务的情感分析方法，解决了包括协同过滤在内的现有推荐***由于未充分考虑包括文本声调或语音音调在内的用户个人情感倾向而导致个性化推荐的命中率低下的问题；该方法具体包括：

步骤1)推荐服务***收集包括文本声调或语音音调在内的用户情感语料，并对所述用户情感语料进行处理，获得文本分类第一语料和第二语料；

步骤2)采用卡方统计的方法，从第二语料中选出一部分词来构建同义词替换词库，并通过该同义词替换词库来扩展文本分类第一语料；

步骤3)采用转换工具，将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料，并构建字母表对该拼音语料使用独热编码进行ONE-HOT量化，输入基于卷积神经网络搭建好的分类器中进行分类，通过结合推荐算法和情感分类结果建模，为用户提供推荐服务。其中，ONE-HOT量化是一种现有技术，其过程是：使用N位状态寄存器来对N个状态进行量化，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

在上述技术方案中，所述步骤1)具体包括：采用分词工具对所述用户情感语料进行两次处理：第一，直接对所述用户情感语料进行切分，保留所有词汇，去除标点符号，将包含汉语的语料作为文本分类第一语料；第二，将文本分类第一语料进行分词后，过滤所有标点符号和无意义的特殊词，只保留含有语义信息的词，作为第二语料；其中，所述无意义的特殊词包括：时间词、量词、介词、助词、叹词、语气词和拟声词等。

在上述技术方案中，所述步骤1)具体包括：采用结巴分词(jieba-0.39)，对语料采取了两次处理；第一，使用结巴分词的精确模式，保留所有词汇，去除标点符号，作为文本分类第一语料；第二，采用结巴分词和自然语言处理与信息检索汉语分词***(NaturalLanguage Processing Information Retrieval，简写NLPIR)兼容的标记法，将文本分类第一语料进行分词后，标注句子中每个词的词性，过滤所有标点符号，和无意义的特殊词只保留含有语义信息的词，作为第二语料。

在上述技术方案中，所述步骤2)具体包括：利用卡方统计的方法，从第二语料中选取Top-N个关键词构建同义词词库；其中，N的大小由第二语料的词语数目来决定；其中，所述卡方统计方法是用来衡量两个变量间的相关性，具体为：在文本分类的问题特征选择阶段，主要判断一个特征词和一个类别之间是否相互独立；如果一个特征词和一个分类的类别之间相互独立，则该特征词对于该分类的类别没有表征作用，无法通过该特征词对文本进行分类；如果一个特征词和一个分类的类别之间不相互独立，则该特征词对于该类别有表征作用，进而通过该特征词对文本进行分类。

通过开方检验方法判断某个特征词与某个分类的类别是否相关，具体为：通过计算，开方值越大，则对原假设的偏离就越大；其中，将特征词与某个分类的类别不相关作为原假设；计算实际情况与原假设的开方误差，误差越大，则该特征词和该分类的类别的相关度越高，则某个特征词t和某个分类的类别c的开方值的计算公式(1)如下：

其中，A是属于该分类的类别且包含该特征词的文档数，B是不属于该分类的类别但包含该特征词的文档数，C是属于该分类的类别但不包含该特征词的文档数，D是不属于该分类的类别也不包含该特征词的文档数。

在上述技术方案中，所述步骤2)采用同义词增强方法，扩展文本分类第一语料，具体包括：构建一个哈希映射的集合M，将同义词词库中的Top-N个关键词作为Value，从哈工大同义词词林中找出该关键词对应的同义词作为key。如果文本分类第一语料中的文本包含了集合M中的key，将集合M中相应的Value添加到该文本对应的特征词后面。所述同义词增强方法与以前的数据增强方法相比，解决了大量低频词干扰文本分类的问题，并且实施难度低。

在上述技术方案中，所述步骤3)包括：采用汉字拼音转换工具，简写pypinyin；实现将文本分类第一语料转换为带声调的语料；由于对带声调的语料使用独热编码进行量化；因此，需要构建带声调的字母表；将所述带声调的语料再分为训练集、验证集和测试集；分别将训练集、验证集和测试集输入基于卷积神经网络搭建好的分类器中，并通过全连接层来完成正负情感的映射。

在上述技术方案中，所述步骤3)进一步包括：以基于用户的协同过滤推荐算法为基础，同时考虑到用户的情感倾向，把情感分类的结果加入到推荐***中，为用户提供推荐服务。例如，在电影推荐***中，具体包括以下步骤：

步骤301)提取以及合并电影特征，根据用户对于不同特征电影的评分得到用户u对于电影特征f_i的评分W(f_i，u)；

步骤302)通过情感分析技术，分析评论内容得到用户u对于电影特征f_i的情感极性值N(f_i，u)；将W(f_i，u)和N(f_i，u)进行加权处理得到用户u对于电影特征f_i的兴趣度P(f_i，u)；把用户对于所有电影特征的兴趣度记为P(u)，通过相似性计算公式，得到用户之间的相似度；

步骤303)为用户推荐与兴趣度P(f_i，u)最相似的K个用户喜欢的电影；在推荐服务的过程中，考虑了用户的情感倾向和情感状态，可以更好的适应用户的个性化需求，以更好的实现个性化推荐服务，进而提高推荐服务的质量。

所述推荐服务***包括但不限于电影推荐服务***和酒店推荐服务***。

本发明的优点在于：

本发明考虑到情感对用户行为和喜好的决定有着至关重要的作用，以酒店推荐***为例，提出一种面向推荐服务的情感分析方法，通过挖掘用户评论的情感极性，将评论的情感分类结果引入推荐，以提高个性化推荐的命中率。相对于现有技术，该方法在推荐过程中考虑了用户的情感倾向和情感状态，可以更好的适应用户的个性化需求，以更好的实现个性化推荐服务，进而提高推荐的服务质量。

附图说明

图1是本发明的一种面向推荐服务的情感分析方法的流程图。

具体实施方式

本发明提供出了一种面向推荐服务的情感分析方法，解决了包括协同过滤在内的现有推荐***由于未充分考虑包括文本声调或语音音调在内的用户个人情感倾向而导致个性化推荐的命中率低下的问题；情感倾向对用户行为和喜好的决定有着至关重要的作用。利用情感分析的方法去挖掘用户评论的情感极性，将评论的情感分类结果发送至推荐***，在推荐过程中充分考虑用户的情感倾向和情感状态，可以更好的适应用户的个性化需求，以更好的实现个性化推荐服务，进而提高推荐***的服务质量。该方法具体包括：

在上述技术方案中，所述步骤1)具体包括：采用分词工具对所述用户情感语料进行两次处理：第一，直接对所述用户情感语料进行切分，保留所有词汇，去除标点符号，将包含汉语的语料作为文本分类第一语料；第二，将所述文本分类第一语料进行分词后，过滤所有标点符号和无意义的特殊词，只保留含有语义信息的词，作为第二语料；其中，所述无意义的特殊词包括：时间词、量词、介词、助词、叹词、语气词和拟声词等。

在上述技术方案中，所述步骤1)具体包括：采用结巴分词(jieba-0.39)，对语料采取了两次处理；第一，使用结巴分词的精确模式，保留所有词汇，去除标点符号，作为文本分类第一语料；第二，采用结巴分词和自然语言处理与信息检索汉语分词***(NaturalLanguage Processing Information Retrieval，简写NLPIR)兼容的标记法，将所述文本分类第一语料进行分词后标注句子中每个词的词性，过滤所有标点符号，和无意义的特殊词只保留含有语义信息的词，作为第二语料。

在上述技术方案中，所述步骤3)包括：采用汉字拼音转换工具，简写pypinyin；实现将文本分类第一语料转换为带声调的语料；由于对带声调的语料使用独热编码进行量化；因此，需要构建带声调的字母表；其中，构建带声调的字母表如下所示：

目前中文采用的声调符号采用的是：阴平(ˉ)、阳平(ˊ)、上声(ˇ)去声(ˋ)、轻声(不标调)的方法，并且声调符号都加在韵母上。汉语中的韵母有6个，包括:a、e、i、o、u、v，但是声母v在中文词典中没有读阴平的汉字，所以带声调的字符有23个。加上其他字符共有85个字符构成字母表。

将所述带声调的语料再分为训练集、验证集和测试集；分别将训练集、验证集和测试集输入基于卷积神经网络搭建好的分类器中，并通过全连接层来完成正负情感的映射。例如，在包括谭松波酒店一万条评论在内的语料中，分类器由6个卷积层来提取出多组局部的特征，pooling层提取出每张特征图中最有代表性的特征,参数建议设置如下([隐藏节点，kernel，pool])：con_layers[[128,7,3],[128,7,3],[128,3,None]，[128,3,None]，[128,3,None]，[128,3，3]]，并通过全连接层来完成正负情感的映射，全连接层参数建议设置如下(隐藏节点)：full_layers[512,512]，同时在全连接层之间加入dropout层以实现模型正则化。最终，包括谭松波酒店评论在内的数据集会在该分类器中得到较好的分类结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向推荐服务的情感分析方法，其特征在于，该方法具体包括：

步骤3)采用转换工具，将步骤2)中扩展后的文本分类第一语料转换成带声调的拼音语料，并构建字母表对该拼音语料使用独热编码进行ONE-HOT量化，输入基于卷积神经网络搭建好的分类器中进行分类，通过结合推荐算法和情感分类结果建模，为用户提供推荐服务。

2.根据权利要求1所述的情感分析方法，其特征在于，所述步骤1)具体包括：采用分词工具对所述用户情感语料进行两次处理：第一，直接对所述用户情感语料进行切分，保留所有词汇，去除标点符号，将包含汉语的语料作为文本分类第一语料；第二，将文本分类第一语料进行分词后，过滤所有标点符号和无意义的特殊词，只保留含有语义信息的词，作为第二语料；其中，所述无意义的特殊词包括：时间词、量词、介词、助词、叹词、语气词和拟声词。

3.根据权利要求2所述的情感分析方法，其特征在于，所述步骤1)具体包括：采用结巴分词，对语料采取了两次处理；第一，使用结巴分词的精确模式，保留所有词汇，去除标点符号，将包含汉语的语料作为文本分类第一语料；第二，采用结巴分词和自然语言处理与信息检索汉语分词***兼容的标记法，将文本分类第一语料进行分词后，标注句子中每个词的词性，过滤所有标点符号，和无意义的特殊词只保留含有语义信息的词，作为第二语料。

4.根据权利要求1所述的情感分析方法，其特征在于，所述步骤2)具体包括：利用卡方统计的方法，从第二语料中选取Top-N个关键词构建同义词词库；其中，N的大小由第二语料的词语数目来决定；其中，所述卡方统计方法是用来衡量两个变量间的相关性，具体为：在文本分类的问题特征选择阶段，主要判断一个特征词和一个类别之间是否相互独立；如果一个特征词和一个分类的类别之间相互独立，则该特征词对于该分类的类别没有表征作用，无法通过该特征词对文本进行分类；如果一个特征词和一个分类的类别之间不相互独立，则该特征词对于该类别有表征作用，进而通过该特征词对文本进行分类；

5.根据权利要求4所述的情感分析方法，其特征在于，所述步骤2)采用同义词增强方法，扩展文本分类第一语料，具体包括：构建一个哈希映射的集合M，将同义词词库中的Top-N个关键词作为Value，从哈工大同义词词林中找出该关键词对应的同义词作为key；如果文本分类第一语料中的文本包含了集合M中的key，将集合M中相应的Value添加到该文本对应的特征词后面。

6.根据权利要求1所述的情感分析方法，其特征在于，所述步骤3)包括：采用汉字拼音转换工具实现将文本分类第一语料转换为带声调的语料；由于对带声调的语料使用独热编码进行量化，因此，需要构建带声调的字母表，将所述带声调的语料分为训练集、验证集和测试集，再分别将训练集、验证集和测试集输入基于卷积神经网络搭建好的分类器中，并通过全连接层来完成正负情感的映射。

7.根据权利要求6所述的情感分析方法，其特征在于，所述步骤3)进一步包括：以基于用户的协同过滤推荐算法为基础，同时考虑到用户的情感倾向，把情感分类的结果加入到推荐***中，为用户提供推荐服务。

8.根据权利要求1所述的情感分析方法，其特征在于，所述推荐服务***包括电影推荐服务***和酒店推荐服务***。