CN105335352A

CN105335352A - 基于微博情感的实体识别方法

Info

Publication number: CN105335352A
Application number: CN201510864383.1A
Authority: CN
Inventors: 崔晓辉; 朱卫平; 张威风; 杨威; 王志波; 李伟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2016-02-17

Abstract

本发明提供了一种基于微博情感的实体识别技术，使用api采集技术获取微博数据，并进行预处理；包括使用Circumplex环形情感模型作为情感分析模型，产生四类情感关键词词典；使用API采集技术获取微博数据，对数据进行预处理和向量化数据集，使用四种机器学习算法进行学习和训练，并且进行五重交叉验证，使用挑选最优机器学习分类程序对新的数据集进行分类；最后对分类完成的数据进行实体的抽取。

Description

基于微博情感的实体识别方法

技术领域

本发明涉及到网络中大数据的采集与分析领域，具体涉及一种基于微博情感的实体识别方法。

技术背景

在国内，由于微博是近几年才发展起来的新型社交媒体平台，所以国内针对微博短文本的情感分析研究起步较晚。比较早的研究是叶强、张紫琼和罗振雄三位学者建立在普遍使用的N-POS语言模型的基础上进行中文词组的特征提取，提出了中文双词主观词组模型2-POS，为汉字文本内容的情感识别垫定基础。在此之后，徐军用朴素贝叶斯以及最大熵等机器学习的方法来进行文本情感挖掘分类，其研究结果表明，在基于情感的中文文本内容分类中利用机器学习方法可以取得比较满意的效果，准确率可以达到90％以上。对于电影评论，胡熠应用N-Gram语言模型、朴素贝叶斯分类方法和支持向量机(SVM)进行情感分类研究，发现在文本训练样本有限不足的情况下，N-Gram语言模型的分类准确率更高，而且具有良好的扩展性。在这些研究的基础上，基于情感的文本挖掘的研究不断增加，相关研究领域得到扩展，如庞磊等学者通过朴素贝叶斯、SVM和最大熵三种分类方法，对新浪微博中的股票评论内容进行看涨和看跌的正负态度分类。傅向华、孙先和冯时通过不同的角度对中文博客进行情感分析研究，并提出一种基于文档主题生成模型与知网词典的中文博客多方面话题情感挖掘方法；将基于词典统计的情感分析方法引入微博情感分析；提出一种基于句法依存分析技术的算法SOAD(sentimentorientationanalysisbasedonsyntacticdependency)对博文搜索结果进行情感倾向性分析。

总体而言，随着互联网的不断发展，近年来，国外很多学者开始在更加广泛的领域进行情感挖掘研究，包括旅游博客、法律博客、影视评论等。情感挖掘旨在根据特殊的分类方法从消费者对特定产品或者服务的评论中提取积极或者消极的态度，利用情感分类的结果，消费者可以了解到做出购买决策的必要信息，商家可以获悉用户的反应以及其竞争者的表现。随着计算机技术的广泛使用，评论内容的情感挖掘已经成为近来研究的趋势，广泛应用于各个领域。

命名实体识别，同时也被称之为实体识别或者Named-Entity-Recognition,是指在一串文本中具有特定意义的实体，主要是指人名、地名、机构名、专有名词等。近些年来，随着计算机信息检索技术以及搜索引擎技术得到了极速的发展，基于中文的命名实体识别技术已经成为自然语言处理研究界的热点课题，根据国内的研究现状，目前基于中文的命名实体识别的技术方法主要有以下四种：基于统计的识别方法、基于规则的识别方法、规则和统计相结合的识别方法、基于机器学习的识别方法。

(1)基于统计的方法

中文的命名实体识别采用的统计模型主要有：隐马尔科夫模型、决策树模型、支持向量机模型、最大熵模型和条件随机场模型。Asahara通过采用支持向量机的方法对中国的人名及组织机构的进行了自动识别，取得了比较好的结果。

(2)基于规则的方法

基于规则的命名实体识别技术主要是利用两种信息：限制性成分和命名实体用词。Tan采取的是基于转换错误驱动的方法从而获取命名实体地名的上下文的联系规则，然后使用这些规则实现对中文地名的自动识别，经过一定的数据测试表明，该识别方法的准确率可以达到97％。

(3)规则与统计相结合的方法

目前主流的一些中文命名实体自动识别***将规则以及统计相结合起来,它先采用统计学的方法对实体进行镜像识别，然后利用规则对其进行校正过滤。黄德根利用从大量的真实文本数据中得到的大量的统计数据，并计算出每个人名的持续构词可信度和构词可信度，然后结合一定的规则对中国人名进行自动识别。

(4)基于机器学习的方法

在英文中的命名实体识别技术比中文的命名实体识别技术要简单很多，因为英文没有分词带来的麻烦，而中文的分词准确率是影响中文命名实体识别技术的关键因素。英文里的命名实体识别技术已经比较成熟，利用支持向量机的机器学习方法对英文单词进行分类，可以达到99％以上的地名和人名识别准确率。

微博作为一种社交网站的主要媒体形式，越来越受到人们的青睐。人们倾向于从微博上获取新闻、评论、娱乐等信息，不知不觉间，微博对网络舆情传播的影响越来越严重。微博信息中包含不同趋向的情感特征，挖掘这些特征对于舆情监控、市场营销、谣言控制都有重要意义。大多数的情感分析都只是把文本情感分成正中负3类，如果直接将这种粗粒度的情感分析应用到微博这个社交媒体，对人们的理解帮助有限，不足以达到真正的聆听社会脉动，倾听社会情感的目的。

发明内容

针对现有技术的不足，本发明设计出了一种基于微博情感的实体分析技术，本发明识别精度高，处理速度快，适用于大规模数据的精确识别。

为实现上述目的，本发明采用了如下的技术方案，一种基于微博情感的实体识别方法，包括以下几个步骤：

步骤1.训练阶段，选取最优机器学习算法；

步骤1.1根据Circumplex环形情感模型，构造四类情感词词典；

所述的四类情感词词典映射到一个二维坐标系之中，这四个维度的坐标轴分别是：快乐并活跃，快乐但不活跃，不快乐但活跃和不快乐不活跃；

步骤1.2使用网络API采集技术，以四类情感词为关键词从微博上获取微博数据，作为训练数据。

步骤1.3对采集到的训练数据进行预处理，生成规范的训练数据集；

步骤1.4对训练数据提取关键字，依据向量空间模型对训练数据集进行向量化；

将标点符号和表情符号同样作为一个标识进行向量化，可以更加有效和贴切的对文本的情感进行分析。标点符号和表情符号的向量化是将表情符号和标点符号替换成相应的英文单词，然后再进行单词向量化的，例如：笑脸替换为happy，happy的词向量(1，0，0，1，1，2)。

步骤1.5依据预设的机器学习算法，分别对向量化的训练数据集进行情感分类和5重交叉验证；

步骤1.6计算每个机器学***均值最高的机器学习算法作为最优机器学习分类算法。

步骤2.实验阶段，根据步骤1得到的最优机器学习分类算法，得到被识别的情感实体。

步骤2.1按照步骤1中步骤1.1至步骤1.4相同的方法获取向量化的实验数据集；

步骤2.2使用步骤1中的得到的最优机器学习分类算法，对实验数据集进行分类，得到四类情感数据集；

步骤2.3对四类情感数据集分别进行一次实体抽取，得到被识别的情感实体。

进一步的，所述的步骤1.3中的预处理，包括修正错误词组、删除无关词组、修正错误词组、删除歧义的微博和同义词转换；所述的修正错误词组是指对拼写错误的单词进行修正；删除无关词组指对情感分析没有任何益处的单词进行删除；删除歧义的微博指在一个文本却属于不同的情感类别的微博；同义词转换是指把相同意思的词用另一个词代替。

优选的，所述的步骤1.4中使用TF-IDF算法提取关键词，如果包含表情和标点符号，则将常用的表情符号和表示语气的标点符号转化为相应的单词。

优选的，所述的步骤1.4中使用word2vec开源工具构建词向量，依据向量空间模型对训练数据集进行向量化。

优选的，所述的步骤2.3中，使用SENNA深度学习工具包，对四类情感数据集分别进行一次实体抽取。

优选的，所述的步骤1.5中，预设的机器学习算法包括朴素贝叶斯、逻辑回归、支持向量机和K近邻算法4种机器学习算法。

本发明通过机器深度学习进行分类和实体识别，对微博的情感进行更加细粒度的实体识别，识别的精确度高，效果好。会产生如下的益处:

1.将数据处理和分析后可以进行更加细的粒度的情感分析；

2.通过获得的细粒度情感分析，可以反应人们对微博这个群体的情绪状况；

3.有利于政府，组织，个体对社会情感的理解和把握。

附图说明

图1是本发明的流程图；

具体实施方式

为使本发明的技术手段，创作特征，达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

微博中的数据很大，依靠人工的方法对其进行分类，将花费大量的人力物力财力，因此使用微博中提供的Hashtag主题标签作为该微博的情感。我们认为若一个微博被该情感类别标签标记，则该微博属于这个情感类别。

一种基于微博情感的实体识别方法，包括以下几个步骤：

步骤1.训练阶段，选取最优机器学习算法；

步骤1.1根据Circumplex环形情感模型，构造四类情感词词典；所述的四类情感词词典映射到一个二维坐标系之中，这四个维度的坐标轴分别是：快乐并活跃，快乐但不活跃，不快乐但活跃和不快乐不活跃；

步骤1.3对采集到的训练数据进行预处理，生成规范的训练数据集；对数据的预处理包括:修正错误词组，删除无关词组，删除歧义数据，同义词转换。

修正错误词组是指对拼写错误的单词进行修正，例如：eta修正为eat，删除无关词组指那些对情感分析没有任何益处的单词进行删除，例如the，of等无实际意义的单词，删除歧义的微博指那些一个文本却属于不同的情感类别的微博。同义词转换是指把相同意思的词用一个词代替。

步骤1.4对训练数据提取关键字，使用TF-IDF算法提取关键词，如果包含表情和标点符号，则将常用的表情符号和表示语气的标点符号转化为相应的单词。

使用word2vec开源工具构建词向量，依据向量空间模型对训练数据集进行向量化；所述的向量化过程中不仅包括文字，还包括标点符号和表情符号。

向量空间模型是经典的文本特征模型，由Salton等人在60年代提出，并且在SMART文本检索***上已经取得了成功的应用。

构建词向量:词向量是指用一个向量来代表一个词，例如：happy可以用向量(0，1，3，4，1，1)来表示。

Word2vec是Goole在2013年中开源的一款将词表征为实数值向量的高效工具。我们使用此工具将每个词用向量来表示。

数据集的向量化：对每一条数据提取关键词，这里使用的是比较成熟TF-IDF算法生成的一组关键词，然后把关键词转化为词向量。用这一组词向量代表这一条数据。例如：Iwanttogohome这条数据，可以提取出关键词：I，go，home三个关键词，三个关键词的词向量为(1，0，1，0，1，3)，(0，1，2，3，0，0)，(1，1，3，2，1，6)那么可以用这三个向量代表此条数据。

5重交叉验证：将得到的数据集随机分为5等份，将其中4等份作为训练集，1等份作为测试集，使用训练集对机器学习算法进行训练，训练完成之后，机器学习算法会生成一个决策树函数，并用决策树函数对剩下的测试集进行测试。并计算分类的准确率和召回率。该过程重复5次。

本方法预设4种四种机器学习算法，使用了以下的机器学习算法：

1.朴素贝叶斯

朴素贝叶斯的基本原理是：对于一个给定的等待分类的数据项，需要求出在此数据项出现的基础上其它各个类别分别出现的概率，该概率通常被称之为后验概率，哪个最大，就认为此待数据项属于哪一个目标类别。

公式如下：

p (C_{k} | x) = \frac{p (C_{k}) p (x | C_{k})}{p (x)}

公式描述：事件C_k的概率为P(C_k),事件x的概率为P(x),事件Ck已发生条件下事件x的概率为P(A|Ck),事件x发生条件下Ck的发生概率为P(Ck|x)

程序逻辑如下：Ck表示类别，P(x)表示待分类数据，对于确定的分类数目，P(Ck)是固定的，例如这里的概率是0.25(1/4)，对于一次数据分类，P(x)也是确定的，所以只需要计算出P(x|Ck)最大，便可得出P(Ck|x)最大。P(x|Ck)表示Ck类中出现x的概率，该概率在训练集中得到，例如:在训练集分类过程中，Ck中共有100个，x占有10个，则概率为0.1。

2.逻辑回归

逻辑回归与众多回归分析以及多重线性回归有一些类似之处，这些回归模型都属于广义线性模型的(generalizedlinearmodel)。对于广义线性模型家族成员中，各个回归分析的不同更多的是因变量的不同。构造逻辑回归的时候需要以下关键步骤：

①建立预测函数，预测函数是指某一件事情的发生概率为多大。

②构造逻辑函数，逻辑函数是指Sigmoid函数，由于预测函数是根据原有的训练数据得到的近似概率函数，所以该概率函数的取值范围有可能出现小于0的情况，因此就引入了逻辑函数的概念，逻辑函数能把负无穷大到正无穷大的数映射到[0,1]之间。

③使用低度下降的方法求得回归参数，逻辑回归分类器的训练阶段，根据构建好的逻辑函数形式，我们可以得到该函数的似然函数，同时在求参数的过程中，通常采用的方法是最大似然法，然后再利用梯度下降法求得在参数的最佳值。

程序逻辑如下：把数据集的特征值设为X1，X2，X3……,对应的权值为W1，W2，W3……，设Z＝W1×X1+W2×X2+W3×X3……,然后使用sigmoid函数将结果映射到[0,1]区间上，p＝sigmoid(z),即1/(1+exp(-z)),然后使用梯度下降法和测试数据，求出各个权值的最大似然值。得到各个权值后，便可以得到此函数的表达式，便可以计算出各个类的可能性，对新的数据进行分类。

3.支持向量机

支持向量机是一种监督性的学***面对一些低维度不可分数据在高维度可分。在文本分类中，支持向量机是最好的分类算法之一。

程序逻辑如下:训练支持向量机的主要目的是找出分割两类的超平面方程，设方程函数为W^TX+b＝0，W和X分表代表一个矩阵和向量，这里的X表示词向量，引入松弛因子和惩罚因子，使用拉格朗日乘子法，求出最优的分类平面，求出平面函数，便可以对其他的向量X进行分类。

4.K近邻算法

K邻近算法，是机器学习算法中里非常成熟的算法之一，同时K邻近算法也是最简单的机器学习算法之一。邻近算法的基本思想是在给定的一些数据内容中，如果一个样本数据在特征向量空间中与其它最相邻的K个数据点种的大多数属于同一个类别，那么就把这个样本赋值该类别。

程序逻辑如下：在训练集中，将训练向量投射到N维空间中，新数据向量X，计算与X最近的n个点，在这n个点中，若A类别的最多，则该新数据属于A类别。

步骤2.3使用SENNA深度学习工具包，对四类情感数据集分别进行一次实体抽取。

以上为本发明的基本原理和主要实现方法。本发明可以实现微博内容的提取，对大数据的深度学习，提高情感的分析精度，对微博情感实体的识别。帮助政府，组织或机构进行大众群体的情感研究，在舆论分析，***，事件预警方面有较大的作用。

Claims

1.一种基于微博情感的实体识别方法，其特征在于，包括以下几个步骤：

步骤1.训练阶段，选取最优机器学习算法；

步骤1.2使用网络API采集技术，以四类情感词为关键词从微博上获取微博数据，作为训练数据；

步骤1.6计算每个机器学***均值最高的机器学习算法作为最优机器学习分类算法；

步骤2.实验阶段，根据步骤1得到的最优机器学习分类算法，得到被识别的情感实体；

2.根据权利要求1所述的一种基于微博情感的实体识别方法，其特征在于，所述的步骤1.3中的预处理，包括修正错误词组、删除无关词组、修正错误词组、删除歧义的微博和同义词转换；所述的修正错误词组是指对拼写错误的单词进行修正；删除无关词组指对情感分析没有任何益处的单词进行删除；删除歧义的微博指在一个文本却属于不同的情感类别的微博；同义词转换是指把相同意思的词用另一个词代替。

3.根据权利要求1所述的一种基于微博情感的实体识别方法，其特征在于，所述的步骤1.4中使用TF-IDF算法提取关键词，如果包含表情和标点符号，则将常用的表情符号和表示语气的标点符号转化为相应的单词。

4.根据权利要求1所述的一种基于微博情感的实体识别方法，其特征在于，所述的步骤1.4中使用word2vec开源工具构建词向量，依据向量空间模型对训练数据集进行向量化。

5.根据权利要求1所述的一种基于微博情感的实体识别方法，其特征在于，所述的步骤2.3中，使用SENNA深度学习工具包，对四类情感数据集分别进行一次实体抽取。

6.根据权利要求1所述的一种基于微博情感的实体识别方法，其特征在于，所述的步骤1.5中，预设的机器学习算法包括朴素贝叶斯、逻辑回归、支持向量机和K近邻算法4种机器学习算法。