CN102023967A

CN102023967A - 一种面向股票领域的文本情感分类方法

Info

Publication number: CN102023967A
Application number: CN2010105432677A
Authority: CN
Inventors: 张勇; 高旸; 周莉; 邢春晓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-11-11
Filing date: 2010-11-11
Publication date: 2011-04-20

Abstract

一种面向股票领域用的文本情感分类方法，属于股票倾向性分析技术领域，其特征在于通过包括股票新闻在内的公开新闻信息，利用改进了的评价组，对扩大了的股票情感词来进行特征选择，并用归一化后的绝对词频权重对股票中文文本中的情感词进行特征加权选择，最终利用Bayes、K-NN或SVM文本情感分类算法对股票新闻进行倾向性分析。本发明具有简易可行且计算方便的优点。

Description

一种面向股票领域的文本情感分类方法

技术领域

本发明属于自然语言处理的文本情感分类领域，具体涉及一种面向股票领域的文本情感分类方法。

背景技术

随着经济的发展和人民生活水平的提高，通过购买股票进行投资理财已逐渐成为当今社会的大势所趋，如何准确地购买股票成为投资者非常关心的问题。与此同时，随着网络技术的迅猛发展，网络凭借实时性、丰富性以及覆盖性等特点逐渐取代传统的新闻媒体成为人们获取信息的主要途径，越来越多的股票新闻出现在网络上，这些新闻包括宏观经济新闻、个股相关新闻、行业新闻、上市公司新闻等等。

有效市场理论(EMH：Efficient Markets Hypothesis)，又被称为有效市场假说或有效市场假设，始于美国芝加哥大学著名教授Eugene Fama在1965年发表在《商业学刊》的一篇名为《股票市场价格走势》的论文，而后Eugene Fama在1970年发表于《金融》的论文《有效资本市场：理论与实践研究回顾》中深化并提出的。有效市场理论假定所有公开的信息都会反映到市场价格之中，相关的信息如果不受扭曲且在证券价格中得到充分反映，市场就是有效的。既然证券价格能充分反映一切可获得的信息，那么，可获得的相关信息就成为价格能否有效的决定因素了。

按照可获得的信息分类的不同，有效市场理论在有效率的资本市场分为以下三种表现形态：弱式有效市场，半强式有效市场，强式有效市场。从中国的现实情况来看，国内多数学者支持中国股市是弱式有效的。

在弱有效市场中，信息发布后需要一段时间才能反应到股价中，也就是说信息发布后，股票会经过一段时间才能调整到合适的价位。因此不能忽视股票新闻对于股市的影响，新闻的数量以及内容的倾向性在很大程度上也会左右投资者的购买行为。例如国务院将于2010年4月24号把印花税税率由3‰下调为1‰的消息一出，沪指暴涨304点，千余个股涨停；又如在2010年年初的“两会”上，政府工作报告提出要发展“低碳经济”，之后“新能源板块”引来利好，逐渐走强。因此研究股市新闻的倾向性，对辅助投资者做出投资决策具有一定的实用意义。

所谓倾向性分析，就是识别文本是正面还是负面的，这一类型的研究，被称为情感分类。文本情感分类是一种特殊的文本分类问题，需要通过挖掘和分析文本中的立场、观点、看法、情绪等主观信息，对文本的情感倾向做出类别判断。文本情感分类是判断倾向性很好的方法，在个性化推荐、个性化观点检索、用户兴趣挖掘、信息过滤、邮件过滤、社会舆论分析等方面得到很好的应用。

目前国内外有一些提供金融资讯服务的企业，例如国内的大智慧资讯、维赛特资讯以及国外的路透社等。然而这些公司提供的服务一般都价格高昂，普通投资者是无法承受的。因此可以考虑利用财经网站上容易获得的新闻等信息，通过文本情感分类的处理后，给出每条新闻的正负性提示，可以帮助投资者更快速地做出投资决定。

发明内容

本发明的目的在于提供一种面向股票领域的文本情感分类方法，用来提供股票新闻情感倾向分类的建议。

本发明的特征在于，所述文本情感分类是一种倾向性分析，用于识别股票领域的中文文本是正面还是负面的，所述分类方法是在计算机中依次按以下步骤实现的：

步骤(1)所述计算机初始化，设定以下软件工具：

Add-delta数据平滑算法模块；

对股票新闻进行中文分词用的汉语词法分析模块ICTCLAS；

用于文本特征选择的评价模块；

分类实验所用的Weka模块，其中包括了Bayes和K-NN等分类算法，

定义在股票领域中文文本分词用的新词：

缩略词，包括但不限于：中石油、国投和中金；

专有名词，包括但不限于：股份有限公司和证券投资基金；

派生词，包括但不限于：黑马股、领涨和利空；

复合词，包括但不限于：冲高回落和分红派息；

步骤(2)把设定的证券新闻中的新闻标题以及包括证券常用词和供情感分类用的股票名称在内的相关股票信息作为原始语料，即中文文本，输入到所述计算机；

步骤(3)中文文本分词，把步骤(2)中所述的中文文本中的汉字序列切分成一个一个具有独立意义的词，步骤如下：

步骤(3.1)采用新词发现用的n-gram统计语言模型构建股票领域分词词典，步骤如下：

步骤(3.1.1)建立n-gram模型，

设定一个字符串序列n-gram用W＝w₁w₂...w_n表示，w_i表示一个字符，n取2～6的整数，表示该字符串中的字符个数，

则按下式计算一个所述字符串序列W在所述中文文本中出现的概率P_MLE(w_n|w₁w₂…w_n-1)，MLE表示这是一种采用最大似然估计的参数估计方法，称为n-gram语言模型，

如果一个字符串(n-gram)的长度为L，那么由此得到按n切分后的字符串数量为L-n+1个，并统计其中相同字符串的出现频率，其中

P_{MLE} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{C (w_{1} w_{2} . . . w_{n - 1})},

C(w₁w₂...w_n)表示字符串w₁w₂...w_n在所述原始语料中出现的次数，C(w₁w₂...w_n-1)表示由字符串w₁w₂...w_n中前n-1个字符w₁w₂...w_n-1组成的字符串在所述原始语料中出现的次数，

步骤(3.1.2)用改进了的Add-delta数据平滑算法对步骤(3.1.1)得到的字符串进行平滑处理，

P_{Add - delta} (w_{1} w_{2} . . . w_{n}) = \frac{C (w_{1} w_{2} . . . w_{n}) + Δ}{C (w_{1} w_{2} . . . w_{n - 1}) + Δ \cdot N},

其中Δ＝0.5，N是所述原始语料中所有字符串n-gram的数量，

步骤(3.1.3)对常用词中的没有用的字符子串进行过滤，

当作为父串的一个常用词与其字符子串的频率之差小于0.0001且该常用词与其字符子串的长度只差小于3时，则把该字符子串过滤，

从步骤(3.1.1)到步骤(3.1.3)即可得到股票领域的分词词典，

步骤(3.2)

结合步骤(3.1.1)到步骤(3.1.3)得到的所述股票领域的分词词典，和基于多层马尔科夫模型的ICTCLAS汉语词法分析模块，对所述股票新闻进行分词；

步骤(4)去除步骤(3.2)得到的对所述股票新闻分词结果中的停用词，所述停用词是出现频率高于常用词并且无实际意义的分词，

步骤(4.1)建立一个股票新闻文本中的停用词表，并输入该计算机，该停用词表包括介词、冠词、助词、连接词和标点符号，还有在所述股票新闻中常用作提示性的词，至少包括但不限于快讯、锐点、大盘和市场，

步骤(4.2)利用所述停用词表对步骤(3)中得到的对所述股票新闻分词结果进行停用词去除；

步骤(5)在步骤(3)和步骤(4)预处理的基础上，用一个空间向量模型表示所述股票中文文本，其步骤如下：

步骤(5.1)利用基于评价理论Appraisal Theory的所述评价模块，从所述股票中文文本中提取形容词短语、带有情感色彩的形容词、动词以及修饰词，统称情感词，

步骤(5.2)设定一个所述股票情感词的评价组，其中包括：正面词，用于描述包括但不限于股票价格上涨、股票上市公司业绩好在内的正面分析用词；负面词，用于描述包括但不限于股票价格下跌、股票上市公司业绩差在内的负面分析用词；程度词，是指描述正面或负面的程度的词；否定词，用于加在正面词或负面词之前，相反之意；不确定词，决定所述正面词或负面词的可信度，所述五种类型的股票情感评价用词构成一个特征词集合，并输入到所属计算机，

步骤(5.3)利用步骤(5.2)得到的特征词集合，对步骤(5.1)所提取的股票情感词进行文本情感分析，并标志其所属类型，

步骤(5.4)利用基于归一化的绝对词频权重，对步骤(5.3)中所述的股票情感词进行特征加权：

第j个文本的归一化处理后的绝对词频权重，在[0，1]区间内取值：

{weight}_{normal} (t_{k}, d_{j}) = \frac{weight (t_{k}, d_{j})}{\sqrt{Σ_{j = 1}^{| T |} {(weight (t_{k}, d_{j}))}^{2}}},

其中t_k，t是表示经过特征词集合评价后的股票情感词，k是经过对多个所述股票中文文本中的所述股票情感词进行大排序后富裕的序号，

d_j，d表示所述股票中文文本，j是所述股票中文文本的序号，|T|表示所有股票中文文本的个数，因此j＝1，2，...，|T|，

weight(t_k，d_j)表示第j个所述股票中文文本中第k个所述股票情感词的在归一化处理前的词频权重，在[0，1]区间内取值；weightnormal(t_k，d_j)表示该情感词在归一化处理后的绝对词频权重，在[0，1]区间内取值；

步骤(6)文本情感分类

利用所述Weka模块中的任何一种分类算法对其一个股票中文文本进行情感分类，正面的属于正热点板块，负面的属于负热点板块。

本发明的优点在于：

1.原始语料来自于网络，实时性强。

2.纯软件实现成本低廉。

附图说明

图1是面向股票领域文本情感分类方法流程图；

图2是股票评价组；

图3程序实现流程图。

具体实施方式

本发明提出了一种面向股票领域的文本情感分类方法，所述方法是在计算机中依次按以下三个步骤进行的，具体流程如图1所示：

步骤(1)文本预处理。

文本预处理主要分为中文文本分词和去除停用词两个过程，其中：

一、中文文本分词：

中文文本分词是指将汉字序列切分成一个一个具有独立意义的词，是进行中文自然语言处理的基础。需要分两步进行：

第一步，基于n-gram统计语言模型构建股票领域分词词典：

在中文分词领域，有新词(New Words)和未登录词(UnknownWords)两种概念，但有时并未对它们加以分别。新词或未登录词可以大致分为以下四种：1)缩略词，如“中石油”、“国投”、“中金”等；2)专有名词，如“股份有限公司”、“证券投资基金”等；3)派生词，如“黑马股”、“领涨”、“利空”等；4)复合词，如“冲高回落”、“分红派息”等。

目前，在新词发现方面，通常有以下两种做法：基于规则的方法，即由专家归纳出某些新词的构成规则或特点，猜测可能的新词并给出置信度，之后再做进一步的鉴定；基于统计的方法，即利用一些统计策略和相关度，寻找那些出现可能性最大词，该方法适用于发现较短的新词。

由于目前缺乏面向股票领域的分词词典，所以需要构建一个分词词典。同时，本发明处理的对象主要是股票新闻标题，其中的词多以简短的形式出现，所以可以采用基于统计的新词发现方法，例如n-gram语言模型。

从统计学的角度看，在自然语言中，一个句子可以由任意的字符串组成，但它们出现的概率P(s)有很大差别。例如：s₁＝“过半银行家预期下季货币政策不变”，s₂＝“过半政策预期银行家下季货币不变”，前后两句包含的字符完全一致，但显然前者作为一句话出现的概率更大，即P(s₁)＞P(s₂)。

对于给定的自然语言，P(s)通常是未知的。而对于一个服从某未知概率P分布的语言L，根据给定的语言样本估计P的过程被称作语言建模。如果假设用W＝w₁w₂...w_n表示文本中的一个字符串序列(一个n-gram)，其中w_i表示一个字符，那么语言建模的任务是给出字符串序列W在文本中出现的概率P(w)。利用概率的乘积公式，可以将P(W)展开为：

这个公式很复杂，即使对比较小的n，计算量也是相当大的。通常为了简化模型和方便计算，可以不必考虑太长的历史，一般只考虑n-1个字符构成的历史，即认为任意一个词出现的概率只与它前面n-1个词有关，这时该语言模型被称为n-gram语言模型，也叫作为一阶马尔科夫链。

可以采用最大似然估计(MLE)的参数估计方法计算P(w)：

P_{MLE} (w_{n} | w_{1} w_{2} . . . w_{n - 1}) = \frac{C (w_{1} w_{2} . . . w_{n})}{C (w_{1} w_{2} . . . w_{n - 1})},

基于n-gram统计语言模型的分词词典构建过程主要按照以下三个步骤进行：

1)建立n-gram模型

新词发现需要大量的语料作为基础，但目前尚未有面向股票领域的中文文本情感分类语料。所以可以选择“新浪财经”上与股票相关的新闻作为原始语料。而股票新闻很注重时效性，很多时候仅从新闻标题中就能概括出整个新闻的具体内容，并区别出其情感倾向。因此为提高处理效率，只采用新闻标题即可。具体做法是采集新浪财经网上2009年全年的股票新闻标题，包括个股新闻、行业新闻、板块新闻、公司新闻等，共计233282条，作为原始语料，即中文文本，输入到所述计算机。

然后对原始语料建立字一级的n-gram模型，即把股票新闻标题从头至尾切分成一个个的字符串，并统计相同字符串的出现频率。其中字符串的长度n表示该字符串中的汉字个数(英文单词或数字认为是一个汉字)。理论上，n较大时，提供的语境信息较多，语境更具区别性，但计算量也较大，参数估计较不可靠；而n较小时提供的语境信息较少，语境区别性较小，但计算量也较小，参数估计较可靠。因此，在实际应用中需要合理地选择n的大小。此外，如果一个字符串(n-gram)的长度为L，那么按n切分后的字符串数量应该是L-n+1个。

实际中可以取n为从2到6之间的整数，例如“欧洲股市收低各板块普跌”，当n＝6时，可以分为“欧洲股市收低”、“洲股市收低各”、“股市收低各板”、“市收低各板块”、“收低各板块普”和“低各板块普跌”。

对原始语料建立字一级的n-gram模型，并统计字符串的频率。如果用MLE，则存在数据稀疏问题，因此还需要采用数据平滑技术。

2)数据平滑处理

数据平滑技术的基础是最大似然估计，常用的平滑方法包括Add-one平滑、Add-delta平滑(取delta＝0.5)、留存估计和删除估计等，其基础是最大似然估计法。

Add-one平滑方法规定任何一个n-gram的统计次数是在该n-gram于训练语料中实际出现的次数的基础上增加1，也就是认为那些未出现过的n-gram也在训练语料中出现了一次，即C(N-gram)_new＝C(N-gram)_old+1。采用Add-one平滑方法的参数估计结果是

P_{Add - one} (w_{1} w_{2} . . . w_{n}) = \frac{C (w_{1} w_{2} . . . w_{n}) + 1}{C (w_{1} w_{2} . . . w_{n - 1}) + N},

其中N表示训练语料中所有n-gram的数量。

如果有大量的n-gram没有出现在训练语料中，用Add-one方法平滑后这些没有出现的n-gram将会在整个概率分布中占据较大比例，这是不太合理的。一种改进方法是出现次数不加1，而是加上一个小于1的数Δ，即

P_{Add - delta} (w_{1} w_{2} . . . w_{n}) = \frac{C (w_{1} w_{2} . . . w_{n}) + Δ}{C (w_{1} w_{2} . . . w_{n - 1}) + Δ \cdot N},

其中0＜Δ＜1，这就是Add-delta平滑方法，实践证明其效果一般要好于Add-one。

留存估计(Held-out Estimation)的基本思想是，把全体语料分为训练语料和留存语料两个部分，其中训练语料作为最初的频率估计，而留存语料用于改善最初的频率估计。具体做法是首先对于每个n-gram w₁w₂…w_n-1，分别计算其在训练语料和留存语料中出现的频率，即C_tr(w₁w₂…w_n)和C_ho(w₁w₂…w_n)。然后设T是留存语料中所有的n-gram个数，用r表示某个n-gram在训练语料中出现的频率，即r＝C_tr(w₁w₂…w_n)，同时设N_r表示在训练语料中出现了r次的不同的n-gram的个数，T_r表示所有在训练语料中出现了r次的n-gram在留存语料中出现的频率之和，即

因此，采用留存估计方法的参数估计结果是

P_{ho} (w_{1} w_{2} . . . w_{n}) = \frac{T_{r}}{T} \times \frac{1}{N_{r}},

删除估计(Deleted Estimation)是把训练语料分为两部分，分别以其中一部分做训练语料和留存语料，计算后交换角色，最后求两者的加权平均，即

P_{del} (w_{1} w_{2} . . . w_{n}) = \frac{{T_{r}}^{01} + {T_{r}}^{10}}{N (N_{r}^{0} + N_{r}^{1})},

其中T_r ^ij表示i做训练语料、j留存语料，N_r ¹表示在训练语料i中出现了r次的不同的n-gram的个数，N表示练语料和留存语料中总共的n-gram的个数。

3)“子串”过滤

在实际应用中存在很多常用词，组成这些词的若干“子串”基本只能在这些词中出现，很难单独作为一个词出现。例如“股份有限公司”是一个“父串”，“股份有限公”则是它的一个“子串”。通常即使一些“子串”不能单独成词，它们的出现的频率却与其“父串”基本相同。在一般的统计语言模型中，这样的“子串”和“父串”的概率(参数估计的结果)很接近，但“子串”往往是没有用的，因而成为了干扰项，需要对它们进行过滤。

通过建立统计语言模型，那些没有用的“子串”与其“父串”的概率之差往往很小。所以过滤无用“子串”的基本思想是，对于一个字符串的所有“父串”，如果该字符串与其“父串”的概率之差小于某个值，并且该字符串与其“父串”的长度之差小于某个值时，可以将该字符串过滤。本发明正是采用这种方法进行过滤，其中概率差值取0.0001，而长度差值取3。

经过上述三个步骤，可以通过原始语料建立一个词典。同时结合一些股票的相关信息，包括证券常用术语和股票名称等，最终可以构建一个股票领域的分词词典。

第二步，结合股票领域分词词典，利用ICTCLAS***进行分词：

ICTCLAS***是由中国科学院计算技术研究所的张华平和刘群等人，基于多层隐马尔科夫模型，开发的汉语词法分析***。该***的主要功能包括中文分词，词性标注，命名实体识别，新词识别，同时支持用户词典。

可以利用ICTCLAS***，并结合构建的股票领域分词词典，对股票新闻进行分词。

二、去除停用词：

停用词是指一些出现频率比较高，却没有太多实际意义的词，对文本处理几乎没有作用。去除停用词对于提高文本处理的效率是非常必要的，可以采用构建停用词表的方法。

停用词表的构建不仅与所用的语言有关，还与特定应用环境有关。股票新闻文本中的停用词表主要有两种：第一种是介词、冠词、助词、连词和标点符号；第二种是股票新闻标题前提示性的词，如“快讯”、“锐点”、“大盘”、“市场”等。

步骤(2)文本表示。

为了让计算机“理解”文本，可以用空间向量模型表示文本。空间向量模型的基本方法是用一组正交的词条向量表示文本，其中每个不同的词条就作为特征空间中独立的一个维度。文本表示主要分为文本特征选择和文本特征加权，其中：

一、文本特征选择：

Casey Whitelaw等人对于文本情感分析问题，引入评价理论(Appraisal Theory)，通过从文本中提取形容词及其修饰语构成的短语作为特征词，进行语义倾向分析，这种形容词短语被称为评价组(AG)，实验表明，利用“评价组”作为特征词集合，能够提高情感分类的精确度。Casey Whitelaw等人根据Martin的评价理论，为评价设置了四个属性：态度(Attitude)、倾向(Orientation)、等级(Graduation)和极性(Polarity)。

本发明所针对的情感分类问题，也可以利用类似评价组的方法。但所不同的是，需要提取的不仅是形容词短语，还应包括带有情感色彩的形容词、动词以及修饰词，将这些词统称为情感词。同时，可以初步将股票情感词划分为正面词、负面词、程度词、否定词和不确定词等五种类型：正面词就是描述股票价格上涨，股票上市公司业绩好等词汇；负面词则是描述股票价格下跌以及上市公司业绩差等词汇；程度词是指描述正负程度的；否定词加在正面词或负面词之前，就表示相反的意思；不确定词决定正面词和负面词的可信度；具体结构如图2所示。

二、文本特征加权：

然而，经过选择的不同特征对文本的区分力度是不一样的。因此在对文本进行形式化处理的过程中，还需要对这些特征做进一步的加权处理。加权的目的是提高区分力度强的特征的权重，而减弱区分力度弱的特征的权重。本发明采用的加权函数有布尔权重、绝对词频权重、TF-IDF权重和归一化权重等。

1)布尔权重

布尔权重是一种最简单的加权函数，顾名思义其取值是布尔值：如果特征词没有出现过，其权重为0；只要特征词出现过，其权重即认为1。用公式表示为

weight (t_{k}, d_{j}) = \{\begin{matrix} 0, & # (t_{k}, d_{j}) = 0 \\ 1, & # (t_{k}, d_{j}) > 0 \end{matrix},

其中t表示经过特征词，k表示经过对多个文档中所述特征词进行大排序后赋予的序号，d表示一篇文档，j表示该文档在文档集中的序号，weight(t_k，d_j)表示特征词t_k在文档d_j中的权重，#(t_k，d_j)表示特征词t_k在文档d_j中出现的次数。

2)绝对词频权重

布尔权重是很简单的，仅以0和1区别不同特征词，但不能区分不同特征词之间的重要性。在文本分类中，往往认为出现次数多的词比出现次数少的词对分类有更大的作用，所以出现次数不一样的特征词的权重应该是不一样的。绝对词频权重是直接以特征词在文档中出现的频率作为权重，出现次数越多越重要，可以用公式表示为

weight(t_k，d_j)＝#(t_k，d_j)，

3)TF-IDF权重

TF-IDF是信息检索领域常用的一种方法，也可以作为文本特征加权函数，它根据某个词的词频及其出现过的文档频率来计算该词在整个文本集中的权重，用公式表示如下

weight (t_{k}, d_{j}) = TF (t_{k}, d_{j}) \times IDF (t_{k}, d_{j}) = # (t_{k}, d_{j}) \cdot \log \frac{| D |}{# D (t_{k})},

其中#D(t_k)表示包含特征词t_k的文档的出现频率，即所有文档的集合中出现过t_k的文档个数。TF(t_k，d_j)＝#(t_k，d_j)表示t_k在文档d_j中的出现次数，

表示倒排文档频率。公式之所以有这样的形式，是基于两个假设：一个特征词在一篇文档中出现的次数越多，越能作为该文档内容的代表；一个特征词在越多的文档中出现过，则它的区别力就越小。

4)归一化词频

实际应用中文本的长度可能差别很大，如果采用前面三种方法，则长文本和短文本的特征值分布将相差甚远，不利于计算。因此，可以让权重落入[0，1]的区间内，这样使用向量表示的文档的长度相同，再利用余弦标准化的方法做归一化处理，最后的结果用公式表示为

{weight}_{normal} (t_{k}, d_{j}) = \frac{weight (t_{k}, d_{j})}{\sqrt{Σ_{j = 1}^{| T | \} {(weight (t_{k}, d_{j}))}^{2}}},

其中weight_normal(t_k，d_j)表示归一化处理后的绝对词频，，在[0，1]区间内取值；|T|表示所有文档的集合的元素个数。

步骤(3)文本情感分类。

在本发明中，股票新闻的情感分类可以看作一个二分类问题，对于分类后属于正面的则为正热点板块，对于分类后属于负面的则为负热点板块。由于股票新闻对于投资者的购买具有直接影响，反应到实际交易中，可以认为被提及得多且都是正面提及的板块是那些涨幅较大的板块，被提及得多但都是负面提及的板块则是那些跌幅较大的板块。

目前已有的中文情感分类研究并不多，可以说还处于探索阶段，尤其对于股票领域，尚需要探索什么样的机器学习方法适用于中文股票文本。在本发明中选用

Bayes、SVM以及KNN这三种分类方法对股票领域的情感分类进行实验。

Claims

1.一种面向股票领域的文本情感分类方法，其特征在于，所述文本情感分类是一种倾向性分析，用于识别股票领域的中文文本是正面还是负面的，所述分类方法是在计算机中依次按以下步骤实现的：