CN104951548B - 一种负面舆情指数的计算方法及*** - Google Patents
一种负面舆情指数的计算方法及*** Download PDFInfo
- Publication number
- CN104951548B CN104951548B CN201510355005.0A CN201510355005A CN104951548B CN 104951548 B CN104951548 B CN 104951548B CN 201510355005 A CN201510355005 A CN 201510355005A CN 104951548 B CN104951548 B CN 104951548B
- Authority
- CN
- China
- Prior art keywords
- negative
- text
- dictionary
- training set
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种负面舆情指数的计算方法及***,包括步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Mode l模型的SVM分类,分别得到分类结果1和分类结果2;步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。本发明计算出的负面舆情指数准确率高,计算语料范围广且能够实时计算。
Description
技术领域
本发明涉及领域,尤其涉及一种负面舆情指数的计算方法及***。
背景技术
据中国互联网络信息中心(CNNIC)统计,截止2014年12月,中国网民规模达6.49亿。互联网普及率达到47.9%,较2013年底提升了2.1个百分点。2014年,中国网民的人均每周上网时长达26.1小时,相比2013年底增加了1.1个小时。这说明互联网发展重心从“广泛”向“深入”转换,各项网络应用深刻改变网民生活。
随着互联网的发展,互联网络作为社会舆论的工具,具有反应和引导社会舆论的功能。针对这种自由无序的网络舆情信息,网络舆情指数计算的导向作用显得日益强大。及时掌握舆情动态、积极引导社会舆情,是维护社会稳定的重要举措。因此,舆情指数计算是研究舆情监控、事态推演以及预测等技术的基础,研究负面舆情指数计算具有重要的理论和实际意义。
负面舆情指数计算的理论方法主要是文本(本发明主要处理中文文本)分类中的二分类问题(负面与非负面),在文本分类中主要涉及分词处理、特征选择、文本表示、文本分类算法、评价指标等。
目前中国人民大学舆论研究所与百度合作,基于百度的海量搜索数据提出了中国冷暖度指数等14个舆情指数。他们认为搜索量的高低反映了民众对该关键词所代表事件的关注程度。百度每年汇总出全年搜索量最高和关注热度上升最快的前1000个搜索热词,由之可以较为粗略地“刻画”出中国网民关注中国社会的“素描图”。这种技术对热搜词做了综合的和整体式的解读,但如果对整个社会基本面的宏观把握和理解所需的周期太长,对一个事件的舆情判断至少需要数天、数周甚至数月。
为了避免人工标注训练集进行有监督的舆情指数计算,有的学者提出用无监督聚类的方法实现对舆情指数的计算。使用无监督聚类方法首先在效果上不如有监督的文本分类,聚类簇数事先是未知的。其次,在超大规模数据集上的效率是否在可接受范围内还需要考证。
对文本进行特征选择后用VSM描述特征空间会存在一种缺陷,即特征空间的数据稀疏性,并且仅使用VSM描述不做任何处理的话不能很好的反映词汇间的语义关系。
南京大学的王昊与苏新宁提出一种基于条件随机场(Conditional RandomFields,CRFs)的角色标注模型。利用该模型对新闻或论坛讨论帖的标题进行角色标注,通过对人名出现次数的统计结合人名的背景进行舆情关注点的发现。但是该模型需要的舆情发现语料集封闭性的,具有一定的限制性。
发明内容
本发明所要解决的技术问题是提供一种负面舆情指数的计算方法及***。
本发明解决上述技术问题的技术方案如下:一种负面舆情指数的计算方法,包括以下步骤:
步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1和分类结果2;
步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;
步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;
步骤S4,将所述分类结果1、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,在执行步骤S1之前,还包括在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
进一步地,步骤S3中所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典;
所述训练集关键词典的形成包括:对训练集中的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
进一步地,步骤S1中,所述基于情感词典的正负面分类为基于通用情感词典的无监督分类器对待分类文本进行分类;
所述Model模型的形成包括以下步骤:
对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;
对矩阵Am×n进行奇异值分解,SVD(Am×n)=Um×mΣm×nVT n×n,其中Um×m矩为m×m的方阵,Σm×n为m×n的对角矩阵,VT n×n为n×n的方阵;
取矩阵Am×n的前k个奇异值对应的矩阵VT k×n来表示矩阵Am×n,其中k为大于等于1的整数;
对矩阵VT k×n进行SVM训练,得到Model模型。
进一步地,步骤S4后还包括将负面舆情指数值超过预定阈值的待分类文本和所述分类结果1与所述分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料更新所述训练集。
本发明解决上述技术问题的另一种技术方案如下:一种负面舆情指数的计算***,包括基于情感词典的正负面分类模块、基于Model模型的SVM分类模块、正负面判断模块、用户标注负面词典匹配模块、训练集关键词典匹配模块和线性组合模块;
所述基于情感词典的正负面分类模块用于对待分类文本进行基于情感词典的正负面分类并得到分类结果1;
所述基于Model模型的SVM分类模块用于对待分类文本进行基于Model模型的SVM分类并得到分类结果2;
所述正负面判断模块用于判断分类结果1和分类结果2的正负面;
所述用户标注负面词典匹配模块用于将待分类文本与用户标注负面词典匹配,得到负面指标1;
所述训练集关键词典匹配模块用于将待分类文本与训练集关键词典匹配,得到负面指标2;
所述线性组合模块用于将分类结果1、负面指标1和负面指标2进行线性组合,得到待分类文本的负面舆情指数。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,所述的负面舆情指数的计算***还包括待分类文本过滤模块,用于在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
进一步地,所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典;
所述训练集关键词典的形成包括:对训练集的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
进一步地,所述基于情感词典的正负面分类模块包括基于通用情感词典的无监督分类器对待分类文本进行分类;
所述基于Model模型的SVM分类模块中所述Model模型的形成包括以下步骤:
对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;
对矩阵Am×n进行奇异值分解,SVD(Am×n)=Um×mΣm×nVT n×n,其中Um×m矩为m×m的方阵,Σm×n为m×n的对角矩阵,VT n×n为n×n的方阵;
取矩阵Am×n的前k个奇异值对应的矩阵VT k×n来表示矩阵Am×n,其中k为大于等于1的整数;
对矩阵VT k×n进行SVM训练,得到Model模型。
进一步地,所述的负面舆情指数的计算***,还包括人工标注训练集更新模块,用于将负面舆情指数值超过预定阈值的待分类文本和分类结果1与分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料更新所述训练集。
本发明的有益效果是:本发明计算负面舆情指数的周期短,可以实时对待分类文本进行计算;本发明采用有监督的SVM文本分类,效果好,适用于超大规模数据集的计算并且计算效率高;本发明采用SVD技术,既能达到稀疏矩阵降维的目的又能很好反映词汇间的语义关系;本发明既可以处理封闭性语料也可以处理开放性语料。
附图说明
图1为本发明所述负面舆情指数的计算方法整体流程图;
图2为本发明所述负面舆情指数的计算方法具体流程图;
图3为本发明所述负面舆情指数的计算***结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种负面舆情指数的计算方法,其特征在于,包括以下步骤:
步骤S1,判断待分类文本是否是垃圾网页。
垃圾页面是那些通过不正当手段获取搜索引擎中不应有的较高排名的网页,在本***中根据相关论文中提到,将文章标题长度、网页URL长度、文章内容长度等内容特征符合某一条件的作为垃圾网页过滤掉,若是则过滤掉,若不是,则执行步骤S2。
步骤S2,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1即class_res1和分类结果2即class_res2。
其中基于情感词典的正负面分类即基于通用情感词典的无监督分类器对待分类文本基于通用情感词典的无监督情感分类器模块进行分类计算并得到分类结果class_res1。基于通用情感词典的无监督情感分类器模块是中科院计算所谭松波老师提供的倾向性分析组件。该分类器的理论基础发表论文《Combining Learn-based and Lexicon-basedTechniques for Sentiment Detection without Using Labeled Examples》。该模块避开了仅使用情感词匹配的极度依赖专家知识,词典质量直接影响分类效果;同时也避免了仅使用监督学习对训练集类别依赖较大问题。具体算法如下:
a)利用情感词典从所有待分类文本中寻找出语义上信息量最大的一部分文本作为训练集(即看起来最有可能是正面或负面的文本)。
b)用以上文本训练出一个分类器。
c)用以上分类器测试整个数据集。
训练集的确定需要借助情感词典,然后计算每篇语料中正面情感词和负面情感词的数量以及两者各占比例。正(负)面情感词比例最大的N条文本作为正(负)面训练文本,从而形成了一个规模为2N的训练集。
它的优点是不需要训练集。对10万常用汉语词汇进行情感标注,从中标出7857个倾向最明显的情感词,其中,正面情感词3133个,负面情感词4724个。而对于不能确定倾向性的词汇不予收录,比如,“下跌”对开发商来说可能意味消极但对于购房者来说可能是积极的意思。具体的倾向性分析步骤:给定待分类文本,通过与通用情感词典匹配得到该文本的倾向性值。倾向性值是位于区间[0,1]之间的浮点数,[0,0.5)表示负面,0.5表示中性,(0.5,1]表示正面。倾向性值越靠近0表示越负,越靠近1表示越正。
如图2所示,基于Model模型的SVM分类中Model模型的形成方式为:首先对人工标注的每一篇语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择。所有训练集分词、文本表示、特征选择后表示成矩阵A,接下来对矩阵A进行SVD奇异值分解降维,在降维后的矩阵上进行SVM训练得到分类模型model。
基于Model模型的SVM分类即对于每一篇待分类文本与训练样本一样进行分词处理、文本表示、特征选择处理,将处理后的文本投影到潜在语义空间并根据Model进行文本分类得到class_res2。
分词处理:把中文的汉字序列切分成有意义的词就是中文分词,中文分词技术属于自然语言处理技术范畴,现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。本发明使用的分词算法是中科院计算所研制的ICTCLAS。
特征选择:对文本进行分词处理后直接表示文本,使得特征向量维数过高造成“维数灾难”、训练模型复杂、训练时间长、模型推广能力低等缺点。可以根据某种筛选策略选出对分类贡献大的词条来表示文本。常用的特征选择方法有:文档频率、TFIDF、信息增益、期望交叉熵、互信息等。本发明采用的IFIDF策略。
文本表示:文本分类之前需要把文档表示成计算机可以处理的形式即文本表示,主要有布尔模型、向量空间模型(Vector Space Model,VSM)、概率检索模型等。本发明使用最常用最有效的方法之一,向量空间模型。
文本分类算法:文本分类方法通常分为两类:统计方法与规则方法。其中统计方法主要包括中心法、Rocchio算法、最近邻算法、Windows算法、朴素贝叶斯、支持向量机、神经网络、最小二乘拟合等。规则方法主要包括决策树、粗糙集等。本发明采用支持向量机文本分类算法。
评价指标:评价指标是评价分类器好坏的一种方法,评价指标主要有召回率、准确率、F1值。其中召回率衡量的是分类算法的查全率,准确率衡量的是分类算法的查准率、F1值是召回率和准确率的结合。
具体过程为:潜在语义分析是通过对词-文档矩阵进行特殊的矩阵奇异值分解(Singular Value Decomposition,SVD),将原矩阵近似地映射到一个k维潜在语义空间上,映射后的奇异值向量能最大限度的反映出词条和文档之间的依赖关系,实际上SVD是一个有着很明显的物理意义的一种数学计算,它可以将一个比较复杂的矩阵用更小更简单的几个矩阵的相乘来表示,这些小矩阵描述的是原矩阵的重要特征。
潜在语义空间有这样的神奇作用,可以使得经常共现的文本特征值映射到同一维,而非共现的词条映射到不同维,这样使得潜在语义空间比原空间更小,达到了降维的目的。而且经过这样的映射之后,原来不包含或包含很少相同词条信息的文档之间也可能因为词条的共现关系而有较大的相似度,达到了去噪的目的,而且这个过程是基于潜在语义,即词之间深层次含义的,从结果来看就是意思相近的文档向量有着比较高的相似度。
对于词-文档矩阵A,我们对其进行SVD:
SVD(A)=UΣVT
若训练集D的词条总数为m,文档数为n,则:
Am×n=Um×mΣm×nVT n×n
A是m*n的待分解矩阵,U是一个m*m的方阵(里面的向量是正交的UTU=I,I为单位矩阵,U里面的向量称为左奇异值向量),Σ是m*n的矩阵(除了对角线的元素都是0,对角线上的元素称为奇异值),VT是一个n*n的方阵(里面的向量也是正交的VTV=I,I为单位矩阵,V里面的向量称为右奇异值向量)。
在对角矩阵Σ中奇异值是从大到小排列,并且减少特别快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上。所以,我们可以用前r大的奇异值来近似描述矩阵,即:
Am×n=Um×rΣr×rVT r×n,γ<<m,n;
实际应用中r的选择可根据经验值调整,用VT r×n表示原始的词-文档矩阵Am×n,经过SVD降维后,词由原来的m(通常为几万)维变为r(通常为几百)维,大大缩减了存储空间和计算量又几乎不丢失原先持有的信息。
本发明采用开源的svdcmp.c文件并做了局部调整,使得输出的对角矩阵Σ值按从大到小排序,并且相应的矩阵U和VT对应奇异值排序做了调整。
SVM是在统计学***面作为决策面,使正负模式之间的空白最大。
SVM其实是一个带约束的二次规划(Quadratic Programming,QP)问题:
该问题是一个凸问题,可得到全局最优解。
本发明采用开源的LIBSVM为(http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html)提供的源代码进行分类。
步骤S3,若class_res1与class_res2的值都为负面,则认为待分类文本为负面,继续执行步骤S4;若class_res1与class_res2的不都为负面,则认为待分类文本为非负面,计算结束。
步骤S4,将待分类文本分别与user_neg和train_neg匹配,分别得到负面指标1即user_neg_index和负面指标2即train_neg_index。
user_neg表示用户标注负面词典,用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典,用户标注的负面词典是用户根据自己的关注面自行积累标注的负面词汇。不同用户需求不同,若用户是国家***公室,他们关注的负面词汇包括拆迁、腐败、上访等;比如有的用户关注金融领域的负面舆情而有的关注时事新闻的负面舆情,根据用户提供的关注方面和若干负面词汇及相应权重,我们可以直接使用或通过搜索引擎找到相关共现词汇或通过HowNet找到相似性词汇扩充后使用。
共现词是在大量文档中经常搭配、共同出现的词汇,某词的共现词的集合在某种程度上描述了该词的语义环境,共现词之间的关联强度也在一定程度上反映了这些词所代表的语义之间的关联强度。
现有的共现词抽取算法有很多,如基于关联聚类和距离聚类寻找文档中的共现词算法,基于潜在语义索引LSI求共现词算法,基于词汇吸引与排斥模型通过统计量组合进行共现词提取等。
简单起见本***是在本单位现有的网络数据平台的基础上进行共现词抽取的。网络数据平台实时采集了海量网页信息以及每个网页的若干关键词等。共现词抽取具体算法:
a)从网络数据平台读取最新的N条记录,N大于10万。
b)对这N条记录的所有关键词建立倒排索引。
c)对于每一条用户提供负面词汇去索引中检索,找到与之匹配的关键词对应的网页关键词,我们称之为共现词,挑出共现次数最高的前m个作为该负面词汇的扩展。
实验结果:建设的共现词:项目、试点、改革、保障等;减灾的共现词:防灾、灾害、防震、排查等。
HowNet是一个表示概念与概念之间以及概念所具有的属性之间的关系为基本内容的知识库。在本***中将关键词映射到义原,可以在一定程度上解决同义词替换的问题,使相同主题、包含不同同义词和近义词的文档能更好地聚集在一起。
在HowNet首页http://www.keenage.com/html/e_index.html的Dowload页面下载Word Similarity Computing Based on Hoe-net,里面的glossary.dat文件即HowNet知识库。对于每一条用户提供负面词汇去glossary.dat中检索,找到与之匹配的关键词对应的近义词作为该负面词汇的扩展。
实验结果:建设的近义词:建造;减灾的近义词:削减、不幸。
train_neg表示训练集关键词典,基于LSA的SVM文本分类仅考虑了词汇的语义关系并没有有效利用训练集中的关键词汇。具体形成方式:对训练集中的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
步骤S5,将class_res1、user_neg_index和train_neg_index进行线性组合,得到待分类文本的负面舆情指数。
根据各个变量的属性及各个指标所占比重,确定线性组合公式:
negIndex=-120*class_res1+60+30*user_neg_index+10*train_neg_index;
其中class_res1∈[0,0.5)越小越为负面,user_neg_index∈[0,1]越大越为负面,train_neg_index∈[0,1]越大越为负面,最终得到的negIndex∈[0,100],越大越为负面。最终的负面舆情指数值negIndex∈[0,100],经测试人员测试可认为在此可选择negIndex>=80的作为较高值。
负面舆情指数值较高的和class_res1与class_res2的值均为非负面的作为新的负面和非负面语料更新人工标注的训练集。
如图3所示,一种负面舆情指数的计算***,包括基于情感词典的正负面分类模块、基于Model模型的SVM分类模块、正负面判断模块、用户标注负面词典匹配模块、训练集关键词典匹配模块和线性组合模块。
所述基于情感词典的正负面分类模块用于对待分类文本进行基于情感词典的正负面分类并得到分类结果1;所述基于情感词典的正负面分类模块包括基于通用情感词典的无监督分类器对待分类文本进行分类。
所述基于Model模型的SVM分类模块用于对待分类文本进行基于Model模型的SVM分类并得到分类结果2;所述基于Model模型的SVM分类模块中所述Model模型的形成包括以下步骤:对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;对矩阵Am×n进行奇异值分解,SVD(Am×n)=Um×mΣm×nVT n×n,其中Um×m矩为m×m的方阵,Σm×n为m×n的对角矩阵,VT n×n为n×n的方阵;取矩阵Am×n的前k个奇异值对应的矩阵VT k×n来表示矩阵Am×n,其中k为大于等于1的整数,将人工标注训练集一半训练一半测试,对测试结果指标对比得到k的取值,具体为k的值是对角矩阵维数的1%-10%,对角矩阵是100维,则k取1-10之间的数,再在训练集上测试,看k取哪个值分类效果好,就把k的经验值取为几;对矩阵VT k×n进行SVM训练,得到Model模型。
所述正负面判断模块用于判断分类结果1和分类结果2的正负面。
所述用户标注负面词典匹配模块用于将待分类文本与用户标注负面词典匹配,得到负面指标1;所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典,用户标注的负面词典是用户根据自己的关注面自行积累标注的负面词汇。若用户是国家***公室,他们关注的负面词汇包括拆迁、腐败、上访等。
所述训练集关键词典匹配模块用于将待分类文本与训练集关键词典匹配,得到负面指标2;所述训练集关键词典的形成包括:对训练集中的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形所述成训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
所述线性组合模块用于将分类结果1、负面指标1和负面指标2进行线性组合,得到待分类文本的负面舆情指数。
所述负面舆情指数的计算***还包括待分类文本过滤模块,用于在待分类文本是垃圾网页的情况下对待分类文本进行过滤。所述负面舆情指数的计算***还包括人工标注训练集更新模块,用于将负面舆情指数值超过预定阈值的待分类文本和分类结果1与分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料更新所述训练集。
本发明对负面舆情指数计算进行研究,采用集成机器学习方法即多个弱分类器可以集成为一个强分类器的原理。若单独使用无监督的情感分类器进行舆情指数计算受通用情感词典的影响较大;若单独使用基于SVD的SVM分类进行舆情指数计算受人工标注训练集的影响较大。为了使计算得到的指数值的准确率更高本发明采用两种方法结合的思想,即对同一篇待标注文本两者结果同为负面才认为该文本是负面,否则为非负面。因为SVM分类的结果只有负面与非负面之分,在指数值的确定方面除了考虑无监督情感分类器的结果值之外还考虑了用户负面词典和训练集关键词典的匹配结果。
本发明使用基于SVD降维的SVM分类和基于情感词典分类进行实时负面舆情计算,该方法是针对互联网上的新闻、博客、论坛等正文内容提出的一种新的负面舆情指数计算方法。在技术上本发明融合了基于通用情感词典的无监督情感分类器、基于潜在语义分析降维的支持向量机文本分类、用户标注负面词典、负面训练集中的关键词典四个方面。在众多的分类算法中选择SVM分类器是因为其分类效果很好,具有其他机器学习技术难以比拟的优越性,其次使用SVD降维不仅起到了去噪、缩短分类时间的作用还考虑到特征词之间的语义关系,负面语料的确定上还借助谭松波老师的基于情感词典的分类模块,舆情指数的确定借助于用户标注的负面词典及训练集中的关键词典。对每一篇待计算舆情指数的文章根据现有的知识实时分析计算,训练集和用户标注负面词汇可根据已有知识定期更新。
本发明提出一种基于SVD降维的SVM分类和基于情感词典分类的实时负面舆情指数计算方法。该方法采用集成机器学习的思想讲两种分类算法结合起来以保证计算得到的负面语料的准确率较单独一种分类算法高。具体实验中采用SVD降维可以使特征向量的维数从几万维降到几百维,其中奇异值的确定根据多次实验的经验值获得,也参考SVD降维的理论指导:在大多数情况下,前10%甚至前1%的奇异值的和就占了全部的奇异值之和的99%以上。使用SVD降维大大减小了SVM分类算法在存储特征向量时的内存占用率还考虑到特征间的语义关系。基于情感词典分类是对SVM分类算法的校验,两者皆为负面才认为是负面语料。另外,用户标注的负面词典可以直接使用也可以根据词汇的共现词或从HowNet多抓取一些相似性、相关性词汇扩充后进行使用。使用负面训练集中的关键词主要考虑到一些非情感词的词汇也有负面含义,比如在某个时间段某事件的发生的地点、人物、事件名称等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种负面舆情指数的计算方法,其特征在于,包括以下步骤:
步骤S1,对待分类文本进行基于情感词典的正负面分类和基于Model模型的SVM分类,分别得到分类结果1和分类结果2;
步骤S2,若所述分类结果1与所述分类结果2的值都为负面,则认为待分类文本为负面,继续执行步骤S3;若所述分类结果1与所述分类结果2的值不都为负面,则认为待分类文本为非负面,计算结束;
步骤S3,将待分类文本分别与用户标注负面词典和训练集关键词典匹配,分别得到负面指标1和负面指标2;
步骤S4,将分类结果1的值、所述负面指标1和所述负面指标2进行线性组合,得到待分类文本的负面舆情指数。
2.根据权利要求1所述的负面舆情指数的计算方法,其特征在于,在执行步骤S1之前,还包括在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
3.根据权利要求1所述的负面舆情指数的计算方法,其特征在于,步骤S3中所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典;
所述训练集关键词典的形成包括:对训练集中的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形成所述训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
4.根据权利要求3所述的负面舆情指数的计算方法,其特征在于,步骤S1中,所述基于情感词典的正负面分类为基于通用情感词典的无监督分类器对待分类文本进行分类;
所述Model模型的形成包括以下步骤:
对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;
对矩阵Am×n进行奇异值分解,SVD(Am×n)=Um×mΣm×nVT n×n,其中Um×m矩为m×m的方阵,Σm×n为m×n的对角矩阵,VT n×n为n×n的方阵;
取矩阵Am×n的前k个奇异值对应的矩阵VT k×n来表示矩阵Am×n,其中k为大于等于1的整数;
对矩阵VT k×n进行SVM训练,得到Model模型。
5.根据权利要求3所述的负面舆情指数的计算方法,其特征在于,步骤S4后还包括将负面舆情指数值超过预定阈值的待分类文本和所述分类结果1与所述分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料更新所述训练集。
6.一种负面舆情指数的计算***,其特征在于,包括基于情感词典的正负面分类模块、基于Model模型的SVM分类模块、正负面判断模块、用户标注负面词典匹配模块、训练集关键词典匹配模块和线性组合模块;
所述基于情感词典的正负面分类模块用于对待分类文本进行基于情感词典的正负面分类并得到分类结果1;
所述基于Model模型的SVM分类模块用于对待分类文本进行基于Model模型的SVM分类并得到分类结果2;
所述正负面判断模块用于判断分类结果1和分类结果2的正负面;
所述用户标注负面词典匹配模块用于将待分类文本与用户标注负面词典匹配,得到负面指标1;
所述训练集关键词典匹配模块用于将待分类文本与训练集关键词典匹配,得到负面指标2;
所述线性组合模块用于将分类结果1的值、负面指标1和负面指标2进行线性组合,得到待分类文本的负面舆情指数。
7.根据权利要求6所述的负面舆情指数的计算***,其特征在于,还包括待分类文本过滤模块,用于在待分类文本是垃圾网页的情况下对待分类文本进行过滤。
8.根据权利要求6所述的负面舆情指数的计算***,其特征在于,所述用户标注负面词典即用户对多篇语料进行正负面人工标注形成的词典;
所述训练集关键词典的形成包括:对训练集的负面语料进行ICTCLAS分词处理并进行VSM文本表示,然后进行TFIDF特征选择,从TFIDF特征选择的结果中抽取TFIDF权重最大的前p个关键词,其中p为大于等于1的整数;将所述训练集中的负面语料抽取的关键词去重、归一化权重后即形成所述训练集关键词典;其中所述训练集为人工标注正负面的正面语料和负面语料的集合。
9.根据权利要求8所述的负面舆情指数的计算***,其特征在于,所述基于情感词典的正负面分类模块包括基于通用情感词典的无监督分类器对待分类文本进行分类;
所述基于Model模型的SVM分类模块中所述Model模型的形成包括以下步骤:
对所述训练集进行TFIDF特征选择,并将TFIDF特征选择后的结果用矩阵Am×n表示,其中m表示训练集中关键词的总数,m为大于等于1的整数,n表示训练集中语料总数,n为大于等于1的整数;
对矩阵Am×n进行奇异值分解,SVD(Am×n)=Um×mΣm×nVT n×n,其中Um×m矩为m×m的方阵,Σm×n为m×n的对角矩阵,VT n×n为n×n的方阵;
取矩阵Am×n的前k个奇异值对应的矩阵VT k×n来表示矩阵Am×n,其中k为大于等于1的整数;
对矩阵VT k×n进行SVM训练,得到Model模型。
10.根据权利要求8所述的负面舆情指数的计算***,其特征在于,还包括人工标注训练集更新模块,用于将负面舆情指数值超过预定阈值的待分类文本和分类结果1与分类结果2的值均为非负面的待分类文本作为新的负面和非负面语料更新所述训练集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510355005.0A CN104951548B (zh) | 2015-06-24 | 2015-06-24 | 一种负面舆情指数的计算方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510355005.0A CN104951548B (zh) | 2015-06-24 | 2015-06-24 | 一种负面舆情指数的计算方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104951548A CN104951548A (zh) | 2015-09-30 |
CN104951548B true CN104951548B (zh) | 2018-04-20 |
Family
ID=54166206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510355005.0A Active CN104951548B (zh) | 2015-06-24 | 2015-06-24 | 一种负面舆情指数的计算方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104951548B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN105912576B (zh) * | 2016-03-31 | 2020-06-09 | 北京外国语大学 | 情感分类方法及*** |
CN108090040B (zh) * | 2016-11-23 | 2021-08-17 | 北京国双科技有限公司 | 一种文本信息分类方法及*** |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
CN107798033B (zh) * | 2017-03-01 | 2021-07-02 | 中南大学 | 一种公安领域案件文本的分类方法 |
CN107918633B (zh) * | 2017-03-23 | 2021-07-02 | 广州思涵信息科技有限公司 | 基于语义分析技术的敏感舆情内容识别方法和预警*** |
CN107992542A (zh) * | 2017-11-27 | 2018-05-04 | 中山大学 | 一种基于主题模型的相似文章推荐方法 |
CN108256078B (zh) * | 2018-01-18 | 2019-07-12 | 北京百度网讯科技有限公司 | 信息获取方法和装置 |
CN108491406B (zh) * | 2018-01-23 | 2021-09-24 | 深圳市阿西莫夫科技有限公司 | 信息分类方法、装置、计算机设备和存储介质 |
CN108509492B (zh) * | 2018-02-12 | 2023-01-03 | 郑长敬 | 基于房地产行业的大数据处理及*** |
CN108595564B (zh) * | 2018-04-13 | 2020-08-11 | 众安信息技术服务有限公司 | 媒体友好度评估方法、装置及计算机可读存储介质 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN112765442A (zh) * | 2018-06-25 | 2021-05-07 | 中译语通科技股份有限公司 | 基于新闻大数据的网络情绪波动指数监测分析方法及*** |
CN109558587B (zh) * | 2018-11-08 | 2021-04-16 | 武汉大学 | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 |
CN110532386A (zh) * | 2019-08-12 | 2019-12-03 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及存储介质 |
CN110825945A (zh) * | 2019-10-29 | 2020-02-21 | 深圳前海环融联易信息科技服务有限公司 | 负面舆论收集方法、装置、计算机设备及存储介质 |
CN112148874A (zh) * | 2020-07-07 | 2020-12-29 | 四川长虹电器股份有限公司 | 可自动新增用户潜在意图的意图识别方法及*** |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
CN112905736B (zh) * | 2021-01-27 | 2023-09-19 | 郑州轻工业大学 | 一种基于量子理论的无监督文本情感分析方法 |
CN113011166A (zh) * | 2021-04-19 | 2021-06-22 | 华北电力大学 | 一种基于决策树分类的继电保护缺陷文本同义词识别方法 |
CN113642867A (zh) * | 2021-07-30 | 2021-11-12 | 南京星云数字技术有限公司 | 评估风险的方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150432A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种网络舆情分析方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
US8732605B1 (en) * | 2010-03-23 | 2014-05-20 | VoteBlast, Inc. | Various methods and apparatuses for enhancing public opinion gathering and dissemination |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033880A (zh) * | 2009-09-29 | 2011-04-27 | 国际商业机器公司 | 基于结构化数据集合的标注方法和装置 |
-
2015
- 2015-06-24 CN CN201510355005.0A patent/CN104951548B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8732605B1 (en) * | 2010-03-23 | 2014-05-20 | VoteBlast, Inc. | Various methods and apparatuses for enhancing public opinion gathering and dissemination |
CN103150432A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种网络舆情分析方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104951548A (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951548B (zh) | 一种负面舆情指数的计算方法及*** | |
Kim et al. | Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
Santra et al. | Genetic algorithm and confusion matrix for document clustering | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
CN106919619A (zh) | 一种商品聚类方法、装置及电子设备 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Duarte et al. | A review of semi-supervised learning for text classification | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
Yeole et al. | Opinion mining for emotions determination | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN103268346B (zh) | 半监督分类方法及*** | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
Gao et al. | Sentiment classification for stock news | |
Guan et al. | Hierarchical neural network for online news popularity prediction | |
CN115329085A (zh) | 一种社交机器人分类方法及*** | |
Yang et al. | Learning topic-oriented word embedding for query classification | |
Xiao | A Survey of Document Clustering Techniques & Comparison of LDA and moVMF | |
Liu et al. | Network public opinion monitoring system for agriculture products based on big data | |
Ding et al. | Sentiment analysis of chinese micro-blog based on classification and rich features | |
Pita et al. | Strategies for short text representation in the word vector space | |
Evangeline et al. | Text categorization techniques: A survey | |
Chahidi et al. | Impact of neural network architectures on arabic sentiment analysis | |
Alharithi | Performance analysis of machine learning approaches in automatic classification of Arabic language | |
Wen et al. | Blockchain-based reviewer selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |